一种商业选址方法及系统与流程

文档序号：14156916阅读：208来源：国知局

本发明涉及一种商业选址方法及系统，特别是涉及一种基于卫星数据和城市数据的商业选址方法及系统。

背景技术：

对于商业的成功而言，选择一个好的店铺位置是十分重要的。好的店铺位置可以给商家带来很多顾客，实现商业的成功。而较差的店铺选址的错误在开业之后却是几乎不能改正的。因此商业选址对商家来说至关重要。然而商业选址的过程费时又费力，需要人们搜集和调研各种类型的数据，例如交通状况、潜在顾客的多少、租金状况、员工的来源等等

传统的商业选址方法包括调研、询问专业的咨询公司。一些研究工作在探索使用用户在网络上的签到数据、用户连接实体店wifi的记录、在电子地图上的查询数据等来进行商业选址分析。然而，这些方法都存在一些问题，一方面这些方法使用的数据获取比较难，另一方面使用的数据可能会涉及到用户的隐私问题。

随着科技的发展，卫星数据(如灯光数据、卫星图片数据等)和一些城市数据(如城市路网、汽车轨迹等)变得越来越容易获取。这些数据从一些方面反映了一个地点的商业潜力，例如城市灯光的强度反映了一个地区人口的密度和商业的繁荣程度，卫星图片可以反映地面建筑用地和绿地的比例，对于城市数据，城市路网反映了各个地区交通的便利程度，汽车轨迹反映了人群的移动情况。不同类型的商业对地点的需求可能不同，如大型商场偏向于在繁华的地方，以吸引尽可能多的顾客，而篮球馆等因为占地面积比较大，考虑到租金的问题，会选择租金便宜，距离城市中心一段距离的地方，因此，本发明从卫星数据和城市数据出发，提出一种基于卫星数据和城市数据的商业选址技术，以解决上述问题。

技术实现要素：

为克服上述现有技术存在的不足，本发明之目的在于提供一种商业选址方法及系统，以解决传统的调研方法成本较高，而且时间较长的问题，实现自动商业选址的目的。

为达上述及其它目的，本发明提出一种商业选址方法，包括如下步骤：

步骤一，获取卫星数据和城市数据；

步骤二，根据收集到的卫星数据和城市数据对目标地点抽取特征；

步骤三，使用降噪自编码器对抽取到的特征进行降维和去噪处理，并使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型；

步骤四，使用训练好的模型，根据目标地点的特征，判断该地点是否适合某一类型的商业。

进一步地，所述卫星数据包括灯光强度数据、卫星可见红外扫描辐射计数据以及卫星图像数据，所述卫星可见红外扫描辐射计数据包括地表温度、植被覆盖率、地表反射率。

进一步地，所述城市数据包括城市路网数据和汽车轨迹数据。

进一步地，步骤二进一步包括：

针对灯光强度采样数据，对目标地点计算平均灯光强度，根据灯光强度采样数据进行聚类，得到城市中一些商业中心的位置，并计算目标地点到这些商业中心的距离和这些距离中的最小值；将平均灯光强度和到聚类中心的距离作为灯光强度数据的特征；

针对卫星可见红外扫描辐射计的数据，分别计算目标地点平均地表温度、平均植被覆盖率、平均地表反射率，以及该些特征在一年中不同月份的变化情况；

针对卫星图像数据，利用卷积神经网络从卫星图像中抽取特征。

进一步地，步骤二还包括：

对于城市数据中的城市路网数据，统计目标地点的各类道路长度，总长度，以及交叉点的数目作为特征；

针对汽车轨迹数据，统计目标地点各个时间段的gps记录的数目和访问次数作为特征向量。

进一步地，步骤三还包括：

将抽取到的同一地点的特征拼合成一个向量，作为自编码器的输入和输出，训练自编码器；

待训练完成，使用其中的编码器部分对特征向量进行降维；

使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型。

进一步地，所述自编码器的训练过程为最小化输入x〔i〕和输出f(x〔i〕)的偏差：

其中，其中x表示前面抽取到的特征拼接成的特征向量，下标i表示第i个训练样本，w和b为神经网络中的权重和偏置，σ为神经网络中的激活函数。

进一步地，所述自编码器的输出z〔i〕计算公式如下：

为达到上述目的，本发明还提供一种商业选址系统，包括：

数据获取单元，用于获取卫星数据和城市数据；

特征抽取单元，用于根据收集到的卫星数据和城市数据对目标地点抽取特征；

模型训练单元，用于使用降噪自编码器对抽取到的特征进行降维和去噪处理，并使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型；

预测单元，用于使用训练好的模型，根据目标地点的特征，判断该地点是否适合某一类型的商业。

进一步地，所述卫星数据包括灯光强度数据、卫星可见红外扫描辐射计数据以及卫星图像数据，所述卫星可见红外扫描辐射计数据包括地表温度、植被覆盖率、地表反射率，所述城市数据包括城市路网数据和汽车轨迹数据。

与现有技术相比，本发明一种商业选址方法及系统通过卫星数据和一些城市数据，对一个给定地点抽取特征，使用自编码器对抽取到的特征进行降维和去噪，最后使用经典的分类或者拟合模型根据处理过的特征，判断该地点是否合适开某类的店铺，实现了自动商业选址的目的。

附图说明

图1为本发明一种商业选址方法的步骤流程图；

图2为本发明一种商业选址系统的系统架构图；

图3为本发明具体实施例之商业选址系统的结构示意图；

图4为本发明具体实施例中卷积神经网络结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种商业选址方法的步骤流程图。如图1所示，本发明一种商业选址方法，包括如下步骤：

步骤101，获取卫星数据和城市数据。在本发明具体实施例中，卫星数据包括灯光强度数据、卫星可见红外扫描辐射计数据(如地表温度、植被覆盖率、地表反射率等)以及卫星图像数据，城市数据包括城市路网数据和汽车轨迹数据。

步骤102，根据收集到的卫星数据和城市数据对目标地点抽取特征。

具体地，步骤102进一步包括：

针对卫星可见红外扫描辐射计的数据，分别计算目标地点平均地表温度、平均植被覆盖率、平均地表反射率等，以及这些特征在一年中不同月份的变化情况；

针对卫星图像数据，因为图像是由像素组成的，直接定义特征比较困难，这里利用比较流行的卷积神经网络从卫星图像中抽取特征。该神经网络模型使用卫星图像作为输入，各类poi(pointofinterest，兴趣点)的数目作为输出，该卷积神经网络模型架构如图2所示，最后两层是全连接层。当模型训练完成时，删掉最后一层，使用最后的隐藏层输出作为特征向量，即给定目标地点的图像，输出最后一个隐藏层的值作为卫星图像的特征向量；

对于城市数据中的城市路网数据，统计目标地点的各类道路长度，总长度，以及交叉点的数目作为特征；

针对汽车轨迹数据，统计目标地点各个时间段的gps记录的数目和访问次数作为特征向量。

步骤103，使用降噪自编码器对抽取到的特征进行降维和去噪处理，并使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型。具体地，首先将抽取到的同一地点的特征拼合成一个向量，作为自编码器的输入和输出，训练自编码器；待模型训练完成，使用其中的编码器部分对特征向量进行降维；使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型。

步骤104，使用训练好的模型，根据目标地点的特征，判断该地点是否适合某一类型的商业，即给定一个地点，输入抽取的特征，输出该地点是否适合该类型的店铺。

图2为本发明一种商业选址系统的系统架构图。如图2所示，本发明一种商业选址系统，包括：

数据获取单元201，用于获取卫星数据和城市数据。在本发明具体实施例中，卫星数据包括灯光强度数据、卫星可见红外扫描辐射计数据(如地表温度、植被覆盖率、地表反射率等)以及卫星图像数据，城市数据包括城市路网数据和汽车轨迹数据。

特征抽取单元202，用于根据收集到的卫星数据和城市数据对目标地点抽取特征。其中，特征抽取单元202具体用于：

针对灯光强度数据，对目标地点计算平均灯光强度，根据灯光强度数据进行聚类，得到城市中一些商业中心的位置，并计算目标地点到这些商业中心的距离和这些距离中的最小值；将平均灯光强度和到聚类中心的距离作为灯光强度数据的特征；

针对卫星图像数据，因为图像是由像素组成的，直接定义特征比较困难，这里利用比较流行的卷积神经网络从卫星图像中抽取特征。该神经网络模型使用卫星图像作为输入，各类poi的数目作为输出，该卷积神经网络模型架构如图4所示，最后两层是全连接层(图示为全连接层和输出层)。当模型训练完成时，删掉最后一层，使用最后的隐藏层输出作为特征向量，即给定目标地点的图像，输出最后一个隐藏层的值作为卫星图像的特征向量；

对于城市数据中的城市路网数据，统计目标地点的各类道路长度，总长度，以及交叉点的数目作为特征；

针对汽车轨迹数据，统计目标地点各个时间段的gps记录的数目和访问次数作为特征向量。

模型训练单元203，用于使用降噪自编码器对抽取到的特征进行降维和去噪处理，并使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型。具体地，模型训练单元203首先将抽取到的同一地点的特征拼合成一个向量，作为自编码器的输入和输出，训练自编码器；待模型训练完成，使用其中的编码器部分对特征向量进行降维；使用处理后的特征，针对特定的商业类型，训练经典的分类模型或者拟合模型。

预测单元204，用于使用训练好的模型，根据目标地点的特征，判断该地点是否适合某一类型的商业，即给定一个地点，输入抽取的特征，输出该地点是否适合该类型的店铺。

以下将通过一具体实施例来说明本发明之商业选址方法：

首先定义一个地点l＝(lng，lat，r)，其中lng和lat是该地点的经纬度，r是考虑的l周边地区的半径，这里设置r为定值。本发明之目标是给定一个地点，判断其是否适合开某种类型的店铺。这里根据是否有无该类型的店铺设置标记变量y，如果有该类型的店铺，标记设置为1，否则设置为0。例如，考虑开一个餐馆，给定地点l，如果该地点有餐馆类的poi，则标记为1，否则标记为0，图3为本发明具体实施例之商业选址系统的系统架构图。下面将配合图3详细描述如何抽取各类特征，然后根据抽取到的特征训练分类模型或者拟合模型来判断这些地点是否适合某种类型的店铺。

一、卫星数据

1、灯光强度数据的特征

1)平均灯光强度

首先从光污染地图上采样得到灯光的强度值，每隔50m一个采样点。然后根据这些采样点，计算目标地点的平均灯光强度：

其中n(l，r)表示处于地点l半径r以内的采样点集合，表示集合内一个采样点的灯光强度。

2)到商业中心距离

灯光强度反映了人们经济活动的强度，因此可以根据灯光强度来找到商业中心。而与这些商业中心的距离则反映了该地点的商业潜力。首先可以使用聚类的方法来发现这些商业中心。设置一个阈值，把所有大于该阈值的采样点进行聚类，得到的聚类结果之后，计算各个类的地理中心。聚类方法可以采用简单kmeans方法。得到这些商业中心后，可以计算目标地点到各个商业中心的距离f^dis＝[d1，d2，...]，以及这些距离中的最小值f^mdis。

2、地表温度特征

1)平均地表温度

卫星将地表根据经纬度划分成很多格子，这里用p^l＝(lng，lat)表示一个格子。对格子p^l，在t时刻的值可以用表示。lst是经过反演得到的地表温度，ch4和ch5是传感器获取的地表发射率。卫星每隔10天产生一次数据。定义位于地点l半径范围r的所有采样点为集合分别对lst,ch4和ch5计算平均值，记为计算公式如下：

为了简化模型，这里只抽取了六月份白天和夜晚，以及十二月份白天和夜晚的平均值作为特征，记为

2)地表温度方差

计算十二月份和六月份的差值，对应于白天和晚上分别记为dj(f^ld)和dj(f^ln)。计算方法如下：

3、植被覆盖率特征

植被覆盖数据的一个采样点记为p^v＝(lng，lat)，对应该采样点t时刻的数据为ch1-ch6是不同波长的地表反射率，ndvi是地表的植被覆盖情况。与地表温度的数据同理，可以计算植被覆盖特征的平均值，对应于六月和十二月分别用和表示。

4、反射率和发射率特征

1)平均反射率和发射率

风云气象卫星还提供了关于地表反射率和发射率的数据。与前两种数据类似，一个采样点记为p^θ，对应t时刻的数据记为emissive表示earthviewemissivebandsscaledintegers。refsb表示earthviewreflectivesolarbandsscaledintegers。lc表示地表覆盖物情况，是一个取值在0-17间的离散值。同样可以对一个地点的emissive和refsb计算出六月份和十二月份的平均值，记为和

2)地表覆盖物

其中地表覆盖lc是一个离散值，不能直接计算平均值。这里使用出现次数最多的lc值，作为目标地点l的地表覆盖特征，计算公式如下：

5、卫星图像特征

首先根据目标地点选择卫星图像，然后将该图像作为卷积神经网络的输入。神经网络的输出是该目标地点附近各类poi的数目。神经网络的结构如图4所示，包括2个卷积层，2个下采样层(即池化层)和2个全连接层(图示为全连接层和输出层)。在模型训练完成之后，模型的最后一个隐藏层的输出将作为抽取到的图像特征fⁱ。

二、城市数据特征

城市数据包括城市中各种方式获得的数据，包括汽车轨迹、交通状况、气象和空气状况等。这里仅考虑城市路网和汽车轨迹两种数据。

1、路网特征

1)道路长度针对目标地点l半径r范围内的道路，计算不同等级道路的长度作为路网的特征。

2)道路总长度获取不同等级道路长度之后，可以计算所有类型道路的总长度。

3)交叉点的数目在路网中，可以统计道路交叉点的数目，一般来说，交叉点的数目越多，居住的人口数目越大。

2、汽车轨迹特征

汽车的轨迹反映了人们的出行状况，这些信息与商家的顾客数目紧密相关。根据汽车轨迹，我们将一天分为24个不重叠的时间段，获取以下两种特征：

1)gps点的个数统计各个小时出现在地点l附近的gps点的个数，作为特征

2)访问的次数汽车进入地点l半径r范围内，可以认为是一次访问。统计一天中各个小时访问地点l汽车数目作为特征

三、降噪和降维

本发明抽取到的特征维度比较高，可以使用降噪自编码器对抽取到的特征进行去噪和降维。以简单的三层自编码器神经网络(本发明具体实施例中为有监督学习的自编码器神经网络)为例，输出如下：其中x表示前面抽取到的特征拼接成的特征向量，下标i表示第i个训练样本，w和b是神经网络中的权重和偏置。σ是神经网络中的激活函数，这里使用sigmoid函数，自编码器的训练过程为最小化输入x〔i〕和输出f(x〔i〕)的偏差。

模型训练好之后，使用模型的编码器部分对输入特征进行降维，编码器的输出z〔i〕计算公式如下：

四、选址判断

在降维之后，可以根据特征，使用分类模型或者拟合模型来判断一个地点是否适合开某种类型的店铺。以岭回归为例，输入为降维后的特征z〔i〕，下标表示第i个训练样本。损失函数定义如下：

其中w和λ是模型的参数，||w||²是正则化项，防止模型过拟合。y〔i〕是目标地点的标签，如果有目标类型的店铺则为1，没有则为0。编码器和岭回归的参数可以交替优化来提高判断结果的精度。具体做法是先固定编码器的参数，得到最优的岭回归模型参数。然后固定岭回归模型参数，使用梯度下降法进一步优化编码器。梯度可以由求导的链式法则得到，即和

模型训练完成后，给定一个地点，抽取该地点的特征，特征通过编码器的降维，得到z。最后的输出用如下公式计算：

具体地，可以设定一个阈值，当大于该阈值时，可以认为该地点适合该类型的店铺。

综上所述，本发明一种商业选址方法及系统通过卫星数据和一些城市数据，对一个给定地点抽取特征，使用自编码器对抽取到的特征进行降维和去噪，最后使用经典的分类或者拟合模型根据处理过的特征，判断该地点是否合适开某类的店铺，实现了自动商业选址的目的。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐亚南;朱燕民;沈艳艳
技术所有人：上海交通大学
我是此专利的发明人

上一篇：半监督情况下基于稀疏化理论的特征选择方法与流程
上一篇：一种叫料管理方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。