一种用于确定兴趣点POI数据的方法与装置与流程

文档序号:18739798发布日期:2019-09-21 01:38阅读:212来源:国知局
一种用于确定兴趣点POI数据的方法与装置与流程

本申请涉及POI技术领域,具体而言,本申请涉及一种用于确定兴趣点POI数据的技术。



背景技术:

POI(Point of Interest,兴趣点)是电子地图中必不可少的信息,其通常包含名称、地址、类型和经纬度等信息,用于表征日常生活中遇到的各种地理场所,如学校、房子、医院、景点等。而当前不同电子地图都有一套自身的POI类目体系,不同类目体系下的POI存在诸如名称、地址命名等差异,这也就导致了这些POI数据在空间位置、属性信息以及丰富程度等方面的差异。

为有效地消除不同源POI数据间的不一致性,并把它们组织成一套内容准确、可供用户使用的数据,通常采用遍历、经纬度网格编码等方式对多源POI数据进行融合,而该等方法在处理大规模POI数据是存在诸如计算量大、融合错误率高等问题。



技术实现要素:

本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:

第一方面,本申请实施例提供了一种用于确定兴趣点POI数据的方法,该方法包括:

获取第一数据源中的第一POI;

基于第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;

确定第二数据源中的第二POI;

若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;

若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。

在一个可选实施例中,第一数据源和第二数据源中的POI的区域范围包括至少两种范围大小;

确定第二数据源中的第二POI,包括:

根据第一POI的区域范围的范围大小,从第二数据源中确定与第一POI的区域范围的范围大小相同的第二POI。

在一个可选实施例中,确定第一POI和第二POI的相似度,包括:

根据第一POI的名称与第二POI的名称,确定名称分别对应的分类;

当第一POI的名称与第二POI的名称属于同一分类时,确定第一POI和第二POI的相似度。

在一个可选实施例中,确定第一POI和第二POI的相似度包括:

分别获取第一POI的各个属性信息和第二POI的各个属性信息;

根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI的相似度。

在一个可选实施例中,根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI的相似度,包括:

根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI针对各个属性信息的属性相似度;

根据各个属性信息的属性相似度以及预定的各个属性信息的权重,确定第一POI和第二POI的相似度。

在一个可选实施例中,确定各个属性信息的权重,包括:

获取训练样本,训练样本包括各样本POI对,以及样本POI对中各POI的属性信息,样本POI对中两个POI的数据能够融合;

基于目标函数、样本POI对中各POI的属性信息、以及权重约束条件,对目标函数进行迭代优化,得到各个属性信息的权重。

在一个可选实施例中,POI的属性信息包括以下至少一项:

名称、地址、类型、位置;

POI的属性相似度包括以下至少任一项:

名称相似度、地址相似度、类型相似度、位置相似度。

在一个可选实施例中,根据第一POI的各个属性信息和第二POI的各个属性信息,确定针对各个属性信息的属性相似度,包括:

根据第一POI的类型和第二POI的类型,通过预建立的POI类型相互映射表,确定针对类型的类型相似度;POI类型相互映射表是预先建立的第一数据源中POI和第二数据源中POI的POI类型相互映射表。

第二方面,本申请实施例提供了一种用于确定兴趣点POI数据的合装置,其中,该融合装置包括:

第一获取模块,用于获取第一数据源中的第一POI;

第一确定模块,用于基于第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;

第二确定模块,用于确定第二数据源中的第二POI;

第三确定模块,用于若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;

融合模块,用于若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。

在一个可选实施例中,第一数据源和第二数据源中的POI的区域范围包括至少两种范围大小;

第一确定模块,用于根据第一POI的区域范围的范围大小,从第二数据源中确定与第一POI的区域范围的范围大小相同的第二POI。

在一个可选实施例中,第三确定模块,用于根据第一POI的名称与第二POI的名称,确定名称分别对应的分类;

当第一POI的名称与第二POI的名称属于同一分类时,确定第一POI和第二POI的相似度。

在一个可选实施例中,第三确定模块,用于分别获取第一POI的各个属性信息和第二POI的各个属性信息;根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI的相似度。

在一个可选实施例中,第三确定模块,用于根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI针对各个属性信息的属性相似度;根据各个属性信息的属性相似度以及预定的各个属性信息的权重,确定第一POI和第二POI的相似度。

在一个可选实施例中,该融合装置还包括权重训练模块;

权重训练模块,用于获取训练样本,训练样本包括各样本POI对,以及样本POI对中各POI的属性信息,样本POI对中两个POI的数据能够融合;基于目标函数、样本POI对中各POI的属性信息、以及权重约束条件,对目标函数进行迭代优化,得到各个属性信息的权重。

在一个可选实施例中,POI的属性信息包括以下至少一项:

名称、地址、类型、位置;

POI的属性相似度包括以下至少任一项:

名称相似度、地址相似度、类型相似度、位置相似度。

在一个可选实施例中,第三确定模块,用于根据第一POI的类型和第二POI的类型,通过预建立的POI类型相互映射表,确定针对类型的类型相似度;POI类型相互映射表是预先建立的第一数据源中POI和第二数据源中POI的POI类型相互映射表。

第三方面,本申请实施例提供了一种电子装置,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行如本申请实施例的第一方面的一种用于确定兴趣点POI数据的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如本申请实施例的第一方面的一种用于确定兴趣点POI数据的方法。

本申请实施例提供的技术方案带来的有益效果是:

在本申请实施例的方案中,基于第一数据源中的第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;确定第二数据源中的第二POI;若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。通过确定第一数据源中第一POI的周边区域,拟在该范围内寻找第二数据源中与第一POI潜在匹配的POI,并不是遍历所有的POI,降低了运算量,实现了快速寻找周围潜在匹配的POI,并且,只有在相似度大于设定相似度阈值时,才对第一POI的数据和第二POI的数据进行融合,实现了通过多重约束规则进行周边潜在匹配POI的快速寻找,进一步降低了计算量,提高大规模POI融合效率、融合精度,降低了计算功耗、提高了融合结果的可靠性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种用于确定兴趣点POI数据的方法的流程示意图;

图2为本申请实施例提供的九宫格示意图;

图3a和图3b为本申请实施例提供的两个数据源的POI的一个示意图;

图4a和图4b为本申请实施例提供的两个数据源的POI的另一示意图;

图5为本申请实施例提供的一种用于确定兴趣点POI数据的融合装置的结构示意图;

图6为适用于用来实现本申请实施方式的示例性电子装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本申请实施例提供的一种用于融合兴趣点POI的方法的流程示意图。

在步骤S1中,获取第一数据源中的第一POI,在此,第一POI是指第一数据源中任意的POI,如通过提供第一数据源的第三方设备所提供的应用程序接口,来获取第一数据源中的POI。

在步骤S2中,基于第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,第一POI的周边区域是基于第一POI的区域范围确定的、与第一POI的区域相邻的区域。

在此,第一POI的区域范围是指数据源中能够覆盖该POI所表征的场所在地理范围上按一定形状的划分,如假设按正多边形划分,则正多边形的边长即是POI的区域范围。

在此,第一POI的周边区域可以是第一POI的周边九宫格、也可以是周边16格等,总之是基于第一POI的区域范围确定的、与第一POI的区域相邻的区域,与第一POI本身在区域形状大小上相同,也可以是面积相同。如以九宫格为例,如图2所示,图2示出了数据源A的第一POI,第一POI为POIA所在的格子,POIA的周边范围为R1,以POIA为中心的POIA的周边九宫格中的八个格子的每一格POIB即为POIA的周边区域,POIB的周边范围也为R1。

在步骤S3中,确定第二数据源中的第二POI。

具体地,可随机从第二数据源中确定得到第二POI,也可以按照一定的规则,如大小形状相同或相似,从第二数据源中确定得到第二POI,以用于后续的POI匹配。在一个可选实施例中,第一数据源和第二数据源中的POI的区域范围包括至少两种范围大小;

步骤S3,包括:根据第一POI的区域范围的范围大小,从第二数据源中确定与第一POI的区域范围的范围大小相同的第二POI。

在此,范围大小相同可以是形状相同(如形状可以是正方形、长方形、圆形等,具体不限)且面积相同。

在此,第一数据源和第二数据源中的POI的区域范围至少包括两种范围大小,如第一区域范围和第二区域范围,第一区域范围是指数据源中表征地理范围较大的场所(如场所所覆盖的地理范围满足预定阈值,如方圆几千米)的POI的周边范围,第二区域范围是指该数据源中除表征地理范围较大的场所的POI之外的其他POI的周边范围。例如,假设第一数据源为数据源A,第二数据源为数据源B,对两套数据源中的POI,提取出“火车站”、“飞机场”、“地名地址信息”、“风景名胜”、“户外活动场所”、“产业园区”等几个范围较大的POI,设定一个较大的周边范围R1(也就是第一周边范围),对于其他的POI则设定较小的周边范围R2(也就是第二周边范围)。在此,需要说明的是,在从数据源B的POI中寻找数据源A的POI周边的POI时,区域范围设置相同的POI进行内部比较,即数据源A中区域范围为R1的POI只与数据源B中区域范围同为R1的POI进行比较。

例如,数据源A,如图3a所示,中第一POI为POIA,需要从数据源B的POI中寻找与数据源A中第一POI如POIA潜在匹配的POI,POIA的形状为正方形,其边长为R1,则在步骤S3中,通过提供第二数据源的第三方设备所提供的应用程序接口,来获取第二数据源,即数据源B,如图3b所示,中的正方形边长同为R1的POI。数据源B中的POI包括两种区域范围R1和R2,因此,确定数据源B中的区域范围为R1的POIC为第二POI。

在步骤S4中,若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识。

在此,地理位置标识可以对POI采用地理格子算法得到的地理编码,也可以是采用其他算法得到的编码结果。

在一个可选实施例中,在步骤S4中确定所述第一POI和所述第二POI的相似度,包括:

根据第一POI的名称与第二POI的名称,确定名称分别对应的分类;

当第一POI的名称与第二POI的名称属于同一分类时,确定第一POI和第二POI的相似度。

在具体实施例中,可采用正则表达式从数据源中匹配和提取出第一POI的名称和第二POI的名称分别对应的分类。在此,第一种分类包括但不限于如表征“门”、“出口”、“停车场”、“卫生间”、“建筑物的分区(东区、西区等)”、“建筑物的分期(一期、二期等)”、“建筑物的分座(东座、西座等)”、“楼栋号(1栋、1号、1号楼等)”、“公交车站”、“地铁站”等场所的POI名称,第二种分类是指数据源中除第一种分类之外的其他POI名称。

具体地,在步骤S4中,若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识。

例如,假设需要从数据源B(图4b所示)的POI中寻找与数据源A(图4a所示)中第一POI如POIA潜在匹配的POI,POIA的形状为正方形,其边长为R1,在步骤S3中,获取到了第二数据源中的正方形边长同为R1的POIC,则在步骤S4中,采用地理格子算法,计算来自数据源A的POIA周边区域的8个格子POIB1-POIB8的地理编码与来自数据源B中周边范围为R1的POIC的当前位置的地理编码是否相同,若POIC的当前位置的地理编码与POIA周边区域的8个格子中任何一个格子的地理编码相同,如POIC与POIB2的地理编码相同,即为第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,则确定第一POI和第二POI的相似度。

在此,本申请实施例通过对数据源中POI设置不同的区域范围,实现了分层处理并能够快速寻找周边POI的有益效果,同时也进一步降低了运算量,而现有技术对一个POI的周边POI寻找方式一般通过遍历或者经纬度编码的方式进行,采用遍历的方式是对每一个POI进行判断时都要对另一个数据库的所有POI进行一次遍历,将符合距离条件的POI作为周边的POI,这种方式在数据量大时计算量非常大,而采用经纬度编码的方式,一般都是将经纬度进行网格编码,通过网格的编码能够快速寻找周边相同编码的POI,但目前的方法对所有的POI都设定同一个编码网格的大小,对于一些范围较大的POI,如景区、行政区划的名称等,同一实体的位置在两套数据中相差很大,如果设定较小的周边距离,会导致这部分POI不能被正确融合,而设定较大的周边距离时,会造成计算量激增。

在一个可选实施例中,步骤S4包括:

分别获取第一POI的各个属性信息和第二POI的各个属性信息;

根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和所述第二POI的相似度。

其中,根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和所述第二POI的相似度,包括:

根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI针对各个属性信息的属性相似度;

根据各个属性信息的属性相似度以及预定的各个属性信息的权重,确定第一POI和第二POI的相似度。

在此,POI的属性信息包括以下至少一项:

名称、地址、类型、位置;

POI的属性相似度包括以下至少任一项:

名称相似度、地址相似度、类型相似度、位置相似度。。在此,首先对每一POI的属性相似度描述如下:

1)名称相似度,其包括原始名称相似度和基本名称相似度

i原始名称相似度,首先根据POI所属的省和市将名称中关于省和市的信息去除,以免因为不同数据源命名方式不同带来的影响。同时,不同数据源对名称中的数字使用较为混乱,如数据源A中为“深圳湾科技生态园一区”,在数据源B中为“深圳湾科技生态园1区”,因此将名称中的阿拉伯数字统一转换成中文的数字。然后采用字符串相似度计算方法计算相似度。

ii基本名称相似度,除了去除名称中的省和市信息,将阿拉伯数字转换为中文数字,同时去除掉括号内的信息,一般括号内的是一些分店信息,如“卡西欧(海岸城店)”。将去除括号内信息的名称作为基本名称,采用字符串相似度算法计算相似度。

2)地址相似度,与名称相似度的处理方式类似,将地址中的省和市信息去除,然后采用字符串相似度算法进行相似度计算。

3)类型相似度

对于两个数据源,需要分别计算每个数据源的类型相似度,以数据源A和数据源B举例说明如下:

i数据源A类型相似度;

首先建立数据源A中POI和数据源B中POI的POI类型相互映射表,即建立两套数据源类目体系的相互映射,将数据源B的POI都根据映射表得到在数据源A类目体系下的类型,然后采用字符串相似度算法对比两个POI类型的相似度。例如,来自数据源A的“宝安国际机场”,在A的类目体系下为“机场”;来自数据源B的“宝安机场”,在B的类目体系下为“飞机场”,通过映射表,“飞机场”在A的类目体系下为“机场”;然后用字符串相似度算法计算“机场”和“机场”的相似度。

ii数据源B类型相似度,计算方式与上类似,将数据源A的POI根据映射表映射到其在数据源B中的类目体系。

4)位置相似度,位置相似度主要是根据两个POI的距离来判断,距离越近则相似度越高,距离越远则相似度越低。计算公式如下(以POIA和POIB为例):

其中,lnga和lngb分别为POIA和POIB的经度,lata和latb分别为POIA和POIB的纬度,dist(a,b)为POIA和POIB的欧几里得距离,Sdist(a,b)为POIA和POIB的位置相似度。

通过公式(1)可以得到地理二维空间上POIA与POIB之间的欧几里得距离,通过公式(2)可以看出欧几里得距离Sdist(a,b)与位置相似度Sdist(a,b)成反比例关系,将根据公式(1)得到的欧几里得距离Sdist(a,b)代入公式(2),可以得到位置相似度Sdist(a,b),且距离越近则相似度越高,距离越远则相似度越低。

然后,根据各个属性信息的属性相似度以及预定的各个属性信息的权重,根据下述公式(3),确定第一POI和第二POI的相似度:

其中,P为总相似度,Si表示第i个属性信息的属性相似度,以wi表示第i个属性信息的权重。当P大于相似度阈值T时则认为两个POI是匹配的,指向同一实体,可以进行融合。

本申请实施例通过考虑两两POI名称、地址、类型、位置等属性信息的相似度,进一步提高了融合准确度,同时通过对名字和类型的解析,提取出一些容易受到干扰的特殊类型POI,当两个POI的特殊类型相同时才进行相似度匹配计算,解决了现有技术在对POI融合过程中过于依赖POI名称相似度,而对POI类型相似度考虑不足的问题。由于不同来源的POI对名称和地址的命名存在差异,一些POI可能名称与地址非常相似不是指向同一实体,却被错误融合,如来自数据源A的“海岸城”购物中心,与来自数据源B的“海岸城购物中心”以及“海岸城东座”,进行名称比较时“海岸城”与“海岸城东座”相似度更高,地址相似度又很高,这时他们的总相似度可能要高于A的“海岸城”购物中心与B的“海岸城购物中心”,就导致错误融合。

在一个可选实施例中,确定各个属性信息的权重,包括:

获取训练样本,训练样本包括各样本POI对,以及样本POI对中各POI的属性信息,样本POI对中两个POI的数据能够融合;

基于目标函数、样本POI对中各POI的属性信息、以及权重约束条件,对目标函数进行迭代优化,得到各个属性信息的权重。

具体地,首先基于POI训练样本的个样本POI对,如通过采集现有标记的正确融合的POI数据对以及样本POI对中各POI的属性信息作为训练样本,基于预定的目标函数、样本POI对中各POI的属性信息、以及权重约束条件,如下式(4),以及设定的相似度阈值T,对目标函数进行迭代优化,得到各个属性信息的权重;

其中,在进行训练时,需要满足以下公式(4)所示的两个条件,即权重约束条件:

通过不断迭代对目标函数进行优化,可以确定满足权要约束条件以及预定的相似度阈值的各个属性信息的权重。

进一步地,目标函数还可以对相似度阈值以及各个属性信息的权重一同进行优化,例如将相似度阈值T设定范围为[0.3~0.8],步长设为0.05,在初始T=0.3下,根据训练样本得到一组分量权重,然后通过步长增加阈值T的大小,再根据训练样本得到的另一组分量权重,且在进行训练时,需要满足公式(2)所示的约束条件;通过对目标函数的不断迭代训练,得到最优的各个属性信息的权重和相似度阈值。

在此,本申请实施例通过迭代的方式实现自动寻找最优的权重和阈值,解决了现有技术中权重和阈值设定仅凭经验,而实际大规模数据中存在多种不可预料的情况,所带来的考虑不周全容易导致错误融合的技术问题,从而进一步提高了POI融合的效率和融合准确度。

在步骤S5中,若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,得到融合后的POI数据。

可选地,融合后的POI数据包括以下任一项:

-第一数据源和第二数据源中有映射关系的数据:

-若第二数据源中存在未与第一数据源中的POI匹配的POI,融合后的POI数据包括该POI。

-若第一数据源中存在未与第二数据源中的POI匹配的POI,融合后的POI数据包括该POI。

例如,若POIA与POIB匹配,则将这两个POI进行融合,如POIA为数据源A中的“飞机场”类型POI,POIB为数据源B中的“机场”类型POI,A中的“飞机场”类型映射到数据源B“机场”类型,数据源B的“机场”类型映射到数据源A的“飞机场”类型,在最终的融合结果中保留{“飞机场”、“机场”}这两个类型,从而可以根据不同的需求使用不同来源的类型,若第二数据源中存在未与第一数据源中的POI匹配的POI,融合后的POI数据包括该POI,若数据源A中存在未与数据源B中的POI匹配的POI,融合后的POI数据包括该POI,也即对于两套数据源中没有与之匹配的POI的数据,则保留自己的所有属性,并包含于融合后的POI数据中。

在一个可选实施例中,根据第一POI的类型和第二POI的类型,通过预建立的POI类型相互映射表,确定针对类型的类型相似度;POI类型相互映射表是预先建立的第一数据源中POI和第二数据源中POI的POI类型相互映射表。

由于不同来源的POI类目体系可能存在很大的差异,不同分类体系各有优势,为了方便统一以及保留两者的优势,构建了两套分类体系的相互映射表,如对于数据源A和数据源B,建立从数据源A的类目体系映射到数据源B的类目体系,以及从B到A的映射,如数据源A中的“飞机场”类型映射到数据源B的“机场”类型,数据源B的“机场”类型映射到数据源A的“飞机场”类型。

根据第一POI的类型和第二POI的类型,通过POI类型相互映射表,确定第一POI和第二POI的类型相似度,如采用字符串相似度算法对比两个POI的类型相似度。

在此,需要说明的是,POI类型相互映射表的建立仅需在计算类型相似度之前完成即可。

图5为本申请实施例提供的一种用于确定兴趣点POI的融合装置1的结构示意图,其中,融合装置1包括第一获取模块21、第二确定模块22、第二确定模块23、第三确定模块24和融合模块25。具体地,第一获取模块21获取第一数据源中的第一POI;第一确定模块22基于第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;第二确定模块23确定第二数据源中的第二POI;第三确定模块24若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;融合模块25若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。

在一个可选实施例中,第一数据源和第二数据源中的POI的区域范围包括至少两种范围大小;

第一确定模块21根据第一POI的区域范围的范围大小,从第二数据源中确定与第一POI的区域范围的范围大小相同的第二POI。

在一个可选实施例中,第三确定模块24根据第一POI的名称与第二POI的名称,确定名称分别对应的分类;当第一POI的名称与第二POI的名称属于同一分类时,确定第一POI和第二POI的相似度。

在一个可选实施例中,第三确定模块24分别获取第一POI的各个属性信息和第二POI的各个属性信息;根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI的相似度。

在一个可选实施例中,第三确定模块24根据第一POI的各个属性信息和第二POI的各个属性信息,确定第一POI和第二POI针对各个属性信息的属性相似度;根据各个属性信息的属性相似度以及预定的各个属性信息的权重,确定第一POI和第二POI的相似度。

在一个可选实施例中,融合装置还包括权重训练模块;

权重训练模块获取训练样本,训练样本包括各样本POI对,以及样本POI对中各POI的属性信息,样本POI对中两个POI的数据能够融合;基于目标函数、样本POI对中各POI的属性信息、以及权重约束条件,对目标函数进行迭代优化,得到各个属性信息的权重。

在一个可选实施例中,POI的属性信息包括以下至少一项:

名称、地址、类型、位置;

POI的属性相似度包括以下至少任一项:

名称相似度、地址相似度、类型相似度、位置相似度。

在一个可选实施例中,第三确定模块24根据第一POI的类型和第二POI的类型,通过预建立的POI类型相互映射表,确定针对类型的类型相似度;POI类型相互映射表是预先建立的第一数据源中POI和第二数据源中POI的POI类型相互映射表。

需要说明的是:上述实施例提供的用于确定兴趣点POI数据的装置与基于用于确定兴趣点POI数据的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在本申请实施例的方案中,基于第一数据源中的第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;确定第二数据源中的第二POI;若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。通过确定第一数据源中第一POI的周边区域,拟在该范围内寻找第二数据源中与第一POI潜在匹配的POI,并不是遍历所有的POI,降低了运算量,实现了快速寻找周围潜在匹配的POI,并且,只有在相似度大于设定相似度阈值时,才对第一POI的数据和第二POI的数据进行融合,实现了通过多重约束规则进行周边潜在匹配POI的快速寻找,进一步降低了计算量,提高大规模POI融合效率、融合精度,降低了计算功耗、提高了融合结果的可靠性。

基于与本申请的实施例中的用于确定兴趣点POI数据的方法相同的原理,本申请的实施例中还提供了一种电子装置,该电子装置可以包括但不限于:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行时实现以上实施例所示的方法。

在本实施例的方案中,基于第一数据源中的第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;确定第二数据源中的第二POI;若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。通过确定第一数据源中第一POI的周边区域,拟在该范围内寻找第二数据源中与第一POI潜在匹配的POI,并不是遍历所有的POI,降低了运算量,实现了快速寻找周围潜在匹配的POI,并且,只有在相似度大于设定相似度阈值时,才对第一POI的数据和第二POI的数据进行融合,实现了通过多重约束规则进行周边潜在匹配POI的快速寻找,进一步降低了计算量,提高大规模POI融合效率、融合精度,降低了计算功耗、提高了融合结果的可靠性。

基于与本申请的实施例中的用于确定兴趣点POI数据的方法相同的原理,本申请的实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述实施例所示的方法,在此不再赘述。

在本实施例的方案中,基于第一数据源中的第一POI和第一POI的区域范围,确定第一POI的至少一个周边区域,周边区域是基于区域范围确定的、与第一POI的区域相邻的区域;确定第二数据源中的第二POI;若第二POI的地理位置标识与第一POI所对应的任一地理位置标识相同,确定第一POI和第二POI的相似度,其中,第一POI所对应的地理位置标识包括第一POI的地理位置标识和至少一个周边区域的地理位置标识;若相似度大于设定相似度阈值,则对第一POI的数据和第二POI的数据进行融合,确定得到融合后的POI数据。通过确定第一数据源中第一POI的周边区域,拟在该范围内寻找第二数据源中与第一POI潜在匹配的POI,并不是遍历所有的POI,降低了运算量,实现了快速寻找周围潜在匹配的POI,并且,只有在相似度大于设定相似度阈值时,才对第一POI的数据和第二POI的数据进行融合,实现了通过多重约束规则进行周边潜在匹配POI的快速寻找,进一步降低了计算量,提高大规模POI融合效率、融合精度,降低了计算功耗、提高了融合结果的可靠性。

图6为适用于用来实现本申请实施方式的示例性电子设备的结构示意图,该电子设备400包括处理器401和存储器403,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备400还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备400的结构并不构成对本申请实施例的限定。

其中,处理器401应用于本申请实施例中,用于实现图5所示的融合装置的功能。

处理器401可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application Specific Integrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线402可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact Disc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器403用于存储执行本申请实施例的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现以上所示实施例用于确定兴趣点POI数据的融合装置的动作。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1