地图兴趣点简称获取方法和装置与流程

文档序号:11707585阅读:277来源:国知局
地图兴趣点简称获取方法和装置与流程

本公开涉及计算机技术,尤其涉及一种地图兴趣点简称获取方法和装置。



背景技术:

地图兴趣点即poi(pointofinterest),例如,一个poi可以是一栋房子、一个商铺、一座学校、一个公交站等。当在地图中搜索某个poi时,利用该poi的简称进行搜索也是一种常用的搜索方式,例如,当在地图中搜索查找“北京师范大学”时,也可以输入该北京师范大学的简称“北师大”进行搜索,也可以找到该大学在地图中所处的位置。因此,为了支持这种利用poi简称进行搜索的方式,需要获取一些poi全称对应的简称,建立全称与简称的对应关系,这样才能根据地图用户输入的简称准确确定对应的全称,并反馈用户搜索的目标地址给用户。相关技术中,兴趣点的简称通常是由人工标注得到,但是这种方式的人工工作量较大,效率也较低,当地图数据量逐渐增大时,人工标注方式的低效率问题将更加显著。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种地图兴趣点简称获取方法和装置,以提高地图兴趣点简称的获取效率。

根据本公开实施例的第一方面,提供一种地图兴趣点简称获取方法,包括:

根据地图兴趣点的兴趣点全称,生成多个待评估简称;

在距离所述兴趣点的预设范围内,获取含有所述兴趣点全称或者任一待 评估简称的多个地址名称;

根据所述地址名称,计算目标词的词状态向量,所述词状态向量用于表示所述目标词在所述地址名称中的位置状态,所述目标词是所述兴趣点全称或者任一所述待评估简称;

分别计算所述兴趣点全称的词状态向量与任一待评估简称的词状态向量之间的相似度;

将高于预设阈值的相似度对应的待评估简称,确定为所述兴趣点全称对应的兴趣点简称。

根据本公开实施例的第二方面,提供一种地图兴趣点简称获取装置,包括:

评估简称生成模块,用于根据地图兴趣点的兴趣点全称,生成多个待评估简称;

相关地址获取模块,用于在距离所述兴趣点的预设范围内,获取含有所述兴趣点全称或者任一待评估简称的多个地址名称;

词状态计算模块,用于根据所述地址名称,分别计算目标词的词状态向量,所述词状态向量用于表示所述目标词在所述地址名称中的位置状态,所述目标词是所述兴趣点全称或者任一所述待评估简称;

相似度计算模块,用于分别计算所述兴趣点全称的词状态向量与任一待评估简称的词状态向量之间的相似度;

简称确定模块,用于将高于预设阈值的相似度对应的待评估简称,确定为所述兴趣点全称对应的兴趣点简称。

本公开的实施例提供的技术方案可以包括以下有益效果:通过在给出一个兴趣点的兴趣点全称时,利用该方法,可以自动从地图地址库中获取该兴趣点附近的相关地址名称,并根据该地址名称计算出所有可能的待评估简称中,哪一个简称有可能是全称的简称,从而自动完成简称的确定,使得简称获取的效率提高,提高了地图兴趣点简称的获取效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性 的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的兴趣点简称获取方法的流程图;

图2是根据一示例性实施例示出的二维空间余弦相似度的计算原理图;

图3是根据一示例性实施例示出的一种地图兴趣点简称获取装置。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本申请实施例提供了一种地图兴趣点简称获取方法,该方法是一种根据兴趣点全称自动获取对应简称的方案,不再需要借助人工标注,以提高简称获取的效率。

该简称获取方法是基于如下原理:兴趣点poi在用于地址名称的命名时,不论全称还是简称,在地址名称中的位置状态应该一致,并且全称和简称通常在同一地点或相近地理位置附近使用。

例如,以兴趣点是一个学校为例,假设该学校的全称是北京师范大学,那么,通常在大学内部或者大学的周边会有很多使用学校名称的地址名称,比如,北京师范大学食堂、北师大书店、北京师范宿舍楼a区、北师教研室等(需要说明的是,以上名称只是为了举例说明本申请的方案,实际中可能不存在)。可以看到,有的地址名称中使用了全称,例如,北京师范大学食堂中的“北京师范大学”;有的地址名称中使用了简称,例如,北师大书店 中的“北师大”,北师教研室中的“北师”。

上述的例子即是将兴趣点poi的全称或者简称,应用于某个地址名称中,并且,全称和简称在应用时满足上面提到的两个方面的一致性:

第一、在同一地点或相近地理位置附近使用。例如,北京师范大学食堂、北师大书店、北京师范宿舍楼a区等,这些地址都是在北京师范大学的学校内部或者学校周边。

第二、全称和简称在详细地址字符串中的位置状态基本一致。例如,以“北京师范大学”为例,对于其简称“北师大”,如果存在某一详细地址字符串是这样描述的:“北京市新街口外大街19号北京师范大学图书馆”,则地址库中也会存在较大的可能出现这样描述的地址字符串“北京市新街口外大街19号北师大图书馆”,或者是类似的“北京新街口外大街北师大图书馆”这样的字符串,这表明poi的全称和简称对在地址库中出现的位置状态是基本一致的,也可称为上下文环境基本一致。

例如,对于大规模的地址文本库,一对全称和简称,有可能出现相同的前后词,比如,在上面的例子的地址库中,全称“北京师范大学”和对应的简称“北师大”,前后词都出现了“新街口外大街”和“图书馆”。以一对全称和简称的前后词包括“食堂”、“图书馆”和“教学楼”为例,这些词可以组成一个向量{食堂、图书馆、教学楼},每个词是该向量的一个维度。

表1全简称对应的向量维度

如上表1的示例,在包含全称的详细地址字符串中,“食堂”出现了117次,在包含简称的详细地址字符串中,“食堂”出现了32次;同样对于全称 和简称,“图书馆”分别出现267次、71次,“教学楼”分别出现422次、112次,可以看到,这三个维度的出现次数基本上是等比例的。即对于全称“北京师范大学”,其对应的向量是{117、267、422},对于简称“北师大”,其对应的向量是{32、71、112},如果计算这两个向量的余弦相似度,可以得知该余弦值是一个非常接近于1的值。

基于以上原理,本申请兴趣点简称获取方法的流程可以参见图1,包括:

在步骤101中,根据地图兴趣点的兴趣点全称,生成多个待评估简称。

本步骤可以将兴趣点全称中包括的各个单字,按照单字排列顺序进行任意单字数量的组合,每一组合为一个简称,得到多个简称。

例如,仍以“北京师范大学”为例,该全称中包括六个单字,分别为“北”、“京”、“师”、“范”、“大”、“学”;然后将这些单字进行任意单字数量的组合,当单字数量为2时,即两个单字进行组合,例如,“北京”、“京师”、“师范”、“范大”、“大学”、“北师”、“北范”等,并且可以看到,在组合时按照各个单字在全称中的排列顺序进行组合,即组合中的各个单字的前后顺序与在全称中的前后顺序一致。当单字数量为3时,即三个单字进行组合,例如,“北京师”、“京师范”、“北师范”等。

再进行任意组合得到多个简称后,还可以从多个简称中剔除单字和确认非兴趣点简称的噪声词,剩余的简称即待评估简称,这样使得参与后续处理步骤的待评估简称的数量得到减少,有助于提高该流程的处理效率。单字即上述的“北”、“京”、“师”等,噪声词例如包括:“北京”、“师范”、“大学”等,这些常用词通常不可能被用户作为北京师范大学的简称输入。

在步骤102中,在距离兴趣点的预设范围内,获取含有兴趣点全称或者任一待评估简称的多个地址名称。

例如,预设范围可以是兴趣点附近500米内,比如上面列举的北京师范大学食堂、北师大书店、北京师范宿舍楼a区、北师教研室等,这些地址名称中要么含有兴趣点全称“北京师范大学”,要么含有待评估简称,例如“北师大”,该待评估简称即为在步骤101中确定的地图兴趣点的待评估简称。

在步骤103中,根据地址名称,计算目标词的词状态向量,词状态向量用于表示目标词在地址名称中的位置状态,目标词是兴趣点全称或者任一待评估简称。

本步骤中计算的词状态向量,可以是一个高维向量,比如,可以是n维向量(a1,a2,…..an);并且,兴趣点全称或者任一待评估简称中的每一个都可以计算得到一个对应的词状态向量,比如,全称“北京师范大学”对应的词状态向量是(a1,a2,…..an),其中一个待评估简称“北师大”对应的词状态向量是(b1,b2,…..bn)。

词状态向量的计算,可以结合在步骤102中获取的多个地址名称来进行,并且,兴趣点全称和待评估简称的词状态向量的计算方法是相同的。如果将兴趣点全称或任一待评估简称称为目标词,那么其中一个目标词的词状态向量可以按照如下方式计算:

在步骤102获取的地址名称可以有多个,例如,北师大书店、北师教研室等,对于某个目标词,比如,该目标词是“北师大”,查找哪些地址名称中包含了“北师大”,例如“北师大书店”,可能有多个地址名称中都包含该目标词。对于每一个包含目标词的地址名称,获取目标词的相邻词,该相邻词包括前一个词和后一个词。

例如,在包含目标词“北师大”的地址名称“北师大书店”中,目标词的前一个词是“空”(即前面没有词),后一个词是“书店”。又例如,在包含目标词“北师大”的地址名称“博文北师大书房”中,目标词的前一个词是“博文”,后一个词是“书房”。经过统计后,所有包含目标词的地址名称中,目标词的相邻词可以有多个,例如上述列举的“空”、“书店”、“博文”、“书房”,假设只有这四个相邻词(实际可能更多),那么该四个词可以分别对应目标词的词状态向量的一个向量维度,该向量(空、书店、博文、书房)是一个四维向量。

每一个向量维度的维度数值,可以是对应该维度的词在所有地址名称中的出现频率,例如,以“书店”为例,假设在步骤102中获取的地址名称共 有10个,而“书店”出现了2次,那么“书店”的出现频率是2。其他维度的维度数值计算同理,不再描述。

在步骤104中,分别计算兴趣点全称的词状态向量与任一待评估简称的词状态向量之间的相似度。

例如,在步骤103中计算出兴趣点全称的词状态向量、以及任一个待评估简称的词状态向量后,将兴趣点全称的词状态向量分别与各个待评估简称的词状态向量计算相似度,本例子计算的相似度可以是余弦相似度。

参见图2所示,示例了二维空间的余弦相似度的计算,a、b是两个二维向量,并假设a的坐标是(x1,y1),b的坐标是(x2,y2)。将这两个向量根据坐标值绘制到向量空间中即图2。然后计算a、b这两个二维向量的夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性,如果两个向量越相似,它们的夹角越小,余弦值越接近1,它们的方向更加吻合。

根据向量点积公式,夹角余弦值计算如下:

将上述公式扩展到多维向量的余弦相似度的计算,如果兴趣点全称的词状态向量a=(a1,a2,...,an),其中一个待评估简称的词状态向量b=(b1,b2,...,bn),那么这两个向量的余弦相似度计算如下:

在步骤105中,将高于预设阈值的相似度对应的待评估简称,确定为兴趣点全称对应的兴趣点简称。

例如,如果将预设阈值设为0.42,那么经过计算的余弦相似度的数值大于或等于该0.42时,就可以将相似度对应的待评估简称确定为兴趣点全称对应的兴趣点简称。比如,如果兴趣点全称“北京师范大学”的词状态向量a与其中一个待评估简称“北师大”的词状态向量b的余弦相似度是0.7,那 么可以确定将待评估简称“北师大”作为全称“北京师范大学”的简称。

本例子中,高于预设阈值的待评估简称的数量为至少一个,比如,全称“北京师范大学”的简称可以包括“北师大”、“北师”、“北京师范”等多个简称。

上述的地图兴趣点简称获取方法,当给出一个兴趣点的兴趣点全称时,利用该方法,可以自动从地图地址库中获取该兴趣点附近的相关地址名称,并根据该地址名称计算出所有可能的待评估简称中,哪一个简称有可能是全称的简称,从而自动完成简称的确定,使得简称获取的效率提高。此外,可以将该方法的执行布置到分布式计算平台处理,以进一步提高处理速度。

在确定兴趣点的全称与简称的对应关系后,可以将该对应关系应用到地图兴趣点的搜索中,或者应用到其他涉及到地址输入的场景。例如,用户输入“东外大街”时,通过全简称对比可知,“东外大街”的全称为“东直门外大街”,则可提醒用户“您要输入的是否是东直门大街?”,而且在地址自动联想填充中,把相关的全称东直门外大街的后续可能的详细地址提供给用户选择,比如位于东直门外大街附近的餐馆、酒店等地址。

本申请实施例还提供了一种地图兴趣点简称获取装置,如图3所示,该装置可以包括:评估简称生成模块31、相关地址获取模块32、词状态计算模块33、相似度计算模块34和简称确定模块35。其中,

评估简称生成模块31,用于根据地图兴趣点的兴趣点全称,生成多个待评估简称;

相关地址获取模块32,用于在距离所述兴趣点的预设范围内,获取含有所述兴趣点全称或者任一待评估简称的多个地址名称;

词状态计算模块33,用于根据所述地址名称,分别计算目标词的词状态向量,所述词状态向量用于表示所述目标词在所述地址名称中的位置状态,所述目标词是所述兴趣点全称或者任一所述待评估简称;

相似度计算模块34,用于分别计算所述兴趣点全称的词状态向量与任一待评估简称的词状态向量之间的相似度;

简称确定模块35,用于将高于预设阈值的相似度对应的待评估简称,确定为所述兴趣点全称对应的兴趣点简称。

一个例子中,评估简称生成模块31,在用于根据地图兴趣点的兴趣点全称生成多个待评估简称时,包括:将所述兴趣点全称中包括的各个单字,按照单字排列顺序进行任意单字数量的组合,每一组合为一个简称,得到多个所述简称;从多个简称中剔除单字和确定是非兴趣点简称的噪声词,剩余的简称即所述待评估简称。

一个例子中,词状态计算模块33,在用于根据地址名称计算目标词的词状态向量时,包括:在所述多个地址名称中,获取目标词在任一地址名称中的相邻词;每个所述相邻词在所述多个地址名称中的出现频率,作为所述目标词的词状态向量中的其中一个向量维度的维度数值。

一个例子中,相似度计算模块34,用于计算所述兴趣点全称的词状态向量与任一待评估简称的词状态向量之间的余弦相似度。

一个例子中,高于预设阈值的相似度对应的待评估简称数量为至少一个。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1