兴趣点数据关联方法及装置的制造方法

文档序号:8258519阅读:296来源:国知局
兴趣点数据关联方法及装置的制造方法
【技术领域】
[0001] 本发明涉及地理信息技术领域,尤其涉及一种兴趣点数据关联方法及装置。
【背景技术】
[0002] 在地理信息系统(GeographicInformationSystem,GIS)中,兴趣点(PointOf Interest,P0I)通常指可以被人所关注的地点,每个生产P0I数据的厂商都会建立自己的 P0I数据库,P0I数据库中存储有海量的P0I数据,每条P0I数据包含P0I各方面的信息,例 如名称、类型、地址、地理坐标、行政区划码等。
[0003] 随着P0I数据业务的发展,各生产P0I数据的厂商之间可能相互合作,合作方式包 括:将多个不同厂商的P0I数据库中的P0I数据进行融合,以为用户提供更好的P0I数据。 由于多个厂商的P0I数据库中存在关联的P0I数据,也就是描述同一P0I的P0I数据,因 此,P0I数据关联是P0I数据融合流程中的一个重要的环节,其直接影响向用户提供的P0I 数据的质量。P0I数据关联通常指在需要进行数据融合的P0I数据库中,查找相关联的P0I 数据,例如,若需要将P0I数据库1中的数据与P0I数据库2中的数据进行融合,则在进行 P0I数据关联时,针对P0I数据库1中的各P0I数据,分别在P0I数据库2中查找相关联的 P0I数据,其中,P0I数据库1称为待关联P0I数据库,P0I数据库1中的各P0I数据称为待 关联P0I数据,P0I数据库2称为目标P0I数据库,P0I数据库2中的各P0I数据称为目标 P0I数据。
[0004] 如图1所示,为现有技术中的P0I数据关联方法流程图,其具体处理过程如下:
[0005] 步骤11,使用通用词库,对待关联P0I数据的名称进行分词处理,得到组成名称的 各分词。
[0006] 步骤12,获得各分词的权重值;在实际应用,权重值的一种计算方式是,在通用词 库中获取该分词在语料中出现的次数,然后计算次数与通用词库中分词总量的比值,得到 该分词的权重值。
[0007] 步骤13,将各分词中权重值最大的分词作为搜索关键词,在目标P0I数据库中进 行初步筛选,查询出名称包含该搜索关键词的目标P0I数据。
[0008] 步骤14,计算待关联P0I数据和各目标P0I数据之间的地理距离。
[0009] 步骤15,将待关联P0I数据的类型和各目标P0I数据的类型进行匹配,以及将待关 联P0I数据的地址和各目标P0I数据的地址进行匹配。
[0010] 步骤16,在类型匹配成功且地址匹配成功的各目标P0I数据中,将和待关联P0I数 据之间的地理距离最小的目标P0I数据,确认为与待关联P0I数据关联的P0I数据。
[0011] 由上可见,在上述P0I数据关联过程中,首先根据搜索关键词进行目标P0I数据的 初步筛选,然后在筛选出的目标P0I数据中进一步查找关联的P0I数据,因此搜索关键词的 选取非常重要,其直接影响初步筛选的结果,如果搜索关键词选取合理,则根据搜索关键词 就会筛选出与待关联P0I数据非常相关的少量的目标P0I数据,那么就会大大节省后续查 找关联的P0I数据的工作量,相反,如果搜索关键词选取不合理,则根据搜索关键词就会筛 选出海量的目标POI数据,那么就会使得后续查找关联的POI数据的工作量非常大,影响了P0I数据关联的处理效率。现有技术进行P0I数据关联时,根据各分词的权重值来选取搜索 关键词,由于分词的权重值是由通用词库的规模以及构造方式决定,因此极易出现搜索关 键词选取不合理的情况,例如,待关联P0I数据的名称为"北京方恒假日酒店",对"北京方 恒假日酒店"进行分词得到的各分词中,"酒店"这一分词的权重值最大,而将"酒店"作为 搜索关键词进行目标P0I数据的初步筛选,搜索出的目标P0I数据的数量非常多,后续就需 要从海量的目标P0I数据中进一步查找关联的P0I数据,从而造成P0I数据关联的处理效 率非常低。

【发明内容】

[0012] 本发明实施例提供一种兴趣点信息关联方法及装置,用以解决现有技术中P0I数 据关联的处理效率非常低的问题。
[0013] 本发明实施例提供如下技术方案:
[0014] 本发明实施例提供一种兴趣点信息关联方法,包括:将待关联兴趣点P0I数据的 名称进行分词处理,得到组成所述名称的分词;对各分词进行角色标注,得到各分词的角色 类型;按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同 且优先级最高的分词作为搜索关键词;从目标P0I数据库中,获取名称中包含所述搜索关 键词的目标P0I数据;从获取到的目标P0I数据中,确定与所述待关联P0I数据关联的目标 P0I数据。
[0015] 由上述技术方案可知,本发明实施例提出的P0I数据关联方法中,不再根据各分 词的权重值选取搜索关键词,而是预先设置能够反映待关联P0I数据的名称的个性化特点 的角色类型,在将待关联P0I数据的名称划分为各分词后,按照预设的角色类型优先级顺 序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键 词,再根据选取的搜索关键词进行目标P0I数据的初步筛选,由于选取为搜索关键词的分 词最能够反映待关联P0I数据的名称的个性化特点,因此通过搜索关键词初步筛选出的目 标P0I数据与待关联P0I数据非常相关,因此数量较少,从而大大节省了在初步筛选出的目 标P0I数据中进一步查找关联的P0I数据的工作量,有效地提高了P0I数据关联的处理效 率。
[0016] 优选的,从获取到的目标P0I数据中,确定与所述待关联P0I数据关联的目标P0I 数据之前,所述方法进一步包括:从获取到的名称中包含所述搜索关键词的目标P0I数据 中,获取行政区划码与待关联P0I数据的行政区划码相同的目标P0I数据;所述从获取到的 目标P0I数据中,确定与所述待关联P0I数据关联的目标P0I数据具体为:从获取到的行政 区划码与待关联P0I数据的行政区划码相同的目标P0I数据中,确定与所述待关联P0I数 据关联的目标P0I数据。由上可见,根据行政区划码,对使用搜索关键词初步筛选出的目标 P0I数据进行进一步过滤,能够进一步节省查找关联的P0I数据的工作量,提高P0I数据关 联的处理效率。
[0017] 优选的,从获取到的目标P0I数据中,确定与所述待关联P0I数据关联的目标P0I 数据之前,所述方法进一步包括:基于向量空间模型,确定所述搜索关键词与获取到的各目 标P0I数据之间的文本匹配度;按照文本匹配度由大到小的顺序,对获取到的各目标P0I数 据进行排序;在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数 目个目标P0I数据;所述从获取到的目标P0I数据中,确定与所述待关联P0I数据关联的目 标P0I数据具体为:从获取到的预置数目个目标P0I数据中,确定与所述待关联P0I数据关 联的目标P0I数据。由上可见,根据文本匹配度,对使用搜索关键词初步筛选出的目标P0I 数据进行进一步过滤,能够进一步节省查找关联的P0I数据的工作量,提高P0I数据关联的 处理效率。
[0018] 优选的,所述预设的角色类型包含:行政区划、主名称、特定品牌名称、修饰词、行 业词、后缀词;所述按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角 色类型相同且优先级最高的分词作为搜索关键词具体包括:当存在角色类型为主名称的分 词时,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束流程;否则,当不 存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级 由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同 且优先级最高的分词作为搜索关键词;当存在角色类型为行政区划的分词时,则按照特定 品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特 定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的 分词的组合作为搜索关键词。在P0I数据的名称对应的各分词中,角色类型为主名称的分 词往往最能反映P0I数据的名称的个性化特点,因此,当存在角色类型为主名称的分词时, 将角色类型为主名称的分词作为搜索关键词能够使得通过搜索关键词初步筛选出的目标 P0I数据与待关联P0I数据非常相关,从而大大节省了进一步查找关联的P0I数据的工作 量,有效地提高了P0I数据关联的处理效率。
[0019] 优选的,所述确定与所述待关联P0I数据关联的目标P0I数据具体包括:根据待关 联P0I数据与各获取到的目标P0I数据的属性信息,确定待关联P0I数据与各获取到的目 标P0I数据的P0I相似度;根据各目标P0I数据的P0I相似度,确定与待关联P0I数据关联 的目标P0I数据。由上可见,待关联P0I数据与目标P0I数据之间的P0I相似度是根据待 关联P0I数据与目标P0I数据的各属性信息确定出的,因此P0I相似度能够反映待关联P0I 数据和目标P0I数据针对各属性信息的相关性,即使待关联P0I数据的某一属性信息存在 误差,也能综合考虑其他属性信息,根据P0I相似度确定出关联的P0I数据,因此提高了P0I 数据关联的关联精度。
[0020] 优选的,若P0I数据的属性包含名称、类型、地址、地理坐标,则所述根据待关联 P0I数据与获取到的目标P0I数据的属性信息,确定待关联P0I数据与各获取到的目标P0I 数据的P0I相似度,具体包括:根据待关联P0I数据与目标P0I数据的类型,确定待关联P0I 数据与该目标P0I数据的类型相似度;根据待关联P0I数据的地址与该目标P0I数据的地 址和/或地理坐标,确定待关联P0I数据与该目标P0I数据的地址相似度;根据待关联P0I 数据与该目标P0I数据的名称,确定待关联P0I数据与该目标P0I数据的名称相似度;根 据待关联P0I数据的地理坐标与该目标P0I数据的地理坐标和/或地址,确定待关联P0I 数据与该目标P0I数据的地理距离;根据所述类型相似度、地址相似度、名称相似度以及地 理距离,确定待关联P0I数据与该目标P0I数据的P0I相似度。由上可见,待关联P0I数据 与目标P0I数据之间的P0I相似度是根据类型相似度、地址相似度、名称相似度以及地理距 离确定出的,因此
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1