兴趣点数据关联方法及装置的制造方法_4

文档序号:8258519阅读:来源:国知局
关联的目标P0I 数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标P0I数据,如果存 在,则将关联精度等级为较高精度关联的各目标P0I数据中,排在第一位的目标P0I数据确 定为所述待关联P0I数据关联的目标P0I数据,如果不存在,则判断是否存在关联精度等级 为中等精度关联的目标P0I数据,如果存在,则返回关联精度等级为中等精度关联的各目 标P0I数据,如果不存在,则结束流程。
【附图说明】
[0042] 图1为现有技术中,P0I数据关联方法流程示意图;
[0043] 图2为本发明实施例一中,P0I数据关联方法流程示意图;
[0044] 图3为本发明实施例二中,从获取到的目标P0I数据中,确定与待关联P0I数据关 联的目标P0I数据的流程示意图;
[0045] 图4为本发明实施例二中,确定待关联P0I数据与各获取到的目标P0I数据的P0I 相似度的流程示意图;
[0046] 图5为本发明实施例四中,P0I数据关联装置结构示意图。
【具体实施方式】
[0047] 下面结合各个附图对本发明实施例技术方案的主要实现原理、【具体实施方式】及其 对应能够达到的有益效果进行详细地阐述。
[0048] 实施例一
[0049] 如图2所示,为本发明实施例一提出的P0I数据关联方法流程图,其具体处理过程 如下:
[0050] 步骤21,将待关联P0I数据的名称进行分词处理,得到组成所述名称的分词。
[0051] P0I数据库中保存的P0I数据包含多个属性信息,分别为:名称、类型、地址、地理 坐标、行政区划码等,其中,名称和地址为文本信息,地理坐标为经纬度信息,类型和行政区 划码为编码信息。
[0052]若需要将待关联P0I数据库与目标P0I数据库进行数据融合,则预先将待关联P0I数据库中的各待关联P0I数据进行预处理,然后针对各待关联P0I数据,分别在目标P0I数 据库中查找关联的目标P0I数据。其中,对待关联P0I数据进行预处理的过程具体包括:针 对各待关联P0I数据的名称和地址进行规范化处理,例如去除括号、去除空格、去除标点符 号、大小写字母的转换、全角半角的转换、简体繁体的转换、数字格式的转换等,将各待关联 P0I数据的地理坐标进行纠偏处理,若待关联P0I数据的类型为文本信息,则将该文本信息 转换为编码信息。
[0053] 在目标P0I数据库中查找与待关联P0I数据关联的目标P0I数据时,首先需要将 待关联P0I数据的名称进行分词处理,本发明实施例一提出,可以使用通用词库,将待关联 P0I数据的名称进行分词处理,但是这样可能出现分词不合理的情况,例如,待关联P0I数 据的名称为"青岛福泰汽车销售有限公司",使用通用词库进行分词处理后得到下述6个分 词:"青岛"、"福"、"泰"、"汽车"、"销售"、"有限公司",而"福泰"为待关联P0I数据的名称中 的主名称,应划分为一个分词,因此可见,使用通用词库进行分词处理极易导致分词不合理 的情况。
[0054]对此,本发明实施例一提出,预先根据目标P0I数据库中各目标P0I数据的名称, 建立P0I名称核心分词词库,那么后续就可以使用该P0I名称核心分词词库,将待关联P0I 数据的名称进行分词处理。
[0055]在建立P0I名称核心分词词库时,可以先从目标P0I数据库中提取出n条P0I数 据,由工作人员对提取出的n条目标P0I数据的名称进行分词处理,建立分词处理模型,对 人工分词处理得到的各分词进行学习,然后通过分词处理模型,将目标P0I数据库中的其 他目标P0I数据的名称进行分词处理,最终得到P0I名称核心分词词库。此外,在得到P0I 名称核心分词词库后,工作人员也可以对照各目标P0I数据的名称,对通过分词处理模型 进行分词处理得到的各分词进行校正。
[0056] 由于建立的P0I名称核心分词词库中的各分词是从目标P0I数据库中各目标P0I 数据的名称中提取出的,因此使用P0I名称核心分词词库将待关联P0I数据的名称进行分 词处理,就能够避免现有技术中出现的分词不合理的情况。例如,待关联P0I数据的名称为 "青岛福泰汽车销售有限公司",在P0I名称核心分词词库中,"福泰"为一个分词,因此使用 P0I名称核心分词词库进行分词处理后得到下述5个分词:"青岛"、"福泰"、"汽车"、"销售"、 "有限公司"。
[0057] 步骤22,对各分词进行角色标注,得到各分词的角色类型。
[0058]将P0I数据的名称进行分词处理后,可以得到若干个分词,每个分词在P0I数据的 名称中分别对应一个角色类型,角色类型包含行政区划、主名称、修饰词、行业词、后缀词、 特定品牌名称。例如,P0I数据的名称为"青岛福泰汽车销售有限公司",进行分词处理后得 到下述5个分词:"青岛"、"福泰"、"汽车"、"销售"、"有限公司",其中,"青岛"的角色类型为 行政区划,"福泰"的角色类型为主名称,"汽车"的角色类型为行业词,"销售"的角色类型 为修饰词,"有限公司"的角色类型为后缀词。
[0059] 本发明实施例一提出,在建立P0I名称核心分词词库后,可以确定该词库中各分 词的角色类型,然后针对各角色类型,分别建立对应的分词库,也就是说,可以得到6个分 词库,分别为:行政区划对应的分词库、主名称对应的分词库、修饰词对应的分词库、行业词 对应的分词库、后缀词对应的分词库、特定品牌名称对应的分词库。
[0060] 预先针对各角色类型对应的分词库,设置分词库查找顺序,在对各分词进行角色 标注时,可以针对各分词,分别按照预设的分词库查找顺序,依次在预先建立的各角色类型 分别对应的分词库中查找该分词,直到在一个分词库中查找到该分词,则将该分词库对应 的角色类型确认为该分词在待关联P0I数据的名称中对应的角色类型,流程结束。
[0061] 步骤23,按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角 色类型相同且优先级最高的分词作为搜索关键词。
[0062]本发明实施例一提出,预先设置角色类型优先级顺序,由于主名称最能反映待关 联P0I数据的名称的个性化特点,因此主名称的优先级最高,其次是行政区划,在选取搜索 关键词时,首先判断是否存在角色类型为主名称的分词,若存在,则从各分词中,选择角色 类型为主名称的分词作为搜索关键词,结束选取搜索关键词的流程。
[0063] 若不存在角色类型为主名称的分词,则判断是否存在角色类型为行政区划的分 词,若不存在,则按照特定品牌名称、修饰词、行业词、后缀词的优先级由高到低的顺序,从 各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分 词作为搜索关键词,例如,特定品牌名称、修饰词、行业词、后缀词的优先级由高到低的顺序 为特定品牌名称一修饰词一行业词一后缀词,对待关联P0I数据的名称进行分词处理后得 到的各分词中不存在角色类型为行政区划的分词,则将角色类型为特定品牌名称的分词作 为搜索关键词,若不存在角色类型为特定品牌名称的分词,则将角色类型为修饰词的分词 作为搜索关键词,依次类推;
[0064] 若存在角色类型为行政区划的分词,则按照特定品牌名称、修饰词、行业词、后缀 词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或 后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词,例 如,特定品牌名称、修饰词、行业词、后缀词的优先级由高到低的顺序为特定品牌名称一修 饰词一行业词一后缀词,对待关联P0I数据的名称进行分词处理后得到的各分词中存在角 色类型为行政区划的分词,则将角色类型为行政区划的分词和角色类型为特定品牌名称的 分词作为搜索关键词,若不存在角色类型为特定品牌名称的分词,则将角色类型为行政区 划的分词和角色类型为修饰词的分词作为搜索关键词,依次类推。
[0065] 此外,本发明实施例一提出,由于可能存在多个分词的角色类型相同的情况,因此 选取出作为搜索关键词的分词可能为一个,也可能为多个。
[0066]步骤24,从目标P0I数据库中,获取名称中包含所述搜索关键词的目标P0I数据。[0067]使用搜索关键词进行初步筛选时,可以通过下述两种方式进行筛选:
[0068]第一种筛选方式,目标P0I数据库中的目标P0I数据的名称是以分词的形式存储 的,例如,某目标P0I数据的名称是"方恒国际中心",该名称存储的方式可能是:"国际"、 "方恒"、"中心",各分词的存储顺序与分词在名称中出现的先后顺序无关。在使用搜索关 键词进行初步筛选时,是在目标POI数据库中获取出名称的分词中包含搜索关键词的目标P0I数据。
[0069] 第二种筛选方式,可以使用倒排索引技术搜索目标P0I数据,从而能够大大提高 搜索效率,尤其在大数据环境下优势更为明显。具体的,针对P0I名称核心分词词库中的各 分词,预先建立各分词与各目标P0I数据在目标P0I数据库中的存储标识之间的倒排索引 表,其具体结构如表1所示:
[0070]表1
[0071]
【主权项】
1. 一种兴趣点数据关联方法,其特征在于,包括: 将待关联兴趣点POI数据的名称进行分词处理,得到组成所述名称的分词; 对各分词进行角色标注,得到各分词的角色类型; 按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且 优先级最高的分词作为搜索关键词; 从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据; 从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
2. 如权利要求1所述的方法,其特征在于,从获取到的目标POI数据中,确定与所述待 关联POI数据关联的目标POI数据之前,所述方法进一步包括: 从获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联 POI数据的行政区划码相同的目标POI数据; 所述从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据具 体为: 从获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定 与所述待关联POI数据关联的目标POI数据。
3. 如权利要求1所述的方法,其
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1