一种基于聚类确定poi名称的系统及方法

文档序号:8258827阅读:282来源:国知局
一种基于聚类确定poi名称的系统及方法
【技术领域】
[0001] 本发明涉及电子地图技术领域,具体而言,涉及一种基于聚类确定P0I名称的系 统和一种基于聚类确定P0I名称的方法。
【背景技术】
[0002] 兴趣点(Point of Interest, P0I) -般是电子地图中标注的地理信息点,通常包 含P0I标识、P0I名称、P0I类型、经度、纬度等信息。P0I可以在地图上标注出来,带有经纬 度信息,可以用来查找并计算导航的地标点或者建筑物,例如商场、停车场、学校、医院、酒 店、饭店、超市、公园、旅游景点等。
[0003] 越来越多的用户在电子地图中查询P0I,数据库中存储的P0I数据为P0I查询提供 数据支撑。目前,对数据库中的P0I数据进行更新主要通过进行数据实采,根据实采得到的 数据对数据库中存储的P0I数据进行更新,或是从互联网上的各个生活类信息网站上获取 P0I数据,只要获取的数据包括P0I的名称和地址,即可将该条数据确定为一条P0I数据。 由于P0I数据的获取及更新方式的特点,不可避免的导致互联网上存在着各种各样的P0I 数据。因此,从不同来源网站获取的P0I数据中,有可能存在重复性数据,即多条P0I数据 实际描述的是同一 P0I,其实际的P0I经度、纬度相同,但是P0I名称和P0I地址的描述方 式却不同。重复性的P0I数据导致用户无法快速、准确的搜索到同一 P0I地理位置(经纬 度)的P0I地址对应的P0I名称,影响用户体验。

【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或 者减缓上述问题的基于聚类确定P0I名称的系统和相应的基于聚类确定P0I名称的方法。
[0005] 根据本发明的一个方面,提供了一种基于聚类确定P0I名称的系统,该系统包括:
[0006] 地址数据抓取器,用于从网络数据中抓取地址数据;
[0007] 地址数据解析器,用于从抓取到的一个或多个地址数据中分别提取名称字段和地 址信息;
[0008] 关键词确定器,用于基于所述名称字段确定一个或多个关键词;
[0009] 关键词聚类器,用于将对应相同地址信息的所述关键词进行聚类,生成至少一个 类;
[0010] P0I名称生成器,用于根据聚类后的关键词确定此地址信息对应的P0I名称。
[0011] 优选地,所述关键词确定器进一步包括:
[0012] 切词单元,用于对所述名称字段中的名称进行切词处理生成分词;
[0013] 关键词获取单元,用于根据所述分词获取所述地址数据的关键词。
[0014] 优选地,所述关键词获取单元进一步包括:
[0015] 第一频次统计模块,用于统计对应相同地址信息的每个分词出现的频次,作为第 一频次;
[0016] 关键词生成模块,用于根据所述第一频次生成所述地址数据的关键词。
[0017] 优选地,所述关键词生成模块选择频次最小并且是非地名的分词作为所述地址数 据的关键词。
[0018] 优选地,所述P0I名称生成器进一步包括:
[0019] 频率统计单元,用于计算各个类中名称字段的出现频率;
[0020] 类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识 名称;
[0021] P0I名称确定单元,用于将每个类标识名称均作为P0I名称。
[0022] 优选地,所述P0I名称生成器进一步包括:
[0023] 频率统计单元,用于计算各个类中名称字段的出现频率;
[0024] 类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识 名称;
[0025] P0I名称确定单元,用于选择出现频率最高的类标识名称作为P0I名称。
[0026] 根据本发明的另一个方面,提供了一种基于聚类确定P0I名称的方法,包括:
[0027] 从网络数据中抓取地址数据;
[0028] 从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
[0029] 基于所述名称字段确定一个或多个关键词;
[0030] 将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
[0031] 根据聚类后的关键词确定此地址信息对应的P0I名称。
[0032] 优选地,所述步骤:基于所述名称字段确定一个或多个关键词,进一步包括 :
[0033] 对所述名称字段中的名称进行切词处理生成分词;
[0034] 根据所述分词获取所述地址数据的关键词。
[0035] 优选地,所述步骤:根据所述分词获取所述地址数据的关键词,进一步包括 :
[0036] 统计对应相同地址信息的每个分词出现的频次作为第一频次;
[0037] 根据所述第一频次生成所述地址数据的关键词。
[0038] 优选地,所述步骤根据所述第一频次生成所述地址数据的关键词具体为:
[0039] 选择频次最小并且是非地名的分词作为所述地址数据的关键词。
[0040] 优选地,所述步骤:根据聚类后的关键词确定此地址信息对应的P0I名称,进一步 包括:
[0041] 计算各个类中名称字段的出现频率;
[0042] 将所述各个类中出现频率最高的名称字段作为类标识名称;
[0043] 将每个类标识名称均作为P0I名称。
[0044] 优选地,所述步骤:根据聚类后的关键词确定此地址信息对应的P0I名称,进一步 包括:
[0045] 计算各个类中名称字段的出现频率;
[0046] 将所述各个类中出现频率最高的名称字段作为类标识名称;
[0047] 选择出现频率最高的类标识名称作为P0I名称。
[0048] 本发明的有益效果为:
[0049] 本发明对从网络数据中抓取地址数据进行名称字段和地址信息的提取,基于名称 字段确定一个或多个关键词,并将对应相同地址信息的关键词进行聚类,基于聚类后的关 键词确定地址信息对应的POI名称,从而使得用户能够快速、准确地搜索到同一经、纬度的 POI地址对应的POI名称,改善用户体验。
[0050]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0051] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0052] 图1示意性示出了本发明一个实施例的基于聚类确定P0I名称的系统的框图;
[0053] 图2示意性示出了本发明另一个实施例的基于聚类确定P0I名称的系统中的关键 词确定器的框图;
[0054] 图3不意性不出了本发明另一个实施例的基于聚类确定P0I名称的系统中的P0I 名称生成器的框图;
[0055] 图4示意性示出了本发明另一个实施例的基于聚类确定P0I名称的系统中的P0I 名称生成器的框图;
[0056] 图5示意性示出了本发明一个实施例的基于聚类确定P0I名称的方法的流程图;
[0057] 图6示意性示出了本发明另一个实施例的基于聚类确定P0I名称的方法的步骤 S13的细分流程图;
[0058] 图7示意性示出了本发明另一个实施例的基于聚类确定P0I
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1