一种网站中兴趣点数据的置信度的判定方法和装置的制造方法

文档序号:8943112阅读:392来源:国知局
一种网站中兴趣点数据的置信度的判定方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机处理的技术领域,特别是涉及一种网站中兴趣点数据的置信度 方法和一种网站中兴趣点数据的置信度装置。
【背景技术】
[0002] 兴趣点(Point of Interest,Ρ0Ι),又可以称为"信息点",其包含多方面的信息, 如名称、类别、经度炜度等等。
[0003] 在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站 等。
[0004] 传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴 趣点的经炜度,然后再标记下来。
[0005] 正因为POI数据的采集是一个非常费时费事的工作,对一个地理信息系统来说, POI的数量在一定程度代表着整个系统的价值。
[0006] 为了丰富地理信息系统的POI数据的数量,目前从网页中挖掘POI数据,大多是根 据网页的结构配置合适的模板,通过模板来提取。
[0007] 但是,用户并不一定会按照网页的规定去发布信息,使得这些包含POI的网站中 充斥着大量的脏数据,是错误的POI数据。
[0008] 例如,某个网站约定网页的一个区域是发布公司名称,但是,有的用户可能发布诸 如"世界五百强企业"等数据,并非是一个真正的POI名称。
[0009] 若后续应用这些错误的POI数据进行导航等操作,操作的错误率高,造成资源浪 费。
[0010] 并且,计算机一直抓取这些错误的POI数据,浪费计算机的系统资源和带宽资源, POI数据抓取效率很低。

【发明内容】

[0011] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种网站中兴趣点数据的置信度方法和相应的一种网站中兴趣点数据的置信度 装置。
[0012] 依据本发明的一个方面,提供了一种网站中兴趣点数据的置信度的判定方法,包 括:
[0013] 在网页中提取兴趣点数据;
[0014] 从所述兴趣点数据中识别错误的第二目标兴趣点数据;
[0015] 统计归属同一个网站的第二目标兴趣点数据的第二数量;
[0016] 根据所述第二数量确定所述网站中兴趣点数据的置信度。
[0017] 可选地,还包括:
[0018] 当所述置信度低于预设的第二阈值时,禁止从所述网站的网页提取兴趣点数据。
[0019] 可选地,所述在网页中提取兴趣点数据的步骤包括:
[0020] 查找针对网页配置的模板;
[0021] 在所述网页中,依据所述模板指示的位置提取兴趣点数据。
[0022] 可选地,所述兴趣点数据包括兴趣点名称;
[0023] 所述从所述兴趣点数据中识别错误的第二目标兴趣点数据的步骤包括:
[0024] 将标识同一对象的兴趣点名称设置为兴趣点名称集合;
[0025] 从所述兴趣点名称集合中识别错误的第二目标兴趣点名称;
[0026] 确定所述第二目标兴趣点名称所属的兴趣点数据为错误的第二目标兴趣点数据。
[0027] 可选地,所述兴趣点数据包括兴趣点地址;
[0028] 所述将标识同一对象的兴趣点名称设置为兴趣点名称集合的步骤包括:
[0029] 判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点 名称设置为兴趣点名称集合。
[0030] 可选地,所述从所述兴趣点名称集合中识别错误的第二目标兴趣点名称的步骤包 括:
[0031] 在所述兴趣点名称集合中的兴趣点名称选取关键词;
[0032] 依据所述关键词从所述兴趣点名称中识别错误的第二目标兴趣点名称。
[0033] 可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤包括:
[0034] 对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
[0035] 查找所述分词在预设的兴趣点集合中的第一词频;
[0036] 将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键 词,其中,X为正整数。
[0037] 可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤还包括:
[0038] 当所述分词与预设的地址数据匹配时,移除所述分词。
[0039] 可选地,所述依据所述关键词从所述兴趣点名称中识别错误的第二目标兴趣点名 称的步骤包括:
[0040] 计算所述关键词在所述兴趣点集合中的第二词频;
[0041] 将所述第二词频最低的Z个关键词所属的兴趣点名称作为错误的第二目标兴趣 点名称,其中,Z为正整数。
[0042] 可选地,所述兴趣点数据包括URL ;
[0043] 所述统计归属同一个网站的第二目标兴趣点数据的第二数量的步骤包括:
[0044] 查找所述第二目标兴趣点数据对应的URL ;
[0045] 当所述第二目标兴趣点数据对应的URL属于同一个网站的域名时,统计所述第二 目标兴趣点数据的第二数量。
[0046] 可选地,所述根据所述第二数量确定所述网站中兴趣点数据的置信度的步骤包 括:
[0047] 依据所述第二数量计算错误率;
[0048] 按照所述错误率确定所述网站中兴趣点数据的置信度。
[0049] 根据本发明的另一方面,提供了一种网站中兴趣点数据的置信度的判定装置,包 括:
[0050] 兴趣点数据提取模块,适于在网页中提取兴趣点数据;
[0051] 错误兴趣点数据识别模块,适于从所述兴趣点数据中识别错误的第二目标兴趣点 数据;
[0052] 错误数量统计模块,适于统计归属同一个网站的第二目标兴趣点数据的第二数 量;
[0053] 不可信置信度确定模块,适于根据所述第二数量确定所述网站中兴趣点数据的置 信度。
[0054] 可选地,还包括:
[0055] 禁止提取模块,适于在所述置信度低于预设的第二阈值时,禁止从所述网站的网 页提取兴趣点数据。
[0056] 可选地,所兴趣点数据提取模块还适于:
[0057] 查找针对网页配置的模板;
[0058] 在所述网页中,依据所述模板指示的位置提取兴趣点数据。
[0059] 可选地,所述兴趣点数据包括兴趣点名称;
[0060] 所述错误兴趣点数据识别模块还适于:
[0061] 将标识同一对象的兴趣点名称设置为兴趣点名称集合;
[0062] 从所述兴趣点名称集合中识别错误的第二目标兴趣点名称;
[0063] 确定所述第二目标兴趣点名称所属的兴趣点数据为错误的第二目标兴趣点数据。
[0064] 可选地,所述兴趣点数据包括兴趣点地址;
[0065] 所述错误兴趣点数据识别模块还适于:
[0066] 判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点 名称设置为兴趣点名称集合。
[0067] 可选地,所述错误兴趣点数据识别模块还适于:
[0068] 在所述兴趣点名称集合中的兴趣点名称选取关键词;
[0069] 依据所述关键词从所述兴趣点名称中识别错误的第二目标兴趣点名称。
[0070] 可选地,所述错误兴趣点数据识别模块还适于:
[0071] 对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
[0072] 查找所述分词在预设的兴趣点集合中的第一词频;
[0073] 将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键 词,其中,X为正整数。
[0074] 可选地,所述错误兴趣点数据识别模块还适于:
[0075] 当所述分词与预设的地址数据匹配时,移除所述分词。
[0076] 可选地,所述错误兴趣点数据识别模块还适于:
[0077] 计算所述关键词在所述兴趣点集合中的第二词频;
[0078] 将所述第二词频最低的Z个关键词所属的兴趣点名称作为错误的第二目标兴趣 点名称,其中,Z为正整数。
[0079] 可选地,所述兴趣点数据包括URL ;
[0080] 所述错误数量统计模块还适于:
[0081 ] 查找所述第二目标兴趣点数据对应的URL ;
[0082] 当所述第二目标兴趣点数据对应的URL属于同一个网站的域名时,统计所述第二 目标兴趣点数据的第二数量。
[0083] 可选地,所述不可信置信度确定模块还适于:
[0084] 依据所述第二数量计算错误率;
[0085] 按照所述错误率确定所述网站中兴趣点数据的置信度。
[0086] 本发明实施例从网页提取中的兴趣点数据中识别错误的第二目标兴趣点数据,并 统计归属同一个网站的第二目标兴趣点数据的第二数量确定网站中兴趣点数据的置信度, 从而在后续的操作中剔除这些错误的POI数据,降低了操作的错误率,减少了资源浪费。
[0087] 进而,根据置信度禁止从这些不可信的POI数据来源抓取POI数据,抓取到的POI 数据的正确性高,减少了计算机的系统资源和带宽资源的浪费,提高了 POI数据抓取效率。
[0088] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0089] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0090] 图1示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度方法实施 例1的步骤流程图;
[0091] 图2示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度方法实施 例2的步骤流程图;
[0092] 图3示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度方法实施 例3的步骤流程图;
[0093] 图4示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度的判定装 置实施例1的结构框图;
[0094] 图5示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度的判定装 置实施例2的结构框图;以及
[0095] 图6示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度的判定装 置实施例3的结构框图。
【具体实施方式】
[0096] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1