基于Internet论坛的网络实体城市级地标挖掘算法

文档序号:8395932阅读:385来源:国知局
基于Internet论坛的网络实体城市级地标挖掘算法
【技术领域】
[0001] 本发明涉及信息安全技术领域,尤其涉及一种基于Internet论坛的网络实体城 市级地标挖掘算法。
【背景技术】
[0002] IP定位,即获取IP地址与其地理位置的映射关系。IP定位服务越来越受到政府 机关、商业公司、和个人的关注。掌握IP的地理位置可以高效的为用户提供各种个性化服 务,如向指定区域的用户推送当地天气预报和自然灾害预警、当地新闻、本土化文字和货币 符号等,广告商可以向指定区域推送广告等。IP定位服务也可以为区域版权保护提供支持, 如电视节目、广播、数字音像等提供区域限制(只在法律允许的区域内下载、复制和传播), 还可以为国家维稳提供技术支持,如限制谣言和恶意信息在互联网的传播范围,实施区域 性断网等。
[0003]基于地标的IP定位技术是获取IP地理位置较为可靠的方式之一。但是,批量获 取地标以及有效对地标评估仍是一个挑战。
[0004] 目前,地标挖掘的相关文献多是基于Web的地标挖掘方法,这种方法获取的地标 数量有限,且地标的可靠性也不能得到保证。然而,基于Web的地标挖掘方法,由于Web服 务器存在主机托管、共享主机以及⑶N网络等问题,Web网页中提取的地理位置与Web服务 器的真实地理位置并不能保证一一对应。虽然,已有方法对存在这些问题的地标进行验证 与筛选,但效果并不理想。

【发明内容】

[0005]本发明的目的是提供一种基于Internet论坛的网络实体城市级地标挖掘算法, 能够将用户的动态IP纳入地标的采集范围,显著地提高了地标采集的数量,并通过地标验 证算法对候选地标评估,提高地标的可靠性。
[0006]本发明采用下述技术方案:一种基于Internet论坛的网络实体城市级地标挖掘 算法,包括以下步骤: 步骤一、获取候选地标,具体如下: (11)、选择地标挖掘的Internet论坛,获取该Internet论坛的所有HTML页面; (12 )、从步骤(11)中得到的所有HTML页面中提取出所有的IP地址段; (13) 、去除步骤(12)得到的所有的IP地址段中重复的IP地址段; (14) 、将步骤(13)得到的IP地址段通过与多个互联网公开的IP定位数据库查询比较, 筛选出所有与IP定位数据库地理位置一致的IP地址段; (15) 、将步骤(14)得到的IP地址段与论坛隐含的地理位置信息比较,保留地理位置一 致的IP地址段为最终的候选地标集合; 步骤二、对候选地标集合进行评估,具体如下: (21 )、获取最接近目标IP的路由器,用下述的改进GeoTrack算法对最终的候选地标集 合中的候选地标逐个验证:若最接近目标IP的路由器隐含地理位置信息,进入步骤(22); 若最接近目标IP的路由器未隐含地理位置信息,进入步骤(23); (22) 、推测出最接近目标IP的路由器的地理位置,并与候选地标比较,将地理位置一 致的候选地标存入地标库; (23) 、首先获取最接近目标IP的路由器的IP地址,通过查询多个互联网公开的IP定 位数据库得到IP地址的地理位置并与候选地标比较,将地理位置一致的候选地标存入地 标库; 步骤三、得到的地标库即为网络实体城市级地标。
[0007] 所述的步骤(11)中选择地标挖掘的Internet论坛是选择区域性、含有城市关键 字以及人口流动较小的论坛。
[0008] 所述的步骤(11)中获取该Internet论坛的所有HTML页面是通过网页爬虫方法 获得。
[0009] 所述的步骤(12)中提取出所有的IP地址段是通过正则表达式进行提取,正则表 达式如式(1):
【主权项】
1. 一种基于Internet论坛的网络实体城市级地标挖掘算法,其特征在于:包括以下步 骤: 步骤一、获取候选地标,具体如下: (11) 、选择地标挖掘的Internet论坛,获取该Internet论坛的所有HTML页面; (12) 、从步骤(11)中得到的所有HTML页面中提取出所有的IP地址段; (13) 、去除步骤(12)得到的所有的IP地址段中重复的IP地址段; (14) 、将步骤(13)得到的IP地址段通过与多个互联网公开的IP定位数据库查询比较, 筛选出所有与IP定位数据库地理位置一致的IP地址段; (15) 、将步骤(14)得到的IP地址段与论坛隐含的地理位置信息比较,保留地理位置一 致的IP地址段为最终的候选地标集合; 步骤二、对候选地标集合进行评估,具体如下: (21 )、获取最接近目标IP的路由器,用下述的改进GeoTrack算法对最终的候选地标集 合中的候选地标逐个验证:若最接近目标IP的路由器隐含地理位置信息,进入步骤(22); 若最接近目标IP的路由器未隐含地理位置信息,进入步骤(23); (22) 、推测出最接近目标IP的路由器的地理位置,并与候选地标比较,将地理位置一 致的候选地标存入地标库; (23) 、首先获取最接近目标IP的路由器的IP地址,通过查询多个互联网公开的IP定 位数据库得到IP地址的地理位置并与候选地标比较,将地理位置一致的候选地标存入地 标库; 步骤三、得到的地标库即为网络实体城市级地标。
2. 根据权利要求1所述的基于Internet论坛的网络实体城市级地标挖掘算法,其特征 在于:所述的步骤(11)中选择地标挖掘的Internet论坛是选择区域性、含有城市关键字以 及人口流动较小的论坛。
3. 根据权利要求1所述的基于Internet论坛的网络实体城市级地标挖掘算法,其特 征在于:所述的步骤(11)中获取该Internet论坛的所有HTML页面是通过网页爬虫方法获 得。
4. 根据权利要求1-3任一所述的基于Internet论坛的网络实体城市级地标挖掘算法, 其特征在于:所述的步骤(12)中提取出所有的IP地址段是通过正则表达式进行提取,正则 表达式如式(1):
式(1)中:激/"U"/可匹配的范围是之5?~激5;Io等价于/^-办,则WKJlo可匹配的 范围是从/?/表示重复2次,则可匹配的范围是7洲~7效,?^示前一个字 符出现0次或1次,则/可匹配的范围是从1表示匹配原义字符,则1.表示匹 配IP分隔字符?,丨*表示匹配的IP地址第四字段为#; /表示关系"或",表示非 获取匹配。
【专利摘要】本发明公开了一种基于Internet论坛的网络实体城市级地标挖掘算法,包括地标获取步骤和地表评估步骤。地标获取:首先,选择地标挖掘的Internet论坛,获取该论坛所有HTML页面,从中提取出所有的IP地址段,并去除重复的IP地址段、筛选出多个IP定位数据库地理位置一致的IP地址段;保留与论坛隐含的地理位置信息一致的IP地址段为最终的候选地标;地标评估:利用评估算法对候选地标验证,将地理位置一致的候选地标存入地标库。本发明与基于Web的地标挖掘方法相比,能够明显的提高地标挖掘的数量,并且提高了网络实体城市级的定位精度,可为网络城市级定位提供可靠地标。
【IPC分类】G06F17-30
【公开号】CN104715012
【申请号】CN201510020107
【发明人】罗向阳, 朱光, 陈晶宁, 赵帆, 刘粉林
【申请人】罗向阳
【公开日】2015年6月17日
【申请日】2015年1月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1