本发明涉及ip定位领域,具体而言,涉及了一种形成街道级定位库的改进方法。
背景技术:
ip定位技术,是通过设备的ip地址来确定其地理位置的技术手段。超高精度的ip定位技术应用领域非常广泛,政府部门通过该服务可以对人民的网络行为进行社区粒度的舆情分析,从而充分地了解民意,做出更加利国利民的政策;安全部门通过该服务能够获取网络攻击的源目标位置,提升网络安全防御能力;商业端的在线支付通过该服务可以实现用户异地登录预警,提升交易的安全性。
现在ip定位产品的定位精度可以达到国家、省份、城市,甚至是街道,但是街道级定位通过对ip的历史位置进行聚类得到,街道级ip定位的覆盖范围有限。
技术实现要素:
为了解决背景技术中所存在的问题,本发明提出了一种形成街道级定位库的改进方法。
一种形成街道级定位库的改进方法,包括
步骤1、构建城市级ip定位库;
步骤2、利用多源异构基准点数据采集与过滤技术,采集与清洗基准点数据;
步骤3、结合ip的地理特征和网络特征,实现ip的应用场景划分;
步骤4、针对有基准点数据的ip,使用动态密度聚类算法,对不同应用场景下、有基准点的ip进行动态聚类,实现ip的聚类定位;
步骤5、利用网络拓扑相似性,实现对没有基准点数据ip的网络测绘定位,提升街道级ip覆盖范围,形成街道级ip定位库。
基于上述,步骤1中,首先,利用多源数据融合技术,融合至少包括whois数据、bgp数据和ip定位数据库的多个来源的ip定位数据,并在定位信息一致的情况下,确定ip城市级位置信息;其次,在多个ip定位数据不一致的情况下,利用时延修正技术,根据探测机器和被探测ip之间的时延信息和走向信息,确定ip的位置信息;最后,针对多源数据融合技术和时延修正技术都无法确认ip块的城市级位置信息时,采用少数服从多数的原则,确认ip块的城市信息,构建城市级ip定位库。
基于上述,步骤2中,首先,基于高效的、分布式的数据采集平台,采集whois类型、主机名类型、移动app类型和网站web类型这四种不同类型的基准点数据,形成初始的基准点数据;其次,研究与分析不同数据源的数据特征,搭建完善的基准点分析过滤模型,对初始的基准点数据进行清洗过滤,最终得到海量的、有效的基准点数据。
基于上述,步骤3中,根据ip用途,结合ip地理特征和网络特征,使用至少包括决策树、集成学习和多层神经网络的一种或多种人工智能算法,进行精细化、层次化的ip应用场景划分。
基于上述,步骤4中,基于基准点数据,利用动态密度聚类算法,对不同应用场景下、有基准点的ip进行动态聚类,权衡聚类覆盖区域的面积以及基准点召回率,给出ip地理位置的最大覆盖范围,实现对ip的聚类定位。
基于上述,步骤5中,首先,对有基准点和没有基准点的ip分别进行网络路径探测,收集并整理网络路径数据,形成有基准点和没有基准点的ip网络拓扑数据库;其次,针对没有基准点的ip,将它们与有基准点ip的网络拓扑数据进行对比分析,将其与具有相似网络拓扑结构的、时延相似度高的基准点ip进行绑定定位,实现对没有基准点ip的定位,提升街道级ip覆盖范围,形成街道级ip定位库。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,本发明提出一种形成街道级定位库的改进方法,通过构建城市级ip定位库、基准点数据的采集与清洗、应用场景划分、聚类定位和网络测绘定位这一系列过程,实现街道级ip定位并提升街道ip的覆盖范围。
附图说明
图1是本发明多个探测机器对同一个ip的ping探测,线上的数字代表探测机器与被测ip之间的时延。
图2是本发明实施例中在arin官网上通过查询西北大学(northwesternuniversity)ip得到的whois数据,包含ip块和对应的地理位置信息,从而形成whois类型的基准点数据。
图3是本发明实施例中西北大学的官网,可以从网页提取网站域名和地理位置信息,从而形成web类型的基准点数据。
图4是本发明基于同一个ip块下所有的基准点数据,使用不同的聚类参数,得到的不同聚类结果。在图4中,a表示圆形区域所覆盖的面积总和,r表示召回率,即圆形区域包含的基准点数量在所有基准点中的比例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种形成街道级定位库的改进方法,以形成全球街道级ip定位库为例进行进一步说明。
步骤1、构建城市级ip定位库。
首先,针对每个ip块,使用多源数据融合技术,在多个定位来源数据说法一致的情况,确定ip块的位置信息。如表1中第一记录所示,三个来源都认为该ip块在a国b省c城市,那么该ip块的位置信息确定为a国b省c城市。
表1多源数据融合形成城市级ip库
其次,在多个ip定位数据不一致的情况下,利用时延修正技术,将一个ip与探测机器之间的时延小于2ms,则将该ip的位置信息确定为探测机器的位置信息。如图1中,被测ip与a国b省c市探测机器之间的时延为1.5ms,小于2ms,因此,将测ip的位置确定为a国b省c市。
最后,针对多源数据融合技术和时延都修正技术都无法确认ip块的城市级位置信息时,采用少数服从多数的原则,确认ip块的城市信息。例如,表1中的第二条记录,两个来源认为该ip块在a国b省d市,而一个来源认为该ip块在a国b省e市,则将该ip确定为a国b省d市。
步骤2、利用海量多源异构基准点数据采集与过滤技术,采集与清洗基准点数据。
首先,基于高效的、分布式的数据采集平台,采集whois类型、主机名类型、移动app类型和网站web类型四种不同类型的基准点数据,形成初始的基准点数据。图2和图3是whois类型和web类型基准点的示意图。
其次,研究与分析不同数据源的数据特征,搭建完善的基准点分析过滤模型,对初始的基准点数据进行清洗过滤,最终得到海量的、有效的基准点数据。例如,对于whois类型基准点,根据ip注册机构的类型和地域、历史信息变动次数以及登记的时间等,确定whois基准点的可用度,选取在注册机构类型和地域、历史信息变动次数和登记时间方面满足要求的基准点。
步骤3、结合ip的地理特征和网络特征,实现ip的应用场景划分。
住宅用户ip的地理特征和网络特征是单个ip的历史基准点分散,连续若干ip块的基准点分布相似,icmp响应ip多等。而企业专线ip的地理特征和网络特征是单个ip的历史基准点分布集中,icmp响应ip较多等。移动网络ip的地理特征和网络特征是ip块的历史基准点虽然全国分布但在某个省出现聚集情况,icmp响应ip几乎没有。因此,可以结合ip的地理特征和网络特征,利用人工智能算法,实现ip的应用场景划分。
步骤4、针对有基准点数据的ip,使用动态密度聚类算法,对不同应用场景下、有基准点的ip进行动态聚类,实现ip的聚类定位。
如图4所示,针对一个ip块的所有基准点,利用动态密度聚类算法,权衡聚类覆盖区域的面积以及基准点召回率因素,选择圆形区域覆盖面积小且召回率高的聚类结果,如图4中的a=22.57且r=99.2%的聚类结果,实现对该ip块的聚类定位。
步骤5、利用网络拓扑相似性,实现对没有基准点数据ip的网络测绘定位,提升街道级ip覆盖范围,形成街道级ip定位库。
针对一个没有准点数据的ipx,将它的与有基准点ip的网络拓扑数据进行比较,如果ipx与某个基准点ipy的拓扑相似度大于等于95%,并且ipx与ipy的拓扑相似度最大,则将ipx的位置信息确定为基准点ipy的街道级信息,提升街道级ip的覆盖范围,从而形成街道级ip定位库。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。