一种自动优化ip地域信息库的方法及系统的制作方法

文档序号:7782560阅读:187来源:国知局
专利名称:一种自动优化ip地域信息库的方法及系统的制作方法
技术领域
本发明涉及IP库技术,尤其涉及一种自动优化IP地域信息库的方法及系统。
背景技术
IP(Internet Protocol,网络协议)是为计算机网络相互连接进行通信而设计的协议,是为了使连接到因特网上的所有计算机实现相互通信的一套规则。每个连接在因特网上的一台计算机都会被分配一个或多个IP地址用于在网络上进行通讯。IP地址由因特网协会的 ICANN(the Internet Corporation for Assigned Names and Numbers,互联网名称与数字地址分配机构)进行分配,目的是为了保证IP地址的全球唯一性。IP地址的分配是一个由多级机构完成的过程,例如=ICANN首先将IP地址分配给下属机构(包括负责北美地区的InterNIC、负责欧洲地区的RIPENIC和负责亚太地区的APNIC),这些机构再将分配到的IP地址进一步分配给更下级的机构。由于分配过程的层次性和分配机构的地域性,IP地址不仅是主机在因特网上的一个标签,同时也可以作为识别主机的地域信息的一个重要参考标准。随着互联网服务的高速发展,互联网公司越来越重视基于IP地址的地域信息的应用,以更好地提供地域相关的网络服务。例如:互联网广告的地域定向投放,新闻网站针对用户的本地新闻推送,基于IP地址的地理位置定位等等。包含地域信息的IP库是用来查询每个IP地址的地域信息的数据库,通常由若干个IP段组成。每个IP段均包含一个起始IP地址、一个结束IP地址和一个地域信息,表明落在此IP段之中的所有IP地址均属于此地域信息指明的地域。通常,IP地域信息库是创建者通过统筹各个互联网服务提供商(Internet Service Provider,简称ISP)的IP地址分配资料来生成的。例如,在中国大陆地区,中国大陆地区的IP地址首先是由中国互联网络信息中心(China Internet Network Information Center,简称 CNNIC)从亚太地区负责IP分配的机构APNIC获取,然后CNNIC再将这些IP地址的资源分配给电信、移动、联通等ISP运营商。在每个IP地址分配到单个用户的过程中,IP地址的资源还可能被更进一步地分配。每个运营商都会将上级机构分配的IP地址资源继续往下分配,依次包括省级运营商、市县级运营商、宽带2级运营商等等。由于分配过程过于复杂,IP库的创建者基本不可能获得所有运营商的分配资料,因此在IP地址的地域归属的判断上,地域信息的缺失和误判是难以避免的。同时,由于中国IP地址资源的紧缺,运营商通常都会采用动态IP地址分配技术来解决IP地址资源不足的问题。在动态IP分配的过程中,同一个IP地址在不同的时间段可能会被运营商分配给不同的地域,这也增加了 IP库创建者准确判断IP地址的地域信息的难度。此外,其他国家和地区也存在上述问题。从上述内容可以看出,由于IP地址分配过程的复杂性,当前行业中经常使用的IP库基本上都存在着以下几个问题:完备性:由于从运营商处获取的信息的不完整,IP库难以给出所有IP段的地域信
肩、O准确性:获取的信息不一定准确,因此IP库中的地域信息有可能与实际地域不符。时效性:由于各级运营商可能因业务需求调整IP地址的地域分配,以及动态IP分配技术在实际中的大量使用,IP地址对应的地域信息可能随时间发生变化。

发明内容
本发明所要解决的技术问题是,提供一种自动优化IP地域信息库的方法及系统,以自动优化原IP库中的所有IP段的地域信息。为了解决上述技术问题,本发明公开了一种自动优化IP地域信息库的方法,包括:按照所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息作为IP库中该IP段的地域信息。其中,地理位置稳定的用户机指地理位置变化在系统统计要求的最小变化区域内的用户机。例如,系统统计要求的最小变化区域为市级,则只要地理位置保持在同一个城市内的用户机即为地理位置稳定的用户机。此时,该用户机在该城市内的地理位置的具体变化忽略不计。较佳地,上述方法中,可按照如下任一种方式识别出所述地理位置稳定的用户机:根据用户日志中各用户机的浏览行为信息识别所述地理位置稳定的用户机,其中,所述浏览行为信息至少包括IP地址、访问时间以及上网频次;根据用户提 供的用户机信息识别所述地理位置稳定的用户机根据用户日志中各用户机的浏览行为信息,识别出地理位置稳定的用户机。较佳地,上述方法中,根据用户日志中各用户机的浏览行为信息识别所述地理位置稳定的用户机时,将满足如下条件的用户机识别为所述地理位置稳定的用户机:IP交替使用情况为0,且至少满足如下任一条件的用户机:使用的IP个数在设定范围内,日均IP个数在设定范围内。较佳地,上述方法中,根据所统计出的各IP段之间的转移频次分别计算各IP段的
候选地域信息的置信度指按照如下方式计算:
待计算的目标IP段的候选地域信息的置信度=全[(第n个关联IP段
M 二I
到目标IP段的转移频次+目标IP段到第n个关联IP段的转移频次)X第n个关联IP段的地域信息与此候选地域信息的相似度];其中,n = I N,N为IP库的IP段的总个数;第n个IP段的地域信息与候选地域信息相同时,其相似度取值为I ;第n个IP段的地域信息与候选地域信息冲突时,其相似度取值为0 ;第n个IP段的地域信息与候选地域信息不冲突时,其相似度取值为0.5。较佳地,上述方法还包括:当一个或多个IP段的当前地域信息发生变化时,更新IP库中各IP段的地域信息,其中,在更新IP库中各IP段的地域信息的过程中,重新按照所识别出的地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次,根据重新统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,将再次计算的候选地域信息的置信度中置信度最高的地域信息更新为IP库中该IP段的地域信息。较佳地,上述方法中,直到所有IP段的地域信息不再发生改变或者更新操作循环了指定的最大循环次数之后,停止更新IP库中各IP段的地域信息,将此时的地域信息赋给各IP段得到优化之后的最终IP库。本发明还公开了一种自动优化IP地域信息库的系统,至少包括:IP段转移频次统计模块,按照所识别出的所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次;地域信息优化模块,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息作为IP库中该IP段的地域信息。较佳地,上述系统还包括用户机分类模块,根据用户日志中各用户机的浏览行为信息,识别出地理位置稳定的用户机,其中,所述浏览行为信息至少包括IP地址、访问时间以及上网频次;或者根据用户提供的用户机信息识别所述地理位置稳定的用户机。较佳地,上述系统中,在IP库中有一个或多个IP段的当前地域信息发生变化时,所述IP段转移频次统计模块将重新统计IP库中各IP段之间的转移频次,所述地域信息优化模块则根据重新统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息更新为IP库中该IP段的地域信息。较佳地,上述系统中,当所有IP段的地域信息都不再发生改变或者地域信息的选择过程循环了给定的最大次数之后,所述IP段转移频次统计模块和地域信息优化模块停止IP地址的地域信息的更新,所述地域信息优化模块将最后一次的地域信息作为优化IP库中的最终地域信息。本申请技术方案基于IP段在用户日志里的关联来评价地域信息的置信度,通过迭代更新的过程优化每个IP段的地域信息,从而提高了 IP库的准确度。优选方案中,还通过从用户日志数据中挖掘原IP库中包含地域信息的IP段和不包含地域信息的IP段之间的关联,对原本不包含地域信息的IP段进行地域信息标注,从而使得IP库更为完备。另外,本申请的优选方案还通过对最新的IP转移数据进行追踪,可以及时地识别出IP地址的地域信息因为ISP运营商的调整而发生的改变,从而保证IP库的时效性。


图1为本实施例1中实现IP地域信息库自动优化的流程示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。实施例1
本发明申请人考虑到,虽然目前采用的是动态IP分配技术,即分配给同一台电脑的IP是变化的,但是有些电脑的地理位置是稳定的(如家用电脑),其地域信息发生变化的可能性极小。也就是说,对于这些地理位置稳定的电脑其地域信息并不会随着IP地址的变化而变化。故申请人提出,可以从包含IP信息的海量用户日志中挖掘出同一台地理位置稳定的电脑的IP转移信息,然后建立这些IP地址之间的地域关联,从而使得不同IP段的地域信息可以相互参考和修正,达到自动优化原IP库中的所有IP段的地域信息的目的。基于上述思想,本实施例提供一种自动优化IP地域信息库的方法,该方法包括:根据用户日志中各用户机的浏览行为信息,识别出地理位置稳定的用户机,按照所识别出的所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息作为IP库中该IP段的地域信息。其中,从海量用户的上网日志中提取并记录每个用户标识对应的电脑的浏览行为信息,至少包括该电脑使用过的IP地址、上网时间以及上网频次等;再基于这些信息使用分类模型将电脑分为地理位置稳定的电脑(如家用电脑)和地理位置变化的电脑(如商用便携式电脑)。具体地分类过程中地理位置稳定的电脑首先要满足:没有循环使用过两个不同的IP地址,在此基础上,至少还要满足如下任一条件:总共使用过的不同的IP地址的个数在一个设定范围内、平均每天使用的不同的IP地址的个数在一个设定范围内。接下来再对识别出来的台式机电脑,按照时间提取并记录其使用过的所有IP地址形成一个完整的IP地址转移序列。当一台电脑在地址转移序列中从前一个IP地址转移到后一个IP地址时,这两个IP地址在IP库中对应的IP段之间也被记录一次转移。

以某一目标IP段为例,是根据此目标IP段与其关联IP段之间的转移频次,以及关联IP段的地域信息 ,来计算此目标IP段的候选地域信息的置信度的。其中,需要说明的是目标IP段的关联IP段指与此目标IP段之间的转移频次大于0的所有IP段,目标IP段的候选地域信息包括此目标IP段的所有关联IP段的当前地域信息和目标IP段的当前地域信息;然后,按照如下公式计算每个候选地域信息的置信度:
权利要求
1.一种自动优化IP地域信息库的方法,其特征在于,该方法包括: 按照所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息作为IP库中该IP段的地域信息。
2.如权利要求1所述的方法,其特征在于,按照如下任一种方式识别出所述地理位置稳定的用户机: 根据用户日志中各用户机的浏览行为信息识别所述地理位置稳定的用户机,其中,所述浏览行为信息至少包括IP地址、访问时间以及上网频次; 根据用户提供的用户机信息识别所述地理位置稳定的用户机。
3.如权利要求2所述的方法,其特征在于,根据用户日志中各用户机的浏览行为信息识别所述地理位置稳定的用户机时,将满足如下条件的用户机识别为所述地理位置稳定的用户机: IP交替使用情况为0,且至少满足如下任一条件的用户机: 使用的IP个数在设定范围内,日均IP个数在设定范围内。
4.如权利要求1、2或3所述的方法,其特征在于,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度指按照如下方式计算:
5.如权利要求4所述的方法,其特征在于,该方法还包括: 当一个或多个IP段的当前地域信息发生变化时,更新IP库中各IP段的地域信息,其中,在更新IP库中各IP段的地域信息的过程中,重新按照所识别出的所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次,根据重新统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,将再次计算的候选地域信息的置信度中置信度最高的地域信息更新为IP库中该IP段的地域信息。
6.如权利要求5所述的方法,其特征在于, 直到所有IP段的地域信息不再发生改变或者更新操作循环了指定的最大循环次数之后,停止更新IP库中各IP段的地域信息,将此时的地域信息赋给各IP段得到优化之后的最终IP库。
7.一种自动优化IP地域信息库的系统,其特征在于,该系统至少包括: IP段转移频次统计模块,按照所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次; 地域信息优化模块,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息作为IP库中该IP段的地域信息。
8.如权利要求7所述的系统,其特征在于,该系统还包括: 用户机分类模块,根据用户日志中各用户机的浏览行为信息,识别出地理位置稳定的用户机,其中,所述浏览行为信息至少包括IP地址、访问时间以及上网频次;或者 根据用户提供的用户机信息识别所述地理位置稳定的用户机。
9.如权利要求7或8所述的系统,其特征在于, 在IP库中有一个或多个IP段的当前地域信息再次发生变化时,所述IP段转移频次统计模块将重新统计IP库中各IP段之间的转移频次,所述地域信息优化模块则根据重新统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息更新为IP库中该IP段的地域信息。
10.如权利要求9所述的系统,其特征在于, 当所有IP段的地域信息都不再发生改变或者地域信息的选择过程循环了给定的最大次数之后,所述IP段转移频次统计模块和地域信息优化模块停止IP地址的地域信息的更新,所述地域信息优化模块将最后`一次的地域信息作为优化IP库中的最终地域信息。
全文摘要
本发明公开了一种自动优化IP地域信息库的方法及系统,涉及IP库技术。本发明公开的自动优化IP地域信息库的方法包括按照所有地理位置稳定的用户机的用户日志统计IP库中各IP段之间的转移频次,根据所统计出的各IP段之间的转移频次分别计算各IP段的候选地域信息的置信度,并将各IP段的候选地域信息中置信度最高的地域信息作为IP库中该IP段的地域信息。本发明还公开了一种自动优化IP地域信息库的系统。本申请技术方案提高了IP库的准确度。
文档编号H04L29/12GK103167052SQ201110424299
公开日2013年6月19日 申请日期2011年12月16日 优先权日2011年12月16日
发明者欧阳佑, 吴明辉, 孔誉乾 申请人:北京思博途信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1