一种生成网吧ip数据库的方法及装置制造方法
【专利摘要】本发明公开了一种生成网吧IP数据库的方法及装置,该方法包括:从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内统计各IP地址的网吧IP特征;判断各IP地址的网吧IP特征是否满足预设的判决策略,如果满足则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。该方法及装置简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
【专利说明】—种生成网吧IP数据库的方法及装置
【技术领域】
[0001]本发明涉及通信领域,具体涉及一种生成网吧IP数据库的方法及装置。
【背景技术】
[0002]IP(Internet Protocol,网络协议)是为计算机网络相互连接进行通信而设计的协议,是为了使连接到因特网上的所有计算机实现相互通信的一套规则。每个连接在因特网上的一台计算机都会被分配一个或多个IP地址用于在网络上进行通讯。全球的IP地址在从国家往下逐级分配的过程中产生了很强的地域性,因此IP地址经常被用于地域定位,例如互联网广告的地域定向投放,用户定制的本地新闻推送或其他地域定向服务。
[0003]网吧是面向公众的营利性上网服务提供场所,社会公众可利用网吧内的电脑及其他上网接入设备等进行网页浏览、学习、网游、聊天、视频或其他网络活动。网吧上网的人群结构具有鲜明的特点,例如以年轻人为主、男性较多、上网时间较稳定、兴趣爱好相近、喜爱游戏、消费取向集中等等。因此,针对网吧的商业定向,例如网吧定向的广告投放,是非常具有价值的。目前,国内绝大部分正规网吧在向网络运营商申请连接因特网时,都会申请使用固定的外网IP地址。这使得网吧定向的解决方案可以参考地域定向,基于上网行为发生时的IP地址来实现。
[0004]基于IP地址的网吧定向需要使用网吧IP数据库,网吧IP数据库是一张存放了大量的网吧IP地址的列表,每个IP地址代表着使用这个IP上网的电脑属于某个网吧。网吧IP数据库一般是由专业技术人员经过长时间通过多种手段收集而来的,例如,在运营商处申请网络服务时登记的网吧IP地址,正在网吧上网的人即时分享的IP地址以及其他获取方式。然而,由于中国各级网络运营商构成的复杂性,想从所有运营商处获取所有的网吧IP地址几乎是不可能的。而互联网用户分享的网吧IP地址也局限于愿意分享IP地址和地理信息的用户的数量,并且这种由非专业人员提供的信息的可靠性也有不足。此外,由于现实生活中旧网吧的不断关闭和新网吧的不断开启,网吧IP地址还存在时效性的问题。
[0005]所以,急需提出一种生成网吧IP数据库的方法,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
【发明内容】
[0006]本发明需要解决的技术问题是提供一种生成网吧IP数据库的方法及装置,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
[0007]为了解决上述技术问题,本发明提供了一种生成网吧IP数据库的方法,包括:
[0008]从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
[0009]根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;[0010]对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
[0011]进一步地,所述IP地址的网吧IP特征,包括以下一个或多个:
[0012]曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
[0013]曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
[0014]曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
[0015]在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
[0016]在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
[0017]进一步地,所述根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址的步骤包括以下一种或多种情况:
[0018]如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
[0019]如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
[0020]如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
[0021]如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨I点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
[0022]如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
[0023]如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
[0024]其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
[0025]进一步地,所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
[0026]进一步地,所述方法还包括:
[0027]每隔一段固定的时间,重新在所述全部行为日志时间范围内提取Cookie,按照如权利要求1所述的方法重新生成新的网吧IP数据库。
[0028]为了解决上述技术问题,本发明还提供了一种生成网吧IP数据库的装置,包括:
[0029]Cookie网络行为信息获取模块,用于从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
[0030]IP地址特征统计模块,用于根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
[0031]网吧IP数据库生成模块,用于对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
[0032]进一步地,所述IP地址的网吧IP特征,包括以下一个或多个:
[0033]曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
[0034]曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
[0035]曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
[0036]在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
[0037]在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
[0038]进一步地,所述网吧IP数据库生成模块,用于根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,包括以下一种或多种情况:
[0039]如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
[0040]如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
[0041]如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
[0042]如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨I点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
[0043]如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
[0044]如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
[0045]其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
[0046]进一步地,所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。[0047]与现有技术相比,本发明提供的生成网吧IP数据库的方法及装置,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
【专利附图】
【附图说明】
[0048]图1是实施例中生成网吧IP数据库的方法流程图;
[0049]图2是一个应用示例中基于机器学习来判断所述IP地址是否为网吧IP地址的流程图;
[0050]图3是实施例中生成网吧IP数据库的装置的结构图;
[0051]图4是一个应用示例中生成网吧IP数据库的方法图。
【具体实施方式】
[0052]为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0053]实施例:
[0054]如图1所示,本实施例提供了一种生成网吧IP数据库的方法,包括以下步骤:
[0055]SlOl:从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
[0056]Cookie本身是存储在电脑硬盘的文件之中的。当一台电脑访问某个被监测了的网页时,监测使用的日志服务器会通过网络接收到一条网络行为日志,而这条日志里面能包含这台电脑的Cookie文件里面的信息(例如Cookie的ID或编号等等)。因此服务器存储的网络行为日志里面已经包含了 Cookie的ID或编号,在分析网络行为日志数据的时候,并不需要去每台上网的电脑上读取Cookie。
[0057]这里的Cookie指的是浏览器Cookie或Flash Cookie ;全部行为日志时间范围是指观察Cookie进行网络行为的一段时间,例如一个月,以便从Cookie在一段时间内的网络行为信息(Cookie每次访问互联网所使用的IP地址及相应的访问时间)统计出IP地址的网吧IP特征。
[0058]S102:根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各所述IP地址的网吧IP特征;
[0059]一般来说,网吧电脑在上网时具有如下特点:
[0060]I)网吧电脑一般会有多人使用,并且被其中一人连续使用的时间较短。此外,大部分的网吧电脑都安装了自动还原系统,在单人使用结束后浏览器Cookie或Flash Cookie立即会被清除。因此,在网络行为日志中,使用网吧IP地址上网的Cookie的存活时间,即单人连续上网的时间,大部分情况下都在数个小时之内。
[0061]2)目前绝大部分网吧在连接因特网时申请的都是固定IP,因此一台网吧电脑使用的IP地址会集中在几个固定的IP地址上,因此,使用网吧IP地址上网的Cookie所使用的IP地址相对较少,使用固定的一个或几个IP地址的可能性相对较高。
[0062]3)网吧电脑深夜使用的可能性更高,大部分的家庭/公司电脑的使用时间集中在早上9点到凌晨I点之间,在深夜休息时间的使用概率较小;但网吧电脑的用户更多,且有包夜优惠等增值服务,所以网吧电脑的深夜使用可能性更高。因此,使用网吧IP地址的深夜网络行为的占比更高。
[0063]4)网吧电脑的使用频率更高:由于网吧用户众多,网吧电脑被经常使用的可能性较高。因此,在一段较长的时间(例如一个月))的数据中,网吧的IP地址在每天的日志中都有活跃记录的可能性相对较高。
[0064]基于如上思想,在本实施例中用于判别IP地址为网吧IP的特征,包括以下一个或多个的组合:
[0065](I)曾经使用过该IP地址的每个Cookie的存活时间的分布;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
[0066]例如,可以统计Cookie的存活时间分别为I小时以内,I?2小时,2?3小时,......24小时以上的个数分布情况。
[0067](2)曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
[0068](3)曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
[0069]例如,一个Cookie只使用过此IP地址,则比例为100%,又比如,一个Cookie使用过2个IP地址,但是使用此IP地址5次,使用另一个5次,则比例为50 %,如果使用过此IP地址9次,使用另一个I次,则比例为90%。
[0070](4)在所述全部行为日志时间范围内,所有曾经使用过此IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
[0071]例如,全部行为日志时间范围位一个月,那么,在一个月内每天的O点?I点、I
点?2点、2点?3点、......23点?O点时间段内,统计使用过此IP地址访问互联网的次
数占这一个月内使用过此IP地址的所有Cookie访问互联网的次数的比例。
[0072](5)在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
[0073]这里统计的是用该IP地址上网的总时间长度。
[0074]S103:对于各IP地址,分别根据所述IP地址的网吧IP特征是否满足预设的判决策略来判断所述IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
[0075]在本实施例中,根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址的步骤包括以下一种或多种情况:
[0076](I)如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
[0077](2)如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
[0078](3)如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
[0079](4)如果曾经使用过该IP地址的所有Cookie在凌晨I点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
[0080](5)如果曾经使用过该IP地址的所有Cookie中,第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
[0081](6)如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
[0082]其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的Cookie。
[0083]其中,第(6)种判别方式中,机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
[0084]在一个应用示例中,如图2所示,基于机器学习来判断所述IP地址是否为网吧IP地址,具体包括以下步骤:
[0085]S201:收集真实的网吧IP地址和非网吧IP地址;
[0086]其中,真实的网络IP地址可以通过多种方法收集,例如从网吧的电脑上直接获取网吧的IP地址,从网络运营商处获取在此运营商处申请了固定IP的网吧列表,获取正在网吧上网的用户的IP地址信息以及其他方法。而非网吧IP地址可以通过收集在家庭或公司的上网用户的IP地址信息来获取。
[0087]S202:根据所述IP地址的网吧IP特征应用机器学习法从所述真实的网吧IP地址和非网吧IP地址中训练出IP分类模型;
[0088]在IP分类模型的构建过程中,IP分类模型中的IP地址分类分为正类和负类,将真实网吧IP地址作为正类,将非网吧IP地址作为负类,从网络行为日志中提取Cookie,根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各个IP地址(包括两部分IP地址)的网吧IP特征。根据两部分IP地址的特征计算结果,利用机器学习法自动地构建出机器学习分类模型。下面以支持向量机分类模型作为机器学习模型的一个样例来描述分类模型的训练过程。本发明并不局限于支持向量机这一种机器学习模型。
[0089]本实例利用步骤S201获得的数据,使用线性支持向量机算法来训练分类模型。线性支持向量机采用特征的线性组合来判别正类和负类。将S103步骤中描述的5个特征的计算结果分别记为特征值1-5,那么线性支持向量机的分类函数可表示为权重IX特征值1+权重2乂特征值2+权重3 X特征值3+权重4 X特征值4+权重5 X特征值5+权重6,其中权重1-6通过模型的训练过程获得。
[0090]根据这个分类函数的判别正类和负类的方法为:对于任意一个IP地址,计算出5个特征的特征值后,将5个特征值代入到上述函数之中,若函数值大于等于0,线性支持向量机将其判别为正类;若干函数值小于0,则线性支持向量机将其判别为负类。
[0091]在机器学习模型的训练过程中,最优的权重根据步骤S201获得的真实数据来计算。当为某个真实的网吧IP地址计算出特征值后,如果代入到分类函数中发现函数值小于O,则应相应地调整权重1-6,使得这个网吧IP地址对应的函数值大于O ;反之,对于真实的非网吧IP,应尽可能保证其所对应的函数值小于O。进一步地,最优的权重应根据如下准则来计算:
[0092]优化准则:最小化Σ i数据集中第i个IP地址的误差,
[0093]其中IP地址取遍S201中获取的数据集中的每一个IP地址,一个IP地址的误差的定义为:当根据网吧IP特征计算出来的类别与IP地址的真实类别一致时,此IP地址的误差为O;当根据网吧IP特征计算出来的类别与IP地址的真实类别不一致时,此IP地址的误差为I。
[0094]根据如上准则,求解最优权重的问题被表达为标准的约束优化问题。约束优化问题可以采用梯度下降、模拟退火等多种数值优化的方法进行求解,从而获取最优的权重。
[0095]记数值优化求出的最优的6个权重为Wp W2> W3> W4> W5> W6,则训练出来的线性支持向量机分类模型对应的分类函数可表示为
[0096]W1X特征值l+w2X特征值2+w3X特征值3+w4X特征值4+w5X特征值5+w6。
[0097]S203:判断该IP地址是否为机器学习得到的正类IP地址,如果是,则判断该IP地址是网吧IP地址。
[0098]在判断一个IP地址是否为正类IP地址时,首先从网络行为日志中提取Cookie,根据Cookie的网络行为统计出该IP地址所有的网吧IP特征,然后将该IP地址的网吧IP特征通过S202构建出的机器学习分类模型中的函数计算出该IP地址为正类IP地址还是负类IP地址。
[0099]具体地,对于待判断类别的IP地址,首先根据其行为日志计算出S201中所述的5类网吧特征的特征值,再将计算出来的特征值代入到S202步骤训练出来的分类函数中。
[0100]记此IP地址的5个特征值分别为特征值1-5,相应的判别标准为:
[0101]若W1X特征值l+w2X特征值2+w3X特征值3+w4X特征值4+w5X特征值5+w6大于等于0,判别为正类;
[0102]若W1X特征值l+w2X特征值2+w3X特征值3+w4X特征值4+w5X特征值5+w6小于0,判别为负类;
[0103]除了上述操作步骤外,为了保证网吧IP数据库的时效性,在实际应用中,每隔一段固定的时间,重新在所述全部行为日志时间范围内提取Cookie,重新运行上述所有步骤,以实时地生成最新的网吧IP数据库。
[0104]如图3所示,本实施例提供了一种生成网吧IP数据库的装置,包括:
[0105]Cookie网络行为信息获取模块,用于从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
[0106]IP地址特征统计模块,用于根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
[0107]网吧IP数据库生成模块,用于对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
[0108]其中,所述IP地址的网吧IP特征,包括以下一个或多个:
[0109]曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
[0110]曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
[0111]曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
[0112]在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
[0113]在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
[0114]所述网吧IP数据库生成模块,用于根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,包括以下一种或多种情况:
[0115]如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
[0116]如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
[0117]如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
[0118]如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨I点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
[0119]如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
[0120]其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
[0121]如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
[0122]其中,所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
[0123]下面,在一个应用示例中,以根据所述IP地址的网吧IP特征是否满足预设的判决策略来判断所述IP地址是否为网吧IP地址为例,对本发明进一步作详细描述,如图4所示,包括以下步骤:
[0124]S301:记录Cookie每次访问互联网所使用的IP地址及相应的访问时间;
[0125]例如,如下表I所示,给出了来访Cookie的信息记录表:
[0126]
【权利要求】
1.一种生成网吧IP数据库的方法,包括: 从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间; 根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征; 对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
2.如权利要求1所述的方法,其特征在于: 所述IP地址的网吧IP特征,包括以下一个或多个: 曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔; 曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数; 曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例; 在所述全部 行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例; 在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
3.如权利要求2所述的方法,其特征在于: 所述根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址的步骤包括以下一种或多种情况: 如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址; 如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨I点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址; 如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址; 如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址; 其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的 Cookie。
4.如权利要求3所述的方法,其特征在于:所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
5.如权利要求1~4任一项权利要求所述的方法,其特征在于:所述方法还包括: 每隔一段固定的时间,重新在所述全部行为日志时间范围内提取Cookie,按照如权利要求I所述的方法重新生成新的网吧IP数据库。
6.一种生成网吧IP数据库的装置,包括: Cookie网络 行为信息获取模块,用于从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间; IP地址特征统计模块,用于根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征; 网吧IP数据库生成模块,用于对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
7.如权利要求6所述的装置,其特征在于: 所述IP地址的网吧IP特征,包括以下一个或多个: 曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔; 曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数; 曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例; 在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例; 在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
8.如权利要求7所述的装置,其特征在于: 所述网吧IP数据库生成模块,用于根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,包括以下一种或多种情况: 如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址; 如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨I点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址; 如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址; 如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址; 其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的 Cookie。
9.如权利要求8所述的装置,其特征在于: 所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
【文档编号】G06F17/30GK103699546SQ201210367803
【公开日】2014年4月2日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】欧阳佑, 吴明辉 申请人:北京思博途信息技术有限公司