网络恶意爬虫识别方法及装置制造方法

文档序号:6637706阅读:303来源:国知局
网络恶意爬虫识别方法及装置制造方法
【专利摘要】本发明公开了一种网络恶意爬虫识别方法及装置。该网络恶意爬虫识别方法包括:获取待检测网络地址;获取待检测网络地址对应的用户访问信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。通过本发明,解决了对网络恶意爬虫进行识别时准确性差的问题,进而在目标访问比率超过预设比率阈值情况下确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,达到了提高网络恶意爬虫识别的准确性的效果。
【专利说明】网络恶意爬虫识别方法及装置

【技术领域】
[0001]本发明涉及互联网领域,具体而言,涉及一种网络恶意爬虫识别方法及装置。

【背景技术】
[0002]网络爬虫是一种自动获取网页内容的程序。对于一个网站而言,恶意爬虫的大量请求会消耗服务器的性能,浪费很多资源,甚至会造成服务器宕机。因此,有必要保证用户对网站进行正常的访问,而避免大规模的恶意爬虫向网站发起访问。
[0003]现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志,从日志中找出频繁访问该网站的网络地址,并将该网络地址过滤掉,禁止该网络地址再次访问该网站。但是这种方法误杀率比较高。因为公司或者楼宇通常对外只有一个公网网络地址,网站记录的网络地址可能不是个人的网络地址,而是公司或者楼宇的网络地址,也就是说通过该网络地址访问网站的是多个用户,不应被当作恶意爬虫的访问。
[0004]针对相关技术中对网络恶意爬虫进行识别时准确性差的问题,目前尚未提出有效的解决方案。


【发明内容】

[0005]本发明的主要目的在于提供一种网络恶意爬虫识别方法及装置,以解决对网络恶意爬虫进行识别时准确性差的问题。
[0006]为了实现上述目的,根据本发明的一个方面,提供了一种网络恶意爬虫识别方法。
[0007]根据本发明的网络恶意爬虫识别方法包括:获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。
[0008]进一步地,获取待检测网络地址对应的用户访问信息包括:获取目标网站的访问日志;解析访问日志,获取解析结果;从解析结果中获取待检测网络地址对应的用户访问信息。
[0009]进一步地,通过以下方法确定预设比率阈值:确定参考网络地址集合,其中,参考网络地址集合包括多个网络地址,多个网络地址均为满足第二预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数未超过预设次数阈值,则确定网络地址满足第二预设条件;获取参考网络地址集合对应的用户访问信息;根据参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,预设比率阈值为参考网络地址集合中对应的用户访问信息中包含目标网络终端信息的网络地址的个数和在预设时间段内通过参考网络地址集合中的网络地址访问目标网站的次数的比值。
[0010]进一步地,在预设时间段内通过多个网络地址访问目标网站,确定参考网络地址集合包括:分别检测在预设时间段内通过多个网络地址访问目标网站的次数是否超过预设次数阈值;确定在预设时间段内访问目标网站的次数未超过预设次数阈值的网络地址为参考网络地址集合中的网络地址。
[0011]进一步地,根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率包括:统计在预设时间段内通过待检测网络地址访问目标网站的次数;判断待检测网络地址对应的用户访问信息中是否包含目标网络终端信息;如果待检测网络地址对应的用户访问信息中包含目标网络终端信息,则统计对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数;通过以下公式计算目标访问比率:S = A/B,其中,S为目标访问比率,A为对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过待检测网络地址访问目标网站的次数。
[0012]为了实现上述目的,根据本发明的另一方面,提供了一种网络恶意爬虫识别装置。
[0013]根据本发明的网络恶意爬虫识别装置包括:第一获取单元,用于获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;第二获取单元,用于获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;计算单元,用于根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断单元,用于判断目标访问比率是否超过预设比率阈值;确定单元,用于在目标访问比率超过预设比率阈值时,确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。
[0014]进一步地,第二获取单元包括:第一获取模块,用于获取目标网站的访问日志;解析模块,用于解析访问日志,获取解析结果;第二获取模块,用于从解析结果中获取待检测网络地址对应的用户访问信息。
[0015]进一步地,通过以下模块确定预设比率阈值:第一确定模块,用于确定参考网络地址集合,其中,参考网络地址集合包括多个网络地址,多个网络地址均为满足第二预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数未超过预设次数阈值,则确定网络地址满足第二预设条件;第三获取模块,用于获取参考网络地址集合对应的用户访问信息;第二确定模块,用于根据参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,预设比率阈值为参考网络地址集合中对应的用户访问信息中包含目标网络终端信息的网络地址的个数和在预设时间段内通过参考网络地址集合中的网络地址访问目标网站的次数的比值。
[0016]进一步地,在预设时间段内通过多个网络地址访问目标网站,第一确定模块包括:检测子模块,用于分别检测在预设时间段内通过多个网络地址访问目标网站的次数是否超过预设次数阈值;确定子模块,用于确定在预设时间段内访问目标网站的次数未超过预设次数阈值的网络地址为参考网络地址集合中的网络地址。
[0017]进一步地,计算单元包括:第一统计模块,用于统计在预设时间段内通过待检测网络地址访问目标网站的次数;判断模块,用于判断待检测网络地址对应的用户访问信息中是否包含目标网络终端信息;第二统计模块,用于在待检测网络地址对应的用户访问信息中包含目标网络终端信息时,统计对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数;计算模块,用于通过以下公式计算目标访问比率:s = A/B,其中,S为目标访问比率,A为对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过待检测网络地址访问目标网站的次数。
[0018]通过本发明,采用包括如下步骤的方法:获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,解决了对网络恶意爬虫进行识别时准确性差的问题,进而在目标访问比率超过预设比率阈值情况下确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,达到了提高网络恶意爬虫识别的准确性的效果。

【专利附图】

【附图说明】
[0019]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0020]图1是根据本发明的网络恶意爬虫识别方法的第一实施例的流程图;
[0021]图2是根据本发明的网络恶意爬虫识别方法的第二实施例的流程图;以及
[0022]图3是根据本发明的网络恶意爬虫识别装置的实施例的示意图;

【具体实施方式】
[0023]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0024]为了使本【技术领域】的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0025]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]根据本发明的实施例,提供了一种网络恶意爬虫识别方法。
[0027]图1是根据本发明的网络恶意爬虫识别方法的实施例的流程图。如图1所示,该方法包括步骤S102至步骤SllO:
[0028]步骤S102,获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件。
[0029]在一些情况下,在预设时间段内通过一个固定的网络地址访问目标网站的次数很大(超出了一般情况下的访问量),这时需要对通过该网络地址的访问的性质进行识别,包括判断其为合法的人为访问,还是网络恶意爬虫访问。这里的预设次数阈值为一个参考值,可以但是不局限于根据网站分析者的经验设定。
[0030]步骤S104,获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息。
[0031]可以通过以下方法获取待检测网络地址对应的用户访问信息包括:获取目标网站的访问日志;解析访问日志,获取解析结果;从解析结果中获取待检测网络地址对应的用户访问信息。
[0032]优选地,从解析结果中获取检测网络地址对应的用户代理信息(UserAgent),UserAgent中包含用户访问目标网站时使用的浏览器、操作系统、终端设备型号等信息。
[0033]步骤S106,根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率。
[0034]优选地,可以通过如下方法根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率包括:统计在预设时间段内通过待检测网络地址访问目标网站的次数;判断待检测网络地址对应的用户访问信息中是否包含目标网络终端信息;如果待检测网络地址对应的用户访问信息中包含目标网络终端信息,则统计对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数;通过以下公式计算目标访问比率:S = A/B,其中,S为目标访问比率,A为对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过待检测网络地址访问目标网站的次数。
[0035]例如,目标网络终端信息为访问使用的浏览器为IE浏览器。假设在预设时间段内,通过第一 IP地址访问目标网站的次数为1000次。其中,使用IE浏览器进行访问的次数为900次。则目标访问比率为S = 0.9。
[0036]步骤S108,判断目标访问比率是否超过预设比率阈值。
[0037]预设比率阈值为一个参考数值,该数值可以根据判断者的经验进行拟定,也可以根据合法IP的访问比率进行设定。
[0038]优选地,可以通过以下方法确定预设比率阈值:确定参考网络地址集合,其中,参考网络地址集合包括多个网络地址,多个网络地址均为满足第二预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数未超过预设次数阈值,则确定网络地址满足第二预设条件;获取参考网络地址集合对应的用户访问信息;根据参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,预设比率阈值为参考网络地址集合中对应的用户访问信息中包含目标网络终端信息的网络地址的个数和在预设时间段内通过参考网络地址集合中的网络地址访问目标网站的次数的比值。
[0039]在预设时间段内通过多个网络地址访问了目标网站,可以通过如下方法确定参考网络地址集合:分别检测在预设时间段内通过多个网络地址访问目标网站的次数是否超过预设次数阈值;确定在预设时间段内访问目标网站的次数未超过预设次数阈值的网络地址为参考网络地址集合中的网络地址。
[0040]例如,目标网络终端信息为访问使用的浏览器为IE浏览器。假设在预设时间段内,访问目标网站的次数超过预设次数阈值(500次)的网络地址为第一 IP地址,没有超过预设次数阈值的网络地址为第二 IP地址、第三IP地址和第四IP地址,其中,通过第一 IP地址访问目标网站的次数为1000次(访问使用的浏览器为IE浏览器的为800次);分别通过第二 IP地址、第三IP地址和第四IP地址访问目标网站的次数为100次、200次和300次,访问使用的浏览器为为IE浏览器的分别为50次、100次和150次。将第二 IP地址、第三IP地址和第四IP地址视为参考网络地址集合,计算预设比率阈值为(50+100+150)/(100+200+300) = 0.5。而目标访问比率为800/1000 = 0.8。由于0.8大于0.5,所以可以认为通过第一 IP地址访问目标网站的行为是恶意爬虫访问行为。
[0041]步骤S110,如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。
[0042]网络爬虫是按照一定的规则,自动抓取万维网信息的程序和脚本。由于预设比率阈值是预设时间段内的人为访问情况的一种统计值,该统计值对应的访问情况是发生概率最大的人为访问情况,可以作为一个标准用以对比。当目标访问比率超过了预设比率阈值,可以认为通过该网络地址的访问是非人为进行的访问,属于恶意爬虫访问行为。
[0043]该实施例由于采用了如下步骤:获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件;获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息;根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率;判断目标访问比率是否超过预设比率阈值;如果目标访问比率超过预设比率阈值,则确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,解决了对网络恶意爬虫进行识别时准确性差的问题,进而在目标访问比率超过预设比率阈值情况下确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,达到了提高网络恶意爬虫识别的准确性的效果。
[0044]图2是根据本发明的网络恶意爬虫识别方法的第二实施例的流程图,图2可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括步骤S201至步骤S208:
[0045]步骤S201,对用户访问进行日志记录,包括用户的IP地址、访问时的UserAgent。
[0046]步骤S202,解析日志,判断IP地址为嫌疑IP还是合法IP。
[0047]嫌疑IP即指预设时间段内访问目标网站的次数超过预设次数阈值的IP地址;合法IP为预设时间段内访问目标网站的次数未超过预设次数阈值的IP地址。
[0048]步骤S203,对于判断为嫌疑IP的IP地址,对每个嫌疑IP对应的UserAgent进行分析。
[0049]步骤S204,计算每个嫌疑IP的UserAgent比率。
[0050]UserAgent比率即为目标访问比率,例如,在预设时间段内,嫌疑IP访问目标网站使用的操作系统为windows 7系统的次数占嫌疑IP访问目标网站总次数的比例。
[0051]步骤S205,对于判断出的合法IP,将所有的合法IP作为合法IP组,计算合法IP组的UserAgent比率。
[0052]合法IP组的UserAgent比率即为预设比率阈值。例如,通过合法IP组内所有IP地址访问目标网站使用的操作系统为windows 7系统的次数占合法IP组内所有IP地址访问目标网站总次数的比例。
[0053]步骤S206,判断每个嫌疑IP的UserAgent比率和合法IP组的UserAgent比率的差值是否大于预设误差值。
[0054]步骤S207,如果嫌疑IP的UserAgent比率与合法IP组的UserAgent比率的差值不大于预设误差值,则通过嫌疑IP的访问为人为访问。
[0055]步骤S208,如果嫌疑IP的UserAgent比率与合法IP组的UserAgent比率的差值大于预设误差值,则通过嫌疑IP的访问非人为访问,属于恶意爬虫访问行为。
[0056]该实施例通过上述步骤,在识别恶意爬虫的过程中,通过分析UserAgent来检测一个IP地址是否为多个用户访问共同使用的IP地址,降低了识别恶意爬虫时的误杀率,提高了恶意爬虫识别的准确性。
[0057]根据本发明的实施例,提供了一种网络恶意爬虫识别装置。需要说明的是,本发明实施例的网络恶意爬虫识别装置可以用于执行本发明实施例所提供的网络恶意爬虫识别方法,本发明实施例的网络恶意爬虫识别方法也可以通过本发明实施例所提供的网络恶意爬虫识别装置来执行。
[0058]图3是根据本发明的网络恶意爬虫识别装置的实施例的示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、计算单元30、判断单元40和确定单元50。
[0059]第一获取单元10,用于获取待检测网络地址,其中,待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定网络地址满足第一预设条件。
[0060]第二获取单元20,用于获取待检测网络地址对应的用户访问信息,其中,用户访问信息包括访问目标网站的网络终端信息,网络终端信息包括目标网络终端信息。
[0061]第二获取单元包括:第一获取模块,用于获取目标网站的访问日志;解析模块,用于解析访问日志,获取解析结果;第二获取模块,用于从解析结果中获取待检测网络地址对应的用户访问信息。
[0062]计算单元30,用于根据对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数和在预设时间段内通过待检测网络地址访问目标网站的次数计算目标访问比率。
[0063]可选地,计算单元可以包括:第一统计模块,用于统计在预设时间段内通过待检测网络地址访问目标网站的次数;判断模块,用于判断待检测网络地址对应的用户访问信息中是否包含目标网络终端信息;第二统计模块,用于在待检测网络地址对应的用户访问信息中包含目标网络终端信息时,统计对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数;计算模块,用于通过以下公式计算目标访问比率:S = A/B,其中,S为目标访问比率,A为对应的用户访问信息中包含目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过待检测网络地址访问目标网站的次数。
[0064]判断单元40,用于判断目标访问比率是否超过预设比率阈值。
[0065]可选地,可以通过以下模块确定预设比率阈值:第一确定模块,用于确定参考网络地址集合,其中,参考网络地址集合包括多个网络地址,多个网络地址均为满足第二预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数未超过预设次数阈值,则确定网络地址满足第二预设条件;第三获取模块,用于获取参考网络地址集合对应的用户访问信息;第二确定模块,用于根据参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,预设比率阈值为参考网络地址集合中对应的用户访问信息中包含目标网络终端信息的网络地址的个数和在预设时间段内通过参考网络地址集合中的网络地址访问目标网站的次数的比值。
[0066]可选地,如果在预设时间段内通过多个网络地址访问目标网站,第一确定模块可以包括:检测子模块,用于分别检测在预设时间段内通过多个网络地址访问目标网站的次数是否超过预设次数阈值;确定子模块,用于确定在预设时间段内访问目标网站的次数未超过预设次数阈值的网络地址为参考网络地址集合中的网络地址。
[0067]确定单元50,用于在目标访问比率超过预设比率阈值时,确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为。
[0068]本实施例提供的网络恶意爬虫识别装置包括:第一获取单元10、第二获取单元20、计算单元30、判断单元40和确定单元50。通过该装置,解决了对网络恶意爬虫进行识别时准确性差的问题,进而在目标访问比率超过预设比率阈值情况下通过确定单元50确定通过待检测网络地址访问目标网站的行为是恶意爬虫访问行为,达到了提高网络恶意爬虫识别的准确性的效果。
[0069]显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0070]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种网络恶意爬虫识别方法,其特征在于,包括: 获取待检测网络地址,其中,所述待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定所述网络地址满足所述第一预设条件; 获取所述待检测网络地址对应的用户访问信息,其中,所述用户访问信息包括访问所述目标网站的网络终端信息,所述网络终端信息包括目标网络终端信息; 根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率;判断所述目标访问比率是否超过预设比率阈值;以及如果所述目标访问比率超过所述预设比率阈值,则确定通过所述待检测网络地址访问所述目标网站的行为是恶意爬虫访问行为。
2.根据权利要求1所述的方法,其特征在于,获取所述待检测网络地址对应的用户访问信息包括: 获取所述目标网站的访问日志; 解析所述访问日志,获取解析结果;以及从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
3.根据权利要求1所述的方法,其特征在于,通过以下方法确定所述预设比率阈值: 确定参考网络地址集合,其中,所述参考网络地址集合包括多个网络地址,所述多个网络地址均为满足第二预设条件的网络地址,如果在所述预设时间段内通过网络地址访问所述目标网站的次数未超过所述预设次数阈值,则确定所述网络地址满足所述第二预设条件; 获取所述参考网络地址集合对应的用户访问信息;以及根据所述参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,所述预设比率阈值为所述参考网络地址集合中对应的用户访问信息中包含所述目标网络终端信息的网络地址的个数和在预设时间段内通过所述参考网络地址集合中的网络地址访问所述目标网站的次数的比值。
4.根据权利要求3所述的方法,其特征在于,在所述预设时间段内通过多个网络地址访问所述目标网站,确定参考网络地址集合包括: 分别检测在所述预设时间段内通过所述多个网络地址访问所述目标网站的次数是否超过所述预设次数阈值;以及确定在所述预设时间段内访问所述目标网站的次数未超过所述预设次数阈值的网络地址为所述参考网络地址集合中的网络地址。
5.根据权利要求1所述的方法,其特征在于,根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率包括: 统计在所述预设时间段内通过所述待检测网络地址访问所述目标网站的次数; 判断所述待检测网络地址对应的用户访问信息中是否包含所述目标网络终端信息;如果所述待检测网络地址对应的用户访问信息中包含所述目标网络终端信息,则统计对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数;以及通过以下公式计算所述目标访问比率:
S = A/B, 其中,S为所述目标访问比率,A为对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过所述待检测网络地址访问所述目标网站的次数。
6.一种网络恶意爬虫识别装置,其特征在于,包括: 第一获取单元,用于获取待检测网络地址,其中,所述待检测网络地址为满足第一预设条件的网络地址,如果在预设时间段内通过网络地址访问目标网站的次数超过预设次数阈值,则确定所述网络地址满足所述第一预设条件; 第二获取单元,用于获取所述待检测网络地址对应的用户访问信息,其中,所述用户访问信息包括访问所述目标网站的网络终端信息,所述网络终端信息包括目标网络终端信息; 计算单元,用于根据对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数和在预设时间段内通过所述待检测网络地址访问所述目标网站的次数计算目标访问比率; 判断单元,用于判断所述目标访问比率是否超过预设比率阈值;以及确定单元,用于在所述目标访问比率超过所述预设比率阈值时,确定通过所述待检测网络地址访问所述目标网站的行为是恶意爬虫访问行为。
7.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括: 第一获取模块,用于获取所述目标网站的访问日志; 解析模块,用于解析所述访问日志,获取解析结果;以及第二获取模块,用于从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
8.根据权利要求6所述的装置,其特征在于,通过以下模块确定所述预设比率阈值: 第一确定模块,用于确定参考网络地址集合,其中,所述参考网络地址集合包括多个网络地址,所述多个网络地址均为满足第二预设条件的网络地址,如果在所述预设时间段内通过网络地址访问所述目标网站的次数未超过所述预设次数阈值,则确定所述网络地址满足所述第二预设条件; 第三获取模块,用于获取所述参考网络地址集合对应的用户访问信息;以及第二确定模块,用于根据所述参考网络地址集合对应的用户访问信息确定预设比率阈值,其中,所述预设比率阈值为所述参考网络地址集合中对应的用户访问信息中包含所述目标网络终端信息的网络地址的个数和在预设时间段内通过所述参考网络地址集合中的网络地址访问所述目标网站的次数的比值。
9.根据权利要求8所述的装置,其特征在于,在所述预设时间段内通过多个网络地址访问所述目标网站,所述第一确定模块包括: 检测子模块,用于分别检测在所述预设时间段内通过所述多个网络地址访问所述目标网站的次数是否超过所述预设次数阈值;以及确定子模块,用于确定在所述预设时间段内访问所述目标网站的次数未超过所述预设次数阈值的网络地址为所述参考网络地址集合中的网络地址。
10.根据权利要求6所述的装置,其特征在于,所述计算单元包括: 第一统计模块,用于统计在所述预设时间段内通过所述待检测网络地址访问所述目标网站的次数; 判断模块,用于判断所述待检测网络地址对应的用户访问信息中是否包含所述目标网络终端信息; 第二统计模块,用于在所述待检测网络地址对应的用户访问信息中包含所述目标网络终端信息时,统计对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数;以及计算模块,用于通过以下公式计算所述目标访问比率:
S = A/B, 其中,S为所述目标访问比率,A为对应的用户访问信息中包含所述目标网络终端信息的待检测网络地址的个数,B为在预设时间段内通过所述待检测网络地址访问所述目标网站的次数。
【文档编号】G06F17/30GK104391979SQ201410743056
【公开日】2015年3月4日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】崔维福, 范浩文 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1