一种检测和处理非法用户的方法及系统与流程

文档序号:12376995阅读:469来源:国知局
一种检测和处理非法用户的方法及系统与流程

本发明涉及网络安全技术领域,尤其涉及一种检测和处理非法用户的方法及系统。



背景技术:

目前网站用户数据的保护是互联网安全重要的一环。

一方面,由于信息技术的发展,通过各种可以识别出个人或者同相关信息结合而可识别出个人的信息,便可以勾画出一个人的全貌或者把握其某一方面的特征。尤其在互联网上,第三方非法获取用户在网站上产生的用户数据,可以得到用户的家庭、工作位置和内容,以及社交关系等隐私信息,从而可能利用这些信息进行诈骗等犯罪行为,或者出售给其它公司和组织,给社会带来了极大的危害。

另一方面,对于网站而言,用户数据是最有价值的东西,也是商业变现的重要基础。如果任凭第三方将用户数据非法抓取,那么给网站带来的直接和间接的经济损失也是非常巨大的。

最后,对于国内一些比较特殊的网站,如新浪微博。其作为中国最大的社交媒体平台,每天产生的热点内容,一定程度上代表了社会的整体舆情发展趋势。在国家安全信息层面,保护这些数据不被非法获取,也直接关系着我国的社会稳定和舆情引导方向。

为保护用户数据的安全,现有技术的方案如下:

系统记录每个IP一定时间的访问量信息,对于访问量明显异常的IP。系统会判定认为该IP存在非法抓取网站用户数据的行为,在一定时间(如,2小时)对这个IP进行禁止访问的处理。

同理,系统也可以记录每个网站帐号一定时间的访问量信息,对于访问量明显异常的帐号。系统会判定认为该网站帐号存在非法抓取网站用户数据的行为,在一定时间(如,2小时)对这个帐号进行禁止访问的处理。

在实施该技术方案时,遇到如下技术问题:

对于IP而言,因为是简单的访问量统计,对于实际中非常常用的公司、学校等公用1个或者有限几个IP的情况下,这些IP的访问量都是非常大的。那么基于IP访问量的限制必然存在很大的误伤,可能引起用户的强烈投诉。

对于网站帐号而言,也可能存在同样的问题。对于一些重度的微博用户,刷微博的频率非常高。那么简单的次数限制,也存在很大可能误伤正常用户。

同时,基于次数的统计,也很容易被第三方发现,那么对方只需要降低自己的访问频率,绕过的门槛并不高。



技术实现要素:

本发明的目的是提供一种检测和处理非法用户的方案,以更精准的识别非法用户,降低误伤正常用户的概率。

为达到上述目的,一方面,本发明实施例提供一种检测和处理非法用户的方法,包括:

实时监控可疑用户的访问行为数据;所述访问行为数据包括:在预设时间周期内访问的URL类别及类别数,以及预设时间周期内分别访问各类URL的次数;

如果判断出预设时间周期内访问的所述URL的类别数不超过预设种类阈值;并且,

根据预设时间周期内分别访问所述各类URL的次数计算得到的访问行为的集中度超过预设集中度阈值;

则判定该可疑用户为非法用户,并对该非法用户进行异常用户处理。

优选的,在实时监控可以用户的访问行为数据之前还包括:

当某用户的访问频率达到了预设访问频率阈值,将该用户作为可疑用户进行监控。

优选的,所述访问行为的集中度通过以下步骤计算得到:

将所述各类URL根据预设时间周期内的访问量排名,并统计排名在最前边的N类URL相应的访问量之和;N为自然数;

将排名在最前边的N类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度。

优选的,所述访问行为的集中度通过以下步骤计算得到:

统计所述URL类别中,用户数据类URL所对应的访问量之和;

将所述用户数据类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度。

优选的,所述对所述非法用户进行异常用户处理,包括:

根据所述非法用户的访问频率,选择对应的异常处理级别对所述非法用户执行相应的处理操作;其中,所述异常处理级别根据访问频率设定,访问频率越高,对应的异常处理级别越高。

另一方面,本发明提供一种检测和处理非法用户的系统,包括:

访问数据收集单元,用于实时监控可疑用户的访问行为数据;所述访问行为数据包括:在预设时间周期内访问的URL类别及类别数,以及预设时间周期内分别访问各类URL的次数;

访问单一性判断单元,用于判断预设时间周期内访问的所述URL的类别数是否超过预设种类阈值;

访问集中度判断单元,用于判断根据预设时间周期内分别访问所述各类URL的次数计算得到的访问行为的集中度是否超过预设集中度阈值;

异常处理单元,用于当所述类别数不超过预设种类阈值,且集中度超过预设集中度阈值时,判定该可疑用户为非法用户,并对该非法用户进行异常用户处理。

优选的,还包括检测单元,用于当某用户的访问频率达到了预设访问频率阈值时,将该用户作为可疑用户添加到访问数据收集单元。

优选的,所述访问集中度判断单元,包括:

第一集中访问量统计子单元,用于将所述各类URL根据预设时间周期内的访问量排名,并统计排名在最前边的N类URL相应的访问量之和;N为自然数;

第一集中度计算子单元,用于将排名在最前边的N类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度;

第一集中度判断子单元,用于判断所述集中度是否超过集中度阈值。

优选的,所述访问集中度判断单元,包括:

第二集中访问量统计子单元,用于统计所述URL类别中,用户数据类URL所对应的访问量之和;

第二集中度计算子单元,用于将所述用户数据类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度;

第二集中度判断子单元,用于判断所述集中度是否超过集中度阈值。

优选的,所述异常处理单元具体用于,在对所述非法用户进行异常用户处理时,根据所述非法用户的访问频率,选择对应的异常处理级别对所述非法用户执行相应的处理操作;其中,所述异常处理级别根据访问频率设定,访问频率越高,对应的异常处理级别越高。

上述技术方案具有如下有益效果:本发明采用了如下技术方案:实时监控可疑用户的访问行为数据;确定预设时间周期内访问的所URL的类别数不超过预设种类阈值;和,根据预设时间周期内分别访问所述各类URL的次数,确定访问行为的集中度超过预设集中度阈值;判定该可疑用户为非法用户,并对该非法用户进行异常用户处理;通过根据可可疑用户访问行为的单一性和集中性来判断是否为非法用户,提高了非法用户识别的精准度,降低了对正常用户的误识别率,提高了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一种检测和处理非法用户的方法的流程图;

图2是本发明实施例一的步骤104的流程图;

图3是本发明实施例二的步骤104的流程图;

图4是本发明实施例三,一种检测和处理非法用户的系统的结构示意图;

图5是本发明实施例三中访问集中度判断单元304的结构图;

图6是本发明实施例四中访问集中度判断单元304的结构图;

图7是本发明实施例五,一种检测和处理非法用户的方法的流程图。

具体实施方式

传统的广告审核系统是基于广告主对于广告的提交时间进行审核排序的,即广告创建时间越早则审核的越早,但对于社交网络广告的粉丝经济业务的先投放后审核机制而言,如果投放出去的广告涉嫌非法,同时该广告的审核在审核任务流中优先级在最后,则该条广告在推广到较大范围后才会被发现,引起客户投诉,损害公司的形象。因此,对于这种涉嫌非法的广告希望能尽快审核拒绝并下线,将非法广告的负面影响范围控制到最低,这就需要审核系统有广告风险评估的过程来打乱传统的按时间排序的审核工作流,将高风险的审核任务优先处理,避免非法广告的对公司形象和业务的负面影响。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

如图1所示,为本发明实施例一种检测和处理非法用户的方法的流程图,包括以下步骤:

步骤102,实时监控可疑用户的访问行为数据;

所述访问行为数据包括:在预设时间周期内访问的URL类别及类别数,以及预设时间周期内分别访问各类URL的次数;

步骤103,判断预设时间周期内访问的所述URL的类别数是否超过预设种类阈值;若未超过,则进入步骤104;

本实施例中所提到的可疑用户以及非法用户,具体指IP或网络账号,以下以IP为例进行说明。

本实施例优选的,预设种类阈值为4,预设时间周期为1分钟;即,当1分钟内,可疑IP访问的URL地址仅有4类或者更少,则表明其访问种类过于单一。

若判定类别数超过了预设的种类阈值,则不判定其访问种类过于单一,继续作为可疑用于进行监控,不进入以下程序。

步骤104,判断根据预设时间周期内分别访问所述各类URL的次数计算得到的访问行为的集中度是否超过预设集中度阈值;若是,则进入步骤105;

若判集中度未达到集中度阈值,则不判定其集中度过高,继续作为可疑用于进行监控,不进入以下程序。

此处需要说明的是,步骤103和104之间的执行顺序并不作为对本发明的限定。即,先执行步骤104再执行步骤103,不会影响本发明的效果。

步骤105,判定该可疑用户为非法用户,并对该非法用户进行异常用户处理。

优选的,在实时监控可以用户的访问行为数据之前还包括:

步骤101,当某用户的访问频率达到了预设访问频率阈值,将该用户作为可疑用户进行监控。

本实施例优选的,访问频率阈值为50次/分。即,当某IP地址的访问频率达到每分钟50次时,即可将该IP地址作为可疑的IP进行监控。

图2为本发明实施例一的步骤104的流程图,如图所示,步骤104包括:

步骤1041a,将所述各类URL根据预设时间周期内的访问量排名,并统计排名在最前边的N类URL相应的访问量之和;N为自然数;

步骤1042a,将排名在最前边的N类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度;

步骤1043a,判断所述集中度是否超过集中度阈值;若是,则进入步骤105。

本实施例优选的,N=3。即,将排在前三名的三类URL对应的访问量加到一起,除以可疑IP在1分钟内的访问总数,得到一个百分比;该百分比即集中度。

将该集中度与一个预设的值进行比较;本实施例优选的,该集中度阈值为90%,当集中度超过90%时,即可认定访问集中度过高。

综上,当访问种类过于单一,同时集中度过高,即1分钟内访问的URL种类为4类或更少,且90%的访问量都集中在其中3类URL中,则可确定该可疑IP为非法IP。

优选的,步骤105中,异常用户处理包括:

根据所述非法用户的访问频率,选择对应的异常处理级别对所述非法用户执行相应的处理操作;其中,所述异常处理级别根据访问频率设定,访问频率越高,对应的异常处理级别越高。

如,根据每分钟的访问量设定异常处理级别分别为:

访问量小于1万,异常处理级别为1级;相应的处理操作为:进行24小时所有访问需要先验证图片验证码后方可继续进行;

访问量在1万和10万之间,异常处理级别为2级;相应的处理操作为:进行24小时所有访问需要先手机短信验证后方可继续访问网站内容;

访问量大于十万,异常处理级别为3级;相应的处理操作为:对该IP进行24小时禁止访问处理。

即,若1分钟内的访问量大于10万,对该IP进行24小时禁止访问处理;大于1万小于10万的,进行24小时所有访问需要先手机短信验证后方可继续访问网站内容;小于1万的,进行24小时所有访问需要先验证图片验证码后方可继续进行。

实施例二

本实施例与实施例一的区别仅在于步骤104中,将统计排名前3的URL的访问量,替换为统计用户数据类URL的访问量。以下结合附图进行具体说明:

图3为本发明实施例二的步骤104的流程图,如图所示,所述步骤104包括:

步骤1041b,统计所述URL类别中,用户数据类URL所对应的访问量之和;

步骤1042b,将所述用户数据类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度;

步骤1043b,判断所述集中度是否超过集中度阈值;若是,则进入步骤105。

本实施例优选的,用户数据类URL包括:陌生人主页URL、用户个人资料URL、社交关系URL。

实施例三

如图4所示,为本发明实施例一种检测和处理非法用户的系统的结构示意图,包括:

访问数据收集单元302,用于实时监控可疑用户的访问行为数据;所述访问行为数据包括:在预设时间周期内访问的URL类别及类别数,以及预设时间周期内分别访问各类URL的次数;

访问单一性判断单元303,用于判断预设时间周期内访问的所述URL的类别数是否超过预设种类阈值;

访问集中度判断单元304,用于判断根据预设时间周期内分别访问所述各类URL的次数计算得到的访问行为的集中度是否超过预设集中度阈值;

异常处理单元305,用于当所述类别数不超过预设种类阈值,且集中度超过预设集中度阈值时,判定该可疑用户为非法用户,并对该非法用户进行异常用户处理。

优选的,还包括检测单元301,用于当某用户的访问频率达到了预设访问频率阈值时,将该用户作为可疑用户添加到访问数据收集单元302。

本实施例优选的,访问频率阈值为50次/分。即,当某IP地址的访问频率达到每分钟50次时,即可将该IP地址作为可疑的IP进行监控。

图5为本发明实施例三中访问集中度判断单元304的结构图,如图所示,包括:

第一集中访问量统计子单元3041a,用于将所述各类URL根据预设时间周期内的访问量排名,并统计排名在最前边的N类URL相应的访问量之和;N为自然数;

第一集中度计算子单元3042a,用于将排名在最前边的N类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度;

第一集中度判断子单元3043a,用于判断所述集中度是否超过集中度阈值。

本实施例优选的,N=3。即,将排在前三名的三类URL对应的访问量加到一起,除以可疑IP在1分钟内的访问总数,得到一个百分比;该百分比即集中度。

将该集中度与一个预设的值进行比较;本实施例优选的,该集中度阈值为90%,当集中度超过90%时,即可认定访问集中度过高。

综上,当访问种类过于单一,同时集中度过高,即1分钟内访问的URL种类为4类或更少,且90%的访问量都集中在其中3类URL中,则可确定该可疑IP为非法IP

优选的,异常处理单元305通过以下方法对所述非法用户进行异常用户处理:

根据所述非法用户的访问频率,选择对应的异常处理级别对所述非法用户执行相应的处理操作;其中,所述异常处理级别根据访问频率设定,访问频率越高,对应的异常处理级别越高。

如,根据每分钟的访问量设定异常处理级别分别为:

访问量小于1万,异常处理级别为1级;相应的处理操作为:进行24小时所有访问需要先验证图片验证码后方可继续进行;

访问量在1万和10万之间,异常处理级别为2级;相应的处理操作为:进行24小时所有访问需要先手机短信验证后方可继续访问网站内容;

访问量大于十万,异常处理级别为3级;相应的处理操作为:对该IP进行24小时禁止访问处理。

即,若1分钟内的访问量大于10万,对该IP进行24小时禁止访问处理;大于1万小于10万的,进行24小时所有访问需要先手机短信验证后方可继续访问网站内容;小于1万的,进行24小时所有访问需要先验证图片验证码后方可继续进行。

实施例四

本实施例与实施例三的区别仅在于访问集中度判断单元304中,将统计排名前3的URL的访问量,替换为统计用户数据类URL的访问量。

图6为本发明实施例四中访问集中度判断单元304的结构图,如图所示,包括:

第二集中访问量统计子单元3041b,用于统计所述URL类别中,用户数据类URL所对应的访问量之和;

第二集中度计算子单元3042b,用于将所述用户数据类URL所对应的访问量之和除以所述可疑用户在预设时间周期内的访问总次数,得到访问行为的集中度;

第二集中度判断子单元3043b,用于判断所述集中度是否超过集中度阈值。

实施例五

非法用户利用手里已经掌握的一批IP资源来非法抓取新浪微博网站用户数据,常用使用的IP为“8.8.1.1”“8.8.1.2”,试图大量抓取微博用户的发博内容和用户个人资料页面。非法用户通过IP“8.8.1.1”和“8.8.1.2”每分钟分别访问5万次微博网站的URL。

图7为本发明实施例五中,一种检测和处理非法用户的方法的流程图,如图所示,包括以下步骤:

步骤501,发现“8.8.1.1”一分钟内访问网站URL超过了50次,将其列为可疑IP。

步骤502,实时监测并收集这个IP下所有的访问URL记录;

步骤503,经统计和计算,确定该IP访问URL具有明显的单一和集中的特征。

系统同时会也会计算同一时间段整个网络下,所有IP访问网站URL超过50次的情况。因为新浪微博的网站URL非常多,用户量也非常大。对于访问URL超过50次的IP下,访问各个网站URL都有一定规律的分布。目前统计证明,通常一个IP下,30%的访问URL“微博主页”,20%的访问URL“我的主页”,30%的访问URL“好友主页”,5%的访问URL为“其它用户个人资料”,5%的访问URL为“陌生人主页”,7%的访问URL“发微博”,3%的访问URL为“其它”。

系统对比发现IP“8.8.1.1”的访问URL分布与出口/公用IP的登录入口(产品)分布有着较大的差异。并且,访问URL具有明显的单一和集中的特征。

系统对比计算方式为:

单个IP访问网站URL总的数量为Y,其中最多的3类网站URL(陌生人主页URL、用户个人资料URL、社交关系URL)为X,访问的URL总的类别为4.

当M<=4,X/Y>=90%。即认为该IP为盗号IP。

步骤504,判定IP“8.8.1.1”是非法抓取网站用户数据使用的IP,对该IP进行24小时间禁止访问网站服务的处理。

上述实施例具有如下有益效果:

本发明实施例采用了如下技术方案:实时监控可疑用户的访问行为数据;确定预设时间周期内访问的所URL的类别数不超过预设种类阈值;和,根据预设时间周期内分别访问所述各类URL的次数,确定访问行为的集中度超过预设集中度阈值;判定该可疑用户为非法用户,并对该非法用户进行异常用户处理;通过根据可可疑用户访问行为的单一性和集中性来判断是否为非法用户,提高了非法用户识别的精准度,降低了对正常用户的误识别率,提高了用户体验。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1