一种基于用户行为的网站异常访问识别方法及系统的制作方法

文档序号：9200469阅读：803来源：国知局

一种基于用户行为的网站异常访问识别方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据清洗领域，特别是一种网站异常访问识别方法及系统。
【背景技术】
[0002] 随着互联网技术的日益发展，互联网用户人数也日渐增长，日积月累的产生了大量的网站访问日志，通过对这笔大数据的分析，能够更好的把握用户的行为偏好，从中挖掘出更大的商业机会。然而，实际分析中却发现，有很多的异常点击行为，一般是人为不能做到的，还有一些点击很难理解为用户的正常意图，很有可能受到某种非正当目的的驱动，比如刷数据行为、欺诈行为等等。这些垃圾数据大大干扰了互联网公司用户反馈信息的收集，也进而对分析结果的价值也产生了重大影响，因此排除这些异常记录对于后续的分析及挖掘尤为重要。

【发明内容】

[0003] 本发明在此背景下，提出了一种基于用户行为的网络异常访问识别方法及系统，主要针对四种常见的异常：连续点击异常、身份变换异常、访问来源异常和站点分布异常分别提供了相应的识别方法，最后并综合考虑给出了异常日志清洗方案。此方法能有效的排除了异常访问记录，提高了后续用户行为统计及挖掘的准确性。
[0004] 本发明技术方案是，一种基于用户行为的网络异常访问识别方法，包括如下步骤：
[0005] 步骤一：将网站日志进行解析处理，按照ip、访问间隔时间将日志记录划分为多个访问者Visits (访问间隔时间为30分钟），并导入到数据库中；
[0006] 步骤二：针对每个visits，分布计算连续点击、身份变换、访问来源、站点分布四个类别下的度量指标；
[0007] 步骤三：对各个度量指标进行分布分析，提取出各个指标异常的阈值，并提取各个类别的异常判定规则；
[0008] 步骤四：根据提取的指标阈值及异常判定规则，通过指标是否异常判断连续点击、身份变换、访问来源、站点分布四个类别是否异常，并记录该Visits对应的异常数据，保存到数据库中；
[0009] 步骤五：后续分析与挖掘实施时，根据实际对异常数据过滤所需的精准率及覆盖率，选择合适的异常数据进行过滤。
[0010] 本发明公开一种基于用户行为的网络异常访问识别系统，包括：数据源模块、网站日志预处理模块、异常识别模块、异常点击标注及过滤模块。
[0011] 所述数据源模块，用于记录用户访问网站时留下的基础数据，主要是网站用户访问日志，包括来自于业务系统、文本文件或其它数据结构源。
[0012] 所述网站日志预处理模块，对日志进行解析及异常指标阈值设定。其中包括两个个子模块：日志解析子模块、指标阈值设定子模块。所述日志解析子模块，将网站日志进行解析处理，按照ip，访问时间将日志记录划分为多个Visits(访问间隔时间为30分钟），并导入到数据库中。所述指标阈值设定子模块，针对每个visits，分布计算连续点击、身份变换、访问来源、站点分布四个类别下的各个度量指标，通过对各个指标的分布分析，结合实际的业务，选择合适的异常阈值。
[0013] 所述异常识别模块，对每个Visits进行异常识别。其中包括四个个子模块：连续点击异常子模块、身份变换异常子模块、访问来源异常子模块、站点分布异常子模块。所述连续点击异常子模块，将每个visits连续点击类别下对应的指标数值与异常阈值进行比较，结合类别异常判定规则，判定该Visits是否存在连续点击异常。所述身份变换异常子模块，将每个visits身份变换类别下对应的指标数值与异常阈值进行比较，结合类别异常判定规则，判定该visits是否存在身份变换异常。所述访问来源异常子模块，将每个 visits站点分布类别下对应的指标数值与异常阈值进行比较，结合类别异常判定规则，判定该visits是否存在站点分布异常。所述站点分布异常子模块，将每个visits站点分布类别下对应的指标数值与异常阈值进行比较，结合类别异常判定规则，判定该visits是否存在站点分布异常。
[0014] 所述异常点击标注及过滤模块，将四个类别异常进行汇总，标注各个visits的异常类别数据，分析及挖掘前根据实际需要对超过一定异常类别数据的Visits进行过滤。
[0015] 本发明的有益效果：针对网站日志中的异常点击进行异常行为分类，并分别给出相应的识别方法，最后将各类异常综合起来给出访问日志异常数据的清洗方法。经实践，该方法能有效的排除了异常访问记录，尽可能的减少异常数据的干扰，从而提高后续日志分析及挖掘结果的可信度，发挥出更大的价值。
【附图说明】
[0016] 图1是本发明实施例中的网站异常访问识别的流程示意图。
[0017] 图2是本发明实施例中的网站异常访问识别的结构示意图。
【具体实施方式】
[0018] 以下结合附图和具体实施例对本发明作进一步详细说明。
[0019] 在本发明中，从连续点击、身份变换、访问来源、站点分布四个方面对访问日志进行异常识别，最终对于每一个Visits，标记其异常的类别个数，后续分析与挖掘根据实际需要进行过滤。
[0020] 参阅图1所示，本发明实施例的数据处理流程，具体步骤为：
[0021] 步骤11 :将网站日志进行解析处理，按照ip，访问时间将日志记录划分为多个 visits (访问间隔时间为30分钟），并导入到数据库中。
[0022] 步骤12 :针对每个visits，分布计算连续点击、身份变换、访问来源、站点分布四个类别下的各个度量指标。在本发明实施例中，选取如下指标进行识别：
[0023] 鲁连续点击选取连续点击的平均每秒点击数、连续点击的秒数占比。其中，针对每个visits，连续点击是指1秒钟内点击2次及2次以上，连续点击的秒数占比是指连续点击的秒数占该visits总点击秒数的比例。
[0024] ?身份变换选取cookie数、平均每个cookie点击数、cookie点击数标准差、 cookie交叉访问比例。其中，针对每个visits，cookie数是指该visits所使用的cookie 记录数，cookie交叉访问是指该visits下，若某个cookie的访问时间在其他任意cookie 的访问时段内，则计该cookie为交叉访问，而交叉访问比例则为存在交叉访问的cookie数占总cookie数的比例，用于衡量为单个机器通过清cookie的方式连续点击还是同一个ip 下的多个电脑（多个用户）同时点击的行为。
[0025] 鲁访问来源选取平均每个referer (用户每次点击的来源页面）的点击数、总点击数、直接访问占比。
[0026] 鲁站点分布选取平均每个页面的点击次数、各个类型页面的点击分布比例。
[0027] 步骤13 :对各个指标进行分布分析，提取出各个指标异常的阈值，并提取各个类别的异常判定规则。在本发明实施例中，提取规则如下：
[0028]
[0029]
[0030] 步骤14 :根据提取的指标阈值及异常判

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：房鹏展;张燕;
技术所有人：焦点科技股份有限公司;
我是此专利的发明人

上一篇：一种基于数据分析系统下的海量用电数据挖掘方法
上一篇：一种文件预览系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。