一种基于用户行为的网站异常访问识别方法及系统的制作方法

文档序号:9200469阅读:803来源:国知局
一种基于用户行为的网站异常访问识别方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据清洗领域,特别是一种网站异常访问识别方法及系统。
【背景技术】
[0002] 随着互联网技术的日益发展,互联网用户人数也日渐增长,日积月累的产生了大 量的网站访问日志,通过对这笔大数据的分析,能够更好的把握用户的行为偏好,从中挖掘 出更大的商业机会。然而,实际分析中却发现,有很多的异常点击行为,一般是人为不能做 到的,还有一些点击很难理解为用户的正常意图,很有可能受到某种非正当目的的驱动,比 如刷数据行为、欺诈行为等等。这些垃圾数据大大干扰了互联网公司用户反馈信息的收集, 也进而对分析结果的价值也产生了重大影响,因此排除这些异常记录对于后续的分析及挖 掘尤为重要。

【发明内容】

[0003] 本发明在此背景下,提出了一种基于用户行为的网络异常访问识别方法及系统, 主要针对四种常见的异常:连续点击异常、身份变换异常、访问来源异常和站点分布异常分 别提供了相应的识别方法,最后并综合考虑给出了异常日志清洗方案。此方法能有效的排 除了异常访问记录,提高了后续用户行为统计及挖掘的准确性。
[0004] 本发明技术方案是,一种基于用户行为的网络异常访问识别方法,包括如下步 骤:
[0005] 步骤一:将网站日志进行解析处理,按照ip、访问间隔时间将日志记录划分为多 个访问者Visits (访问间隔时间为30分钟),并导入到数据库中;
[0006] 步骤二:针对每个visits,分布计算连续点击、身份变换、访问来源、站点分布四 个类别下的度量指标;
[0007] 步骤三:对各个度量指标进行分布分析,提取出各个指标异常的阈值,并提取各个 类别的异常判定规则;
[0008] 步骤四:根据提取的指标阈值及异常判定规则,通过指标是否异常判断连续点击、 身份变换、访问来源、站点分布四个类别是否异常,并记录该Visits对应的异常数据,保存 到数据库中;
[0009] 步骤五:后续分析与挖掘实施时,根据实际对异常数据过滤所需的精准率及覆盖 率,选择合适的异常数据进行过滤。
[0010] 本发明公开一种基于用户行为的网络异常访问识别系统,包括:数据源模块、网站 日志预处理模块、异常识别模块、异常点击标注及过滤模块。
[0011] 所述数据源模块,用于记录用户访问网站时留下的基础数据,主要是网站用户访 问日志,包括来自于业务系统、文本文件或其它数据结构源。
[0012] 所述网站日志预处理模块,对日志进行解析及异常指标阈值设定。其中包括两个 个子模块:日志解析子模块、指标阈值设定子模块。所述日志解析子模块,将网站日志进行 解析处理,按照ip,访问时间将日志记录划分为多个Visits(访问间隔时间为30分钟),并 导入到数据库中。所述指标阈值设定子模块,针对每个visits,分布计算连续点击、身份变 换、访问来源、站点分布四个类别下的各个度量指标,通过对各个指标的分布分析,结合实 际的业务,选择合适的异常阈值。
[0013] 所述异常识别模块,对每个Visits进行异常识别。其中包括四个个子模块:连 续点击异常子模块、身份变换异常子模块、访问来源异常子模块、站点分布异常子模块。所 述连续点击异常子模块,将每个visits连续点击类别下对应的指标数值与异常阈值进行 比较,结合类别异常判定规则,判定该Visits是否存在连续点击异常。所述身份变换异常 子模块,将每个visits身份变换类别下对应的指标数值与异常阈值进行比较,结合类别异 常判定规则,判定该visits是否存在身份变换异常。所述访问来源异常子模块,将每个 visits站点分布类别下对应的指标数值与异常阈值进行比较,结合类别异常判定规则,判 定该visits是否存在站点分布异常。所述站点分布异常子模块,将每个visits站点分布 类别下对应的指标数值与异常阈值进行比较,结合类别异常判定规则,判定该visits是否 存在站点分布异常。
[0014] 所述异常点击标注及过滤模块,将四个类别异常进行汇总,标注各个visits的异 常类别数据,分析及挖掘前根据实际需要对超过一定异常类别数据的Visits进行过滤。
[0015] 本发明的有益效果:针对网站日志中的异常点击进行异常行为分类,并分别给出 相应的识别方法,最后将各类异常综合起来给出访问日志异常数据的清洗方法。经实践,该 方法能有效的排除了异常访问记录,尽可能的减少异常数据的干扰,从而提高后续日志分 析及挖掘结果的可信度,发挥出更大的价值。
【附图说明】
[0016] 图1是本发明实施例中的网站异常访问识别的流程示意图。
[0017] 图2是本发明实施例中的网站异常访问识别的结构示意图。
【具体实施方式】
[0018] 以下结合附图和具体实施例对本发明作进一步详细说明。
[0019] 在本发明中,从连续点击、身份变换、访问来源、站点分布四个方面对访问日志进 行异常识别,最终对于每一个Visits,标记其异常的类别个数,后续分析与挖掘根据实际需 要进行过滤。
[0020] 参阅图1所示,本发明实施例的数据处理流程,具体步骤为:
[0021] 步骤11 :将网站日志进行解析处理,按照ip,访问时间将日志记录划分为多个 visits (访问间隔时间为30分钟),并导入到数据库中。
[0022] 步骤12 :针对每个visits,分布计算连续点击、身份变换、访问来源、站点分布四 个类别下的各个度量指标。在本发明实施例中,选取如下指标进行识别:
[0023] 鲁连续点击选取连续点击的平均每秒点击数、连续点击的秒数占比。其中,针对每 个visits,连续点击是指1秒钟内点击2次及2次以上,连续点击的秒数占比是指连续点击 的秒数占该visits总点击秒数的比例。
[0024] ?身份变换选取cookie数、平均每个cookie点击数、cookie点击数标准差、 cookie交叉访问比例。其中,针对每个visits,cookie数是指该visits所使用的cookie 记录数,cookie交叉访问是指该visits下,若某个cookie的访问时间在其他任意cookie 的访问时段内,则计该cookie为交叉访问,而交叉访问比例则为存在交叉访问的cookie数 占总cookie数的比例,用于衡量为单个机器通过清cookie的方式连续点击还是同一个ip 下的多个电脑(多个用户)同时点击的行为。
[0025] 鲁访问来源选取平均每个referer (用户每次点击的来源页面)的点击数、总点击 数、直接访问占比。
[0026] 鲁站点分布选取平均每个页面的点击次数、各个类型页面的点击分布比例。
[0027] 步骤13 :对各个指标进行分布分析,提取出各个指标异常的阈值,并提取各个类 别的异常判定规则。在本发明实施例中,提取规则如下:
[0028]
[0029]
[0030] 步骤14 :根据提取的指标阈值及异常判
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1