网站异常访问分析方法

文档序号:7684086阅读:2225来源:国知局
专利名称:网站异常访问分析方法
技术领域
本发明涉及互联网的网站访问行为分析。通过本发明,可以帮助网站管理 者发现异常访问行为,确定异常访问来源、判断异常访问类型、找出被"攻击" 的页面、以及网站存在的安全隐患。
背景技术
通常人们都是通过浏览器来访问网站,这样的操作是一个平缓、间断、随 机的过程,并将这样的访问称为"正常访问"。"正常访问"存在以下一些特征 总是在有限时间内进行的,不可能若干个小时始终停留在一个或若干网页上; 人工通过浏览器访lS—个网站,总是浏览一个网页之后再浏览下一个网页;如 果在1秒钟内连续请求几个、甚至几十个网页而没有停顿,这是人工操作做不 到的。所谓"异常访问"是指那些通过计算机程序自动地访问,而不是浏览 器访问,这样访问的特点是连续不间断地快速请求网页,没有停顿或间隔时 间;或者持续很长时间。其中,这样的访问包括搜索引擎的"蜘蛛"程序或者 "黑客"攻击程序。目前,对于"异常访问"的观察、确定和分析还是比较困 难的问题,尚没有简单易行的办法来发现"异常访问",大都是通过手工操作、 人工辨认的方法来进行。

发明内容
为了解决上述存在的问题,本发明从观察人们访问网站自然情况研究入手, 以网络通信协议技术标准为理论基础,提供一种自动化的网站异常访问分析方法。本发明的目的是通过下面技术方案实现 网站异常访问分析方法,步骤如下(1) 确定访问者类型根据网站实际情况,来确定访问者是由IP来决定、 还是由IP+UserAgent、 Cookie或在网站页面上嵌入代码来决定;(2) 数据清洗读取访问日志,对访问记录进行分析、清洗、过滤,将自 然形成的面向单个URL请求的访问记录,通过分析识别,当同一访问者、且间 隔时间小于系统定义的"会话"Session时间限制Time Out时,给予一个相同 的会话标识Session ID,形成带有访问会话标识Session ID的记录清洗数据, 并以优化的数据结构进行存储;(3) 选择异常分析指标 一般情况,"URL请求数量"被默认为异常指标 X;根据需要,可以选择"流量"或"服务器处理时间"为异常分析指标X;(4) 设置"阀值"设定ATk持续时间和分析指标X的"阀值";(5) 异常分析读取经步骤(2)数据清洗程序处理后的清洗数据,分析 每个访问会话记录Session,用会话中的最后访问时间丁2减去会话中的首次访问 时间T,,得到一个会话持续时间AT=T2-T1;如果AT在ATk范围内,并分析指 标X超过步骤(4)中设定的"阀值",那么该Session被认定为"访问异常", 存储访问异常数据;(6) 异常类型判断判断步骤(5)中得到的异常数据为持续异常或突发 异常,并用直观易懂的图表形式表示。步骤(4)中"阀值"分三类,第一类阀值是在整个访问数据所处的时间范 围i;内,设置一个指标X为阀值或设置一个指标X平均值为阀值;第二类是将 IV划分成若干个相等的子区间Ts,设置一个指标X为阀值或设置一个指标X平均值为阀值;第三类是将T,再划分成若干个相等的子区间Tf,设置一个指标X 为阀值或设置一个指标X平均值为阀值。 数据清洗步骤如下(1) 读取访问数据;(2) 判断访问数据是否为URL垃圾数据,如判断结果为是,则访问数据 被清洗;(3) 如果歩骤(2)判断结果为否,则将同一 Session ID数据,以优化后的 数据结构记录到清洗数据中。本发明的有益效果发现"异常访问"对于网站管理者来说很有意义。第一、发现网站被黑客 攻击的情况,掌握确切的证据;第二、确定攻击源,找到发起攻击的IP,甚至 发起攻击的客户端;第三、确定被攻击的页面;第四、纠正访问统计分析中的 错误,防止将"异常访问"纳入统计范围;第五、观察"蜘蛛搜索"爬过的痕 迹,掌握"蜘蛛搜索"的访问规律,有意安排一些"关键词语"让"蜘蛛"爬 找,提高网站的点击率;第六、为防止商业机密被"蜘蛛"窃取,帮助制定防 "蜘蛛"方案。从Internet的通信原理分析,所有的www访问都是通过http协议来实现的, http协议是TCP/IP协议的高层应用,采取"短连接"方式通信。也有人称http 协议是一种"无连接"的协议。其中每个网址请求都可能包含很多个TCP/IP通 信,既客户端发起TCP/IP连接请求,当获得URL的文档之后,立即断开TCP/IP 连接,并不是关闭浏览器之后才断开连接。即便是浏览器长时间停留显示在某 个网页上,只要请求下载完毕,TCP/IP连接的连接就立即断开,并不是人们视 觉上的关闭浏览器或跳转到其他网站才断开连接。根据上述原理,本发明主要用六个步骤来实现异常访问分析。第一步、确定访问者类型确定访问者是由IP来决定的、还是由IP+UserAgent、 Cookie、 或在网站页面上嵌入代码来决定;第二步、数据清洗对自然形成的、杂乱的、 面向单个URL的访问日志或其他形式的访问记录进行分析和整理,通过分析识 别,给同一个用户一次访问会话记录赋予相同的会话Session标识ID,以优化的 数据结构记录用户会话Session;第三步、选择异常分析指标确定是以"URL 请求数量"为指标、还是以"流量"或以"服务器处理时间"为指标进行异常分析;第四步、设置"阀值"在三个不同的阶段Tr、 Ts、 Tf,设置三个不同的阀值;第五步、异常分析分析访问会话持续时间是否在AT在ATk范围内,分 析指标X是否超过所设定的"阀值",超过被认定为"异常访问";第六步、异 常类型判断在Tr内,分析指标X的访问趋势,如果指标X不间断地访问,则 被认定为"持续异常";如果指标X在Ts和Tf区间内突然增长,那么该区间被 认定为"突发异常"。首先,"异常访问分析"是建立在对所有访问者和所有被 访问页面的分析基础上,因此目前对如此"海量"访问数据进行数据挖掘没有 什么好的方法;其次,如何确定访问者、以什么指标分析异常、以及用什么方 法判断异常也都停留在探索中;本发明在两个方面从根本上解决了这些问题。


图1是网站异常访问分析方法的流程图;图2是确定访问者类型的流程图;图3是数据清洗的流程图;图4是选择分析指标的流程图;图5是设定阀值的流程图;图6是持续异常访问趋势图;图7是突发异常访问趋势图。
具体实施例方式网站异常访问分析方法,包括如下步骤(1) 确定访问者类型通过确定访问者类型"A"来确定访问者是由IP决 定、还是由IP + UserAgent、 Cookie或在网站页面上嵌入代码决定;(2) 数据清洗数据清洗程序"B"读取访问数据"C"中的访问记录,按 照相同访问者、连续URL访问、间断不超过30分钟(或者Web服务器规定的时 限)条件,给予这些原始访问记录赋予相同的会话Session ID,形成带有访问 会话标识Session ID的记录清洗数据"G";(3) 选择分析指标在进行异常分析之前,必须选择分析指标"D",默 认分析指标为URL请求数量,根据需要可以选择流量、服务器处理时间为分析 指标;(4) 设置"阀值":首先,设定ATk持续时间和指标X的"阀值,,;"阀值" 分三类,第一类阀值是在整个访问数据所处的时间范围t内,设置一个指标X 为阀值或设置一个指标X平均值为阀值(如X/小时);第二类是将Tr划分成若干个相等的子区间Ts,设置一个指标X为阀值或设置一个指标X平均值为阀 值(如X/分钟);第三类是将Ts再划分成若干个相等的子区间Tf,设置一个指 标X为阀值或设置一个指标X平均值为阀值(如X/秒钟);其中i;是指访问数据所在的时间范围,1V可以是一天、或是一周、或是一个月等;Ts是根据t; 范围进行划分的,比如如果TV为一天,那么T,可以按照时段划分成24个区 间;Tf是根据Ts范围进行划分的,比如如果l为一小时,那么,Tf可以按照分 段划分成60个区间;然后,在三个阶段T。 Ts、 Tf,根据网站自身的实际情况,针对分析指标X分别设置阀值"E";缺省默认为无"阀值",相当于人工分析;(5) 异常分析读取清洗数据"F"从清洗数据"G"中读取数据,每个访问会话记录Session,用会话中的最后访问时间T2减去会话中的首次访问时间 T"得到一个会话持续时间AT-T2-T"若AT在ATk范围内,并分析指标X超 过(4)中设定的"阀值",通过存储异常数据程序"H"将分析结果存储到异常 数据T中;(6) 判断步骤(5)中得到的异常数据为持续异常或突发异常,从异常数 据"I"中读取异常访问数据,若在Tr内连续不断地访问网站,则该会话Session 被认定为持续异常访问"J ",其持续异常访问趋势图如图6所示;若在Ts或 Tf区间内突然增长,则该会话Session被认定为突发异常访问"K";其突发异 常访问趋势图如图7所示。其中数据清洗步骤如图3所示(1) 读取访问数据"B/,;(2) 判断访问数据是否为URL垃圾数据,如判断结果为是,则访问数据 被清洗;(3) 如果步骤(2)判断结果为否,则将同一 Session ID数据"B2",以优 化的数据结构存储到清洗数据"G"中。
权利要求
1、网站异常访问分析方法,其特征在于,步骤如下(1)确定访问者类型根据网站实际情况,来确定访问者是由IP来决定、还是由IP+User Agent、Cookie或在网站页面上嵌入代码来决定;(2)数据清洗读取访问日志,对访问记录进行分析、清洗、过滤、以及优化数据结构,将自然形成的面向单个URL请求的访问记录,通过分析识别,当同一访问者、且间隔时间小于系统定义的“会话”Session时间限制Time Out时,给予一个相同的会话标识Session ID,形成带有访问会话标识Session ID的记录清洗数据,并以优化的数据结构进行存储;(3)选择异常分析指标一般情况,“URL请求数量”被默认为异常指标X;根据需要,可以选择“流量”或“服务器处理时间”为异常分析指标X;(4)设置“阀值”设定ΔTk持续时间和分析指标X的“阀值”;(5)异常分析读取经步骤(2)数据清洗程序处理后的清洗数据,分析每个访问会话记录Session,用会话中的最后访问时间T2减去会话中的首次访问时间T1,得到一个会话持续时间ΔT=T2-T1;如果ΔT在ΔTk范围内,并分析指标X超过步骤(4)中设定的“阀值”,那么该Session被认定为“访问异常”,存储访问异常数据;(6)异常类型判断判断步骤(5)中得到的异常数据为持续异常或突发异常,并用直观易懂的图表形式表示。
2、 根据权利要求l所述的网站异常访问分析方法,其特征在于步骤(4) 中"阀值"分三类,第一类阀值是在整个访问数据所处的时间范围TV内,设置 一个指标X为阀值或设置一个指标X平均值为阀值;第二类是将t划分成若干个相等的子区间Ts,设置一个指标X为阀值或设置一个指标X平均值为阀值; 第三类是将Ts再划分成若干个相等的子区间Tf,设置一个指标X为阀值或设置 一个指标X平均值为阀值。
3、根据权利要求l所述的网站异常访问分析方法,其特征在于所述的 数据清洗步骤如下-(1) 读取访问数据;(2) 判断访问数据是否为URL垃圾数据,如判断结果为是,则访问数据 被清洗;(3) 如果步骤(2)判断结果为否,则将同一 Session ID数据,以优化后的 数据结构存储到清洗数据中。
全文摘要
网站异常访问分析方法属于网站访问分析、数据挖掘、安全审查领域。本发明根据访问会话Session持续时间,通过对URL请求数量或发送和接收流量以及服务器处理时间等“异常访问”特征,快速分析出“异常访问”会话Session,并且通过多种图形和表格,给出可视化的、直观的分析结果,来确定哪些异常访问是持续的、哪些是突发的,以及提供人工判断异常访问的工具。
文档编号H04L29/06GK101232399SQ20081001042
公开日2008年7月30日 申请日期2008年2月18日 优先权日2008年2月18日
发明者峰 刘, 宏 孙 申请人:刘 峰;孙 宏
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1