应用层网络分析方法及系统的制作方法

文档序号:7684443阅读:149来源:国知局
专利名称:应用层网络分析方法及系统的制作方法
技术领域
本发明涉及一种计算4凡网络分析方法及系统,更具体地涉 及如何根据在计算机通信节点上获取的通讯内容进行用户网络 行为分析的方法及系统,属于计算机网络通信技术领域。
技术背景通常,狭义的网络行为分析或称网络行为异常探测利用被 动观察和描述找出通讯高峰、不正常的应用和违反政策的行为, 是一种较新的产品拓展领域。而广义的网络行为分析则指分析 网络上的一切数据,并根据这些数据和已设定的规则,给出网 络行为的统计、分析数据,从而达到预定的分析目的。据申请人了解,为了达到保护网络的目的,目前的网络行 为分析系统、入侵防御系统和防火墙系统采用的方法需要将传 感器连接到局域网分接头或者交换机镜像端口 ,要么收集原始 数据包,要么收集来自网络交换机和^各由器的流动记录,在进4亍相应的网络分4斤。例如,大多^:网绍4亍为分4斤产品能够4吏用 NetFlow或者sFlow记录。这些记录存储了通过路由器或者交 换机的每一个通讯流的IP地址、端口、协i义和4妾口。传感器通 过观察,将发现的相关信息传送给中央分析器设备(管理器或者 控制器)。接着,中央分析器创建一个网络基线,观察客户机/ 服务器变化,及其使用的协议、数据速率、日期时间以及其它 指标。这个基线一旦建立起来之后,中央分析器就会观察各种 变化,并对诸如蠕虫夂暴发的通讯速率高峰或者绕过防火墙关见则 在80端口传送的不同寻常P2P协i义等作出反应。大多凄t中央分析器还可以采用能够发现违规行为的基于区域的政策进行设 置,以防止允许的通讯在许多系统的不同工作组之间进行交换, 避免违反数据隔离规则。然而,上述现有的网络分^斤方法仫J又处理了基本链路层和 网络层凄t据,也就是说仅仅对IP地址、端口、协i义类型进4亍了分析,却不能才艮据应用层的协议进行分析,因此存在以下缺憾1 、无法对用户4亍为进4亍进一层次的分析——由于现有#支术<又4又 分析了网络的基本数据(IP地址、端口等),虽然可以获取网 络报文类的特征,^旦没有对上层应用程序的数据进行分析,不 能根据上层通讯的具体内容实现行为发现。2 、无法发现用户利用网络进行非法活动——目前网络用户通过 网络发起的非法活动不仅仅限于DDoS攻击、病毒、木马等通过 防火墙可以发现的行为,但是现有的防火墙系统都不能有效发 现诸如破坏国家稳定之类的言论。3、不能搜集用户的使用特征和偏好——现有的网络行为分析系 统、防火墙系统都没有方法发现用户的4亍为偏好,例如那些人 有离职倾向,那些人喜欢某种品牌的化妆品,那些人喜欢看什 么样的电影等等,从而无法提供进一 步有针对性的服务。 发明内容本发明要解决技术问题是针对以上现有技术存在的缺憾, 提出 一种可以对应用程序数据进行分析,从而分辨通讯内容的 应用层网络分4斤方法及系统,以^更在此基础上实玉见深层的网结, 服务和管理。为了解决以上技术问题,本发明的应用层网络分析方法包 括在网络服务器中进行网络协议分析步骤、通讯内容分析步骤;所述网络协议分析步骤包括 l-l、从网络上获取报文;l-2、识别报文协议类型;可以根据获取报文的端口或报文的协 议特征识另'"艮文协i义类型;1-3、将报文提交到与其协议类型对应的上层应用协议解析还原;1- 4、将报文解析后的还原文档提交给通讯内容分析步骤; 所述通讯内容分析步骤含有信息内容基本特征提取训练分步和 特征内容识别分步首先进行信息内容基本特征提取训练分步2- 1 、从预定(用户或者系统默认提供)样本文档中提取关键词; 关键词提取可以采用最长词匹配或者Markov马尔科夫模型等; 2-2、至少逐一统计计算出各关键词在样本文档中出现的概率表 达,作为信息内容基本特征;2-3、存储样本文档的信息内容基本特征; 接着进行特征内容识别分步2-4、按与步骤2-1相同的方式,从网络协议分析步骤的还原文 档中提取关键词;2-5、按与步骤2-2相同的统计计算,得出所提取关4建词在还原文档中出现的概率表达,作为特征内容识别结果;2-6、将特征内容识别结果与存储的信息内容基本特征逐一比较,如比较结果符合预定条件,则将还原文档判为与对应的样本文档同类。以上在对网纟备应用层协议分析的基础上,通过对文档的信 息内容基本特征训练提取比较,即可分辨出网络上获取报文的实质内容类别,从而克服现有网络分析方法只能对IP地址、端 口、协议类型进行分析,却不能分辨通讯内容的缺憾,为深层 次的网络操作或网络监控管理奠定基础。本发明进一步的完善是所述步骤2-6中,如比较结果不 符合预定条件,则将还原文档作为新的样本文档,进行信息内 容基本特征提耳又训练分步,这样可以不断自动扩充样本文档, 从而不断〗吏本发明的功能得到强化。本发明进一步的实际应用是所述样4反文档为用户输入的 主题文档;当从网络上获取才艮文的还原文档判为与所述主题文 档同类后,通才艮用户。与上述方法相应的应用层网络分析系统由至少包括在网络 服务器中的网络协议分析器和通讯内容分析器构成;所述网络协i义分冲斤器用于/人网络上获取才艮文,识别才艮文 协议类型,将净艮文提交到与其协议类型对应的上层应用协议解 析还原,将报文解析后的还原文档提交给通讯内容分析器;所述通讯内容分析器含有信息内容基本特征提取训练模块 和特4正内容识别才莫块;所述信息内容基本特征提取训练模块用于从预定样本文 档中提取关键词,至少逐一统计计算出各关键词在样本文档中 出现的概率表达作为信息内容基本特征,存储样本文档的信息 内容基本特征;所述特征内容识别模块用于按与所述信息内容基本特征 提取训练模块相同的方式,从网络协议分析步骤的还原文档中 提取关4定词,得出特征内容识别结果,将特征内容识别结果与存储的信息内容基本特征逐一比较,如比较结果符合预定条件, 则将还原文档判为与对应的样本文档同类。归纳起来,本发明的有益效果在于1、 避免了传统防火墙的只能4艮据IP五元组上关见则的局限。2、 分析系统的部署是透明的,现有应用程序和用户4吏用习惯完 全不用更改。3、 可以根据用户定义的主题进行跟踪,即可以发现与企业相关 的内容,例如泄露商业秘密;也可以发现违法国家法律、法 头见的4亍为,例如传4番反动、淫秽内容。4、 便于大规才莫统一部署,可以统一协调一定地域范围内的所有 设备和系统。


此处所说明的附图用来提供对本发明的进一步理解,构成 本申请的一部分,本发明的示意性实施例及其说明用于解释本 发明,并不构成对本发明的不当限定。在附图中图1是本发明的系统与单位内部网络和Internet网关的连 接关系示意图。图2是本发明在企业端的行为分析系统架构示意图。图3是本发明网络协议分析器逻辑示意图。图4是本发明一个实施例的流程图。图5是本发明概率表达计算过程流程图。
具体实施方式
实现本发明应用层网络分析方法的系统可以命名为行为分 才斤系纟克,该系纟克与单4立内部网纟备和Internet网关的连才妻关系^口 图1所示,在单位内部行为分析系统存在两种4妄入方法, 一种是并接法如企业1所示,第二种是串接法如企业2所示。行为分析系统如图2所示,由网络协议分析器、通讯内容分析器以 及4见则管理器三个部分构成,此三部分具体描述如下 网络协议分才斤器网络协议分析器的工作步骤如下(参见图4): 1.在网络上获取净艮文。本实施例采用libpcap网络才艮文 截获程序库(参见http: 〃www. tcpd卿.org/ ),借以在网卡上 听耳又所有的网全各IP才艮文。其主要程序i吾句如下/*寻找相应的网卡设备*/dev = pcap一lookupdev (errbuf);if (dev==NU!X) {f pr intf (stderr, "CouW t find default device: %s\n", errbuf);return (2);}/*找到网卡设备的属性*/if (pcap—lookupnet (dev, &net, &mask, errbuf) == -l) {fprintf (stderr, "Couldn't get netraask for device %s: %s\n", dev, errbuf) 5net =mask = 0;}/*将网卡设置为听包状态,这个状态可以听取所有的网络报文*/ handle = pcap—open—1 ive(dev, BUFSIZ, 1, 1000, errbuf); if (handle ==亂U {fprintfreturn (2);}/*设置网卡听包过滤,这一步是可选的。可以过滤掉不需要的网络 报文*/if (pcap-compi le (handle, &fp, filter—exp, 0, net) == -1) { fprintf (stderr, "Couldn't parse filter %s: 0/os\n",filter—exp, pcap一geterr (handle)); return (2);}if (pcap-setfi Iter (handle, &fp) == -l) {fprintf (stderr, "Couldn't install filter °/。s: %s\n", filter_exp, pcap—geterr(handle));return (2);} /*开始抓包*/packet = pcap-iiext (handle, &header);2.当接受指令,需要进行系统检查时,将网络IP报文根 据IP地址和目标端口进行分组,识别报文的类型。通常识别报 文类型可以先根据每一个IP报文的端口进行。例如邮件协议, P0P3采用110端口,SMTP协议是25端口,网络浏览、发帖HTTP 协议通常采用80端口。根据端口即可迅速判断IP报文对应那 个还原模块可以识别。当然,根据端口识别不能覆盖所有的IP 报文,例如用户通过特别设置,可以配置P0P3协议运行在8888 端口上,此时需要根据协议特征识别来进行IP报文识别,该方 法-根据RFC国际规范(参见http: 〃丽.ietf. org/rf c. html ) 中的定义来识别净艮文。例如HTTP协i义才艮文的头几个字符一定 是"GET "或者"POST ,,字符等等,然后通过"W,作为换行,在正文和头部信息之间用两个'、An"作为分割,按此身见则, 不难通过计算机正则表达式描述。3. 才艮据不同类型的才艮文交到各种对应的上层应用协_汉解 析还原(参见图3)。每一种网络协议的还原都需要对应的独立 还原程序。例如对SMTP协议还原所需要的单独还原程序将网络 上的IP报文恢复成一个可以阅读的原始电子邮件。根据国际标 准RFC-821 (参见http: 〃w丽.ietf. org/rfc/rfc0821. txt )的 一个相应编程即可实现。而HTTP协议才艮据国际标准RFC-2616(http: 〃www. ietf. org/rfc/rfc2616. txt )的对应编程也可实 现。其余通信协议的还原相似,可以类推。4. 将解析结果即还原的原始文档提交给通讯内容分析器。 通讯内容分析器通讯内容分析器由两个部分组成, 一个是信息内容基本特 征提取训练模块,另一个特征内容识别才莫块。信息内容基本特征提取训练模块信息内容基本特征提取训练模块的作用是将网络上大量预 先获取的海量文本样本进行训练获得一个基本的数据模式,以 供内容特征识别^^块^f吏用。其工作步骤为(参见图5):1.将用户或者系统默认提供的海量样本文档进行分词分 析,提取关4定词,分词分析可以采用最长词匹配或者Markov 模型等等。最长匹配法是使用词典(可以根据目前的新华字典 整理,也可以是自己整理出来的汉语字典)来切分。比如,"我 是大学生",根据词典通常会被拆分为"我"、"是"、"大学生"。 最长匹配法又分正向最长匹配和反向最长匹配,即/人句子的正 方向或反方向匹配字典中有的最长单词。通常反向最长匹配的效果要好于正向最长匹配。也可以把两者结合起来,即双向最 长匹配。最长匹配法实现也较简单,分词速度较快。采用词典 的分词方法的效果很大程度上取决于词典的质量。2. 对分词分析结果进行统计,计算出每一个关4建词w'在每 一个文档中出玉见的相克率表达r(w,)-iog(乖》/A0 (1)其中W(w》是作为训练语料的样本文档中出现w'的次数,iV是训练语料中所有词出现次数的总数;3. 根据公式(1)可以得到一个的每个关键词^的背景r(w)分 布表,这张表一旦做好即被保存,不需要每一次都计算;4. 才艮据用户i殳置的一组主题文档「计算出每一个关4定词w'在每一个主题文档《中的表现程度 ) = ,)x,)2 (2)上式中^K)是文本《中出现^的次数;5. 定义关键词w'在类别J中的表现程度乂 (3)6. 根据公式(3),得到一个类别中所有关4定词的表现程度向量K『(W,,cO,『(W2,fiO,^(W3,tiO…『(W",f/》 (4) 其中"为所有词的个凄t。7. 将以上获得的关键词表现程度向量的概率表达作为信息内容基本特征存储。特征内容识别模块特征内容识别模块的功能主要是将网络上的文档和用户预 先设定的样本文档进行比较,如果网络上的文档和某 一类样本文档类似,则通才艮用户。其工作流程如下1. 按与上述信息内容基本特征提取训练模块处理样本文档 相同的步骤,将网络协议分析器传送的还原文档c进行分词分析,提取关4建词,进行有关计算,最终得到所有关4建词在还原 文档c的表现程度向量ULIXc =(PT(Wl,c),『(w2,c),『(w3,c)...『(w ,c)) (6)2. 比4交还原文档c与用户预先i殳定的所有冲羊本文档类别 "=pPA,A,A"A)之间的相似度,根据公式(4)和公式(6)得:(『0^,C),『O2,C),『O3,C)…『(W",C)),(Hi,Q),『O2,"i),r(W3,印.IO",Q))3. 如外,")-中讽c,A》的值小于用户预定的阈值,就判定文档C属于用户纟殳置为感兴趣的同类文档,并通才艮用户。 规则管理器规则管理器主要用于完成两个方面的功能1.由用户可以 按照自己的需要定义自己感兴趣的规则,并调度网络协议分析 器和通讯内容分析器;2.接收行为资源管理服务器发送的规则, 并调度网络协议分析器和通讯内容分析器。 第一方面的工作步骤如下1、 1用户定义一个主题。该主题仅是一个语义上的标识, 表示用户感兴趣的关键词;1、 2用户将预先收集好的与主题相关的内容(即可以是关 4建词的形式、也可以是一组与这个主题相关的文档)上传到头见 则管理器;1、 3规则管理器根据接收到的上传文档调用通信内容分析 器的信息内容基本特征提取训练模块,从而获得上传文档的所 有特征词的积X率表达,并将这些统计纟既率表达的计算结果和上 传文档统一保存;1、 4以上^f呆存的结果将^皮特征内容识别冲莫块调用(如7>式 7)。当网络协议分析器还原了一个网络上的原始文档后,通过 信息内容基本特征提取训练模块,可以得到这个原始文档的关 键词概率表达,然后通过7>式7和上述的保存结果比较计算出 原始文档和用户预先i殳定文档之间的相似度;1、 5 —旦特征内容识別模块命中用户配置的规则,即上一-i十算出来的y^、士台文牙当和用户预先召果大于某个预先设定的阈值,例如0.8,即有80%的相似程度。 (阈值可以根据用户的使用情况和需要自行调整,也可以才艮据 不同的类别设定不同的阈值),则通^^艮用户。 第二方面的工作步骤如下2、 1通过网络接收行为资源管理服务器下发的规则,这些 乡见则可以通过关键词的形式表述,也可以通过一组训练文档表述;2、 2规则管理器根据接收的下发文档调用通信内容分析器 的信息内容基本特征提取训练模块,从而获得下发文档的所有 特征词的概率表达,并将这些统计概率表达的计算结果和上传 文档统一保存;2、 3以上保存的结果将被特征内容识别模块调用(如公式 7)。当网络协议分析器还原了一个网络上的原始文档后,通过 信息内容基本特征提取训练模块,可以得到这个原始文档的关键词概率表达,然后通过公式7和上述的保存结果比较计算出 原始文档和预先i殳定文档之间的相似度;2、 4 一旦特征内容识别模块命中下发的规则,即上一步中 所计算出来的原始文档和预先设定文档之间相似度如果大于某 个预先设定的阈值,例如0.8,即有80%的相似程度。(阈值 可以根据资源管理服务器的需求调整),则通报资源管理服务 器。行为资源管理服务器行为资源管理服务器的主要作用是统一协调管辖范围内的 所有^见则管理器。它统一下发MJ'J (这些^见则可以是某些关4建 字,也可以是一系列预先设定的相关文档),统一提供用户4企索 界面。行为资源管理服务器的典型工作流程如下1. 允i午用户在界面上^r入感兴趣的关见则,这里的用户可以 是具有某种特权的用户(例如国家的某些政府机关);2. 资源管理服务器将这些规则下传到管辖范围内的所有 规则管理器;3. 各个规则管理器负责将命中(既在规则管理器中发现和 行为资源管理服务器下发数据类似的文件)数据返回到行为资 源管理器;4. 用户在行为资源管理服务器上查看所有命中数据的结果。本发明带来的好处在于1. 可以帮助企业管理员解决以往仅仅才艮据IP特征设置防 火墙带来的控制能力弱的缺点,辅助定义企业内部的信息控制机制;2. 可以通过完全透明的手段,不会对用户使用网络带来任 何影响;3. 具备完全的IP地址追踪能力,可以迅速定位到非法4吏 用网纟各的4亍为个人;4. 可以定义应用层的木马、病毒,在应用层有-文的防止木 马、病毒的力K亍5. 可以帮助国家斗又利部门控制辖区范围的非法信息流传。 以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。 例如,以上关4定词在文档中出现的概率表达计算可以简化,或 建立别的数学模型,采用另外的算式。凡在本发明的精神和原 则之内,所作的任^pf奮改、等同替换、改进等,均应包含在本 发明的权利要求范围之内。附中英文名词,于应 Markov:马尔科夫才莫型 IM:网路即时通i凡 FTP:网络文件传输协议RFC: Request for Comments请求注解,是一个国际互联网 标准的总称PORT:网纟备端口DDoS:网络拒绝服务攻击
权利要求
1. 一种应用层网络分析方法及系统,其特征在于包括在网络服务器中进行网络协议分析步骤、通讯内容分析步骤;所述网络协议分析步骤包括1-1、从网络上获取报文;1-2、识别报文协议类型;1-3、将报文提交到与其协议类型对应的上层应用协议解析还原;1-4、将报文解析后的还原文档提交给通讯内容分析步骤;所述通讯内容分析步骤含有信息内容基本特征提取训练分步和特征内容识别分步首先进行信息内容基本特征提取训练分步2-1、从预定样本文档中提取关键词;2-2、至少逐一统计计算出各关键词在样本文档中出现的概率表达,作为信息内容基本特征;2-3、存储样本文档的信息内容基本特征;接着进行特征内容识别分步2-4、按与步骤2-1相同的方式,从网络协议分析步骤的还原文档中提取关键词;2-5、按与步骤2-2相同的统计计算,得出所提取关键词在还原文档中出现的概率表达,作为特征内容识别结果;2-6、将特征内容识别结果与存储的信息内容基本特征逐一比较,如比较结果符合预定条件,则将还原文档判为与对应的样本文档同类。
2. 根据权利要求1所述应用层网络分析方法,其特征在于所述步骤2-6中,如比较结果不符合预定条件,则将还原文档作为新的 样本文档,进行信息内容基本特征提取训练分步。
3. 根据权利要求2所述应用层网络分析方法,其特征在于所 述样板文档为用户输入的主题文档;当从网络上获取报文的还原文档 判为与所述主题文档同类后,通报用户。
4. 根据权利要求3所述应用层网络分析方法,其特征在于所 述步骤1-2中,才艮据获取报文的端口或报文的协议特征识别报 文协议类。
5. 根据权利要求4所述应用层网络分析方法,其特征在于所 述步骤2-1中,关键词提取釆用最长词匹配或者马尔科夫^^型模型。
6. 一种应用层网络分析系统,其特征在于由至少包括在 网络服务器中的网络协议分析器和通讯内容分析器构成;所述网络协议分析器用于从网络上获取才艮文,识别报文 协议类型,将才艮文提交到与其协议类型对应的上层应用协议解 析还原,将报文解析后的还原文档提交给通讯内容分析器;所述通讯内容分析器含有信息内容基本特征提取训练模块 和特征内容识别才莫块;所述信息内容基本特征提取训练模块用于从预定样本文 档中提取关键词,至少逐一统计计算出各关键词在样本文档中 出现的概率表达作为信息内容基本特征,存储样本文档的信息 内容基本特征;所述特征内容识别模块用于按与所述信息内容基本特征提取训 练模块相同的方式,从网络协议分析步骤的还原文档中提取关键词, 得出特征内容识别结果,将特征内容识别结果与存储的信息内容基本 特征逐一比较,如比较结果符合预定条件,则将还原文档判为与对应的样本文档同类。
7、根据权利要求6所述的应用层网络分析系统,其特征在 于还含有^见则管理器,所述少见则管理器用于由用户定义^见则, 并调度网络协i义分沖斤器和通讯内容分析器,得出原始文档和用 户预先设定文档之间的相似度,当相似度大于预定阈值时通报 用户。
8、才艮据权利要求7所述的应用层网络分析系统,其特征在 于还含有行为资源管理服务器,所述行为资源管理服务器用于 协调管辖范围内的规则管理器,统一下发规则和提供用户检索 界面,所述规则管理器还用于接收行为资源管理服务器发送的 规则,并调度网络协议分析器和通讯内容分析器,得出原始文 档和预先i殳定文档之间的相似度,当相似度大于预定阈值时通 报资源管理服务器。
全文摘要
本发明涉及一种计算机网络分析方法及系统,属于计算机网络通信技术领域。该方法包括在网络服务器中进行网络协议分析步骤、通讯内容分析步骤,通过将特征内容识别结果与存储的信息内容基本特征逐一比较,在比较结果符合预定条件时,将还原文档判为与对应的样本文档同类,从而可以通报用户。采用本发明后,在对网络应用层协议分析的基础上,通过对文档的信息内容基本特征训练提取比较,即可分辨出网络上获取报文的实质内容类别,从而克服现有网络分析方法只能对IP地址、端口、协议类型进行分析,却不能分辨通讯内容的缺憾,为深层次的网络操作或网络监控管理奠定基础。
文档编号H04L12/56GK101262491SQ200810023218
公开日2008年9月10日 申请日期2008年4月2日 优先权日2008年4月2日
发明者京 王 申请人:京 王
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1