一种网页浏览记录统计方法及系统的制作方法

文档序号：7810808阅读：150来源：国知局

一种网页浏览记录统计方法及系统的制作方法
【专利摘要】本发明提供一种网页浏览记录统计方法及系统，所述方法步骤如下：步骤1、通过传输驱动程序接口TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；步骤2、对获取的IP数据帧进行数据还原、分类,并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。本发明还提供一种网页浏览记录统计系统，该系统的主要优点是：可以对工作人员上网的网页标题进行有效统计，解决以往重复统计或者遗漏统计的问题，为企业的管理带来了极大的方便。
【专利说明】一种网页浏览记录统计方法及系统

【技术领域】
[0001] 本发明涉及一种网页浏览记录统计方法及系统。

【背景技术】
[0002] 随着网络技术的发展，大多数企业、事业单位在办公时都要借助网络进行完成，这样，员工就必须能够连上互联网，而企事业单位或有些企业在管理员工时，也要求员工在工作时不得上网娱乐，这就必须有一套行之有效的网络行为管理系统。目前的技术是这样实现的：在pc终端上通过不断获取最前端的窗口句柄，根据各类浏览器的关键标识，进而逐层遍历组件，然后根据预先算好的组件位置进行对应的网页标题、网址等关键信息的提取，从而达到对网页浏览记录进行统计的目的。但是这种做法主要存在以下缺点：1、需要根据浏览器的关键标识来区分当前窗口是否需要被监控，而不同浏览器的关键标识往往不同，如果某种浏览器关键标识没有被预先保存，则会导致这类浏览器浏览的网页记录不能被统计；2、在一个浏览器上打开一些网页后，通过反复切换窗口，会导致相同的记录被重复统计；3、同一类型浏览器因版本升级导致需要统计的信息位置发生变化，也会导致浏览记录不能被统计；4、只能记录当前终端上浏览网页的情况。

【发明内容】

[0003] 本发明要解决的技术问题，在于提供一种网页浏览记录统计方法及系统，通过对网页标题进行有效统计，解决以往重复统计或者遗漏统计的问题，使企业或事业单位的网络行为管理系统更加完善。
[0004] 本发明要解决的技术问题之一是这样实现的：一种网页浏览记录统计方法，包括如下步骤：步骤1、通过传输驱动程序接口 TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；步骤2、对获取的IP数据帧进行数据还原、分类，并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。
[0005] 进一步的，所述步骤2具体包括以下步骤：步骤21、提取备份的Ip数据帧及本地端口，根据Tcp/ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；步骤22、读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；步骤23、对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。
[0006] 进一步的，所述步骤21具体为：先提取备份的Ip数据帧及本地端口，根据所述IP 协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将 Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。
[0007] 进一步的，所述步骤22具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。
[0008] 进一步的，所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。
[0009] 本发明要解决的技术问题之二是这样实现的：一种网页浏览记录统计系统，包括：数据采集模块，通过传输驱动程序接口 TDI获取传输的Ip数据帧及本地端口，并对Ip 数据帧进行备份，之后将原Ip数据帧放行；数据分析模块，对获取的IP数据帧进行数据还原、分类，并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。
[0010] 进一步的，所述数据分析模块具体包括：数据还原单元，提取备份的Ip数据帧及本地端口，根据Tcp/ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；判断分析单元，读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；解析单元，对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。
[0011] 进一步的，所述数据还原单元具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。
[0012] 进一步的，所述判断分析单元具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。
[0013] 进一步的，所述网站地址由http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。
[0014] 本发明具有如下优点：1、统计浏览记录时，不需要考虑终端采用的浏览工具，具有更强的兼容性和稳定性；2、将该系统部署到网关后，可以有效采集经过该网关的数据，且分析的是原IP数据帧的一个备份，可以保证每次采集的数据只被分析一次，从而达到统计整个内网中的所有用户浏览网页的真实情况；3、避免了因频繁切换窗口和浏览器升级时造成的重复统计、遗漏统计问题。

【专利附图】

【附图说明】
[0015] 下面参照附图结合实施例对本发明作进一步的说明。
[0016] 图1为本发明一种网页浏览记录统计方法执行流程图。
[0017] 图2为本发明一种网页浏览记录统计系统结构框图。

【具体实施方式】
[0018] 请参照图1所示，一种网页浏览记录统计方法，具体包括以下步骤：步骤1、当一个应用程序建立起网络连接时，传输驱动程序接口 TDI的建立连接事件就被触发，并会获取到用于建立连接的本地端口（假设为S1);当应用层开始传输数据时，传输驱动程序接口 TDI的接收事件与发送事件就被触发，并会获取传输的Ip数据帧，然后对Ip 数据帧进行备份，备份完后将原Ip数据帧放行，从而不影响网络的正常传输；数据传输完毕后，传输驱动程序接口 TDI的关闭连接事件就被触发，从而结束对数据的获取；步骤2、对获取的IP数据帧根据Tcp/ip协议进行还原及分类，然后根据http协议特征进行数据类型判断及原始报文内容解析，并对得到的网页标题进行记录及统计；该步骤可详细为以下步骤：步骤21、先提取备份的Ip数据帧及本地端口 S1，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；过滤完成后，根据建立连接时获取的本地端口 S1和Tcp协议中的源端口、目的端口，将与本地端口相同的源端口或目的端口对应的应用层数据都归到同一类（S1 类）中，并将应用层数据缓存到本地文件中；步骤22、从本地文件中读取缓存的应用层数据，根据http协议在请求模式中包括请求行、消息报头及请求正文，在响应模式中包括状态行、消息报头及响应正文，判断读取的应用层数据是否为http协议数据，如果是，则对http协议的消息报头及请求行进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空；其中，所述请求行的格式为：Method Request-URL HTTP-Version CRLF，Method 表示请求方法；Request-URL是一个统一资源标识符；HTTP-Version表示请求的HTTP协议版本；CRLF表示回车和换行；所述状态行格式为：HTTP-Version Status-Code Reason-Phrase CRLF，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。所述网站地址由请求行的Request-URL 信息和请求消息报头的Host (主要用于指定被请求资源的Internet主机和端口号）信息构成；所述报文类型从响应消息报头的Content-Type (用于指明发送给接收者的实体正文的媒体类型)信息中得到；所述压缩算法从http协议消息报头的Content-Encoding (被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制进行解码）信息中得到。
[0019] 步骤23、对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计，由于原始报文内容中可能包括音频、视频、html数据等数据信息，这里只需要对html数据进行分析即可。其中，html数据格式如下： <html> 〈head〉 <title>··· </title> 〈/head〉〈body〉〈body〉 <html> 我们只需要根据该格式解析html数据内容，获取〈title〉与〈/title〉之间的数据，即为网页标题。
[0020] 请参照图2所示，一种网页浏览记录统计系统，具体包括数据采集模块，当一个应用程序建立起网络连接时，传输驱动程序接口 TDI的建立连接事件就被触发，并会获取到用于建立连接的本地端口（假设为S1);当应用层开始传输数据时，传输驱动程序接口 TDI的接收事件与发送事件就被触发，并会获取传输的Ip数据帧，然后对Ip数据帧进行备份，备份完后将原Ip数据帧放行，从而不影响网络的正常传输；数据传输完毕后，传输驱动程序接口 TDI的关闭连接事件就被触发，从而结束对数据的获取；数据分析模块，对获取的IP数据帧根据Tcp/ip协议进行还原及分类，然后根据http 协议特征进行数据类型判断及原始报文内容解析，并对得到的网页标题进行记录及统计；该模块可详细为以下单元：数据还原单元，先提取备份的Ip数据帧及本地端口 S1，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；过滤完成后，根据建立连接时获取的本地端口 S1和Tcp协议中的源端口、目的端口，将与本地端口相同的源端口或目的端口对应的应用层数据都归到同一类（S1类）中，并将应用层数据缓存到本地文件中；判断分析单元，从本地文件中读取缓存的应用层数据，根据http协议在请求模式中包括请求行、消息报头及请求正文，在响应模式中包括状态行、消息报头及响应正文，判断读取的应用层数据是否为http协议数据，如果是，则对http协议的消息报头及请求行进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空；其中，所述请求行的格式为：Method Request-URI HTTP-Version CRLF，Method 表示请求方法；Request-URL是一个统一资源标识符；HTTP-Version表示请求的HTTP协议版本；CRLF表示回车和换行；所述状态行格式为：HTTP-Version Status-Code Reason-Phrase CRLF，HTTP-Version表示服务器HTTP协议的版本；Status-Code表示服务器发回的响应状态代码；Reason-Phrase表示状态代码的文本描述。所述网站地址由请求行的Request-URL 信息和请求消息报头的Host (主要用于指定被请求资源的Internet主机和端口号）信息构成；所述报文类型从响应消息报头的Content-Type (用于指明发送给接收者的实体正文的媒体类型)信息中得到；所述压缩算法从http协议消息报头的Content-Encoding (被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制进行解码）信息中得到。
[0021] 解析单元，对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计，由于原始报文内容中可能包括音频、视频、html数据等数据信息，这里只需要对html 数据进行分析即可。其中，html数据格式如下： <html> 〈head〉 <title>··· </title> 〈/head〉〈body〉〈body〉 <html> 我们只需要根据该格式解析html数据内容，获取〈title〉与〈/title〉之间的数据，即为网页标题。
[0022] 综上所述，我们可以知道本发明具有以下优点：在统计浏览记录时，不需要考虑终端采用的浏览工具，具有更强的兼容性和稳定性；将该系统部署到网关后，可以有效采集经过该网关的数据，且分析的是原IP数据帧的一个备份，可以保证每次采集的数据只被分析一次，从而达到统计整个内网中的所有用户浏览网页的真实情况；可以避免因频繁切换窗口或浏览器升级时造成的重复统计、遗漏统计问题。
[0023] 虽然以上描述了本发明的【具体实施方式】，但是熟悉本【技术领域】的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。
【权利要求】
1. 一种网页浏览记录统计方法，其特征在于：包括以下步骤：步骤1、通过传输驱动程序接口 TDI获取传输的Ip数据帧及本地端口，并对Ip数据帧进行备份，之后将原Ip数据帧放行；步骤2、对获取的IP数据帧进行数据还原、分类，并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。
2. 根据权利要求1所述的一种网页浏览记录统计方法，其特征在于：所述步骤2具体包括以下步骤：步骤21、提取备份的Ip数据帧及本地端口，根据Tcp/ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；步骤22、读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；步骤23、对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。
3. 根据权利要求2所述的一种网页浏览记录统计方法，其特征在于：所述步骤21具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。
4. 根据权利要求3所述的一种网页浏览记录统计方法，其特征在于：所述步骤22具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。
5. 根据权利要求4所述的一种网页浏览记录统计方法，其特征在于：所述网站地址由 http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从 http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。
6. -种网页浏览记录统计系统，其特征在于：包括：数据采集模块，通过传输驱动程序接口 TDI获取传输的Ip数据帧及本地端口，并对Ip 数据帧进行备份，之后将原Ip数据帧放行；数据分析模块，对获取的IP数据帧进行数据还原、分类，并提取出原始报文内容，之后解析原始报文内容，并对得到的网页标题进行记录及统计。
7. 根据权利要求6所述的一种网页浏览记录统计系统，其特征在于：所述数据分析模块具体包括：数据还原单元，提取备份的Ip数据帧及本地端口，根据Tcp/ip协议的特征，对Ip数据帧进行数据还原及分类，并将得到的应用层数据缓存到本地文件中；判断分析单元，读取缓存的应用层数据，根据http协议特征，对应用层数据的类型进行判断，之后提取出应用层数据的原始报文内容；解析单元，对原始报文内容中的html数据进行解析，获取网页标题并进行记录及统计。
8. 根据权利要求7所述的一种网页浏览记录统计系统，其特征在于：所述数据还原单元具体为：先提取备份的Ip数据帧及本地端口，根据所述IP协议特征将IP数据帧的报头过滤掉后便可得到Tcp数据包；再根据所述Tcp协议特征将Tcp数据包的报头过滤掉后便可得到应用层数据；之后将与本地端口相同的源端口或目的端口对应的应用层数据归到同一类，并缓存到本地文件中。
9. 根据权利要求8所述的一种网页浏览记录统计系统，其特征在于：所述判断分析单元具体为：读取缓存的应用层数据，根据http协议特征判断读取的应用层数据是否为http 协议数据，如果是，则对http协议数据进行分析，得到该应用层数据使用的压缩算法、报文类型及网站地址，并解压出原始报文内容；如果不是，则不进行分析，并将该应用层数据的缓存清空。
10. 根据权利要求8所述的一种网页浏览记录统计系统，其特征在于：所述网站地址由 http协议请求行的Request-URL信息和请求消息报头的Host信息构成；所述报文类型从 http协议响应消息报头的Content-Type信息中得到；所述压缩算法从http协议消息报头的Content-Encoding信息中得到。
【文档编号】H04L12/26GK104158698SQ201410383144
【公开日】2014年11月19日申请日期:2014年8月6日优先权日:2014年8月6日
【发明者】朱代林申请人:厦门天锐科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱代林
技术所有人：厦门天锐科技有限公司
我是此专利的发明人

上一篇：一种手机摄像模组制备方法
上一篇：控制网络多协议数据转换装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。