一种网络数据处理方法和装置制造方法

文档序号：7798865阅读：100来源：国知局

一种网络数据处理方法和装置制造方法
【专利摘要】本发明公开了一种网络数据处理方法和装置，所述方法包括：获取网络上行报文，所述上行报文携带有第一源信息；匹配所述第一源信息和预置的用户访问记录表中对应的第二源信息；若匹配，则确定所述上行报文为垃圾数据；若不匹配，则输出所述上行报文，以及在所述用户访问记录表中设置对应的访问记录；过滤垃圾数据。相对于现有技术，本发明提供的方法能够有效消除垃圾数据数据，提高了对用户网络兴趣和行为数据解析的准确性。
【专利说明】一种网络数据处理方法和装置
【技术领域】
[0001]本发明涉及网络【技术领域】，具体涉及一种网络数据处理方法和装置。
【背景技术】
[0002]随着互联网的飞速发展，传统的交易模式已经被快捷方便的网络交易模式所取代，网络推广营销方式也更加广泛，通过用户的访问数据来分析用户的兴趣爱好和购买习惯等，可以使网络推广营销更加具有针对性，对感兴趣的用户直接进行在线推荐。但是对于访问量较多的网站，用户的访问数据也相当的庞大，其中包括大量没有价值的垃圾数据，要想从这些数据中分析出用户的兴趣爱好和购买习惯，需要先对用户的访问数据进行清洗，过滤掉垃圾数据。
[0003]当用户访问一个网页时，会产生大量的HTTP GET请求，其中绝大多数包含的是js、css、图片等类型文件HTTP请求,只有一条或两条是获取html文件的请求,该html文件的请求称为主链接，是对分析用户行为有用的信息，而那些大量获取js、css、图片等HTTP请求则成为没有价值的垃圾数据。
[0004]针对上述垃圾数据，现有技术过滤垃圾数据的方法主要步骤如下:
[0005]根据HTTP GET报文中请求的文件类型进行过滤，判断文件的后缀，如果是对应的jS、CSS、图片等文件类型后缀，则丢弃该报文。例如:
[0006]代表 js 文件的 url:http://dl.sina.com.cn/js/index/14/sync, js
[0007]代表图片的url:http://i0.sinaimg.cn/cha/images/c.gif
[0008]代表 css 文件的 url:http://img.adbox.sina.com.cn/static/css/base, css
[0009]但是，上述根据文件类型进行过滤时，要判断文件的后缀，由于存在很多js文件并不在url中带js后缀，同理也包括图片文件、css文件等，所以根据文件类型无法将全部的无用类型文件进行过滤，造成垃圾数据清洗成功率较低，进而影响对用户上网行为和兴趣信息的分析及判断结果。
[0010]因此，需要本领域技术人员迫切解决的一个技术问题就是:如何提高对用户访问数据中垃圾数据清洗的成功率，以提高对用户行为和兴趣信息解析的准确性。

【发明内容】

[0011]鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络数据处理方法和装置。
[0012]依据本发明的一个方面，提供了一种网络数据处理方法，所述方法包括:
[0013]获取网络上行报文，所述上行报文携带有第一源信息；
[0014]匹配所述第一源信息和预置的用户访问记录表中对应的第二源信息；
[0015]若匹配，则确定所述上行报文为垃圾数据；若不匹配，则输出所述上行报文，以及在所述用户访问记录表中设置对应的访问记录；
[0016]过滤垃圾数据。[0017]可选地，所述网络上行报文还携带有用户代理信息useragent ；
[0018]所述过滤垃圾数据之前，还包括:
[0019]匹配所述代理信息useragent和预置代理信息配置表，若不匹配，则确定所述网络上行报文为垃圾数据。
[0020]可选地，所述用户代理配置信息表中的配置项目包括:操作系统和/或终端品牌和/或浏览器和/或应用软件；
[0021]所述匹配所述用户代理信息useragent和预置的用户代理信息配置表具体包括:
[0022]匹配用户代理信息useragent与用户代理配置信息表中的任意一个配置项，若不匹配，则确定所述网络上行报文为垃圾数据。
[0023]可选地，所述网络上行报文还携带有类型信息Acapt ；
[0024]所述过滤垃圾数据之前，还包括:
[0025]匹配所述类型信息Acapt和预置的类型信息配置表，若匹配，则确定所述网络上行报文为垃圾数据。
[0026]可选地，所述网络上行报文为http get报文，所述第一源信息和第二源信息具体为 http Referer 信息。
[0027]根据本发明的另一方面，提供了一种网络数据处理装置，包括:
[0028]报文获取模块，用于获取网络上行报文，所述上行报文携带有第一源信息；
[0029]第一匹配模块，用于匹配所述报文获取模块所获取网络上行报文中携带的第一源信息和预置的用户访问记录表中对应的第二源信息；
[0030]若匹配，则确定所述上行报文为垃圾数据；若不匹配，则输出所述上行报文，以及在所述用户访问记录表中设置对应的访问记录；
[0031 ] 垃圾数据处理模块，用于过滤垃圾数据。
[0032]可选地，所述报文获取模块所获取的网络上行报文还携带有用户代理信息useragent ；
[0033]所述装置还包括:
[0034]第二匹配模块，用于匹配所述代理信息useragent和预置代理信息配置表，若不匹配，则确定所述网络上行报文为垃圾数据。
[0035]可选地，所述用户代理配置信息表中的配置项目包括:操作系统和/或终端品牌和/或浏览器和/或应用软件；
[0036]所述第二匹配模块具体用于，匹配用户代理信息useragent与用户代理配置信息表中的任意一个配置项，若不匹配，则确定当前http get报文为垃圾报文并进行过滤。
[0037]可选地，所述报文获取模块所获取的网络上行报文还携带有类型信息Ac^pt ；
[0038]所述装置还包括:
[0039]第三匹配模块，用于匹配所述类型信息Acc印t和预置的类型信息配置表，若匹配，则确定所述网络上行报文为垃圾数据。
[0040]可选地，所述网络上行报文为http get报文，所述第一源信息和第二源信息具体为 http Referer 信息。
[0041]根据本发明实施例提供的方法和装置，至少可以取得以下技术效果:
[0042]现有技术通过判断用户http报文中是否包含特定的文件后缀来确定当前http报文是否为垃圾报文，而对于未包含特定文件后缀的http报文则无法进行判断，造成垃圾数据的遗漏。本发明实施例通过判断用户当前http报文携带的第一源信息Referer与记录表中所记录的用户前一个http报文的第二源信息Referer是否一致,来确定用户当前的http报文是否发生了链接跳转，若发生跳转，则将发生跳转的http报文作为有效报文输出并用于用户的兴趣行为信息解析，而对于没有发生跳转的http报文，由于其来自同一网站或链接，其对应的兴趣行为信息也相同，为了避免重复解析造成的资源浪费，因此将没有发生跳转的http报文作为垃圾数据并进行过滤。相对于现有技术，本发明实施例在确定用户上行报文是否为垃圾数据时，消除了报文中文件后缀对垃圾数据清除的影响，提高了对垃圾报文过滤清洗的成功率，同时有效提供高了对用户兴趣行为信息解析的准确性。
[0043]上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0044]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0045]图1示出了根据本发明一个实施例的一种网络数据处理方法的步骤流程图；
[0046]图2示出了根据本发明一个实施例的一种网络数据处理方法的步骤流程图；
[0047]图3示出了根据本发明一个实施例的一种网络数据处理装置的结构示意图。
【具体实施方式】
[0048]为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0049]实施例一
[0050]本实施例提供了一种网络数据处理的方法，参见图1，所述方法包括:
[0051]步骤101，获取网络上行报文，所述上行报文携带有第一源信息。
[0052]所述上行报文可以是超文本传输协议(Hypertext Transfer Protocol, HTTP)上行报文，也可以是基于其他协议的上行报文，例如传输控制协议(Transmission ControlProtocol, TCP)上行报文,文件传输协议(File Transfer Protocol, FTP)上行报文等。鉴于用户在使用网络时产生的请求报文绝大多数为http报文，因此，本发明实施例优选的，所述用户的上行报文具体为http get报文。下面，我们均以http get报文为例对本发明实施例作进一步详细描述。
[0053]所述第一源信息包含了发送当前上行报文的起始位置信息，例如源节点地址、源终端地址、源链接地址等。以http get报文为例，所述用户的第一源信息具体为该http get报文中携带的http Referer信息，该Referer中记录了发送http get报文的源链接地址。
[0054]Referer是http报文头部行header的一部分，当浏览器向WEB服务器发送请求的时候，一般会带上Referer,表示当前链接的上一条链接，即当前请求报文的源链接地址。
[0055]例如,浏览器当前显示的是百度(www.baidu.com),当用户在百度的搜索结果中点击了新浪网站链接(www.sina.com)的访问请求,在该请求的http get报文中，第一源信息Referer 值为 www.baidu.com。
[0056]步骤102，匹配所述第一源信息和预置的用户访问记录表中对应的第二源信息；若匹配，则确定所述上行报文为垃圾数据；若不匹配，则输出所述上行报文并且在所述用户访问记录表中设置对应的访问记录。
[0057]本发明实施例优选的，当第一源信息为http get报文中的Refrer信息时，，所述第二源信息也使用Referer信息。其中,用户访问记录表记录了用户访问新链接时的记录信息，该用户访问记录表的结构示例如表1所示:
[0058]
【权利要求】
1.一种网络数据处理方法，其特征在于，包括: 获取网络上行报文，所述上行报文携带有第一源信息；匹配所述第一源信息和预置的用户访问记录表中对应的第二源信息；若匹配，则确定所述上行报文为垃圾数据；若不匹配，则输出所述上行报文，以及在所述用户访问记录表中设置对应的访问记录；过滤垃圾数据。
2.如权利要求1所述的方法，其特征在于，所述网络上行报文还携带有用户代理信息useragent ；所述过滤垃圾数据之前，还包括: 匹配所述代理信息useragent和预置代理信息配置表，若不匹配，则确定所述网络上行报文为垃圾数据。
3.如权利要求2所述的方法，其特征在于，所述用户代理配置信息表中的配置项目包括:操作系统和/或终端品牌和/或浏览器和/或应用软件；所述匹配所述用户代理信息useragent和预置的用户代理信息配置表具体包括: 匹配用户代理信息useragent与用户代理配置信息表中的任意一个配置项，若不匹配，则确定所述网络上行报文为垃圾数据。
4.如权利要求1或3所述的方法，其特征在于，所述网络上行报文还携带有类型信息Accept ；所述过滤垃圾数据之前，还包括: 匹配所述类型信息Acc印t和预置的类型信息配置表，若匹配，则确定所述网络上行报文为垃圾数据。
5.如权利要求1所述的方法，其特征在于，所述网络上行报文为httpget报文，所述第一源信息和第二源信息具体为http Referer信息。
6.一种网络数据处理装置，其特征在于，包括: 报文获取模块，用于获取网络上行报文，所述上行报文携带有第一源信息；第一匹配模块，用于匹配所述报文获取模块所获取网络上行报文中携带的第一源信息和预置的用户访问记录表中对应的第二源信息；若匹配，则确定所述上行报文为垃圾数据；若不匹配，则输出所述上行报文，以及在所述用户访问记录表中设置对应的访问记录；垃圾数据处理模块，用于过滤垃圾数据。
7.如权利要求6所述的装置，其特征在于，所述报文获取模块所获取的网络上行报文还携带有用户代理信息useragent ；所述装置还包括: 第二匹配模块，用于匹配所述代理信息useragent和预置代理信息配置表，若不匹配，则确定所述网络上行报文为垃圾数据。
8.如权利要求7所述的装置，其特征在于，所述用户代理配置信息表中的配置项目包括:操作系统和/或终端品牌和/或浏览器和/或应用软件；所述第二匹配模块具体用于，匹配用户代理信息useragent与用户代理配置信息表中的任意一个配置项，若不匹配，则确定所述网络上行报文为垃圾数据。
9.如权利要求6或8所述的装置，其特征在于，所述报文获取模块所获取的网络上行报文还携带有类型信息Ac^pt; 所述装置还包括: 第三匹配模块，用于匹配所述类型信息Acapt和预置的类型信息配置表，若匹配，则确定所述网络上行报文为垃圾数据。
10.如权利要求6所述的装置，其特征在于，所述网络上行报文为httpget报文，所述第一源信息和第二源信息具体为http Referer信息。
【文档编号】H04L29/08GK103905434SQ201410093295
【公开日】2014年7月2日申请日期:2014年3月13日优先权日:2014年3月13日
【发明者】罗峰, 黄苏支, 李娜申请人:亿赞普(北京)科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗峰;黄苏支;李娜
技术所有人：亿赞普（北京）科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。