网络用户的特征识别方法与流程

文档序号：11864729阅读：407来源：国知局

本发明涉及因特网网络数据分析技术，尤其涉及一种通过分析网页数据包来识别用户特征的方法和系统。
背景技术：
：用户上网时传输数据所用的网络是由通信运营商提供和维护的。由于随着互联网广告的规模和重要性越来越大，如果能获得用户兴趣方面的数据，对针对性的提供广告有巨大帮助。目前，现有的获得网络用户兴趣的方法是深度包检测技术，即DPI技术，该技术是一种基于应用层的流量检测和控制技术，当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时，该系统通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组，从而得到整个应用程序的内容，然后按照系统定义的管理策略对流量进行整形操作。因此，识别用户特征的现有技术存在缺陷：(一)由于DPI需要读取IP包载荷的内容，对用户的隐私造成了很严重的侵犯，在某些国家或地区还是被法律严厉禁止的行为。(二)由于采用DPI技术，导致用户缺乏安全感，使得很多公司开发了加密传输技术来躲避DPI。而加密传输技术使得DPI难以发挥作用，无法检测出网络用户的兴趣，难以识别得到网络用户特征。技术实现要素：为了克服上述现有技术的不足，本发明提供一种通过分析网页数据包来识别用户特征的方法，根据获得数据包的大小，通过逆向方法检测出用户访问的网页，从而识别出用户感兴趣的网页类型。本发明提供的技术方案是：一种网络用户的特征识别方法，根据获得数据包的大小，通过逆向方法检测出用户访问的网页，从而识别出用户感兴趣的网页类型；包括如下步骤：步骤1：获取访问量靠前的N个网站；包括专业性网站和综合性网站；使得N个网站访问量的和占所有网站访问量的比率大于某个门限值。优选的，该门限值是80％。网站访问量的详细数据都是公开数据，本领域技术人员很容易获得。步骤2：设置兴趣类型，对上述N个网站标注兴趣类型；专业性网站对应一个兴趣类型；综合性网站对应多个兴趣类型，综合性网站不同的频道分别对应不同兴趣类型；对上述N个网站进行标注：如果网站是专业性网站，则只需要将整个网站的所有网页对应对某个兴趣类型；如果网站是综合性网站，则需要根据不同的频道来对应；对于无法对应的网站或频道，则可以直接抛弃；步骤3：定期对上述确定了兴趣类型的网站或网站的频道进行扫描，获得网页；进一步获得每个网页的根文件的数据包包头文件中的数据包大小；爬虫软件定期对上述确定了兴趣类型的网站或网站的频道进行扫描；步骤4：将获得网页进行处理，提取来自于同一网站、且第二网页是第一网页的超链接的网页对，将该网页对与网页对的数据包大小形成对应关系；步骤5：设置网页对的兴趣类型，形成网页对的兴趣类型和网页对的数据包大小的对应关系，生成数据包对大小和兴趣类型的对应数据库；针对网页对设置网页对的兴趣类型的方法是：如果两个网页的兴趣类型相同，则将该网页对的兴趣类型标注为这两个网页的兴趣类型，如果不同，则直接抛弃该记录。从而形成兴趣类型和网页对数据包大小的对应关系，形成数据包对大小和兴趣类型的对应数据库。步骤6：通过网络运营商获取检测网络上的所有数据包，根据IP地址来划分数据包；步骤7：设置网络的空闲时间和忙碌时间；设置方法具体是：设定时间间隔(可设定以1秒为时间间隔)，当大于所设定时间间隔没有数据包时，设置为网络的空闲时间义，否则定义为网络的忙碌时间；步骤8：获得网络每次连续访问的网页对；具体方法是：获得每个忙碌时间内的第一个数据包；对每个获得的数据包提取包头信息中数据包大小字段；每个忙碌时间内的第一个数据包的大小和网页直接对应；并将获得数据包大小字段以时间顺序排列；当前后两个数据包的间隔时间小于设定的时间阈值(例如10分钟)时，定义为一次连续访问；将一次连续访问中的前一个数据包和后一个数据包作为该次连续访问中的网页对；步骤9：获得网络每次连续访问中网页对的数据包大小；将每次连续访问中前一个数据包大小和后一个数据包大小之和，作为每次连续访问中网页对的数据包大小；步骤10：在步骤5得到的数据包对大小和兴趣类型的对应数据库中检索上述步骤9获得的网页对的数据包大小，如果检索到结果，则将获取对应的兴趣类型，并将该兴趣类型和IP地址关联；步骤11：通过统计得到与某一IP地址关联的兴趣类型，从而获得该IP地址的兴趣类型。兴趣类型通过统计分析该IP地址访问网页的历史记录获得，是统计分析后的结果，例如，可以通过对统计结果进行排序获得：当该IP地址访问某个兴趣类型的网页最多时，则将该兴趣类型作为该IP地址的兴趣类型。与现有技术相比，本发明的有益效果是：本发明提供一种通过分析网页数据包来识别用户特征的方法，根据获得数据包的大小，通过逆向方法检测出用户访问的网页，从而识别出用户感兴趣的网页类型。本发明提供的技术方案不需要检测数据包的内容，只需要获得数据包的大小，就可以通过逆向工程，来检测出用户访问的网页，从而确定出用户感兴趣的网页类型。本发明简单快捷、效率高、准确性高。在实际应用中，网络运营商可通过本发明技术方案获得用户感兴趣的网页类型特征，更加有针对性的为用户提供服务。附图说明图1是本发明提供的网络用户特征识别方法的流程框图。具体实施方式下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。本发明提供一种通过分析网页数据包来识别用户特征的方法和系统，根据获得数据包的大小，通过逆向方法检测出用户访问的网页，从而识别出用户感兴趣的网页类型。如图1所示，包括如下步骤：步骤1：获取访问量靠前的N个网站，包括专业性网站和综合性网站；所述综合性网站包含多个频道；步骤2：设置兴趣类型，对上述N个网站或网站的频道标注兴趣类型，建立网站或网站的频道与兴趣类型之间的对应关系；步骤3：定期对上述确定了兴趣类型的网站或网站的频道进行扫描，获得网页和每个网页的根文件的数据包包头文件中的数据包大小；步骤4：从所获得网页中提取网页对；将网页对与该网页对的数据包大小形成对应关系；步骤5：设置网页对的兴趣类型，形成网页对的兴趣类型和网页对的数据包大小的对应关系，生成网页对的数据包对大小与网页对的兴趣类型的对应数据库；步骤6：获取待检测网络上的所有数据包，根据IP地址来划分数据包；步骤7：设置网络的空闲时间和忙碌时间；步骤8：定义网络连续访问，将一次连续访问中的前一个数据包和后一个数据包作为该次连续访问中的网页对，获得网络每次连续访问的网页对；步骤9：获得网络每次连续访问中网页对的数据包大小；步骤10：在步骤5得到的数据包对大小和兴趣类型的对应数据库中检索步骤9获得的网页对的数据包大小，当检索到匹配数据记录时，获取匹配的数据记录对应的兴趣类型；并将该兴趣类型和IP地址关联；步骤11：通过统计得到与某一IP地址关联的兴趣类型，从而获得该IP地址的兴趣类型，作为所述IP地址相应的网络用户的兴趣特征。以下通过实施例进一步描述本发明。本发明实施例基于以下几个设定：1：数据包包头信息是可以被运营商合法获取和使用的。不会牵涉任何隐私和法律问题。2：用户每次请求网页，首先下载的是根文件，紧接着会下载各个对象文件，网页与根文件的大小存在单向的对应关系。即，相同的网页在被不同的用户请求时，更文件的数据包的大小是相同的。不会随着时间变化，也不会因为用户地点而变化。但相同大小的数据包却无法一定是对应相同的网页。3：运营商有能力将用户的IP地址(即使是动态分配的)，与用户对应起来。从而运营商能够通过对数据包包头中的IP地址信息来唯一的确定出用户。特别说明：如果一个IP地址下有多个用户，则这样的应用场景不是本发明服务的对象。4：用户的真实点击网页的行为中，两次连续点击的时间间隔，绝大部分情况会大于1秒，且小于10分钟。5：用户第一次点击网页后，下一次点击，有很大的概率是第一次点击的所获取的网页中的超链接。实施例一：基于上述设定，本实施例根据父子网页对的数据包大小来确定用户特性，具体实施包括如下步骤：步骤1：获取访问量靠前的N个网站，要使得这N个网站访问量的和占所有网站访问量的比率大于某个门限值。优选的，该门限值是80％。网站访问量的详细数据都是公开数据，本领域技术人员很容易获得。步骤2：设置兴趣类型，优选的可设置为表1：表1兴趣类型1新闻2财经3科技4体育5娱乐6汽车7博客8视频9房产10读书11教育12时尚13城市14旅游15论坛16游戏17佛学18应用对上述N个网站进行标注：如果网站是专业性网站，则只需要将整个网站的所有网页对应对某个兴趣类型；如果网站是综合性网站，则需要根据不同的频道来对应；对于无法对应的网站或频道，则可以直接抛弃。因此，专业性网站对应一个兴趣类型；综合性网站对应多个兴趣类型，不同的频道分别对应不同兴趣类型。步骤3：爬虫软件定期对上述确定了兴趣类型的网站或网站的频道进行扫描，获得每个网页的根文件的数据包包头文件中的数据包大小。步骤4：将上述爬虫软件获得网页进行处理，提取来自于同一网站，且第二网页是第一网页的超链接的网页对，将该网页对与网页对的数据包大小形成对应关系。步骤5：判断该网页对的兴趣类型，如果两个网页的兴趣类型相同，则将该网页对的兴趣类型标注为这两个网页的兴趣类型，如果不同，则直接抛弃该记录。从而形成兴趣类型和网页对数据包大小的对应关系，形成数据包对大小和兴趣类型的对应数据库。步骤6：网络运营商获取检测网络上的所有数据包，根据IP地址来划分数据包。步骤7：以1秒为时间间隔，大于1秒没有数据包，则定义为空闲时间，否则定义为忙碌时间。步骤8：获得每个忙碌时间内的第一个数据包，提取包头信息中数据包大小字段。并将获得数据包大小字段以时间顺序排列。前后两个数据包的间隔时间小于10分钟，则定义为连续访问。步骤9：将一次连续访问中的前一个数据包和后一个数据包组成为该次连续访问中的一个网页对；将一次连续访问中的前一个数据包大小和后一个数据包大小组成一个数据包数值对，作为相应的网页对的数据包对大小。步骤10：在数据包对大小和兴趣类型的对应数据库中检索上述获得的网页对的数据包大小，如果检索到结果，则将获取对应的兴趣类型，并将该兴趣类型和IP地址关联。步骤11：统计分析与某个IP地址关联的兴趣类型，从而获得该IP地址的兴趣类型。实施例二：基于上述设定，本实施例根据兄弟网页对的数据包大小来确定用户特性，具体实施包括如下步骤：步骤1：获取访问量靠前的N个网站，要使得这N个网站访问量的和占所有网站访问量的比率大于某个门限值。优选的，该门限值是80％。网站访问量的详细数据都是公开数据，本领域技术人员很容易获得。步骤2：设置兴趣类型，如上述表1所示：对上述N个网站进行标注：如果网站是专业性网站，则只需要将整个网站的所有网页对应对某个兴趣类型；如果网站是综合性网站，则需要根据不同的频道来对应；对于无法对应的网站或频道，则可以直接抛弃。步骤3：爬虫软件定期对上述确定了兴趣类型的网站或网站的频道进行扫描，获得每个网页的根文件的数据包包头文件中的数据包大小。步骤4：将上述爬虫软件获得网页进行处理，提取来自于同一网站，且第二网页和第一网页都属于某个上级网页的超链接的网页对，将该网页对与网页对的数据包大小形成对应关系。步骤5：判断该网页对的兴趣类型，如果两个网页的兴趣类型相同，则将该网页对的兴趣类型标注为这两个网页的兴趣类型，如果不同，则直接抛弃该记录。从而形成兴趣类型和网页对数据包大小的对应关系，形成数据包对大小和兴趣类型的对应数据库。步骤6：网络运营商获取检测网络上的所有数据包，根据IP地址来划分数据包。步骤7：以1秒为时间间隔，大于1秒没有数据包，则定义为空闲时间，否则定义为忙碌时间。步骤8：获得每个忙碌时间内的第一个数据包，提取包头信息中数据包大小字段。并将获得数据包大小字段以时间顺序排列。前后两个数据包的间隔时间小于10分钟，则定义为连续访问。步骤9：将一次连续访问中的前一个数据包大小和后一个数据包大小组成的数对，作为网页对的数据包大小。步骤10：在数据包对大小和兴趣类型的对应数据库中检索上述获得的网页对的数据包大小，如果检索到结果，则将获取对应的兴趣类型，并将该兴趣类型和IP地址关联。步骤11：统计分析与某个IP地址关联的兴趣类型，从而获得该IP地址的兴趣类型。需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄雨;李俊涛;
技术所有人：北京大学;
我是此专利的发明人

上一篇：图片的识别方法、系统及物联网摄像设备与流程
上一篇：基于区域验证的图像检索方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。