网页访问数据统计方法及装置制造方法

文档序号:6519856阅读:340来源:国知局
网页访问数据统计方法及装置制造方法【专利摘要】本发明公开了一种网页访问数据统计方法及装置。其中,该方法包括:采集用户访问页面行为的初始数据集,其中,初始数据集中包括一个或多个用户访问目标网站的初始页面浏览数据;从初始数据集中提取用户的首次访问数据;使用预设判定模型对首次访问数据进行判定得到判定结果;在判定结果与预设判定模型的预设结果相反时,使用首次访问数据在初始数据集中进行前溯匹配得到关联访问数据;基于关联访问数据对初始数据集进行拼接和修复得到修复数据集。采用本发明,解决了现有技术中因Cookie信息丢失导致识别用户精准性差的问题,实现了准确统计用户访问页面数据的效果,抵抗Cookie丢失所带来的副作用,串联用户的行为以实现还原真实用户行为的目的。【专利说明】网页访问数据统计方法及装置【
技术领域
】[0001]本发明涉及数据统计领域,具体而言,涉及一种网页访问数据统计方法及装置。【
背景技术
】[0002]在网站分析领域,常常需要将用户在互联网上的所有行为串联起来,将用户割裂的行为(如pv、session)及其属性联系起来并作聚合归因分析,是重要的网站流量分析手段。如何追踪一个具体的访客行为,将他的具体浏览情况串联起来,是完成网站流量分析的重要技术手段。现有技术方案主要采用的是Cookie追踪的方式,即在相关网页的http请求回复中设置Set-Cookie的header信息,或通过javascript在客户端生成cookie,然后用户端浏览器会将相关cookie保存在本机上,待用户下次访问此网站时,其http请求中就会包含这个cookie,这样服务器端便可得知该请求来自上次访问过的用户。通过这种方法,可以追踪同一访客在网站上的多次行为,但是其有效时间为cookie的过期时间。[0003]上述技术方案的缺点在于,完全依赖于Cookie信息识别用户,在实际环境中,Cookie信息很容易丢失(如用户手动清除Cookie,重装浏览器,重装操作系统等)。因此同一访客的行为可能生成多次Cookie,并被识别为多个不同访客的行为。这样访客行为分析的精准性就无法得到保障。[0004]针对现有技术中因Cookie信息丢失导致识别用户精准性差的问题,目前尚未提出有效的解决方案。【
发明内容】[0005]本发明实施例提供了一种网页访问数据统计方法及装置,以至少解决现有技术中因Cookie信息丢失导致识别用户行为精准性差的技术问题。[0006]根据本发明实施例的一个方面,提供了一种网页访问数据统计方法,该方法包括:采集用户访问页面行为的初始数据集,其中,初始数据集中包括一个或多个用户访问目标网站的初始页面浏览数据;从初始数据集中提取用户的首次访问数据;使用预设判定模型对首次访问数据进行判定得到判定结果;在判定结果与预设判定模型的预设结果相反时,使用首次访问数据在初始数据集中进行前溯匹配得到关联访问数据;基于关联访问数据对初始数据集进行拼接和修复得到修复数据集。[0007]进一步地,在使用预设判定模型对首次访问数据进行判定得到判定结果之前,方法包括:获取用户的初始行为数据库,其中,初始行为数据库中保存所有用户的页面浏览数据,每个页面浏览数据中包括浏览首次字段;将对应每个用户的首次页面浏览数据的浏览首次字段的属性记为正确;对初始行为数据库中的页面浏览数据进行过滤得到过滤行为数据库;建立初始网络判定模型;使用网络判定模型对过滤行为数据库进行训练得到预设判定模型。[0008]进一步地,每个页面浏览数据中包括访问页面来源字段、访问来源网站字段以及访问活动名称字段,对初始行为数据库中的页面浏览数据进行过滤得到过滤行为数据库的步骤包括:将初始行为数据库中的访问页面来源字段、访问来源网站字段以及访问活动名称字段为空的页面浏览数据从初始行为数据库中删除,得到过滤行为数据库。[0009]进一步地,使用预设判定模型对首次访问数据进行判定得到判定结果的步骤包括:获取首次访问数据的访问首次字段;使用预设判定模型对访问首次字段的属性进行判定;在访问首次字段的属性为正确的情况下,确定判定结果与预设判定模型的预设结果相同;在访问首次字段的属性不为正确的情况下,确定判定结果与预设判定模型的预设结果相反。[0010]进一步地,使用首次访问数据在初始数据集中进行前溯匹配得到关联访问数据的步骤包括:从初始数据集中筛选出与首次访问数据的IP和浏览器标识相同的初始页面浏览数据;比较初始页面浏览数据的初始访问时间与首次访问数据的首次访问时间;记录初始关联访问数据,其中,初始关联访问数据的第一初始访问时间比首次访问时间小;从初始关联访问数据中提取关联访问数据,其中,关联访问数据的第二初始访问时间是所有第一初始访问时间中最大的。[0011]进一步地,基于关联访问数据对用户访问行为的初始数据集进行拼接和修复得到修复数据集的步骤包括:从初始数据集中提取用户的所有初始页面浏览数据;将初始页面浏览数据与关联访问数据进行合并得到修复访问数据;使用修复访问数据修复初始数据集得到修复数据集。[0012]根据本发明实施例的另一方面,还提供了一种网页访问数据统计装置,该装置包括:采集模块,用于采集用户访问页面行为的初始数据集,其中,初始数据集中包括一个或多个用户访问目标网站的初始页面浏览数据;第一数据提取模块,用于从初始数据集中提取用户的首次访问数据;判定模块,用于使用预设判定模型对首次访问数据进行判定得到判定结果;匹配模块,用于在判定结果与预设判定模型的预设结果相反时,使用首次访问数据在初始数据集中进行前溯匹配得到关联访问数据;修复模块,用于基于关联访问数据对初始数据集进行拼接和修复得到修复数据集。[0013]进一步地,网页访问数据统计装置还包括:数据库获取模块,用于获取用户的初始行为数据库,其中,初始行为数据库中保存所有用户的页面浏览数据,每个页面浏览数据中包括浏览首次字段;属性标记模块,用于将对应每个用户的首次页面浏览数据的浏览首次字段的属性记为正确;过滤模块,用于对初始行为数据库中的页面浏览数据进行过滤得到过滤行为数据库;模型建立模块,用于建立初始网络判定模型;模型获取模块,用于使用网络判定模型对过滤行为数据库进行训练得到预设判定模型。[0014]进一步地,过滤模块包括:将初始行为数据库中的访问页面来源字段、访问来源网站字段以及访问活动名称字段为空的页面浏览数据从初始行为数据库中删除,得到过滤行为数据库,其中,每个页面浏览数据中包括访问页面来源字段、访问来源网站字段以及访问活动名称字段。[0015]进一步地,判定模块包括:字段获取模块,用于获取首次访问数据的访问首次字段;属性判定模块,用于使用预设判定模型对访问首次字段的属性进行判定;第一确定模块,用于在访问首次字段的属性为正确的情况下,确定判定结果与预设判定模型的预设结果相同;第二确定模块,用于在访问首次字段的属性不为正确的情况下,确定判定结果与预设判定模型的预设结果相反。[0016]进一步地,匹配模块包括:筛选模块,用于从初始数据集中筛选出与首次访问数据的IP和浏览器标识相同的初始页面浏览数据;比较模块,用于比较初始页面浏览数据的初始访问时间与首次访问数据的首次访问时间;记录模块,用于记录初始关联访问数据,其中,初始关联访问数据的第一初始访问时间比首次访问时间小;第二数据提取模块,用于从初始关联访问数据中提取关联访问数据,其中,关联访问数据的第二初始访问时间是所有第一初始访问时间中最大的。[0017]进一步地,修复模块包括:第三数据提取模块,用于从初始数据集中提取用户的所有初始页面浏览数据;合并模块,用于将初始页面浏览数据与关联访问数据进行合并得到修复访问数据;修复子模块,用于使用修复访问数据修复初始数据集得到修复数据集。[0018]在本发明实施例中,通过在匹配模块匹配出关联访问数据之后,基于关联访问数据修复初始数据集以获取修复数据集,从而可以将因为Cookie丢失的数据拼接上,从而可以减少同一访客的行为可能生成多次Cookie的数据,并且可以减少因为Cookie丢失而重新记录的数据,解决了现有技术中因Cookie信息丢失导致识别用户精准性差的问题,实现了准确统计用户访问页面数据的效果,抵抗Cookie丢失所带来的副作用,串联用户的行为以实现还原真实用户行为的目的。【专利附图】【附图说明】[0019]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0020]图1是根据本发明实施例的一种网页访问数据统计装置的示意图;以及[0021]图2是根据本发明实施例的一种网页访问数据统计方法的流程图。【具体实施方式】[0022]首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:[0023]为了使本【
技术领域
】的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0024]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0025]根据本发明实施例,提供了一种网页访问数据统计装置,如图1所示,该装置包括:采集模块10,用于采集用户访问页面行为的初始数据集,其中,初始数据集中包括一个或多个用户访问目标网站的初始页面浏览数据;第一数据提取模块30,用于从初始数据集中提取用户的首次访问数据;判定模块50,用于使用预设判定模型对首次访问数据进行判定得到判定结果;匹配模块70,用于在判定结果与预设判定模型的预设结果相反时,使用首次访问数据在初始数据集中进行前溯匹配得到关联访问数据;修复模块90,用于基于关联访问数据对初始数据集进行拼接和修复得到修复数据集。[0026]采用本发明,可以使用采集模块采集用户访问页面的初始数据集,在第一数据提取模块从初始数据集中提取用户的首次访问数据之后,判定模块使用预设判定模型对首次访问数据进行判定得到判定结果,匹配模块在判定结果与预设判定模型的预设结果相反时,使用首次访问数据在初始数据集中进行前溯匹配得到关联访问数据,然后修复模炔基于关联访问数据修复初始数据集以获取修复数据集。通过在匹配模块匹配出关联访问数据之后,基于关联访问数据修复初始数据集以获取修复数据集,从而可以将因为Cookie丢失的数据拼接上,从而可以减少同一访客的行为可能生成多次Cookie的数据,并且可以减少因为Cookie丢失而重新记录的数据,解决了现有技术中因Cookie信息丢失导致识别用户精准性差的问题,实现了准确统计用户访问页面数据的效果,抵抗Cookie丢失所带来的副作用,串联用户的行为以实现还原真实用户行为的目的。[0027]在本发明的上述实施例中,修复模块90可以包括:第三数据提取模块,用于从初始数据集中提取用户的所有初始页面浏览数据;合并模块,用于将初始页面浏览数据与关联访问数据进行合并得到修复访问数据;修复子模块,用于使用修复访问数据修复初始数据集得到修复数据集。[0028]具体地,上述实施例中采集模块可以基于cookie追踪获取初始数据集,该初始数据集中可以保存用户访问页面的行为数据,主要可以是指用户对于目标网站的页面浏览(PageView,下简称PV)数据(也即上述实施例中的初始页面浏览数据)。PV数据可通过在页面部署javascript代码获取。[0029]更具体地,上述实施例中获取的初始数据集可以采用数据表pvtable的形式表现,对应每条初始页面浏览数据均可以包括一个或多个字段,这些字段可以是:pvid,uid,url,time,ip,useragent,adsource,adcompaign,trafficsource,isfirst氺以及hour氺,上述字段分别:pv唯一标识、用户唯一标识、pv所访问的url、pv的发生时间、用户ip、用户浏览器useragent标识、广告来源、广告活动名称、来源网站、是否为此用户的第一个PV、pv发生时间的所属小时。其中,uid是基于传统的cookie追踪手段由前端javascript脚本生成,可保证具有同一uid的pv来自同一个用户;而带有星号的字段,在采集模块采集初始数据集时设为空值,将通过对数据的筛选和计算得出带有星号的字段的值。本发明实施例中的PV和pv均指页面浏览数据。[0030]其中,上述实施例中的广告来源、广告活动名称具体是指当次pv的广告相关信息(若有的话),一般此信息可以通过分析url的参数获得。[0031]例如:对于http://www.abc.com/pagel.aspx?utm_source=sl&utm_campaign=s2,其广告来源(一般对应utm_source参数)即为si,广告活动名称(一般对应utm_campaign参数)即为s2。这些参数可以是人为设置的,用于标识相关访问是通过什么广告带来的。[0032]其中,上述实施例中的预设判定模块可以使用isFirst字段的值为正确的pv数据作为训练集合,训练isFirst的值为正确的判定模型,并将所有isFirst为true的集合使用预设模型对首次访问数据进行判断,获得与判定模型结果相反的伪首pv(即isFirst的值不为正确),对于伪首pv,利用ip,useragent和time进行前向匹配寻找到相关pv(即关联访问数据),将属于该用户的所有初始页面浏览数据与伪首pv所属访客行为(即关联访问数据)进行合并,获取修正后的访客行为(即修复数据集)。在该实施例中,在Cookie追踪的基础上,能够通过机器模型学习的方法,进行访客行为的拼接,抵抗Cookie丢失所带来的副作用,能够修正对于cookie丢失带来的数据失准,以达到串联还原真实用户行为的目的。[0033]在本发明的上述实施例中,网页访问数据统计装置还可以包括:数据库获取模块,用于获取用户的初始行为数据库,其中,初始行为数据库中保存所有用户的页面浏览数据,每个页面浏览数据中包括浏览首次字段;属性标记模块,用于将对应每个用户的首次页面浏览数据的浏览首次字段的属性记为正确;过滤模块,用于对初始行为数据库中的页面浏览数据进行过滤得到过滤行为数据库;模型建立模块,用于建立初始网络判定模型;模型获取模块,用于使用过滤行为数据库对网络判定模型进行训练得到预设判定模型。[0034]具体地,过滤模块可以包括:将初始行为数据库中的访问页面来源字段、访问来源网站字段以及访问活动名称字段为空的页面浏览数据从初始行为数据库中删除,得到过滤行为数据库,其中,每个页面浏览数据中包括访问页面来源字段(即来源网站)、访问来源网站字段(即广告来源)以及访问活动名称字段(即广告活动名称)。[0035]具体地,客户端脚本在浏览器中执行时,可以为用户生成唯一ID,并在记录访客Pv行为时附带将此ID发送给数据处理端访客行为日志系统,数据处理端收到相关数据(即初始行为数据库中的页面浏览数据)后,按照时间顺序根据用户ID是否第一次出现为页面浏览数据打上isFirst(即浏览首次字段)标签,即将用户的首次页面浏览数据的浏览首次字段的属性记为正确。[0036]根据本发明的上述实施例,属性标记模块在访问行为数据库中选择出所有用户的第一个PV,并将这些PV数据的isfirst字段设为TRUE(即正确)时可以使用如下源码:[0037]【权利要求】1.一种网页访问数据统计方法,其特征在于,包括:采集用户访问页面行为的初始数据集,其中,所述初始数据集中包括一个或多个所述用户访问目标网站的初始页面浏览数据;从所述初始数据集中提取所述用户的首次访问数据;使用预设判定模型对所述首次访问数据进行判定得到判定结果;在所述判定结果与所述预设判定模型的预设结果相反时,使用所述首次访问数据在所述初始数据集中进行前溯匹配得到关联访问数据;基于所述关联访问数据对所述初始数据集进行拼接和修复得到修复数据集。2.根据权利要求1所述的网页访问数据统计方法,其特征在于,在使用预设判定模型对所述首次访问数据进行判定得到判定结果之前,所述方法包括:获取用户的初始行为数据库,其中,所述初始行为数据库中保存所有所述用户的页面浏览数据,每个所述页面浏览数据中包括浏览首次字段;将对应每个所述用户的首次页面浏览数据的所述浏览首次字段的属性记为正确;对所述初始行为数据库中的所述页面浏览数据进行过滤得到过滤行为数据库;建立初始网络判定模型;使用所述网络判定模型对所述过滤行为数据库进行训练得到所述预设判定模型。3.根据权利要求2所述的网页访问数据统计方法,其特征在于,每个所述页面浏览数据中包括访问页面来源字段、访问来源网站字段以及访问活动名称字段,对所述初始行为数据库中的所述页面浏览数据进行过滤得到过滤行为数据库的步骤包括:将所述初始行为数据库中的所述访问页面来源字段、所述访问来源网站字段以及所述访问活动名称字段为空的所述页面浏览数据从所述初始行为数据库中删除,得到所述过滤行为数据库。4.根据权利要求3所述的网页访问数据统计方法,其特征在于,使用预设判定模型对所述首次访问数据进行判定得到判定结果的步骤包括:获取所述首次访问数据的访问首次字段;使用所述预设判定模型对所述访问首次字段的属性进行判定;在所述访问首次字段的属性为正确的情况下,确定所述判定结果与所述预设判定模型的所述预设结果相同;在所述访问首次字段的属性不为正确的情况下,确定所述判定结果与所述预设判定模型的所述预设结果相反。5.根据权利要求1所述的网页访问数据统计方法,其特征在于,使用所述首次访问数据在所述初始数据集中进行前溯匹配得到关联访问数据的步骤包括:从所述初始数据集中筛选出与所述首次访问数据的IP和浏览器标识相同的所述初始页面浏览数据;比较所述初始页面浏览数据的初始访问时间与所述首次访问数据的首次访问时间;记录初始关联访问数据,其中,所述初始关联访问数据的第一初始访问时间比所述首次访问时间小;从所述初始关联访问数据中提取所述关联访问数据,其中,所述关联访问数据的第二初始访问时间是所有所述第一初始访问时间中最大的。6.根据权利要求1所述的网页访问数据统计方法,其特征在于,基于所述关联访问数据对用户访问行为的初始数据集进行拼接和修复得到修复数据集的步骤包括:从所述初始数据集中提取所述用户的所有所述初始页面浏览数据;将所述初始页面浏览数据与所述关联访问数据进行合并得到修复访问数据;使用所述修复访问数据修复所述初始数据集得到所述修复数据集。7.—种网页访问数据统计装置,其特征在于,包括:采集模块,用于采集用户访问页面行为的初始数据集,其中,所述初始数据集中包括一个或多个所述用户访问目标网站的初始页面浏览数据;第一数据提取模块,用于从所述初始数据集中提取所述用户的首次访问数据;判定模块,用于使用预设判定模型对所述首次访问数据进行判定得到判定结果;匹配模块,用于在所述判定结果与所述预设判定模型的预设结果相反时,使用所述首次访问数据在所述初始数据集中进行前溯匹配得到关联访问数据;修复模块,用于基于所述关联访问数据对所述初始数据集进行拼接和修复得到修复数据集。8.根据权利要求7所述的网页访问数据统计装置,其特征在于,所述网页访问数据统计装置还包括:数据库获取模块,用于获取用户的初始行为数据库,其中,所述初始行为数据库中保存所有所述用户的页面浏览数据,每个所述页面浏览数据中包括浏览首次字段;属性标记模块,用于将对应每个所述用户的首次页面浏览数据的所述浏览首次字段的属性记为正确;过滤模块,用于对所述初始行为数据库中的所述页面浏览数据进行过滤得到过滤行为数据库;模型建立模块,用于建立初始网络判定模型;模型获取模块,用于使用所述网络判定模型对所述过滤行为数据库进行训练得到所述预设判定模型。9.根据权利要求8所述的网页访问数据统计装置,其特征在于,所述过滤模块包括:将所述初始行为数据库中的访问页面来源字段、访问来源网站字段以及访问活动名称字段为空的所述页面浏览数据从所述初始行为数据库中删除,得到所述过滤行为数据库,其中,每个所述页面浏览数据中包括所述访问页面来源字段、所述访问来源网站字段以及所述访问活动名称字段。10.根据权利要求9所述的网页访问数据统计装置,其特征在于,所述判定模块包括:字段获取模块,用于获取所述首次访问数据的访问首次字段;属性判定模块,用于使用所述预设判定模型对所述访问首次字段的属性进行判定;第一确定模块,用于在所述访问首次字段的属性为正确的情况下,确定所述判定结果与所述预设判定模型的所述预设结果相同;第二确定模块,用于在所述访问首次字段的属性不为正确的情况下,确定所述判定结果与所述预设判定模型的所述预设结果相反。11.根据权利要求7所述的网页访问数据统计装置,其特征在于,所述匹配模块包括:筛选模块,用于从所述初始数据集中筛选出与所述首次访问数据的IP和浏览器标识相同的所述初始页面浏览数据;比较模块,用于比较所述初始页面浏览数据的初始访问时间与所述首次访问数据的首次访问时间;记录模块,用于记录初始关联访问数据,其中,所述初始关联访问数据的第一初始访问时间比所述首次访问时间小;第二数据提取模块,用于从所述初始关联访问数据中提取所述关联访问数据,其中,所述关联访问数据的第二初始访问时间是所有所述第一初始访问时间中最大的。12.根据权利要求7所述的网页访问数据统计装置,其特征在于,所述修复模块包括:第三数据提取模块,用于从所述初始数据集中提取所述用户的所有所述初始页面浏览数据;合并模块,用于将所述初始页面浏览数据与所述关联访问数据进行合并得到修复访问数据;修复子模块,用于使用所述修复访问数据修复所述初始数据集得到所述修复数据集。【文档编号】G06F17/30GK103605738SQ201310585858【公开日】2014年2月26日申请日期:2013年11月19日优先权日:2013年11月19日【发明者】何恺铎申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1