独立访问者数量估算方法和系统与流程

文档序号:13085636阅读:157来源:国知局
独立访问者数量估算方法和系统与流程
本发明涉及一种信息处理技术,尤其涉及一种独立访问者数量估算方法和系统。

背景技术:
互联网环境下,独立访问者(UniqueVisitor,UV)指访问某网站的用户群体中独立于其他个体而真实存在的自然人,独立访问者的数量是一种十分重要的统计指标。例如:某篇网络新闻的独立访问者数量反映了其受到关注的程度;某项调查的独立访问者数量关系到参与调查的人群基数大小;某条广告的独立访问者数量表示了多少人认知了广告的内容;等等。因此,准确地估算独立访问者数量在这些场景下将能够发挥很大的作用。在上述例子中,媒体的决策者能够根据每篇新闻的读者多少决定未来新闻采编的方向;发布调查的机构能够了解调查覆盖的人数是否足够使结果的可靠性达到特定的置信区间;广告主一方面能够根据收看一则广告的独立访问者的数量来判断该广告的到达率(Reach)是否达到预定的指标,另一方面还能够避免同一广告因为向同一用户展示的频率(Frequency)过高造成浪费。如果独立访问者数量可以估算得更准确,那么更多的需要这一统计指标的行业还将受益,而且还可能发掘出潜在的新行业。因此,对独立访问者数量进行准确估算的意义非常重大。公开于2011年11月24日、公开号为US2011/0288940A1的美国专利申请公开了一种基于特征指纹(fingerprint-based)的独立访问者数量估算方法。该方法基于用户上网时的浏览器类型、操作系统类型、IP(一种互联网协议,可用于识别用户的大致位置、所属网络等信息)地址等特征把多个不同的cookie(某些网站为了辨别用户身份而储存在用户本地终端上的数据)对应到一个独立访问者。但该技术方案仅考虑了多个cookie对应一个独立访问者的情况,而没有考虑多个独立访问者对应一个cookie的情况。例如,某公司部署了一百台桌面工作站供员工使用,使用了同一批采购的硬件、系统镜像安装的软件,因而上述特征完全相同,使用这批工作站上网的员工很可能被识别为同一个独立访问者。另,公开于2012年6月28日、公开号为2012/0166379A1的美国专利申请公开了一种基于聚类(clustering-based)的独立访问者数量估算方法。该方法根据用户的上网历史行为,把多个不同的cookie聚类在一起,然后把这个聚类在一起的多个cookie对应到同一个独立访问者。这样就可以根据聚类的个数把独立访问者的个数估算出来。基于聚类的方法最大的优点是,可以把多个不同的cookie物理地聚类在一起,这对于那些经常清空cookie的用户识别非常有用。比如,某用户经常在网吧上网,由于网吧的电脑装有还原卡,每次登陆时都会清空cookie,因而该用户就对应多个cookie。然而,这一类方法和基于特征指纹的方法有同样的问题,即没有考虑多个独立访问者对应一个cookie的情况,导致估算的独立访问者数量准确度较低。

技术实现要素:
本发明所要解决的技术问题是本发明要解决的技术问题是提供一种独立访问者数量估算方法及系统,以提高独立访问者数量估算的准确性。为了解决上述技术问题,本发明提供了一种独立访问者数量估算方法,该方法包括:采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;初始化步骤,初始化每个身份标识的变量值为初始值;终端标识变量值计算步骤,根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。为解决上述技术问题,本发明还提供了一种独立访问者数量估算系统,该系统包括:采集装置,用于采集终端的终端标识及与各终端标识对应的身份标识;初始化装置,用于初始化每个身份标识的变量值为初始值;终端标识变量值计算装置,用于根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;估算装置,用于提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。与现有技术相比,本发明方法和系统考虑了多个cookie可能对应一个独立访问者以及一个cookie也可能对应多个独立访问者的情形,通过将这些身份标识和用于识别用户使用的终端的终端标识建立联系,进而确定各个终端标识对应的可能的独立访问者的数量。当用户指定某部分互联网内容进行独立访问者数量统计时,记录请求过这部分内容的终端标识,利用和这部分终端标识估算对应的独立访问者数量,提高了独立访问者数量估算的准确性。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明图1是本发明独立访问者数量估算方法实施例1的示意图;图2是本发明中独立访问者、即时通讯账号、社交网络账号和CookieID之间的关系示意图;图3是本发明独立访问者数量估算方法实施例2的示意图;图4-图11是本发明应用实例的示意图;图12是应用本发明方法得到独立访问者数量的示例示意图;图13是本发明独立访问者数量估算系统的模块结构示意图。附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图和具体实施例对本发明所述技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例1本发明独立访问者数量估算方法实施例1,如1图所示,该方法包括:步骤101:采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;在特定时间段或特定时间点执行所述采集步骤。具体通过多种数据来源收集访问者的身份标识,将这些身份标识和用于识别用户使用的终端的终端标识建立对应关系。本文所说的终端标识是访问者访问互联网内容时被记录的用于标识终端的标识信息,可以为用于识别终端的Cookie的标识,下文简称CookieID;所述身份标识是能够区分独立于其他个体而真实存在的自然人的信息,包括但不限于以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析、商业合作或其他途径得到的用于标识身份的标识信息。一般而言,通过频繁模式挖掘、聚类分析等手段,从访问者的访问记录、其他技术特征中得到身份标识相对较不可靠,但根据需求或具体情形仍可用于估算独立访问者数量。每个身份标识都可能是一个潜在的独立访问者,因此本文及附图中也将身份标识称为潜在独立访问者。以下图2所示的示例说明了本发明涉及的概念之间的关系。图中,三个独立访问者分别控制(或共同控制)一个或多个访问者的身份标识,图中的身份标识为即时通讯账号和(或)社交网络账号;这些账号又分别和一个或多个终端标识存在联系(也可称为对应关系),图中的终端标识为cookieID。可以看出,本发明中,所述终端标识与所述身份标识之间的对应关系可以为一对一、一对多、多对一或多对多。步骤102:初始化步骤,初始化每个身份标识的变量值为初始值;具体地,所述身份标识的初始值可根据经验进行预设,该初始值表示该身份标识(潜在独立访问者)可能对应的独立访问者数量。优选地,身份标识的初始值可根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定。例如,采集到100万个身份标识,又通过其他途径(样本调研等)得到使用这些身份标识的独立用户共120万人,则身份标识的初始值可取120万/100万=1.2。又如,可根据经验,取1为初始值。当然除上述方法外还可以根据其他方法确定身份标识的初始值,本发明对此并不限定。步骤103:终端标识变量值计算步骤,根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;计算得到的终端标识的变量值用于表示该终端标识可能对应的独立访问者数量,基于步骤101建立的终端标识与身份标识的对应关系,终端标识的变量值根据该终端标识对应的所有的身份标识的变量值确定。可选地,设定每个类别的身份标识的权重为第一权重,设定步骤101中建立的每个类别的身份标识与终端标识的权重为第二权重,不同对应关系的权重可相同或不同。终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和。包括但不限于根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算第一权重,各类别身份标识的权重之和为1。包括但不限于根据终端标识与身份标识联系强弱计算、采用平均分配算法计算第二权重,每个身份标识对应的各对应关系的权重之和为1。步骤104:估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。当用户指定某部分互联网内容进行独立访问者数量统计时,记录请求过这部分内容的cookieID,利用这部分cookieID的变量值,估算其对应的独立访问者数量。具体地,可统计这部分cookieID的变量值之和,乘以比值1,即为独立访问者数量的估算值。上述比值1的计算方法是使用请求过所有互联网内容的cookieID的数量,除以建立了与身份标识联系的cookieID的数量,得到的比值1。即,我们将部分cookieID上得到的结果等比例放大到全体cookieID上。这种方法是一个例子,不一定使用等比例放大;如果我们采集到的数据足够多,例如能够覆盖所有cookieID,那么乘以比值1这一步就是不必要的。本发明方法通过终端标识和身份标识间的对应关系,得到终端标识和独立访问者间的联系,进而通过终端标识估算独立访问者数量。实施例2本发明独立访问者数量估算方法实施例2,如图3所示,该方法包括:步骤301:采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;在特定时间段或特定时间点执行所述采集步骤。具体通过多种数据来源收集访问者的身份标识,将这些身份标识和用于识别用户使用的终端的终端标识建立对应关系。如上文所述,所述终端标识与所述身份标识之间的对应关系为一对一、一对多、多对一或多对多。所述终端标识为用于识别终端的Cookie的标识;所述身份标识包括以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析或商业合作得到的用于标识身份的标识信息。步骤302:初始化步骤,初始化每个身份标识的变量值为初始值;具体地,所述身份标识的初始值可根据经验进行预设,优选地,身份标识的初始值根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定。步骤303:终端标识变量值更新步骤,利用预定的第一算法根据各个终端标识对应的所有身份标识的当前变量值计算各个终端标识的变量值;计算得到的终端标识的变量值用于表示该终端标识可能对应的独立访问者数量,基于步骤301建立的终端标识与身份标识的对应关系,终端标识的变量值根据该终端标识对应的所有的身份标识的变量值确定。可理解地,第一次执行步骤303与第二次执行步骤303利用的算法都是预定的第一算法。步骤304:迭代终止判断步骤,判断是否符合迭代终止条件,如符合则转执行步骤306,否则转执行步骤305;所述迭代终止条件是所述终端标识的当前变量值与更新前的变量值的当前差值小于预设阈值,或所述当前差值与第一次得到的差值的比例小于预设阈值,或执行终端标识变量值更新步骤的次数达到预设阈值。步骤305:身份标识变量值更新步骤,利用预定的第二算法根据各个身份标识对应的所有终端标识的变量值更新各个身份标识的变量值,并转执行终端标识变量值更新步骤303;计算得到的身份标识的变量值用于表示该身份标识可能对应的独立访问者数量,基于步骤301建立的终端标识与身份标识的对应关系,身份标识的变量值根据该终端标识对应的所有的终端标识的变量值确定。同样的,第一次执行步骤305与第二次执行步骤305利用的算法都是预定的第二算法。以上步骤303至305是该实施例2中根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值的具体过程。可选地,该第一算法也可采用实施例1中的方式,即,设定每个类别的身份标识的权重为第一权重,设定步骤101中建立的每个身份标识到终端标识的对应关系的权重为第二权重,不同对应关系的权重可相同或不同。则所述终端标识变量值更新步骤303中,终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和。包括但不限于根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算第一权重,各类别身份标识的权重之和为1。包括但不限于根据终端标识与身份标识联系强弱计算、采用平均分配算法计算第二权重,每个身份标识对应的各对应关系的权重之和为1。可理解地,采用平均计算方法可以达到将各个身份标识的变量值平均分配给其对应的各个终端标识或将各个终端标识的变量值平均分配给其对应的各个身份标识。可选地,所述第二算法指所述身份标识的变量值等于其对应的各个终端标识的终端标识变量值与第三权重乘积的和,其中第三权重为每个终端标识到身份标识的对应关系的权重。第三权重是根据身份标识与终端标识联系强弱计算或采用平均分配算法计算的,每个终端标识对应的各对应关系的权重之和为1。步骤306:估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。用户指定某部分互联网内容进行独立访问者数量统计,提取请求过用户指定内容的CookieID和请求次数,估算独立访问者数量。估算方法即请求过用户指定内容的CookieID中的标记变量之和;若请求次数大于相应独立ID中标记变量的值,仅计算请求次数。应用实例以下以图2为例结合图4至图11对本发明实施例2进行详细说明。图4至图11中,从即时通讯账号或社交网络账号到CookieID的连接线上的变量值,为CookieID从对应的即时通讯账号或社交网络账号得到的变量值,从CookieID到即时通讯账号或社交网络账号的连接线上的变量值,为即时通讯账号或社交网络账号从对应的CookieID得到的变量值。首先采集CookieID和某种即时通讯工具账号的对应关系,以及CookieID和某个社交网络账号的对应关系。图中CookieID和社交网络账号间展示了三种对应关系:一对一,一对多,多对一。该应用实例中,身份标识的变量值的初始值为1,如图4(a)所示将所有身份标识(潜在独立访问者)的变量值标记为1,该应用实例中,根据每个类别的身份标识数量与所有身份标识数量的比例计算第一权重,由于在上一步提取出的即时通讯账号个数为3,提取出的社交网络账号个数为4,在计算CookieID的标记值时,即时通讯账号的第一权重为3/7,社交网络账号的第一权重为4/7,采用平均分配算法计算每个身份标识到终端标识的对应关系的权重作为第二权重,即将身份标识的变量值平均分配给其对应的每个CookieID,根据上文所述的第一算法,最终结果四舍五入,作为CookieID的变量值,如图4(b)所示,以第四个CookieID为例,第四个CookieID对应第二、三个即时通信账号、第三、四个社交网络账号,其中,第二个即时通信账号对应第二、三、四共三个CookieID,因此这三个对应关系的权重(即第二权重)均为0.33,图4(b)中,因此第二个即时通信账号分配给该第四个CookieID的变量值为0.33,而第三个即时通信账号、第三、四个社交网络账号均只对应一个CookieID即第四个CookieID,因此这三个对应关系的权重(即第二权重)均是1,第三个即时通信账号、第三、四个社交网络账号分配给该第四个CookieID的变量值均为1,则根据第一算法第四个CookieID的变量值约为1.71,其计算公式为:1*0.33*3/7+1*1*3/7+1*1*4/7+1*1*4/7≈1.71。该应用实例中,迭代终止条件设定为CookieID的变化值(即当前变量值与上一变量值的差值)小于0.02,可默认CookieID变量值的初始值为0,则不符合迭代终止条件,该应用实例中,采用平均分配算法计算每个终端标识到身份标识的对应关系的权重作为第三权重,即,将CookieID的变量值在每一身份标识类别内部平均分配给其对应的潜在独立访问者,如图5(a)所示,以第二个即时通讯账号为例进行说明:第二个和第三个CookieID均只对应第二个即时通讯账号,因此这两个对应关系的权重(即第二权重)均是1,第二个和第三个CookieID均将变量值0.43分配给该第二即时通讯账号,第三个CookieID在即时通信账号类别内对应第二、三个即时通讯账号,因此这两个对应关系的权重(即第二权重)均为0.5,第三个CookieID分配给第二、三个即时通讯账号的变量值均为0.86,因此第二个即时通讯账号分配得到三个变量值,分别为0.43、0.43和0.86,因此第二个即时通讯账号更新后的变量值为0.72,其计算公式为:0.43*1+0.43*1+1.71*0.5=1.72。图5(b)中示意了再次根据即时通讯账号和社交网络账号的变量值更新CookieID的变量值,具体的处理方法与图4(b)示意的处理方法类似,在此不再赘述。图6至图11示意了多次迭代的过程,每次迭代之后都判断是否符合迭代终止条件,若不符合,则继续执行迭代过程,可以发现图11(b)中,各个CookieID的变量值与图10(b)中各个CookieID的变量值的差值都小于0.02,因此迭代终止。根据图11(b)可以得知,各个CookieID的最终变量值分别为1、0.63、0.63和1.36。假定如图12所示,只有标记为1.36的CookieID请求过用户指定内容,若采用前述比值的方法,得到比值1为1,则独立访问者数量可估算为1.36。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。为了实现上述方法实施例,本发明还提供了一种独立访问者数量估算系统,如图13所示,该系统包括:采集装置,用于采集终端的终端标识及与各终端标识对应的身份标识;可选地,在特定时间段或特定时间点采集终端的终端标识及与各终端标识对应的至少两种类别的身份标识。所述终端标识与所述身份标识之间的对应关系为一对一、一对多、多对一或多对多。所述终端标识为用于识别终端的Cookie的标识;所述身份标识包括以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析或商业合作得到的用于标识身份的标识信息。初始化装置,用于初始化每个身份标识的变量值为初始值;所述身份标识的初始值可根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定,这里给出的仅为示例,本发明并不排除采用其他方法确定身份标识的初始值。终端标识变量值计算装置,用于根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;估算装置,用于提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。对应于方法实施例1,则所述终端标识变量值计算装置计算终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。对应于方法实施例2,所述终端标识变量值计算装置包括:终端标识变量值更新单元,用于利用预定的第一算法根据各个终端标识对应的所有身份标识的当前变量值计算各个终端标识的变量值;迭代终止判断单元,得到各个终端标识的变量值后,用于判断是否符合迭代终止条件,并在不符合时通知身份标识变量值更新单元更新身份标识的变量值;身份标识变量值更新单元,用于利用预定的第二算法根据各个身份标识对应的所有终端标识的变量值更新各个身份标识的变量值;所述迭代终止条件是所述终端标识的当前变量值与更新前的变量值的当前差值小于预设阈值,或所述当前差值与第一次得到的差值的比例小于预设阈值,或执行终端标识变量值更新步骤的次数达到预设阈值。进一步地,可选地,所述第一算法指所述终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。第一权重是根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算或根据经验确定的,各类别身份标识的权重之和为1;第二权重是根据终端标识与身份标识联系强弱计算或采用平均分配算法计算的,每个身份标识对应的各对应关系的权重之和为1。所述第二算法指所述身份标识的变量值等于其对应的各个终端标识的终端标识变量值与第三权重乘积的和,其中第三权重为每个终端标识到身份标识的对应关系的权重。第三权重是根据身份标识与终端标识联系强弱计算或采用平均分配算法计算的,每个终端标识对应的各对应关系的权重之和为1。本发明方法和系统通过将这些身份标识和用于识别用户使用的终端的终端标识建立联系,进而确定各个终端标识对应的可能的独立访问者的数量。当用户指定某部分互联网内容进行独立访问者数量统计时,记录请求过这部分内容的终端标识,利用和这部分终端标识估算对应的独立访问者数量。为了提高数据准确率,优选地,可通过多种数据来源收集访问者的身份标识。与现有技术相比,本发明方案不仅考虑了多个cookie可能对应一个独立访问者以及一个cookie也可能对应多个独立访问者的情形,同时通过多个不同类别的身份标识的交叉验证,克服了基于单一来源身份标识方法准确率不高的缺点;且本发明中提出的方法不需要安装任何客户端。在实际应用中,本发明的方法要方便的多。本领域的技术人员应该明白,上述的本申请实施例所提供的系统和/或系统的各组成部分,以及方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上。可选地,它们可以用计算装置可执行的程序代码来实现。从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。本发明实施例中所描述的各种单元、模块仅是根据其功能进行划分的一种示例,可理解地,在系统/装置/设备实现相同功能的情况下,本领域技术人员可给出一种或多种其他功能划分方式,在具体应用时可将其中任意一个或多个功能模块采用一个功能实体装置或单元实现,不可否认地,以上变换方式均在本申请保护范围之内。虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1