一种跨域用户关联方法及信息推送方法

文档序号:9235475阅读:303来源:国知局
一种跨域用户关联方法及信息推送方法
【技术领域】
[0001] 本发明设及一种基于Cookie聚类分析的跨域用户关联方法及信息推送方法,属 于互联网用户行为关联分析领域。
【背景技术】
[0002] 一般情况下,网站或者广告联盟都会非常想要一种技术方式可W在网络上精确定 位到每一个个体,该样可W通过收集该些个体的数据,通过分析后更加精准的去推送广告 信息或其他有针对性的一些活动。Cookie技术是非常受欢迎的一种。当用户访问一个网站 时,网站可W在用户当前的浏览器Cookie中永久植入一个含有唯一标识符扣UID)的信息, 并通过该个信息将用户所有行为(浏览了哪些页面?捜索了哪些关键字?对什么感兴趣? 点了哪些按钮?用了哪些功能?看了哪些商品?把哪些放入了购物车等等)关联起来。
[0003] 用户唯一标识体系
[0004] 在互联网中,我们有着许多标识唯一用户的技术手段,其中,最为常见的就是 Cookie 了。简单的多,Cookie具备几个特征;
[0005] >唯一性,一个Cookie是唯一存在于一个域名下的;
[0006] >归属权,一个Cookie必须属于某一个域名,且相互不能访问使用;
[0007] >持久性,一个Cookie可W持久的存在于一个浏览器中。
[000引 正因为Cookie具备上述几个特征,也就衍生出Cookie在使用上的一些特点了,我 们W A. COM(购物平台),B. COM(游戏平台),C. COM(数据管理平台)为例,存在W下结论:
[0009] > A. COM, B. COM, C. COM都存在各自的用户标识体系(各自定义的唯一 ID标识);
[0010] >用户化er在上述S个产品的ID分别是al,bl,cl,且相互不能访问使用。 [ocm] > A. COM,B. COM, C. COM都可W唯一的标识出用户User,但并不能相互读取标识信 [001引 息。
[0013] 共享用户特征
[0014] 由于业务的需要,A. COM, B. COM, C. COM均有不同的业务;
[0015] >广告主使用A. COM进行广告投放,并且用户化er点击了游戏广告;
[0016] >用户化er主动使用了 C. COM提供的浏览器购物比价插件服务;
[0017] >用户化er点击过位于交易平台B. COM上的职业学习、求职类广告;
[0018] 存在该种情况,A. COM识别出了化er喜欢玩游戏特征,C. COM识别出了化er是男 性用户,B. COM识别出了化er是个年轻人。此时由于A,B,CS方的数据并不共享,因此对于 业务人员而言,仅知道al喜欢玩游戏,bl是年轻人,cl是男性用户。并不能直接知道化er 是个喜爱玩游戏的年轻男性。
[0019] 广告系统的目标是要能够识别用户化er玩游戏的时候给他进行产品的推荐,此 时产品的推荐依赖于用户曾经在C. COM, B. COM上购买过产品或浏览过一些信息。最终目标 将不同业务体系中的用户特征合并绑到同一个用户上来,然而现有方法无法将不同业务体 系中的用户特征合并绑到同一个用户上来。

【发明内容】

[0020] 针对现有技术中存在的技术问题,本发明的目的在于提供一种基于Cookie聚类 分析的跨域用户关联方法及信息推送方法。本发明利用用户时序行为和第S方Cookie 对不同域名用户进行聚类关联,专利在聚类过程中采用了 次加法聚类、=次减法排除" 的方法。首先在时间窗口内对用户一次访问进行聚类,在聚类过程中通过FixCookie进 行排除,然后利用FixCookie进行第二次聚类,最后利用An厂Cookie进行S次聚类,用 FixCookie进行排除。专利聚类方法不依赖任何第S方设备或程序对不同域名下的Cookie 做Mapping映射(物理或程序),而是对网络中HTTP包进行聚类分析,算法准确率高,聚类 效果好。
[0021] 本发明的技术方案为:
[0022] 一种跨域用户关联方法,其步骤为:
[0023] 1)捜索域名的 FixCookie,建立一 FixCookie 列表;
[0024] 。从网络中收集HTTP包,并按照设定的时间窗口对采集的HTTP包进行划分;其 中,该时间窗口为划分用户访问关联第S方的界限;
[0025] 3)对每一时间窗口内的HTTP包,根据FixCookie列表采用用户时序聚类分析器进 行聚类,将同一用户的一次请求聚在一起,得到多个用户组集合;然后将各个时间窗口内相 同用户的用户组集合合并为一个用户组集合;
[0026] 4)采用FixCookie聚类分析器对采集的HTTP包进行聚类,将主机名相同且 cookie名、cookie值相同的HTTP包聚为一组,如果同一组内的HTTP包位于步骤3)合并后 不同的用户组集合内,则再将对应的用户组集合合并为一个用户组集合;
[0027] 5)采用anyCookie聚类分析器对采集的HTTP包进行聚类,将主机名、cookie名、 cookie值相同且不存在fixCookie冲突的HTTP包聚为一组,如果同一组内的HTTP包位于 步骤4)合并后不同的用户组集合内,则再将对应的用户组集合合并为一个用户组集合; [002引 6)将位于步骤5)中同一用户组集合内的用户判定为不同域中的同一用户。
[0029] 进一步的,所述不存在fixCookie冲突的HTTP包为具有相同主机名、都含有相同 的cookie属性,且cookie_name相等但cookie_value不相等。
[0030] 进一步的,所述步骤2)中,首先对从网络中收集HTTP包进行预处理,然后对采集 的HTTP包进行划分;其中预处理方法为;
[003U 31)对收集的HTTP包进行过滤,去掉无Cookie的HTTP包和无浏览器标识UA的 HTTP 包;
[0032] 32)将过滤后的HTTP包规整为键值对格式,然后按时间对进行排序;
[0033] 33)将排序后的HTTP数据转化为JS0N格式形式存储。
[0034] 进一步的,所述HTTP包信息包括;用户IP、出口 IP、端口号、主机、路径、时间、浏览 器柄识UA、引用和Cookie。
[0035] 一种信息推送方法,其步骤为:
[0036] 1)捜索域名的 FixCookie,建立一 FixCookie 列表;
[0037]。从网络中收集HTTP包,并按照设定的时间窗口对采集的HTTP包进行划分;其 中,该时间窗口为划分用户访问关联第s方的界限;
[003引 3)对每一时间窗口内的HTTP包,根据FixCookie列表采用用户时序聚类分析器进 行聚类,将同一用户的一次请求聚在一起,得到多个用户组集合;然后将各个时间窗口内相 同用户的用户组集合合并为一个用户组集合;
[0039] 4)采用FixCookie聚类分析器对采集的HTTP包进行聚类,将主机名相同且 cookie名、cookie值相同的HTTP包聚为一组,如果同一组内的HTTP包位于步骤3)合并后 不同的用户组集合内,则将对应的用户组集合合并为一个用户组集合;
[0040] 5)采用anyCookie聚类分析器对采集的HTTP包进行聚类,将主机名、cookie名、 cookie值相同且不存在fixCookie冲突的HTTP包聚为一组,如果同一组内的HTTP包位于 步骤4)合并后不同的用户组集合内,则将对应的用户组集合合并为一个用户组集合;
[0041] 6)将位于步骤5)中同一用户组集合内的用户判定为不同域中的同一用户;
[0042] 7)根据步骤6)的结果提取同一用户在不同域中的特征信息,向具有相同特征的 用户发送设定信息。
[0043] 进一步的,所述不存在fixCookie冲突的HTTP包为具有相同主机名、都含有相同 的 cookie 属性,且 cookie_name 相等但 cookie_value 不相等。
[0044] 进一步的,所述步骤2)中,首先对从网络中收集HTTP包进行预处理,然后对采集 的HTTP包进行划分;其中预处理方法为:
[0045] 34)对收集的HTTP包进行过滤,去掉无Cookie的HTTP包和无浏览器标识UA的 HTTP 包;
[0046] 35)将过滤后的HTTP包规整为键值对格式,然后按时间对进行排序;
[0047] 36)将排序后的HTTP数据转化为JS0N格式形式存储。
[0048] 本方法首先对局域网中用户HTTP包数据进行预处理,包括数据清洗、HTTP包排 序、HTTP包转换为JS0N格式数据,接下来对JS0N格式数据进行聚类分析,聚类分析过程包 括S部分;基于用户时序聚类、基于FixCookie聚类和基于An厂Cookie聚类,经S个聚类器 处理后就可将属于同一个用户的不同网站的HTTP包关联到一个用户,从而实现了用户跨 域追踪。
[0049] 与现有技术相比,本发明的积极效果为:
[0050] 本发明的用户时序行为关联聚类算法整体效果较好,能够保持准确率在80%,平 均覆盖率在42 %。能够将不同业务数据关联到同一个用户,进而进行推荐,算法具有准确率 高,聚类效果好等优点。
【附图说明】
[0化1] 图1为本发明的总体流程图;
[0化2] 图2为用户时序关联算法流程图;
[0化3] 图3为基于FixCookie聚类算法流程图;
[0化4] 图4为基于AnyCookie聚类算法流程图。
【具体实施方式】
[0化5] 本发明的方法总体流程图如图1所示。下面结合附图对本发明进行进一步详细描 述。
[0化6] 1.用户HTTP包数据说明及预处理
[0057] 本发明首先要收集网站HTTP包(比如在局域网对外出口路由器上部署了一套抓 包代码,对局域网中所有HTTP包进行收集);然后将收集的HTTP包W文件形式存储为一个 文件,放在一起处理;用户HTTP包包含许多重要的信息,例如UA,HR邸,COOKIE, TIME等,该 些信息可W用作算法聚类的准则,同时为了提高聚类算法的准确性,人工标记了一些第= 方访问W及一些Domain不变的FixCookie,该些数据大大提高了聚类算法准确度。
[005引1) HTTP包信息
[0059] 用户HTTP包信息包括用户IP扣serip)、出口 IP(Sourcelp),端口号任oi~t),主 机(Host),路径任ath),时间(UnixTime),浏览器标识(UA),引用巧eferer),Cookie等 属性。通常一个网站会有多个cookie, Fixcookie是那些长期不变的、被用来标识用户的 cookie。一 个 cookie -般由 cookie_name (cookie 名)和 cookie_value (cookie 值)组 成,如 <SGUID = 1355294586548_97680443,的 cookie_name 为 SGUID,cookie_value 为 1355294586548_97680443。
[0060] 其描述及示例值如表1所示:
[0061] 表1用户HTTP包属
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1