一种Cookie标识关联方法及装置的制造方法_3

文档序号:9687609阅读:来源:国知局
述候选Cookie标识组的特征信息;所述特征信息表征所述候选Cookie 标识组中Cooki e标识的关联程度。
[0101] 候选Cookie标识组是指很可能是来源于同一个用户的Cookie标识组。首先挑选出 运样的标识组可W减少后期计算标识组对应同一个用户的概率的规模。
[0102] 特征信息可W表征所述候选Cookie标识组中Cookie标识的关联程度,在具体实施 中,所述生成所述候选Cookie标识组的特征信息包括生成W下至少一种:用户识别标识信 息、相同网站浏览信息、网站相似度信息、网络行为时间信息。
[0103] 参照图3,生成所述用户识别标识信息可W包括:
[0104] S31,获取所述Cookie标识组中每个Cookie标识分别对应的用户识别标识。
[0105] 用户访问某些网站时,对应的url上会带有关于运个用户的独一无二的信息。如果 两个Cooki e-ID对应的url上存在相同的用户识别标识,运两个Cooki e-ID就极为可能对应 于同一用户,故可W利用Cookie标识对应的ur 1上是否存在相同的用户识别标识来判断是 否。
[0106] 可W通过url获得用户识别标识,也可W直接通过第Ξ方网站直接获取对应同一 个用户识别标识的Cooki e标识。
[0107] S32,判断所述每个Cookie标识分别对应的用户识别标识中是否包含同样的用户 识别标识。
[0108] S33,基于所述判断结果确定所述用户识别标识信息的特征数值。
[0109] 在具体实施中,若所述候选Cookie标识组对应于同一用户标识,则可W将用户识 别标识信息的特征数值Scorei设置为1,否则,则为0。
[0110] 参照图4,生成所述相同网站浏览信息可W包括:
[0111] S41,计算所述Cookie标识组中的Cookie标识与相同网站间具有对应关系的概率。 [0112]可W计算每个url的用户访问量化V)。接着,统计潜在Cookie-ID对访问过的url是 否有完全相同的情形W及次数。最后,通过W下公式计算Cookie-ID对匹配度。
[0113] 记某个Cookie-ID对上出现相同的url有η个。运η个url的用户访问量化V)分别为 (ul ,u2 ,u3,…un-2 ,un-l ,un) 〇Score2的值越大,说明运个Cookie-ID对是一个人的概率越 大。
[0114] Pi = 2/ui
[0115] S42,生成所述相同网站浏览信息的特征数值:
[0116]
[0117] 参照图5,生成所述浏览网站相似度信息包括:
[0118] S51,对与所述Cookie标识组中的各Cookie标识建立过对应关系的网站进行类型 相似度计算。
[0119] 统计每个Cookie-ID访问的网站的类型分布。计算候选Cookie标识组的两个访问 网站类型分布的相似度。可W将cooki-Idi访问的网站的类型j的次数计为auXookie-Idi 访问的网站类型分布可W用向量表示如下:Xi = (ail,ai2,ai3, ???ain-Siain-l ,ain)。
[0120] S52,生成所述浏览网站相似度信息的特征数值。
[0121] 浏览网站相似度信息的特征数值可W利用如下公式进行计算:
[0122]
[0123] 参照图6,生成所述网络行为时间信息可W包括:
[0124] S61,计算所述Cooki e标识组中Cooki e标识对应的网络行为出现在同一时间段内 的次数和概率。
[0125] 可W将一段时间分为多个时间段,可W是多个会话器,统计候选Cookie标识组在 同一段时间段内同时出现的次数和概率。
[01%] S62,生成所述网络行为事件信息的特征数值。
[0127]网络行为事件信息的特征数值可W包括Score*和Scores,其中:
[01巧]Score*的值为候选Cookie标识组中的两个不同Cookie标识Cookie-Idi和Cookie-Icb同时出现的次数;
[0129]
[0130] S23,参照分类模型,在所述候选Cookie标识组中选取目标Cookie标识组;所述分 类模型包括:正确关联的Cookie标识组样本和错误关联的Cookie标识组样本;所述正确关 联的Cookie标识组样本和错误关联的Cookie标识组样本均包括所述特征信息。
[0131] 分类模型可W通过正确关联的Cookie标识组样本和错误关联的Cookie标识组样 本来训练。如前所述,内容服务器11(参见图1)或Cookie标识服务器13(参见图1)可W为上 网行为数据中的Cookie进行添加标识,故可W模拟用户清除Cookie的情况或用户利用多个 浏览器上网的情况建立正确关联的Cookie标识组样本,随机指定两个不对应同一用户的 Cookie进行关联,W建立错误关联的Cookie标识组样本。
[0132] S24,记录所述目标Cookie标识组的关联关系,W关联对应的Cookie。
[0133] 参见图7,在具体实施中,正确关联的Cookie标识组样本可W通过如下方式生成:
[0134] S71,选取对应于同一用户的第一 Cookie标识。
[0135] 选取对应于同一用户的第一 Cookie标识可W是任选一长期稳定存在,并具有较高 活跃度的Cookie标识。长期稳定存在并具有较高活跃度的Cookie标识的Cookie标识可W提 供更丰富的数据,W便后续生成正确关联的Cookie标识组的特征信息。
[0136] S72,改变所述第一 Cookie标识为第二Cookie标识。
[0137] 可W通过内容服务器11(参见图1)或Cookie标识服务器13(参见图1)。
[0138] S73,所述第一 Cookie标识和所述第二Cookie标识组成的Cookie标识组作为正确 关联的Cookie标识组,并将其记录下来。
[0139] S74,参照所述第一 Cookie标识对应的上网行为数据和所述第二Cookie标识对应 的上网行为数据,生成作所述正确关联的Cookie标识组的特征信息。
[0140] 所述正确关联的Cookie标识组样本包括所述正确关联的Cookie标识组的特征信 息和所述正确关联的标识值。
[0141] 在本发明一实施例中,正确关联的Cookie标识组样本为如下格式:(Cookie-Id pair,Scorei,Score2,Scores,Score4,Score已,is_pair),其中Cookie-Id pair为正石角关耳关的 Cookie标识组的标识,Scorel至Scores参见前文描述,is_pair为正确关联的标识值,可W 是 "true"。
[0142] 参见图8,在具体实施中,所述错误关联的Cookie标识组样本可W通过如下方式生 成:
[0143] S81,选取对应于不同用户的第^Cookie标识和第四Cookie标识。
[0144] 可W通过分析上网行为数据,选取接入网络的地点位于不同城市的Cookie标识。 为获取更多的数据W计算错误关联的Cookie标识组的特征信息,可W选取长期稳定存在, 并具有较高活跃度的Cookie标识作为第SCookie标识和第四Cookie标识。
[0145] S82,所述第SCookie标识和所述第四Cookie标识组成的Cookie标识组作为错误 关联的Cookie标识组。
[0146] S83,参照所述第SCookie标识对应的上网行为数据和所述第四Cookie标识对应 的上网行为数据,生成作所述错误关联的Cookie标识组的特征信息。
[0147] 所述错误关联的Cookie标识组样本包括所述错误关联的Cookie标识组的特征信 息和所述错误关联的标识值。
[0148] 在本发明一实施例中,类似于正确关联的Cookie标识组样本,错误关联的Cookie 标识组样本为如下格式:(Cookie-Id pair,Scorei,Scores,Scores,Score4, Score日,is_ pair),其中Cookie-Id pair为错误关联的Cookie标识组的标识,Scorel至Scores参见前文 描述,is_pai;r为错误关联的标识值,可W是吁alse"。
[0149] 参照图9,在具体实施中,所述参照分类模型,在所述候选Cookie标识组中选取目 标Cooki e标识组可W包括:
[0150] S91,参照所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本,分 别计算对应所述正确关联的Cookie标识组样本和错误关联的Cookie标识组样本中包含的 各个特征信息的权重值。
[0151] 求得各个特征信息的权重值可W参照所述正确关联的Cookie标识组样本和错误 关联的Cookie标识组样本,结合预测函数,利用最大值估计算法,计算出权重值。
[0152] S92,参照所述各个特征信息的权重值和所述候选Cookie标识组的特征信息,构造 判断函数。
[0153] S93,参照所述预测函数的函数值,在所述候选Cooki e标识组中选取目标Cooki e标 识组。
[0154] 可W利用判断函数的函数值,设定函数值的区间,在某个区间内判定为目标 Cookie标识组。
[01巧]在本发明一实施例中,利用Logi
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1