一种识别用户身份标识的方法和装置的制造方法_2

文档序号:9379986阅读:来源:国知局
5位长度为正常数据
[0032] 通过上述合法性规则,可以过滤掉不符合上述规则的数据,从而保证数据的正确 性。
[0033] 在步骤202,基于各类用户身份标识的数据结构,构建相对应的数据规范化规则, 以对过滤后的用户身份标识进行规范化处理。
[0034] 由于在收集的不同系统的各类用户身份标识中,有时会出现不符合数据规范标准 的数据异常的情况。为了保证数据的质量,可以在步骤201的基础上,对数据进行进一步处 理。具体来说,可以根据各类用户身份标识的数据结构,构建相应的数据规范化规则,使数 据规范化输出。
[0035] 对数据进行规范化处理的规范化规则可以包括:
[0036] (1)邮箱规范输出:tolower (trim(email))as email
[0037] (2) cookie 规范输出:length (cookieid) >=20and length (cookieid)〈=30
[0038] 通过上述规则,可以输出符合上述规范化规则的数据,从而保证数据的规范性。
[0039] 需要说明的是,步骤201和步骤202为可选步骤,其目的是对数据进行清洗,以得 到合法性和规范化的高质量数据,从而提高后续计算的效率和准确率。在实际应用中,如果 不需要对收集的用户身份标识进行清洗,方法200也可以开始于步骤203。
[0040] 在步骤203,根据用户身份标识之间关联关系的数据来源,确定所述用户身份标识 之间的关联关系的类型。
[0041] 根据本申请的一个实施例,根据用户身份标识之间关联关系的数据来源,确定所 述用户身份标识之间关联关系类型,可以包括:
[0042] (1)如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一 对象,则确定这两个用户身份标识之间的关联关系为绑定关系类型;
[0043] (2)如果用户身份标识之间关联关系的数据来源表明两个用户身份标识代表同一 对象的概率满足预设值,则确定这两个用户身份标识之间的关联关系为可能关系类型;以 及
[0044] (3)如果两个用户身份标识之间关联关系的数据来源既未表明两个用户身份标识 代表同一对象、也未表明二者为同一对象的概率满足预设值,则确定这两个用户身份标识 之间的关联关系为概率关系类型。
[0045] 基于步骤203,可以得到表示各用户身份标识和各用户身份标识之间的关联关系 类型的图表(Graph)。例如,图3为根据本申请一个实施例的表示各用户身份标识和各用户 身份标识之间的关联关系类型的图表。在图3中,点A、B、C、D、E、F分别表示不同的用户 身份标识,点与点之间的边表示他们之间的关联关系。不同形式的边表示不同的关联关系 类型。其中,如图3所示,点A和点B之间以及点B和点C之间的关联关系为概率关系类型 (虚线边);点B和点E之间以及点C和点F之间的关联关系为可能关系类型(实线边);点D 和点E之间以及点E和点F之间的关联关系为概率关系类型(点划线边)。
[0046] 在步骤204,根据确定的关联关系类型,获取所述用户身份标识之间的关联关系权 重。
[0047] 两个用户身份标识之间的关联关系权重体现了他们之间的关联关系程度,即,这 两个用户身份标识代表同一对象的可能性(概率)。
[0048] 根据本申请的一个实施例,对于存在绑定关系类型的两个用户身份标识,可以将 这两个用户身份标识之间的关联关系权重设定为1,即,这两个用户身份标识代表同一对象 的可能性为100%。
[0049] 根据本申请的一个实施例,对于存在可能关系类型的两个用户身份标识,可以根 据数据来源的具体情况,将这两个用户身份标识之间的关联关系权重设定为0~1之间的 某一值。
[0050] 根据本申请的一个实施例,对于存在概率关系类型的两个用户身份标识,可以通 过统计分析,计算这两个用户身份标识的共现概率,从而获取他们之间的关联关系权重。
[0051] 例如,在同一天,用户A使用用户名user_id=A在一台机器上登录C网站,用户B 使用用户名user_id=B在同一台机器上登录C网站,用户A和用户B使用同样的cookie=X, 其中,A访问了 8次页面,B访问了 2次页面,即X-共出现了 8+2=10次。
[0052] 则 Cookie=X 与用户名 user_id=A 属于同一对象的概率 P (user_id=A | Cookie=X)= 使用user_id=A登陆C网站的用户使用Cookie=X访C网站的页面次数/使用各用户名登 陆C网站的用户使用Cookie=X访问的页面总次数=8/10=80%,即,Cookie=X与用户名user_ id=A之间的关联关系权重为0. 8。
[0053] 同理,Cookie=X与用户名user_id=B属于同一对象的概率P (user_ id=B I cookie=X) =20%,即,Cookie=X与用户名user_id=B之间的关联关系权重为0. 2。
[0054] 上例中,计算Cookie=X与user_id=A、user_id=B之间的属于同一对象的概率时, 考虑的影响因素是访问页面的次数。如果不考虑访问页面的次数,也可以考虑不同用户名 user_id=A、user_id=B与Cookie=X共同出现的天数。此时,上例中,贝U有:Cookie=X与用户 名user_id=A之间的属于同一对象的概率==1/(1+1) =0· 5 ;cookie=X与用户名user_id=B 之间的属于同一对象的概率=1八1+1)=〇. 5。
[0055] 根据使用场景的不同,还可以考虑可能影响用户身份标识之间关联关系权重的其 他因素,例如,可以考虑不同用户访问时间的先后。
[0056] 在步骤205,基于具有绑定关系的用户身份标识,生成相应的用户统一身份标识。
[0057] 由于用户身份标识之间的关联关系权重越大,其代表同一对象的可能性越大。因 此,可以先对所有用户身份标识中具有关联关系权重较大的用户身份标识生成相应的用户 统一身份标识。具体地,在本实施例中,可以基于具有绑定关系的用户身份标识,生成相应 的用户统一身份标识。
[0058] 在步骤206,计算可能关系类型和概率关系类型的用户身份标识与生成的各个用 户统一身份标识之间的条件概率。
[0059] 对于可能关系类型和概率关系类型的用户身份标识,可以通过例如如下计算方式 计算各用户身份标识与生成的用户统一身份标识属于同一对象的概率POJniID I keyb):
[0061] 上式中,UniID表示用户统一身份标识,keyb表示某一可能关系类型或概率关系类 型的用户身份标识;T表示UniID所对应的用户身份标识的个数;Key i表示UniID所对应的 各用户身份标识;表示对不同类型用户身份标识的影响度因子,该影响度因子可以 根据需要进行设定和调整;P(keyi I keyb)表示keyb与1?^;之间的关联关系权重。
[0062] 需要说明的是,上式中keyb与key;之间的关联关系权重P(key; I keyb)已在步骤 204得到。
[0063] 在步骤207,根据计算出的条件概率,确定可能关系类型和概率关系类型的用户身 份标识的用户统一身份标识。
[0064] 经过步骤206,可以计算出可能关系类型和概率关系类型的用户身份标识与各用 户统一身份标识属于同一对象的概率。可以根据预先设定的阈值,将计算出的条件概率与 该阈值进行比较,将概率大于或等于该阈值所对应的用户统一身份标识分配给该用户身份 标识。当计算出的用户身份标识与各用户统一身份标识属于同一对象的概率均小于预先设 定的阈值时,对该用户身份标识生成新的用户统一身份标识。
[0065] 通过步骤207和步骤208,可以确定所有关联关系类型的用户身份标识的用户统 一身份标识。
[0066] 在步骤208,基于确定的用户统一身份标识和与用户统一身份标识相对应的用户 身份标识,将各类用户身份标识进行聚类,并生成包含所述用户统一身份标识与相应的用 户身份标识之间关联关系的索引表。
[0067] 具体而言,可以将具有相同用户统一身份标识的用户身份标识聚为一类,这样,可 以将所有用户身份标识聚为多个类,每一类具有相同的用户统一身份标识。
[0068] 在本实施例中,可以基于聚类后的用户身份标识,生成包含用户统一身份标识与 相应的用户身份标识之间关联关系的索引表。例如,生成正排索引表。在正排索引表中,可 以以key-value的方式进行查询检索,例如,可以根据用户统一身份标识,检索出与其相对 应的用户身份标识以及每个用户身份标识与该用户统一身份标识属于同一对象的概率。 [0069] 在本实施例中,还可以基于生成的正排索引表生成包含所述用户统一身份标识与 相应的用户身份标识之间关联关系的倒排索引表。在倒排索引表中,可以根据用户身份标 识,检索出与其相对应的用户统一身份标识和相应概率(如需要)。
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1