确定用户标识的关联性的方法和装置的制造方法

文档序号:9844122阅读:433来源:国知局
确定用户标识的关联性的方法和装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域,具体涉及信息匹配技术领域,尤其涉及一种确定用 户标识的关联性的方法和装置。
【背景技术】
[0002] 随着互联网技术的发展,各种网络平台,例如网络社交平台(如QQ社交平台)、搜索 平台(如必应搜索平台)、网上交易平台(如京东商城)等等,逐渐成为人们生活的重要组成 部分。用户可以通过相同或不同的账号或终端设备等访问各种网络平台。这些账号或终端 设备的标识信息等可以用用户标识(i d e n t i f i c a t i ο η,ID)来表示。对这些用户标识之间的 关联性进行分析,具有应用于各种领域的重要意义,例如网页广告推送、网络社交平台中的 好友推荐、犯罪分子追踪等等。
[0003] 现有的确定用户标识的关联性的方法中,通常将用户标识两两之间的属性信息相 匹配从而确定其是否相关联。然而,这种匹配方法,往往通过已确定关联性的用户标识预先 训练的模型对待确定关联性的用户标识进行预测,建立在已确定关联性的用户标识之间的 关联关系与待确定关联性的用户标识之间的关联关系具有相同的规律和分布的假设基础 上。因此,这种匹配方法没有考虑待确定关联性的用户标识之间的关联关系对预测模型的 影响,导致在上述假设不成立时,确定的用户标识的关联性准确度不高。

【发明内容】

[0004] 本申请的目的在于提出一种改进的方法和装置,来解决以上【背景技术】部分提到的 技术问题。
[0005] -方面,本申请提供了一种确定用户标识的关联性的方法,所述方法包括:分别提 取待确定关联性的多组用户标识的相似度向量,其中,每组用户标识包括至少两个用户标 识;利用预先训练的关联度模型将各个相似度向量进行计算分别得到第一关联度;基于所 述第一关联度对所述待确定关联性的多组用户标识分别生成预确定关联关系;根据所述预 确定关联关系,将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更 新得到预测模型;对待确定关联性的各组用户标识,分别利用所述预测模型对所述相似度 向量进行计算得到第二关联度;对于第二关联度大于预设阈值的各组用户标识,确定组内 的用户标识间具有关联性。
[0006] 在一些实施例中,所述分别提取待确定关联性的多组用户标识的相似度向量包 括:针对各组用户标识,执行如下步骤:获取每个用户标识的属性信息;对所述属性信息中 的每一项,计算用户标识之间的属性相似度;由所述属性相似度生成所述相似度向量。
[0007] 在一些实施例中,所述基于所述第一关联度对所述待确定关联性的多组用户标识 分别生成预确定关联关系包括:对所述第一关联度通过聚类算法进行分类,以将所述待确 定关联性的多组用户标识分为两类;根据分类结果对所述多组用户标识生成预确定关联关 系。
[0008] 在一些实施例中,所述聚类算法的聚类中心通过迭代方法计算得到,具体方法包 括:查找步骤:遍历待确定关联性的各组用户标识,查找使下列函数具有最小值的一组用户 标识,加入集合c (1):
[0009]
[0010] 其中,x(1)表示第i组用户标识的相似度向量此表示集合c(1)所代表聚类的聚类中 心的相似度向量;表示第i组用户标识的第一关联度; 11.,#)表示集 合c(1)所代表聚类的聚类中心的第一关联度;λ表示第一关联度的权重;计算步骤:对于集合 c(1)中的至少一组用户标识,计算各组用户标识的相似度向量的平均值,具体计算公式为:
[0011]
[0012] 迭代步骤:用所述平均值作为集合c(1)所代表聚类的聚类中心的相似度向量,重复 以上查找步骤和计算步骤,直至集合c (1)稳定;确定步骤:将使集合c(1)稳定时的μ」确定为集 合c(1)所代表聚类的聚类中心的第一关联度。
[0013] 在一些实施例中,λ包括将作为验证样本集的多组用户标识分成两类时,使得生成 的预确定关联关系与已知的关联关系的匹配度最高时的取值。
[0014] 在一些实施例中,仏(J = 11 )由所述关联度模型将4进行计算得到。
[0015] 在一些实施例中,所述根据分类结果对所述多组用户标识生成预确定关联关系包 括:对两类中每一类待确定关联性的多组用户标识,将各个第一关联度与预设的关联度阈 值相比较;如果大于预设的关联度阈值的第一关联度个数超过小于预设的关联度阈值的第 一关联度个数,确定该类中待确定关联性的多组用户标识的预确定关联关系都为具有关联 性。
[0016] 第二方面,本申请提供了一种确定用户标识的关联性的装置,所述装置包括:提取 模块,配置用于分别提取待确定关联性的多组用户标识的相似度向量,其中,每组用户标识 包括至少两个用户标识;第一计算模块,配置用于利用预先训练的关联度模型将各个相似 度向量进行计算分别得到第一关联度;生成模块,配置用于基于所述第一关联度对所述待 确定关联性的多组用户标识分别生成预确定关联关系;更新模块,配置用于根据预确定的 关联关系,将所述待确定关联性的多组用户标识作为更新样本集对所述关联度模型更新得 到预测模型;第二计算模块,配置用于对待确定关联性的各组用户标识,分别利用所述预测 模型对所述相似度向量进行计算得到第二关联度;确定模块,配置用于对于第二关联度大 于预设阈值的各组用户标识,确定组内的用户标识间具有关联性。
[0017] 在一些实施例中,所述提取模块包括针对各组用户标识进行处理的以下单元:获 取单元,配置用于获取每个用户标识的属性信息;计算单元,配置用于对所述属性信息中的 每一项,计算用户标识之间的属性相似度;生成单元,配置用于由所述属性相似度生成所述 相似度向量。
[0018] 在一些实施例中,生成模块包括:分类单元,配置用于对所述第一关联度通过聚类 算法进行分类,以将所述待确定关联性的多组用户标识分为两类;生成单元,配置用于根据 分类结果对所述多组用户标识生成预确定关联关系。
[0019] 在一些实施例中,所述分类单元还包括:查找子单元:遍历待确定关联性的各组用 户标识,查找使下列函数具有最小值的一组用户标识,加入集合c (1):
[0020]
[0021] 其中,x(1)表示第i组用户标识的相似度向量;^表示集合c(1)所代表聚类的聚类中 心的相似度向量;办=11 表示第i组用户标识的第一关联度;=11 y#)表示集 合c(1)所代表聚类的聚类中心的第一关联度;λ表示第一关联度的权重;计算子单元:对于集 合c(1)中的至少一组用户标识,计算各组用户标识的相似度向量的平均值,具体计算公式 为:
[0022]
[0023]迭代子单元:用所述平均值作为集合c(1)所代表聚类的聚类中心的相似度向量,重 复以上查找步骤和计算步骤,直至集合c(1)稳定;确定子单元:将使集合c(1)稳定时的μ」确定 为集合c (1)所代表聚类的聚类中心的第一关联度。
[0024]在一些实施例中,λ包括将作为验证样本集的多组用户标识分成两类时,使得生成 的预确定关联关系与已知的关联关系的匹配度最高时的取值。
[0025] 在一些实施例中,A、()' = 11 X(~)由所述关联度模型将…进行计算得到。
[0026] 在一些实施例中,所述生成单元还配置用于:对两类中每一类待确定关联性的多 组用户标识,将各个第一关联度与预设的关联度阈值相比较;如果大于预设的关联度阈值 的第一关联度个数超过小于预设的关联度阈值的第一关联度个数,确定该类中待确定关联 性的多组用户标识的预确定关联关系都为具有关联性。
[0027] 本申请提供的确定用户标识的关联性的方法和装置,通过分别提取待确定关联性 的多组用户标识相似度向量,然后利用预先训练的关联度模型将上述相似度向量进行计算 得到第一关联度,接着基于第一关联度对待确定关联性的多组用户标识分别生成预确定关 联关系,然后根据预确定的关联关系,将待确定关联性的多组用户标识作为更新样本集对 关联度模型更新得到预测模型,然后对待确定关联性的各组用户标识,分别利用预测模型 对上述相似度向量进行计算得到第二关联度,并对于第二关联度大于预设阈值的各组用户 标识,确定组内的用户标识间具有关联性,由于通过基于关联度模型对待确定关联性的多 组用户标识生成的预确定关联关系对关联度模型进行更新,并通过更新得到的预测模型对 待确定关联性的多组用户标识的关联性进行确定,从而充分考虑待确定关联性的多组用户 标识对预先训练的关联度模型的影响,提高了确定用户标识的关联性的准确性。
【附图说明】
[0028] 通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特 征、目的和优点将会变得更明显:
[0029]图1示出了可以应用本申请实施例的示例性系统架构;
[0030] 图2是根据本申请的确定用户
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1