用户标识匹配方法和装置的制造方法_5

文档序号:9931436阅读:来源:国知局
取所述用户操作信息集合中记录的各个IP地址所关联的定位点坐标集合; 针对每个所述IP地址,对所述IP地址所关联的定位点坐标集合进行聚类分析,得到所对应的至少一个聚类,作为所述IP所分布的定位区域; 针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。3.根据权利要求2所述的方法,其特征在于,所述针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重,包括: 将所分布的定位区域个数大于预设数量阈值或者定位区域中的定位点坐标与中心点坐标的距离平均值大于预设距离阈值的IP地址删除; 针对剩余的每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。4.根据权利要求2所述的方法,其特征在于,所述确定所述IP地址所分布的各个定位区域的权重,包括: 根据所述IP地址所分布的各个定位区域中的定位点坐标的个数和范围,确定各个定位区域的初始权重; 将用户标识所关联的IP地址所分布的各个定位区域的中心点坐标作为用户标识对应的中心点坐标,对所述用户操作信息集合中记录的用户标识对应的中心点坐标根据地理布局进行网格化,生成至少两个网格; 获取所述用户操作信息集合中记录的每个用户标识对应的在每个所述网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格与每个用户标识对应的频次,并获取每个网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格对应的总用户频次; 基于所述频次,通过TF-1DF算法计算各个定位区域的权重。5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括: 计算所述待匹配用户标识与各个其它用户标识之间的IP地址相似度;以及 所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括: 根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识。6.根据权利要求5所述的方法,其特征在于,所述根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括: 获取所述待匹配用户标识和每个其它用户标识对应的特征信息,所述特征信息包括:所述待匹配用户标识和其它用户标识之间的IP地址相似度、定位信息相似度; 基于所述待匹配用户标识和各个其它用户标识对应的特征信息,通过预先训练的排序模型,获取待匹配用户标识和各个其它用户标识匹配的概率; 确定对应的所述概率大于预定的阈值的其它用户标识与所述待匹配用户标识匹配。7.根据权利要求6所述的方法,其特征在于,所述用户操作信息集合中的用户操作数据信息还包括:终端型号信息、操作系统信息;以及 所述特征信息还包括以下信息中的至少一个:所述待匹配用户标识和其它用户标识之间的相同IP地址数量、对应的中心点坐标重合数量,所述待匹配用户标识和其它用户标识所关联的终端型号信息、操作系统信息。8.根据权利要求1-4任一所述的方法,其特征在于,所述用户操作信息集合中记录的用户标识包括第一用户标识和第二用户标识,所述待匹配用户标识和所述各个其它用户标识分别属于第一用户标识和第二用户标识。9.根据权利要求8所述的方法,其特征在于,在获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度之后,所述方法还包括: 按照与所述待匹配用户标识之间的定位信息相似度从大到小的顺序,在所述用户操作信息集合中记录的第二用户标识中依次选取预定数量个第二用户标识,得到候选第二用户标识集合; 以及 所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括: 根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识。10.根据权利要求9所述的方法,其特征在于,在根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识之前,所述方法还包括: 针对所述候选第二用户标识集合中的每个第二用户标识,获取所述第二用户标识与各个第一用户标识之间的定位信息相似度; 按照与所述第二用户标识之间的定位信息相似度从大到小的顺序依次选取预定数量个第一用户标识,得到候选第一用户标识集合; 如果所述待匹配用户标识不在所述候选第一用户标识集合中,则将所述第二用户标识从所述候选第二用户标识集合中删除。11.一种用户标识匹配装置,其特征在于,所述装置包括: 定位信息获取单元,用于对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标; 定位信息相似度获取单元,用于根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度; 匹配单元,用于根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。12.根据权利要求11所述的装置,其特征在于,所述定位信息获取单元包括: 坐标集合获取子单元,用于获取所述用户操作信息集合中记录的各个IP地址所关联的定位点坐标集合; 聚类子单元,用于针对每个所述IP地址,对所述IP地址所关联的定位点坐标集合进行聚类分析,得到所对应的至少一个聚类,作为所述IP所分布的定位区域; 权重确定子单元,用于针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。13.根据权利要求12所述的装置,其特征在于,所述权重确定子单元包括: 泛化IP清除模块,用于将所分布的定位区域个数大于预设数量阈值或者定位区域中的定位点坐标与中心点坐标的距离平均值大于预设距离阈值的IP地址删除; 权重确定模块,用于针对剩余的每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。14.根据权利要求12所述的装置,其特征在于,所述权重确定子单元包括: 初始权重确定模块,用于根据所述IP地址所分布的各个定位区域中的定位点坐标的个数和范围,确定各个定位区域的初始权重; 网格化模块,用于将用户标识所关联的IP地址所分布的各个定位区域的中心点坐标作为用户标识对应的中心点坐标,对所述用户操作信息集合中记录的用户标识对应的中心点坐标根据地理布局进行网格化,生成至少两个网格; 频次获取模块,用于获取所述用户操作信息集合中记录的每个用户标识对应的在每个所述网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格与每个用户标识对应的频次,并获取每个网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格对应的总用户频次; 权重计算模块,用于基于所述频次,通过TF-1DF算法计算各个聚类的权重。15.根据权利要求11-14任一所述的装置,其特征在于,所述装置还包括: IP相似度计算单元,用于计算所述待匹配用户标识与各个其它用户标识之间的IP地址相似度;以及 所述匹配单元还用于根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识。16.根据权利要求15所述的装置,其特征在于,所述匹配单元包括: 特征信息获取子单元,用于获取所述待匹配用户标识和每个其它用户标识对应的特征信息,所述特征信息包括:所述待匹配用户标识和其它用户标识之间的IP地址相似度、定位信息相似度; 排序子单元,用于基于所述待匹配用户标识和各个其它用户标识对应的特征信息,通过预先训练的排序模型,获取待匹配用户标识和各个其它用户标识匹配的概率; 匹配子单元,用于确定对应的所述概率大于预定的阈值的其它用户标识与所述待匹配用户标识匹配。17.根据权利要求16所述的装置,其特征在于,所述用户操作信息集合中的用户操作数据信息还包括:终端型号信息、操作系统信息;以及 所述特征信息还包括以下信息中的至少一个:所述待匹配用户标识和其它用户标识之间的相同IP地址数量、对应的中心点坐标重合数量,所述待匹配用户标识和其它用户标识所关联的终端型号信息、操作系统信息。18.根据权利要求11-14任一所述的装置,其特征在于,所述用户操作信息集合中记录的用户标识包括第一用户标识和第二用户标识,所述待匹配用户标识和所述各个其它用户标识分别属于第一用户标识和第二用户标识。19.根据权利要求18所述的装置,其特征在于,所述装置还包括: 第一选取单元,用于在所述定位信息相似度获取单元获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度之后,按照与所述待匹配用户标识之间的定位信息相似度从大到小的顺序,在所述用户操作信息集合中记录的第二用户标识中依次选取预定数量个第二用户标识,得到候选第二用户标识集合;以及 所述匹配单元还用于根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识O20.根据权利要求19所述的装置,其特征在于,所述定位信息相似度获取单元还用于在所述匹配单元根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识之前,针对所述候选第二用户标识集合中的每个第二用户标识,获取所述第二用户标识与各个第一用户标识之间的定位信息相似度;以及 所述装置还包括: 第二选取单元,用于按照与所述第二用户标识之间的定位信息相似度从大到小的顺序依次选取预定数量个第一用户标识,得到候选第一用户标识集合; 候选过滤单元,用于在所述匹配单元根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识之前,在所述待匹配用户标识不在所述候选第一用户标识集合中时,将所述第二用户标识从所述候选第二用户标识集合中删除。
【专利摘要】本申请公开了用户标识匹配方法和装置。所述用户标识匹配方法的一【具体实施方式】包括:对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标;根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度;根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。该实施方式实现了准确可靠地对用户标识进行匹配。
【IPC分类】H04L29/12, H04L29/08
【公开号】CN105721629
【申请号】CN201610172168
【发明人】程允胜, 吴海山, 周景博
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年6月29日
【申请日】2016年3月24日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1