用户相似度获得方法和装置、设备、存储介质与流程

文档序号:15386095发布日期:2018-09-08 00:35阅读:138来源:国知局

本发明涉及计算机技术领域,尤其涉及一种用户相似度获得方法和装置、设备、存储介质。



背景技术:

在电信运营商运营过程中,当某个用户使用的通信号码发生变化时,常常需要将该用户的新旧号码的相关记录进行合并,那么如何识别两个号码是否归属于同一用户,即如何判断某新入网用户与某旧入网用户是否为同一用户,成为了电信运营过程中的核心技术问题。

在现有技术中,通常都是通过计算两个用户之间的相似度来判断这两个用户是否为同一用户的。具体地,每当检测到某一新入网用户出现时,自动计算通信网络中的所有旧入网用户与该新入网用户之间的用户相似度,并在检测到计算获得的用户相似度中存在大于预设阈值的用户相似度时,认为该通信网络中存在与该新入网用户相似的旧入网用户,因此判定该新入网用户为重入网用户;随后,判定其中用户相似度最大的旧入网用户与该新入网用户为同一用户,并将二者对应的相关记录合并。现有的计算新入网用户与旧入网用户之间的用户相似度的方法通常都是通过计算用户通信记录的相似度来获得的,用户相似度的获得依据单一,准确度不高。



技术实现要素:

本发明实施例提出一种基于用户关系圈的用户相似度获得方法和装置,能够提高获得的用户相似度的准确度。

本发明实施例提供的一种基于用户关系圈的用户相似度获得方法,具体包括:

获得第一用户关系圈和第二用户关系圈;

根据所述第一用户关系圈和所述第二用户关系圈,获得关系圈差异确定度;

根据所述第一用户关系圈、所述第二用户关系圈和所述关系圈差异确定度,获得第一用户与第二用户之间的用户相似度。

进一步地,所述第一用户关系圈中包含所述第一用户的至少一个第一相邻用户;所述第二用户关系圈中包含所述第二用户的至少一个第二相邻用户。

进一步地,所述获得第一用户关系圈和第二用户关系圈,具体包括:

获得所述第一用户关系圈;

获得所述第一用户关系圈中的每个第一相邻用户对应的第三用户关系圈;其中,每个所述第三用户关系圈中包含对应的第一相邻用户的至少一个第三相邻用户;

将任意一个所述第三相邻用户设置为所述第二用户,并将所述第二用户对应的用户关系圈设置为所述第二用户关系圈。

进一步地,所述根据所述第一用户关系圈和所述第二用户关系圈,获得关系圈差异确定度,具体包括:

获得由所有所述第一相邻用户和所有所述第二相邻用户组成的相邻用户集合i;

根据每个所述第一相邻用户、每个所述第二相邻用户和预设的差异确定度计算模型计算获得所述关系圈差异确定度cer(u,v);其中,u表示所述第一用户;v表示所述第二用户;ru,i表示所述第一用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rv,i表示所述第二用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rp表示大于权重均值的权重集合;rn表示小于所述权重均值的权重集合;所述权重均值为所述第一用户与所述相邻用户集合i中的每个相邻用户之间的权重的平均值。

进一步地,所述根据所述第一用户关系圈、所述第二用户关系圈和所述关系圈差异确定度,获得第一用户与第二用户之间的用户相似度,具体包括:

根据每个所述第一相邻用户、每个所述第二相邻用户和预设的关系圈相似度计算模型计算获得关系圈相似度rc;其中,u表示所述第一用户;v表示所述第二用户;ru,i表示所述第一用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rv,i表示所述第二用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rp表示大于权重均值的权重集合;rn表示小于所述权重均值的权重集合;所述权重均值为所述第一用户与所述相邻用户集合i中的每个相邻用户之间的权重的平均值;

根据所述关系圈相似度rc和所述关系圈差异确定度,获得所述用户相似度。

进一步地,所述根据所述关系圈相似度rc和所述关系圈差异确定度,获得所述用户相似度,具体包括:

根据所述关系圈相似度rc、所述关系圈差异确定度cer(u,v)和预设的用户相似度计算模型sim(u,v)=rc*cer(u,v),计算获得所述用户相似度sim(u,v)。

进一步地,在所述根据所述第一用户关系圈、所述第二用户关系圈和所述关系圈差异确定度,获得第一用户与第二用户之间的用户相似度之后,还包括:

判断所述用户相似度是否大于预设阈值;

若是,则判定所述第一用户与所述第二用户为同一用户;

若否,则判定所述第一用户与所述第二用户不为同一用户。

相应地,本发明实施例还提供了一种基于用户关系圈的用户相似度获得装置,具体包括:

用户关系圈获得模块,用于获得第一用户关系圈和第二用户关系圈;

关系圈差异确定度获得模块,用于根据所述第一用户关系圈和所述第二用户关系圈,获得关系圈差异确定度;以及,

用户相似度获得模块,用于根据所述第一用户关系圈、所述第二用户关系圈和所述关系圈差异确定度,获得第一用户与第二用户之间的用户相似度。

本发明实施例还提供了一种设备,具体包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于用户关系圈的用户相似度获得方法。

本发明实施例还提供了一种计算机可读存储介质,具体包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的基于用户关系圈的用户相似度获得方法。

实施本发明实施例,具有如下有益效果:

本发明实施例提供的基于用户关系圈的用户相似度获得方法和装置、设备、存储介质,通过计算第一用户关系圈和第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度,使得计算获得的用户相似度与现实情况符合度高,另外,通过在计算用户相似度的过程中引入关系圈差异确定度,能够使得用户相似度的获得依据多元化,从而提高获得的用户相似度的准确度。

附图说明

图1是本发明提供的基于用户关系圈的用户相似度获得方法的一个优选的实施例的流程示意图;

图2是本发明提供的基于用户关系圈的用户相似度获得装置的一个优选的实施例的结构示意图;

图3是本发明提供的设备的一个优选的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,为本发明提供的基于用户关系圈的用户相似度获得方法的一个优选的实施例的流程示意图,包括步骤s11至s13,具体如下:

s11:获得第一用户关系圈和第二用户关系圈。

需要说明的是,本发明实施例由系统执行。其中,该系统可以为电信运营商服务器中的系统。

电信运营商在各处设置若干基站,系统通过获取用户的通信数据,并对这些通信数据进行分析,从而获得用户的关系圈。具体地,系统对第一用户进行实时监测,获取第一用户微信、短信、qq等通信数据,通过对这些通信数据进行分析,获得由第一用户的好友组成的用户关系圈。与此同理,可以获得第二用户的用户关系圈。

进一步地,所述第一用户关系圈中包含所述第一用户的至少一个第一相邻用户;所述第二用户关系圈中包含所述第二用户的至少一个第二相邻用户。

需要说明的是,上述第一相邻用户指的是第一用户关系圈中的除第一用户外的其它用户,即指的是该第一用户的好友。同理,上述第二相邻用户指的是第二用户关系圈中的除第二用户外的其它用户,即指的是该第二用户的好友。

s12:根据所述第一用户关系圈和所述第二用户关系圈,获得关系圈差异确定度。

需要说明的是,上述关系圈差异确定度指的是上述第一用户关系圈与上述第二用户关系圈之间的差异确定程度。

s13:根据所述第一用户关系圈、所述第二用户关系圈和所述关系圈差异确定度,获得第一用户与第二用户之间的用户相似度。

需要说明的是,在本实施例中,通过结合关系圈差异确定度,计算第一用户关系圈与第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度。

本实施例通过计算第一用户关系圈和第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度,使得计算获得的用户相似度与现实情况符合度高,另外,通过在计算用户相似度的过程中引入关系圈差异确定度,能够使得用户相似度的获得依据多元化,从而提高获得的用户相似度的准确度。

在另一个优选的实施例中,上述步骤s11进一步包括步骤s1101至s1103,具体如下:

s1101:获得所述第一用户关系圈。

s1102:获得所述第一用户关系圈中的每个第一相邻用户对应的第三用户关系圈;其中,每个所述第三用户关系圈中包含对应的第一相邻用户的至少一个第三相邻用户。

s1103:将任意一个所述第三相邻用户设置为所述第二用户,并将所述第二用户对应的用户关系圈设置为所述第二用户关系圈。

需要说明的是,上述第一相邻用户为上述第一用户的好友,上述第三相邻用户为第一相邻用户的好友,则上述第二用户为上述第一用户的好友的好友。在本实施例中,通过比较第一用户的用户关系圈与该第一用户的好友的好友的用户关系圈,从而判断该第一用户与该第一用户的好友的好友之间的相似度。

例如,第一用户u对应的第一用户关系圈中包含第一相邻用户z和f,则分别获得该第一相邻用户z对应的第三用户关系圈和该第一相邻用户f对应的第三用户关系圈。假设该第一相邻用户z对应的第三用户关系圈中包含第三相邻用户h’、l’、k’和j’,该第一相邻用户f对应的第三用户关系圈中包含第三相邻用户x’、m’、y’和n’,则依次将这些第三相邻用户h’、l’、k’、j’、x’、m’、y’和n’分别作为第二用户v,并获得该第二用户v对应的第二用户关系圈。随后,通过计算上述第一用户关系圈和该第二用户关系圈之间的相似度,从而获得第一用户u和第二用户v之间的用户相似度。

在又一个优选的实施例中,上述步骤s12进一步包括步骤s1201至s1202,具体如下:

s1201:获得由所有所述第一相邻用户和所有所述第二相邻用户组成的相邻用户集合i。

s1202:根据每个所述第一相邻用户、每个所述第二相邻用户和预设的差异确定度计算模型计算获得所述关系圈差异确定度cer(u,v);其中,u表示所述第一用户;v表示所述第二用户;ru,i表示所述第一用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rv,i表示所述第二用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rp表示大于权重均值的权重集合;rn表示小于所述权重均值的权重集合;所述权重均值为所述第一用户与所述相邻用户集合i中的每个相邻用户之间的权重的平均值。

需要说明的是,在本实施例中,两个用户之间的权重可以采用两个用户之间的关系的紧密程度表示。为由上述相邻用户集合i中与第一用户u和第二用户v的关系强弱相反的相邻用户组成的集合;为由上述相邻用户集合i中与第一用户u和第二用户v的关系强弱相同的相邻用户组成的集合;iu为上述相邻用户集合i中与第一用户u相关的相邻用户的集合。因此,当上述关系圈差异确定度越大时,表示上述第一用户与上述第二用户的共同好友越多,第一用户与第二用户越相似。当与iu一致时,上述关系圈差异确定度达到最大值,即cer(u,v)=1。

在又一个优选的实施例中,上述步骤s13进一步包括步骤s1301至s1302,具体如下:

s1301:根据每个所述第一相邻用户、每个所述第二相邻用户和预设的关系圈相似度计算模型计算获得关系圈相似度rc;其中,u表示所述第一用户;v表示所述第二用户;ru,i表示所述第一用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rv,i表示所述第二用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rp表示大于权重均值的权重集合;rn表示小于所述权重均值的权重集合;所述权重均值为所述第一用户与所述相邻用户集合i中的每个相邻用户之间的权重的平均值。

需要说明的是,为由上述相邻用户集合i中与第一用户u和第二用户v的关系强弱相反的相邻用户组成的集合;为由上述相邻用户集合i中与第一用户u和第二用户v的关系强弱相同的相邻用户组成的集合;iu为上述相邻用户集合i中与第一用户u相关的相邻用户的集合。因此,当上述关系圈差异确定度越大时,表示上述第一用户与上述第二用户的共同好友越多,第一用户与第二用户越相似。当与iu一致时,上述关系圈差异确定度达到最大值,即cer(u,v)=1。

s1302:根据所述关系圈相似度rc和所述关系圈差异确定度,获得所述用户相似度。

进一步地,上述步骤s1302进一步包括步骤s1302_1,具体如下:

s1302_1:根据所述关系圈相似度rc、所述关系圈差异确定度cer(u,v)和预设的用户相似度计算模型sim(u,v)=rc*cer(u,v),计算获得所述用户相似度sim(u,v)。

在又一个优选的实施例中,在上述步骤s13之后,还包括步骤s14至s16,具体如下:

s14:判断所述用户相似度是否大于预设阈值,若是,则跳转至s15,若否,则跳转至s16。

s15:判定所述第一用户与所述第二用户为同一用户。

s16:判定所述第一用户与所述第二用户不为同一用户。

需要说明的是,在本实施例中,通过计算第一用户关系圈和第二用户关系圈之间的相似度来判断第一用户与第二用户之间的相似度,从而可以在电信运营过程中,对新入网的用户是否为重入网用户进行判断。例如,假设某用户甲之前使用的号码是159********,并在使用2个月后停用了该号码,2个月后,某用户乙在同一个电信运营商开通了一个新号186********。此时,电信运营商通过对该用户甲和用户乙的通信数据进行分析,从而分别获得该用户甲的用户关系圈和该用户乙的用户关系圈,随后,通过计算该用户甲的用户关系圈与该用户乙的用户关系圈之间的相似度,从而获得该用户甲与该用户乙之间的用户相似度,若该用户相似度大于某一预设阈值,则可以认为该用户甲与该用户乙为同一个人,则判定该用户乙则为重入网用户;若该用户相似度小于或者等于某一预设阈值,则认为该用户甲与该用户乙不是同一个人,则判定该用户乙则为新入网用户。在本实施例中,由于根据上述实施例获得的用户相似度的准确度高,因此能够提高对重入网用户的判断的准确度。

需要进一步说明的是,上述步骤标号仅用于表示不同步骤,而不对各步骤之间的执行顺序进行限定。

本发明实施例提供的基于用户关系圈的用户相似度获得方法,通过计算第一用户关系圈和第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度,使得计算获得的用户相似度与现实情况符合度高,另外,通过在计算用户相似度的过程中引入关系圈差异确定度,能够使得用户相似度的获得依据多元化,从而提高获得的用户相似度的准确度。

相应地,本发明还提供一种基于用户关系圈的用户相似度获得装置,能够实现上述实施例中的基于用户关系圈的用户相似度获得方法的所有流程。

如图2所示,为本发明提供的基于用户关系圈的用户相似度获得装置的一个优选的实施例的结构示意图,具体如下:

用户关系圈获得模块21,用于获得第一用户关系圈和第二用户关系圈;

关系圈差异确定度获得模块22,用于根据所述第一用户关系圈和所述第二用户关系圈,获得关系圈差异确定度;以及,

用户相似度获得模块23,用于根据所述第一用户关系圈、所述第二用户关系圈和所述关系圈差异确定度,获得第一用户与第二用户之间的用户相似度。

进一步地,所述第一用户关系圈中包含所述第一用户的至少一个第一相邻用户;所述第二用户关系圈中包含所述第二用户的至少一个第二相邻用户。

进一步地,所述用户关系圈获得模块,具体包括:

第一用户关系圈获得单元,用于获得所述第一用户关系圈;

第三用户关系圈获得单元,用于获得所述第一用户关系圈中的每个第一相邻用户对应的第三用户关系圈;其中,每个所述第三用户关系圈中包含对应的第一相邻用户的至少一个第三相邻用户;以及,

第二用户关系圈获得单元,用于将任意一个所述第三相邻用户设置为所述第二用户,并将所述第二用户对应的用户关系圈设置为所述第二用户关系圈。

进一步地,所述关系圈差异确定度获得模块,具体包括:

相邻用户集合获得单元,用于获得由所有所述第一相邻用户和所有所述第二相邻用户组成的相邻用户集合i;以及,

关系圈差异确定度获得单元,用于根据每个所述第一相邻用户、每个所述第二相邻用户和预设的差异确定度计算模型计算获得所述关系圈差异确定度cer(u,v);其中,u表示所述第一用户;v表示所述第二用户;ru,i表示所述第一用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rv,i表示所述第二用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rp表示大于权重均值的权重集合;rn表示小于所述权重均值的权重集合;所述权重均值为所述第一用户与所述相邻用户集合i中的每个相邻用户之间的权重的平均值。

进一步地,所述用户相似度获得模块,具体包括:

关系圈相似度计算单元,用于根据每个所述第一相邻用户、每个所述第二相邻用户和预设的关系圈相似度计算模型计算获得关系圈相似度rc;其中,u表示所述第一用户;v表示所述第二用户;ru,i表示所述第一用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rv,i表示所述第二用户与所述相邻用户集合i中的第i个相邻用户之间的权重;rp表示大于权重均值的权重集合;rn表示小于所述权重均值的权重集合;所述权重均值为所述第一用户与所述相邻用户集合i中的每个相邻用户之间的权重的平均值;以及,

用户相似度获得单元,用于根据所述关系圈相似度rc和所述关系圈差异确定度,获得所述用户相似度。

进一步地,所述用户相似度获得单元,具体包括;

用户相似度计算子单元,用于根据所述关系圈相似度rc、所述关系圈差异确定度cer(u,v)和预设的用户相似度计算模型sim(u,v)=rc*cer(u,v),计算获得所述用户相似度sim(u,v)。

进一步地,所述基于用户关系圈的用户相似度获得装置,还包括:

用户相似度判断模块,用于判断所述用户相似度是否大于预设阈值;以及,

第一处理模块,用于当判定所述用户相似度大于预设阈值时,判定所述第一用户与所述第二用户为同一用户;或者,

第二处理模块,用于当判定所述用户相似度不大于预设阈值时,判定判定所述第一用户与所述第二用户不为同一用户。

本发明实施例提供的基于用户关系圈的用户相似度获得装置,通过计算第一用户关系圈和第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度,使得计算获得的用户相似度与现实情况符合度高,另外,通过在计算用户相似度的过程中引入关系圈差异确定度,能够使得用户相似度的获得依据多元化,从而提高获得的用户相似度的准确度。

本发明还提供了一种设备。

如图3所示,为本发明提供的设备的一个优选的实施例的结构示意图,包括处理器31、存储器32以及存储在所述存储器32中且被配置为由所述处理器31执行的计算机程序,所述处理器31执行所述计算机程序时实现如上任一实施例所述的基于用户关系圈的用户相似度获得方法。

需要说明的是,图3仅以该设备中的一个存储器和一个处理器相连接为例进行示意,在一些具体的实施例中,该设备中还可以包括多个存储器和/或多个处理器,其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。

本发明实施例提供的设备,通过计算第一用户关系圈和第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度,使得计算获得的用户相似度与现实情况符合度高,另外,通过在计算用户相似度的过程中引入关系圈差异确定度,能够使得用户相似度的获得依据多元化,从而提高获得的用户相似度的准确度。

本发明还提供了一种计算机可读存储介质,具体包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的基于用户关系圈的用户相似度获得方法。

需要说明的是,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

本发明实施例提供的计算机可读存储介质,通过计算第一用户关系圈和第二用户关系圈之间的相似度,从而获得第一用户与第二用户之间的用户相似度,使得计算获得的用户相似度与现实情况符合度高,另外,通过在计算用户相似度的过程中引入关系圈差异确定度,能够使得用户相似度的获得依据多元化,从而提高获得的用户相似度的准确度。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1