跨社交网络的账号关联方法及系统与流程

文档序号:16000949发布日期:2018-11-20 19:26阅读:493来源:国知局

本发明涉及互联网技术领域,具体涉及一种跨社交网络的账号关联方法。



背景技术:

网民用户普遍拥有多个不同社交网络平台的账号,甚至在同一平台中拥有多个账号。不同类型社交网络为用户提供不同种类的服务,例如用户会在新浪微博中关注热点事件,发表观点和评论,也会在豆瓣中发布关于书籍、影视方面的信息,还会在领英网站中发布关于个人职业、教育的相关数据等,每一个网民都会在社交网络平台中,透露出其个人的用户信息。

关于跨社交网络的多账号关联问题,前人进行了许多相关的研究,主要是基于以下三种不同角度的特征开展研究,分别是用户属性信息、用户关系信息、用户发布内容。

在以往的研究中,对于用户属性数据的特征抽取并不会将用户属性信息、用户关系信息以及用户发布内容全部抽取,普遍倾向于挑选出上述四种信息维度中的一种,但是在一个维度的信息属性中,一种特征抽取方法其实都只是在某一角度计算了两个用户的相似程度,如果将这种片面方式抽取出的特征运用在后续的机器学习等分析判定算法中,必然会导致效果不佳,使不同平台账号相关联不准确。



技术实现要素:

因此,本发明要解决的技术问题在于克服现有技术中不同平台账号相关联不准确所带来的缺陷。

为此,提供一种跨社交网络的账号关联方法,包括以下步骤,

分别获取不同社交网络平台处的账号以及每个账号对应的多维度属性信息;

将位于不同社交网络平台处两个账号的多维度属性信息分别进行多维度的相似性计算,并生成计算结果,计算结果为关联结果或不关联结果中的任意一个;

若计算结果为关联结果,则将位于不同社交网络平台处的两个账号关联;

若计算结果为不关联结果,则将位于不同社交网络平台处两个账号不关联。

进一步的,

所述多维度属性信息分别包括:

用户名属性信息、地理位置属性信息、个人描述属性信息、头像属性信息中的任意两个或多个。

进一步的,

所述的多维度属性信息至少包括第一维度属性信息及第二维度属性信息;

所述将位于不同社交网络平台处两个账号的多维度属性信息分别进行多维度的相似性计算,并生成计算结果的步骤还包括:

计算不同社交网络平台处两个账号的第一维度属性信息的相似度,生成第一指标;

计算不同社交网络平台处两个账号的第二维度属性信息的相似度,生成第二指标;

对第一指标及第二指标进行综合相似度计算并生成计算结果。

进一步的,

在所述若计算结果为不关联结果,则将位于不同社交网络平台处两个账号不关联的步骤后还包括在以下步骤:

获取结果为不关联结果的两个账号,以及根据若干维度属性信息计算过相似度后的若干指标;

将所有所述的指标进行修正计算并生成修正结果,如果修正的结果大于一阈值则将所述不关联的两个账号进行关联。

进一步的,

所述的修正计算包括:

所述指标存在k个,分别为X1,X2,……,Xk,在其中一个指标Xi下有n种不同的状态,即Xi=xi1,xi2,……,xin;每种状态的概率分布如公式1所示;

P(xij)=pij (j=1,2,……,n) (1)

评估指标Xi的信息熵如公式2所示;

通过信息熵确定的熵权与信息熵成反比,故Xi的熵权如公式3所示;

综合k个评估指标的熵权确定Xi的最终权重,如公式4所示;

两个账号在不同维度属性信息下共有n种相似度计算的指标,通过信息熵生成融合k个相似度计算指标结果的综合相似度计算方法如公式5所示;

Sim为修正结果;si表示在第i种相似度计算方法下的两个账号指标的值。

一种跨社交网络的账号关联系统,包括:

获取装置:用于分别获取不同社交网络平台处的账号以及每个账号对应的多维度属性信息;

计算装置,用于将位于不同社交网络平台处两个账号的多维度属性信息分别进行多维度的相似性计算,并生成计算结果,计算结果为关联结果或不关联结果中的任意一个;

输出装置:用于将若计算结果为关联结果,则将位于不同社交网络平台处的两个账号关联;

若计算结果为不关联结果,则将位于不同社交网络平台处两个账号不关联。

进一步的,

所述多维度属性信息分别包括:

用户名属性信息、地理位置属性信息、个人描述属性信息、头像属性信息中的任意两个或多个。

进一步的,

所述的多维度属性信息至少包括第一维度属性信息及第二维度属性信息;

所述计算装置还包括:

第一指标分类器:用于计算不同社交网络平台处两个账号的第一维度属性信息的相似度,生成第一指标;

第二指标分类器:用于计算不同社交网络平台处两个账号的第二维度属性信息的相似度,生成第二指标;

集成分类器:对第一指标及第二指标进行综合相似度计算并生成计算结果。

进一步的,

还包括修正装置,其包括:

修正获取单元:获取结果为不关联结果的两个账号,以及根据若干维度属性信息计算过相似度后的若干指标;

修正计算单元:将所有所述的指标进行修正计算并生成修正结果,如果修正的结果大于一阈值则将所述不关联的两个账号进行关联。

进一步的,

所述修正计算包括:

所述指标存在k个,分别为X1,X2,……,Xk,在其中一个指标Xi下有n种不同的状态,即Xi=xi1,xi2,……,xin;每种状态的概率分布如公式1所示;

P(xij)=pij (j=1,2,……,n) (1)

评估指标Xi的信息熵如公式2所示;

通过信息熵确定的熵权与信息熵成反比,故Xi的熵权如公式3所示;

综合k个评估指标的熵权确定Xi的最终权重,如公式4所示;

两个账号在不同维度属性信息下共有n种相似度计算的指标,通过信息熵生成融合k个相似度计算指标结果的综合相似度计算方法如公式5所示;

Sim为修正结果;si表示在第i种相似度计算方法下的两个账号指标的值。

本发明技术方案,具有如下优点:

1.本发明设计了基于关联同一自然人在不同社交网络平台账号的应用场景,设计了例如从用户名、地理位置、个人描述和头像等维度的相似度计算的特征获取及计算方法,提高了不同社交网络平台账号关联的准确率。

2.本发明中的分类器的效果高度依赖于训练样本的特性,不同的数据适合不同的分类器,为了尽量使多个不同维度的特征发挥出更好的分类效果,本方法及系统采取了基于不同的特征维度的分层级联的监督式机器学习模型(MHM)。

3.为了本发明及系统关联的准确率,本发明具有相应的修正计算方法,用于对计算结果进行修正计算,进而提高不同社交网络平台账号关联的准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为跨社交网络的账号关联方法的流程图;

图2为步骤S2包括的步骤的流程图;

图3为步骤S4后进行的步骤的流程图;

图4为跨社交网络的账号关联系统的结构示意图;

图5为计算装置的结构示意图;

图6a为用户名属性信息的分类器的模型效果图;

图6b为个人描述属性信息的分类器的模型效果图;

图6c为地理位置属性信息的分类器模型效果图;

图6d为头像属性信息的分类器模型效果图;

图7为集成学习分类器效果的示意图;

图8为综合分值结果统计直方图;

图9为信息熵的修正结果示意图;

图10为跨社交网络多账号关联方法对比实验结果示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

一种跨社交网络的账号关联方法,如图1所示其流程示意图,包括以下步骤,S1、分别获取不同社交网络平台处的账号以及每个账号对应的多维度属性信息,其中不同社交网络平台可以是微博、豆瓣、QQ、微信、陌陌、探探以及其他社交软件。其中多维度属性信息可以是用户名属性信息、地理位置属性信息、个人描述属性信息、头像属性信息中的任意两个或多个。

用户名属性信息包括用户的姓、名字等,地理位置属性信息包括家庭所在位置、学校所在位置等,个人描述属性信息包括年龄、性别、个性签名、爱好、出生年月日等,头像属性信息包括头像照片等。

S2、将位于不同社交网络平台处两个账号的多维度属性信息分别进行多维度的相似性计算,并生成计算结果,计算结果为关联结果或不关联结果中的任意一个,其中所述的多维度属性信息至少包括第一维度属性信息及第二维度属性信息。

在一个实施例中,上述将位于不同社交网络平台处两个账号的多维度属性信息分别进行多维度的相似性计算,并生成计算结果的步骤还包括如图2所示的步骤,包括:

A1、计算不同社交网络平台处两个账号的第一维度属性信息的相似度,生成第一指标;

A2、计算不同社交网络平台处两个账号的第二维度属性信息的相似度,生成第二指标;

A3、对第一指标及第二指标进行综合相似度计算并生成计算结果。

例如选取任意两个平台处的两个账号并进行多维度的相似度计算,如果第一维度属性信息及第二维度属性信息分别为户名属性信息、地理位置属性信息、个人描述属性信息、头像属性信息,则第一指标和第二指标则为计算户名属性信息相似度、地理位置属性信息相似度、个人描述属性信息相似度以及头像属性信息相似度的值。

首先对用户名属性信息进行调查及计算,用户名是社交网络用户相对最为普遍的基本属性数据,几乎所有社交网络平台都是以用户名来唯一标识一个用户。调查发现,约13.04%的受调查者表示在日常社交网络活动中仅使用一个用户名,大部分受调查者表示出于一些主观和客观的因素,他们会使用2个及以上用户名活跃于不同社交网络平台,但在这部分人中有89.17%会倾向于主要使用某一个用户名,所以通过用户名来发现不同社交网络平台中属于同一自然人的账号是有价值的。

用户在不同平台注册账号时,倾向于在同一个用户名的基础上进行一些微小的调整,例如替换,插入,删除,换位,缩写,添加特殊符号等,所以本发明采用以下5种用户名特征提取及相似度的指标计算方法:

1.Jaro-Winkler Distance相似度:Jaro-Winkler Distance是一种计算字符串之间相似度的计算方法,是Jaro Distance的扩展。Jaro-Winkler Distance在考虑了字符串匹配和换位的基础上,还为从起始部分相同的字符串赋予更高的相似度。

2.LCS相似度:寻找两个字符串中的最长公共子序列,然后利用两个源字符串的长度进行归一化处理,产生基于LCS的相似度。

3.Levenshtein Distance相似度:Levenshtein编辑距离表示从一个字符串转换成另一个字符串的最少编辑操作次数,两个字符串之间的Levenshtein编辑距离越小,则他们的相似度越高。

4.Jaccard相似度:是一种应用广泛的相似度计算方法,利用两个字符串之间交集和并集的比值,作为Jaccard相似度。

5.基于Simhash的Hamming distance相似度:通过Simhash将字符串转化为指定位数的hashcode,然后计算两个用户名字符串hashcode的Hamming distance,最后经过归一化生成相似度。

通过以上5种用户名特征提取及相似度的指标计算方法可计算出关于用户名属性信息的5个指标,记为N=(n1,n2,n3,n4,n5),其中N为用户名属性信息的维度,n1,n2,n3,n4,n5分别为Jaro-Winkler Distance相似度、LCS相似度、Levenshtein Distance相似度、Jaccard相似度及基于Simhash的Hamming distance相似度计算后的指标。

用户地理位置属性信息对于跨社交网络多账号关联方法,是一种非决定因素的用户属性数据,但是将其作为一种辅助因素输入判定模型中,对模型效果是有一定帮助的。本发明在用户位置特征提取时,选用用户个人发布的位置信息字符串作为处理对象,采用以下四种位置特征提取方法。

由于用户地理位置属性信息的字符串也是类似于用户名的词语文本,前三种特征提取方式也采用Jaro-Winkler Distance相似度、LCS相似度、Levenshtein Distance相似度来度量相似度。第四种为实际距离相似度,利用百度API将用户填写的位置信息字符串转化成经纬度,用户UiA的经纬度为(lati,lati),用户UjB的经纬度为(latj,latj),计算两个用户之间的实际距离如公式6所示,

经过归一化得出实际距离相似度,如公式7所示

其中R为地球半径,公式(3)中的分母πR表示地球上相距最远两点的球面距离。

通过以上4种用户地理位置属性信息提取及相似度的指标计算方法可计算出关于用户地理位置属性信息的4个指标,记为L=(l1,l2,l3,l4),其中L为用户地理位置属性信息的维度,l1,l2,l3,l4分别为Jaro-Winkler Distance相似度、LCS相似度、Levenshtein Distance相似度、Jaccard相似度及实际距离相似度计算后的指标。

社交网络平台中的个人描述属性信息通常包含用户的个性签名、自我介绍等此类文本,我们将其统称为个人描述,个人描述一般是一句短文本,用户可能在不同平台中发布类似甚至相同的个人描述,所以本发明采用以下三种个人描述属性信息提取方式。

1.基于Word2vec的余弦相似度:利用Word2vec训练词向量,直接将个人描述文本中去除停用词的所有词向量相加,得到个人描述短文的向量,然后使用余弦相似度计算个人描述文本的相似度。

2.基于TF-IDF的余弦相似度:通过TF-IDF计算个人描述文本的词频向量,然后计算词频向量的余弦相似度,即个人描述文本的相似度。

3.Word Mover's Distance相似度:在利用Word2vec生成词向量的基础上,考虑两个句子中词语和词语之间的关系,计算从一个句子转化成另一个句子的最小距离,反应两个句子的相似程度,此方法可以计算个人描述文本的相似度。

通过以上3种用户个人描述属性信息提取及相似度的指标计算方法可计算出关于个人描述属性信息的3个指标,记为D=(d1,d2,d3),其中D为用户名属性信息的维度,d1,d2,d3分别为Word2vec的余弦相似度、TF-IDF的余弦相似度及Word Mover's Distance相似度计算后的指标。

头像属性信息也基本是所有社交网络平台用户均拥有的属性信息,头像是否相同,是进行跨社交网络多账号关联十分重要的一项特征,但是由于不同社交网络平台对用户头像的要求不一样,所以呈现出的头像可能是经过拉伸、压缩、模糊、剪裁等操作之后的图片,为了检测出两张头像图片是否相同,需利用图片的相似度来进行量化。目前业界有许多图片相似度计算的需求,例如google和百度搜索引擎推出的以图搜图的功能,其核心功能就是计算输入图片与数据库中图片的相似度,然后进行排序推荐。本发明采用以下三种头像特征提取方式。

1.哈希相似度:相似图片的检索应用中广泛使用了哈希算法,该算法为图片生成哈希指纹,两个图片的相似度可以通过哈希指纹的相似度来衡量。感知哈希算法(pHash)、均值哈希算法(aHash)、差值哈希算法(dHash)是三种主要的图片哈希算法,分别使用这三种哈希算法计算头像的相似度。

2.SIFT相似度:SIFT是图片的一种局部性特征,对同一图片的旋转、亮度变化有很强的稳定性,通过SIFT特征计算两张头像图片的匹配点数量来表示头像的相似度。

3.直方图统计相似度:由于用户头像一般情况下都是彩色图片,所以采用颜色直方图方式来计算两张头像图片的统计特征,然后用巴氏距离来计算头像的相似度。

通过以上3种头像属性信息提取及相似度的指标计算方法可计算出关于头像属性信息的5个指标,记为B=(b1,b2,b3,b4,b5),其中B为头像属性信息的维度,b1,b2,b3为哈希相似度(感知哈希算法pHash、均值哈希算法aHash、差值哈希算法dHash)、b4为SIFT相似度、b5为直方图统计相似度计算后的指标。

A3、对第一指标及第二指标进行综合相似度计算并生成计算结果的步骤为,将上述用户名属性信息N的指标:N=(n1,n2,n3,n4,n5)、地理位置属性信息L的指标:L=(l1,l2,l3,l4)、个人描述属性信息D的指标:D=(d1,d2,d3)、头像属性信息B的指标:B=(b1,b2,b3,b4,b5)进行归一化处理,其中每个指标的的取值范围分别为[0,1]。例如存在两个不同的社交网络平台,分别为SA和SB,需要进行判定是否属于同一自然人的用户分别为UiA和UjB,其中UiA是平台SA中的第i个用户,UjB是平台SB中的第j个用户。每个用户Un都有各自的属性数据Q(Un)=[q1,q2,q3……qm],qm表示在属性信息m下用户Un的指标,例如用户名、地理位置、自我描述、头像等。

为了判断用户UiA和UjB是否属于同一自然人,本发明的计算结果可以看作是将其转化为分类问题,分类功能函数为f,若判断用户UiA和UjB为同一自然人的账号,则分类结果为1,若判断用户UiA和UjB不是同一自然人的账号,则分类结果为-1,跨社交网络多账号关联模型结果如公式8所示:

S3、若计算结果为关联结果,则将位于不同社交网络平台处的两个账号关联,如果计算结果为关联结果则此时的计算结果为1,则此时上述两个账号为同一自然人的账号。

S4、若计算结果为不关联结果,则将位于不同社交网络平台处两个账号不关联。如果计算结果为不关联结果则此时的计算结果为-1,则此时上述两个账号不是同一自然人的账号,不将两个账号相关联。

在一个实施例中,在所述若计算结果为不关联结果,则将位于不同社交网络平台处两个账号不关联的步骤后还包括如图3所示的步骤:

X1、获取结果为不关联结果的两个账号,以及根据若干维度属性信息计算过相似度后的若干指标,其中上述的若干指标分别为用户名属性信息N的指标:N=(n1,n2,n3,n4,n5)、地理位置属性信息L的指标:L=(l1,l2,l3,l4)、个人描述属性信息D的指标:D=(d1,d2,d3)、头像属性信息B的指标:B=(b1,b2,b3,b4,b5)。

X2、将所有所述的指标进行修正计算并生成修正结果,如果修正的结果大于一阈值则将所述不关联的两个账号进行关联,其中阈值可以是一个预先设置的定值,并且该定值可调。

在一个实施例中,修正计算包括:

所述指标存在k个,分别为X1,X2,……,Xk,在其中一个指标Xi下有n种不同的状态,即Xi=xi1,xi2,……,xin;每种状态的概率分布如公式1所示;

P(xij)=pij (j=1,2,……,n) (1)

评估指标Xi的信息熵如公式2所示;

通过信息熵确定的熵权与信息熵成反比,故Xi的熵权如公式3所示;

综合k个评估指标的熵权确定Xi的最终权重,如公式4所示;

两个账号在不同维度属性信息下共有n种相似度计算的指标,通过信息熵生成融合k个相似度计算指标结果的综合相似度计算方法如公式5所示;

Sim为修正结果;si表示在第i种相似度计算方法下的两个账号指标的值。

当Sim大于阈值时,则对计算结果进行修正,将原本的计算结果-1修正为1,此时具有修正后相似度为1的结果的两个账号相关联。

一种跨社交网络的账号关联系统,如图4所示其结构示意图,包括:

获取装置:用于分别获取不同社交网络平台处的账号以及每个账号对应的多维度属性信息;

计算装置,用于将位于不同社交网络平台处两个账号的多维度属性信息分别进行多维度的相似性计算,并生成计算结果,计算结果为关联结果或不关联结果中的任意一个;

输出装置:用于将若计算结果为关联结果,则将位于不同社交网络平台处的两个账号关联;

若计算结果为不关联结果,则将位于不同社交网络平台处两个账号不关联。

在一个实施例中,多维度属性信息分别包括:

用户名属性信息、地理位置属性信息、个人描述属性信息、头像属性信息中的任意两个或多个。

在一个实施例中,多维度属性信息至少包括第一维度属性信息及第二维度属性信息;

如图5所示计算装置的结构示意图,所述计算装置还包括:

第一指标分类器:用于计算不同社交网络平台处两个账号的第一维度属性信息的相似度,生成第一指标;

第二指标分类器:用于计算不同社交网络平台处两个账号的第二维度属性信息的相似度,生成第二指标;

集成分类器:对第一指标及第二指标进行综合相似度计算并生成计算结果。

其中分类器的效果高度依赖于训练样本的特性,不同的数据适合不同的分类器,为了尽量使上述根据用户名属性信息、地理位置属性信息、个人描述属性信息、头像属性信息等维度发挥出更好的分类效果,本发明设计了分层级联的监督式机器学习模型MHM(Multidimensional Hierarchy Model)。

该模型可以是分为两层,其中模型第一层是在各自维度设置了多种常用基础分类器进行训练和测试,选择效果最好的分类器作为该维度的最佳分类器,即在众多分类器中确定最优的第一指标分类器、第二指标分类器、用于计算用户名属性信息的分类器、用于计算地理位置属性信息的分类器、用于计算个人描述属性信息的分类器、用于计算头像属性信息的分类器。

其中模型第二层的作用是通过集成学习综合第一层的最佳分类器结果,利用第一层中各维度最佳分类器的分类结果的指标作为集成分类器的输入,训练模型第二层。在模型的第一层和第二层之间,参考了传统集成学习的Stacking方法,传统Stacking方法利用训练集训练分类器,同时又用训练集进行预测产生下一层模型的输入,为这样必然导致在训练集上的过拟合问题,为了解决这一问题,本发明采用k折交叉验证的方式来得到下一层模型的输入。k折交叉验证就是将训练集分成k份,每次将其中的1份数据作为测试集,另外的k-1份数据作为训练集,利用对应的训练集和测试集分别对模型进行k次训练和预测,将k份预测结果按照顺序拼接起来,就生成了完整的第二层模型的训练集。

在一个实施例中,还包括修正装置,其包括:

修正获取单元:获取结果为不关联结果的两个账号,以及根据若干维度属性信息计算过相似度后的若干指标;

修正计算单元:将所有所述的指标进行修正计算并生成修正结果,如果修正的结果大于一阈值则将所述不关联的两个账号进行关联。

在一个实施例中,所述修正计算包括:

所述指标存在k个,分别为X1,X2,……,Xk,在其中一个指标Xi下有n种不同的状态,即Xi=xi1,xi2,……,xin;每种状态的概率分布如公式1所示;

P(xij)=pij (j=1,2,……,n) (1)

评估指标Xi的信息熵如公式2所示;

通过信息熵确定的熵权与信息熵成反比,故Xi的熵权如公式3所示;

综合k个评估指标的熵权确定Xi的最终权重,如公式4所示;

两个账号在不同维度属性信息下共有n种相似度计算的指标,通过信息熵生成融合k个相似度计算指标结果的综合相似度计算方法如公式5所示;

Sim为修正结果;si表示在第i种相似度计算方法下的两个账号指标的值。

本发明采用标准的评估参数进行效果评估,包括准确率(Precision)、召回率(Recall)、F1值和正确率(Accuracy),分别表示为P、R、F1、Acc,计算方法如公式9、10、11、12。

其中。tp表示正确预测为正样本的数量,fp表示错误预测为正样本的数量,tn表示正确预测为负样本的数量,fn表示错误预测为负样本的数量。利用python的机器学习模块sklearn进行效果评估,其中model_selection模块的cross_val_score函数可通过交叉验证法计算出Precision、Recall、F1、Accuracy。

在第一层最佳分类器的选择过程中,为了选择适合不同维度特征的最佳分类器,在实验中我们使用了以下9种机器学习的模型,包括决策树(DT)、逻辑回归(LR)、支持向量机(SVM)、K-近邻(KNN)、朴素贝叶斯(NB)、随机森林(RF)、极端随机树(ET)、Gradient Boost(GraB)、Adaboost。

在四个特征维度分别使用9种机器学习模型进行训练和预测,对用于计算用户名属性信息的分类器、用于计算地理位置属性信息的分类器、用于计算个人描述属性信息的分类器、用于计算头像属性信息的分类器的模型效果进行评估。用户名属性信息的分类器的模型效果如图6a所示、个人描述属性信息的分类器的模型效果如图6b所示、地理位置属性信息的分类器模型效果如图6c所示、头像属性信息的分类器的模型效果如图6d所示。

从图6中分析可知,不同维度特征下,不同机器学习模型效果有明显差异,不存在任何一种分类器在四个维度特征下均效果最佳,基于评估指标综合考虑选择各维度的最佳分类器。用户名属性信息的分类器选择为逻辑回归算法,个人描述属性信息的分类器选择为随机森林算法,地理位置属性信息的分类器选择为Gradient Boost算法,头像属性信息的分类器选择为K-近邻算法。

为验证本发明设计的层次级联机器学习模型(MHM)的有效性,将模型第一层中属性信息的维度下选择的最佳分类器与第二层集成学习分类器的结果进行对比。

在第二层集成学习分类器中,在每个属性信息的维度特征的最佳分类器下,使用5折交叉验证的方式将训练集切分,然后进行5次训练,对每次的切分出的预测集预测标签结果为1的概率,也就是账号对属于同一自然人的概率,然后将5次预测的结果按照顺序拼接,综合四个维度的预测结果,作为集成学习分类器的训练集特征,训练集的标签与原始标签一样。经过对比,集成学习分类器选择为逻辑回归算法时效果最佳。

为证明融合不同维度最佳分类器的集成学习分类器的有效性,所以对比了单一维度特征最佳分类器的效果。同时为验证每个维度特征对集成学习分类器的最终效果是否有帮助,也设置了在缺少任意某一维度特征下的集成学习分类器效果验证实验。实验结果如7所示。

在如7所示的实验结果可以知,本发明提出的MHM方法在召回率、F1值和正确率上均达到了最好的效果,但准确率并不是最高的,原因是基于用户名、地理位置、个人描述、用户头像的某一个维度或某几个维度进行多账号关联时,如果判定出某一账号对是属于同一个自然人,则很大程度判断结果都是正确的,但是仅基于某一个或某几个维度特征很难将所有属于同一自然人的账号都寻找出来。所以本发明的MHM方法准确率虽然不是最高的,但召回率远高于其他方法,且F1值和正确率也在对比实验中表现最佳,证明本发明提出的MHM方法效果是最好的。

在如7所示的结果中,相比用户名最佳分类器Cname、地理位置最佳分类器Cloc、个人描述最佳分类器Cdes、头像最佳分类器Cavatar,通过集成学习融合后的分类器MHM效果有明显提高,证明通过集成学习融合不同维度特征是有意义的。

当缺少某一维度特征进行集成学习时,产生集成学习分类器

Cname+loc+des、Cname+loc+avatar、Cname+des+avatar、Cloc+des+avatar,从综合评估指标F1值和正确率角度而言,效果均不如综合四个维度特征的集成分类器MHM,证明每个维度的最佳分类器均对集成分类器MHM的效果提高有贡献,所以综合四个维度特征建立层次级联机器学习模型是有意义的。

在本发明中,计算两个账号在上述不同的指标的相似度,其中包括用户名属性信息N的指标:N=(n1,n2,n3,n4,n5)、地理位置属性信息L的指标:L=(l1,l2,l3,l4)、个人描述属性信息D的指标:D=(d1,d2,d3)、头像属性信息B的指标:B=(b1,b2,b3,b4,b5)的相似度,相似度取值范围在[0,1]之间,每一个账号对都有17个相似度的值。利用公式4计算17个相似度计算指标的权重,利用公式5生成基于信息熵的修正结果的计算方法,其中修正结果可以是综合相似度。

通过综合相似度计算方法每个指标的综合相似度分值,生成正样本和负样本的综合分值结果统计直方图,为选择最佳阈值提供依据,如图8所示。

如图8的综合相似度分布规律可知,当阈值选择为0.5时,其中综合相似度为修正结果,修正结果超过0.5的数据基本都是正样本,此时将计算结果结果修正为1可能会提高多账号关联方法的准确性。利用上述阈值对计算结果结果进行修正,实验结果如图9,修正后的结果各项指标均相对修改前有提高,证明基于信息熵的无监督式结果修正模块能提高多账号关联的准确性。

将发明的处理方法与当前其他常用方法进行对比实验,Alias-Disamb方法结合了用户头像、地理位置、个人签名信息,分别使用缩减像素采样、Google Map API查找位置、Jensen-Shannon距离来提取特征,利用SVM分类器进行分类器训练。Vosecky方法将计算不同维度用户属性信息的相似度,通过主观赋权法给不同维度属性赋予权重。HYDRA方法在用户属性维度通过大量数据训练,计算出不同维度的属性信息对多账号关联任务的重要性,通过计数和归一化的方式赋予相应的权重。IE-MSNUIA方法利用信息熵给各属性特征赋予不同的权重。后三种方法均使用不同的赋权法来生成综合相似度,并和预定义的阈值进行对比,若高于阈值则认为两个账号属于同一自然人,其中对比实验结果如图10所示。

在图10中,本发明提出的基于用户属性的跨社交网络多账号关联方法(MHM+Correaction)在召回率、F1值和正确率上达到最高水平,但是其中IE-MSNUIA方法的准确率比本方法高,原因是IE-MSNUIA方法是基于综合属性相似度进行阈值型的判断方法,当阈值足够高时,可以大概率保证判定出的属于同一个人的账号对是真实属于同一自然人的,但该方法无法全面地识别出所有属于同一自然人的账号,所以会产生准确率较高,但召回率很低的情况。在图10的实验结果证实了上述分析。Alias-Disamb方法代表单一的特征抽取方式和传统的机器学习算法,在本实验中结果表现一般。所以可以得出结论,本发明提出的基于用户属性信息的跨社交网络多账号关联方法在实际用户数据上测试效果最好。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1