一种社交网站账号相似度的综合数据挖掘方法

文档序号:8922634阅读:955来源:国知局
一种社交网站账号相似度的综合数据挖掘方法
【技术领域】
[0001] 本发明属于计算机互联网数据挖掘技术,用于计算机互联网数据传播控制,特别 是一种社交网站账号相似度的综合数据挖掘方法。
【背景技术】
[0002] 以微博为代表的社交网站的兴起,极大增加了互联网信息传播的速度和广度。社 交网站用户之间通过"互粉"、转发、评论等操作使得信息能够在极短的时间内在社交 网上大规模扩散。这种短时间、大范围的信息传播既给用户获取信息带来了极大的便利,但 是也带来了网络谣言泛滥的严重问题。
[0003] 为了应对网络谣言泛滥的问题,舆情监控是社交网站管理不可缺少的环节。舆情 监控包括两方面内容:一是内容的识别,二是传播的控制。为了实现传播控制,管理者可以 通过采取禁言、封停社交网站账号等方式来避免谣言的扩散,但是谣言传播者也可以通过 注册多个社交网站账号来逃避管理者的监管。同时,谣言传播者也可以通过注册多个社交 网站账号的方式进一步加快谣言传播的速度,扩大谣言传播的范围。因此,识别同一用户注 册的多个社交网站账号是社交网站舆情监控中必须解决的关键技术问题。
[0004] 识别同一用户注册的多个社交网站账号实际上是社交网站账号间的相似度分析。 现有的社交网站数据挖掘方法无法直接运用于社交网站账号相似度分析,主要有两方面原 因:1)由于现有数据挖掘方法主要用于用户关系分析,社交关系的紧密程度并不等同于用 户社交网站账号间的相似程度;2)社交网站账号间相似度是一个受多种因素影响的综合 性指标,包括:个人属性、发贴内容、转发模式等,目前的数据挖掘方法缺乏对影响关联性多 种因素的综合考虑,因此不适用于社交网站账号间关联性分析。

【发明内容】

[0005] 发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种社交网 站账号相似度的综合数据挖掘方法,包括不同社交网站账号综合相似度计算方法。
[0006] 不同社交网站账号综合相似度计算方法实施步骤如下:
[0007] 步骤1 :计算两个不同社交网站账号的个人属性因素的相似度。个人属性因素包 括:用户名、性别、地区、最后发表时间、粉丝数、关注数、文本数、简介、联系方式等。按照个 人属性因素的数据类型,将个人属性因素分为字符串型、文本型、布尔型、枚举型、地址型、 时间型和整型。对于不同的个人属性因素,需要根据其类型采用相应的相似度计算方法。
[0008] 步骤2 :计算两个不同社交网站账号交互行为的相似度。社交网站账号之间的交 互行为包括:关注、转发、评论、等。将社交网站账号之间的交互行为都视为一条有向边, 则每种交互行为在社交网站账号之间构成一张有向图。每种交互行为(关注、转发、评论、 等)有2种影响社交网站账号相似度的方式:正向认同和反向认同、连通性和距离,需 要分别计算每种交互行为的上述两项因素的相似度。
[0009] 步骤3 :计算两个不同社交网站账号的内容的相似度。若两个社交网站账号经常 发出内容相同的文本、博客等,则两个社交网站账号的相似度就越高。
[0010] 步骤4:通过对各因素相似度的加权平均,计算两个社交网站账号的综合相似度。
[0011] 进一步地,步骤1中,按照个人属性因素的数据类型,将个人属性因素分为字符串 型、文本型、布尔型、枚举型、地址型、时间型和整型,对于各种个人属性因素,根据其类型采 用相应的相似度计算方法;对于两个不同的用户社交网站账号a和b,表示a和b 在因素fi上的相似度,相似度是一个大小在[0, 1]间的数,其中i= 1,2,…,N,N为影响社 交网站账号相似度的因素数量,'分别表示社交网站账号a和b在影响因素&上的 取值,各种数据类型个人属性因素的相似度计算方法如下:
[0012] (a)字符串型:
[0013] 当为字符串时,相似度#?/;(?,的计算方法为:
[0015] 其中,函数edis(A,B)表示求字符串A和B的编辑距离,是指字符串A转 换成字符串B所需的最少操作次数,函数strlen(A)表示求字符串A的长度;
之间的最大值;
[0016] (b)文本型:
[0017] 当\.?和^:,6为文本时,相似度计算方法如下:
[0018] (b-1)提取文本^和〃0中出现的词语,构成一个词语集合;
[0019] (b_2)分别统计文本中各个词语出现的词频,按顺序排列构成词频向量 4和A;
[0020] (b_3)求向量和16的余弦值,计算得到相似度:
[0022] 其中,符号| |为向量取模运算;
[0023] (c)布尔型、枚举型或者地址型:
[0024] 当^,?和々4为布尔型、枚举型或者地址型时,相似度计算方法为:
[0026] (d)时间型:
[0027] 当和为时间型时,相似度计算方法为:
[0029] 其中,thr是相似度门限,即当社交网站账号a和b因素&相差超过时间thr时, 即认为社交网站账号的因素fi没有关联,thr取值范围是0~+ °〇,,例如:取值为24小时, 即时间差超过24小时则认为没有相似性
表示求得thr和|h,fl 之 间的最小值;
[0030] (e)整型:
[0031] 当^,?和义3为整型时,相似度计算方法为:
[0032]
表示求得、1,6和1中的最大 值。
[0033] 步骤2中,将社交网站账号之间的交互行为都视为一条有向边,每种交互行为在 社交网站账号之间构成一张有向图,每种交互行为有两类影响社交网站账号相似度的方 式:正向认同和反向认同、连通性和距离,每种交互行为对社交网站账号综合相似度的每类 影响方式,均作为影响社交网站账号综合相似度的因素,两个不同社交网站账号交互行为 的相似度的计算方法为:
[0034] (1)正向认同和反向认同:
[0035] 正向认同和反向认同的相似度计算方法为:
[0037] 其中,对于正向认同关系,F(a)表示从社交网站账号a出发的所有有向边指向的 社交网站账号的集合,F(b)表示从社交网站账号b出发的所有有向边指向的社交网站账 号的集合;对于反向认同关系,F(a)表示到达社交网站账号a的所有有向边另一端的社交 网站账号集合,F(b)表示到达社交网站账号b的所有有向边另一端的社交网站账号集合, num()表示统计括号内集合的元素的数量;
[0038] (2)连通性和距离:
[0039] 连通性和距离的相似度计算方法为:
[0041] 其中,a和b相互可达是指:若将一种账号之间发生的交互行为作为一条有向边, 则账号a能够通过一条以上有向边到达账号b;账号b也能够通过一条以上有向边到达账 号a,可达账号之间的距离d是指账号a和b之间间隔的最小有向边数量。
[0042] 步骤3中采用如下方法计算两个社交网站账号间的内容相似度:
[0043]对于社交网站账号a内容的集合〇3和社交网站账号b内容的集合〇b,
[0045]其中,sa;j是文本型数据,表示文本的内容,1彡j彡Ma,M#社交网站账号a的内 容数量,
[0047] 其中,sb,k是文本型数据,表示文本的内容,1彡k彡Mb,Mb是社交网站账号b的内 容数量,
[0048] 两个不同社交网站账号的内容相似度的计算步骤为:
[0049] (3-1)采用计算文本型个人属性因素相似度的计算方法,两两计算集合〇a中每个 元素Sa」与集合〇b中每个元素sb,k的相似度,构成一个集合记为{sj,
[0050] (3-2)令j= 1;m= 0,j为计数器,m是a和b两个账号相同的内容的数量,初始 值为〇 ;
[0051] (3-3)若max(Sj,k| 1彡k彡Mb)彡tr,则将m更新为m+1,其中,tr为用户配置门 限,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1