一种学术社交网络中魔力研究社区的排序方法

文档序号:10570586阅读:342来源:国知局
一种学术社交网络中魔力研究社区的排序方法
【专利摘要】本发明公开了一种学术社交网络中魔力研究社区的排序方法,属于数据挖掘技术领域。所述排序方法中,给定一个时间窗口,在学术社交网络中发现魔力研究社区;所述的魔力研究社区是那些逐渐开始流行的有吸引力的研究社区。具体包括研究社区内部特征计算、外部特征FE计算和排序的步骤。本发明可帮助研究人员更好地了解和把握当前的研究趋势和热点;突破了现有研究中的假设,即一个人在一个时刻只处于一个社区;抽取了魔力研究社区的特征,并设计了统一的算法对研究社区的潜在流行程度进行排序。
【专利说明】
一种学术社交网络中魔力研究社区的排序方法
技术领域
[0001] 本发明应用于发现学术社交网络中魔力研究社区,属于数据挖掘技术领域。
【背景技术】
[0002] 近几年来,社交网络平台(例如:Facebook和Twitter)发展迅速。同时,社交网络分 析也受到了学术界的广泛关注。学术网络作为社交网络中非常重要的组成部分,也成为了 研究人员的研究重点,参见参考文献[l]J.Tang,J.Zhang,L.Yao,J.Li,L.Zhang,and Z.Su, "Arnetminer: extraction and mining of academic social networks,',in Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and (1&七3 111;[11;[邱.六0\1,2008,卩卩.990-998.参考文献[2]<1.1&邱,1?. <1;[11,&11(1<1.211&邱,1如卩;[。 modeling approach and its integration into the random walk framework for academic search,',in Data Mining Eighth IEEE International Conference on. IEEE, 2008,pp.1055-10600
[0003] 参考文献[3](G.Wang,Y. Zhao, X. Shi,and P.S.Yu,"Magnet communi ty identification on social networks,"in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2012, pp.588-596.)提出了魔力社区的概念并把它应用于IT公司和金融企业吸引力的排序。该参 考文献[3]旨在找到某种流行的社区,同时假设社区间是彼此独立的,一个人在某一时刻只 能处于一个社区中。然而在很多现实场景中(如学术社交网络),如果把研究相同内容的研 究人员看做一个社区,那么找到那些目前很新、未来会流行的社区而不是那些已经非常流 行的社区更有价值。

【发明内容】

[0004] 本发明的目的在于帮助研究人员,尤其是没有经验的研究人员,从宏观的角度对 现有研究社区的发展有所认识,帮助研究人员更好地选择自己的研究课题。本发明提供一 种学术社交网络中魔力研究社区的排序方法,所述排序方法中,给定一个时间窗口,在学术 社交网络中发现魔力研究社区。所述的魔力研究社区不是指那些已经非常流行的社区,而 是那些逐渐开始流行的有吸引力的研究社区。本发明适用于针对信息检索和社区推荐等应 用。
[0005] 本发明提供的学术社交网络中魔力研究社区的排序方法,具体包括如下步骤:
[0006] 第一步,研究社区内部特征计算;
[0007] 选择新颖度作为研究社区内部特征Fc,第j个研究社区Cj的新颖度化是指社区主题 的单词从时间窗口 s到s+1的频率变化,用表示;研究社区&的新颖度%相当于主题下 每个单词新颖度的和;
[0008] 研究社区&的新颖度%通过以下方式计算:
Cl)
[0010] 其中,l表示包含单词wv的研究社区的数目,碲>和※+u分别表示单词Wv在时 间窗口 s和s+l中出现的次数;|W|是单词Wv的数量,v=l,2,…,|W| ; |C|是研究社区网络中 研究社区的数量;
[0011] 第二步,研究社区外部特征Fe计算;
[0012] 给定研究人员心在时间窗口 s和s+l的社区分布分别为和/?(:'广\计算研究人 员心总的转移量、计算研究人员心从研究社区Cy到研究社区Q的转移量以转移量为矩 阵元素得到转移矩阵对每个研究人员心的转移矩阵;r(~相加,得到最终的转移矩阵T; [0013] 第三步,排序;
[0014]给定研究社区网络的带权有向图G = (C,E,Fc,Fe),对任意的Cj G c,定义研究社区 C撒引其他研究社区Cf的研究人员注意力的能力Ujy :
(2)
[0016]其中,a是权重参数,$是研究社区Q到研究社区以的转移矩阵Ty的转置,(^是研 究社区Cj的大小;
[0017]对于任意的研究社区QGC,它传播注意力到其他研究社区Cy的能力定义为:
(3)
[0019]基于公式(2)和公式(3),为每个研究社区定义两个得分:正面得分PS和负面得分 NS;正面得分从吸引注意力的角度衡量研究社区的吸引力,负面得分从传播注意力的角度 衡量研究社区的吸引力,对于研究社区Q的正面得分PS」和负面得分峪的定义如下:
(4) 是标准化因子;
[0022] 基于这两个得分,研究社区的吸引力等级心通过下面的公式来计算:
[0023] Aj = PSj-NSj (5)。
[0024]本发明的优点在于:
[0025] (1)本发明第一次提出了,如何在学术社交网络中发现潜在有吸引力的研究社区, 也就是魔力研究社区的问题,本发明可帮助研究人员更好地了解和把握当前的研究趋势和 执占.
[0026] (2)本发明突破了现有研究中的假设,即一个人在一个时刻只处于一个社区;
[0027] (3)本发明抽取了魔力研究社区的特征,并设计了统一的算法对研究社区的潜在 流行程度进行排序。
【附图说明】
[0028] 图1A和图1B是本发明方法与现有算法Indegree,PageRank和MIM分别在两个不同 数据集上的比较示意图。
[0029] 图2A和图2B为相关算法与HotRank、TrandRank分别在两个不同数据集上的对比示 意图。
[0030]图3为实施例中给定的一个社区网络6=((:3,&^£)示意图。
【具体实施方式】
[0031]下面将结合附图和实施例对本发明作进一步的详细说明。
[0032]本发明提供一种学术社交网络中魔力研究社区的排序方法,是一种发现有吸引力 研究社区的方法(Attractive Research Community Ranking,简称ARTRank)。所述的有吸 引力研究社区也称魔力研究社区,本发明用心表示所述的魔力研究社区的吸引力等级, A,A为所有魔力研究社区的吸引力等级集合。给定一个研究社区网络6=((:3^(:^£),则魔 力研究社区的吸引力等级集合A定义为△=^&及)4是研究社区网络的内部特征价和外部 特征Fe的联合函数。定义研究社区Q和研究社区C/的吸引力等级分别为、和针,则研究社 区Q比研究社区Cy更有吸引力当且仅当、>、,。所以找到魔力研究社区的问题是一个排序 问题。
[0033] 本发明将研究社区网络定义为带权有向图6=((:3^^?〇,其中(:表示研究社区(^ 的集合,每个研究社区Q是一组聚合的研究人员,E表示研究社区间链接的集合,表示研究 人员在研究社区间的转移。F C表示每个研究社区的内部特征,Fe为表示研究社区间链接的外 部特征。
[0034] 本发明用Ri表示第i个研究人员,使用Latent Dirichlet Allocation(LDA)(参考 文南犬[4] :D.M.Blei,A. Y.Ng,and M? I ? Jordan,"Latent dirichlet allocation," the Journal of machine Learning research,vol.3,pp.993-1022,2003?参考文献[5]: T.L.Griffiths and M.Steyvers,"Finding scientific topics/'Proceedings of the National Academy ofSciences,vol. 101,no. suppl l,pp.5228-5235,2004.)模型对研究 人员进行聚类。通过聚类,每个研究人员可以表示为一个在主题(研究社区)上的概率分布。 LDA模型的结果可以表示为两个矩阵,分别为矩阵RC和矩阵CW:
[0035]矩阵RC为|R| X |C|的矩阵,|R|是研究社区网络内的研究人员的数量,|C|是研究 社区网络中研究社区的数量,也是研究社区集合内的研究社区总数。RC^是研究人员心属于 研究社区Cj的概率。i = l,2,…,|R|,j = l,2,…,|C|。
[0036] 矩阵CW为|C| X |W|的矩阵,|W|是单词Wv的数量,v=l,2,…,|W| <XWjv是单词Wv指 派给研究社区Q的概率。
[0037]基于上述的定义,本发明提供了一种学术社交网络中魔力研究社区的排序方法, 包括研究社区内部特征计算、外部特征计算和等级吸引力排序,具体步骤如下:
[0038] 第一步,研究社区内部特征计算。
[0039] 本发明选择新颖度作为研究社区内部特征Fc。第j个研究社区Q的新颖度化是指社 区主题的单词从时间窗口 s到s+1的频率变化,用表示。研究社区的新颖度的概念来源 于社交网络事件检测中突发主题检测的概念。在事件检测中,当某个事件主题的单词比往 常更频繁地出现时,那么这个事件被定义为突发事件(参见参考文献[6] :Q.Diao,J. Jiang, F.Zhu,and E.-P.Lim, "Finding bursty topics from microblogs,''in Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.Association for Computational Linguistics,2012,pp.536-544.)〇 一个拥有新颖主题的研究社区能更多地吸引研究人员的注意力。根据研究社区的新颖度的 定义,研究社区q的新颖度化相当于主题下每个单词新颖度的和。
[0040] 首先,单词Wv应该能很好地表示研究社区Q的主题。使用单词Wv指派给研究社区Cj 的概率,也就是CWjv,来表示单词Wv对研究社区Cj的重要性。其中CWjv由LDA模型得至lj。但这个 单一的标准是不够的,比如单词"network"在多个研究社区中出现,而单词"social"仅在其 中的某一个研究社区出现,显然"social"比"network"能更好地表示这个研究社区。所以, 本发明使用IDF(inverse document frequency)值作为补充来衡量单词Wv对研究社区Cj的 重要程度。另外根据研究社区的新颖度的定义,单词W v的频率变化能够反映研究社区(^的新 颖度。通过以上分析,研究社区Q的新颖度化可通过以下方式计算:
(1)
[0042]其中,%表示包含单词Wv的研究社区的数目,_和<+1>分别表示单词 Wv在时 间窗口 s和s+1中出现的次数。
[0043]第二步,研究社区外部特征Fe计算。
[0044] 研究人员在研究社区间的转移反映了研究社区的发展趋势,本发明把研究人员的 社区分布中从研究社区Cy到研究社区Q的变化定义为研究人员从研究社区Cy到研究社区 Cj的转移。给定研究人员Ri在时间窗口 s和s+1的社区分布分别为和說;(i+l),通常研究 人员h的注意力会从一些研究社区转移到另外一些研究社区。假设对于研究人员h,研究社 区得到的转移量按比例来自于那些失去关注的研究社区。在计算了每个研究人员的转移矩 阵后,把所有研究人员的转移矩阵相加,就得到最终的研究社区间的转移矩阵,即为研究社 区外部特征Fe。
[0045] 所述转移矩阵的生成方法包括:(1)计算研究人员h总的转移量、(2)计算研究人 员心从研究社区到研究社区q的转移量ft,以转移量为矩阵元素得到转移矩阵,以 及(3)对每个研究人员心的转移矩阵相加,得到最终的转移矩阵T。具体实现方法如下:
[0047] 第三步,排序。
[0048] 给定研究社区网络的带权有向图G = (C,E,Fc,Fe),对任意的Cj G C,定义研究社区 C撒引其他研究社区Cf的研究人员注意力的能力
(2)
[0050]其中,a是权重参数,g是研究社区Q到研究社区Cy的转移矩阵Tf的转置,(^是研 究社区Q的大小,也就是说本发明的排序方法是对研究社区大小敏感的。这样一个流行的 研究社区将从其他研究社区得到很少的贡献,而有吸引力的研究社区从其他研究社区得到 的贡献却很多,因为流行的研究社区往往很大,而有吸引力的研究社区往往很新也相对较 小。同样的,在计算研究社区传播注意力的能力时,也考虑了研究社区大小,以避免找到那 些太小的研究社区。也就是说,对于任意的研究社区QGC,它传播注意力到其他研究社区 Or的能力可以定义为:
(3)
[0052]基于公式(2)和公式(3),为每个研究社区定义两个得分:正面得分PS和负面得分 NS。正面得分从吸引注意力的角度衡量研究社区的吸引力,负面得分从传播注意力的角度 衡量研究社区的吸引力。对于研究社区G的正面得分PS」和负面得分峪的定义如下: (4) 是标准化因子。一个研究社区拥有高正面得分PS意味着它从其他
研究社区得到了很多的贡献,相反拥有高的负面得分NS意味着它为其他研究社区做了很多 的贡献。一个流行的研究社区会同时有高的正面得分PS和高的负面得分NS,而有吸引力的 研究社区有高的正面得分PS和低的负面得分NS。基于这两个得分,研究社区Q的吸引力等 级、可以通过下面的公式来计算:
[0055] Aj = PSj-NSj (5)
[0056] 根据公式(4)和公式(5),所述的研究社区吸引力等级排序方法的详细步骤如下:
[0058] 实施例:
[0059]本实施例中使用的数据集来自ArnetMiner(参考文献[1]、[2])。
[0060]计算机科学数据集:该数据集包含和计算机科学相关的2,084,055篇论文,每篇论 文包含题目、作者、发表年份和摘要等等。从2005年到2010年的数据中抽取作者、题目和摘 要信息,于是得到和2005-2006,2007-2008两个时间窗口相关的数据,其中各包含了47565 个作者的相关信息。
[0061 ]数据领域会议数据集:该数据集是计算机科学数据集的子集,该数据取自九个顶 级会议(SIGM0D,KDD,VLDB,SIGIR,ICDE,CIKM,WWW,ICDM and WSDM),通过预处理,在2005-2006和2007-2008两个时间窗口中分别保留了2399个作者的信息。
[0062]本实施例使用LDA模型进行社区检测。在计算机科学数据集上,设主题数|C|为 300,也就是说要找到300个研究社区。在数据领域会议数据集上,设主题数| C |为50,也就是 要找到50个研究社区。把LDA模型中两个Dirichlet超参数分别设为
和0.01。
[0063]本发明提出的排序方法同以下四个方法进行了比较。
[0064] 对比方法1:入度(Indegree): Indegree仅仅通过研究人员的转入量来衡量研究社 区的吸引力。
[0065] 对比方法2 : PageRank(参见参考文献[7] :L.Page,S.Brin,R. Motwani,and T ? Winograd,"The pagerank citation ranking: Bringing order to the web 1999 ?): PageRank把研究人员在社区间的转移看做一种投票,在衡量社区吸引力时,它不仅考虑了 转移的数量,还考虑了转移的质量。
[0066] 对比方法3:魔力社区发现模型(MIM)(参见参考文献[3]):该模型使用一个基于 PageRank的优化框架来衡量社区的吸引力,在实验中,把社区新颖度因素加入到的该模型 中。
[0067] 对比方法4:趋势排序(TrendRank) :TrendRank使用线性回归方法,利用主题关键 字在每年所占的比例来生成主题流行度变化的趋势线(参考文献[8]: A.Hoonlor, B.K. Szymanski ,and M.J.Zaki,"Trends in computer science research,', Communications of the 六0\1,¥〇1.56,11〇.10,卩卩.74-83,2013.)。用与时间窗口2007-2008, 2009,2010相关的数据进行趋势排序。直觉上,越有吸引力的社区越应该在不远的将来有一 个很好的发展趋势。本实施例中把TrendRank作为实验的标准。
[0068] 本实施例使用推荐强度(recommendation intensity)(参见参考文献[9]: R.Hampel and M?Hauck,"Towards an effective use of audio conferencing in distance language courses,',Language Learning&Technology ,vol. 8 ,no. 1 ,pp. 66-82, 2004.)作为估计标准,定义如下:
(6:)
[0070] 在公式(6)中,L是某种排序方法生成的前k个研究社区的排序列表。Or是1^在1中的 排序位置,〇g是Li在TrendRank中的排序位置。这也就意味着,如果Li出现在TrendRank的前k 的列表中,并且它的排序位置尽可能的准确,那么Li将得到一个很高的recommendation intensity值。所以L的前k个排序的recommendation intensity可以定义为:
[0071] RI(L)(cvk = ^ /?/(/, )(ci:k (7)
[0072] 表1展示了由PageRank、MIM、ARTRank和Trendrank排序的前15个研究社区。根据主 题中的单词关键字为这些主题贴了标签,加粗斜体的社区是出现在Trendrank排序前15的 社区。由于Indegree和PageRank的结果非常相似,所以表1中略去了 Indegree的结果。
[0073]从表1中可以看到,本发明提供的ARTRank方法比相关的方法有很大的优势, ARTRank排序列表的前15有9个出现在Trendrank中,而MIM和PageRank分别只有5个和3个。 比如研究社区"c 1 oud"在TrendRank中是最有吸引力的社区,仅仅出现在ARTRank前15的排 序结果中,而在PageRank和MM前15的排序结果中并没有出现。在数据领域会议数据集上, 也得到了类似的结果,由于空间限制,此处省略。
[0074] 除了准确性,本发明中也比较了这些方法在recommendation intensity下的量化 结果,如图1A和图1B所示。ARTRank明显优于其他方法,因为InDegree只考虑了转移的数量, 这样它会倾向于找到那些很流行的社区。尽管PageRank考虑网络的结构特征,它同样还是 会找到那些流行的社区。M頂的结果和本发明的方法的结果有些类似,这是因为本发明都确 保每个社区的转入量要多余转出量。然而,ARTRank的效果仍旧比MM要好,因为MM是基于 PageRank的,它的目的是找到某一类很流行的社区,这个目标显然与本发明要找到新的逐 渐流行的研究社区的目标不同。
[0075] 表1计算机科学数据集前15研究社区排序

[0078]本发明的目标是找到那些有吸引力的研究社区,而不是那些很流行的社区。于是, 本发明把相关算法和社区热度排序算法(HotRank)进行了比较,HotRank是依据社区主题的 时间强度对社区进行排序的(参见参考文献[10] :X. Wang,C.Zhai,and D. Roth, "Understanding evolution of research themes:a probabilistic generative model for citations,''in Proceedings of thel9th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2013,pp. 1115-1123?参考文献[11]: D.Zhou,X.Ji,H.Zha,and C.L.Giles,"Topic evolution and social interactions:how authors effect researchin Proceedings of the 15th ACM international conference on Information and knowledge management.ACM,2006,pp?248-257?)〇 [0079]图2A和图2B给出了比较的结果,其中HotRank的数据取自2009年。可以看到, Indegree和PageRank的排序结果与HotRank更接近,而和TrendRank的排序结果差很远,也 就是说这两个算法更倾向于发现很流行的社区。然而对社区热度的排序,并不能反映社区 发展的趋势,因为一个很热但是开始走下坡路的社区仍然会在热度排序中排名很高。 ARTRank的排序结果则与TrendRank更为一致,也就是说ARTRank的排序结果更能反映社区 发展的趋势。
[0080]本发明可以应用于学术社交网络中,利用研究人员在不同研究社区之间的转移, 以及研究社区的主题新颖度,来对研究社区的吸引力等级进行排序。ARTRank算法以研究人 员的在不同年份的文章作为输入,以研究社区的吸引力等级排名为输出。例如,图3给出了 一个实施例。图3中的社区网络是由研究人员在不同年份的文章内容,依据新颖度和社区转 移矩阵算法生成的,圆的大小代表社区的大小,方框的值代表社区的新颖度,边上的值代表 研究人员的转移量。通过本发明的排序方法,得到研究社区的吸引力排名:4,1,2,3。显然研 究社区4拥有新颖的主题,吸引很多研究人员的同时,又有很少的人离开,同时社区的规模 也较小,显然是本实施例中要找的新的并逐渐流行的研究社区。
【主权项】
1. 一种学术社交网络中魔力研究社区的排序方法,其特征在于,包括如下步骤: 第一步,研究社区内部特征计算; 选择新颖度作为研究社区内部特征FC,第j个研究社区Cj的新颖度Nj是指社区主题的单 词从时间窗口 s到s+1的频率变化,用NfFc表示;研究社区(^的新颖度Nj相当于主题下每个 单词新颖度的和; 研究社区(^的新颖度%通过以下方式计算:其中,I表示包含单词Wv的研究社区&的数目,和_+1)分别表示单词Wv在时间窗 口 s和s+1中出现的次数;|W|是单词Wv的数量,v=l,2,…,|W| ; |C|是研究社区网络中研究 社区的数量; 第二步,研究社区外部特征Fe计算; 给定研究人员R1在时间窗口 s和s+1的社区分布分别为ACf和计算研究人员R1 总的转移量、计算研究人员心从研究社区Cr到研究社区Q的转移量:,以转移量为矩阵 元素得到转移矩阵:Γ(?,对每个研究人员心的转移矩阵Γ(~相加,得到最终的转移矩阵T; 第三步,排序; 给定研究社区网络的带权有向图6=((:3^^?〇,对任意的(:」£(:,定义研究社区(:」吸引 其他研究社区Cj1的研究人员注意力的能力Ujj1:其中,α是权重参数,是研究社区Cj到研究社区Cy的转移矩阵的转置,(^是研究社 区Cj的大小; 对于任意的研究社区C」ec,它传播注意力到其他研究社区Cr的能力定义为:基于公式(2)和公式(3),为每个研究社区定义两个得分:正面得分PS和负面得分NS;正 面得分从吸引注意力的角度衡量研究社区的吸引力,负面得分从传播注意力的角度衡量研 究社区的吸引力,对于研究社区Cj的正面得分PS j和负面得分NSj的定义如下:基于这两个得分,研究社区Cj的吸引力等级、通过下面的公式来计算: Aj = PSj-NSj (5) 〇2. 根据权利要求1所述的一种学术社交网络中魔力研究社区的排序方法,其特征在于, 第二步中最终的转移矩阵T的具体计算步骤如下: 步骤1、每个研究人员吣,1 = 1,2,~,|1?|,执行步骤2-11; 步骤2、令研究人员Ri的总转移量Q=O, 步骤3、对于每个研究社区Cj e C,执行步骤4; 步骤4、给定研究人员R1在时间窗口 s和s + 1的社区分布分别为和如果 "C:1,' h-执行步骤5; 步骤5、更新总转移量0 = δ + I; 步骤6、对于每个研究社区Cj e C,执行步骤7-10; 步骤7、如果/??_' h-/^T>0,执行步骤8; 步骤8、对于每个研究社区Cj,e C,执行步骤9; 步骤9、如果-,执行步骤10; 步骤10、研究人员Ri从研究社区C/到Cj的转移量:步骤11、对每个研究人员Ri的转移量作为转移矩阵Γ(~的元素,并将所有的转移矩阵 Γ(~加和,得到最终转移矩阵T。3. 根据权利要求1所述的一种学术社交网络中魔力研究社区的排序方法,其特征在于, 第三步中研究社区吸引力等级排序方法的详细步骤如下: 步骤1、给定一个正数ξ>〇,对于每一个研究社区的正面得分和负面得分分别赋初值PSo 和 NSo; 步骤2、( I,I,I,I) G RIe I赋值给PSo; R1 e 1表示数值维度为I CI的向量空间; 步骤3、(1,1,1,1) GRleI赋值给NS0; 步骤4、重复执行步骤5到步骤9; 步骤5、用NSk-1更新PSk;公式(4); 步骤6、用PSk-1更新NSk;公式(4); 步骤7、标准化PSk; 步骤8、标准化NSk; 步骤9、k增加1; 步骤 10、直到满足条件 |PSk-PSk-11 <ξ,并且 |NSk-NSk-11 <ξ。
【文档编号】G06Q50/00GK105931122SQ201610224907
【公开日】2016年9月7日
【申请日】2016年4月12日
【发明人】张忠宝, 苏森, 王亚坤, 徐嘉帅
【申请人】北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1