一种基于动态社区挖掘进行专家检索的方法

文档序号:6485925阅读:156来源:国知局
一种基于动态社区挖掘进行专家检索的方法
【专利摘要】本发明提供一种基于动态社区挖掘进行专家检索的方法,针对动态网络环境,同时利用链接结构和内容信息挖掘社区,将链接结构和内容表达为矩阵形式,综合历史社区划分结果,使用非负矩阵分解方法进行社区划分,并对社区划分代价进行迭代处理,使其结果局部最优化,以使社区结果在反映网络的链接特征的同时,还反映话题、兴趣等语义层面的特征,通过利用社区划分结果和社区话题,进行专家搜索,从而实现不同时刻的专家检索。本发明的方法不仅能反映社区成员、规模的变化,还能反映社区的话题分布及其随时间的变化,从而可以将社区挖掘结果直接专家搜索。
【专利说明】一种基于动态社区挖掘进行专家检索的方法
【技术领域】
[0001]本发明涉及网络信息处理【技术领域】,具体是在动态网络环境下进行社区挖掘,进而利用社区划分结果检索专家。
【背景技术】
[0002]专家检索是指找出一组具有与特定查询条件相关的专业知识的人。现有方法可大致分为三类:第一类是基于候选人的方法,通过将与候选人相关的文档进行组合,形成候选人的专业描述,针对特定查询,专业描述越与查询相关,候选人排名越高。第二类是基于文档的方法。通过比较每一个文档与查询的相关性,对文档相应的候选人进行排名。第三类是利用社会网络进行专家检索。
[0003]本发明属于第三类,思路是利用社区划分结果和社区话题,进行专家搜索。与现有工作不同的是,本发明通过利用动态社区挖掘结果,可以在不同时刻进行专家检索。下面介绍动态社区挖掘的相关工作。现实中或互联网上的个体有不同形式的交互关系,从而形成了各种社会网络,如引文网络、朋友网络、邮件互动网络等。对这些社会网络进行分析目的是对社会网络中的个体按照其相似程度进行划分,从而发现在特定方面相似性很高的个体所组成的社区,在社区内部个体的相似性很高,社区间的个体相似性很低。
[0004]社会网络随时间在变化,例如,在合作关系网络中,合作关系随时间在变化;在线社交网络中,朋友关系和浏览关系随时间在变化;微博平台中由关注与被关注、转发与评论所形成的弱关系网络也在不断更新。因此,社区挖掘方法应该能适应动态网络环境。针对动态网络环境的社区挖掘不仅能够揭示社区的演化规律,还能预测未来的演化趋势,因此具有极强的应用价值。目前,针对动态网络的社区挖掘方法(简称动态社区挖掘)又分为两类。第一类方法是对动态网络的每一个快照分别进行社区挖掘,再对比不同时间的社区挖掘结果(J.Hopcroft, 0.Khan, B.Kulis, and B.Selman, " Tracking evolving communitiesin large linked networks, " presented at the Proc.Natl.Acad.Sc1.,2004.X 第二类方法则假设相邻时间的社区挖掘结果应该相似,因此,对每一个快照挖掘社区时,不仅依据当前快照的网络结构,还依据前一时间的社区挖掘结果(D.Chakrabarti, Kumar, R.,&Tomkins, A., " Evolutionary clustering, " presented at the In Proceedingsof the 12th ACM SIGKDD conference, 2006.)> (Y.C.Y.Lin, S.Zhu, H.Sundaram, B.Tseng, " FacetNet:A Framework for Analyzing Communities and Their Evolutionsin Dynamic Networks, " presented at the Wffff 2008.)
[0005]无论是第一类方法还是第二类方法都只依据网络的拓扑结构,而忽视了网络中丰富的内容信息。社区挖掘结果也只揭示网络的链接密集情况及其演变,从而限制了应用范围。由于内容信息,比如博客、论文、评论等等,表现了社会网络的语义层面的特征,如个体的兴趣、角色、观点等,在社区挖掘方法中考虑内容因素能够揭示出社区在语义层面的特征,如不同的社区侧重不同的话题。而动态社会网络中,不仅有节点和链接的变化,内容也在变化。例如,在合作网络中,一个研究者会从一个研究方向转移到另一个研究方向,在线社会网络中发布的日志内容在变化,邮件网络中两个人的来往邮件在不同时刻所讨论的内容会不断变化。因此,在动态网络环境中,如果同时利用链接结构和内容信息挖掘社区,不仅能够揭示社区本身随时间的演化过程,还能揭示社区与哪些话题相关联,以及社区的话题随时间的变化过程。

【发明内容】

[0006]本发明针对专家检索给出了针对性的社区划分方法。由于社区本身具有成员分布和话题分布,本发明在专家检索时,利用社区的这两个分布对社区成员进行排名,通过利用社区划分结果和社区话题,进行专家搜索,从而实现不同时刻的专家检索。
[0007]本发明针对动态网络,在挖掘动态社区的同时,找出与社区相关的话题。由于社区划分采用的是软分类(以概率形式表示社区划分结果以及社区的话题分布),使得社区划分结果可以直接应用于专家检索。因此,本发明的关键点在于挖掘动态社区。针对动态网络环境,利用链接结构和内容信息挖掘社区,计算拓扑结构代价和内容信息代价,使得结果不仅反映社区规模的变化,还能反映社区的话题分布及其随时间的变化,从而可以将社区挖掘结果直接专家搜索。
[0008]本发明提供一种利用动态社区挖掘结果进行专家检索的方法,其步骤包括:
[0009]( I)从目标网络获取数据集,按时间段划分成多个子数据集,每个子数据集包括一系列网络快照(G1, G2,…,GT)。时间跨度依具体网络而定,对于更新周期较慢的网络如论文合作网络,由于论文的发表按年份进行统计,因此,时间跨度以年份为单位。而对于更新很快的网络,如微博系统,由于网络每天都有更新,时间跨度应以天为单位;
[0010](2)对每个子数据集使用矩阵分解方法进行社区划分,所述矩阵分解方法的步骤包括:
[0011 ] a)针对每一个网络快照Gt,`根据网络节点间的转移概率建立节点相似矩阵W,根据网络节点和文本中的单词间的转移概率建立内容信息矩阵C。节点间的相似性依据特定问题来确定,如节点间的链接次数、邻域的重叠度等等。内容信息矩阵C的构建过程是,对网络中的每一个节点,将与其相关的文本内容合并为一个文本,并表示为词频向量。网络中的所有个体对应的词频向量组成了矩阵C,行和列分别对应网络节点集合和单词集合;
[0012]b)根据节点相似矩阵W计算拓扑结构代价Costw ;
[0013]c)根据内容信息矩阵C计算内容信息代价cost。;
[0014]d)根据Costw和cost。计算社区划分代价costt(rtal ;
[0015]e)将社区划分代价近似的网络节点的集合作为一个社区;让Fl = XU, Σ,#=1,FS就是社区划分结果。由于在分解时要求Σ iXi^l,即每一个节点的社区成员身份用概率表示,因此一个节点可以属于多个社区;Fe=VU,Σ/; =1,Fe正是话题在社区上的概率分布,一个话题可以与多个社区有关联,只是关联程度不同;?/eit1-则对应于社区规模;通过匹配相邻时间的社区划分结果,可以找出一个社区在不同时间的成员分布、话题分布,进而分析社区规模、社区的话题随时间的演变情况。匹配社区有多种方法,如欧几里德距离、标准化互信息、相对重叠度等。对于一个社区r,将其成员按Xt排序,可以找出该社区的核心成员。按话题概率&排序,则可以分析社区相关联的话题。
[0016](3)利用社区划分结果进行专家排名。[0017]下面具体分析动态社区挖掘中的拓扑结构代价、内容信息代价和社区划分代价。
[0018]1、拓扑结构代价
[0019]对于节点相似矩阵W,W、lCm,如果将Wij看做节点i到节点j的转移概率,那么 % G Yh' Pr P_i,.,其中,Pr是第r个社区的先验概率,pir是节点i属于第r个社区的概率, P#是节点j属于第r个社区的概率。由于这个混合模型中节点与社区的关系用概率表示,因 此,一个节点可以属于多个社区。这个模型表达为矩阵形式,则是W?XUXT,其中,XeR", k是社区个数,E ixir=l,xir=pir ; Ug,是对角矩阵;urr=pr, E rurr=lo因此,通过对矩阵W 进行分解,可以求得利用矩阵分解结果表达的社区划分结果Fl = XU,/是第i个 成员属于社区r的可能性。W与分解结果XUXT的距离为D(W||XUXt)。D(A||B)是矩阵A、B
的 KL 距离(Kullback-Leibler Divergence),计算公式是 D(J||5) = ^^.(atf logf-。
°V
[0020]假设t_l时刻的分解结果是L 二XA—X—a。那么链接结构代价可用矩阵的分解形 式表示为:
[0021 ] costw =r D(J,F ; XUXJ) + (I - <') ? D(/. XUX' } I ;
[0022]其中3为时间平滑参数。
[0023]2、内容信息代价
[0024]社会网络的内容信息在本发明中指文本信息,例如博客文本、邮件文本、Web网页 文本等。实际的动态社会网络的拓扑结构是相对稳定的,即在短时间内一般不会剧烈变化, 而动态网络中的内容则随着时间在不断变化,有些网络如在线社交网络或微博网络中的内 容更新会更快,所以,用一个时间的内容限制另一个时间的内容不符合真实的网络情况,因 此我们不考虑历史的内容信息代价。
[0025]对于一个网络快照Gt,网络中的各个节点都与某些文本相关联,例如邮件网络中 用户发送、接收的邮件、引文网络中研究者所发表或引用的文章等,为了使用矩阵分解方法 进行社区划分,我们将内容信息表达为矩阵形式。具体方法是,对于快照Gt中的每一个节 点,将与该节点关联的所有文本合并,并表示为词频向量,所有用户对应的词频向量组成内 容信息矩阵Ct,行和列分别对应节点集合和单词集合。因此可将Gt表示为(Wt,Ct)。在没有 混淆的情况下,下面的篇幅中用(W,C)表示(Wt,Ct)。
[0026]对于内容信息矩阵(' e ,m和n分别是网络节点个数和单词个数,如果将单词 视为另一种节点,可以采用类似于在拓扑结构代价中对W的分解思想,将cid看做节点i(网 络个体)到节点d (单词)的转移概率,CiA ~Y!r=lPr -Pir'Pdr,其中,Pr是第I"个社区的先验概 率,Pir是节点i属于第r个社区的概率,pdr是单词d和社区r的关联概率。用矩阵形式表 达,则为C?XUVT,其中,是对W和C分解的共同因子。让Fe=VU,K=l,其 中是是社区r与第i个话题的关联概率,因此,Fc正是话题在社区上的概率分布。
[0027]所以,对C分解的内容信息代价是
[0028]costc=D(C || XUVT) (2)
[0029]其中,D(C11 XUVT)是 KL 距离,VeRf 0
[0030]3、社区划分代价
[0031]将链接结构代价和内容信息代价合并,总代价即为社区划分代价,公式为:[0032]
【权利要求】
1.一种利用动态社区挖掘结果进行专家检索的方法,其步骤包括: (1)从目标网络获取数据集,按时间段划分成多个子数据集,每个子数据集包括一系列网络快照,对每个子数据集使用矩阵分解方法进行社区划分,所述矩阵分解方法的步骤包括: Ca)对每一网络快照,根据网络节点间的转移概率建立节点相似矩阵W,根据网络节点和文本中的单词间的转移概率建立内容信息矩阵C ; (b)根据节点相似矩阵W计算拓扑结构代价Costw;
2.如权利要求1所述的方法,其特征在于,所述节点间的相似性依据特定问题来确定,包括节点间的链接次数、邻域的重叠度。
3.如权利要求1所述的方法,其特征在于,所述内容信息包括博客文本、邮件文本、Web网页文本在内的文本信息。
4.如权利要求1所述的方法,其特征在于,所述内容代价不考虑历史的内容信息代价。
5.如权利要求1所述的方法,其特征在于,所述内容信息矩阵C的构建过程是对网络中的每一个节点,将与其相关的文本内容合并为一个文本,并表示为词频向量;网络中的所有个体对应的词频向量组成矩阵C,行和列分别对应网络节点集合和单词集合。
6.如权利要求1所述的方法,其特征在于,所述节点相似矩阵为转移概率矩阵,为节点i到节点j的转移概率
7.如权利要求1所述的方法,其特征在于,所述内容信息矩阵为转移概率矩阵,Cid为网络个体i到单词d的转移概率,
8.如权利要求1所述的方法,其特征在于,所述匹配结果按成员概率排序,得到该社区的核心成员;按话题概率排序,得到与社区相关联的话题。
9.如权利要求1所述的方法,其特征在于,所述匹配社区的方法包括根据欧几里德距离或标准化互信息或相对重叠度进行匹配。
10.如权利要求1所述的方法,其特征在于,步骤(d)对X、U、V进行迭代计算;
【文档编号】G06F17/30GK103488637SQ201210191968
【公开日】2014年1月1日 申请日期:2012年6月11日 优先权日:2012年6月11日
【发明者】闫秋玲, 陈薇, 王腾蛟, 杨冬青 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1