基于主题交互的社区发现方法

文档序号:8943069阅读:322来源:国知局
基于主题交互的社区发现方法
【技术领域】
[0001] 本发明涉及一种社区发现方法,特别是涉及一种基于主题交互的社区发现方法。
【背景技术】
[0002] 社交网络属于复杂网络中的一种,是一种异构网络。在社交网络中不仅包括用户 节点,其还包括由文本构成的主题节点,由用户签到信息构成的位置节点,由照片构成的兴 趣节点等,暨社交网络不再是大量的性质相同节点的链接,而是许多不同类型的节点的相 互链接。把不同性质节点因为在网络中的紧密交互行为而构成的密集子图称为网络中的社 区。
[0003] 针对复杂网络中的社区发现主要有两种方式:一种是将复杂网络简化为一般网 络,暨只含有同种性质节点的网络,然后利用用户相似度,从而得到网络中的社区。另一种 方式是将同质网络中的社区发现方法修正或提出新方法应用到复杂网络中,从而发现网络 中的社区。第一种方法将复杂网络简化为一般网络,会明显的丢失网络中的信息,而且用户 之间的关系不紧密,不利于进行社区发现,同时在完成社区的发现后,并不能直观的得知社 区的特征,暨用户因为什么原因,对什么感兴趣而形成了一个社区,因为社区中并不直观的 包含主题信息。第二种方法中,对一般方法的改变并不能完全适应在复杂网络中的社区发 现,同时在完成社区发现后,也不能直观的通过观察社区得知不同主题节点对社区的贡献 程度,暨社区特征的精确刻画。
[0004] 文献"专利公开号是CN10428271A的中国发明专利"公开了首先一种社区发现方 法,该方法通过用户在社交网络中发布的内容进行归档,并提取用户的兴趣特征,从而获取 用户的兴趣特征集。之后通过构建用户关系图,并以不同用户间的兴趣相似度作为用户关 系的权重,采用已有的加权五项网络社区发现算法发现网络中的重叠社区。该专利的一个 不足之处是在得到社区的同时,并不知道这个社区是因为什么原因聚集在一起的,不能精 准的对社区进行刻画。而且即使为了刻画社区,对社区中的所有用户发布的内容进行主题 特征提取,但是这样得到的特征并不能很好的刻画社区,因为形成该社区的主题并不是得 自用户的所有信息,而只是用户的部分信息所得。

【发明内容】

[0005] 为了克服现有社区发现方法对社区描述准确度差的不足,本发明提供一种基于主 题交互的社区发现方法。该方法提取某一时间段内网络中文本、照片等的主题信息,对于社 交网络中的用户、主题关系,根据网络中的每一次交互建立超图模型。对于超图模型中的每 一条边,按照用户熵以及主题熵计算超边的权值,选取用户中的种子节点,并以这些种子节 点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的 贡献度,使得子图的密度达到最大,得到密集子图。以层次聚类的方法对密集子图进行不同 程度的聚合,得到不同层次下的社区。由于以种子节点出发构建初始子图,并根据超边权值 计算不同节点的子图贡献度,然后迭代计算不同节点的贡献度,得到密集子图,对密集子图 进行不同程度的聚合,得到不同主题节点对社区的贡献值,准确地描述社区。
[0006] 本发明解决其技术问题所采用的技术方案是:一种基于主题交互的社区发现方 法,其特点是采用以下步骤:
[0007] 步骤一、采用LDA提取微博网络中文本的主题信息,根据微博网络中用户的每一 次交互信息建立超图模型。超图模型中包括用户节点以及主题节点;每一次发布行为构成 一条发布边u-t,其中u表示用户,t表示主题,每一次转发行为构成一条转发边ul-tl-u2, 暨用户U 1从用户u 2处转发了主题为tl的微博文本。
[0008] 步骤二、计算用户集合U中不同用户有关不同主题的用户熵,同时计算主 题集合T中不同主题有关不同用户的主题熵。采用
1计算发布 边的权重,其中Cut表示u-t边出现的次数,evu表示用户熵,evt表示主题熵;采用
表示发布边的权值大小。
[0009] 步骤二、在将网络映射为超图t旲型后,用
表不子图V'的 密度,其中S表示子图中的所有边,ws表示边的权值,s i表示边s的第i个相关节点。心表 示S1节点对整个子图的贡献程度。若子图AM是密集子图,则f(x)达到最大值。在超图 中进行社区发现的问题采用以下公式表达:
[0010]
(1);
[0011] 其中Wv1,…Vk)表示包含节点V1,…V k的边的权值,所有节点对社区的最大贡献 为l/ε,暨ε用来控制社区的初始大小。
[0012] 计算网络中的每一个用户节点的邻居节点的数目|Nu|,其中Nu表示用户u的邻 居节点集合,1况% I表示用户u的邻居节点4的邻居节点数,
表示用户u 的所有邻居节点的平均邻居节点数。选取|Nu|>avg(Nu)的用户节点作为种子节点。
[0013] 从种子节点出发,选取与种子节点相关的节点构成初始子图。在初始子图中,根据 节点所在超边的权重计算节点的权重比例P(i) = ( Σ w(l, "4-1, i))/( Σ w(l,…,k)), 其中i表示节点,w(l, ···,k)表示初始子图中的超边的权值,w(l,…k-1, i)表示初始子图 中包含节点i的超边的权值。设e =「wg(Agl,暨对avg(Nu)向上取整。根据节点的权重比 例,以及Χι〈ε计算不同节点对密集子图的初始贡献度Xl。
[0014] 步骤四、采用拉格朗日公式
进行问题求解。同时,对节点进行分类Vu(X) = UIx1G (〇, e]},vd(x) = UIx1G [0, ε)},
表示f(x)关于^的偏导数。对公式进行推导,根据组合优化的KKT条 CN 105159911 A VL 3/4 贝 件,根据公式
迭代的计算节点X "对密集子图的贡献程度,其 中i表示Vu中gi (X)最大的节点,j表示Vd中gi (X)最小的节点,1表示迭代次数。
其中g, (X)表示X的两阶导。迭代 终止条件为,节点贡献度不在变化或社区大小小于ε。得到社区的密集子图。
[0015] 步骤五、对于得到的密集子图,采用Jaccard系数作为相似度进行度量,以层次聚 类的方式得到不同程度下的社区。
[0016] 本发明的有益效果是:该方法提取某一时间段内网络中文本、照片等的主题信息, 对于社交网络中的用户、主题关系,根据网络中的每一次交互建立超图模型。对于超图模型 中的每一条边,按照用户熵以及主题熵计算超边的权值,选取用户中的种子节点,并以这些 种子节点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度。迭代计算不同 节点的贡献度,使得子图的密度达到最大,得到密集子图。以层次聚类的方法对密集子图进 行不同程度的聚合,得到不同层次下的社区。由于以种子节点出发构建初始子图,并根据超 边权值计算不同节点的子图贡献度,然后迭代计算不同节点的贡献度,得到密集子图,对密 集子图进行不同程度的聚合,得到不同主题节点对社区的贡献值,准确地描述社区。
[0017] 下面结合附图和【具体实施方式】对本发明作详细说明。
【附图说明】
[0018] 图1是本发明基于主题交互的社区发现方法的流程图。
【具体实施方式】
[0019] 参照图1。本发明基于主题交互的社区发现方
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1