一种基于信任关联度的微博网络社区发现方法

文档序号：8943076阅读：692来源：国知局

一种基于信任关联度的微博网络社区发现方法
【技术领域】
[0001] 本发明属于社区分类技术，具体涉及一种基于信任关联度的的微博网络社区发现方法。
【背景技术】
[0002] 在WEB2. 0时代的大环境下，社交型网站（SNS)正日益增多。微博作为SNS的一种升级版社会网络交互模式，正逐渐成为众多研究者关注的热点。社会网络和其他的复杂网络一样，都具有社区结构。但与其他网络的不同之处在于，它是由多个社区组成的。比如在现实生活中，在一个社区的内部，个体之间的交往会比较多，两个不同的社区之间，两个个体之间的交往会比较少。这个例子其实说明一个社区结构的一个性质，在网络中，一个社区内部联系密集，而社区之间联系相对稀疏。社区形成的原因多种多样，但社区最重要的基础是信任关系。信任是人类社会活动的基石，社区内的信任关系维系了社区的存在、发展。而社区之间可能的兴趣也不同，个性化推荐服务需要根据不同社区中不同的属性来推荐不同的个性化信息。所以，微博网络社区发现的研究对于微博上的舆情监测、个性化推荐系统和营销模式的研究具有重要意义。
[0003] 社区发现的目的在于发现复杂网络中的社区结构，或层次结构。而社区发现算法的早期研究主要表现为两大类：（1)基于图划分研究和谱平分研究；(2)基于节点相似性的层次聚类研究。而基于图划分的经典算法有B. W. Kernighan和S. Lin等人于1970年提出的Kernighan-Lin算法，Barbes于1982年提出的基于Laplace图的谱二分法。基于图划分的算法均需要对给定的复杂网络实行对半分，若需要划分为多个社区，则需要迭代处理。由于该类算法的限制条件较苛刻，需事先知道划分为子社区的个数，甚至还需要知道子社区的规模，所以这类图划分算法并不适合于进行社区划分。而基于层次聚类的社区发现算法大致又分为两类：分裂式层次聚类和聚合式层次聚类。Girvan和Newman等人于2001年提出的基于移除网络边介数值最大边的G-N算法，是分裂式层次聚类中较经典的社区发现算法。虽然该算法的准确度较好，但时间复杂度较高，需要不断的计算边介值，仅适合处理小规模的网络。基于这方面局限，又出现了一些较经典、具有代表性的聚合式层次聚类算法如：Newman提出的快速算法，Clauset、Newman和Moore等人提出的CNM算法。
[0004] κ-medoids聚类算法是一种基于划分的聚类算法，该算法是目前应用比较广泛的聚类算法之一，它具有算法简单、收敛速度快和局部搜索能力强的特点。本文利用 K-medoids算法结合微博网络的结构属性，提出一种基于信任关联度的微博网络社区发现算法。该算法引入信息群度的概念，将微博社区网络边权重的值不设为固定值1，而是动态设定。以最大信任关联度原则选取新的聚类中心，并进行模式归类，直到所有节点都划分完为止，最后根据LC模块度来确定理想的微博社区数目。该算法能够更贴近微博网络的特性并且较好的找到聚类中心，使得社区发现的质量大大提高。

【发明内容】

[0005] 针对以上现有微博社区发现方法中的不足，本发明的目的在于提供一种能有效地降低复杂度，还可以很好地提高微博社区发现的准确度的基于任关联度的微博网络社区发现算法，本发明的技术方案如下：
[0006] -种基于信任关联度的微博网络社区发现方法，其特征在于包括以下步骤：
[0007] 101、获取微博数据来定义节点的信息群度，具体包括以下步骤：
[0008] A1、根据节点的原创微博数％、微博转发数!Tu来计算出节点之间的活跃值a ^，其中有
[0009] Bl、根据节点之间的评论数为C1 j、赞数为I1 j，微博总数η来计算出节点之间的博文质量值Ql j，其中有
[0010] C1、将节点之间边权重Wl j的值设为节点对的信息群度，即
[0011] 102、根据101中求的信息群度来计算节点之间的信任关联度，具体包括以下步骤：
[0012] Α2、由于节点i与j之间的节点对的信息群度越小，它们的信任关联度就越大，定义两个相邻节点Vl、V j的信任关联度： node Re Iation(VilVj) = I-Wij
[0013] B2、利用深度优先搜索算法求得图中所有的非相邻节点之间的最短路径，然后再求出非相邻节点之间的最大信任关联度。假设微博网络中非相邻节点V 1和节点V 之间的最短路径为shortPath (Vi, Vj) = {(Vi, vk)，（vk, vm)，. . .，（vn, Vj)}，如果非相邻节点间的最短路径数为s，则选择其中乘积最大的作为非相邻节点的信任关联度，BP
[0014] C2、根据A2、B2可以构造微博网络的节点信任关联度矩阵R，即 R = [node Re lation(v；, Vj)] |V|x|V
[0015] D2、由于R是一个对称矩阵，根据节点与其自身的信任关联度值为1，因此为了计算方便，将矩阵R主对角线上的元素值设为相应节点的度，即
[0016] 103、在10U102的基础上再采用LC模块度，它与社区的连接密度和内聚系数相关，具体包括以下步骤： _7] A3、假设有某种划分形式，将网络G划分为S1, S2，…，Sn。首先，计算社区Si的连接密度L(Si)，其中，&表示社区Si的节点数；E(S1)表示社区Si内部的边数，即 LlN 丄UOioyy丄(65 A yJ^ rVJ ·* J/O JM
[0018] B3、然后，计算社区Si的内聚系数Coh(Si)，其中，i乒j，并且A(S1Jj)表示连接社区Si和Sj之间的边的总数，即
C3、在A3、B3的基础上计算LC模块度Q(Sd S2,. . .，Sn)，即
[0019] D3、再用改进的K-medoids算法对节点进行聚类，首先为每个簇随意选择一个代表对象，剩余的对象根据其与代表对象的距离分配给最近的一个簇，以簇类各个节点轮换为相应的聚类中心，最后得出最大的LC模块度值对应社区划分的最佳结果。
[0020] 进一步的，步骤101中获取微博数据即采用微博平台新浪微博的数据集。
[0021] 本发明的优点及有益效果如下：
[0022] 本发明采用一种基于信任关联度的微博网络社区发现算法，在定义社区节点对信息群度、动态分配网络边权重值的基础上，计算节点的信任关联度矩阵，再通过后续的改进 K-medoids算法对节点进行聚类分析，还可以很好地提高微博社区发现的准确度。
【附图说明】
[0023] 图1是按照本发明基于信任关联度的微博网络社区发现算法流程图；
[0024] 图2为改进K-medoids算法对节点进行聚类的流程图。
【具体实施方式】
[0025] 下面结合附图给出一个非限定的实施例对本发明作进一步的阐述。但是应该理解，这些描述只是示例的，而并非要

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘玲;杨长春;顾寰;吕晨;
技术所有人：常州大学;
我是此专利的发明人

上一篇：一种数据多副本关联的方法及系统的制作方法
上一篇：一种电子病历的非结构化信息转化为结构化的泛化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。