一种基于PageRank的社交大数据信息最大化方法与流程

文档序号:11408829阅读:162来源:国知局

本发明涉及一种信息最大化技术,特别涉及一种在既有友好关系又有敌对关系的社交网络信息最大化的方法。



背景技术:

随着互联网的发展和移动终端的普及,在线社交网络得到飞速的发展与关注。社交网络信息最大化的研究具有很实际的现实意义,利用社交大数据中的友好关系与特征来进行口碑营销和“病毒式传播”越来越成为研究的重点,它在市场营销、广告发布等方面有十分重要的应用。现有的社交网络信息最大化技术主要是考虑了社交网络中的友好关系,而没有考虑到社交网络中也存在敌对的关系,比如epinions和slashdot社交网络中就有敌对关系。目前对社交网络信息最大化的研究以及相关的影响传播模型都是基于友好关系的,实际的应用中敌对的关系也可能对影响的传播产生比较大的影响。



技术实现要素:

本发明的目的在于克服现有技术的缺点与不足,提供一种基于pagerank的社交大数据信息最大化方法,分别提取社交大数据中的友好关系和敌对关系,再分别利用pagerank进行计算,然后整合每个节点的结果计算影响力进行排序选择其中影响力最靠前k个节点作为种子节点来进行信息的传播。有的社交网络中不仅有友好关系,也有敌对关系,充分挖掘社交网络的特性对信息的最大化有很重要的意义。

本发明的目的通过以下的技术方案实现:一种基于pagerank社交大数据信息最大化方法,具体包括如下步骤:

s1、预处理:提取社交网络中的友好关系和敌对关系,并构成邻接矩阵;

s2、对步骤s1中的邻接矩阵中的友好关系和敌对关系分别用两个矩阵表示来,得到友好邻接矩阵和敌对邻接矩阵;

s3、对步骤s2中得到的友好关系和敌对关系邻接矩阵分别使用pagerank算法,计算得到相应的pr值;

s4、选出种子节点。

优选的,步骤s1中提取社交大数据中的友好关系和敌对关系:一般数据集中用户的签到数据是以文本方式给出,同时具有一些我们不需要的信息。首先进行预处理,根据所给出的社交网络数据集的信息,对所有用户之间的邻接关系进行处理,其中1代表两人之间的友好关系,-1代表两人之间的敌对关系,0代表两人之间没有联系来得到整个数据集的邻接矩阵。

优选的,步骤s2中,对步骤s1中的邻接矩阵分别提取里面的1和-1代表的友好关系和敌对关系代表的邻接矩阵,其中敌对邻接矩阵中的-1全部置为1。

优选的,步骤s3中pagerank算法:pagerank让链接来"投票",一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票;一个页面的pagerank是由所有链向“链入页面”的重要性经过递归算法得到的,一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级,这里用它来计算一个用户节点的重要性。

优选的,步骤s3中利用pagerank算法,将每个节点的pr值初始设定为1,然后每个节点将自己的pr值平均贡献给自己的链出节点,计算每个节点从它的邻居节点获得的贡献值,不断地迭代得到节点的最终的pr值。好友邻接矩阵和敌对邻接矩阵得到的值分别表示为pr+和pr-,分别代表了节点在友好关系和敌对关系中的重要性。

优选的,步骤s4中,用节点在友好关系中的pr值与节点在敌对关系中的pr值之差表示节点的影响力,影响力=pr+-pr-;根据步骤s3得到的结果,对每个节点进行计算;然后对所有节点的影响力进行降序排序,选择排在前面的k个节点作为种子节点去进行信息的扩散。

优选的,社交网络在信息传播过程中敌对关系的影响,若两者之间是敌对关系,一个被激活后,对另一个会产生消极的影响。

优选的,pagerank算法来进行影响力的度量,借鉴了网页投票的思想。

优选的,利用pagerank分别在好友邻接矩阵和敌对邻接矩阵中进行了应用,利用二者的差来度量影响力。

优选的,在模拟社交网络中信息的传播模型是改进的经典的投票模型,使其适用于既有友好关系又有敌对关系的在线社交网络。

本发明相对于现有技术具有如下的优点及效果:

1、本发明实现了利用pagerank在社交网络中信息最大化的启发式方法,本方法主要是在研究社交网络信息最大化的时候考虑了社交大数据中的敌对关系,充分利用社交大数据中的可用信息,利用了特殊社交网络中的特点。

2、本发明在计算用户的影响力时选择了结合pagerank算法来度量,选择种子节点是一次性选择了所有的种子节点,属于启发式的算法,时间上比较有效率,同时考虑了敌对关系和友好关系,所选择的种子节点在信息的传播过程中的重要性也是不言而喻的。对于既有友好关系又有敌对关系的社交网络信息最大化。

3、本发明方法在选择种子节点的时间上以及种子节点质量上具有一定的优势。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例

图1描述的是本方法的流程图。此实施例的数据集是snap(stanfordnetworkanalysisplatform)提供的既有友好关系又有敌对关系的社交网络数据集epinions。

提取社交大数据中的友好关系和敌对关系:一般数据集中用户的签到数据是以文本方式给出,同时具有一些我们不需要的信息。首先进行预处理,根据所给出的社交网络数据集的信息,对所有用户之间的邻接关系进行处理,得到整个数据集的邻接矩阵,其中1代表两人之间的友好关系,-1代表两人之间的敌对关系,0代表两人之间没有联系。然后分别提取里面的1和-1代表的友好关系和敌对关系代表的邻接矩阵,其中敌对邻接矩阵中的-1全部置为1。

对得到的友好关系和敌对关系邻接矩阵分别使用pagerank算法:pagerank让链接来"投票",一个页面的“得票数”由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的pagerank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。这里用它来计算一个用户节点的重要性,友好关系代表用户会积极的影响朋友,而敌对关系会消极的影响朋友,所以利用pagerank算法分别在两种邻接矩阵中进行计算。

选出种子节点:本方法利用用户在友好邻接矩阵和敌对邻接矩阵中的pr值得差来代表它的影响力。计算每个用户的影响力,然后按照降序排序,选择排在前面的k个节点作为种子节点。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种基于PageRank的社交大数据信息最大化方法,所述方法首先提取社交大数据中的友好关系和敌对关系,然后对得到的友好关系和敌对关系邻接矩阵分别使用PageRank算法,最后选出种子节点。该方法主要针对既有友好关系又有敌对关系的社交网络,考虑了敌对关系对信息传播的影响,结合PageRank算法分别友好关系和敌对关系的PR值的差来度量用户的影响力,选择出有效的种子节点集合,使得信息通过在线社交网络中的友好关系和敌对关系得到最大化的传播。

技术研发人员:何克晶;陈书波
受保护的技术使用者:华南理工大学
技术研发日:2017.03.03
技术公布日:2017.09.01
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1