在社交媒体网络上自动筛选有影响力用户的方法

文档序号：6381193阅读：926来源：国知局

专利名称：在社交媒体网络上自动筛选有影响力用户的方法
技术领域：
本发明属于数字信息处理技术领域，具体涉及一种社交媒体网络的数据筛选技术，特别是基于多媒体内容与链接分析的主题敏感有影响力用户的筛选方法。
背景技术：
社交媒体网络的出现和繁荣发展，改变了人们获取和消费信息的方式。各种社交媒体网络为人们提供了一个可以便捷创造和分享兴趣内容的平台。比如，新浪、腾讯微博的短讯图片分享，twitter的短讯,Flickr的图片分享等。然而，一个显著的存在问题是，人们在便捷获取信息的同时，也面临信息过载的问题。人们获取信息时，会倾向于获取自己感兴趣的内容和把有影响力的用户作为信息源。从社交媒体网络中筛选出在某一领域或主题下有影响力的用户或是兴趣对象，成为当前学术界和工业界关注的热点。通过筛选出主题敏感的用户，一种“兴趣达人”或“意见领袖”，从而商家可以进行影响力营销推广，用户可以更好地有目标性地获取所感兴趣所需要的知识信息。目前针对有影响力用户的筛选，现有的方法有一种是专家发现方法，即给定一个主题，鉴别出有相关的技能或经验的人。现有的工作主要集中在文本数据上，没有涉及多媒体数据，即各种用户感兴趣的信息载体，比如音频、图片、视频等。另一种是社交媒体网络的影响力分析，即分析社交媒体网络并对社交媒体网络中的影响力进行建模，了解社交媒体网络的动态发展情况。现有主要工作是在社交网络中鉴别影响力的存在或者是在同质网络中量化影响力。然而，上述方法不能完全真实准确地反映用户影响力在社交网络中的分布，用户影响力在社交网络中是一个连续性的可量化的变量，并且用户的影响力是主题敏感的，即在不同的主题上，用户的影响力分布是不同的。传统的方法，一方面大多方法局限于文本数据处理度量用户影响力，而实际上社交网络中包含丰富的多媒体数据，这些信息对用户影响力建模具有重要的作用。另一方面传统方法是对用户一般化的影响力建模，没有考虑主题敏感的影响力建模。

发明内容
(一 )要解决的技术问题本发明所要解决的技术问题是如何自动地从社交媒体网络中关于特定的主题筛选出影响力的用户，并克服当前方法只在文本数据上为用户影响力建模的局限和仅限于用户全局影响力的度量。( 二 )技术方案为解决上述技术问题，本发明提出一种在社交媒体网络上自动筛选有影响力用户的方法，该方法包括步骤如下步骤S1:利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模；步骤S2 :采用超图约束的正则化主题概率模型，利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束，自动学习得到隐含的兴趣主题；步骤S3 :对每个用户和兴趣对象进行主题影响力排序，采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力，直到稳态，然后排序可得到特定主题下的有影响力的用户。(三)有益效果本发明利用社交媒体网络中包含的各种媒体内容自动地发现潜在的主题,并分析相应的主题下的有影响力用户，能够在多模态异质网络中利用多媒体数据和各种社交链接关系挖掘出主题敏感的用户。并且，本发明能够真实而准确地反映用户影响力在社交媒体网络中的分布，筛选出社交媒体网络中主题敏感的有影响力用户。

图1是本发明在社交媒体网络上自动筛选有影响力用户的方法的流程图；图2是根据本发明的基于视觉内容构建的同质超边示意图；图3是根据本发明的基于文本内容构建的同质超边示意图；图4是根据本发明的异质超边示意图；图5是本发明的超图中影响力消息传播示意图；图6a和图6b是根据本发明的一个实施例的方法所得到的代表性用户和图片。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。本发明的目标是筛选出社交媒体网络中主题敏感的有影响力用户。本发明中的社交媒体网络指的是指为用户提供的一个可以创造和分享媒体信息的平台，例如图片分享网站Flickr。本发明中所称的用户指的是社交媒体网络中的主体对象即人，所称的兴趣对象指的是由用户创造和分享的特定对象，如图片、视频、音乐。所谓主题指的是兴趣对象在语义层次上的聚合表达，具体表现形式为语义相近的词的概率分布。有影响力用户是指在社交网络中能够对其他用户的网络行为比如转发、评论等产生直接或间接影响的用户，所谓的影响力定义为当用户的情绪、意见或行为受到其他人的作用的一种表现形式。本发明的社交媒体网络指的是以兴趣对象为中心的，为用户提供的一个创造和分享兴趣对象的平台，兴趣对象可以是短讯、图片、视频、音乐等，在社交媒体网络中存在丰富的多媒体数据，多模态和异质的，比如在Flickr中，存在文本、图片、视频，并且在用户和图片之间存在评论、转发、喜爱等链接关系。概括地说，本发明利用社交媒体网络中包含的各种媒体内容自动地发现潜在的主题，并分析相应的主题下的有影响力用户。本发明能够在多模态异质网络中利用多媒体数据和各种社交链接关系挖掘出主题敏感的用户。下面具体说明本发明的实施方式。图1所示为本发明的有影响力用户筛选方法的流程图。如图1所示，本发明包括三个步骤S1、超图构建(hypergraph construction) ;S2、兴趣主题分布学习(Topicof interest distribution learning) ;S3、主题敏感影响力排序(Topic sensitiveinfluence ranking)。下面分别说明各个步骤。S1、超图构建
所谓超图指的是能够表不多阶关系的图。在超图中，包含节点和超边G = (V, E,W)，其中节点表示不同类型的对象，而超边可以连接多于两个节点表示相互之间高阶关系。超图能够对包含高阶关系的对象网络进行建模。步骤SI是运用超图模型来为社交媒体网络中的用户、兴趣对象及其相互作用关系进行建模的步骤。在社交媒体网络中，用户和兴趣对像是最基本的元素，其间存在多种链接关系，比如用户可以评论、转发、喜爱和评论一个兴趣对象。在本发明中，用超图节点表示社交媒体网络中的用户(user)和兴趣对象(objectof interest, 01);超边分为两种类型同质(homogeneous)超边和异质(heterogeneous)超边。同质超边用于表示兴趣对象之间的内容相似性,包括视觉内容相似性和文本内容相似性，异质超边用于表示用户和兴趣对象之间的高阶社交链接关系，如用户和兴趣对象之间存在的喜欢和评论关系。图2为构建基于视觉内容相似性的同质超边的示意图，如图2所示，本发明采用K近邻的方法，即对于每一个兴趣对象，找到其K个最近邻的兴趣对象，然后用一条同质超边连接这些节点，并且权重设为I。对于文本内容相似性，本发明构建基于文本标签的同质超边，图3为构建基于文本相似性的超边的示意图，如图3所示，首先从所有兴趣对象的文本元数据抽取一个词典，然后对于每一个词，为所有包含该词的兴趣对象建立一条超边，并且权重设为I。对于异质超边，本发明主要考虑两种一种异质超边是“拥有者-多个兴趣对象-单一用户”(owner-01s_user)的超边，其连接的是拥有者(用户A)和另一个用户B以及他们之间的交互的多个兴趣对象，用户B对用户A的多个兴趣对象表现出兴趣行为，比如评论或喜欢；该超边的权重为I。另一种异质超边是拥有者-单一兴趣对象-多个用户(owner-01-users)的超边，其连接的是拥有者(用户A)和一个兴趣对象以及对该兴趣对象产生兴趣行为的多个用户。该超边的权重为I。图4为上述两种异质超边的不意图，箭头表不用户和兴趣对象间的某种链接关系。S2、兴趣主题分布学习在社交媒体网络中，每一个兴趣对象既包含有内容信息，也包含有上下文元数据信息，内容信息包括文本、音频、视频等信息，上下文元数据信息包括标签、时间、位置等信息。该步骤S2采用超图正则化主题概率模型，利用兴趣对象的内容信息和内容信息之间的相似性作为约束，自动学习得到隐含的兴趣主题。假设一个集合包含有N个兴趣对象0 = Io1, of, oN},享有K个主题Z = Iz1,,zK}，每一个兴趣对象表示成一个基于词袋的特征向量W = (W1, w2,,wj。把每一个兴趣对象看作一个文档，附带的文本中的单词作为词，共同享有的主题作为主题，我们采用概率潜在语义索引(PLSI)来对每一个兴趣对象的产生和共生词率来进行建模，产生过程如下以概率P (Oi)选择一个兴趣对象Oi ；以概率P (zk I Oi)选择一个潜在的兴趣主题Zk ；以概率P (wj Izk)产生一个单词W」。
一对兴趣对象和单词的观察概率如下计算
权利要求
1.一种在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，该方法包括步骤如下步骤S1:利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模；步骤S2 :采用超图约束的正则化主题概率模型，利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束，自动学习得到隐含的兴趣主题；步骤S3 :对每个用户和兴趣对象进行主题影响力排序，采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力，直到稳态，然后排序可得到特定主题下的有影响力的用户。
2.根据权利要求1所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述步骤SI包括用超图节点表示社交媒体网络中的用户和兴趣对象，用同质超边表示兴趣对象之间的内容相似性，用异质超边表示用户和兴趣对象之间的高阶社交链接关系。
3.根据权利要求2所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述兴趣对象之间的内容相似性包括视觉内容相似性和文本内容相似性，并且，用于表示视觉内容相似性的超边构建步骤为对于每一个兴趣对象，找到其K个最近邻的兴趣对象，然后用一条同质超边连接这些节点，并且权重设为I ; 用于表示文本内容相似性的超边构建步骤为首先从所有兴趣对象的文本元数据抽取一个词典，然后对于每一个词，为所有包含该词的兴趣对象建立一条超边，并且权重设为I。
4.根据权利要求2所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述异质超边包括拥有者-多个兴趣对象-单一用户的超边，该超边的权重设为I ; 拥有者-单一兴趣对象-多个用户的超边，该超边的权重设为I。
5.根据权利要求1所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述超图约束正则化的主题概率模型为对象在主题语义空间的分布保持局部相似性。计算兴趣对象O的主题分布p (Z I 0)与语义空间主题p (W I Z)公式如下
6.根据权利要求1所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述步骤S3包括基于拥有者-多个兴趣对象-单一用户的超边，计算用户影响力；基于用户影响力和拥有者-单一兴趣对象-多个用户的超边，计算每一个兴趣对象影响力；对用户影响力和兴趣对象影响力迭代更新，直到达到稳态，得到每个用户和兴趣对象的影响力。
7.根据权利要求6所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述步骤S3的计算用户影响力的步骤包括通过下式计算两个用户Ui, Uj的主题相似度fk(i，j)
8.根据权利要求6所述的在社交媒体网络上自动筛选有影响力用户的方法，其特征在于，所述步骤S3中计算兴趣对象影响力的公式为
全文摘要
本发明是一种在社交媒体网络上自动筛选有影响力用户的方法，包括步骤如下步骤S1利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模；步骤S2采用超图约束的正则化主题概率模型，利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束，自动学习得到隐含的兴趣主题；步骤S3对每个用户和兴趣对象进行主题影响力排序，采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力，直到稳态，然后排序可得到特定主题下的有影响力的用户。本发明能够真实而准确地反映用户影响力在社交媒体网络中的分布。
文档编号G06F17/30GK103020116SQ201210455018
公开日2013年4月3日申请日期2012年11月13日优先权日2012年11月13日
发明者徐常胜, 桑基韬, 方全申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐常胜;桑基韬;方全
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。