一种基于微博的网络用户增强表示方法与流程

文档序号:11407366阅读:581来源:国知局
一种基于微博的网络用户增强表示方法与流程

本发明属于微博数据属于微博数据挖掘领域,尤其涉及针对微博数据的网络表示学习方法。



背景技术:

web2.0时代的互联网正逐步演变为无处不在的信息传播平台,twitter、微博等面向社会性网络服务(socialnetworkingservices,简称sns)的社交新媒体迅速得到大众的青睐。最新的统计数据显示,twitter的月活跃用户达到3.1亿,新浪微博的月活跃用户达到2.97亿。人们借助社交媒体表达观点、分享信息、交流互动,社交媒体依靠社交网络传播和扩散消息,在政治、经济、文化、教育等领域产生深刻影响。于是,在线社交网络数据规模庞大、形式多样、结构复杂、动态变化等特性,以及热点舆情深远的导向作用,使得在线社交网络分析具有重要的研究价值。以新浪微博为例,用户可以发布140字以内的原创博文,可以是图片、超链接、视频、音频等多种形式,也可以浏览、转发、评论所关注好友的博文。微博数据呈现多源异构的特点,用户生成文本、用户属性列表、网络拓扑关系等都是重要的数据源,如何融合多源微博信息计算用户节点的特征表示变得至关重要。

表示学习是机器学习领域一个重要的研究问题,通过自动学习一个从原始输入数据到新的特征表示的变换,得到有效的特征表示。网络表示学习就是学习网络节点在低维空间的特征表示,实现量化特征和降维表示的目的。

目前,在网络表示学习领域已经出现了很多的研究成果。传统的流行学习方法从高维数据中恢复出低维流形结构,找到高维网络数据的低维嵌入表示。比如,isomap算法基于mds理论框架,将任意两点的测地线距离作为流形的几何描述,lle算法(locallylinearembedding)认为一个流形在很小的局部邻域上可以近似看成局部线性的,将这个线性拟合的系数作为这个流形局部几何性质的刻画,le算法(laplacianeigenmaps)的基本思想是用一个无向有权图来描述一个流形,然后用图嵌入来寻找低维表示,即保持图的局部邻接关系,把图从高维空间重新画到低维空间。

近些年,深度学习为网络表示学习提供了新的思路,针对大规模网络结构数据和丰富的网络节点信息,基于深度学习的网络表示模型不断出现。

受word2vec模型的启发,deepwalk模型只考虑网络的拓扑结构,将网络中的节点对应语料库中的词,节点生成的序列对应语料库中的句子,采用随机游走的方法产生标准的输入序列,然后使用skip-gram模型对序列建模从而得到网络节点的向量表示。但是,deepwalk算法没有建立目标函数,不能学习带权有向图的节点表示,且节点序列是随机产生的,受噪声影响大。

line模型同时考虑网络拓扑结构的一阶和二阶相似性,一阶相似性表示网络中两个节点之间的点对相似性,即为节点之间边的权重,二阶相似性建立在“如果节点间共享相似的邻居节点,则两者趋于相似”的假设,利用两个节点的共同邻居来刻画二阶相似性。基于一阶相似性和二阶相似性的模型建好后,采用基于边的负采样方法来得到网络的节点表示。grarep模型考虑更高阶的相似性信息,对每一阶的局部信息分别建模,采用svd矩阵分解方法得到网络节点的向量表示,适用于大规模的网络结构。

针对deepwalk算法节点序列生成的随机性,node2vec模型改进寻找邻居节点的方式,认为网络中的节点存在内容相似性和结构相似性,其中内容相似性主要是相邻节点之间的相似性,通过宽度优先搜索具有同质性的邻居节点,而结构相似性的节点并不一定相邻,通过深度优先搜索具有结构同质性的邻居节点,对得到的节点序列采用skip-grim方法抽取节点的向量表示。

上述研究只是从网络结构的角度出发,但是以新浪微博为代表的在线社交网络不只有网络拓扑关系,节点还包含着大量其他形式的信息。鉴于网络节点信息的多样性,tadw(text-associateddeepwalk)方法采用诱导矩阵填充算法,同时对文本特征和网络结构建模,得到更好的网络节点表示。gene模型考虑到在线社交网络用户可以自行建组及选择加入其他人建的组,且同一组的节点即使没有直接相连的边,也会存在一些内在关系的事实,将组的信息考虑到网络表示学习中。multi-facetedrepresentations模型考虑用户生成文本、节点属性信息及网络拓扑结构三种信息,得到网络节点更真实的表示。

然而,现实世界中的网络通常是稀疏的,即网络中直接相连的边数太少,仅仅利用网络最初的有限结构信息很难学习到准确的网络表示。对于在线社交网络中的用户而言,生成文本所反映出的相似性特征可以暗示二者有着共同的关注兴趣,那么,可能存在潜在的好友关系。目前的研究尚未从节点的文本信息来扩展网络的拓扑结构,从而增强网络表示学习的效果。



技术实现要素:

本发明针对网络结构稀疏性的特征,基于上述假设事实,建立了一种结合用户生成文本信息的网络用户增强表示学习方法,并就用户的特征表示,实现了用户性别和年龄的推理任务。

本发明的具体实现步骤如下:

步骤一、结合现有的微博短文本处理方法,对用户生成博文进行预处理,从而消除噪声数据的影响;

步骤二、参照相关自然语言处理技术,生成预处理后的用户博文文本的特征向量,参照相似度度量函数计算博文向量之间的相似度,基于用户生成文本的潜在好友关系提取,构建潜在的好友关系网络;

步骤三、考虑网络结构的一阶和二阶相似性,整合原始网络结构信息并扩充原始的微博网络拓扑关系网络;

步骤四、将从博文信息提取到的潜在好友关系网络融合到整合后的网络拓扑结构上,修正原始的网络结构信息,包括增加部分连边以及增大部分连边的权重值两种修正方式;

步骤五、参照现有的网络表示学习技术,学习增强后的微博网络用户的特征表示;

步骤六、为了对比增强网络的表示向量与原始网络的表示向量之间的效果差异,将上述表示学习结果应用到性别和年龄推理任务上,与基准方法对比推理结果的准确率。

与现有技术相比,本发明的优点在于:本发明针对网络拓扑结构的稀疏性问题,考虑到“在线社交网络中发表相似博文的两个用户具有相似的兴趣爱好”的事实,提出一种结合用户生成文本的网络增强表示学习方法,更加精准地刻画在线社交网络的用户特征,提高微博用户属性推理任务的准确率。

附图说明

图1是结合用户生成文本的网络增强表示方法流程图

图2是本发明实施例的网络增强表示示意图

图3是本发明实施例中lda提取的文本特征的分布图

图4是本发明实施例中从用户生成文本提取到的潜在网络结构的可视化效果图

图5是本发明实施例中增强网络拓扑结构的可视化效果图

图6是本发明实施例中年龄推理任务的实验结果对比图

具体实施方式:

本发明针对网络结构的稀疏性特征,基于上述假设事实,建立了一种结合用户生成文本信息的网络用户增强表示学习方法,并就用户的特征表示,实现了用户性别和年龄的推理任务。

下面结合附图和具体实施方式对本发明加以说明。首先,给出如下形式化定义:

社交网络中,节点即对应用户,每个节点对应大量的文本信息,表示对应用户的历史博文信息。假定用g表示网络,则g=(v,e,t),其中,v={vi}是用户节点集合,e={(vi,vj)}是二值边集,每条边对应权重w,其中w∈{0,1},t={ti}是用户生成的博文集合。于是,本发明的研究目标是从用户生成博文中捕获文本的特征信息并对原始网络进行修正,从而学习修正网络g″中每个节点的低维表示

微博短文本预处理,新浪微博的博文是字数不超过140字的短文本,首先,将每个用户的历史博文整合成一个文本段落。博文口语化的表达方式使得微博文本存在大量的噪声数据,针对微博短文本的预处理操作,通过过滤停用词,替换异常词,分词等过程,剔除文本信息中的噪声数据,从而更有利于文本特征的提取。本发明针对微博文本所采用的具体预处理操作有以下几点:

1)新浪微博中规定两“#”之间文本内容是对应博文的话题信息,可以反映用户的关注兴趣,于是,两“#”之间的文本内容直接抽取作为关键词使用,无需再次切分;

2)“@”表示提及某用户,故“@”后的文本内容是用户昵称,无需进一步切分;

3)过滤掉原始文本中的标点符号等特殊符号;

4)对照奇异词表,替换文本中的所有奇异词。奇异词是一些被网民普遍接受的常用网络用语,包括缩略词,拼接词。比如,如果你想表达“谢谢你”,可以使用“3q”或“3q”;还有,“和谐”有可能出于某些表达目的会拆分成“禾口言皆”来表达;

5)对照繁简词表,将所有繁体字替换成对应的简体字;

6)使用hanlp分词工具对保留的微博文本进行分词处理;

7)过滤停用词表中的停用词;

8)统计所有词的tf-idf值,并过滤掉其中的低频词汇;

基于用户生成文本的潜在好友关系提取,考虑到相似的博文信息可以反映用户间共同的关注兴趣,也即是说相似博文对应的用户之间存在潜在好友关系的可能性比较大,于是,从用户生成文本中提取的用户关系被称为潜在好友关系。

潜在好友关系的抽取实质上可以划归到文本相似性计算问题。首先,采用lda话题模型生成用户微博文本的特征向量,然后,计算任意两用户博文向量间的余弦相似度表征对应的潜在关系边的权重大小,从而构建潜在好友关系网络。

lda是一个生成概率模型,涉及文档、话题和词三个层级。我们认为一篇文档可以表示为k个潜在话题的随机混合,其中每个话题服从词的多项式分布,每篇文档服从k个话题的多项式分布。于是,对于语料库中的每篇文档,生成过程描述如下:

1)对于每一篇文档mi,选择θ~dir(α),其中dir(α)是参数α的狄利克雷分布,θ是一个话题向量,向量中的每个元素表示每个话题出现在该文档中的概率;

2)对于第i篇文档中的第j个词wij,通过条件概率p(zi|θ),从话题向量θ中选择一个潜在话题zi,然后通过条件概率p(wj|zi,β)生成单词wj.

3)给定参数α和参数β,模型的联合分布是,

其中,w是观测变量,θ是隐藏变量,然后我们使用最大期望算法(em)学习参数α和参数β。

假定保留前t个话题,则每个文本段落被嵌入到向量其中,wi是对应到第i个话题的权重,表示用户vi生成的文本属于第i个话题的可能性。图2为文本特征的分布图,对于每个用户的生成文本,选择前三个话题,然后计算对应到三个坐标上的坐标值,一个点对应一个文本的向量表示。

最后,每个特征向量表示与每个用户生成文本关联的话题,换句话说,表示用户发表的博文中提取的关注兴趣。于是,我们采用余弦相似度计算方法,从这些表示向量中提取潜在好友关系。当然,其他的相似度函数也可以用于计算不同向量之间的相似度。给定两个表示向量则两用户vi和vj生成的潜在好友关系可以定义为,

因此,从用户生成文本中提取的潜在的邻接矩阵可以描述为矩阵其中,每个元素w′ij∈[0,1]。

整合原始网络结构信息,现实世界的社交网络通常是稀疏的,因为只有部分用户之间有直接的关注关系。而且,直接的好友关系通常是用户根据自己的喜好自愿添加的,所以,直接关注关系在仅考虑网络结构的网络嵌入问题中扮演着重要的角色。然而,直接好友关系不足以描述整个网络结构,可能不是好友的两个人,也具有某些共性特征。事实上,社交网络中具有共同好友的两用户趋近于有相同的兴趣和特征。

于是,line考虑上述两个事实,首先提出了一阶和二阶相似性的概念来充分刻画网络结构的局部和全局信息。

1)一阶相似性:

给定边集e,对于其中的每个节点对,对应边的权重值表示一阶相似度。表示一阶相似度矩阵w1的元素,可以定义为,

2)二阶相似性:

任意节点对的共同邻居数用来定义二阶相似度,来描述社交网络中两个用户的邻居结构的相似性。分别给定用户vi和用户vj的邻居节点集合然后计算共同好友数,二阶相似度被定义为,

现在,我们综合考虑一阶和二阶相似性,融合到从网络结构提取的邻接矩阵中。因此,我们引入w,表示整合后的邻居矩阵,矩阵的每个元素由两个相似度值构成,

其中,λ和μ是归一化系数,具体取值通过实验不断调整来确定。

用潜在好友关系修正网络结构,首先从文本提取的潜在好友关系来修正网络结构,然后使用line模型来学习扩展后网络结构的潜在表示。这种扩展可以带来两种改变:第一,权重由无到有,即从0变成1;第二,权重由小变大。附图1所示,灰色节点张成的子图是原始的网络结构图,此时的彩色节点是孤立节点,即彩色节点与网络中的其他节点无关联关系。当用潜在好友关系修正完网络结构后,新产生的虚线边是从微博文本提取的新的好友关系,加粗的实线边则表示原始网络结构中的边权重值增大,即好友关系增强。附图3和附图4分别为网络结构修正前后的微博好友关系拓扑图。

令w″为修正网络的邻接矩阵,其中,每个元素w″ij为,

然而,修正后的邻接矩阵中的某些元素太小,所以需要设定阈值,删除所有小于该阈值的元素。于是,我们把最后的修正邻接矩阵作为line的输入,来计算低维表示。line首先引入一阶和二阶相似度,并分别基于一阶相似性和二阶相似性,为每个节点学习对应的表示向量,然后,介绍如何将这两个向量表示融合为一个最终的节点表示。

本质上,一阶相似性表示的是网络中节点对的边的权重值。为了建模一阶相似度,line模型利用直接权重来建立经验概率,然后使用由表示向量构造联合概率,采用k-l散度来描述经验概率和联合概率之间的误差,从而建立目标函数。同样地,二阶相似性也可以建立类似的目标函数,采用负采样优化算法分别得到两个相似度下的节点向量表示最后把两个向量进行简单的拼接,得到最终的网络表示

微博用户的性别推理任务可以看成是一个基于用户特征表示的有监督的二值分类问题。于是,我们采用线性核的svm模型,并把最终的表示向量作为提取到的特征来训练性别分类器。与基准方法的实验结果如表1,本发明的方法如表2所示。

表1性别推理任务的实验结果(基准方法)

表2性别推理任务的实验结果(本发明的方法)

从表中数据可以看出,平均准确率提高了大约4个百分点。而且,随着测试集样本量的增加,准确率有所提高,对此我们可以这样解释,训练样本数越多,svm训练得到的分类器更准确。

年龄推理则是一个有监督的多分类问题。为了更准确地推理测试样本的年龄,我们根据用户信息中出生日期的分布,将用户年龄划分到4个区间。统计数据可以发现,大多数的用户是处于18岁到30岁之间的青年人。于是,我们基于“一对一”和“一对其余”两种svm拓展算法对用户年龄进行推理。实验结果如表3和表4所示。

表3年龄推理任务的实验结果(基准方法)

表4年龄推理任务的实验结果(本发明的方法)

两表中准确率的第一行为采用“一对一”的方式扩展的svm分类器实现年龄推理的结果,第二行为采用“一对其余”的方式扩展的svm分类器实现年龄推理的实验结果。从表中数据可以看出,网络增强表示所得到的表示向量比基准方案得到的表示向量的分类性能有了很大的提高,比如,对应percentage为10%左右时,第一种扩展方案的准确率从69.03%提高到76.25%。附图6显示年龄推理的结果对比曲线图,可见网络增强表示所得的向量表示确实得到了比基准方法的向量表示更好的分类结果。

总的来说,我们针对现实世界中在线社交网络的稀疏性问题,基于发表博文相似的两个用户之间具有潜在的好友关系的事实,提出了一种融合节点文本信息的网络增强表示学习方法,具体而言,利用从用户生成文本中提取潜在的好友关系网络,修正原始的网络拓扑结构,从而得到更准确的网络节点表示。相比于只考虑网络拓扑结构的网络表示学习,在性别和年龄推理两个任务上,准确率有了明显的提高。

因此,本发明所提出的基于微博的网络增强表示方法在网络用户特征表示和后续分类及推理任务中,具有很重要的实际应用价值。

为了说明本发明的内容及实施方法,本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1