一种结合微博弱关系的微博情感分析方法与流程

文档序号：15558083发布日期：2018-09-29 01:35阅读：204来源：国知局

本发明属于文本分类技术领域，尤其涉及一种结合微博弱关系的微博情感分析方法。

背景技术：

《2010年中国互联网舆情分析报告》调查显示，2010年年度网络热点事件中关于“腾讯与360大战”话题，新浪微博的回复量达到260万条，“上海世博会”的相关评论也达到106万条，远远超过新闻报道、社区、论坛的数目。2011年7月23日温州动车事件，新浪微博相关评论达到282万，腾讯微博也有684万回复量。可见微博已经成为社会舆论传播的重要媒介之一，对微博进行情感分析，是掌握网民对突发事件的情感反馈的主要手段。

随着互联网技术的发展，大量新型的社交平台如twitter、sina、weibo等随之出现，它们吸引着大量用户。用户在这些网站上发表大量的微博，包含着他们各种各样的观点。而分析用户观点在各个领域都有重要作用和意义例如，可以通过分析用户观点来对股市进行预测、提高推荐系统的准确率、调查用户对于产品的反馈、帮助政府部门进行舆情监督等。这个分析的用户观点的过程就称为情感分析。

情感分类方法可以分为两类：基于词典的分析方法和基于机器学习的方法。基于词典的分析方法利用情感词典如sentiwordnet，senticnet等对句子中的词进行情感标记，整个文档的情感是对其句子的词的情感的综合。基于词典的情感分析方法是无监督的，并不需要事先标记的数据集，这种方法的缺点是过分依赖情感词典，且可移植性差，与分析领域有很大关联。基于机器学习的情感分析方法是将情感分析视为文本分类。这种方法从已经标记的文本中提取特征，然后对未知文本进行分类。这类方法通常需要大量的带标记的训练集，分类精度和训练集的规模有很大关系。

但由于这些新兴的社交网络的内容是由用户生成的，其表达方式各异，生成的句子简短，含有大量的噪音来干扰传统的情感分析方法。传统的单纯基于选择不同的文本特征的方法在这种新的情境下并不适用。这些方法假设各个文本之间是相互独立的，在社交网站上，这个假设并不成立，文本之间存在着各样的关系。

申请号为201310506561.4的专利微博中网络新词抽取方法和微博情感分析方法及系统，提及一种基于词汇抽取的微博情感分析方法，能有效对多元化情感进行表示。采用与临床心理学相结合的方法构建情感向量，并对微博数据流进行检测，自动发现并吸收能表示情感的网络新词来更新情感向量，不仅具有一定的权威性，同时也可以保证情感向量的全面性。建立情感向量的层次化结构，避免了情感向量的稀疏性；同时基于情感向量的层次结构，可对微博进行的多层次分析，能从不同角度反应公众对突发事件的情感态度。但该方法可移植性差，不能有效地应用于其他社交工具。

申请号为201410723617.6的专利，公开了一种融合显性和隐性特征的中文微博情感分析方法，该方法针对微博中的词汇，表情，符号，谐音词，简写词等进行细致分析。能够具体细致地分析出用户微博中包含的多重情感。但该方法可操作性差。且互联网时代，表情符号的情感归属难以划分或者变化迅速，使得情感分析结果可信度下降。

技术实现要素：

本发明的目的在于公开适用范围广、可移植性强的一种结合微博弱关系的微博情感分析方法。

本发明的目的是这样实现的：

一种结合微博弱关系的微博情感分析方法，其特征在于：包含如下步骤：

步骤(1)：根据社会学中的情感一致性理论，计算微博之间的情感一致性关系矩阵，建立基于情感一致性的微博情感分析模型：

步骤(1.1):根据用户发布的微博信息，建立微博之间的情感一致性关系矩阵asc：

asc＝u^t×u；

上式中，u是用户微博矩阵，u的第i行第j列表示的是用户ui发布了微博dj；

步骤(1.2)：根据社会学中的情感一致性理论，建立基于情感一致性的微博情感分析模型：

上式中，lsc＝dsc-asc，dsc是对角阵，dscii表示dsc的第i行第i列的元素，ascij表示asc的第i行第j列的元素，y∈r^n×c是每个微博对应的情感标签矩阵，n是微博数量，c是情感种类数目；是y的第i行，是y的第k列；x∈r^n×m是微博特征矩阵，w∈r^m×c是分类器；m是特征数目；

步骤(2)：根据社会学中的情感一致性理论，计算微博情绪感染性矩阵，建立基于情绪感染性的微博情感分析模型；

步骤(2.1):根据用户之间的关注信息，建立微博情绪感染性矩阵aec：

aec＝u^t×f×u；

上式中，f∈r^d×d是用户之间直接关系的矩阵；d为用户数目；fij是f的第i行第j列的元素，表示用户ui和用户uj的朋友；fij＝1时，表示用户ui和用户uj是互有关注的朋友关系；

步骤(2.2)：根据情感一致性理论，建立基于情绪感染性的微博情感分析模型：

上式中，lec＝dec-aec，dec是对角阵，decii表示dec的第i行第i列的元素，aecij表示aec的第i行第j列的元素，

步骤(3)：根据社会学中的结点之间的弱关系也可以影响结点的理论，根据微博情感一致性和情绪感染性矩阵，使用社区划分算法，计算微博弱关系矩阵，建立基于微博弱关系的微博情感分析模型；

步骤(3.1)：将aec和asc相加，得到微博间的之间关系矩阵；

步骤(3.2)：根据微博间的之间关系矩阵，使用社区划分算法对微博进行社区划分；

步骤(3.3)：得到社区划分后，计算微博弱关系矩阵awd；awdij是awd的第i行第j列的元素，当且仅当微博i和微博j在同一社区时awdij＝1；

步骤(3.4)：根据在同一社区中的两个用户更有可能分享同样的情感的理论，建立基于微博弱关系的微博情感分析模型：

上式中，lwd＝dwd-awd，dwd是对角阵，dwdii表示dwd的第i行第i列的元素，awdij表示awd的第i行第j列的元素,

步骤(4)：结合步骤(1),步骤(2)和步骤(3)，得到综合模型，然后加入基于微博文本内容的情感分析模型并正则化，得到最终模型。

步骤(4.1)：结合步骤(1),步骤(2)和步骤(3)，得到综合模型：

上式中，α1表示情感一致性在综合模型中的比例，α2表示情绪感染性在综合模型中的比例，α3表示微博弱关系在综合模型中的比例。

步骤(4.2)：处理综合模型得第一中间模型：

步骤(4.3)：令a＝α1ascij+α2aecij+α3awdij,则第一中间模型化为：

上式中，l＝d-a，d是对角阵，dii表示d的第i行第i列的元素，aij表示a的第i行第j列的元素，

步骤(4.4)：结合微博的文本特征，更新第一中间模型得到第二中间模型：

上式中，α为权重系数；

步骤(4.5)：对第二中间模型进行正则化处理，加上正则化项||w||1，得到最终模型：

上式中，β为正则化项的权重系数；

步骤(5)：优化最终模型，解出微博情感分析器：

步骤(5.1)：令

上式中，l(w；x,y)是可微部分，r(w)是不可微部分；

步骤(5.2)：用近似函数表示可微部分l(w；x,y)：

上式中，λt是第t次迭代的步长；

l(w；x,y)在w处的梯度为：

优化问题变为：

步骤(5.3)：计算第t+1次的w：

上式中，

步骤(5.4)：重复步骤(5.3)直到w收敛或者循环次数超过设定值。

本发明的有益效果为：

本发明根据一种在新兴社交网络上的新假设：微博文本之间并不是相互独立的，使得本发明更加符合社交网络的实际情况，使模型更精确。根据弱关系弱联结有利于信息的传递理论，建立微博弱关系情感分析模型，使微博之间的关系更丰富，层次更深，从而增加模型的分类能力。本发明不仅利用了微博关系矩阵，还考虑了微博的文本内容，使分析结果更准确。

具体实施方式

下面进一步描述本发明：