一种基于微博群环境的微博多模态情感分析方法

文档序号:6535152阅读:1099来源:国知局
一种基于微博群环境的微博多模态情感分析方法
【专利摘要】本发明公开了一种基于微博群环境的微博多模态情感分析方法,其特征是按如下步骤进行:1、获取微博数据;2、提取所述微博文本内容和所述评论内容的第一模态文本特征;3、提取所述评论内容的第二模态特征;4、将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量;5、对微博数据进行情感标记处理并获得多模态情感训练模型;6、预测待测试微博文本内容的情感状态。本发明能够进一步结合微博评论内容对微博文本内容进行特征提取,从而提高微博情感状态判断的准确度。
【专利说明】一种基于微博群环境的微博多模态情感分析方法
【技术领域】
[0001]本发明属于自然语言处理技术与情感计算领域,具体地说,是一种基于微博群环境的微博多模态情感分析方法。
【背景技术】
[0002]随着电子商务、微博、网络新闻媒体等信息交流和交易平台的大行其道,使得相关的评论和微博数据呈井喷式增长。面对如此海量的数据,如何从其中提取有利于各方的有用信息,已经成为了现如今各领域的研究热点。文本倾向性判断作为其中的研究方向,亦被作为数据价值性分析的重要依据之一。
[0003]微博,微博客的简称,随着社交网络兴起,微博不再只是人们工作和生活中情感表达的方法,而更多是被用作为人与人之间的交流和沟通的方式。又因为微博承载的信息量庞大,表达的情感丰富,成为了相关研究重要的数据来源。因此近来有关微博数据的分析处理已经成为国内外研究热点。例如:对新闻轶事,产品评价,娱乐事件等内容的微博用户的关注度进行统计,关注信息进行分析等。
[0004]现有的文本情感分类相关问题的解决大部分是仅仅基于文本特征提取的方法。其中对于多数文本特征提取只考虑了词表面含义,且并没有进一步在语义层面上对文本进行分析,从而导致了情感分析不够准确。由于微博属于句子级的文本,在情感分析时候特征的选择也受到了篇幅的限制,现有的微博情感分析方法只是对于微博文本内容进行特征的提取,而忽略了微博文本所处的情感环境,即没有从微博评论的角度出发,考虑对微博文本内容的情感表达,以及微博用户与微博好友之间的互动。

【发明内容】

[0005]本发明是为了克服现有技术存在的不足之处,提出一种基于微博群环境的微博多模态情感分析方法,能够进一步结合微博评论内容对微博文本内容进行特征提取,从而提高微博情感状态判断的准确度。
[0006]本发明为解决技术问题采取如下技术方案:
[0007]本发明一种基于微博群环境的微博多模态情感分析方法,所述微博群环境是由微博用户和微博用户好友构成,所述微博多模态情感分析方法的特点是按如下步骤进行:
[0008]步骤1:获取微博数据:
[0009]步骤1.1:获取所述微博用户的账号ID ;
[0010]步骤1.2:根据所述微博用户的账号ID,调用微博的第三方API应用接口获得所述微博数据;所述微博数据包括微博文本内容、所述微博文本内容的评论内容、所述微博文本内容的评论数目和微博评论者;
[0011]步骤2:提取所述微博文本内容和所述评论内容的第一模态文本特征:
[0012]步骤2.1:对所述微博文本内容和所述评论内容分别进行分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容;[0013]步骤2.2:利用情感词典获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值;
[0014]步骤2.3:对所述预处理后的文本内容和预处理后的评论内容构建语法树并获得所述情感词的修饰成分;
[0015]步骤2.4:根据所述情感词的修饰成分调整所述情感词的情感值获得所述情感词的最终情感值;
[0016]步骤2.5:将所述情感词和所述情感词的最终情感值作为第一模态文本特征并用文本特征向量r/表示;
[0017]步骤3:提取所述评论内容的第二模态特征:
[0018]步骤3.1:根据所述微博文本内容的评论数目绘制微博群环境图;
[0019]步骤3.2:利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量^表示;
[0020]步骤4:将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量:
[0021]步骤4.1:利用式⑴获得矩阵向量^
【权利要求】
1.一种基于微博群环境的微博多模态情感分析方法,所述微博群环境是由微博用户和微博用户好友构成,其特征是,所述微博多模态情感分析方法按如下步骤进行: 步骤1:获取微博数据: 步骤1.1:获取所述微博用户的账号ID ; 步骤1.2:根据所述微博用户的账号ID,调用微博的第三方API应用接口获得所述微博数据;所述微博数据包括微博文本内容、所述微博文本内容的评论内容、所述微博文本内容的评论数目和微博评论者; 步骤2:提取所述微博文本内容和所述评论内容的第一模态文本特征: 步骤2.1:对所述微博文本内容和所述评论内容分别进行分词和词性标注处理获得预处理后的文本内容和预处理后的评论内容; 步骤2.2:利用情感词典获得所述预处理后的文本内容和预处理后的评论内容中的情感词以及所述情感词对应的情感值; 步骤2.3:对所述预处理后的文本内容和预处理后的评论内容构建语法树并获得所述情感词的修饰成分; 步骤2.4:根据所述情感词的修饰成分调整所述情感词的情感值获得所述情感词的最终情感值; 步骤2.5:将所述情感词和所述情感词的最终情感值作为第一模态文本特征并用文本特征向量i/表示;` 步骤3:提取所述评论内容的第二模态特征: 步骤3.1:根据所述微博文本内容的评论数目绘制微博群环境图; 步骤3.2:利用所述微博群环境图获取所述微博用户与所述微博评论者对所述评论内容的第二模态特征并用微博群环境向量G表示; 步骤4:将所述第一模态文本特征和第二模态特征进行结合获得最终特征向量: 步骤4.1:利用式(I)获得矩阵向
【文档编号】G06F17/30GK103729456SQ201410006867
【公开日】2014年4月16日 申请日期:2014年1月7日 优先权日:2014年1月7日
【发明者】孙晓, 李承程, 孙重远, 高飞, 陈炜亮, 任福继 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1