舆情情感识别方法、装置及计算机可读存储介质与流程

文档序号：16898291发布日期：2019-02-19 17:41阅读：163来源：国知局

本发明涉及情感识别技术领域，尤其涉及一种舆情情感识别方法、装置及计算机可读存储介质。

背景技术：

传统的情感分析，通常需要全人工标注大量的正负面情感语料，然后通过情感语料进行训练，以抽取正负面语料中的情感词，最后再基于情感词的分布对一段文本进行情感识别，确认文档的情感偏向，比如该文本属于正向情感(积极的)或者属于负向情感(消极的)。

通常文本舆情的情感对不同行业领域来说，其定义是不一样的，因此，同样的情感语料很难完美的迁移到所有行业领域，因而往往需要针对相应的行业领域生成大量的情感语料，而每一条情感语料的生成都必须经过人工标注，因而需要大量的人力并且还需要相应的专业背景知识，进而影响了情感语料的标注效率，加大了舆情情感识别的操作难度。

技术实现要素：

本发明的主要目的在于提供一种舆情情感识别方法、装置及计算机可读存储介质，旨在解决如何提升情感语料的标注效率，降低舆情情感识别的操作难度的技术问题。

为实现上述目的，本发明提供一种舆情情感识别方法，所述舆情情感识别方法包括：

采用主题模型算法对同一领域的多个舆情文档进行主题聚类，得到多个主题簇，每一主题簇包括一个或多个文档；

对相应主题簇进行正负情感标注，得到带有正负情感标签的文档；

将带有正负情感标签的文档作为训练样本，进行情感识别模型训练；

基于所述情感识别模型，对待识别的目标舆情文档进行情感识别。

可选地，所述对相应主题簇进行正负情感标注包括：

基于预置的情感词典，从所有主题簇中筛选出具有情感倾向的主题簇并进行正负情感标注。

可选地，所述对相应主题簇进行正负情感标注包括：

获取用户指定的主题簇以及主题簇对应的正负情感；

对用户指定的主题簇进行正负情感标注。

可选地，在所述对相应主题簇进行正负情感标注，得到带有正负情感标签的文档的步骤之后还包括：

判断本轮主题聚类进行正负情感标注的主题簇数量以及正负向情感之间主题簇数量比例是否满足形成训练样本的条件；

若是，则停止进行下一轮主题聚类；

若否，则增大进行主题聚类所输出的主题簇数量并继续采用主题模型算法对所述舆情文档进行下一轮主题聚类。

可选地，所述基于所述情感识别模型，对待识别的目标舆情文档进行情感识别包括：

提取待识别的目标舆情文档中的关键句作为文本摘要；

基于所述情感识别模型，对所述文本摘要进行情感识别。

可选地，所述提取待识别的目标舆情文档中的关键句作为文本摘要包括：

对所述目标舆情文档进行分句，得到构成所述目标舆情文档的所有句子；

计算所述目标舆情文档的标题与每一个句子的相似度；

基于所述相似度，对每一个句子进行排序；

通过最大边界相关算法，从排序后的所有或指定数量的句子中选出指定数量的句子；

将选出的句子作为所述目标舆情文档中的关键句，以形成文本摘要。

可选地，所述基于所述情感识别模型，对所述文本摘要进行情感识别包括：

对所述文本摘要进行切词，得到多个单词；

基于切词得到的单词，构建所述文本摘要中各单词对应的词向量；

将所述词向量合并为句向量，并将所述句向量输入所述情感识别模型，以对所述文本摘要进行情感识别。

进一步地，为实现上述目的，本发明还提供一种舆情情感识别装置，所述舆情情感识别装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的舆情情感识别程序，所述舆情情感识别程序被所述处理器执行时实现如上述任一项所述的舆情情感识别方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有舆情情感识别程序，所述舆情情感识别程序被处理器执行时实现如上述任一项所述的舆情情感识别方法的步骤。

本发明采用主题模型算法对同一领域的多个舆情文档进行主题聚类，进而将舆情文档中的所有文档分别聚类到多个主题簇下，每一主题簇包括一个或多个文档，因此对主题簇进行正负情感标注也即相当于对主题簇下的所有文档进行正负情感标注，此外，本发明还进一步以带有正负情感标签的文档作为训练样本进行训练，获得情感识别模型并进行情感识别，因而提升了情感语料的标注效率，进而降低了舆情情感识别的操作难度。

附图说明

图1为本发明舆情情感识别装置实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明舆情情感识别方法第一实施例的流程示意图；

图3为本发明舆情情感识别方法第二实施例的流程示意图；

图4为图2中步骤s40的细化流程示意图；

图5为图4中步骤s401的细化流程示意图；

图6为图4中步骤s402的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种舆情情感识别装置。

参照图1，图1为本发明舆情情感识别装置实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，舆情情感识别装置可以包括：处理器1001，例如cpu，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。需要说明的是，处理器1001采用嵌入式芯片方式安装在舆情情感识别装置内。

本领域技术人员可以理解，图1中示出的舆情情感识别装置的硬件结构并不构成对舆情情感识别装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及舆情情感识别程序。其中，操作系统是管理和控制舆情情感识别装置与软件资源的程序，支持网络通信模块、用户接口模块、舆情情感识别程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的舆情情感识别装置硬件结构中，网络接口1004主要用于连接系统后台，与系统后台进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；舆情情感识别装置通过处理器1001调用存储器1005中存储的舆情情感识别程序，并执行以下操作：

采用主题模型算法对同一领域的多个舆情文档进行主题聚类，得到多个主题簇，每一主题簇包括一个或多个文档；

对相应主题簇进行正负情感标注，得到带有正负情感标签的文档；

将带有正负情感标签的文档作为训练样本，进行情感识别模型训练；

基于所述情感识别模型，对待识别的目标舆情文档进行情感识别。