情感分析方法、系统、计算机终端及存储介质与流程

文档序号:19739724发布日期:2020-01-18 05:02阅读:141来源:国知局
情感分析方法、系统、计算机终端及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种情感分析方法、系统、计算机终端及存储介质。



背景技术:

新闻是大多数人了解这个世界变化的有力途径,通过分析目标公司相关新闻中的情感倾向,公司可以知道大众对自己的喜恶风向,股民也可以通过公司舆情来辅助判断是否该买入和卖出股票。在各大门户网站的众多新闻中,如何通过技术手段准确地提取新闻中目标公司以及判断新闻中内容对目标公司是否利好,成为一个需要解决的问题。目前市场中的情感分析方案多采用基于规则词典或纯模型方式,针对的是文本整体的情感而不是针对目标的情感。这种方式存在正确率不高的问题,如标注的财经领域数据测试百度情感分析接口,正确率不到7成。



技术实现要素:

本发明的目的在于针对现有技术的上述问题,提供一种情感分析方法、系统、计算机终端及存储介质用于解决现有技术的不足。

具体地,本发明提供了一种情感分析方法,包括:

获取待分析文本内容,识别所述待分析文本内容中的目标对象;

对所述待分析文本内容进行分词处理;

将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;

采用情感词典优化所述词向量;

将所述目标对象和优化后的词向量输入情感分析模型,计算得到所述待分析文本内容针对所述目标对象的情感倾向概率。

作为上述技术方案的进一步改进,所述方法还包括:

建立针对所述目标对象的目标词典,采用所述目标词典筛选包括所述目标对象的名称的文本内容作为待分析文本集;

计算所述待分析文本集中每一条待分析文本中针对所述目标对象的情感倾向概率,得到情感倾向概率集;

根据所述情感倾向概率集确定所述待分析文本集针对所述目标对象的情感倾向。

作为上述技术方案的进一步改进,所述方法还包括:

为所述目标对象分配一个标识,所述识别所述待分析文本内容中的目标对象后用所述标识替换文本内容中的所述目标对象。

作为上述技术方案的进一步改进,所述采用情感词典优化所述词向量包括:

利用所述情感词典在通过所述计算得到的词向量中添加一个包括三个情感级别的情感类型维度,所述情感级别包括正面情感级别、负面情感级别、和中性情感级别;

利用所述词向量中相应情感级别的预设情感分数值调整所述词向量。

作为上述技术方案的进一步改进,所述识别所述待分析文本内容中的目标对象包括:

将所述待分析文本内容输入预先训练好的实体识别模型,所述实体识别模型将所述待分析文本内容分为若干个字符,为每个字符分配初始向量,按照从前往后的第一顺序和从后往前的第二顺序同时计算各字符在文本中出现位置的相应概率,根据该概率确定各字符在文本内容中的位置,根据该位置识别出由字符组成的目标对象。

作为上述技术方案的进一步改进,所述计算得到所述待分析文本内容中针对目标对象的情感倾向概率包括:

将包括标识的分词和所述调整后的词向量输入情感分析模型,所述情感分析模型根据各分词调整后的词向量对包括标识的分词的词向量的倾向性计算得到所述各分词对所述标识的情感倾向概率。

作为上述技术方案的进一步改进,所述分词字典的预训练包括:

获取待分析文本内容所属领域的语料信息;

将所述语料信息进行预处理后输入word2vec算法得到对应各词的词向量,收集各词的词向量得到分词字典;所述预处理包括分句处理,基于分句处理结果进行分词处理并删除去掉词长度小于设定长度阈值的词。

作为一个总的技术构思,本发明还提供一种情感分析系统,包括:

获取单元,用于获取待分析文本内容,识别所述待分析文本内容中的目标对象;

分词单元,用于对所述待分析文本内容进行分词处理;

计算单元,用于将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;

优化单元,用于采用情感词典优化所述词向量;

分析单元,用于将所述目标对象和优化后的词向量输入情感分析模型,计算得到所述待分析文本内容中针对所述目标对象的情感倾向概率。

作为一个总的技术构思,本发明还提供一种计算机终端,包括:

处理器和存储器;

所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机终端执行根据所述的情感分析方法。

作为一个总的技术构思,本发明还提供一种计算机可读存储存储介质,其存储有计算机程序,所述计算机程序被执行时实施所述的情感分析方法。

与现有技术相比,本发明实施例提出了一种情感分析方法,通过对待分析文本内容进行分词处理后,计算每个分词的词向量,并进一步采用情感词典优化词向量,得到待分析文本内容针对每个目标对象的情感倾向概率;该方法可以高效准确地计算分析结果,能实现较好地提取和判断文本对于目标对象的情感,适用性强。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。

图1示出了本发明中情感分析方法的流程图;

图2示出了本发明中实体识别模型的分析流程图;

图3示出了本发明中情感分析模型的分析流程图;

图4示出了本发明中情感分析系统的结构示意图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有中性实施例,都属于本发明保护的范围。

在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。

需要说明的是,待分析的文本内容可以是获取的某一句话、某一个段落、或者某一篇文章,其类型可以是新闻、论文或者广告等中性类型的文本。

如图1所示,本发明提供的情感分析方法,包括:

101:获取待分析文本内容,识别所述待分析文本内容中的目标对象;

102:对所述待分析文本内容进行分词处理;

103:将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;

104:采用情感词典优化所述词向量;

105:将所述目标对象和所述优化后的词向量输入情感分析模型,计算得到所述待分析文本内容针对目标对象的情感倾向概率。

上述的情感分析方法,可以高效准确地计算分析结果,能实现较好地提取和判断文本对于目标对象的情感,适用性强。

实施例1

本实施例以某条新闻作为待分析文本内容为例,具体地,本实施例中待分析目标为某公司,则将该公司名称作为目标对象名称。作为可变换的实施方式,待分析对象还可以为中性例如学校或者机构等。

具体地,以对新闻“小米公司创造了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。小米还是继苹果、三星、华为之后第四家拥有手机芯片自研能力的科技公司。”进行情感分析为例。

首先,可采用bert+bilstm-crf-ner模型在上述新闻中提取目标对象,本实施例中目标对象为公司名称,将待分析新闻的文本内容输入预先训练好的bert+bilstm-crf-ner模型(实体识别模型),如图2所示,bert+bilstm-crf-ner模型的one-hotvector层(独热编码向量)将如图中的字符z1、z2、z3、和z4通过look-uplayer(查找层)对应预训练编码x1、x2、x3、x4,forwardltsm(前向长短期记忆网络)层和backwardlstm(后向长短期记忆网络)层分别按照从前往后的顺序和从后往前的顺序输送各字符向量到模型,得到各字符对每个可能标注的概率,最后结合crflayer(条件随机场)的对相邻序列关系的规则综合得到最终每个字符最可能的标注。得到字符标注后,将b标注作为确认的目标词的开头,与其后紧接的i一起连接为一个完整目标词。

bert+bilstm-crf-ner模型在上述新闻中提取到公司名称有小米、苹果、三星、华为。需要说明的是,若针对该四个公司名称,进行新闻情感分析,得到的是针对该新闻整个文本,而不是某一个具体的目标,因此,将目标对象确定为小米公司,采用bert+bilstm-crf-ner模型识别上述待分析新闻中的“小米公司”,为“小米公司”添加标识为“*”号。其中,给目标对象添加标识,可以更清楚地将目标对象与同一条新闻中的中性内容进行区分,进一步提高针对目标对象进行情感分析的准确性和针对性。

进一步地,可采用200维的word2vec方法对上述新闻进行分词处理,则上述新闻被分词处理后如下所示。

“小米公司”“创造了”“用”“互联网”“模式”“开发”“手机操作系统”、“发烧友”“参与”“开发”“改进”“的”“模式”。“小米”“还是”“继”“苹果”、“三星”、“华为”“之后”“第四家”“拥有”“手机芯片”“自研”“能力”“的”“科技公司”。

进一步地,将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量,具体地,分词字典的预训练包括:获取待分析文本内容所属领域的语料信息;将语料信息进行预处理后输入word2vec算法得到对应各词的词向量,收集各词的词向量得到分词字典;其中,预处理包括分句处理,基于分句处理结果进行分词处理并删除去掉词长度小于设定长度阈值的词。本实施例中,设定长度阈值为3。且值得说明的是,本实施例中采用新闻领域的语料信息。通过对相同领域的语料信息进行分词训练得到分词字典,可以得到更符合对应待分析新闻的语境的词向量。

需要说明的是,由于word2vec方法在训练词向量时,使得语义相似的词的向量接近,无法区分情感上的反义词,如对于公司股票方面的“大涨”和“大跌”的词向量比较接近,但是这两个词汇在情感上属于截然相反的两种情感。因此,需要调整和优化上述词向量。例如,给200维的词向量加一个包括三个情感级别的情感类型维度。

本实施例中,添加的情感类型维度包括三个情感级别,分别为正面情感级别、负面情感级别、和中性情感级别。

例如,可将正面情感级别对应的情感分数值设为1,将负面情感级别的情感分数值设为-1,将中性情感级别的情感分数值设为0;获取词向量对于目标对象的情感级别,并确定情感分数值,采用情感分数值优化所述词向量。需要说明的是,本实施例在给目标对象添加标识,并给词向量加一个包括三个情感级别的情感类型维度,实际上,本实施例中采用的是202维的情感分析(基于200维的词向量上假设一维标识和一维情感类型维度),增加了对文本内容进行情感分析的维度,可以更灵活更全面地实现情感分析,使情感分析结果更为准确。

本实施例中,针对上述新闻,采用bilstm分类模型(情感分析模型)分析得到新闻中对于标识为“*”号的目标的情感倾向。

如图3所示,将包括标识“*”的分词和包括情感类型维度的词向量输入bilstm分类模型,bilstm分类模型通过lstm(长短期记忆网络)计算每个分词对标识的情感倾向概率,并通过outputlayer(输出层)输出情感倾向概率。情感倾向概率值越大,表示对应的分词对标识的情感倾向性越强。具体地,当bilstm分类模型输出的结果在(0.6,1]之间时表示对标识的情感为正面情感,当结果在[0,0.4)之间时表示对标识的情感为负面情感,结果在[0.4,0.6]之间时表示对标识的情感为中性情感。需要说明的是,本发明并不对情感的具体概率划分区间做限定,其数值划分区间根据实际情况可在一定范围内进行调整,只需满足体现情感差别即可。

实施例2

本实施例以若干条新闻组成的新闻集作为待分析文本集为例。

本实施例中,建立针对目标对象的目标词典,采用目标词典筛选包括目标对象的名称的文本内容作为待分析文本集;计算待分析文本集中每一条待分析文本中针对目标对象的情感倾向概率,得到情感倾向概率集;根据情感倾向概率集确定待分析文本集针对目标对象的情感倾向。

本实施例中,在建立针对目标对象的目标词典时,采用了所有与目标对象有关的名称,例如,小米、小米公司、小米科技。即,手机了所有包括该相关名称的新闻作为待分析新闻集,并统一所有名称为小米,便于后续识别目标对象。

即,本实施例2,基于上述实施例1的方法,针对于多条新闻进行分析,可以获取新闻集对目标对象的情感倾向。能获知目标对象在某个群体中的受欢迎程度。

实施例3

如图4所示,本实施例提供一种情感分析系统,包括:

获取单元,用于获取待分析文本内容,识别待分析文本内容中的目标对象;

分词单元,用于对待分析文本内容进行分词处理得;

计算单元,用于将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;

优化单元,用于采用情感词典优化词向量;

分析单元,用于将目标对象和优化后的词向量输入情感分析模型,计算得到待分析文本内容中针对目标对象的情感倾向概率。

实施例4

与上述实施例1相对应地,本实施例提供一种计算机终端,包括:

处理器和存储器;

存储器用于存储计算机程序,处理器运行所述计算机程序以使计算机终端执行上述的情感分析方法。

实施例5

与上述实施例1相对应地,本实施例提供一种计算机可读存储存储介质,其存储有计算机程序,该计算机程序被执行时实施上述的情感分析方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1