一种新闻长文本情感分析方法及装置与流程

文档序号:25213940发布日期:2021-05-28 14:10阅读:97来源:国知局

本申请属于自然语言处理技术领域,具体地讲,涉及一种新闻长文本情感分析方法及装置。



背景技术:

随着大量文本的积累与自然语言处理相关模型使用效果的提升,情感分析技术为舆情分析、民意调查等工作起到越来越重要的支撑作用。银行业中对于法人客户新闻的情感指数分析对于银行风控有很重要的作用,但是目前对于法人客户新闻的情感分析存在两方面的问题:一方面,在一篇新闻中往往涉及多个情感对象,对于每个情感对象,新闻表达出不同的情感倾向,例如,关于一个法人客户a的新闻中,可能会引入其他客户:b、c、d,而新闻内容中对于不同情感对象即a、b、c、d有不同的情绪指数;另一方面,金融新闻文章篇幅往往较长,而目前大多数情感对象的情感分析多是针对单个句子,对于整篇文档进行细粒度情感分析的方法非常少。



技术实现要素:

本申请提供了一种新闻长文本情感分析方法及装置,以至少解决当新闻中涉及多个情感对象时,无法对新闻整体的情感表达进行有效把控分析的问题。

根据本申请的一个方面,提供了一种新闻长文本情感分析方法,包括:

针对长文本中的语句生成语句的依存树;

获取所述长文本中的单句的初始词向量;

对根据所述依存树和所述初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表;

根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果。

在一实施例中,获取所述长文本中的单句的初始词向量,包括:

使用bert获得单句中融合上下文特征信息的初始词向量。

在一实施例中,对根据所述依存树和所述初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表,包括:

基于依存树结构使用gcn算法对所述初始词向量进行迭代训练获得词向量;

提取语句中的全部情感对象;

将情感对象的词向量输入情感分类器中获得情感分类结果;

根据情感分类结果和情感对象的对应关系建立情感分析列表。

在一实施例中,根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果,包括:

将长文本分割为若干个句子;

使用语义编码模型将分割后的句子用向量表示,获得句子向量;

计算所有句子向量之间的相似度;

根据句子和句子向量之间的相似度构建权重连接图;

根据所述权重连接图获取每个句子的重要性;

以每个句子的重要性作为权重对所述情感分析列表加权求和获得情感得分。

根据本申请的另一个方面,还提供了一种新闻长文本情感分析装置,包括:

依存树生成单元,用于针对长文本中的语句生成语句的依存树;

词向量获取单元,用于获取所述长文本中的单句的初始词向量;

情感分析单元,用于对根据所述依存树和所述初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表;

情感打分单元,用于根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果。

在一实施例中,词向量获取单元包括:

初始词向量获取模块,用于使用bert获得单句中融合上下文特征信息的初始词向量。

在一实施例中,情感分析单元包括:

gcn算法模块,用于基于依存树结构使用gcn算法对所述初始词向量进行迭代训练获得词向量及所述词向量对应的权重;

情感对象提取模块,用于提取语句中的全部情感对象;

情感分类模块,用于将情感对象的词向量输入情感分类器中获得情感分类结果;

列表建立模块,用于根据情感分类结果和情感对象的对应关系建立情感分析列表。

在一实施例中,情感打分单元包括:

分割模块,用于将长文本分割为若干个句子;

句子向量获取模块,用于使用语义编码模型将分割后的句子用向量表示,获得句子向量;

相似度计算模块,用于计算所有句子向量之间的相似度;

权重获取模块,用于根据句子和句子向量之间的相似度构建权重连接图;

重要性获取模块,用于根据所述权重连接图获取每个句子的重要性;

情感打分模块,用于以每个句子的重要性作为权重对所述情感分析列表加权求和获得情感得分。

本申请首先识别给定句子中的情感对象并对情感对象进行细粒度情感分析,然后从长文本角度,整合同一情感对象在长文本中的对中情感形成最终结果。通过gcn编码依存树改进词向量表示来进行单据的情感分析,对于长文本中统一情感对象在不同句子中的不同情感,采用语义重要性打分机制针对特定的情感对象对每个句子的重要程度进行打分,使用此融合的分数作为情感对象的情感指数权重,得到长文本针对具体情感对象的情感指数,解决了新闻中涉及情感实体较多、文本较长的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的一种新闻长文本情感分析方法流程图。

图2为本申请实施例中对语句进行特征提取后获取语句中词向量的方法流程图。

图3为本申请实施例中情感分析列表的生成方法流程图。

图4为本申请实施例中获得情感分析结果的方法流程图。

图5为本申请实施例中一种新闻长文本情感分析装置的结构框图。

图6为本申请实施例中词向量获取单元的结构框图。

图7为本申请实施例中情感分析单元的结构框图。

图8为本申请实施例中情感打分单元的结构框图。

图9为本申请实施例中一种电子设备的具体实施方式。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请的具体实施例可以应用于金融领域,还可以应用于除金融领域之外的其他技术领域,本申请不以此为限。

为了解决当新闻中涉及多个情感对象时,无法对新闻整体的情感表达进行有效把控分析的问题,本申请提供了一种新闻长文本情感分析方法,如图1所示,包括:

s101:针对长文本中的语句生成语句的依存树。

s102:获取长文本中的单句的初始词向量。

s103:对根据依存树和初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表。

s104:根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果。

在一具体实施例中,以长文本中某一句子s为例,生成句子s的依存树,将树用图的邻接矩阵a表示,单词i与j在树中有连接即邻接矩阵相应位置为1,否则为0。然后使用bert模型对句子进行初步特征提取,特征提取后使用gcn算法对单词的词向量进行迭代训练,在依存树中,单词之间的依存关系与单词的权重有关。当为每个单词生成更准确的向量表示后,取句子中情感对象的词向量输入到情感分类器中进行情感分类,获取长文本中每个句子中不同情感对象的情感分析列表,最后再基于句子的重要性进行情感融合获得最终针对每个情感对象的情感分析结果。

在一实施例中,对语句进行特征提取后根据依存树获取语句中的词向量,如图2所示,包括:

s201:使用bert获得单句中融合上下文特征信息的初始词向量。

在一具体实施例中,将句子输入到bert模型中获取与该句子上下文相关的词向量表征,之后使用gcn算法对词向量进行迭代训练:

xl+1=σ(axlwl+bl)

其中,xl是第l层的词向量表示,σ为非线性表示,a为邻接矩阵,wl为第l层的权重,bl是第l层的截距。需要说明的是,依存树中单词之间的依存关系有类别,该类别与权重相关,所以本申请使用gcn算法计算出的权重为依存关系相关的权重,为所有依存关系初始化一个权重矩阵w,不同依存树中共用。

在一实施例中,对语句中全部情感对象的词向量进行情感分类获得不同情感对象的情感分析列表,如图3所示,包括:

s301:基于依存树结构使用gcn算法对所述初始词向量进行迭代训练获得词向量及所述词向量对应的权重。

s302:提取语句中的全部情感对象。

s303:将情感对象的词向量输入情感分类器中获得情感分类结果。

s304:根据情感分类结果和情感对象的对应关系建立情感分析列表。

在一具体实施例中,情感对象的词向量即待分类的特征向量,有了这个特征向量,后续可接任何一种情感分类器,所以此处的分类器是现有技术,分类器可采用最简单的mlp分类器,即特征向量作为输入,经过mlp分类器,输出为情感分析结果,获取文章中每个句子中不同情感对象的情感分析列表矩阵z∈rn×m,其中n表示句子个数,m表示情感对象个数,zij表示第i个句子中第j个情感对象的情感得分。

在一实施例中,根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果,如图4所示,包括:

s401:将长文本分割为若干个句子。

s402:使用语义编码模型将分割后的句子用向量表示,获得句子向量。

s403:计算所有句子向量之间的相似度。

s404:根据句子和句子向量之间的相似度构建权重连接图。

s405:根据所述权重连接图获取每个句子的重要性。

s406:以每个句子的重要性作为权重对所述情感分析列表加权求和获得情感得分。

在一具体实施例中,将长文本按句子分割成若干个句子,使用句子语义编码模型如lstm对每个句子进行向量表示;计算所有句子的之间的相似度,作为句子转移概率矩阵w∈rn×n;然后,以句子为节点,以句子间相似度为边构建权重的连接图,最后按照公式:

循环迭代,获取句子重要性权重向量t∈rn,d为阻尼系数,由上述公式获得最终情感对象得分score:

score=tz

基于同一发明构思,本申请实施例还提供了一种新闻长文本情感分析装置,可以用于实现上述实施例中所描述的方法,如下面实施例所述。由于该新闻长文本情感分析装置解决问题的原理与新闻长文本情感分析方法相似,因此新闻长文本情感分析装置的实施可以参见新闻长文本情感分析方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

根据本申请的另一个方面,还提供了一种新闻长文本情感分析装置,如图5所示,包括:

依存树生成单元501,用于针对长文本中的语句生成语句的依存树;

词向量获取单元502,用于获取所述长文本中的单句的初始词向量;

情感分析单元503,用于对根据所述依存树和所述初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表;

情感打分单元504,用于根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果。

在一实施例中,如图6所示,词向量获取单元502包括:

初始词向量获取模块601,用于使用bert获得单句中融合上下文特征信息的初始词向量。

在一实施例中,如图7所示,情感分析单元503包括:

gcn算法模块701,用于基于依存树结构使用gcn算法对所述初始词向量进行迭代训练获得词向量及所述词向量对应的权重;

情感对象提取模块702,用于提取语句中的全部情感对象;

情感分类模块703,用于将情感对象的词向量输入情感分类器中获得情感分类结果;

列表建立模块704,用于根据情感分类结果和情感对象的对应关系建立情感分析列表。

在一实施例中,如图8所示,情感打分单元504包括:

分割模块801,用于将长文本分割为若干个句子;

句子向量获取模块802,用于使用语义编码模型将分割后的句子用向量表示,获得句子向量;

相似度计算模块803,用于计算所有句子向量之间的相似度;

重要性获取模块804,用于根据所述权重连接图获取每个句子的重要性;

情感打分模块805,用于以每个句子的重要性作为权重对所述情感分析列表加权求和获得情感得分。

本申请首先使用改进gcn权重为依存树关系类别相关矩阵的方法提高单词表示的准确性,使句子表示向量学习更加充分,提高单句的细粒度情感分析准确性,然后通过attention计算针对某特定情感对象上文本中单个句子的重要性,即每个句子对于不同情感对象的重要性不同,通过重要性权重融合同一情感对象在不同句子间的情感指数,解决了长文本中不同情感对象的情感分类,为风险控制提供了辅助决策信息。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图9,所述电子设备具体包括如下内容:

处理器(processor)901、内存902、通信接口(communicationsinterface)903、总线904和非易失性存储器905;

其中,所述处理器901、内存902、通信接口903通过所述总线904完成相互间的通信;

所述处理器901用于调用所述内存902和非易失性存储器905中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:

s101:针对长文本中的语句生成语句的依存树。

s102:获取长文本中的单句的初始词向量。

s103:对根据依存树和初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表。

s104:根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:

s101:针对长文本中的语句生成语句的依存树。

s102:获取长文本中的单句的初始词向量。

s103:对根据依存树和初始词向量生成的词向量进行情感分类获得不同情感对象的情感分析列表。

s104:根据情感分析列表获取长文本中全部情感对象的情感得分,获得情感分析结果。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1