一种文本的情感分类方法、装置、设备及存储介质与流程

文档序号:18396420发布日期:2019-08-09 23:28阅读:126来源:国知局
一种文本的情感分类方法、装置、设备及存储介质与流程

本发明实施例涉及人工智能和自然语言处理技术领域,特别涉及一种文本的情感分类方法、装置、设备及存储介质。



背景技术:

目前,随着互联网的普及,在网络上发表观点和交流情感已成为人们日常生活的一部分。网络文本会包含很多倾向性的文本信息,对这些网络文本所要表达的情感进行分析的方法主要有基于规则的方法、基于浅层机器学习的方法和基于深度学习的方法。

发明人发现相关技术中至少存在如下问题:在对这些文本进行处理时,如果文本中存在很多冗余的词语,冗余词语对文本情感分析不产生作用或者负面作用;在传统的文本情感分析方法中,如果把自然语言中每个词语都当作一个特征维度,则对应的维数就会非常大,且词语之间不包含语义信息,不利于后续深度学习模型的处理,不能准确的获得文本的情感类别。



技术实现要素:

本发明实施方式的目的在于提供一种文本的情感分类方法、装置、设备及存储介质,通过使用核心词语的融合向量表示目标文本,减少了目标文本中的冗余信息,能够获得更准确的情感类别。

为解决上述技术问题,本发明的实施方式提供了一种文本的情感分类方法,包括以下步骤:获取目标文本中的核心词语的情感特征向量;其中,情感特征向量包括:表示正面情感的第一元素、表示负面情感的第二元素、表示否定意义的第三元素和表示情感程度的第四元素中的至少三个元素;根据核心词语的词向量和情感特征向量,确定核心词语的融合向量;将基于融合向量表示的目标文本,输入到长短期记忆网络模型中,确定目标文本的情感类别。

为解决上述技术问题,本发明的实施方式提供了一种文本的情感分类装置,包括:获取模块,融合模块和分类模块;获取模块,用于获取目标文本中的核心词语的情感特征向量;其中,情感特征向量包括:表示正面情感的第一元素、表示负面情感的第二元素、表示否定意义的第三元素和表示情感程度的第四元素中的至少三个元素;融合模块,用于根据核心词语的词向量和情感特征向量,确定核心词语的融合向量;分类模块,用于将基于融合向量表示的目标文本,输入到长短期记忆网络模型中,确定目标文本的情感类别。

本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述文本的情感分类方法。

本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述文本的情感分类方法。

本发明实施方式相对于相关技术而言,通过去除掉目标文本中的冗余词语,只使用核心词语对应的融合向量来表示目标文本,减少了冗余词语对评价目标文本情感类别的影响;并且,该融合向量融合了情感特征向量和词向量,并且该融合向量中包括第一元素、第二元素、第三元素和第四元素中的至少三种,使得该融合向量能够更明确地表达核心词语的情感特征,使核心词语的语义更加明确,避免了词语之间缺少语义信息的问题,突出了核心词语所要表达的情感信息,能够使目标文本的情感类别更准确。

另外,根据核心词语的词向量和情感特征向量,确定核心词语的融合向量,包括:将核心词语的词向量和情感特征向量进行拼接,确定核心词语的融合向量;其中,融合向量包括的元素包括:词向量包括的元素和情感特征向量包括的元素。该方式中,通过将核心词语的词向量和情感特征向量进行拼接,完成两个向量的融合,使用该融合向量表示核心词语,使核心词语的情感特征更加突出,语义更加明确,使目标文本的情感类别更准确。

另外,获取目标文本中的核心词语的情感特征向量,包括:将核心词语分别与正面情感词典中的词语、负面情感词典中的词语、否定词典中的词语和情感程度词典中的词语中的至少三种进行匹配,确定获得包括第一元素、第二元素、第三元素和第四元素中的至少三个元素的情感特征向量。该方式中,通过将核心词语与不同的词典进行匹配,获得对应的情感特征向量中的元素,各个对应的元素能够直接表达核心词语的情感信息,进而使得包括第一元素、第二元素、第三元素和第四元素中的至少三个元素的情感特征向量,能够间接体现目标文本的情感信息,从而能够更快捷的确定目标文本的情感类别。

另外,在获取目标文本中的核心词语的情感特征向量之前,还包括:对目标文本中包括的句子进行分词,获得目标词语;根据目标词语的词性和依存句法关系,确定核心词语。该方式中,通过对目标文本中的句子进行分词,明确句子中各个词语的词性及要表达的语义,再根据依存句法关系,获得目标文本的核心词语,减少了目标文本中的冗余信息,提高了确定目标文本的情感类别的效率。

另外,依存句法关系包括:主谓关系,动宾关系,动补关系,并列关系,定中关系和状中关系中的至少一种。

另外,目标文本的情感类别,包括:积极情感和消极情感。

另外,词向量位于低维向量空间。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的文本的情感分类方法流程方框图;

图2是根据本发明第二实施方式中的文本的情感分类方法流程方框图;

图3是根据本发明第三实施方式中的文本的情感分类装置流程方框图;

图4是根据本发明第四实施方式中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种文本的情感分类方法。用于减少目标文本中的冗余词语对评价该文本情感分类的影响,使目标文本的情感类别更准确。

下面对本实施方式中的文本的情感分类方法的实现细节进行具体的说明,以下内容仅为方便理解本方案的实现细节,并非实施本方案的必须。

图1所示为本实施方式中的文本的情感分类方法的流程图,该方法可用于服务器。该方法可包括如下步骤。

在步骤101中,获取目标文本中的核心词语的情感特征向量。

其中,情感特征向量包括:表示正面情感的第一元素、表示负面情感的第二元素、表示否定意义的第三元素和表示情感程度的第四元素中的至少三个元素。

需要说明的是,其中的第一元素和第二元素表示的是能够直接体现核心词语的情感倾向的元素,同时也是对核心词语进行情感分类的最主要的元素;第三元素表示的是对核心词语的情感产生反转影响的元素;第四元素虽然不会改变核心词语的情感倾向,但是会加强或削弱核心词语的情感强度,当核心词语中同时出现表示正面情感的第一元素和表示负面情感的第二元素时,可通过表示情感程度的第四元素来决定该核心词语的情感倾向。使用第一至第四元素中的至少三个来表示情感特征向量,所选择的三个元素中至少包括第一元素,或,第二元素,使得该情感特性向量能够突出核心词语的情感倾向。若同时使用第一元素、第二元素和第三元素来表示该情感特征向量,可根据第三元素与第一或第二元素之间的距离,来确定该表示情感反转的第三元素是用来进一步限定哪个元素的,比如,核心词语为“不讨厌,喜欢”,则可确定表示否定意义的第三元素“不”距离表示负面情感的第二元素“讨厌”最近,是用来限定第二元素的,而“喜欢”是表示正面情感的第一元素,则使用第一、第二和第三元素表示的该核心词语的情感倾向是正面的。

在一个具体实现中,将核心词语分别与正面情感词典中的词语、负面情感词典中的词语、否定词典中的词语和情感程度词典中的词语中的至少三种进行匹配,确定获得包括第一元素、第二元素、第三元素和第四元素中的至少三个元素的情感特征向量。

需要说明的是,其中的正面情感词典包括表示积极情感的词语,例如,“好”、“喜欢”、“棒”等,负面情感词典包括表示消极情感的词语,例如,“差”、“哀愁”等,否定词典包括表示否定意义的词语,例如,否定词“不”、“勿”等,而情感程度词典中包括表示情感程度的词语,例如,程度副词中的“很”、“非常”等。

在一个具体实现中,使用四个元素来表示核心词语的情感特征向量,将核心词语分别与以上四种词典中的词语相匹配,若确定该核心词语能够在对应的词典中找到,则确定对应的元素。例如,当该核心词语为“差”时,查找以上四种词典,则在负面情感词典中找到了该核心词语,则对应的第二元素为1,而在其他的词典中没有找到该核心词语,则对应的第一元素、第三元素和第四元素都为0。需要说明的是,其中的“1”或“0”只是举例说明,具体实现时,也可以设定为其他任意能够区分的数值。

在一个具体实现中,设定核心词语为wi,其中,i表示核心词语的情感特征向量中包括的元素的个数,取值范围是3或4。当i等于4时,该核心词语的情感特征向量为e(wi)=(e1,e2,e3,e4),其中,e(wi)表示核心词语wi的情感特征向量;e1表示第一元素,e2表示第二元素,e3表示第三元素,e4表示第四元素;例如,核心词语“差”的情感特征向量表示为:e(差)=[0,1,0,0]。当i等于3时,该核心词语的情感特征向量为e(wi)=(e1,e2,e3),或,e(wi)=(e1,e2,e4),或,e(wi)=(e1,e3,e4),或,e(wi)=(e2,e3,e4);例如,核心词语“差”的情感特征向量表示为:e(差)=[0,1,0],或,e(差)=[1,0,0]。

在步骤102中,根据核心词语的词向量和情感特征向量,确定核心词语的融合向量。

需要说明的是,核心词语的词向量位于低维向量空间。传统的词向量中所包括的元素个数为几万,甚至几十万个,使用这样高维度的词向量来表示核心词语,不利于后续深度学习模型的处理,本申请中将核心词语的词向量映射到低维向量空间,即使用100至200个元素来表示核心词语的词向量,保证该位于低维向量空间的词向量能够明确表达核心词语的语义信息,更好的表达核心词语所要表达的情感类别。

在一个具体实现中,将核心词语的词向量和情感特征向量进行拼接,确定核心词语的融合向量;其中,融合向量包括的元素包括:词向量包括的元素和情感特征向量包括的元素。

需要说明的是,其中的拼接,可以是词向量在前,情感特征向量在后,将词向量和情感特征向量进行横向融合;也可以是词向量在后,情感特征向量在前的横向融合。

例如:设定核心词语wi的词向量为v(wi)=(v1,v2,v3…vk),其中,v(wi)表示核心词语的词向量,vk表示该词向量中的元素;k表示该词向量中包括的元素的个数,取值范围是100~200;将核心词语的词向量v(wi)和情感特征向量e(wi)相融合,获得该核心词语的融合向量为:m(wi)=(e(wi),v(wi))=(e1,e2,…e4,v1,v2,…vk),或,

m(wi)=(v(wi),e(wi))=(v1,v2,…vk,e1,e2,…e4),其中,m(wi)表示核心词语的融合向量,因核心词语的情感特征向量中包括4个元素,而核心词语的词向量中包括k个元素,则核心词语的融合向量包括k+4个元素。若k等于100,则核心词语的融合向量就包括104个元素。

在步骤103中,将基于融合向量表示的目标文本,输入到长短期记忆网络模型中,确定目标文本的情感类别。

需要说明的是,通过包括了情感要素的融合向量来表示目标文本,使目标文本的情感信息通过融合向量表征出来,再将该目标文本输入到长短期记忆网络(longshort-termmemory,lstm)模型中,即可获得该目标文本的情感类别。

其中,该目标文本的情感类别包括:积极情感和消极情感。若确定目标文本的情感类别为积极情感,比如:目标文本是“这部电影很好看”,则表示这部电影很受观众喜欢,目标文本包含积极的情感;若确定目标文本的情感类别为消极情感,比如:目标文本是“这部电影的情节真是太差了”,则表示这部电影不受观众喜欢,目标文本包含消极情感。

在一个具体实现中,对多个评论性文本进行情感分类,通过不同的情感分类方法获得各个评论性文本的情感类别,若设定b为总评论文本数,a为对各个评论性文本的情感类别分类正确的文本数,则对多个评论性文本进行情感分类的准确率p为:p=a/b,其中a的确定方法为:当确定目标文本的情感类别与人工标注的情感类别一致时,则表示对该目标文本的情感类别分类正确。

例如,获取对某一电影的评论性文本,并使用该评论性文本作为多个目标文本的集合。使用传统的情感分类方法对评论性文本进行情感分类,获得的准确率p为1.5%;而使用本实施方式中的情感分类方法对评论性文本进行情感分类,获得的准确率p为3%;则通过对比两种方法中的准确率p,可知,相对于传统的情感分类方法,使用本实施方式中的情感分类方法对评论性文本进行情感分类时,准确率p提升了1.5%,使得目标文本的情感类别更准确。

在本实施方式中,通过去除掉目标文本中的冗余词语,只使用核心词语对应的融合向量来表示目标文本,减少了冗余词语对评价目标文本情感类别的影响;并且,该融合向量融合了情感特征向量和词向量,并且该融合向量中包括第一元素、第二元素、第三元素和第四元素中的至少三种,使得该融合向量能够更明确地表达核心词语的情感特征,使核心词语的语义更加明确,避免了词语之间缺少语义信息的问题,突出了核心词语所要表达的情感信息,能够使目标文本的情感类别更准确。

本发明的第二实施方式涉及一种文本的情感分类方法。第二实施方式与第一实施方式大致相同,主要区别之处在于:在获取目标文本中的核心词语的情感特征向量之前,还需要对目标文本中的句子进行分词,并根据依存句法关系和分词获得的目标词语的词性,确定核心词语。

图2所示为本实施方式中的文本的情感分类方法的流程图,该方法可用于服务器。该方法可包括如下步骤。

在步骤201中,对目标文本中包括的句子进行分词,获得目标词语。

需要说明的是,在对句子进行分词后,需要对各个词语进行词性标注,用以确定各个词语在句子中所表达的语义信息,进而通过该语义信息确定目标词语。

在一个具体实现中,例如,目标文本中有这样一个句子:“这个电影非常好,但不喜欢女主角”,对该句子进行分词和词性标注,得到各个词语的词性如下:这个/d,电影/n,非常/d,好/a,但/c,不/d,喜欢/v,女主角/n;其中n表示名词,d表示副词,a表示形容词,c表示连词,v表示动词。可知该目标文本中包括的目标词语为“电影,非常,好,但,不,喜欢,女主角”,该目标文本中包括5个词性,包括1个正面情感词,0个负面情感词,1个否定词和2个程度副词。

在步骤202中,根据目标词语的词性和依存句法关系,确定核心词语。

其中,依存句法关系包括:主谓关系,动宾关系,动补关系,并列关系,定中关系和状中关系中的至少一种。

需要说明的是,利用依存句法关系,分析句子结构中存在的关系,根据目标词语的词性和依存句法关系,将筛选出的词语作为目标文本的核心词语。其中的定中关系是定语和中心词组成的词语关系,状中关系是状语和中心词组成的词语关系;例如“红苹果”是定中关系,“非常美丽”是状中关系。例如“我送她一束花”中的“我-送”是主谓关系,“送-花”是动宾关系;“做完作业”中的“做-完”是动补关系,“大山和大海”是并列关系。

在步骤203中,获取目标文本中的核心词语的情感特征向量。

在步骤204中,根据核心词语的词向量和情感特征向量,确定核心词语的融合向量。

在步骤205中,将基于融合向量表示的目标文本,输入到长短期记忆网络模型中,确定目标文本的情感类别。

需要说明的是的,本实施方式中的步骤203~205,与第一实施方式中的步骤101~103的内容相同,在此不再赘述。

在本实施方式中,通过对目标文本中的句子进行分词,明确句子中各个词语的词性及要表达的语义,再根据依存句法关系,获得目标文本的核心词语,减少了目标文本中的冗余信息,提高了确定目标文本的情感类别的效率;并且使用包括了情感特征的融合向量表示核心词语,使核心词语的语义更加明确,避免了词语之间缺少语义信息的问题,突出了核心词语所要表达的情感信息,能够使目标文本的情感类别更准确。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第三实施方式涉及一种文本的情感分类装置,该装置的具体实施可参见第一实施方式的相关描述,重复之处不再赘述。值得说明的是,本实施方式中的装置的具体实施也可参见第二实施方式的相关描述,但不局限于以上两个实施例,其他未说明的实施例也在本装置的保护范围之内。

如图3所示,该装置主要包括:获取模块301,融合模块302和分类模块303;获取模块301用于获取目标文本中的核心词语的情感特征向量;其中,情感特征向量包括:表示正面情感的第一元素、表示负面情感的第二元素、表示否定意义的第三元素和表示情感程度的第四元素中的至少三个元素;融合模块302用于根据核心词语的词向量和情感特征向量,确定核心词语的融合向量;分类模块303用于将基于融合向量表示的目标文本,输入到长短期记忆网络模型中,确定目标文本的情感类别。

在一个例子中,融合模块302具体用于:将核心词语的词向量和情感特征向量进行拼接,确定核心词语的融合向量;其中,融合向量包括的元素包括:词向量包括的元素和情感特征向量包括的元素。

在一个例子中,获取模块301具体用于:将核心词语分别与正面情感词典中的词语、负面情感词典中的词语、否定词典中的词语和情感程度词典中的词语中的至少三种进行匹配,确定获得包括第一元素、第二元素、第三元素和第四元素中的至少三个元素的情感特征向量。

在一个例子中,在进入获取模块301之前,还包括:对目标文本中包括的句子进行分词,获得目标词语;根据目标词语的词性和依存句法关系,确定核心词语。

在一个例子中,依存句法关系包括:主谓关系,动宾关系,动补关系,并列关系,定中关系和状中关系中的至少一种。

在一个例子中,目标文本的情感类别,包括:积极情感和消极情感。

在一个例子中,词向量位于低维向量空间。

不难发现,本实施方式为与第一或第二实施方式相对应的装置实施例,本实施方式可与第一或第二实施方式互相配合实施。第一或第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一或第二实施方式中。

值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

本申请第四实施方式提供了一种电子设备,该设备具体结构如图4所示。包括至少一个处理器401,以及,与至少一个处理器401通信连接的存储器402。其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行第一实施方式所描述的文本的情感分类方法。

本实施方式中,处理器401以中央处理器(centralprocessingunit,cpu)为例,存储器402以可读写存储器(randomaccessmemory,ram)为例。处理器401、存储器402可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中实现文本的情感分类方法的程序就存储于存储器402中。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本的情感分类方法。

存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。

一个或者多个程序模块存储在存储器402中,当被一个或者多个处理器401执行时,执行上述任意方法实施例中的文本的情感分类方法。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。

本申请的第五实施方式涉及一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时能够实现本申请任意方法实施例中涉及的文本的情感分类方法。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1