语料所属情感类别的判别方法、装置、电子设备及介质与流程

文档序号:17587419发布日期:2019-05-03 21:27阅读:225来源:国知局
语料所属情感类别的判别方法、装置、电子设备及介质与流程

本申请涉及自然语言处理技术领域,特别涉及一种语料所属情感类别的判别方法、装置、电子设备及计算机可读存储介质。



背景技术:

随着信息技术的大发展,网络上充斥着大量的信息,其中不乏使用情感倾向严重词汇来恶意引导用户情绪的文章,为了让网络媒体更加公正、客观的描述事件,有必要监控语料的情感类别。

摆脱于由人工通过肉眼结合自身经验对语料所属情感类别的判别,现有技术中已经存在通过包含各情感类别词汇对应的抽象判别特征的贝叶斯情感分类模型,根据实际需求的不同,通常可以表现为二分类贝叶斯情感分类模型(分为敏感和非敏感)或三分类贝叶斯情感分类模型(敏感、非敏感、中性),但由于中文词汇的复杂性,使得总是有未包含于贝叶斯情感分类模型中的新词汇,而这些新词汇将会由于无法被贝叶斯情感分类模型给出判断结果导致最终得到的情感类别不准确。

因此,如何克服现有技术中因无法判别未包含于贝叶斯情感分类模型中的词汇所属情感类别导致对目标语料所属情感类别判别不准确的技术缺陷,是本领域技术人员亟待解决的问题。



技术实现要素:

本申请的目的是提供一种语料所属情感类别的判别方法、装置、电子设备及存储介质,旨在解决现有技术中因无法判别未包含于贝叶斯情感分类模型中的词汇所属情感类别导致对目标语料所属情感类别判别不准确的问题。

本申请的另一目的在于提供了一种云环境下服务的部署系统、装置及计算机可读存储介质。

为实现上述目的,本申请提供一种语料所属情感类别的判别方法,包括:

从目标语料中的核心段落中提取得到动/副动词和所述动/副动词的词频;

检测所述动/副动词是否存在于贝叶斯情感分类模型中;

将不存在于所述贝叶斯情感分类模型中的动/副动词标记为未判词;

在所述贝叶斯情感分类模型的词库中,利用word2vec模型寻找所述未判词的近义词;

根据所述贝叶斯情感分类模型确定所述动/副动词或所述动/副动词的近义词的似然对数;

根据各所述似然对数与对应词的词频的乘积的和判别所述目标语料所属的情感类别。

可选的,利用word2vec模型寻找所述未判词的近义词,包括:

利用所述word2vec模型分别计算每个所述未判词与每个存储于所述词库中的词的特征相关度;

将与每个所述未判词的特征相关度不小于预设阈值的词标记为对应未判词的近义词。

可选的,该判别方法还包括:

当利用所述word2vec模型寻得所述未判词的近义词的数量大于1时,从多个所述近义词中选取出与所述未判词的特征相关度最高的。

可选的,该判别方法还包括:

利用真实的近义词对和非近义词对测试所述word2vec模型的可用性;

当所述word2vec模型未通过可用性测试时,调整构成所述word2vec模型的各项参数直至通过可用性测试。

为实现上述目的,本申请还提供了一种语料所属情感类别的判别装置,该装置包括:

待判预料动/副动词提取单元,用于从目标语料中的核心段落中提取得到动/副动词和所述动/副动词的词频;

一致词存在检测单元,用于检测所述动/副动词是否存在于贝叶斯情感分类模型中;

未判词标记单元,用于将不存在于所述贝叶斯情感分类模型中的动/副动词标记为未判词;

近义词寻找单元,用于在所述贝叶斯情感分类模型的词库中,利用word2vec模型寻找所述未判词的近义词;

似然对数确定单元,用于根据所述贝叶斯情感分类模型确定所述动/副动词或所述动/副动词的近义词的似然对数;

所属情感类别判别单元,用于根据各所述似然对数与对应词的词频的乘积的和判别所述目标语料所属的情感类别。

可选的,所述近义词寻找单元包括:

特征相关度计算子单元,用于利用所述word2vec模型分别计算每个所述未判词与每个存储于所述词库中的词的特征相关度;

近义词确定子单元,用于将与每个所述未判词的特征相关度不小于预设阈值的词标记为对应未判词的近义词。

可选的,该判别装置还包括:

优选近义词选取单元,用于当利用所述word2vec模型寻得所述未判词的近义词的数量大于1时,从多个所述近义词中选取出与所述未判词的特征相关度最高的。

可选的,该判别装置还包括:

可用性测试单元,用于利用真实的近义词对和非近义词对测试所述word2vec模型的可用性;

参数调整单元,用于当所述word2vec模型未通过可用性测试时,调整构成所述word2vec模型的各项参数直至通过可用性测试。

为实现上述目的,本申请还提供了一种电子设备,所述电子设备包括存储器、处理器以及总线,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述总线传输至所述处理器,并在被所述处理器执行时可实现如上述内容描述的语料所属情感类别的判别方法。

为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序可被一个或者多个处理器执行,以实现如上述内容描述的语料所属情感类别的判别方法。

显然,根据本申请所提供的技术方案:将无法利用贝叶斯情感分类模型判别所属情感类别的未判词,利用word2vec模型来找到可通过该贝叶斯情感分类模型判别所属情感类别的近义词,使得能够通过近义词对应的似然对数最终将这些本属于未判词的词汇也纳入最终判别目标语料所属情感类别的结果中,使得目标语料所属情感类别的判别更加准确。本申请同时还提供了一种语料所属情感类别的判别装置、电子设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种语料所属情感类别的判别方法的流程图;

图2为本申请实施例提供的一种包括三分类贝叶斯情感分类模型形成过程在内的完整判别流程示意图;

图3为本申请实施例提供的判别方法中一种利用word2vec模型确定近义词的方法的流程图;

图4为本申请实施例提供的一种语料所属情感类别的判别装置的结构框图;

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请的核心是提供一种语料所属情感类别的判别方法、装置、电子设备及计算机可读存储介质,将无法利用贝叶斯情感分类模型判别所属情感类别的未判词,利用word2vec模型来找到可通过该贝叶斯情感分类模型判别所属情感类别的近义词,使得能够通过近义词对应的似然对数最终将这些本属于未判词的词汇也纳入最终判别目标语料所属情感类别的结果中,使得目标语料所属情感类别的判别更加准确。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

实施例一

请参见图1,图1为本申请实施例提供的一种语料所属情感类别的判别方法的流程图,其包括以下步骤:

s101:从目标语料中的核心段落中提取得到动/副动词和动/副动词的词频;

其中,目标语料的核心段落并非简单的指目标语料中多个段落中的某个重要段落,而是将目标语料中的词汇映射成节点为4的树结构,通过给动词、副动词、机构名词、词频赋予权重规则,最后将树结构映射成权重有序列表进行排序,根据文章句子数以及词数比例60%,进行提取前60位词,然后将这些词所在句子混合为核心段落。

因此,通过判断从核心段落中提取出的动/副动词所属的情感类别就大体能够表示目标语料所属的情感类别。这是因为相比于其他词性的词汇来说,动词和副动词往往作为每句话中表示执行者情感的词汇存在,因此在需要分析语料所属情感类别时,动词和副动词就显得尤为重要。

动词和副动词的词频,是指每个动词或每个副动词出现在核心段落中的次数。

s102:检测动/副动词是否存在于贝叶斯情感分类模型中;

在s101的基础上,本步骤旨在检测从目标语料的核心段落中提取出的动词和副动词是否能够使用通用的贝叶斯情感分类模型(该模型中包含有大量从不同情感类别的语料提取出的语料特征,并通过模型计算得到了每种语料特征对应的似然对数,以期通过概率学的方式来进行预测和评估,可参见图2中形成三分类贝叶斯情感分类模型的部分)确定与这些动词或副动词拥有相同语料特征的似然对数。

s103:将不存在于贝叶斯情感分类模型中的动/副动词标记为未判词;

在s102的基础上,由于随着信息的保障,新词、拥有新意思的旧词不断出现,通用的贝叶斯情感分类模型可能无法确定所有实际提取出的动词或副动词的似然对数,而只能根据确定出的存储于已有词库的词汇的似然对数来最终判别目标语料所属的情感类别。

为了使得那些无法被通用的贝叶斯情感分类模型确定出相应似然对数的动词或副动词也能够参与进对最终判别目标语料所属情感类别的影响过程,本步骤首先将这些词标记为未判词,以便于后续步骤的处理。

s104:在贝叶斯情感分类模型的词库中,利用word2vec模型寻找未判词的近义词;

在s103的基础上,本申请在本步骤中将在贝叶斯情感分类模型的词库中,利用利用word2vec模型寻找未判词的近义词,以通过近义词的方式尽可能的确定该未判词的似然对数,来参与进判别目标语料所属情感类别的过程。

近义词是指与一个词所表达意思相近的词汇,例如“开心”就可以作为“高兴”的一个近义词,当然,同一词汇可以拥有多个近义词,例如“高兴”的近义词除了“开心”外,还可以有“愉快”、“满足”等等,当需要说明的是,虽然一些表示含义相近的词汇可以互相作为近义词,但其所表示含义还是会有不同,且不同的程度也各不相同,还以“高兴”一词为例,作为该词的近义词,“开心”在一些场景下就比“满足”所表示的含义更贴近“高兴”,当然,由于中文博大精深,在另外一些场景下,“满足”也可能会比“开心”一词所表示的含义更贴近“开心”。因此,在多个可确定出多个近义词时,还可以进一步的进行筛选,以得到最合适的、含义最相近的近义词。

word2vec模型,是为一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。本申请将词与词间的对应关系具体表现为近义词关系,以使得这样设置的word2vec模型可以用来实现本步骤中寻找未判词的近义词的目的。

s105:根据贝叶斯情感分类模型确定动/副动词或动/副动词的近义词的似然对数;

在s104的基础上,本步骤旨在根据贝叶斯情感分类模型确定动/副动词或动/副动词的近义词的似然对数。具体来说,直接通过贝叶斯情感分类模型确定出相同语料特征的动词或副动词时,将可以直接得到这些词的贝叶斯模型似然对数,而无法直接通过贝叶斯情感分类模型确定出相同语料特征的动词或副动词时,将借助word2vec模型来找到这些未判词的近义词,以通过近义词的贝叶斯模型似然对数来近似的等效未判词的贝叶斯模型似然对数。

s106:根据各似然对数与对应词的词频的乘积的和判别目标语料所属的情感类别。

在s105的基础上,本步骤首先将每个确定出的似然对数与对应词的词频相乘,得到这个词的一个值,再通过将每个此的值累加起来的方式得到一个能够评估目标语料所属情感类别的评估的综合评估值。

为了突出本申请相对于现有技术的发明点,上述内容并未给出给出一个更加完整的处理流程,可以参见图2,图2为本申请实施例提供的一种包括三分类贝叶斯情感分类模型形成过程在内的完整判别流程示意图,可以看到三分类贝叶斯情感分类模型是基于预先给出的被分为敏感、非敏以及中性这三类的语料经过多部处理得到的,经过处理得到的三分类贝叶斯情感分类模型中拥有大量不同情感类别的动词、副动词的似然对数,当需要判别一个目标语料所属情感类别时,需要将从目标语料核心段落中提取出的动词、副动词根据该三分类贝叶斯情感分类模型中找到每个动词、副动词相应的似然对数。

基于本实施例提供的技术方案:将无法利用贝叶斯情感分类模型判别所属情感类别的未判词,利用word2vec模型来找到可通过该贝叶斯情感分类模型判别所属情感类别的近义词,使得能够通过近义词对应的似然对数最终将这些本属于未判词的词汇也纳入最终判别目标语料所属情感类别的结果中,使得目标语料所属情感类别的判别更加准确。

实施例二

请参见图3,图3为本申请实施例提供的判别方法中一种利用word2vec模型确定近义词的方法的流程图,在实施例一的基础上,本实施例针对s104给出了一种具体的寻找近义词的方式,具体包括以下步骤:

s201:利用word2vec模型分别计算每个未判词与每个存储于词库中的词的特征相关度;

本步骤旨在通过word2vec模型来分别计算每个未判词与每个存储于贝叶斯情感分类模型词库中的词的特征相关度,即通过特征相关度的方式来评定是否可以作为未判词的近义词。

s202:将与每个未判词的特征相关度不小于预设阈值的词标记为对应未判词的近义词;

在s201的基础上,通过设置一个可以被判定为近义词的特征相关度阈值的方式来区别哪些词可以作为该未判词的近义词。其中,该阈值的具体大小可以是经过多次实际实验后确定出的一个实验值,也可以是拥有丰富经验的技术人员给出的经验值等等,此处并不做具体限定,只需要能够通过该阈值实现区别近义词和非近义词即可。

s203:当利用word2vec模型寻得未判词的近义词的数量大于1时,从多个近义词中选取出与未判词的特征相关度最高的。

在s202的基础上,本步骤对当利用word2vec模型寻得未判词的近义词的数量大于1时的情况给出一种解决方案,即从多个近义词中选取出与未判词的特征相关度最高的,因为特征相关度是用来表示该未判词与某个近义词在所表示含义上的接近程度的一个参数,因此特征相关度越高,越能说明对应的词越能代表该未判词的含义,也使得在对目标语料所属情感类别进行判别时更加准确。

因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。

实施例三

下面请参见图4,图4为本申请实施例提供的一种语料所属情感类别的判别装置的结构框图,该装置可以包括:

待判预料动/副动词提取单元100,用于从目标语料中的核心段落中提取得到动/副动词和动/副动词的词频;

一致词存在检测单元200,用于检测动/副动词是否存在于贝叶斯情感分类模型中;

未判词标记单元300,用于将不存在于贝叶斯情感分类模型中的动/副动词标记为未判词;

近义词寻找单元400,用于在贝叶斯情感分类模型的词库中,利用word2vec模型寻找未判词的近义词;

似然对数确定单元500,用于根据贝叶斯情感分类模型确定动/副动词或动/副动词的近义词的似然对数;

所属情感类别判别单元600,用于根据各似然对数与对应词的词频的乘积的和判别目标语料所属的情感类别。

其中,该近义词寻找单元400可以包括:

特征相关度计算子单元,用于利用word2vec模型分别计算每个未判词与每个存储于词库中的词的特征相关度;

近义词确定子单元,用于将与每个未判词的特征相关度不小于预设阈值的词标记为对应未判词的近义词。

进一步的,该判别装置还可以包括:

优选近义词选取单元,用于当利用word2vec模型寻得未判词的近义词的数量大于1时,从多个近义词中选取出与未判词的特征相关度最高的。

更进一步的,该判别装置还可以包括:

可用性测试单元,用于利用真实的近义词对和非近义词对测试word2vec模型的可用性;

参数调整单元,用于当word2vec模型未通过可用性测试时,调整构成word2vec模型的各项参数直至通过可用性测试。

在上文中已经通过一些实施例对如何借助word2vec模型来以近义词的方式将未判词也加入进判别目标语料所属情感类别的过程中这一方案进行了详细的描述,本申请还提供一种与该方法对应的实体硬件装置,此部分内容原理与方案部分相对应,实现原理的部分此处不再赘述,以下将对该实体硬件装置的硬件组成进行描述,请参见图5,图5为本申请实施例提供的一种电子设备的结构示意图:

该电子设备700包括存储器710、处理器720以及总线730,存储器710上存储有可在处理器720上运行的语料所属情感类别判别程序,该语料所属情感类别判别程序通过总线730被传输至处理器720,并在被处理器720执行时可实现如上述实施例所描述的语料所属情感类别的判别方法中的各步骤。

其中,存储器710至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器710在一些实施例中可以是电子设备700的内部存储单元,例如该电子设备700的硬盘。存储器710在另一些实施例中也可以是该电子设备700的外部存储设备,例如该电子设备700上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器710还可以同时由内部存储单元和外部存储设备同时组成。进一步的,存储器710不仅可以用于存储安装于该电子设备700中的各种应用软件和各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器720在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器710中存储的程序代码或处理数据,例如语料所属情感类别判别程序等。

总线730可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条双向中空指示线表示,但并不表示仅有一根总线或一种类型的总线。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例中所给出的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1