一种情感分类方法、装置、电子设备和可读存储介质与流程

文档序号:17862351发布日期:2019-06-11 22:57阅读:156来源:国知局
一种情感分类方法、装置、电子设备和可读存储介质与流程

本发明实施例涉及自然语言处理领域,特别涉及一种情感分类方法、装置、电子设备和可读存储介质。



背景技术:

情感分析一直是自然语言处理领域的研究热点。情感分析广泛适用于“客户的声音”材料,如调查回复和分析,以及在线和社交媒体。情感分析处于自然语言处理和大规模数据挖掘的交叉点。情感分析在学术界和商业界都有很大的应用。情感分析具有各种领域的权利,从营销到客户服务到科学医学。在过去,有许多用于情感分析的技术,如基于词典的方法,支持向量机(svm)和流api,这些方法的结果取决于情感分析所使用的数据集。

然而,发明人发现现有技术中至少存在如下问题:现有技术中在进行情感分析时有效特征词的选择较困难,这在一定程度上导致了情感分析性能较差、分析效果不好。



技术实现要素:

本发明实施方式的目的在于提供一种情感分类方法、电子设备和计算机可读存储介质,便于对有效特征的提取,有利于提高情感分类的性能,分类效果较好。

为解决上述技术问题,本发明的实施方式提供了一种情感分类方法,包括以下步骤:利用形态句式模型提取待分类文本的方面特征词和表达特征词;将所述方面特征词和表达特征词转化为矩阵;根据所述矩阵和用于进行情感分类的卷积神经网络模型,获取所述待分类文本的情感分类结果;其中,所述卷积神经网络模型预先根据采集的训练文本数据集训练得到。

本发明的实施方式还提供了一种情感分类装置,包括:提取模块,用于利用形态句式模型提取待分类文本的方面特征词和表达特征词;转化模块,用于将所述方面特征词和表达特征词转化为矩阵;情感分类模块,用于根据所述矩阵和用于进行情感分类的卷积神经网络模型,获取所述待分类文本的情感分类结果;其中,所述卷积神经网络模型预先根据采集的训练文本数据集训练得到。

本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的情感分类方法。

本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的情感分类方法。

本发明实施方式相对于现有技术而言,通过将形态句式模型和卷积神经网络模型相结合来进行文本的情感分类。利用形态句式模型提取待分类文本的方面特征词和表达特征词,其中,提取的方面特征词和表达特征词可以表征待分类文本的情感,利用形态句式模型有利于得到待分类文本的句式形态,从而快速准确的提取出待分类文本中的方面特征词和表达特征词。将方面特征词和表达特征词转化为矩阵,根据所述矩阵和用于进行情感分类的卷积神经网络模型,获取所述待分类文本的情感分类结果,即将文本数据转化为矩阵向量数据,从而可以利用转化后的矩阵向量数据和预先训练的卷积神经网络模型得到对情感分类结果。而且由于卷积神经网络模型预先根据采集的训练文本数据集训练得到,即训练卷积神经网络模型的数据来源于真实文本数据,参考价值高,可使得得到的情感分类结果更加准确、可靠。

另外,在所述利用形态句式模型提取待分类文本的方面特征词和表达特征词之前,还包括:对待分类文本进行过滤,并对过滤后的所述待分类文本中的单词进行词性标注;所述利用形态句式模型提取待分类文本的方面特征词和表达特征词,具体为:利用形态句式模型提取经过词性标注的待分类文本的方面特征词和表达特征词。对待分类文本进行过滤,有利于得到待分类文本中对获取分类情感结果最有价值的部分,对过滤后的待分类文本中的单词进行词性标注,有利于快速的根据标注的词性提取出待分类文本中的方面特征词和表达特征词。

另外,所述根据所述矩阵向量和卷积神经网络情感分析模型,获取所述待分类文本的情感分类结果,具体包括:根据所述矩阵向量和卷积神经网络情感分析模型计算所述待分类文本的情感概率值;根据所述情感概率值获取所述待分类文本的情感分类结果。利用计算的情感概率值有利于快速的获取待分类文本的情感分类结果。

另外,所述根据所述情感概率值获取所述待分类文本的情感分类结果,具体包括:判断所述情感概率值是否大于或等于预设阈值;若所述情感概率值大于或等于所述预设阈值,则将正向文本作为获取的所述待分类文本的情感分类结果;若所述情感概率值小于所述预设阈值,则将负向文本作为获取的所述待分类文本的情感分类结果。通过将情感概率值与预设阈值的比较有利于准确直接的确定待分类文本属于正向文本还是负向文本。

另外,所述预设阈值为0.5,有利于保证对待分类文本进行情感分类的准确性。

另外,所述卷积神经网络模型具体通过以下方式训练得到:将所述训练文本数据集中的训练文本转换为文本向量;其中,所述训练文本数据集中的文本标注有情感分类;根据所述文本向量训练出所述卷积神经网络模型中各个层的网络参数,得到用于进行情感分类的卷积神经网络模型;其中,所述神经网络模型具有输入层、隐藏层和输出层,有利于得到可以准确对待分类文本进行情感分类的卷积神经网络模型。

另外,在所述得到用于进行情感分类的卷积神经网络模型之后,还包括:利用预先采集的测试文本数据集对得到的所述卷积神经网络模型的分类准确率进行测试;若测试的所述分类准确率低于预设门限,则对得到的所述卷积神经网络模型的各个层的网络参数进行调整,有利于提高用于进行情感分类的神经网络模型的性能,从而进一步保证采用神经网络模型对待分类文本进行情感分类的准确性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的情感分类方法的流程图;

图2是根据本发明第二实施方式中的步骤103的实现过程的流程图;

图3是根据本发明第三实施方式中的情感分类装置的结构示意图;

图4是根据本发明第四实施方式中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种情感分类方法,主要用于对文本数据进行情感分析,比如可以对社交工具twitter中的文本数据、或是其他网站上的文本数据进行情感分析,得出文本数据为正向文本还是负向文本的分类结果。本实施方式中以对twitter中的文本数据进行情感分类为例,但在实际应用中并不以此为限。下面对本实施方式的情感分类方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。

本实施方式中的情感分类方法可以如图1所示,具体包括:

步骤101:利用形态句式模型提取待分类文本的方面特征词和表达特征词。

具体的说,本实施方式中的待分类文本可以为从twitter中提取的随机文本。形态句式模型为利用斯坦福核心数据集训练得到的模型,斯坦福核心数据集是一个庞大的文本数据集,其中包括了各种各样形态句式的文本数据,各种各样的文本数据中包括标注有每个单词词性的文本。利用训练得到的形态句式模型可以对待分类文本中的方面特征词和表达特征词进行提取,其中,方面特征词可以为文本中词性为名词的单词,表达特征词可以为文本中词性为形容词的单词。

在实际应用中,还可以先对待分类文本进行预处理,预处理可以包括:对待分类文本进行过滤,删除掉文本数据中的#标签,统一资源定位符(uniformresourcelocator,url),不想要的停止词等。对待分类文本进行过滤后,可以继续对过滤后的待分类文本中的各个单词进行词性标注,可以理解的是标注的词性可以是名词、形容词、动词等。进行词性标注后,利用形态句式模型对标注有词性的待分类文本的方面特征词和表达特征词进行提取,由于待分类文本进行了词性标注,因此更容易通过形态句式模型提取到名词词性的方面特征词和形容词词性的表达特征词。具体的,可以将标注有词性的待分类文本作为形态句式模型的输入,从而输出待分类文本中的表达特征词和方面特征词。

步骤102:将方面特征词和表达特征词转化为矩阵。

具体的说,可以将文本数据转换为矩阵的形式,矩阵中包括不同词的词向量形式,词向量是基于大量的语料库集合利用神经网络算法经过无监督学习得到的词语的低维表示形式,因此可以充分地表示词语之间的相似性和上下文相关的特征。词向量是为了让计算机能够处理的一种词的表示形式,利用词向量工具可以将一个词表示成一个向量。在实际应用中词向量工具可以为word2vec,利用word2vec将给定数据集表示为词向量形式,转化为词向量后就可以将每一句话转化为一个矩阵的形式。本实施方式应用twitter数据集,并且以句子为一个样本单位进行处理,假设文本中最长的句子包含n个词语,且每个词向量有k维特征,在转换后的矩阵为n×k的二维矩阵。

步骤103:根据矩阵和用于进行情感分类的卷积神经网络模型,获取待分类文本的情感分类结果。

具体的说,卷积神经网络模型预先根据采集的训练文本数据集训练得到。训练文本数据集为twitter数据集,即从社交网站twitter上获取的数据集,twitter数据集中可以包括大量的推文数据,且这些推文数据标注有情感分类。可以先对上述作为训练文本的推文数据进行预处理,再将预处理后的推文数据转换为文本向量,将文本向量作为卷积神经网络模型的输入,通过大量的文本向量不断对卷积神经网络模型进行训练,最终可以训练得到卷积神经网络模型中各个层的网络参数,其中,卷积神经网络具有输入层、隐藏等和输出层。网络参数为卷积神经网络模型中每个神经元的权值向量和偏置项。例如:若输入x,输出y,则一维线性情况下:y=kx+b,其中k为斜率,b为截距。类似的,在卷积神经网络模型中,x是一个文本向量,y=wx+b,其中w是这个神经元的权值向量,b为偏置项。通过标注有情感分类的训练文本数据集可以训练得到用于分析文本分类情感的卷积神经网络模型。

在实际应用中,在通过训练文本集训练得到用于进行文本情感分类的卷积神经网络模型后,还可以对训练得到的卷积神经网络模型的性能进行测试。比如说,从twitter数据集中挖掘出100000条推特,将80%作为训练文本数据集,剩下的20%作为测试文本数据集。需要说明的是,本实施方式中只是以twitter数据集的80%作为训练文本数据集,20%作为测试文本数据集为例进行说明,在实际应用中并不以此为限。具体的,可以将测试文本数据集输入进训练好的卷积神经网络模型,从而获取到对于测试文本数据集中的测试文本的情感分类,将通过模型获取的情感分类与测试文本的实际情感分类进行对比,从而可以得到卷积神经网络模型的分类准确率。如果准确率低于预设门限则认为卷积神经网络模型的分类结果准确率较低,则对得到的卷积神经网络模型的各个层的网络参数进行调整,具体的调整方式可以为增加训练的次数,扩大训练文本数据集中训练文本的数量等。其中,预设门限可以由本领域技术人员根据实际需要进行设置,对此,本实施方式不做具体限定。

与现有技术相比,本实施方式通过将形态句式模型和卷积神经网络模型相结合来进行文本的情感分类。利用形态句式模型提取待分类文本的方面特征词和表达特征词,其中,提取的方面特征词和表达特征词可以表征待分类文本的情感,利用形态句式模型有利于得到待分类文本的句式形态,从而快速准确的提取出待分类文本中的方面特征词和表达特征词。将方面特征词和表达特征词转化为矩阵,根据所述矩阵和用于进行情感分类的卷积神经网络模型,获取所述待分类文本的情感分类结果,即将文本数据转化为矩阵向量数据,从而可以利用转化后的矩阵向量数据和预先训练的卷积神经网络模型得到对情感分类结果。而且由于卷积神经网络模型预先根据采集的训练文本数据集训练得到,即训练卷积神经网络模型的数据来源于真实文本数据,参考价值高,可使得得到的情感分类结果更加准确、可靠。

本发明的第二实施方式涉及一种情感分类方法,本实施方式主要对第一实施方式中如何根据训练好的卷积神经网络模型获取情感分类结果进行具体描述,即对步骤103的实现过程进行具体描述,包括:

步骤1031:根据矩阵和卷积神经网络模型计算待分类文本的情感概率值。

具体的说,可以将待分类文本的矩阵形式作为训练好的卷积神经网络模型的输入,从而计算得到待分类文本的情感概率值,待分类文本的矩阵形式输入到卷积神经网络模型中的输入层,经过隐藏层输出层后。输出情感概率值。

步骤1032:判断情感概率值是否大于预设阈值,若是,则执行步骤1033,否则执行步骤1034。

具体的说,预设阈值可以由本领域技术人员根据实际需要进行设置,本实施方式中以设置为0.5为例,将得到的情感概率值与0.5进行对比。

步骤1033:将正向文本作为获取的待分类文本的情感分类结果。

也就是说,当待分类文本的情感概率值大于或等于0.5时,该待分类文本为正向文本表达的积极的情绪。

步骤1034:将负向文本作为获取的待分类文本的情感分类结果。

也就是说,当待分类文本的情感概率值小鱼0.5时,该待分类文本为负向文本表达的消极的情绪。

与现有技术相比,本实施方式中通过将形态句式模型和卷积神经网络模型相结合来进行文本的情感分类,进一步将情感概率值与预设阈值的比较有利于准确直接的确定待分类文本属于正向文本还是负向文本。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种情感分类装置,如图3所示,包括:提取模块201,用于利用形态句式模型提取待分类文本的方面特征词和表达特征词;转化模块202,用于将所述方面特征词和表达特征词转化为矩阵;情感分类模块203,用于根据所述矩阵和用于进行情感分类的卷积神经网络模型,获取所述待分类文本的情感分类结果;其中,所述卷积神经网络模型预先根据采集的训练文本数据集训练得到。

不难发现,本实施方式为与第一、二实施方式相对应的装置实施例,本实施方式可与第一、二实施方式互相配合实施。第一、二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一、二实施方式中。

本发明第四实施方式涉及一种电子设备,如图4所示,包括至少一个处理器301;以及与所述至少一个处理器301通信连接的存储器302;其中,所述存储器302存储有可被所述至少一个处理器301执行的指令,所述指令被所述至少一个处理器301执行,以使所述至少一个处理器301能够执行上述的方法实施例。

其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1