一种基于无监督未登录词识别的自媒体语言情感分析方法

文档序号:28442253发布日期:2022-01-12 02:42阅读:193来源:国知局
一种基于无监督未登录词识别的自媒体语言情感分析方法

1.本发明涉及文本情感技术领域,尤其涉及一种基于无监督未登录词识别的自媒体语言情感分析方法。


背景技术:

2.文本情感分析模型,是对带有情感色彩的主观性文本进行分析处理、归纳和推理的过程,根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或其他自定义的几种类型,是对文本作者倾向性和观点、态度的划分,因此也称倾向性分析。
3.目前,现有的传统机器学习情感分析流程如图1所示,通过分词处理、特征向量化及特性择等流程构建情感模型。特征工程是此类研究内容的核心,情感分类任务中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、part-of-speech(pos)特征、句法特征、tf-idf特征等。传统机器学习情感分析中,高性能的情感模型依赖于高质量的标注文本,而在现实场景中较高质量的标注数据和特征工程往往因为需要投入大量人工成本而很难实现。同时词分析方法依赖于特征工程方法分类,但是特征工程又依赖人工设计,具有受人为因素影响、推广能力差的劣势,无法保证在某一领域表现优秀的情感模型在其他领域下的性能,因此当下情感分析大多基于深度学习模型研究实现。
4.深度学习是基于特征自学习和深度神经网络的一系列机器学习算法的总称。目前深度学习的研究有了长足发展,在传统特征选择与提取框架上取得巨大突破,在自然语言处理、生物医学分析、遥感影像解译等诸多领域产生越来越重要影响,并在计算机视觉和语音识别领域取得革命性突破。基于深度学习抽象特征,可避免人工提取特征的工作,在情感分类中具有极大优势。但深度学习技术并不适用于当前的自媒体平台,主要由于自媒体平台的语言包含网络用语、缩略词、表情符号、文字、图片等多元化媒体信息。不仅为深度学习方法造成分词困难,并且导致获取的情感信息并不完整,从而影响系统的准确性。
5.现有技术中的一种短文本情感分析方法的处理流程如图2所示,包括如下的处理过程:利用分词工具将原始文本语料分词,提取词特征,获取文本词向量,计算文本词向量与背景信息的注意力,构建结合了背景信息的新的文本词向量。最后通过深度神经网络进行分类。该方案为对其背景信息的含义概括为任何与文本相关且可用的信息,可以认为是与输入文本相关的话题与背景知识。
6.上述现有技术中的一种短文本情感分析方法的缺点为:
7.1.自媒体平台的文本缺少形式化的背景信息,运用该方法则无法高效地提取背景信息,从而导致可用性降低。
8.2.自媒体语言具有由于口语化、缩略词、网络词等导致用语非规范的明显特点与含有大量表情符的特点,导致文本无法被主流分词系统恰当分词的不良后果。该方法没有设计对分词系统的改进,也没有引入对表情符的处理,因此该方法无法充分获得自媒体文本的信息,从而影响其方法的性能。


技术实现要素:

9.本发明的实施例提供了一种基于无监督未登录词识别的自媒体语言情感分析方法,以实现有效地对自媒体语言进行情感分析。
10.为了实现上述目的,本发明采取了如下技术方案。
11.一种基于无监督未登录词识别的自媒体语言情感分析方法,包括:
12.模拟字符间的组合构造无监督未登录词识别器,利用所述无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到所述待分析的自媒体语言的表征;
13.使用自媒体多模态情感分析模型对所述待分析的自媒体语言的表征进行分析,得到所述待分析的自媒体语言的情感倾向。
14.优选地,所述的模拟字符间的组合构造无监督未登录词识别器,包括:
15.定义未登录词为无法被主流分词系统切分识别而又独立成词、表达具体含义的词语,使用多个已有的分词工具结合多种信息进行规则过滤,获得正确处理未登录词的分词结果,该分词结果包括句子和词序列,并将分词结果作为训练语料;
16.基于深度学习网络模型构建一个无监督未登录词识别器,将所述训练语料输入到无监督未登录词识别器,对所述无监督未登录词识别器进行训练,训练完成后,得到训练好的无监督未登录词识别器。
17.优选地,所述的利用所述无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到所述待分析的自媒体语言的表征,包括:
18.将待分析的自媒体语言输入到所述无监督未登录词识别器中,所述无监督未登录词识别器通过深度学习网络推断待分析的自媒体语言待分析的自媒体语言中的每个字符的标注分类,模拟字符间的组合,其中字符标注定义为四词位标注集{b,m,e,s},b代表标注词的开始字符,e代表标注词的结束字符,m代表标注词的中间字符,s代表单字字符,通过神经网络模型将未登录词识别任务转变为分类子任务,推断每一个字符标注的概率,模拟字符间的组合构造成词,得到未登录词的表征;
19.所述未登录词的表征为向量,该向量是若干个有序数字的序列,所有词的向量维数必须保证是一致的。
20.优选地,所述的使用自媒体多模态情感分析模型对所述待分析的自媒体语言的表征进行分析,得到所述待分析的自媒体语言的情感倾向,包括:
21.将各个自媒体平台本身提供的文本信息作为使用自媒体多模态情感分析模型的输入,提取表情符语义向量,使用表情符向量作为注意力机制语义编码,提取多个表情符的特征向量作为注意力层,训练不同表情符在不同文本下的权重影响,模拟表情符对文本的情感作用;
22.将所述待分析的自媒体语言的表征的输入文本分成若干句子,每一个句子单独通过自媒体多模态情感分析模型进行分析,将所有句子的分析结果进行综合,得到所述待分析的自媒体语言的情感倾向。
23.优选地,所述的将所述待分析的自媒体语言的表征的输入文本分成若干句子,每一个句子单独通过自媒体多模态情感分析模型进行分析,将所有句子的分析结果进行综合,得到所述待分析的自媒体语言的情感倾向,包括:
24.因为考虑到相同的表情符在不同的语境中可能表达不同的含义。因此本发明实施
例设计这样一个系统:表情与文本中的某个词越相关,则这个词保留的信息越多;表情与文本中某个词越不相关,则这个词保留的信息越少。
25.因此,本发明
26.计算所述待分析的自媒体语言中每个词对应的含有语义信息的向量与表情符向量的相关性,该相关性是一个0~1的数值,和为1,将每个词所对应的向量与这个相关性数值相乘,再把所有乘过的向量相加,就获得了一个结合了表情符注意力机制的向量,将该向量作为所述待分析的自媒体语言和表情符结合在一起的表征向量;
27.将所述待分析的自媒体语言和表情符结合在一起的表征向量输入使用全连接神经网络的分类器,该分类器输出为维数为目标情感倾向的个数的向量,该向量每个位置上的数分别表示对应的情感倾向可能性有多大。
28.优选地,所述的自媒体语言的情感倾向包括:愤怒、恐惧、快乐、喜爱、厌恶、惊喜、悲伤和无情绪。
29.由上述本发明的实施例提供的技术方案可以看出,本发明实施例实现了未登录词识别及表情符语义融合,将提高情感模型面向自媒体平台的分析性能,并适应自媒体平台的发展趋势。同时在分析平台用户语义情感方面,准确率等指标优于现有技术。
30.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
31.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为现有技术中的一种传统机器学习情感分析流程图;
33.图2为现有技术中的一种短文本情感分析方法的处理流程图;
34.图3为本发明实施例提供的一种自媒体无监督未登录词识别算法的处理流程图;
35.图4为本发明实施例提出的一种自媒体多模态情感分析模型的结构示意图。
具体实施方式
36.下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
37.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
38.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
39.为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
40.实施例一
41.本发明实施例针对于自媒体网络平台的情感分析,主要依据为现有技术在自媒体平台上的表现不足之处:主流分词工具不适用于自媒体语言,为尽可能得到精准的分词效果,必须在分词工具之上借助其他算法操作。单纯文本可表达的情感语义信息有限,考虑表情符在内的信息可以更为准确的推测用户情感倾向。本发明针对以上两点不足研究技术策略,实现了改进情感分析模型性能的目标。
42.本发明实施例提供了一种基于无监督未登录词识别与细粒度表情符的自媒体语言情感分析方案,从而提高对自媒体语言的情感分析性能。针对自媒体语言非规范性,本发明实施例在主流分词工具分词之后额外进行一次未登录词算法识别,查看分词工具结果的连续散串中是否有构成词语的可能性。
43.针对自媒体平台中表情符号应用广泛的现实情况,考虑到表情符在较大程度上反映用户真实情感的现实作用,以及与情感倾向极为密切的相干关系,本发明实施例提出通过结合表情符与文字多模态向量输入的方式改进情感分析模型,以提高分类结果精度的发明内容。
44.本发明实施例提出了一种自媒体无监督未登录词识别算法,该算法将未登录词定义如下:“未登录词”是无法被主流分词系统切分识别而又独立成词、表达具体含义的词语。由于目前各个分词系统在含有大量新词的自媒体语料中表现不佳,因此本发明在分词工具的基础上,结合多种传统分词指标,训练了一个在自媒体语料中性能更好的模型。
45.本发明实施例提供的一种自媒体无监督未登录词识别算法的处理流程如图3所示,包括如下的处理步骤:
46.(1)使用多个已有的分词工具结合多种信息进行规则过滤,获得正确处理未登录词的分词结果,该分词结果包括句子和词序列,并将分词结果作为训练语料。
47.(2)基于深度学习网络模型构建一个无监督未登录词识别器,将上述训练语料输入到无监督未登录词识别器,对上述无监督未登录词识别器进行训练,训练完成后,得到一个可以正确处理未登录词的训练好的无监督未登录词识别器。
48.为了尽可能避免特征工程带来的困难,本发明将在未登录词识别任务中采用深度学习网络模型,将待分析的自媒体语言输入到所述无监督未登录词识别器中。通过分词器可以得到自媒体语言中包括的词。
49.所述无监督未登录词识别器通过深度学习网络推断待分析的自媒体语言中的每个字符的标注分类,模拟字符间的组合,其中字符标注定义为四词位标注集{b,m,e,s},b代表标注词的开始字符,e代表标注词的结束字符,m代表标注词的中间字符,s代表单字字符,通过神经网络模型将未登录词识别任务转变为分类子任务,推断每一个字符标注的概率,模拟字符间的组合构造成词,得到所述待分析的自媒体语言中的各个词的表征。上述字符
是每个汉字。
50.所述词的表征可以表示为自然数域的向量,但不限于该形式。向量是若干个有序数字的序列。向量的维数是任意的,但该数值与系统性能非常相关,因此通常经多次实验得到合适大小。使用词的表征是为了让计算机识别该词汇。
51.本发明实施例提出的一种自媒体多模态情感分析模型的结构如图4所示,本发明通过对国内自媒体平台新浪微博表情符的调研发现如下情况:微博平台自设计了一套表情符号,无论普通图片格式还是动态图片格式,都被收录在微博静态资源库中。通过对微博博文源码分析可以得到微博表情库的标题文本。为尽可能保证本发明提出的情感分析模型可以适用于不同场景,并适应自媒体表情的发展趋势,本发明并未自行构造任何表情符词典,均采用各个自媒体平台本身提供的文本信息作为模型输入,提取表情符语义向量。
52.同时,考虑到同一个表情符对不同的文本将具有不同作用的现实含义,表情符将对文本中的情感权重产生影响进而改变文本的情感表达。本发明使用表情符向量作为注意力机制语义编码,训练不同表情符在不同文本下的权重影响,从而模拟表情符对文本的情感作用。
53.为使表情符的位置信息发挥作用,本发明将完整的输入文本分成若干句子。每一个句子单独通过自媒体多模态情感分析模型进行分析,最后将所有句子的分析结果综合,得出待分析的自媒体语言的完整输入文本的情感倾向,也就是待分析的自媒体语言的情感倾向。
54.因为考虑到相同的表情符在不同的语境中可能表达不同的含义。因此本发明实施例使用这样一个系统:表情与文本中的某个词越相关,则这个词保留的信息越多;表情与文本中某个词越不相关,则这个词保留的信息越少。因此,本发明计算句子中每个词对应的向量与表情符向量的相关性。相关性是一个0~1的数值,和为1。然后我们将每个词所对应的向量与这个相关性数值相乘,再把所有乘过的向量相加,就获得了一个结合了表情符注意力机制的向量。这个向量就可以作为这一段话和表情符结合在一起的表征。由于表情符与各个词的相关性不同,因此被称作注意力机制。本发明实施例所采用的该机制在相关领域已经有广泛应用。
55.获得最终情感结果的方式并无特殊限制,将上述结合了表情符注意力机制的向量通过一个可训练分类器即可。该分类器可使用全连接神经网络但不限于该结构。分类器的输出为维数为目标情感倾向的个数的向量,该向量每个位置上的数分别表示对应的情感倾向可能性有多大。
56.自媒体语言的情感倾向可以包括:愤怒、恐惧、快乐、喜爱、厌恶、惊喜、悲伤和无情绪。
57.实施例二:
58.本发明实例包含微博列表获取模块、特征编码模块、情感分析模块和数据展示模块,其中特征编码模块包含本发明中的自媒体无监督未登录词识别算法,情感分析模块包含自媒体多模态情感分析模型。
59.本实例的具体步骤分为:
60.利用微博提供的开发者api(application programming interface,应用程序接口),获取所关注主题的部分微博列表;
61.对待分析的微博进行自媒体无监督未登录词识别与传统的词向量特征编码结合,得到待分析微博的表征;
62.对待分析微博的表征使用自媒体多模态情感分析模型得到其情感倾向,对所有微博进行分析并统计得到某话题各情感倾向的比例;
63.通过周期性运行系统,获得各时段情感倾向比例,并将其可视化。从而反应微博上各用户对某一话题的态度分布。
64.综上所述,本发明实施例实现了未登录词识别及表情符语义融合,将提高情感模型面向自媒体平台的分析性能,并适应自媒体平台的发展趋势。同时在分析平台用户语义情感方面,准确率等指标优于现有技术。
65.本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
66.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
67.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
68.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1