一种基于深度学习的会话情感自动分析方法

文档序号:9668721阅读:340来源:国知局
一种基于深度学习的会话情感自动分析方法
【技术领域】
[0001] 本发明属于自然语言处理、数据挖掘领域,具体涉及基于深度学习的语音会话中 的情感分析方法。
【背景技术】
[0002] 语音会话的情感分析是通过分析话语来判断会话人的情感状态,如高兴、满意、愤 怒等。语音会话大量存在于实际领域,包括各种呼叫中心、人机交互系统等。会话情感自动 分析有助于动态了解会话人的心理状态和情绪情感变化,有着广阔的应用前景。以呼叫中 心为例,通过分析客服对话过程中会话人的情绪和情感变化,管理人员可以发现客户服务 过程中服务员态度是否友好,客户是否有不满情绪,以尽早解决问题。
[0003] 针对语音会话的情感分析,一般的做法是对一段话提取一系列声学特征,基于这 些声学特征训练分类器。然而,只使用声学特征的问题在于无法考虑到话语的语义信息,而 语义与情感是密切相关的。
[0004] 近些年来,语言信息逐步受到重视。通常做法是使用自动语音识别(ASR)技术将 语音转换为文本,然后从文本中提取一系列文本特征,再利用音学和文本二种特征进行会 话的情感分析。基于声学和文本两种特征,目前主要有两种方法:一是先分别用两种特征 训练两个独立的分类器,然后将两个独立分类器的结果再进行结合,得到最终结果。这种方 法只对两种分类结果进行结合,忽视了特征之间的关联性。二是将两种特征直接合并,在合 并的基础上再进行分类。然而,声学特征和文本特征的低层表示通常是非线性关系,这种直 接合并难以捕获到两种特征之间的关联,而且合并后的维度可能非常大。本发明的主要目 的是通过深度学习方法将声学特征和文本特征有机融合在一起,使彼此之间的关联通过一 种新的表示形式统一表达出来,形成高层表示,作为分类器的输入,以此进行会话的情感分 析。

【发明内容】

[0005] 本发明提供一种语音会话中的情感分析方法,将语音会话中的声音特征与文本特 征进行融合并得到高层的表示。
[0006] 为了便于说明,首先引入如下几个概念:
[0007] 情感分类:对会话人的情感状态进行分析,将话语划分到正确的情感类别中。根据 实际需求的不同,可以定义不同的情感类别。
[0008] 词向量:使用低维实数向量表示一个词的信息。与传统的稀疏表示相比,词向量没 有维数灾难的问题。
[0009] 自编码器(AE)[1]:只有一层隐藏节点,输入和输出通常具有相同节点数的神经网 络,可以学习到输入的压缩表示。
[0010] 去噪自编码器(DAE)[1]:随机地将自编码器的一些输入置零,迫使隐藏层单元发现 更多鲁棒性好的特征。
[0011] 多特征栈式去噪自编码器(MSDA):基于去噪自编码器,可以在多种不同特征甚至 不同类型特征组合上进行学习,得到融合后的高层表示。
[0012] 本发明的目的是提供一种新的方法,通过深度学习将语音会话中的声学特征和文 本特征融合在一起,得到一种高层的表示,用于语音会话的情感分析。所得到的高层表示并 不是简单的组合,更不是直接的拼接,而是通过深度学习进行非线性变换得到的。
[0013] 本发明的原理是:首先使用ASR将语音识别文本,然后分别提取声学特征和文本 特征,接下来使用MSDA将两种特征深度融合,得到高层表示,最后基于该表示,使用分类器 进行情感分类。
[0014] 本发明对应的流程图如图1所示,详细技术方案如下:
[0015] A.将一通对话根据说话人转变和声音停顿分割为若干段语音,执行如下操作:
[0016] A1.识别说话人转换点的候选
[0017] A2.通过聚类确定说话人转换点
[0018] A3.将时长超过某一阈值的停顿切分
[0019] B.使用ASR技术将语音转换为文本
[0020] C.提取声学特征,执行如下操作:
[0021] C1.提取一段语音中每一帧的特征
[0022] C2.基于多个统计量得到一段语音的全局特征
[0023] D.提取文本特征,执行如下操作:
[0024] D1.基于大规模语料训练,学习到每个词的向量表示
[0025] D2.基于词向量计算口语会话中每段文本的表示
[0026] E.形成两种特征的融合表示并进行情感分类,执行如下操作:
[0027]E1.分别学习声学特征和文本特征的表示
[0028]E2.通过深度学习,再将两种表示进行深度融合,得到高层表示
[0029] E3.基于融合的高层表示训练分类器,对每段语音分类
[0030] 利用本发明提供的技术方案,可以充分利用声学和文本两种特征,通过深度学习 得到融合的高层表示,提高情感分类的准确率。
【附图说明】
[0031] 图1为本发明流程不意图;
[0032] 图2为本发明基于深度学习的两种特征融合框架。
【具体实施方式】
[0033] 下面通过一个实例对本发明作说明。需要注意的是,公布实施例的目的在于帮助 进一步理解本发明。在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改 都是可能的。因此,本发明不应局限于实施本例所公开的内容,本发明要求保护的范围以权 利要求书界定的范围为准。
[0034] 假定需要分析一通中文语音对话(如售后服务的语音对话),判断其中是否存在 不友好(负面情感)的话语,如果有,则标记出来。
[0035] 首先需要将对话按照会话双方说话人的切换来切分。对话切分主要包括两步:识 别说话人转换点和无监督聚类。这里将语音中所有字的边界作为转换点的候选,然后通过 聚类将同一人连续所说的字合并,从而确定说话人的转换点,再按转换点将会话进行切分。 为避免处理会话一方过长的连续话语,还会将针对切分后,话语时长超过某一阈值的静音 在静音处再作切分。
[0036] 在切分之后,使用ASR引擎将每段语音转换为文本。本例使用的ASR引擎 包含5个部分:特征提取、声学模型、语言模型、词典、解码器。特征为40维的对数 filter-banks[2]。声学模型、语言模型和词典组合成一个加权有限状态传感器(weighted finitestatetransducers,WFST)[3] 〇
[0037] 根据切分的结果提取每段语音的声学特征。一段语音被划分为若干帧,每帧时 长25毫秒。本例中对每帧提取26个声学特征(包括12个MFCC、8个LSP、3个R)、2个 Intensity和1个MZCR)以及每个特征的一阶导数,共计52个特征。然后使用19个统计量 (包括4个Regression、6个Percentile、3个Moment和6个Extreme)计算一段语音的全 局特征,这样每段语音的声学特征可表示为一个988维的向量。
[0038] 基于语音转换后的文本,提取每段话语的文本特征。为了提取文本特征,先需要基 于大规模语料进行训练,学习到词向量。词向量的学习可以直接使用开源工具W〇rd2VeC,大 规模语料可以使用中文Gigaword、维基百科和搜狗新闻语料等,也可以使用其他大规模语 料。词向量维度可以根据情况设置,例如设置为200维。对每段话语的文本s,首先进行分 词,将每个词对应到预先训练得到的词向量上。文本s的特征则为,该段文本包含的词所对 应的词向量的平均值,即
[0039]
[0040] 其中F(s)表示s的文本特征,EMB(Wi)表示s中词t的词向量,|s|表示s中词 的个数。
[0041] 最后,基于本发明提出的MSDA模型,学习将声音和文本两种特征融合的高层表 示,进行情感分类。MSDA的结构如图2所示。MSDA的基本构成单元是DAE。声学特征和 文本特征输入到MSDA后,各自通过DAE学习到相应的表示。这两种特征的表示合并(串 接)后,继续通过深层学习,得到融合的高层表示,该表示作为分类器的输入最终得到情感 类别。MSDA的训练过程包括两步:首先是无指导的预训练,使用无标注数据从下往上依次 训练。然后使用有标注数据做有指导的微调。分类结果的计算可以使用深度神经网中常用 的Softmax方法(也可以使用其他方法)。针对训练数据中不同的情感类别数量不平衡的 问题,在损失函数中可以针对不同的类别设置不同的权重因子。预测时选择Softmax给出 的最大概率类别作为预测的情感类别。
[0042] 参考文献:
[0043] [1]P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, andP. A. Manzagol. 2010. Stacked denoisingautoencoders: Learning useful representations in a deep network with a local denoising criterion. The Journal of Machine Learning Research,11,3371-3408.
[0044] [2] L. Deng, J. Li, J. T. Huang, K. Yao, D. Yu, F. Seide, M. L. Seltzer, G. Zweig, X. He, J. Williams, Y. Gong, and A. Acero. 2013. Recent advances in deep learning for speech research at Microsoft. ICASSP, pages 8604-8608.
[0045] [3]C. Allauzen,M. Mohri,M. Riley, and B. Roark. 2004. A generalized construction of integrated speech recognition transducers. ICASSP, volume 1,pages 761-764.
【主权项】
1. 一种会话情感自动分析方法,具体包括如下步骤: A. 将一通对话根据说话人转变和声音停顿分割为若干段语音; B. 使用ASR技术将语音转换为文本; C. 提取声学特征,执行如下操作: Cl.提取一段语音中每一帧的特征; C2.基于多个统计量得到一段语音的全局特征; D. 提取文本特征,执行如下操作: DL基于大规模语料训练,学习到每个词的向量表示; D2.基于词向量计算口语会话中每段文本的表示; E. 形成两种特征的融合表示并进行情感分类,执行如下操作: EL分别学习声学特征和文本特征的表示; E2.通过深度学习,再将两种表示进行深度融合,得到高层表示; E3.基于融合的高层表示训练分类器,对每段语音分类。2. 如权利要求1所述的会话情感自动分析方法,其特征在于,步骤A具体执行如下操 作: Al.识别说话人转换点的候选; A2.通过聚类确定说话人转换点; A3.将时长超过某一阈值的停顿切分。3. 如权利要求1所述的会话情感自动分析方法,其特征在于,步骤B中ASR引擎包含: 特征提取、声学模型、语言模型、词典、解码器。4. 如权利要求1所述的会话情感自动分析方法,其特征在于,步骤D中文本特征为该段 文本包含的词所对应的词向量的平均值,即其中F(s)表示s的文本特征,EMB(Wi)表示s中词Wi的词向量,I s|表示s中词的个 数。5. 如权利要求1所述的会话情感自动分析方法,其特征在于,步骤E中使用MSDA将两 种特征深度融合,得到高层表示。6. 如权利要求5所述的会话情感自动分析方法,其特征在于,MSDA的过程包括:首先是 无指导的预训练,使用无标注数据从下往上依次训练,然后使用有标注数据做有指导的微 调。
【专利摘要】本发明公开了一种基于深度学习的会话情感自动分析方法,属于自然语言处理、数据挖掘领域。本发明基于去噪自编码器学习语音和文本的表示,再通过深度学习方法将两种表示深度融合,得到高层的统一表示,基于融合后的高层表示再进行情感分析。利用本发明提供的技术方案,可以深度融合声学和文本两种特征,提高情感分类的准确率。
【IPC分类】G10L25/63, G06F17/27
【公开号】CN105427869
【申请号】CN201510731781
【发明人】张晓东, 王厚峰
【申请人】北京大学
【公开日】2016年3月23日
【申请日】2015年11月2日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1