基于自适应半监督非负矩阵分解的跨语料情感识别方法与流程

文档序号：18415937发布日期：2019-08-13 19:25阅读：214来源：国知局

本发明属于语音中的情感识别
技术领域：
，具体涉及一种跨语料情感识别方法。
背景技术：
：语音是人类交流感情、传递信息的重要媒介。自动语音情感识别是利用计算机来模拟人类通过聆听语音去捕捉对方情感状态的过程。由于存在许多潜在的应用，如交互式机器人助理、呼叫中心服务等，自动语音情感识别在最近几年越来越受到人们的重视。跨语料语音情感识别是自动语音情感识别中一个重要而又极具挑战的分支，其目的是为了解决由于话者语音中存在如语言、环境等的不匹配，而造成情感识别系统的性能下降的问题。一方面，由于人类自身具备从不同声音源来捕捉情感状态的能力，这给自动语音情感识别系统带来了更高的要求。另一方面，不匹配的语音会产生具有不同分布的语音样本，这是造成传统识别系统性能下降的主要原因。因此，如何增加情感识别系统对分布差异的鲁棒性来降低话者语音不匹配的影响，就成为一个既迫切又具有挑战性的研究内容。目前，跨语料语音情感识别的方法主要有两种：一是与识别任务相互独立的预处理方法，二是与识别任务相关联的嵌入式方法。预处理方法又可以分为两类：一类是基于归一化的方法，即采用各种各样的归一化方法来消除语音中与情感识别无关的信息，另一类是基于特征提取的方法，即利用非负矩阵分解、自编码机等技术来为不同分布的语音学习一个公共的特征表示。嵌入式方法一般根据带标签的训练语料来显式地学习一个分类器，同时采用不同的正则化技术来防止学到的分类器在不同分布的数据上出现过拟合。虽然目前的跨语料语音情感识别方法取得了一定的成就，但是，话者语音不匹配现象仍然会导致现有的语音情感识别方法对跨语料情感识别的准确率较低。技术实现要素：本发明的目的是为解决话者语音不匹配现象导致的现有语音情感识别方法对跨语料情感识别的准确率低的问题。本发明为解决上述技术问题采取的技术方案是：基于自适应半监督非负矩阵分解的跨语料情感识别方法，该方法包括以下步骤：步骤一、将已知标签的情感语音信号数据作为训练集将待识别的情感语音信号数据作为测试集且训练集和测试集分别来自不同的语料库，训练集和测试集中的样本数分别为n和m；分别对训练集和测试集中的每个样本进行超音段特征提取，获得训练集对应的特征矩阵以及测试集对应的特征矩阵其中：和分别代表训练集中的第1个、第2个和第n个样本的特征向量，和分别代表测试集中的第1个、第2个和第m个样本的特征向量；步骤二、对训练集对应的特征矩阵xs以及测试集对应的特征矩阵xt进行预处理，获得训练集对应的新特征矩阵以及测试集对应的新特征矩阵步骤三、利用训练集对应的新特征矩阵以及新特征矩阵对应的标签矩阵ys训练分类器f(w,x)，使ys与满足关系式获得分类器的参数再将测试集对应的新特征矩阵输入分类器获得对新特征矩阵的初始分类结果步骤四、通过求解非负约束优化问题，获得在基矩阵u上的编码矩阵vs以及在基矩阵u上的编码矩阵vt；步骤五、利用步骤四获得的矩阵vs训练分类器f(w,v)，使其满足ys＝f(w′,vs)，得到分类器参数w′；再将步骤四获得的矩阵vt输入分类器f(w′,v)得到最终的分类结果yt＝f(w′,vt)。本发明的有益效果是：本发明提出了一种基于自适应半监督非负矩阵分解的跨语料情感识别方法，通过特征空间与标签空间共享编码信息的方式，可以学习到更具判别性的语音情感特征表示，同时采用最大平均差异来度量特征表示中存在的差异，减少话者语音的不匹配，并根据流形一致性假设，使得新的特征表示尽可能地保留原始特征空间的信息，增强了语音情感特征表示的健壮性，从而有效地提高跨语料情感识别性能。与目前主流的预处理方法和嵌入式方法相比，本发明的方法在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74％，加权平均召回率达到43.84％，远高于现有的其他方法，有效提高了跨语料语音情感识别的准确率。附图说明图1是本发明的流程图；图2是本发明的自适应半监督非负矩阵分解方法的原理图；其中：u和h分别表示样本空间和标签空间的基矩阵，vs和vt分别表示xs和xt的编码矩阵；图3是本发明方法在任务e2e上的未加权平均召回率(uar)和加权平均召回率(war)的柱形图；其中：satnmf表示本发明的方法，snmf、snmf-γ和stnmf-λ分别表示本发明在参数α＝γ＝λ＝0、α＝λ＝0和α＝0时的特例；图4是本发明方法在任务e2b上的未加权平均召回率(uar)和加权平均召回率(war)的柱形图；图5是本发明方法在任务b2c上的未加权平均召回率(uar)和加权平均召回率(war)的柱形图；图6是本发明方法在任务c2e上的未加权平均召回率(uar)和加权平均召回率(war)的柱形图。具体实施方式具体实施方式一：如图1所示，本实施方式所述的基于自适应半监督非负矩阵分解的跨语料情感识别方法，该方法包括以下步骤：步骤一、将已知标签的情感语音信号数据作为训练集将待识别的情感语音信号数据作为测试集且训练集和测试集分别来自不同的语料库，训练集和测试集中的样本数分别为n和m；分别对训练集和测试集中的每个样本进行超音段(supra-segmental)特征提取，获得训练集对应的特征矩阵以及测试集对应的特征矩阵其中：和分别代表训练集中的第1个、第2个和第n个样本的特征向量，和分别代表测试集中的第1个、第2个和第m个样本的特征向量；as(p)为训练集中的任一样本，at(q)为测试集中的任一样本，p和q是时间索引，p＝1,2,...,p，q＝1,2,...,q，p表示样本as(p)的帧数，q表示样本at(q)的帧数；步骤二、对训练集对应的特征矩阵xs以及测试集对应的特征矩阵xt进行预处理，获得训练集对应的新特征矩阵以及测试集对应的新特征矩阵步骤三、利用训练集对应的新特征矩阵以及新特征矩阵对应的标签矩阵ys训练分类器f(w,x)，使ys与满足关系式获得分类器的参数w*；再将测试集对应的新特征矩阵输入分类器f(w*,x)，获得对新特征矩阵的初始分类结果后续步骤将会使用这一初始分类结果来估计不同数据集的条件分布之间的差异；步骤四、通过求解非负约束优化问题，获得在基矩阵u上的编码矩阵vs以及在基矩阵u上的编码矩阵vt；步骤五、利用步骤四获得的矩阵vs训练分类器f(w,v)，使其满足ys＝f(w′,vs)，得到分类器参数w′；再将步骤四获得的矩阵vt输入分类器f(w′,v)得到最终的分类结果yt＝f(w′,vt)。本发明提供一种融合标签信息的预处理方法，与传统预处理方法相比，本发明借鉴了嵌入式方法的优势，利用已知的标签信息来帮助改善预处理方法的识别性能，为解决语音情感识别中由于话者语音的不匹配而造成的识别性能下降的问题提供了新的方法。具体实施方式二：本实施方式与具体实施方式一不同的是：所述对训练集对应的特征矩阵xs以及测试集对应的特征矩阵xt进行预处理是指将特征矩阵xs以及特征矩阵xt中每个样本的特征向量均线性缩放至[0,1]区间内。具体实施方式三：本实施方式与具体实施方式二不同的是：所述训练集对应的新特征矩阵以及测试集对应的新特征矩阵的具体形式分别为：训练集对应的新特征矩阵为其中：为训练集中的第1个样本对应的预处理后特征向量，为训练集中的第2个样本对应的预处理后特征向量，为训练集中的第n个样本对应的预处理后特征向量；测试集对应的新特征矩阵为其中：为测试集中的第1个样本对应的预处理后特征向量，为测试集中的第2个样本对应的预处理后特征向量，为测试集中的第m个样本对应的预处理后特征向量。具体实施方式四：如图2所示，本实施方式与具体实施方式三不同的是：所述步骤四的具体过程为：步骤四一、建立非负约束优化问题的表达式如公式(1)所示：非负矩阵分解体现在公式(1)的第一项和约束条件上，半监督体现在公式(1)的第二、三项上，自适应体现在公式(1)的第四项上；其中，中间变量矩阵中间变量矩阵v＝[vs,vt]，vt代表v的转置；中间变量矩阵y＝[ys,yt]，yt是未知标签矩阵，h表示与y对应的基矩阵；操作符||·||f表示f范数(frobenius范数)；ο为矩阵的点乘运算符；tr(·)表示矩阵的求迹运算符；参数β、λ和γ均为惩罚因子，它们分别权衡各自对应项的相对贡献，值越大表示越大的正则化；权值矩阵e＝[eij]，权值矩阵e中第i行第j列的元素eij的定义为：其中，yij是y中第i行第j列的元素；权值矩阵e用来过滤未知标签yt，从而消除其对模型的影响；其中：m0用于刻画训练集与测试集的边缘分布之间的差异，mk用于刻画训练集与测试集的条件分布之间的差异，m用于刻画训练集与测试集的联合分布之间的差异；k＝1,2，…,c，c代表类别的个数；参数α表示惩罚因子，用来权衡条件分布差异项的相对贡献；mk中第i′行第j′列的元素(mk)i′j′的计算公式如下：式中：表示训练集中属于类别k的样本集合，nk表示集合中的样本个数；根据步骤三的获得测试集中属于伪类别k的样本集合步骤三获得的只是初始分类结果，即是一个不精确的类别标签，因此根据获得的测试集中属于类别k的样本也是不精确的，所以称之为属于伪类别k的样本，mk表示集合中的样本个数，向量vi′是中间变量矩阵v的第i′列，对应着数据集(数据集由训练集和测试集组成，数据集中样本顺序依次为训练集的第1个样本，训练集的第2个样本，…，训练集的第n个样本，测试集的第1个样本，测试集的第2个样本，…，测试集的第m个样本)中的第i个样本的特征表示，数据集中的第i个样本是指在数据集中，从训练集的第1个样本开始计数的第i个样本，向量vj′是中间变量矩阵v的第j′列，表示向量vi′对应的样本和向量vj′对应的样本都位于集合中；同理，表示向量vi′对应的样本和向量vj′对应的样本都位于集合中；表示向量vi′对应的样本位于集合中，且向量vj′对应的样本都位于集合中；表示向量vi′对应的样本位于集合中，且向量vj′对应的样本都位于集合中；m0中第i′行第j′列的元素(m0)i′j′的计算公式如下：表示向量vi′对应的样本和向量vj′对应的样本都位于集合中；表示向量vi′对应的样本和向量vj′对应的样本都位于集合中；表示向量vi′对应的样本位于集合中，且向量vj′对应的样本都位于集合中；表示向量vi′对应的样本位于集合中，且向量vj′对应的样本都位于集合中；l＝d-w，l表示相似度矩阵w＝[wi″j″]对应的拉普拉斯矩阵，度矩阵d为对角矩阵；利用高斯核函数定义相似度矩阵w中第i″行第j″列的元素wi″j″的计算公式如下：w构建在全部数据集上，其中，xi″是中间变量矩阵v的第i″列对应的样本，xj″是中间变量矩阵v的第j″列对应的样本，表示样本xi″的k0近邻集合(即表示在数据集中与xi″最近的k0个样本组成的集合)，表示样本xj″的k0近邻集合，参数k0表示近邻的个数，σ表示高斯核的宽度，它们的取值范围分别是{1,3,5,8,10,15}和[0.01,100]；操作符||·||2表示2范数，e表示自然常数；度矩阵d中第i″个对角元素步骤四二、初始化矩阵u、h和v为任意非负矩阵；步骤四三、利用公式更新矩阵u中第行第列的元素利用公式更新矩阵h中第行第列的元素利用公式更新矩阵v中第行第列的元素其中，m+和m-分别是m的正项和负项；代表矩阵的索引；对于第一次迭代，公式右端的以及分别是初始化矩阵u、h以及v中的元素值，公式右端的u、h以及v分别是初始化的矩阵u、h以及v；步骤四四、重复步骤四三的过程，对于当前次迭代更新过程，公式右端的以及利用的是当前次的前一次迭代得到的值，公式右端的u、h以及v是由当前次的前一次迭代得到的以及组成的，直至前后两次迭代得到的以及保证非负约束优化问题目标函数值的相对改变量小于阈值10-5时，输出后一次迭代获得的矩阵v＝[vs,vt]。具体实施方式五：本实施方式与具体实施方式四不同的是：所述参数β、λ、γ和α的取值范围均为[0.001,1000]。为了验证本发明的有效性，采用线性支持向量机(linearsvm)作为分类器，在四个公共的语音情感语料库上进行了四组跨语料语音情感识别任务(e2e、e2b、b2c和c2e，四组任务是基于四个公共语音情感数据集)，并与五个经典的预处理方法(msda、tnmf和fstsl)和嵌入式方法(dbn和dosl)进行了性能对比，结果如表1和表2所示。其中，分别采用未加权平均召回率(uar，unweightedaveragerecall)和加权平均召回率(war，weightedaveragerecall)作为识别性能的评价指标。显见，本发明提出的方法在四组跨语料语音情感识别任务上的整体表现最佳。表1不同方法在四组跨语料语音情感识别任务上的uar(％)对比表2不同方法在四组跨语料语音情感识别任务上的war(％)对比实验方案msdatnmffstsldbndosl本发明e2e39.3141.4942.1037.1437.9843.22e2b33.2257.1158.5945.6137.6453.84b2c34.2038.8826.8032.6040.5042.30c2e28.8933.0729.9431.5730.3334.00平均性能33.9142.6439.3636.7336.6143.84因此，实验充分证实了本发明所提出方法的有效性。如图3至图6所示，本发明引入的正则项在一定程度上改善了跨预料语音情感识别的性能。本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩纪庆;罗辉;郑铁然;郑贵滨
技术所有人：哈尔滨工业大学
我是此专利的发明人