口音识别方法、装置、计算机装置及计算机可读存储介质与流程

文档序号:16309079发布日期:2018-12-19 05:12阅读:256来源:国知局
口音识别方法、装置、计算机装置及计算机可读存储介质与流程

本发明计算机听觉技术领域,具体涉及一种口音识别方法及装置、计算机装置和计算机可读存储介质。

背景技术

随着各类智能身份认证的不断出现和落地应用,诸如人脸识别、声纹识别已经获得了较为成熟的发展,但识别的准确性依然有提升的空间,诸如在声纹识别方向仍然可找到突破点以得到更为准确的识别结果,口音因素就是一个。由于说话人所生活的地域不同,即使在都讲普通话的情况下或多或少依然会有口音的差别,若能在现有的声纹识别中加入口音识别作为补充,应用场景将会有进一步的扩展,最为直接的应用为在声纹识别前识别出该说话人所处地域的范围,进而缩小后续识别的对象范围。然而,现有的口音识别效果并不理想,识别速度较慢且准确度不高。



技术实现要素:

鉴于以上内容,有必要提出一种口音识别方法及装置、计算机装置和计算机可读存储介质,其可以实现快速准确的口音识别。

本申请的第一方面提供一种口音识别方法,所述方法包括:

对待识别语音信号进行预处理;

检测预处理后的所述待识别语音信号中的有效语音;

对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;

根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;

根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

另一种可能的实现方式中,所述检测预处理后的所述待识别语音信号中的有效语音包括:

对预处理后的所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧;

对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;

根据所述语音帧的频谱计算各个频带的累计能量;

对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;

将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。

另一种可能的实现方式中,所述mfcc特征参数包括初始mfcc特征参数、一阶差分mfcc特征参数和二阶差分mfcc特征参数。

另一种可能的实现方式中,所述方法还包括:

对所述ivector进行噪声补偿。

另一种可能的实现方式中,所述根据所述ivector计算所述待识别语音信号对给定口音的判决得分包括:

将所述ivector输入逻辑回归模型,得到所述待识别语音信号对给定口音的判决得分。

另一种可能的实现方式中,所述对所述有效语音提取梅尔频率倒谱系数mfcc特征参数包括:

采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;

根据所述频率弯折因子,采用双线性变换对mfcc特征参数提取所使用的三角滤波器组的位置和宽度进行调整;

根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。

另一种可能的实现方式中,所述对待识别语音信号进行预处理包括:

对所述待识别语音信号进行预加重;和

对所述待识别语音信号进行加窗分帧。

本申请的第二方面提供一种口音识别装置,所述装置包括:

预处理单元,用于对待识别语音信号进行预处理;

检测单元,用于检测预处理后的所述待识别语音信号中的有效语音;

第一提取单元,用于对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;

第二提取单元,用于根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;

识别单元,用于根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述口音识别方法。

本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述口音识别方法。

本发明对待识别语音信号进行预处理;检测预处理后的所述待识别语音信号中的有效语音;对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。本发明可以通过数据库层面发现问题,而无需测试人员通过复杂、大量的功能测试去发现问题。本发明可以实现快速准确的口音识别。

附图说明

图1是本发明实施例提供的口音识别方法的流程图。

图2是本发明实施例提供的口音识别装置的结构图。

图3是本发明实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

优选地,本发明的口音识别方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的口音识别方法的流程图。所述口音识别方法应用于计算机装置。所述口音识别方法检测出测试库的失效对象,以便开发人员做代码修复,完成失效对象整改。

如图1所示,所述口音识别方法具体包括以下步骤:

步骤101,对待识别语音信号进行预处理。

所述待识别语音信号可以是模拟语音信号,也可以是数字语音信号。若所述待识别语音信号是模拟语音信号,则将所述模拟语音信号进行模数变换,转换为数字语音信号。

所述待识别语音信号可以是通过语音输入设备(例如麦克风、手机话筒等)采集到的语音信号。

对所述待识别语音信号进行预处理可以包括对所述待识别语音信号进行预加重。

预加重的目的是提升语音的高频分量,使信号的频谱变得平坦。语音信号由于受声门激励和口鼻辐射的影响,能量在高频端明显减小,通常是频率越高幅值越小。当频率提升两倍时,功率谱幅度按6db/oct跌落。因此,在对待识别语音信号进行频谱分析或声道参数分析前,需要对待识别语音信号的高频部分进行频率提升,即对待识别语音信号进行预加重。预加重一般利用高通滤波器实现,高通滤波器的传递函数可以为:

h(z)=1-κz-1,0.9≤κ≤1.0,

其中,κ为预加重系数,优选取值在0.94-0.97之间。

对所述待识别语音信号进行预处理还可以包括对所述待识别语音信号进行加窗分帧。

语音信号是一种非平稳的时变信号,主要分为浊音和清音两大类。浊音的基音周期、请浊音信号幅度和声道参数等都随时间而缓慢变化,但通常在10ms-30ms的时间内可以认为具有短时平稳性。为了获得短时平稳信号,语音信号处理中可以把语音信号分成一些短段来进行处理,这个过程称为分帧,得到的短段的语音信号称为语音帧。分帧是通过对语音信号进行加窗处理来实现的。为了避免相邻两帧的变化幅度过大,帧与帧之间需要重叠一部分。在本发明的一个实施例中,每个语音帧为20毫秒,相邻两个语音帧之间存在10毫秒重叠,也就是每隔10毫秒取一个语音帧。

常用的窗函数有矩形窗、汉明窗和汉宁窗,矩形窗函数为:

汉明窗函数为:

汉宁窗函数为:

其中,n为一个语音帧所包含的采样点的个数。

步骤102,检测预处理后的所述待识别语音信号中的有效语音。

可以根据预处理后的所述待识别语音信号的短时能量和短时过零率等进行端点检测,以确定所述待识别语音信号中的有效语音。

在本实施例中,可以通过下述方法检测预处理后的所述待识别语音信号中的有效语音:

(1)对预处理后的所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧x(n)。在一个具体实施例中,可以对预处理后的所述待识别语音信号加汉明窗,每帧20ms,帧移10ms。若预处理过程中已对待识别语音信号加窗分帧,则该步骤省略。

(2)对所述语音帧x(n)进行离散傅里叶变换(discretefouriertransform,dft),得到所述语音帧x(n)的频谱:

(3)根据所述语音帧x(n)的频谱计算各个频带的累计能量:

其中e(m)表示第m个频带的累计能量,(m1,m2)表示第m个频带的起始频带点。

(4)对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值。

(5)将所述各个频带的累计能量对数值与预设阈值比较,得到所述有效语音。若一个频带的累计能量对数值高于预设阈值,则所述频带对应的语音为有效语音。

步骤103,对所述有效语音提取梅尔频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)特征参数。

提取mfcc特征参数的流程如下:

(1)对每一个语音帧进行离散傅里叶变换(可以是快速傅里叶变换),得到该语音帧的频谱。

(2)求该语音帧的频谱幅度的平方,得到该语音帧的离散能量谱。

(3)将该语音帧的离散能量谱通过一组mel频率上均匀分布的三角滤波器(即三角滤波器组),得到各个三角滤波器的输出。该组三角滤波器的中心频率在mel频率刻度上均匀排列,且每个三角滤波器的三角形两个底点的频率分别等于相邻的两个三角滤波器的中心频率。三角滤波器的中心频率为:

三角滤波器的频率响应为:

其中,fh、f1为三角滤波器的高频和低频;n为傅里叶变换的点数;fs为采样频率;m为三角滤波器的个数;b-1=700(eb/1125-1)是fmel的逆函数。

(4)对所有三角滤波器的输出做对数运算,得到该语音帧的对数功率谱s(m)。

(5)对s(m)做离散余弦变换(discretecosinetransform,dct),得到该语音帧的初始mfcc特征参数。离散余弦变换为:

(6)提取语音帧的动态差分mfcc特征参数。初始mfcc特征参数只反映了语音参数的静态特性,语音的动态特性可通过静态特征的差分谱来描述,动静态结合可以有效提升系统的识别性能,通常使用一阶和/或者二阶差分mfcc特征参数。

在一具体实施例中,提取的mfcc特征参数为39维的特征矢量,包括13维初始mfcc特征参数、13维一阶差分mfcc特征参数和13维二阶差分mfcc特征参数。

mfcc中引入了三角滤波器组,且三角滤波器在低频段分布较密,在高频段分布较疏,符合人耳听觉特性,在噪声环境下仍具有较好的识别性能。

在本发明的一个实施中,在对预处理后的待识别语音信号提取mfcc特征参数之后,还可以对提取的mfcc特征参数进行降维处理,得到降维后的mfcc特征参数。例如,采用分段均值数据降维算法mfcc特征参数进行降维处理,得到降维后的mfcc特征参数。降维后的mfcc特征参数将用于后续的步骤。

步骤104,根据所述mfcc特征参数,利用预先训练好的高斯混合模型(gaussianmixturemodel,gmm)-通用背景模型(universalbackgroundmodel,ubm)提取所述有效语音的身份矢量(identity-vector,ivector)。

提取ivector之前,首先要用大量属于不同口音的训练数据训练出通用背景模型。通用背景模型实际上是一种高斯混合模型(gmm),旨在解决实际场景数据量稀缺的问题。gmm是一种参数化的生成性模型,具备对实际数据极强的表征力(基于高斯分量实现)。高斯分量越多,gmm表征力越强,规模也越庞大,此时负面效应逐步凸显——若想获得一个泛化能力较强的gmm模型,则需要足够的数据来驱动gmm的参数训练,然而实际场景中获取的语音数据甚至连分钟级都很难企及。ubm正是解决了训练数据不足的问题。ubm是利用大量属于不同口音的训练数据(无关乎说话人、地域)混合起来充分训练,得到一个可以对语音共通特性进行表征的全局gmm,可大大缩减从头计算gmm参数所消耗的资源。通用背景模型训练完成后,只需利用单独属于每个口音的训练数据,分别对ubm的参数进行微调(例如通过ubm自适应),得到属于各个口音的gmm。

在一个实施例中,不同口音可以是属于不同地域的口音。所述地域可以是按照行政区域来划分,例如辽宁、北京、天津、上海、河南、广东等。所述地域也可以是按照普遍的经验以口音对地区来划分,例如闽南、客家等。

提取ivector是基于全差异空间建模(tv)方法将ubm训练得出的高维gmm映射至低维度的全变量子空间,可突破随语音信号时长过长而提取的向量维度过大不便计算的限制,并能提升计算速度,表达出更全面的特征。gmm-ubm中的gmm超矢量可以包括跟说话人本身有关的矢量特征和跟信道以及其他变化有关的矢量特征的线性叠加。

tv模型的子空间建模形式为:

m=m+tw

其中,m表示语音的gmm超矢量,即所述mfcc特征参数,m表示口音无关的gmm超矢量,t表示描述差异的空间的载荷矩阵,w表示gmm超矢量m在载荷矩阵空间下对应的低维因子表示,即ivector。

在本实施例中,可以对提取的ivector行噪声补偿。在一实施例中,可以采用线性判别分析(lineardiscriminativeanalysis,lda)和类内协方差规整(withinclasscovariancenormalization,wccn)对提取的ivector进行噪声补偿。

步骤105,根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

给定口音可以是一个也可以是多个。例如,若给定口音为一个,可以根据所述ivector计算所述待识别语音信号对该给定口音的判决得分,根据所述待识别语音信号对该给定口音的判决得分判断所述待识别语音信号是否为该给定口音。可以判断所述判决得分是否大于预设得分(例如9分),若所述判决得分大于预设得分,则判断所述待识别语音信号为该给定口音。

若给定口音为多个,可以根据所述ivector计算所述待识别语音信号对每个给定口音的判决得分,根据所述待识别语音信号对每个给定口音的判决得分判断判断所述语音为多个给定口音中的哪一个。可以确定对多个给定口音的判决得分中的最高得分,将所述最高得分对应的给定口音作为所述待识别语音信号所属的口音。

在本实施例中,可以利用逻辑回归(logisticregression)模型计算所述待识别语音信号对给定口音的判决得分。逻辑回归模型作为一个分类器,可根据待识别语音信号的ivector对待识别语音信号进行打分。特别地,在一具体实施例中,可以使用多类逻辑回归模型计算所述待识别语音信号对给定口音的判决得分。

假设给定口音包括口音1、口音2、...口音n共n种口音,则利用n类逻辑回归模型计算所述待识别语音信号对给定口音的判决得分。将待识别语音信号的ivector(记为xt)输入所述n类逻辑回归模型,得到n个判决得分sit(即所述待识别语音信号对n种给定口音的判决得分),sit=wi*xt+ki,i=1,...,n。求取n个判决得分sit,i=1,...,n中的最高得分sjt,最高得分sjt对应的口音j为所述待识别语音信号所属的口音。其中,wi、ki是n类逻辑回归模型的参数,wi为回归系数,ki为常数,针对每个给定口音均会有对应的wi和ki,wi、ki组成n类逻辑回归模型的参数向量,m={(w1,k1),(w2,k2),...,(wn,kn)}。

实施例一的口音识别方法对待识别语音信号进行预处理;检测预处理后的所述待识别语音信号中的有效语音;对所述有效语音提取mfcc特征参数;根据所述mfcc特征参数,利用预先训练好的gmm-ubg提取所述有效语音的ivector;根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。实施例一可以实现快速准确的口音识别。

在其他的实施例中,在提取mfcc特征参数时,可以进行声道长度归一化(vocaltractlengthnormalization,vtln),得到声道长度归一化的mfcc特征参数。

声道可以表示为级联声管模型,每个声管都可以看成是一个谐振腔,它们的共振频率取决于声管的长度和形状。因此,说话人之间的部分声学差异是由于说话人的声道长度不同。例如,声道长度的变化范围一般从13cm(成年女性)变化到18cm(成年男性),因此,不同性别的人说同一个元音的共振峰频率相差很大。vtln就是为了消除男、女声道长度的差异,使口音识别的结果不受性别的干扰。

vtln可以通过弯折和平移频率坐标来使各说话人的共振峰频率相匹配。在本实施例中,可以采用基于双线性变换的vtln方法。该基于双线性变换的vtln方法并不直接对待识别语音信号的频谱进行折叠,而是采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;根据所述频率弯折因子,采用双线性变换对三角滤波器组的位置(例如三角滤波器的起点、中间点和结束点)和宽度进行调整;根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。例如,若要对待识别语音信号进行频谱压缩,则对三角滤波器的刻度进行拉伸,此时三角滤波器组向左扩展和移动。若要对待识别语音信号进行频谱拉伸,则对三角滤波器的刻度进行压缩,此时三角滤波器组向右压缩和移动。采用该基于双线性变换的vtln方法对特定人群或特定人进行声道归一化时,仅需要对三角滤波器组系数进行一次变换即可,无需每次在提取特征参数时都对信号频谱折叠,从而大大减小了计算量。并且,该基于双线性变换的vtln方法避免了对频率因子线性搜索,减小了运算复杂度。同时,该基于双线性变换的vtln方法利用双线性变换,使弯折的频率连续且无带宽改变。

在另一实施例中,所述口音识别方法还可以包括:根据所述口音识别结果进行声纹识别。由于说话人所生活的地域不同,即使在都讲普通话的情况下或多或少依然会有口音的差别,将口音识别应用到声纹识别中,可以缩小后续声纹识别的对象范围,得到更为准确的识别结果。

实施例二

图2为本发明实施例二提供的口音识别装置的结构图。如图2所示,所述口音识别装置10可以包括:预处理单元201、检测单元202、第一提取单元203、第二提取单元204、识别单元205。

预处理单元201,用于对待识别语音信号进行预处理。

所述待识别语音信号可以是模拟语音信号,也可以是数字语音信号。若所述待识别语音信号是模拟语音信号,则将所述模拟语音信号进行模数变换,转换为数字语音信号。

所述待识别语音信号可以是通过语音输入设备(例如麦克风、手机话筒等)采集到的语音信号。

对所述待识别语音信号进行预处理可以包括对所述待识别语音信号进行预加重。

预加重的目的是提升语音的高频分量,使信号的频谱变得平坦。语音信号由于受声门激励和口鼻辐射的影响,能量在高频端明显减小,通常是频率越高幅值越小。当频率提升两倍时,功率谱幅度按6db/oct跌落。因此,在对待识别语音信号进行频谱分析或声道参数分析前,需要对待识别语音信号的高频部分进行频率提升,即对待识别语音信号进行预加重。预加重一般利用高通滤波器实现,高通滤波器的传递函数可以为:

h(z)=1-κz-1,0.9≤κ≤1.0,

其中,κ为预加重系数,优选取值在0.94-0.97之间。

对所述待识别语音信号进行预处理还可以包括对所述待识别语音信号进行加窗分帧。

语音信号是一种非平稳的时变信号,主要分为浊音和清音两大类。浊音的基音周期、请浊音信号幅度和声道参数等都随时间而缓慢变化,但通常在10ms-30ms的时间内可以认为具有短时平稳性。为了获得短时平稳信号,语音信号处理中可以把语音信号分成一些短段来进行处理,这个过程称为分帧,得到的短段的语音信号称为语音帧。分帧是通过对语音信号进行加窗处理来实现的。为了避免相邻两帧的变化幅度过大,帧与帧之间需要重叠一部分。在本发明的一个实施例中,每个语音帧为20毫秒,相邻两个语音帧之间存在10毫秒重叠,也就是每隔10毫秒取一个语音帧。

常用的窗函数有矩形窗、汉明窗和汉宁窗,矩形窗函数为:

汉明窗函数为:

汉宁窗函数为:

其中,n为一个语音帧所包含的采样点的个数。

检测单元202,用于检测预处理后的所述待识别语音信号中的有效语音。

可以根据预处理后的所述待识别语音信号的短时能量和短时过零率等进行端点检测,以确定所述待识别语音信号中的有效语音。

在本实施例中,可以通过下述方法检测预处理后的所述待识别语音信号中的有效语音:

(1)对预处理后的所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧x(n)。在一个具体实施例中,可以对预处理后的所述待识别语音信号加汉明窗,每帧20ms,帧移10ms。若预处理过程中已对待识别语音信号加窗分帧,则该步骤省略。

(2)对所述语音帧x(n)进行离散傅里叶变换(discretefouriertransform,dft),得到所述语音帧x(n)的频谱:

(3)根据所述语音帧x(n)的频谱计算各个频带的累计能量:

其中e(m)表示第m个频带的累计能量,(m1,m2)表示第m个频带的起始频带点。

(4)对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值。

(5)将所述各个频带的累计能量对数值与预设阈值比较,得到所述有效语音。若一个频带的累计能量对数值高于预设阈值,则所述频带对应的语音为有效语音。

第一提取单元203,用于对所述有效语音提取梅尔频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)特征参数。

提取mfcc特征参数的流程如下:

(1)对每一个语音帧进行离散傅里叶变换(可以是快速傅里叶变换),得到该语音帧的频谱。

(2)求该语音帧的频谱幅度的平方,得到该语音帧的离散能量谱。

(3)将该语音帧的离散能量谱通过一组mel频率上均匀分布的三角滤波器(即三角滤波器组),得到各个三角滤波器的输出。该组三角滤波器的中心频率在mel频率刻度上均匀排列,且每个三角滤波器的三角形两个底点的频率分别等于相邻的两个三角滤波器的中心频率。三角滤波器的中心频率为:

三角滤波器的频率响应为:

其中,fh、f1为三角滤波器的高频和低频;n为傅里叶变换的点数;fs为采样频率;m为三角滤波器的个数;b-1=700(eb/1125-1)是fmel的逆函数。

(4)对所有三角滤波器的输出做对数运算,得到该语音帧的对数功率谱s(m)。

(5)对s(m)做离散余弦变换(discretecosinetransform,dct),得到该语音帧的初始mfcc特征参数。离散余弦变换为:

(6)提取语音帧的动态差分mfcc特征参数。初始mfcc特征参数只反映了语音参数的静态特性,语音的动态特性可通过静态特征的差分谱来描述,动静态结合可以有效提升系统的识别性能,通常使用一阶和/或者二阶差分mfcc特征参数。

在一具体实施例中,提取的mfcc特征参数为39维的特征矢量,包括13维初始mfcc特征参数、13维一阶差分mfcc特征参数和13维二阶差分mfcc特征参数。

mfcc中引入了三角滤波器组,且三角滤波器在低频段分布较密,在高频段分布较疏,符合人耳听觉特性,在噪声环境下仍具有较好的识别性能。

在本发明的一个实施中,在对预处理后的待识别语音信号提取mfcc特征参数之后,还可以对提取的mfcc特征参数进行降维处理,得到降维后的mfcc特征参数。例如,采用分段均值数据降维算法mfcc特征参数进行降维处理,得到降维后的mfcc特征参数。降维后的mfcc特征参数将用于后续的步骤。

第二提取单元204,用于根据所述mfcc特征参数,利用预先训练好的高斯混合模型(gaussianmixturemodel,gmm)-通用背景模型(universalbackgroundmodel,ubm)提取所述有效语音的身份矢量(identity-vector,ivector)。

提取ivector之前,首先要用大量属于不同口音的训练数据训练出通用背景模型。通用背景模型实际上是一种高斯混合模型(gmm),旨在解决实际场景数据量稀缺的问题。gmm是一种参数化的生成性模型,具备对实际数据极强的表征力(基于高斯分量实现)。高斯分量越多,gmm表征力越强,规模也越庞大,此时负面效应逐步凸显——若想获得一个泛化能力较强的gmm模型,则需要足够的数据来驱动gmm的参数训练,然而实际场景中获取的语音数据甚至连分钟级都很难企及。ubm正是解决了训练数据不足的问题。ubm是利用大量属于不同口音的训练数据(无关乎说话人、地域)混合起来充分训练,得到一个可以对语音共通特性进行表征的全局gmm,可大大缩减从头计算gmm参数所消耗的资源。通用背景模型训练完成后,只需利用单独属于每个口音的训练数据,分别对ubm的参数进行微调(例如通过ubm自适应),得到属于各个口音的gmm。

在一个实施例中,不同口音可以是属于不同地域的口音。所述地域可以是按照行政区域来划分,例如辽宁、北京、天津、上海、河南、广东等。所述地域也可以是按照普遍的经验以口音对地区来划分,例如闽南、客家等。

提取ivector是基于全差异空间建模(tv)方法将ubm训练得出的高维gmm映射至低维度的全变量子空间,可突破随语音信号时长过长而提取的向量维度过大不便计算的限制,并能提升计算速度,表达出更全面的特征。gmm-ubm中的gmm超矢量可以包括跟说话人本身有关的矢量特征和跟信道以及其他变化有关的矢量特征的线性叠加。

tv模型的子空间建模形式为:

m=m+tw

其中,m表示语音的gmm超矢量,即所述mfcc特征参数,m表示口音无关的gmm超矢量,t表示描述差异的空间的载荷矩阵,w表示gmm超矢量m在载荷矩阵空间下对应的低维因子表示,即ivector。

在本实施例中,可以对提取的ivector行噪声补偿。在一实施例中,可以采用线性判别分析(lineardiscriminativeanalysis,lda)和类内协方差规整(withinclasscovariancenormalization,wccn)对提取的ivector进行噪声补偿。

识别单元205,用于根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

给定口音可以是一个也可以是多个。例如,若给定口音为一个,可以根据所述ivector计算所述待识别语音信号对该给定口音的判决得分,根据所述待识别语音信号对该给定口音的判决得分判断所述待识别语音信号是否为该给定口音。可以判断所述判决得分是否大于预设得分(例如9分),若所述判决得分大于预设得分,则判断所述待识别语音信号为该给定口音。

若给定口音为多个,可以根据所述ivector计算所述待识别语音信号对每个给定口音的判决得分,根据所述待识别语音信号对每个给定口音的判决得分判断判断所述语音为多个给定口音中的哪一个。可以确定对多个给定口音的判决得分中的最高得分,将所述最高得分对应的给定口音作为所述待识别语音信号所属的口音。

在本实施例中,可以利用逻辑回归(logisticregression)模型计算所述待识别语音信号对给定口音的判决得分。逻辑回归模型作为一个分类器,可根据待识别语音信号的ivector对待识别语音信号进行打分。特别地,在一具体实施例中,可以使用多类逻辑回归模型计算所述待识别语音信号对给定口音的判决得分。

假设给定口音包括口音1、口音2、...口音n共n种口音,则利用n类逻辑回归模型计算所述待识别语音信号对给定口音的判决得分。将待识别语音信号的ivector(记为xt)输入所述n类逻辑回归模型,得到n个判决得分sit(即所述待识别语音信号对n种给定口音的判决得分),sit=wi*xt+ki,i=1,...,n。求取n个判决得分sit,i=1,...,n中的最高得分sjt,最高得分sjt对应的口音j为所述待识别语音信号所属的口音。其中,wi、ki是n类逻辑回归模型的参数,wi为回归系数,ki为常数,针对每个给定口音均会有对应的wi和ki,wi、ki组成n类逻辑回归模型的参数向量,m={(w1,k1),(w2,k2),...,(wn,kn)}。

实施例二的口音识别装置10对待识别语音信号进行预处理;检测预处理后的所述待识别语音信号中的有效语音;对所述有效语音提取mfcc特征参数;根据所述mfcc特征参数,利用预先训练好的gmm-ubg提取所述有效语音的ivector;根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。实施例二可以实现快速准确的口音识别。

在其他的实施例中,第一提取单元203在提取mfcc特征参数时,可以进行声道长度归一化(vocaltractlengthnormalization,vtln),得到声道长度归一化的mfcc特征参数。

声道可以表示为级联声管模型,每个声管都可以看成是一个谐振腔,它们的共振频率取决于声管的长度和形状。因此,说话人之间的部分声学差异是由于说话人的声道长度不同。例如,声道长度的变化范围一般从13cm(成年女性)变化到18cm(成年男性),因此,不同性别的人说同一个元音的共振峰频率相差很大。vtln就是为了消除男、女声道长度的差异,使口音识别的结果不受性别的干扰。

vtln可以通过弯折和平移频率坐标来使各说话人的共振峰频率相匹配。在本实施例中,可以采用基于双线性变换的vtln方法。该基于双线性变换的vtln方法并不直接对待识别语音信号的频谱进行折叠,而是采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;根据所述频率弯折因子,采用双线性变换对三角滤波器组的位置(例如三角滤波器的起点、中间点和结束点)和宽度进行调整;根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。例如,若要对待识别语音信号进行频谱压缩,则对三角滤波器的刻度进行拉伸,此时三角滤波器组向左扩展和移动。若要对待识别语音信号进行频谱拉伸,则对三角滤波器的刻度进行压缩,此时三角滤波器组向右压缩和移动。采用该基于双线性变换的vtln方法对特定人群或特定人进行声道归一化时,仅需要对三角滤波器组系数进行一次变换即可,无需每次在提取特征参数时都对信号频谱折叠,从而大大减小了计算量。并且,该基于双线性变换的vtln方法避免了对频率因子线性搜索,减小了运算复杂度。同时,该基于双线性变换的vtln方法利用双线性变换,使弯折的频率连续且无带宽改变。

在另一实施例中,所述识别单元205还可以用于根据所述口音识别结果进行声纹识别。由于说话人所生活的地域不同,即使在都讲普通话的情况下或多或少依然会有口音的差别,将口音识别应用到声纹识别中,可以缩小后续声纹识别的对象范围,得到更为准确的识别结果。

实施例三

本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述口音识别方法实施例中的步骤,例如图1所示的步骤101-105:

步骤101,对待识别语音信号进行预处理;

步骤102,检测预处理后的所述待识别语音信号中的有效语音;

步骤103,对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;

步骤104,根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;

步骤105,根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

所述检测预处理后的所述待识别语音信号中的有效语音可以包括:

对所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧;

对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;

根据所述语音帧的频谱计算各个频带的累计能量;

对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;

将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。

所述对所述有效语音提取梅尔频率倒谱系数mfcc特征参数可以包括:

采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;

根据所述频率弯折因子,采用双线性变换对mfcc特征参数提取所使用的三角滤波器组的位置和宽度进行调整;

根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。

或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的单元201-205:

预处理单元201,用于对待识别语音信号进行预处理;

检测单元202,用于检测预处理后的所述待识别语音信号中的有效语音;

第一提取单元203,用于对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;

第二提取单元204,用于根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;

识别单元205,用于根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

所述检测单元202具体可以用于:

对所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧;

对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;

根据所述语音帧的频谱计算各个频带的累计能量;

对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;

将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。

所述第一提取单元203具体可以用于:

采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;

根据所述频率弯折因子,采用双线性变换对mfcc特征参数提取所使用的三角滤波器组的位置和宽度进行调整;

根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。

实施例四

图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40,例如口音识别程序。所述处理器30执行所述计算机程序40时实现上述口音识别方法实施例中的步骤,例如图1所示的步骤101-105:

步骤101,对待识别语音信号进行预处理;

步骤102,检测预处理后的所述待识别语音信号中的有效语音;

步骤103,对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;

步骤104,根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;

步骤105,根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

所述检测预处理后的所述待识别语音信号中的有效语音可以包括:

对所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧;

对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;

根据所述语音帧的频谱计算各个频带的累计能量;

对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;

将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。

所述对所述有效语音提取梅尔频率倒谱系数mfcc特征参数可以包括:

采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;

根据所述频率弯折因子,采用双线性变换对mfcc特征参数提取所使用的三角滤波器组的位置和宽度进行调整;

根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。

或者,所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能,例如图2中的单元201-205:

预处理单元201,用于对待识别语音信号进行预处理;

检测单元202,用于检测预处理后的所述待识别语音信号中的有效语音;

第一提取单元203,用于对所述有效语音提取梅尔频率倒谱系数mfcc特征参数;

第二提取单元204,用于根据所述mfcc特征参数,利用预先训练好的高斯混合模型-通用背景模型gmm-ubm提取所述有效语音的身份矢量ivector;

识别单元205,用于根据所述ivector计算所述待识别语音信号对给定口音的判决得分,根据所述判决得分得到所述待识别语音信号的口音识别结果。

所述检测单元202具体可以用于:

对所述待识别语音信号进行加窗分帧,得到所述待识别语音信号的语音帧;

对所述语音帧进行离散傅里叶变换,得到所述语音帧的频谱;

根据所述语音帧的频谱计算各个频带的累计能量;

对所述各个频带的累计能量进行对数运算,得到所述各个频带的累计能量对数值;

将所述各个频带的累计能量对数值与预设阈值进行比较,得到所述有效语音。

所述第一提取单元203具体可以用于:

采用双线性变换低通滤波器截止频率的映射公式,计算对齐不同说话人平均第三共振峰的频率弯折因子;

根据所述频率弯折因子,采用双线性变换对mfcc特征参数提取所使用的三角滤波器组的位置和宽度进行调整;

根据调整后的三角滤波器组计算声道归一化的mfcc特征参数。

示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如,所述计算机程序40可以被分割成图2中的预处理单元201、检测单元202、第一提取单元203、第二提取单元204、识别单元205,各单元具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置1的示例,并不构成对计算机装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等,所述处理器30是所述计算机装置1的控制中心,利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中,应该理解到,所揭露的计算机装置和方法,可以通过其它的方式实现。例如,以上所描述的计算机装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1