一种基于声源特征的语音异常检测方法与流程

文档序号:14520593阅读:187来源:国知局
一种基于声源特征的语音异常检测方法与流程

本发明涉及一种基于声源特征的语音异常检测方法,属于智能语音技术领域。



背景技术:

压力是身体对于物理,心理或者情感刺激的自然反应,当我们受到这些刺激时,大脑会向身体释放出醇和肽类物质,从而引起紧张反应。这种持续的对于工作的焦虑感,将会反映在发声器官上,从而引起发声频率,发音速度等一系列参数的改变。这些改变在语音信号处理的众多领域都有着非常重要的意义,例如变异语音识别,情感识别等。

压力一个重要体现方式是说话人说话时的语音,成为影响语音产生非常重要的一个影响因素。当周围环境或话者自身条件发生异常变化时,或者由于使用者大都专注于某项工作,语音识别只是辅助于其它工作的次要工作,在这个过程中,这时由于工作压力的存在,说话人受到精神压力,对话者发音将会有较大的影响,从而产生了异常状态,产生了语音变异,而异常状态往往会体现在说话人的语音当中,形成了压力异常状态下的语音信号。

但是,精神压力下的变异语音,特别是多任务脑负荷压力下的变异语音,从听觉上的区分度相对较低,一般的声学特征不能将其正确分类,缺乏稳定性和鲁棒性。此外,由于变异语音在生成过程中,其声源特征与一般正常语音有比较显著的区别。因此,在检测过程中,我们通过声源特征来提高变异语音分类的可靠性。通过提高变异语音的标识效率,为语音识别系统的强鲁棒性奠定基础。



技术实现要素:

本发明所要解决的问题是从语音生成的声源的角度对压力状态进行检测,提出一种基于语音生成建模的压力检测方法。本发明的特色是摆脱了基于传统的线性语音生成模型和缺少物理意义的声学特征参数的识别方法,建立了声源估计模型,利用语音生成的逆滤波技术,分析和提取基于人体声带振动的特征参数来进行异常语音的检测。

本发明的技术方案如下:

一种基于声源特征的语音异常检测方法,包括如下步骤:

(1)、通过传感器实时收集语音数据;

(2)、通过端点检测判断语音数据的语音段和噪声段,以决定是否进行下一步语音信号处理工作;

(3)、对得到的语音段的语音数据分帧加窗,并对每一帧进行高频预加重处理;

(4)、对于语音段的语音数据,使用迭代自适应逆滤波得到声门波信号;

(5)、提取声门波的特征参数归一化振幅商与声门闭合时间比数据;

(6)、将提取到的数据输入已经训练好的svm模型进行分类;

(7)、得到分类标签,用来判断说话人状况,输出说话人状况标签,交由执行模块进行反馈。

上述步骤(3)中加窗采用汉明窗对一帧语音加窗。

上述步骤(3)中高频预加重处理通过一个一阶有限激励响应高通滤波器对其高频部分加以提升。

上述步骤(4)中得到声门波信号的步骤如下:

(a)、使用迭代自适应逆滤波建立声道模型;

迭代自适应逆滤波消除了原始语音信号频谱中声门激励带来的影响;

(b)、然后通过逆滤波的方法消除共振峰的影响;

通过线性预测编码和离散全集模型准确地建立声学模型,最后使用逆滤波来得到声门波信号。

上述步骤(5)中声门波的特征参数归一化振幅商的提取方法如下:

式中naq为归一化振幅商;t为基音周期;aq是振幅商,为声门波最大振幅和其对应的一阶导数的最大负峰值之比;

式中fac为声门脉冲的最大波峰值;dpeak为声门脉冲对应一阶导数的最大负峰值。

上述步骤(5)中声门闭合时间比数据的提取方法如下:

式中cpr为声门闭合时间比数据;cp为声门关闭阶段;o为声门总开启时间。

本发明所达到的有益效果:

本发明通过对发声生理系统在压力影响下变化特征的研究基础上,研究生理特征与声源参数之间的内在联系,探明声门波特征中能够反映压力状态的重要因素,使得所求得的声门波参数,不仅拥有理论指导性,且具有明确的物理意义;找出能够描述发声系统中压力相关声源特性的声门波参数,建立声源特征与生理特征的内在联系,以此特征来标识与压力变异因素的相关性,标志着声带的振动方式并且有物理意义,最终用以语音异常状态的检测,提高语音识别系统的精度与可靠性。

本发明可以应用于车内环境,通过检测驾驶员与乘客的语音数据来判断其压力状态,通过传输设备将状态信息反馈到执行模块,进而由执行模块自动采取有效措施如:提醒驾驶员注意安全、利用车联网通知附近车辆注意避让等,从而达到保护生命和财产安全的目的。

附图说明

图1是本发明的基本流程图;

图2是获得svm分类模型的基本流程图。

图3是本发明建立的迭代自适应逆滤波(iaif)技术结构图;

图4是实施例1中五种参数的roc曲线;

图5是实施例1中五种特征的roc曲线各参数值,其中auc为曲线下面积,se为标准差;cl为置信区间;

图6是实施例1中经过50轮实验,得出的分类器的平均识别率。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

如图1所示,一种基于声源特征的语音异常检测方法,包括如下步骤:

(1)、通过传感器实时收集语音数据;

(2)、通过端点检测判断语音数据的语音段和噪声段,以决定是否进行下一步语音信号处理工作;

本发明使用了基于能量和短时过零率的语音端点检测方法,来有效地区分语音段。上述方法均是现有的成熟的检测方法,此处不详细阐述。

(3)、对得到的语音段的语音数据分帧加窗,并对每一帧进行高频预加重处理;

预加重:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800hz以上按6db/oct(倍频程)衰减,频率越高相应的成分越小,为此要在对语音信号进行分析之前通过一个一阶有限激励响应高通滤波器对其高频部分加以提升。

分帧:由于语音信号具有短时平稳性,我们可以对信号进行分帧处理。从宏观上看,它必须足够短来保证帧内信号是平稳的,即一帧的长度应当小于一个音素的长度。正常语速下,音素的持续时间大约是50-200毫秒,所以帧长一般小于50毫秒。从微观上来看,它又必须包括足够多的振动周期,因为傅里叶变换是要分析频率的,只有重复足够多次才能分析频率。语音的基频,男声在100赫兹左右,女声在200赫兹左右,换算成周期就是10毫秒和5毫秒。既然一帧要包含多个周期,所以一般取至少20毫秒。

加窗:采用汉明窗对一帧语音加窗,它不仅具有较好的频率分辨率,还可减少频谱泄露,从而减小吉布斯效应的影响。

(4)、如图3所示,对于语音段的语音数据,使用迭代自适应逆滤波得到声门波信号;

(a)、使用迭代自适应逆滤波(iaif)建立声道模型;

迭代自适应逆滤波消除了原始语音信号频谱中声门激励带来的影响;

(b)、然后通过逆滤波(if)的方法消除共振峰的影响;

通过线性预测编码(lpc)和离散全集模型(dap)准确地建立声学模型,最后使用逆滤波(if)来得到声门波信号,如图2所示。

(5)、提取声门波的特征参数归一化振幅商与声门闭合时间比数据;

在处于工作压力状态下,由于声带肌肉收缩引起声带振动的不规则化。从而导致声门内气流流态的变化,使得语音信号发生了变异。这些声带特征的变化将会反应在声门波的特征上,因此使得声门波在某种程度上能够反映出工作压力。我们用归一化振幅商(naq)和声门闭合时间比(cpr)来表征声门波的本质特性,提出的特征有明确的物理意义,反映了语音生成过程中声带不同的振动模式。

声门波的特征参数一:归一化振幅商,主要反映声带的闭合方式,其提取方法如下:

式中naq为归一化振幅商;t为基音周期;aq是振幅商,为声门波最大振幅和其对应的一阶导数的最大负峰值之比;

式中fac为声门脉冲的最大波峰值;dpeak为声门脉冲对应一阶导数的最大负峰值。由于声门开启或闭合的瞬时时刻不需要被测量,使得aq比较容易得到,但是aq的值依赖于信号基频(f0)的测量,因此在式(1)中,通过基音周期归一化而得到naq,消除了对基频测量的依赖。

声门波的特征参数二:声门闭合时间比(cpr)。cpr参数反映了声门关闭阶段占声门总开启时间的比率,声门波中主要表现为声门信号的歪斜程度。。

声门闭合时间比数据的提取方法如下:

式中cpr为声门闭合时间比数据;cp为声门关闭阶段;o为声门总开启时间。

(6)、将提取到的数据输入已经训练好的svm模型进行分类;

支持向量机(svm)在模式识别领域一直起到重要的作用[8],所谓支持向量是指那些在间隔区边缘的训练样本点。svm使用线性和非线性超平面进行分类。svm是建立在统计学习理论的vc维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以求获得最好的推广能力。支持向量机本质上是一个二类的非线性分类器,非常适合变异语音的独特的识别特点:(1)由于说话人发声过程中并非时时刻刻处于压力状态中,压力在连续语音中表现为短暂的瞬时性,所以只有小量样本可以定义为压力下的变异语音,故变异语音识别一般是小样本问题。(2)情感压力的变异语音识别的一种典型二类识别问题。我们建立了基于svm的分类识别模型,在说话人相关的情况下,由于每个被试说话人的样本数量相对较少,是典型的小样本问题,所以在这种情况下,svm模型取得了比较好的识别效果。

本发明通过svm分类模型对变异语音和正常状态下语音的进行识别分类,实现所提出方法中声源参数对于变异状态的敏感度的评价,从而对所提出方法的有效性进行验证。

(7)、得到分类标签,用来判断说话人状况,输出说话人状况标签,交由执行模块进行反馈。

实施例1

我们使用了富士通公司收集的一个数据库,其中包含11个说话人的语音样本(4名男性和7名女性)。为模拟心理压力产生的具体状况,为说话人设置了三种不同的任务,在与操作员进行电话交谈时进行的,以模拟在电话中压力的情况。

涉及的三个任务(a)高度集中(要求说话者完成包括解决逻辑谜题和发现两张图片之间差异的任务);(b)时间压力(要求说话者在时间压力下回答问题);(c)冒险行为(采取冒险任务,来评估说话人对金钱收益的渴望)。对于每个演讲者,有四种不同任务的对话。在两次对话中,发言者被要求在有限的时间内完成任务,而在其他对话中,没有任何任务,可以轻松地聊天。

从演讲中截取的部分是元音/a/,/i/,/u/,/e/,/o/。这些实验是针对每位发言者进行的,所有的结果都是由发言人所决定的。实验以选取的11个实验对象在扬声器系统中进行,样本的编号取决于说话者,总语音样本数为700。

在本发明中,所采用的验证数据均来自电话通信数据,其中100个被试者(男50人,女50人)参加实验。实验中,接线员通过电话与每个被试进行聊天,平均每人四组对话,每组聊天时间为10分钟,并记录下最真实的语音通信数据。四组对话中,两组为轻松状态下的休闲聊天,另外两组对话中,被试分别被施加不同类型的压力,施加的压力包括:(1)多工作任务;(2)时间紧迫;(3)冒险投机,具体细节如表1。被试人在压力状态下说话的真实语音数据被记录,用于压力检测方法有效性的验证。

表1

为了验证所提出方法的有效性,本发明使用受试者工作特征曲线(roc),以评价不同参数的识别性能,如图4、图5所示,roc曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。roc曲线越靠近左上角,曲线下面积(auc)越大,表示方法识别性能越好,准确性就越高。

真阳性(tpr):

假阳性(fpr):

tp:真阳性;tn:真阴性;fp:假阳性;fn:假阴性

本发明将提出的声源模型参数与传统的参数进行比较,通过在压力检测的平均识别率上相比较,说明基于语音生成建模的方法在压力检测方法有着明显的优势,从而达到区分正常状态和异常状态的目的。三个传统的语音参数包括,基频、梅尔频率倒谱系数、抛物线频谱参数(f0、mfcc、psp)作为实验对照组。

在分类阶段,naq和cpr被作为二维向量建立svm模型,选取125组样本作为训练样本,125组样本作为测试组,实验从数据库中选用了7个不同说话人(4男3女)的语音样本是,旨在消除由于个体特异性而引起的语音参数的变异,同时把f0、mfcc、psp以一维样本的形式进行了训练,作为实验对照组。如图6所示,经过50轮实验后,计算出参数在sv分类模型的平均识别率。可以看出,naq与cpr声源特征与传统参数相比,体现出了在异常状态下良好异常语音的识别性能。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1