一种基于深度神经网络的远场语音识别增强系统及方法与流程

文档序号:18003697发布日期:2019-06-25 23:08阅读:334来源:国知局
一种基于深度神经网络的远场语音识别增强系统及方法与流程

本发明涉及一种远场语音识别增强系统及方法,特别涉及一种基于深度神经网络的远场语音识别增强系统及方法,属于语音识别领域。



背景技术:

目前,语音识别系统越来越广泛被应用于车载系统、客服自动接听应答、智能手表、智能手机等领域。并且越来越多设备使用到远场的语音识别,例如家庭智能音箱、陪伴机器人,例如亚马逊的echo音箱,google的googlehome等产品。现有的语音识别系统基本还是由近场的数据进行训练,远场的语音信号都是通过信号处理的方法进行降低噪声和信号增强,这样做的缺点是一方面增加了系统的成本,需要专门的麦克风和专门处理芯片,另一方面是语音识别的识别率从近场到远场下降特别快。



技术实现要素:

本发明基于深度神经网络的远场语音识别增强系统及方法公开了新的方案,采用近场与远场相结合的方式训练识别系统,解决了现有方案远场声源识别效果不理想的问题。

本发明基于深度神经网络的远场语音识别增强系统包括训练系统、识别系统,识别系统包括远场声源采集装置、语音识别系统,训练系统包括数据采集装置、训练模块,采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列,近场麦克风阵列采集音频播放装置的近场声源信息,上述多个音频采集装置采集距音频播放装置逐渐远离的位置上的音频播放装置的远场声源信息,训练模块将采集装置得到的声源信息根据设定的算法训练得到声源识别增强dnn模型,识别系统将远场声源采集装置获取的远场声源信息通过声源识别增强dnn模型增强信号后发送给语音识别系统。

本发明还公开了一种基于深度神经网络的远场语音识别增强方法,远场语音识别增强方法基于远场语音识别增强系统,远场语音识别增强系统包括训练系统、识别系统,识别系统包括远场声源采集装置、语音识别系统,训练系统包括数据采集装置、训练模块,采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列,其特征是包括步骤:⑴训练的时候,通过音频采集装置、同步的近场远场麦克风阵列采集音频播放装置的音频信息生成训练声源信息;⑵训练模块根据设定的算法将训练声源信息训练得到声源识别增强dnn模型;⑶识别的时候,通过远场声源采集装置获取样本声源信息;⑷将样本声源信息通过声源识别增强dnn模型进行信号增强得到增强样本声源信息;⑸将增强样本声源信息发送给语音识别系统进行语音识别。

进一步,本方案的方法的步骤⑴包括过程:使用人工嘴播放已经录制好的音频数据或直接使用人读准备好的脚本,然后同时使用3个目标设备在距声源1.5m、3m、4.5m位置进行录音,录音的同时打开麦克风阵列进行处理,同时得到了四路同步信号:近场声源信号s、1.5m远场信号t1、3m远场信号t2、4.5m远场信号t3。步骤⑵包括过程:①选择训练数据:只选取语音的元音部分用于训练,选取典型噪声和原始信号进行混合,典型噪声包括稳态噪声、非稳态噪声,稳态噪声包括风声、发动机电机声,非稳态噪声包括敲击声、开门声;②训练语音增强网络拓扑结构;③训练语音距离检测模型。步骤⑶~⑸包括过程:远场声源信号经麦克风阵列处理后得到信号t,同时麦克风阵列对声源距离进行估计得到距离d,将信号t进行特征提取得到提取特征与距离d输入到映射dnn网络得到输出信息t’,将信息t’输入到识别引擎进行识别。

本发明基于深度神经网络的远场语音识别增强系统及方法采用近场与远场相结合的方式训练识别系统,具有远场声源识别效果较好的特点。

附图说明

图1是本发明基于深度神经网络的远场语音识别增强系统的原理图。

图2是训练系统的原理图。

图3是采集训练声源信息的原理图。

图4是训练语音增强网络拓扑结构的原理图。

图5是训练语音距离检测模型的原理图。

具体实施方式

本发明公开了一种用于远场的语音识别系统,改善该系统的实现方法。本系统主要用做远场语音增强,包括两大部分模块:训练模块、识别模块。训练模块包括数据采集模块,如图3所示,通过一系列的麦克风进行数据采集,并将数据按照wav的格式进行保存,保存以后的数据将进入训练系统,最终得到dnn的模型,以上训练过程如图2所示。如图1所示,训练产生的dnn模型将被使用到本方案的dnn增强系统中,进行语音增强。增强以后的信号将送入到原来的语音识别系统,达到提高后继语音识别系统的识别率。

本方案采用一种训练的方法来增强远场信号,使其跟识别的模型更为匹配,提高语音识别系统的识别率。本方案包括两部分,一部分是离线的模型训练,一部分是在线的信号增强部分。离线部分包括数据采集和数据训练。

数据采集

为了得到近场—远场的映射关系,本方案首先要使用目标设备进行一定数量的录音,如图3所示,录音的时候,需要同时采集不同距离的数据,并且保持这些数据时间同步。使用人工嘴播放已经录制好的音频数据(或者直接使用人读准备好的脚本),然后同时使用3个目标设备在1.5m,3m和4.5m进行录音。录音的时候要打开麦克风阵列进行处理,保证信号与真实使用场景一致。这样本方案就同时得到了四路同步信号:声源信号s(近场信号),1.5m信号t1,3m信号t2,4.5m信号t3。为了能够得到较为完善的隐射关系,需要让声源信号能够较好的覆盖整个语音信号,例如中文,要覆盖各种发音。

数据训练

训练数据选择

⑴语音采用加窗,窗长25ms,窗移10ms。mfcc采用39维特征。由于语音识别过程中,元音对识别作用更大,为了达到分类器的快速收敛,只选取元音部分用于训练。

⑵噪声数据选取。选取典型几类噪声和原始信号进行混合。典型噪声包括稳态噪声(风声,发动机电机声),非稳态噪声(敲击声,开门声等等)。

训练语音增强网络拓扑结构

⑴由于语音信号具有短时平稳特征,这里选择当前帧前后各2帧共5帧组成训练向量(39x5)。

⑵同时把距离信息也当做一维特征加到里面。这样总共得到输入层是(39×5)+1=196。

⑶采用1024个节点的隐藏层,总共三层。

⑷输出层采用bnf(bottlenetworkfeature)方式进行39维向量输出。

⑸最终拓扑结构为:196×1024×1024×1024×39,如图4所示。

训练语音距离检测模型

对于有的应用场景,没有麦克风阵列,或者麦克风阵列的麦克风很少,或者麦克风阵列还没有进入声源定位模式,无法给出声源的距离。这个时候,本方案可以训练一个距离分类器模型,将信号分成四类,如图5所示。

⑴模型输入是s,ti(i=1,2,3)。

⑵模型的期望输出是[1000],[0100],[0010],[0001]。

⑶训练拓扑结构类似上面为195×1024×1024×1024×4。

在线的信号增强部分包括识别过程,如图1所示。

首先,远场信号经过麦克风阵列的处理,得到处理后的信号t。同时麦克风阵列对声源距离进行估计,得到距离d。

其次,将信号t进过特征提取,将其与距离d输入到映射dnn网络,得到输出t’,t’将会非常接近近场信号。将t’输入到识别引擎进行识别。

经过实验测试,以上方法能够极大改善远场声源的识别效果。

本方案基于深度神经网络的远场语音识别增强系统及方法降低了系统的成本,在某些非常低功耗的芯片场景下,可以只采用一个麦克风进行远场语音信号的增加。本方案提供系统的鲁棒性,可以提高语音识别系统的识别率,改善用户体验。同时,由于采用软、硬件结合来进行增强,使得整个系统具有更多的灵活性,通过软件模型的更新可以很好的适用于各种环境,增强产品的竞争力。基于以上特点,本方案的基于深度神经网络的远场语音识别增强系统及方法相比现有方案具有突出的实质性特点和显著的进步。

本方案多重语义语句解析系统及方法并不限于具体实施方式中公开的内容,实施例中出现的技术方案可以基于本领域技术人员的理解而延伸,本领域技术人员根据本方案结合公知常识作出的简单替换方案也属于本方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1