一种在背景噪音下提高语音识别率的装置及其方法与流程

文档序号:12476018阅读:1334来源:国知局
一种在背景噪音下提高语音识别率的装置及其方法与流程

本发明涉及语音识别技术领域,尤其涉及的是一种在背景噪音下提高语音识别率的装置及其方法。



背景技术:

随着消费电子的快速发展,更加智能化设备的快速普及,各种新型技术也随应产生。语音作为基本的、主要的、关键的交互方式,越来越多的应用于智能设备的交互应用中。由于现阶段消费电子作为整个系统的设计短板,各个系统设计厂家、平台以及关键器件厂家都想在功耗上面做出更多的贡献。即尽最大可能将自己的产品以及系统,在不牺牲性能的基础上进行低功耗设计,最大程度上延长电子产品的待机时间。最终让用户能够从中更加频繁的正常使用该产品的功能,并且不用担心功耗的原因导致需要使用时而不能正常工作。

由于支持语音识别功能的消费电子设备很多,但是识别率跟设备所处的环境有很大的关联。当手机或者智能音响设备在播放音乐时,由于喇叭跟设备的麦克风位置很近,人在一定距离进行语音识别命令时,喇叭外放声压比人声语音大很多,会大大影响麦克风采集信号的效率。这是因为很大一部分语音信号都被实时播放音乐信号所盖住导致人声很弱。所以在语音识别过程中,正在播放的音乐声音强度大过纯人声信号时,可以理解为当前音乐声音此时为影响语音识别率的背景噪音,会会大大降低语音识别率,大大影响用户的语音使用效果。

因此,现有技术还有待于改进和发展。



技术实现要素:

鉴于上述现有技术的不足之处,本发明的目的在于提供一种在背景噪音下提高语音识别率的装置及其方法,旨在解决现有播放的音乐声音强度大过纯人声信号时降低语音识别率的问题。

本发明解决技术问题所采用的技术方案如下:

一种在背景噪音下提高语音识别率的装置,包括喇叭功放,其还包括麦克风、噪音音乐消除模块、音频解码器、主控模块、感应转换模块和语音识别模块;

所述麦克风根据采集的外部声音信号是否超过预设阀值选择进入语音识别模式或待机模式;

在语音识别模式下,感应转换模块检测喇叭功放输出音乐声音信号时,控制噪音音乐消除模块对所述外部声音信号进行环境噪音和音乐声音信号的消除处理;噪音音乐消除模块输出的语音信号通过音频解码器解码后传输至语音识别模块中进行语音识别解析,主控模块根据解析结果进行相应的功能控制。

所述的在背景噪音下提高语音识别率的装置中,所述感应转换模块检测无音乐声音信号输出时,还控制噪音音乐消除模块对所述外部声音信号中的环境噪音进行消除处理。

所述的在背景噪音下提高语音识别率的装置中,所述噪音音乐消除模块包括环境噪音消除单元和音乐声音消除单元;

环境噪音消除单元对输入的外部声音信号进行环境噪音消除处理,输出声音信号给音乐声音消除单元;

感应转换模块检测有音乐声音信号输出时,控制音乐声音消除单元对声音信号中的音乐声音信号进行消除处理;

感应转换模块检测无音乐声音信号输出时,控制音乐声音消除单元打开声音通路,将声音信号作为语音信号输出给音频解码器。

所述的在背景噪音下提高语音识别率的装置中,所述环境噪音消除单元通过语音降噪、回声消噪、以及波速聚集算法对所述外部声音信号中的环境噪音进行降噪解析,过滤掉外部环境噪音。

所述的在背景噪音下提高语音识别率的装置中,所述音乐声音消除单元进行消除处理时,将喇叭功放传输过来的音乐声音信号和去噪后的声音信号进行音乐声音信号消除算法解析,获取语音信号。

所述的在背景噪音下提高语音识别率的装置中,所述音乐声音信号消除算法包括:

将喇叭功放当前输出的音乐声音信号作为原始的参考信号并获取参考信号的相位时域以及频率频点信息,进行反相处理获得内部信号;

对去噪后的声音信号中的音乐声音信号进行时间同步,并将振幅修改成参考信号的大小;

将内部信号和修改了振幅的音乐声音信号进行复合处理,正反相抵消获得语音信号。

一种采用所述的在背景噪音下提高语音识别率的装置的提高语音识别率的方法,其特征在于,包括:

A、麦克风根据采集的外部声音信号是否超过预设阀值选择进入语音识别模式或待机模式;

B、在语音识别模式下,感应转换模块检测喇叭功放输出音乐声音信号时,控制噪音音乐消除模块对所述外部声音信号中的环境噪音和音乐声音信号进行消除处理;

C、噪音音乐消除模块输出的语音信号通过音频解码器解码后传输至语音识别模块中进行语音识别解析,主控模块根据解析结果进行相应的功能控制。

所述的提高语音识别率的方法中,所述步骤B具体包括:

步骤B1、环境噪音消除单元对输入的外部声音信号进行环境噪音消除处理,输出声音信号给音乐声音消除单元;

步骤B2、感应转换模块检测有音乐声音信号输出时,控制音乐声音消除单元对声音信号中的音乐声音信号进行消除处理;

步骤B3、感应转换模块检测无音乐声音信号输出时,控制音乐声音消除单元打开声音通路,将声音信号作为语音信号输出给音频解码器。

所述的提高语音识别率的方法中,在所述步骤B1中,环境噪音消除单元通过语音降噪、回声消噪、以及波速聚集算法对所述外部声音信号中的环境噪音进行降噪解析,过滤掉外部环境噪音。

所述的提高语音识别率的方法中,在所述步骤B2中,音乐声音消除单元进行消除处理时,将喇叭功放传输过来的音乐声音信号和去噪后的声音信号进行音乐声音信号消除算法解析,获取语音信号。

相较于现有技术,本发明提供的在背景噪音下提高语音识别率的装置及其方法,麦克风根据采集的外部声音信号是否超过预设阀值选择进入语音识别模式或待机模式;在语音识别模式下,感应转换模块检测喇叭功放输出音乐声音信号时,控制噪音音乐消除模块对外部声音信号进行环境噪音和音乐声音信号的消除处理;噪音音乐消除模块输出的语音信号通过音频解码器解码后传输至语音识别模块中进行语音识别解析,主控模块根据解析结果进行相应的功能控制。通过对音乐声音信号消除处理能获得干净的语音信号,有利于提高语音识别率。

附图说明

图1是声波聚集效果图的示意图。

图2是本发明提供的在背景噪音下提高语音识别率的装置的结构框图。

图3是原始的参考信号的波形示意图。

图4是混合的模拟信号的波形示意图。

图5是本发明提供的语音信号的波形示意图。

图6是本发明提供的在背景噪音下提高语音识别率的方法流程图。

具体实施方式

本发明提供一种在背景噪音下提高语音识别率的装置及其方法,适用于使用语音识别的手机、非手机的智能器件、智能家居系统和音频技术领域,如自定义语音指令辅助寻找物件的智能器件。通过利用第三方可编程的DSP(数字信号处理器)、结合相应的低功耗硬件设计、并配合音频信号的软件算法,在通过喇叭播放音乐时能够辅助语音识别功能,以提高当语音识别的麦克风离喇叭很近且正在大音量播放音乐时(此时的音乐为影响语音识别率的背景噪音)的语音识别率。为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明主要采用了语音识别技术和远距离语音跟踪技术。

所述语音识别技术是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。

其中,孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。连续语音识别的任务是识别任意的连续语音,如一个句子或一段话。连续语音流中的关键词检测针对的是连续语音,但其并不识别全部文字,只是检测已知的若干关键词在何处出现。如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。

另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。

本发明主要使用目前成熟语音供应商的语音识别方案,达到实现智能设备系统的功能。该功能能够通过训练提高语音识别功能, 并且支持云端语音库支持,对系统处理速度以及要求很低,MCU主频超过100Mhz,RAM (随机存储器)大于64KB,离线库存储库可以按照MCUROM进行自行裁减,但相应对语音库信息有影响。

远距离语音跟踪技术主要用来提供进行麦克风实时语音的捕捉。基于本发明用的是非指向性麦克风,所以通过此技术可以设置特定采集声音角度,过滤掉角度之外的噪音信号(此处主要是稳态的低频噪音和角度之外的音乐声音信号)。因为声音传播为非指向性的,从而在设置的角度之内的声音也是有音乐声音覆盖的。相比而言由于音乐声音的泛音信号输出功率最高可以达到70W,而人声部分远远低于此泛音信号,在MIC(麦克风)采集到的所有信号通过此远距离语音跟踪技术将角度之外的噪音信号进行初步的过滤,作用是为了减少系统软件算法解析的负荷,以及提高解析效率。最主要的目的是过滤低频稳态噪音,此时MIC获取到的声音信号,可以理解为角度内放大的人声音和大响度音乐声音信号(低频噪音已经通过此算法过滤掉了,提高了信号的信噪比)。因此,在远距离语音跟踪技术的基础上采用本发明的降噪算法可将大响度音乐声音信号过滤掉。

具体实现原理为:将语音降噪、回声消噪、以及波速聚集(beam forming)这三种算法综合。语音降噪即消除环境噪音,通过一个或者多个麦克风将有用人声和环境噪音进行区分或数字模版剥离,达到实现清晰人声的目的。回声消除即消除因在室内以及外界环境物体进行的反射、通过不同的时间段送进输入声音通道中,从而会重复多次听到人声。由于是短时间连续的人声,从而也需要通过三种算法进行消除。由于麦克风器件本来是360°全方位获取语音信号的,从而不可避免的会将人声信号和环境噪音一并送入系统。声波聚集(beam forming) 技术即是将麦克风的全指向性在声音信号改变成指向性信号,从而过滤掉不需要环境噪音,只捕获有用的人声信号。

声波聚集效果图如图1所示,方框10(需要录取的声音,位置为0°)和方框10/(需要录取的声音,位置为0°)表示被录音的对象一个或者多个录音对象,方框20(干扰者的声音,位置为50°)和方框20/(干扰者的声音,位置为90°)表示不想被录入的对象。左边的圆形图以及花瓣形形状,表示可以支持的强化语音的角度以及实时声音的升压强度,从-30°到30°,以及60°到120°,-150°到150°以及-60°到-120°;这个区域内的对象声音会进行放大,除此之外的角度声音会进行过滤删除。因此可以实现某个或者多个方向的特定区域的选择性录音。右边的圆形图以及花瓣形状,表示强化录音所支持的角度从-60°到60°以及-120°到120°;同理这个角度的声音会通过对相位和幅值的处理从而放大录音,其它区域需要过滤或者屏蔽掉干扰音。所支持的角度得到了有效的放大,其它的角度声压值比较小。

基于上述的语音识别技术和远距离语音跟踪技术,请参阅图2,本发明提供的在背景噪音下提高语音识别率的装置包括现有的喇叭功放,本实施例改进后的两个数字接口的麦克风(此处为MEMS麦克风)(MIC1、MIC2)、噪音音乐消除模块10、音频解码器20、主控模块30、感应转换模块40和、语音识别模块50。

需要播放音乐时,主控模块输出的音乐声音信号通过音频解码器解析,再通过喇叭功放进行功放驱动后传输至喇叭播放。感应转换模块40根据音乐声音信号的有无检测是否有音乐声音信号在播放。喇叭功放是驱动喇叭的器件,放大模拟的音乐声音信号。在具体实施时,主控模采用MCU,噪音音乐消除模块10采用DSP(双核)两种IC支持。另外也可使用纽扣电池作为供电。使用外部时钟晶振满足不同IC的时钟要求。通过这样消除处理后再进行语音识别,可获得更加纯净的人声信号(即语音信号),提高语音识别的准确性。

需要理解的是,该装置还包括对主控模块供电的电源模块60。基于主控的电源模块可以有效的控制功耗,而DSP的工作状态不同,功耗上也是不同的。因此所述电源模块60能针对DSP不同的工作状态来控制电流和电压,达到省电的目的。

所述两个数字接口的MEMS麦克风(可采用基于MEMS技术制造的MEMS麦克风)为高灵敏的外围器件,用于采集外部声音信号并判断外部声音信号是否超过预设阀值(如80dB声压级),是则表示用户对准麦克风说话,需要进行语音控制,可唤醒整个装置进入语音识别模式并将外部声音信号传输给噪音音乐消除模块10。此时两个麦克风同时工作采集外部声音信号。另外一个麦克风辅助降噪、回声消除、声波集束。匹配时主控模块通过DSP信号进行判断,如果关键字匹配,MCU控制LED亮和蜂鸣器出生。不匹配DSP进入低功耗状态,不唤醒外部时钟以及总线和MUC。所述关键字由用户录制进去或者DSP供应商一次性写入进去。因为声音是有基音和谐音组成,并且用户说关键字时抑扬顿挫(即声音的响度,声音的相位都是类似的)。当用MIC采集关键字时会将语音信号送至DSP中进行比对。基于人声大致平均声压在65DB左右,语音的频率范围大致在200HZ-3KHZ左右。判断是否为关键字可以先判断噪音的频段是否满足语音,如果不满足就进入低电状态。另外判断关键字的语音是否匹配,可以按照时间域及信号的相位来判断两者是否相互匹配。超过预设阀值(80dB声压级)时不启动DSP麦克风进入低电待机。

小于预设阀值(即没有超过80DB)时,除了噪音消除模块和麦克风,其他模块都不进行唤醒,即不启动装置中的其他模块,使其他模块进入低耗电的待机模式以进行低功耗处理,继续检测。这样可节省电能消耗。外部声音信号通常包括环境噪音、语音信号(由用户需要进行语音控制时产生,携带了控制命令)和音乐信号(用户播放音乐时产生)。

在语音识别模式下,感应转换模块40检测有音乐声音信号播放时,控制噪音音乐消除模块10工作。噪音音乐消除模块10对所述外部声音信号中的环境噪音和音乐声音信号进行消除处理,并输出干净的语音信号通过音频解码器20解码后传输至语音识别模块50中进行语音识别解析,语音识别模块50将解析结果反馈给主控模块30进行相应的功能控制。

若感应转换模块40检测无音乐声音信号播放时,控制噪音音乐消除模块10对所述外部声音信号中的环境噪音进行消除处理,噪音音乐消除模块10输出干净的语音信号通过音频解码器20解码后传输至语音识别模块50中进行语音识别解析,语音识别模块50将解析结果反馈给主控模块30进行相应的功能控制。

本实施例中,所述噪音音乐消除模块10包括环境噪音消除单元110和音乐声音消除单元120。环境噪音消除单元110根据远距离语音跟踪技术对输入的外部声音信号进行环境噪音消除处理,输出声音信号给音乐声音消除单元120。环境噪音消除单元110对高频信号有高灵敏度和高采样率的特性,其加载了上述的远距离语音跟踪技术,通过语音降噪、回声消噪、以及波速聚集算法对外部声音信号进行降噪解析,过滤掉外部环境噪音。

感应转换模块40检测有音乐声音信号输出时,控制音乐声音消除单元120对声音信号中的音乐声音信号进行消除处理,音乐声音消除单元120输出干净的语音信号给音频解码器20。若感应转换模块40检测无音乐声音信号输出时,控制音乐声音消除单元120打开声音通路(相当于直接将音乐声音消除单元120作为通路),将声音信号作为(此时的声音信号即为干净的语音信号,无需做任何信号处理)干净的语音信号输出给音频解码器20。这样可降低功耗,提高系统的效率,由于感应转换模块40采集到的音乐声音信号为模拟信号,所以感应转换模块40还要进行模拟转数字的操作,即将模拟的音乐声音信号转换为数字的音乐声音信号。

本实施例中,音乐声音消除单元120进行消除处理时,是将内部闭环通路传输过来的音乐声音信号以及去噪后的声音信号进行音乐声音信号消除算法解析,进一步获取更加干净的人声信号(即语音信号)。音乐声音信号消除算法解析的过程具体如下:

原始的参考信号如图3所示。麦克风采集的语音信号和音乐声音信号是混合的模拟信号,其波形如图4所示。通过音乐声音消除单元120内置的ADC电路转换成数字信号。在装置内部,将立体声的喇叭功放设计成一个闭环通路,实时将当前内部播放的音乐声音信号和去噪后的声音信号相结合,由音乐声音消除单元120的降噪解析功能进行相位时域的比较,将内部闭环送至的音乐声音信号作为原始的参考信号并获取参考信号的相位时域以及频率频点信息,进行反相处理获得内部信号。由于声音信号的数据经过麦克风采集和去噪处理,与内部闭环传输过来的音乐声音信号的数据有一定的延时性,需要将参考信号的特征码信息用与声音信号进行分析获取混合的模拟信号中的音乐信号的时域,相位,振幅信息,得出延时的起始点,对麦克风采集到的音乐声音信号进行时间同步,并将振幅修改成参考信号大小,最后将反相处理后的内部信号和修改了音乐声音振幅的麦克风所采集到混合信号进行复合处理,正反相抵消,从而剩下更加纯净、干净的人声信号(即语音信号),波形如图5所示。相比现有技术只通过麦克风采集到的混合信号只通过声音降噪算法,是没法将非稳态的高响度的音乐声音信号处理撤离的。

干净的语音信号传输至音频解码器20解码后,再传输至语音识别模块50中进行人声命令识别。其中,音频解码器模块(CODEC)20提供音频数字和模拟输入和输出接口,另外提供与音频信号协处理器连接的专用音频接口,便于连接外围器件(如喇叭和麦克风),内部有高精度模拟转数字信号转换器从而支持模拟麦克风。提供多个I2S接口便于连接外部DSP模块,支持I2C接口用来传输控制命令,即从主控模块(具体可采用MCU)到噪音音乐消除模块10(具体可采用DSP)、或者DSP到MCU的指令。内支持64K存储单元,并且可以实时擦写核心的内存单元,用来支持更新DSP内消除处理相关的算法,从而协助MCU进行大量数据运算和不同算法的运行。

在具体实施时,MCU(核心控制模块)还能接收音频信号协处理器发送过来的中断指令控制上层应用。

基于上述的在背景噪音下提高语音识别率的装置,本发明还提供一种在背景噪音下提高语音识别率的方法,请参阅图6,所述方法包括:

S100、麦克风根据采集的外部声音信号是否超过预设阀值选择进入语音识别模式或待机模式;

S200、在语音识别模式下,感应转换模块检测喇叭功放输出音乐声音信号时,控制噪音音乐消除模块对所述外部声音信号中的环境噪音和音乐声音信号进行消除处理;

S300、噪音音乐消除模块输出的语音信号通过音频解码器解码后传输至语音识别模块中进行语音识别解析,主控模块根据解析结果进行相应的功能控制。

本实施例中,所述步骤S100具体包括:

步骤110、麦克风采集外部声音信号;

步骤120、判断外部声音信号是否超过预设阀值:是则进入语音识别模式,将外部声音信号传输给噪音音乐消除模块;否则进入待机模式,麦克风继续检测外部声音信号。之后即可进行消除处理。

本实施例中,所述步骤S200具体包括:

步骤B21、环境噪音消除单元对输入的外部声音信号进行环境噪音消除处理,输出声音信号给音乐声音消除单元;

本步骤中,环境噪音消除单元通过语音降噪、回声消噪、以及波速聚集算法对所述外部声音信号中的环境噪音进行降噪解析,过滤掉外部环境噪音。

步骤B22、感应转换模块检测有音乐声音信号输出时,控制音乐声音消除单元对声音信号中的音乐声音信号进行消除处理;

本步骤中,音乐声音消除单元进行消除处理时,将喇叭功放传输过来的音乐声音信号和去噪后的声音信号进行音乐声音信号消除算法解析,获取语音信号。

所述音乐声音信号消除算法包括:

步骤1、将喇叭功放当前输出的音乐声音信号作为原始的参考信号并获取参考信号的相位时域以及频率频点信息,进行反相处理获得内部信号;

步骤2、对去噪后的声音信号中的音乐声音信号进行时间同步,并将振幅修改成参考信号的大小;

步骤3、将内部信号和修改了振幅的音乐声音信号进行复合处理,正反相抵消获得语音信号。

步骤B23、感应转换模块检测无音乐声音信号输出时,控制音乐声音消除单元打开声音通路,将声音信号作为语音信号输出给音频解码器。

通过步骤S200获得的语音信号滤除了正在播放的音乐声音信号(其强度大过纯人声信号),因此,有利于提高步骤S300进行的语音识别的准确率。

综上所述,本发明通过MEMS麦克风实时采集外部声音信号,应用了远距离语音跟踪技术保证用户在较远距离进行识音,不至于因为声音响度小而未能正常采集到声音数据。由于MEMS 是PDM接口可以直接将语音信号送入DSP运算模块(即噪音音乐消除模块)进行处理,判断输入信号是否涉及语音命令,通过不同阶段判断以及启动不同的运算算法对语音信号处理采集声音信号的阶段DSP运行远距离语音跟踪算法。另外闭环通路送至的音乐声音信号通过感应转换模块的判断和转换获取到的数字信号和麦克风采集到声音信号两路送至音乐声音消除单元中进行算法解析,然后将最终干净的声音通过音频解码器直接送至语音识别模块进行语音识别,最后得出运算解析结果自动判断是否要发起中断信号给MCU控制模块给出相关功能操作。通过改善降噪算法的效率,针对语音识别的麦克风离喇叭很近,且正在大音量播放音乐的情况,能获得更加干净的人声信号(即语音信号),有利于提高语音识别率,提高产品的识别效果,能够支持语音识别的消费电子设备,更加贴近实用,具有长待机、便捷性、适用于多个形态的电子设备中,如智能器件、手环、智能家居等。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1