去除语音信号中已知干扰的方法和设备的制作方法

文档序号：2828098阅读：696来源：国知局

去除语音信号中已知干扰的方法和设备的制作方法
【专利摘要】本发明公开了一种去除语音信号中已知干扰的方法和设备。方法包括以下步骤：获取已知干扰信号；获取带噪语音信号；对已知干扰信号以及带噪语音信号进行时域对齐；以及从带噪语音信号中消去经过时域对齐后的已知干扰信号，从而得到去噪后的语音信号。相比现有的消噪算法及策略具有更好的去噪效果，能够大幅提升识别系统的识别率和稳定性。并且本发明实现简单，算法复杂度低，计算开支小。本发明所提供的方法和设备可以作为现有的各种语音识别系统的独立的前端预处理流程或前端预处理模块，易于集成及扩展。
【专利说明】去除语音信号中已知干扰的方法和设备

【技术领域】
[0001]本发明涉及语音识别领域，具体地，涉及一种去除语音信号中已知干扰的方法和设备。

【背景技术】
[0002]语音识别是一种通过人的语音信号自动识别出语音内容的技术。经过数十年的技术探索与积累，语音识别系统的性能已经取得了巨大进展，特别是大数据与深度学习技术的发展，极大的提升了语音识别系统的性能，使得语音识别技术逐渐进入了人们的生活。但在实际应用中还面临着一些挑战，如背景噪声问题。当背景噪声能量较大时，语音识别系统会几近失效，这严重影响了用户的使用与体验，因此噪声问题若获得有效解决必然将会极大地提升语音识别系统的可用性，给用户带来更加自然、友好的感受。
[0003]然而，目前的带噪语音识别技术还不是很理想。目前的带噪语音识别技术包括以下步骤:前端处理、特征处理及模型构建策略。其中，前端处理主要使用语音增强技术来消减语音信号中的背景噪声；特征处理可使用级数展开或特征规整技术，在一定程度上能够减轻噪声的影响；而在模型构建上，可以使用添加噪声数据训练的方法，使得模型具备抗噪的能力。以上这些方法对噪声干扰均有一定效果，但当信噪比较低的情况下，且噪声为快变非平稳噪声情况下，以上方法均会产生一定程度的失效。例如，前端处理时，语音增强算法在去除噪声的同时，也会造成语音信号的频谱失真。在信噪比很低情况下，所产生的频谱失真尤为明显，并且，对于快变非平稳噪声很难取得较好效果。
[0004]在语音识别的一些实际使用环境中，如用户在使用计算机、数字电视、智能手机及平板等设备播放音乐或视频时，还需要同时进行语音指令的发布，这时作为背景噪音的音视频声音往往能量强度大、快变非平稳，且混有人声信号。现有语音识别系统中的消噪方法对此类干扰基本无效，会对语音识别造成极大影响，运行于这类设备上的语音识别系统在这种情况下会大幅降低识别率，甚至无法使用。

【发明内容】

[0005]本发明的发明人发现，对于上述如计算机、数字电视、智能手机等设备播放音乐、视频时的语音识别，这种背景噪音的干扰通常是已知的，是能够较为准确获取的，因此本发明的发明人利用对这种已知背景噪音的了解从而提供一种去除语音信号中已知干扰的方法和设备，从而能够解决现有的语音识别技术对一些干扰噪声不能提供有效的消噪方法的缺陷。
[0006]为了实现以上目的，根据本发明的一个方面，本发明所提供的去除语音信号中已知干扰的方法包括以下步骤:获取已知干扰信号；获取带噪语音信号；对已知干扰信号以及带噪语音信号进行时域对齐；以及，从带噪语音信号中消去经过时域对齐后的已知干扰信号，从而得到去噪后的语音信号。
[0007]其中，所述获取已知干扰信号的步骤优选为直接获取存储在音视频设备上的正在播放的文件作为已知干扰信号，或者获取通过音视频设备的声卡播放的缓存信号作为已知干扰信号，或者通过与音视频设备建立直接链路而传递正在播放的文件、或者传递与该文件相关信息以便于获取该文件作为已知干扰信号。
[0008]其中，所述时域对齐优选包括:当获取的带噪语音信号累积到预定时长时，对已知干扰信号以及带噪语音信号进行互相关计算；确定两路信号互相关性最强的采样点位置；以及对齐该采样点位置。
[0009]优选情况下，该方法还可以包括:对去噪后的语音信号进行单通道自适应降噪。
[0010]优选情况下，该方法还可以包括:对去噪后的语音信号进行去毛刺平滑处理。
[0011]根据本发明的另一个方面，本发明所提供的去除语音信号中已知干扰的设备包括:用于获取已知干扰信号的装置；用于获取带噪语音信号的装置；用于对已知干扰信号以及带噪语音信号进行时域对齐的装置；以及用于从带噪语音信号中消去经过时域对齐后的已知干扰信号从而得到去噪后的语音信号的装置。
[0012]其中，所述用于获取已知干扰信号的装置优选被配置成直接获取存储在音视频设备上的正在播放的文件作为已知干扰信号，或者获取通过音视频设备的声卡播放的缓存信号作为已知干扰信号，或者通过与音视频设备建立直接链路而传递正在播放的文件、或者传递与该文件相关信息以便于获取该文件作为已知干扰信号。
[0013]其中，所述用于对已知干扰信号以及带噪语音信号进行时域对齐的装置可以被配置成:当获取的带噪语音信号累积到预定时长时，对已知干扰信号以及带噪语音信号进行互相关计算；确定两路信号互相关性最强的采样点位置；并对齐该采样点位置。
[0014]优选情况下，该设备还包括用于对去噪后的语音信号进行单通道自适应降噪的装置。
[0015]优选情况下，该设备还包括用于对去噪后的语音信号进行去毛刺平滑处理的装置。
[0016]本发明所提供的去除语音信号中已知干扰的方法和设备，由于利用了已知干扰的信号信息，从而能够很有效地去除噪声干扰，相比现有的消噪算法及策略具有更好的去噪效果，能够大幅提升识别系统的识别率和稳定性。并且本发明实现简单，算法复杂度低，计算开支小。本发明所提供的方法和设备可以作为现有的各种语音识别系统的独立的前端预处理流程或前端预处理模块，易于集成及扩展。
[0017]本发明的其他特征和优点将在随后的【具体实施方式】部分予以详细说明。

【专利附图】

【附图说明】
[0018]附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的【具体实施方式】一起用于解释本发明，但并不构成对本发明的限制。在附图中:
[0019]图1是根据本发明的实施方式提供的去除语音信号中已知干扰的方法的流程图；
[0020]图2是根据本发明的优选实施方式的双通道降噪过程的原理图；
[0021]图3是根据本发明的优选实施方式提供的去除语音信号中已知干扰的方法的流程图；
[0022]图4是根据本发明的优选实施方式的单通道降噪的原理图；以及
[0023]图5是根据本发明的优选实施方式提供的去除语音信号中已知干扰的装置的框图。

【具体实施方式】
[0024]以下结合附图对本发明的【具体实施方式】进行详细说明。应当理解的是，此处所描述的【具体实施方式】仅用于说明和解释本发明，并不用于限制本发明。
[0025]图1是根据本发明的实施方式提供的去除语音信号中已知干扰的方法的流程图。下面结合图1说明本发明所提供的去除语音信号中已知干扰的方法。
[0026]如图1所示，在步骤SlOl中，获取已知干扰信号。这里，所谓“已知干扰信号”是指在进行语音识别时，用户所发出的语音信号中夹杂的诸如计算机、数字电视、智能手机、平板等设备所播放的背景声音，在进行语音识别时即可以认为是干扰噪声。这种干扰信号由于来自于音视频设备自身所播放的媒体文件，所以是可以通过多种方式获取媒体文件本身，也就是说，这个干扰信号就可以认为是已知干扰。获取已知干扰信号的方式可以有很多种，例如，大多数情况下，用于获取已知干扰信号的装置内置在播放干扰信号的音视频设备中，因此，获取已知干扰信号的方法可以为直接获取存储在音视频设备上的正在播放的文件作为已知干扰信号，或者获取通过音视频设备的声卡播放的缓存信号作为已知干扰信号(这种情况是因为音视频设备上并没有存储有正在播放的文件)。又如，如果用于获取已知干扰信号的装置与播放干扰信号的音视频设备物理上是分离的，这时需要借助其他手段来获得音视频设备上正在播放的文件，例如通过二者之间建立直接链路而传递该文件、或者传递与该文件相关信息以便于用于获取已知干扰信号的装置获取该文件等等。
[0027]在步骤S102中，获取带噪语音信号。这里，所谓“带噪语音信号”是指用户发出的语音指令，其中混杂着背景噪声干扰，这个信号就是本发明要进行消噪的原始信号。带噪语音信号的获取可以通过录制麦克风收录的用户语音而获得。
[0028]这里需要说明的是，虽然使用了 S101、S102这样的表述，但是并不意味着这两个步骤是有先后次序，这两个步骤可以是同时并行的。
[0029]在通过步骤SlOl和步骤S102获得了两路信号之后，其中一路是混有干扰的信号，另一路是干扰信号，因此，只需要将二者相减即可得到消去干扰的去噪后的信号。但是因为已知干扰信号有可能并不是与带噪语音信号同时录制得到的，也就是说二者在时域上也许并不是对齐的，因此，需要将二者进行时域对齐，这样进行消噪时才能得到正确的去噪后信号。因此，在步骤S103中，对已知干扰信号以及带噪语音信号进行时域对齐。对两路信号进行时域对齐，本领域有各种实施方式，在此不再详述，任何能够实现时域对齐的方式均可以使用。由于这两路信号均包含着同样的干扰信号，二者彼此的相关性很高，因此，优选情况下，通过互相关的方式来进行时域对齐。即，当获取的带噪语音信号累积到预定时长时，对两路信号进行互相关计算，确定两路信号互相关性最强的采样点位置，并对齐该位置，这样便完成了两路信号的时域对齐。
[0030]然后，在步骤S104中，从带噪语音信号中消去经过时域对齐后的已知干扰信号，从而得到去噪后的语音信号。优选情况下，本发明采用了双通道自适应滤波降噪算法来进行去噪，下面结合图2来说明去噪过程。如图2所示，在自适应滤波降噪模型中，本发明将X (η)作为输入的带噪语音信号，d(n)作为输入的已知干扰信号，y(n)为带噪语音信号x(n)经过多次迭代得到的期望信号，y(n)与d(n) 二者相减得到即为去噪后的语音信号e (η)，然后根据自适应算法，不断优化自适应滤波器的权系数《^至Wna-D，从而使得自适应滤波器权系数收敛达到稳定，从而y (η)与d(η) 二者的相关性最强或最接近，从而尽可能地去掉干扰，此时得到的信号e(n)为消除了干扰信号的语音信号。这时，带噪语音信号中的干扰已经被大幅消减，从而能够有效地保证语音信号能够被接下来的语音识别系统无误地识别。
[0031]然而，虽然干扰信号是已知的，但是获取干扰信号时从媒体文件获取的是干扰源信号，而并非从麦克风收录的实际干扰信号，其源信号在通过音视频设备播放过程中可能会略有变化，因此通过上述消噪方式有可能并没有完全地去除噪声，可能还残留一些平稳性加性噪声。这时，在进行了双通道降噪之后，优选情况下，如图3所示，本发明提供的方法还可以包括:在步骤S105中，对去噪后的语音信号进行单通道自适应降噪，从而进一步消去参与的噪声分量，得到更加纯净的语音信号。单通道自适应降噪的步骤如图4所示，经过噪声估计、增益设计、噪声消除三个步骤得到更纯净的语音信号。
[0032]最后，优选地，本发明提供的方法还可以包括:在步骤S106中，对去噪后的语音信号进行去毛刺平滑处理，这样时频片段中孤立的凸起、凹陷会被平滑去除，从而保持频谱平滑过渡。
[0033]这样，通过以上处理得到的语音信号基本没有干扰、噪声，然后被送入到语音识别系统进行语音识别，可以有效、准确地识别出用户的语音指令。
[0034]相应地，如图5所示，本发明提供的去除语音信号中已知干扰的设备100包括:用于获取已知干扰信号的装置10 ;用于获取带噪语音信号的装置20 ;用于对已知干扰信号以及带噪语音信号进行时域对齐的装置30 ;以及用于从带噪语音信号中消去经过时域对齐后的已知干扰信号从而得到去噪后的语音信号的装置40。
[0035]其中，如前所述，所述用于获取已知干扰信号的装置10可以被配置成直接获取存储在音视频设备上的正在播放的文件作为已知干扰信号，或者获取通过音视频设备的声卡播放的缓存信号作为已知干扰信号，或者通过与音视频设备建立直接链路而传递正在播放的文件、或者传递与该文件相关信息以便于获取该文件作为已知干扰信号。
[0036]所述用于获取带噪语音信号的装置20可以通过录制麦克风收录的用户语音而获得。
[0037]优选情况下，所述用于对已知干扰信号以及带噪语音信号进行时域对齐的装置30被配置成:当获取的带噪语音信号累积到预定时长时，对已知干扰信号以及带噪语音信号进行互相关计算；确定两路信号互相关性最强的采样点位置；并对齐该采样点位置。
[0038]而得到去噪后的语音信号的装置40则可以使用双通道自适应滤波降噪算法来进行去噪。
[0039]另外，优选情况下，该设备100还可以包括用于对去噪后的语音信号进行单通道自适应降噪的装置50。该设备还可以包括用于对去噪后的语音信号进行去毛刺平滑处理的装置60。
[0040]以上这些装置分别对应于本发明前面所介绍的方法，均是可以通过计算机程序实现的，在此不再赘述。
[0041]以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。
[0042]另外需要说明的是，在上述【具体实施方式】中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。
[0043]此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。
【权利要求】
1.一种去除语音信号中已知干扰的方法，包括以下步骤: 获取已知干扰信号；获取带噪语音信号；对已知干扰信号以及带噪语音信号进行时域对齐；以及从带噪语音信号中消去经过时域对齐后的已知干扰信号，从而得到去噪后的语音信号。
2.根据权利要求1所述的方法，其中，所述获取已知干扰信号的步骤为直接获取存储在音视频设备上的正在播放的文件作为已知干扰信号，或者获取通过音视频设备的声卡播放的缓存信号作为已知干扰信号，或者通过与音视频设备建立直接链路而传递正在播放的文件、或者传递与该文件相关信息以便于获取该文件作为已知干扰信号。
3.根据权利要求1所述的方法，其中，所述时域对齐包括: 当获取的带噪语音信号累积到预定时长时，对已知干扰信号以及带噪语音信号进行互相关计算；确定两路信号互相关性最强的采样点位置；以及对齐该采样点位置。
4.根据权利要求1-3中任一项权利要求所述的方法，其中，该方法还包括: 对去噪后的语音信号进行单通道自适应降噪。
5.根据权利要求1-3中任一项权利要求所述的方法，其中，该方法还包括: 对去噪后的语音信号进行去毛刺平滑处理。
6.一种去除语音信号中已知干扰的设备，包括: 用于获取已知干扰信号的装置；用于获取带噪语音信号的装置；用于对已知干扰信号以及带噪语音信号进行时域对齐的装置；以及用于从带噪语音信号中消去经过时域对齐后的已知干扰信号从而得到去噪后的语音信号的装置。
7.根据权利要求6所述的设备，其中，所述用于获取已知干扰信号的装置被配置成直接获取存储在音视频设备上的正在播放的文件作为已知干扰信号，或者获取通过音视频设备的声卡播放的缓存信号作为已知干扰信号，或者通过与音视频设备建立直接链路而传递正在播放的文件、或者传递与该文件相关信息以便于获取该文件作为已知干扰信号。
8.根据权利要求6所述的设备，其中，所述用于对已知干扰信号以及带噪语音信号进行时域对齐的装置被配置成:当获取的带噪语音信号累积到预定时长时，对已知干扰信号以及带噪语音信号进行互相关计算；确定两路信号互相关性最强的采样点位置；并对齐该采样点位置。
9.根据权利要求6-8中任一项权利要求所述的设备，其中，该设备还包括用于对去噪后的语音信号进行单通道自适应降噪的装置。
10.根据权利要求6-8中任一项权利要求所述的设备，其中，该设备还包括用于对去噪后的语音信号进行去毛刺平滑处理的装置。
【文档编号】G10L21/0208GK104505099SQ201410746390
【公开日】2015年4月8日申请日期:2014年12月8日优先权日:2014年12月8日
【发明者】关海欣申请人:北京云知声信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：关海欣;
技术所有人：北京云知声信息技术有限公司;
我是此专利的发明人

上一篇：家庭ktv实现方法
上一篇：一种针对刻意伪装语音的说话人识别方法