远场识别的处理方法和装置的制造方法

文档序号:9236341阅读:253来源:国知局
远场识别的处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,尤其涉及一种远场识别的处理方法和装置。
【背景技术】
[0002]远场识别技术,也即远距离识别技术,通常是为了解决说话人距离语音设备2米之外场景的语音识别请求。在远场识别时,会采用远场识别模型,远场识别模型是对远场识别训练数据进行训练后建立的。
[0003]现有技术中,在获取远场识别训练数据时,一种方法是直接录制方法,但是,这种方法效率以及数据覆盖率较差,并且无法利用已有的近场识别训练数据,为了解决直接录制方法的问题,还可以采用声学传递函数(Acoustic transfer funct1n,ATF)估计方法。
[0004]ATF估计方法需要事先选择一些有代表性的应用环境,录制特定的参考信号,进而计算对应环境的ATF。为了提高远场识别模型的准确度,就需要尽可能多的获取不同应用环境的ATF,现有技术中通常需要用户配合,让用户在实际使用环境中播放特定信号以获取多样化的ATF估计。

【发明内容】

[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本发明的一个目的在于提出一种远场识别的处理方法,该方法可以不需要用户额外参与,降低对用户的打扰,从而提升用户体验。
[0007]本发明的另一个目的在于提出一种远场识别的处理装置。
[0008]为达到上述目的,本发明第一方面实施例提出的远场识别的处理方法,包括:根据AEC模块采集的ATF,获取应用环境的ATF,所述AEC模块位于语音识别交互系统内,所述语音识别交互系统位于所述应用环境内;获取近场识别训练数据;根据所述应用环境的ATF和所述近场识别训练数据,得到对应所述应用环境的远场识别训练数据。
[0009]本发明第一方面实施例提出的远场识别的处理方法,不需要额外的用户参与或播放特殊信号,整个工作完全基于AEC模块采集的ATF,可以不需要用户额外参与,降低对用户的打扰,从而提升用户体验。
[0010]为达到上述目的,本发明第二方面实施例提出的远场识别的处理装置,包括:第一获取模块,用于根据AEC模块采集的ATF,获取应用环境的ATF,所述AEC模块位于语音识别交互系统内,所述语音识别交互系统位于所述应用环境内;第二获取模块,用于获取近场识别训练数据;第三获取模块,用于根据所述应用环境的ATF和所述近场识别训练数据,得到对应所述应用环境的远场识别训练数据。
[0011]本发明第二方面实施例提出的远场识别的处理装置,不需要额外的用户参与或播放特殊信号,整个工作完全基于AEC模块采集的ATF,可以不需要用户额外参与,降低对用户的打扰,从而提升用户体验。
[0012]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0013]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0014]图1是本发明一实施例提出的远场识别的处理方法的流程示意图;
[0015]图2是本发明实施例中获取应用环境的ATF的流程示意图;
[0016]图3是本发明另一实施例提出的远场识别的处理方法的流程示意图;
[0017]图4是本发明另一实施例提出的远场识别的处理方法的流程示意图;
[0018]图5是本发明另一实施例提出的远场识别的处理装置的结构示意图;
[0019]图6是本发明另一实施例提出的远场识别的处理装置的结构示意图;
[0020]图7是本发明另一实施例提出的远场识别的处理装置的结构示意图。
【具体实施方式】
[0021]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0022]图1是本发明一实施例提出的远场识别的处理方法的流程示意图,该方法包括:
[0023]Sll:根据AEC模块采集的ATF,获取应用环境的ATF,所述AEC模块位于语音识别交互系统内,所述语音识别交互系统位于所述应用环境内。
[0024]其中,为了消除干扰信号,语音识别交互系统中通常会包括声回波消除(Acousticecho cancellat1n, AEC)模块,AEC模块通常称为BargeIn功能模块。
[0025]干扰信号例如为语音识别交互系统产生的音乐,语音合成(text to speech, TTS)
信号等。
[0026]语音识别交互系统包括:近场识别系统,远场识别系统等。
[0027]应用环境包括:家庭房间,会议室等。
[0028]以近场识别为例,在传统的系统中,近端用户都是在听到语音识别交互系统(简称为系统)的提示音,如“Beep”声后,才开将后续的近端语音送入识别器进行识别,这样近端语音是不会受到干扰信号的影响,从而影响语音识别性能。但是,如果在用户听到系统提示音之前就开始讲话了,那么系统提示音之前的近端语音就不会被识别系统所接受,这样就无法完整的识别用户的近端语音了。这种情况在实际系统中是经常会发生的,有些用户可能不等听到系统提示音就开始说话了。为了改善用户体验,对于具有BargeIn功能的系统,近端用户无需等听到系统提示音后才可以开始说话,这时由于识别接收到的是系统的干扰信号和近端语音混合在一起的声音,如果不做专门处理,识别系统也无法正确识别出近端语音的,因此,通过引入AEC技术来消除掉系统的干扰,这样就可以正确识别近端语音了,这极大的改善了语音交互系统的用户体验和可用性。AEC技术的核心思想是,在已知系统播放的干扰信号(比如,音乐和TTS信号等都是系统已知的)的情况下,AEC可以通过自适应滤波器追踪技术快速准确的学习从系统扬声器到麦克风的之间的ATF,进而通过将估计出的ATF和系统播放的干扰信号进行卷积来模拟出麦克风信号中的对应系统播放的干扰信号的成分,这样就可以很好的对其进行消除,从而只保留近端语音信号了。
[0029]因此,当语音识别交互系统中具有AEC模块(比如BargeIn功能模块)时,该AEC模块就可以获取到系统的扬声器到麦克风之间的ATF。进一步的,根据AEC模块采集的ATF可以获取到该AEC模块所在的应用环境的ATF。
[0030]其中,根据AEC模块采集的ATF获取应用环境的ATF时,可以是直接将AEC模块采集的ATF作为应用环境的ATF,或者,还可以是对AEC模块采集的多个ATF进行处理后获取。
[0031]可选的,参见图2,所述根据AEC模块采集的ATF,获取应用环境的ATF,包括:
[0032]S21:获取AEC模块采集的预设时间段内的多个ATF。
[0033]其中,基于AEC技术的BargeIn功能模块是一直在不停的实时追踪ATF,因此,可以获取多个ATF。
[0034]S22:获取每个ATF的质量值,将质量值最高的ATF确定为应用环境的ATF ;或者,对所述多个ATF进行平滑处理,将平滑处理后的ATF确定为应用环境的ATF。
[0035]其中,可以根据AEC内部的一些准则获知估计出的ATF的质量高低,从而可以获取到质量最高的ATF。一些准则例如为自适应滤波器收敛标准,以消除干扰信号为例,假设指定如果消除量达到20dB的程度,认为自适应滤波器已经很好的逼近了实际房间环境,这时就认为此时的ATF估计可以被提取出来作为一次的采集样本。
[0036]另外,还可以对多个ATF进行平滑处理,平滑处理例如加权平均处理。
[0037]通过选择质量高的ATF或者对ATF进行平滑处理,可以提高ATF的质量,从而提高获取的远场识别训练数据的质量。
[0038]S12:获取近场识别训练数据。
[0039]其中,由于近场识别的使用非常广泛,已经积累了很多的近场识别训练
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1