用于自动语音识别系统的共同讲话者调零的制作方法

文档序号:8320301阅读:380来源:国知局
用于自动语音识别系统的共同讲话者调零的制作方法
【专利说明】用于自动语音识别系统的共同讲话者调零
[0001] 相关申请的交叉引用 本申请与下列申请相关:Co-Talker Nulling Based on Multi Super Directional Beamformer,由Jianming Song和Mike Reuter发明,和本申请同日提交,并由代理人案号 2013P03179US 标识。
【背景技术】
[0002] 在最近几年中,通过计算机精确识别人类语音有所改善,但尚未百分之百地精确。 语音识别系统的一个已知问题是排除从除了其语音旨在被识别的人以外的某个人发出的 声音或语音,即共同讲话者(co-talker)的语音可能使语音识别系统混乱。能够定位并抑 制来自共同讲话者声音将是优于现有技术的改善。
【附图说明】
[0003] 图1是车辆乘客室的平面图的示意性描绘; 图2是一对空间选择性麦克风检测波束的示意性表示; 图3描绘定向波瓣(lobe)对,表示空间选择性虚拟麦克风; 图4是首频系统的框图; 图5描绘由单个"波束"对上的话音样本处理器执行的方法的步骤,该方法实现从驾驶 员选择性捕获或音频; 图6是话音样本处理器的框图; 图7是车辆乘客室的平面图的示意性描绘; 图8示出响应于来自驾驶员的语音信号的波形,该波形表示从图7所描绘的车辆乘客 室中的麦克风输出的电信号; 图9描绘图8中所示的波形的延迟副本; 图10示出响应于来自乘客的语音信号声波的波形,该波形表示从图7中所示的麦克风 输出的电信号;以及 图11是图10中所示波形的延迟和反转副本。
【具体实施方式】
[0004] 由Young的实验演示的行波的相长和相消干涉是公知的。简单地说,当光波经过 贯通平板的两个狭缝时,从狭缝发出的光波将在定位成越过平板的屏幕上产生交替的亮带 和暗带。在屏幕上产生的各交替的带由从狭缝发出的波的相加和相消干涉引起。
[0005] 发送的无线电波的相加和相消干涉也是公知的。该现象的一种用途是相控阵雷 达。简单地说,相控阵雷达引导从两个紧密间隔的天线发送的RF信号,并且因此,相对于发 送到第二天线的信号,通过改变发送到一个天线的RF信号的相位而引导雷达"波束"。
[0006] 行波的相加和相消干涉的另一种用途是定向选择性或"波束形成"麦克风,它们也 是公知的。例如McCowan et al.,"Near-field Adaptive Beam former for Robust Speech Recognition,,' Queensland University of Technology, Brisbane, Australia,其全部 内容通过引用并入本文。如下文所述,多对超定向麦克风(其中的每一个通过把来自两个不 同的麦克风的信号以数字方式延迟逐步不同的时间长度来实现)精确地定位和检测来自驾 驶员和共同讲话乘客的声音。由具有最强的共同讲话乘客音频的至少一个超定向麦克风对 拾取的、来自共同讲话乘客的声音被从驾驶员的声音中去除,所述驾驶员的声音由具有最 强驾驶员音频信号的超定向麦克风对拾取。
[0007] 现在参照各图,图1是车辆乘客室100、车辆驾驶员102、车辆乘客104和从他们 中每一个发出的声波的平面图的示意性描绘,声波由同心圆部分106表示。图1还示出两 个非定向和通用麦克风108U10相对于驾驶员102和乘客104的布置。在图1中,麦克风 106U08被示出为附连到车辆的后视反射镜112,并由此彼此以相对小的距离114 (典型地 是10-14英寸)被间隔开。
[0008] 如图1所示,右侧麦克风108比左侧麦克风108更加远离驾驶员102。类似地,左 侧麦克风108比右侧麦克风110更远离乘客104。从驾驶员102发出的声波106因此将在 来自驾驶员102的相同声波108到达右侧麦克风110之前到达左侧麦克风108。从另一侧 的乘客104发出的声波106因此将在来自乘客104的相同声波104到达左侧麦克风108之 前到达右侧麦克风110。
[0009] 当驾驶员102说话时,来自驾驶员102的相应的声波106在两个不同的时间到达 两个麦克风108、110。来自驾驶员的声音将在声音到达右麦克风110之前到达左麦克风 108。当右侧麦克风转化来自驾驶员的声波时,由右侧麦克风生成的模拟电信号将具有相位 角,该相位角"滞后于"或者在当左侧麦克风转化相同声波时由左侧麦克风生成的电信号的 相位角的后面。当乘客104说话时,并且来自乘客104的相应的声波106到达两个麦克风 108、110,当左侧麦克风转化来自乘客的声波时,由左侧麦克风生成的模拟电信号将具有相 位角,该相位角"滞后于"或者在当右侧麦克风转化相同的乘客的声波时由右侧麦克风生成 的电信号的相位角的后面。
[0010] 来自两个麦克风的音频信号被采样,并使用信号处理领域中的普通技术人员公知 的技术转换成表示样本的数字值。为了产生超定向麦克风"波束",即定向选择性麦克风,有 必要实现源于空间中不同位置并且将必须传播不同距离到两个麦克风的波的相加和相长 干涉的等效。等效于在不同位置处空间定位麦克风以便实现来自特定方向的波的相加,表 示来自第一麦克风的样本的数字值被选择性地以数字方式延迟达预定的时间长度,然后与 从另一麦克风获得的样本组合。当表示非延迟样本的数字值被相加到表示先前获得和延迟 的样本的数字值时,所得的值将是由麦克风检测的音频信号的相加或相消干涉。换句话说, 通过选择性地延迟和组合来自不同麦克风的样本,由两个麦克风提供的信号与从中获得样 本的音频信号的相加或相消"干涉"组合。选择性地延迟和组合从麦克风获得的延迟的样 本因此使得两个麦克风能够从不同位置选择性地接收音频。因此麦克风表现得好像它们接 收和转化仅来自定位在离两个麦克风一距离处的地区或区域的音频,使得在麦克风处接收 的信号将被相加地组合。通过相加地或相消地把样本组合在一起,源于车辆中的各位置以 使得当它们被组合时它们彼此相消地干涉的音频信号因此能够被选择性地接收或抑制。
[0011] 来自两个麦克风1〇8、110的信号因此可被以数字方式操纵,以便实现空间选择性 或"波束",由两个麦克风从空间选择性或"波束"检测到的声音将被相加或相干地彼此组 合,并且因此可用于后续的用途或处理。
[0012] 图2是一对空间选择性麦克风检测"波束"200、204的示意性表示,"波束"200、204 在本文中也被称为"波束对" 206。"波束" 200、204由上述声波的相长和相消干涉"生成"。 敏感性的左侧麦克风区域或"波束"202被"引导"向乘客室100中驾驶员102所定位的位 置,并且选择性地检测从驾驶员发出的声音。右侧麦克风"波束"204被"引导"向乘客104 所定位的位置,选择性地检测从乘客104发出的声音。
[0013] 信号处理领域中的普通技术人员将认识到:来自驾驶员102的某些声音将到达最 靠近乘客104的麦克风110并由其检测。类似地,来自乘客104的声音也将到达最靠近驾 驶员102的麦克风108并由其检测。因此重要的是,尽可能近地定位驾驶员和共同讲话者 以便能够从所检测的驾驶员的声音中抑制所检测的共同讲话者的声音。一旦共同讲话乘客 被定位,就可抑制由麦克风波束拾取的共同讲话者的语音。
[0014] 图3描绘定向波瓣对,该对由附图标记302A和302B、304A和304B以及306A和 306B标识。波瓣一般表示乘客室100的空间区域,其中将使用两个物理麦克风310、312选择 性地检测声音,它的输出声音使用音频行波的相加和相消干涉的原理以数字方式被处理, 从而来实现多个定向选择性虚拟麦克风。
[0015] 波束对的不同选择性方向通过检测由第一虚拟麦克风拾取和由第二虚拟麦克风 拾取的声音来实现。来自虚拟麦克风之一的声音被选择性地延迟达逐渐不同的时间长度。 每个被延迟的样本然后与由其它麦克风同时检测的声音样本组合。因为各麦克风被定位成 以稍微不同的距离远离声源,所以由一个麦克风拾取的声音将和由不同的麦克风拾取的相 同声音具有不同的相位角。当那些相位角之间的差是180度时,把这些声音相加在一起将 使得由各麦克风拾取的声音抵消。通过改变来自一个麦克风的声音的延迟时间长度并把不 同延迟的组合在一起声音,将不同延迟的样本组合到未延迟的样本将产生不同程度的相加 或相消干涉。这种干涉发生得好像所检测的声音源于不同的空间位置,这相当于"转向"检 测音频的方向。产生分别来自驾驶员和乘客的信号的最大振幅相长干涉的波束对302、304、 306与使用单个波束的可能情况相比更精确地确定驾驶员和乘客二者的位置,而且他们各 自的语音信号与使用单个波束的可能情况相比更精确。基于由麦克风检测的声音的振幅大 于还是小于预定阈值,做出声音来自乘客还是驾驶员的决定,如下所阐述。
[0016] 在替代实施例中,从空间上分离的麦克风发出的电信号可被选择性地"选通"或采 样,以便选择性地接收和忽略在不同时间到达两个麦克风的声波。例如,可在第一时刻tl 采样来自麦克风108的电信号,并且此后的被忽略。可在稍后的时间t2采样来自另一麦克 风110的电信号,并且此后的被忽略。通过选择tl和t2,使得它们之间的差等于声音的波 长从第一麦克风传播到第二麦克风所需的时间,两个样本将相长地相加。相反地,如果选择 tl和t2,使得它们的差是声音的半波长从第一麦克风传播到第二麦克风所需的时间,则这 两个样本将相消地相加。因此选择性地选择tl和t2使得两个空间上分离的麦克风能够通 过在不同时间米样来自麦克风的声音而定向地辨别声音。
[0017] 通过比较由每个波束对选择性地检测的声音的相对振幅并把那些振幅和实验确 定的和预定的阈值相比较,波束对包括定向选择性滤波器,通过定向选择性滤波器,与不使 用多个波束对的可能情况相比,可更精确地定位驾驶员的位置和驾驶员的音频。来自波束 对302、304、306的音频信号因此能够定位驾驶员和乘客。和阈值相比,提供最强检测信号 的波束此后被用来选择性地从驾驶员音频信号去除乘客音频信号。换句话说,通过比较从 每个波束对生成的输出,波束对实现对驾驶员的语音和乘客的语音的选择性定位。多个波 束对还实现对源于乘客的语音信号的抑制。
[0018] 图4是由语音控制的音频系统400的框图。系统400包括:两个常规的但是空间上 分离的麦克风402、404 ;常规的模拟到数字(A/D)转换器406 ;快速傅立叶变换处理器408, 被配置成生成来自A/D转换器
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1