话音活动检测的制作方法

文档序号:2832766阅读:480来源:国知局
专利名称:话音活动检测的制作方法
技术领域
本发明涉及语音信号的处理。
背景技术
以前在安静的办公室或家庭环境中进行的许多活动当今是在声学上可变的情形中进行,例如汽车、街道或咖啡厅。举例来说,一个人可能希望使用话音通信信道与另一个 人通信。所述信道可例如由移动无线手持机或头戴式耳机、步话机、双向无线电、汽车套件或另一通信装置提供。因此,大量的话音通信是在用户被其他人包围的环境中使用移动装置(例如,智能电话、手持机和/或头戴式耳机)来进行,所述环境具有在人们趋于聚集的情况下通常遇到的种类的噪声内容。此噪声往往使得在电话对话的远端的用户分心或烦恼。而且,许多标准自动化商业事务(例如,账户余额或股票报价查询)采用了基于话音辨识的数据查询,且这些系统的准确性可能受到干扰噪声的显著妨碍。对于其中通信发生于有噪声的环境中的应用,可能期望将所需语音信号与背景噪声分离。可将噪声界定为干扰所需信号或以另外方式使所需信号降级的所有信号的组合。背景噪声可包含产生于声环境内的许多噪声信号,例如其他人的背景对话,以及从所需信号和/或其它信号中的任一者产生的反射和混响。除非所需语音信号与背景噪声分离,否则可能难以可靠且有效地利用所需语音信号。在一个特定实例中,在有噪声的环境中产生语音信号,且使用语音处理方法来将所述语音信号与环境噪声分离。在移动环境中遇到的噪声可包含多种不同分量,例如竞争性讲话者、音乐、混串音、街道噪声和/或机场噪声。由于此噪声的特征通常是非静止的且接近于用户自己的频率特征,因此所述噪声可能难以使用传统单个麦克风或固定波束成形型方法来模型化。单个麦克风噪声减少技术通常需要主要参数调谐以实现最优性能。举例来说,合适的噪声参考在这些情况下可能并不直接可用,且可能必须间接地导出噪声参考。因此,可能需要基于多个麦克风的高级信号处理来支持用于话音通信的移动装置在有噪声的环境中的使用。

发明内容
根据一般配置的处理音频信号的方法包含针对所述音频信号的第一多个连续片段中的每一者,确定所述片段中存在话音活动。此方法还包含针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,确定所述片段中不存在话音活动。此方法还包含检测在所述第二多个连续片段当中的不是将在所述第二多者当中出现的第一片段的一个片段期间出现所述音频信号的话音活动状态的转变,以及产生话音活动检测信号,其针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值。在此方法中,针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动。在此方法中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。还揭示具有存储机器可执行指令的有形结构的计算机可读媒体,所述机器可执行指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器执行此方法。
根据另一一般配置的用于处理音频信号的设备包含用于针对所述音频信号的第一多个连续片段中的每一者确定所述片段中存在话音活动的装置。此设备还包含用于针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者确定所述片段中不存在话音活动的装置。此设备还包含用于检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变的装置,以及用于产生话音活动检测信号的装置,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值。在此设备中,针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。根据另一配置的用于处理音频信号的设备包含第一话音活动检测器,其经配置以针对所述音频信号的第一多个连续片段中的每一者,确定所述片段中存在话音活动。所述第一话音活动检测器还经配置以针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,确定所述片段中不存在话音活动。此设备还包含第二话音活动检测器,其经配置以检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变;以及信号产生器,其经配置以产生话音活动检测信号,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值。在此设备中,针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动。在此设备中,针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。


图IA和IB分别展示高频率谱功率(垂直轴)在时间(水平轴;前后轴指示频率X IOOHz)上的一阶导数的绘图的俯视图和侧视图。图2A展示根据一般配置的方法MlOO的流程图。图2B展示方法MlOO的应用的流程图。图2C展示根据一般配置的设备AlOO的框图。图3A展示方法MlOO的实施方案MllO的流程图。图3B展示设备AlOO的实施方案AllO的框图。

图4A展示方法MlOO的实施方案M120的流程图。图4B展示设备AlOO的实施方案A120的框图。图5A和5B展示在不同噪声环境中且在不同声压级下的同一近端话音信号的谱图。图6展示与图5A的谱图相关的若干绘图。图7展示与图5B的谱图相关的若干绘图。图8展示对非语音脉冲的响应。图9A展示方法MlOO的实施方案M130的流程图。图9B展示方法M130的实施方案M132的流程图。图IOA展示方法MlOO的实施方案M140的流程图。图IOB展示方法M140的实施方案M142的流程图。图11展示对非语音脉冲的响应。图12展示第一立体声语音记录的谱图。图13A展示根据一般配置的方法M200的流程图。图13B展示任务TM300的实施方案TM302的框图。图14A说明方法M200的实施方案的操作的实例。图14B展示根据一般配置的设备A200的框图。图14C展示设备A200的实施方案A205的框图。图15A展示设备A205的实施方案A210的框图。图15B展示信号产生器SG12的实施方案SG14的框图。图16A展示信号产生器SG12的实施方案SG16的框图。图16B展示根据一般配置的设备MF200的框图。图17到19展示应用于图12的记录的不同话音检测策略的实例。图20展示第二立体声语音记录的谱图。图21到23展示图20的记录的分析结果。图24展示未正规化相位和接近度VAD测试统计的散布绘图。图25展示基于接近度的VAD测试统计的所跟踪的最小和最大测试统计。图26展示基于相位的VAD测试统计的所跟踪的最小和最大测试统计。图27展示经正规化相位和接近度VAD测试统计的散布绘图。图28展示经正规化相位和接近度VAD测试统计的散布绘图,其中α =0. 5。
图29展示经正规化相位和接近度VAD测试统计的散布绘图,其中对于相位VAD统计,α =0. 5,且对于接近度VAD统计,α =0. 25。图30Α展示阵列RlOO的实施方案R200的框图。图30Β展示阵列R200的实施方案R210的框图。图31Α展示根据一般配置的装置DlO的框图。图31Β展示作为装置DlO的实施方案的通信装置D20的框图。图32Α到32D展示头戴式耳机DlOO的各种视图。图33展示在使用中的头戴式耳机DlOO的实例的俯视图。图34展示在使用中的装置DlOO的各种标准定向的侧视图。 图35Α到3 展示头戴式耳机D200的各种视图。图36Α展示手持机D300的横截面图。图36Β展示手持机D300的实施方案D310的横截面图。图37展示在使用中的手持机D300的各种标准定向的侧视图。图38展示手持机D340的各种视图。图39展示手持机D360的各种视图。图40Α到40Β展示手持机D320的视图。图40C到40D展示手持机D330的视图。图41Α到41C展示便携式音频感测装置的额外实例。图41D展示根据一般配置的设备MF100的框图。图42Α展示媒体播放器D400的图。图42Β展示播放器D400的实施方案D410的图。图42C展示播放器D400的实施方案D420的图。图43Α展示汽车套件D500的图。图43Β展示书写装置D600的图。图44Α到44Β展示计算装置D700的视图。图44C到44D展示计算装置D710的视图。图45展示便携式多麦克风音频感测装置D800的图。图46Α到46D展示会议装置的若干实例的俯视图。图47Α展示指示高频率起始和截止活动的谱图。图47Β列举VAD策略的若干组合。
具体实施例方式在语音处理应用(例如,话音通信应用,例如电话)中,可能期望对载运语音信息的音频信号的片段执行准确检测。此话音活动检测(VAD)例如在保存语音信息时可为重要的。语音译码器(也称为编码器-解码器(编解码器)或声码器)通常经配置以分配比用来对被识别为噪声的片段进行编码的位更多的位来对被识别为语音的片段进行编码,使得载运语音信息的片段的误识别可能降低经解码片段中的所述信息的质量。在另一实例中,噪声减少系统在话音活动检测阶段未能将低能量无话音语音片段识别为语音的情况下可能激进地衰减这些片段。
对宽带(WB)和超宽带(SWB)编解码器的最近关注强调了保存高频语音信息,这对于高质量语音以及可理解性来说可为重要的。辅音通常具有跨越高频范围(例如,从四到八千赫)在时间上大体一致的能量。虽然辅音的高频能量与元音的低频能量相比通常较低,但环境噪声水平在高频中通常较低。图IA和IB展示经记录语音片段的谱图功率在时间上的一阶导数的实例。在这些图中,可清楚地辨别语音起始(如在较宽高频范围上的若干正值的同时发生所指示)以及语音截止(如在较宽高频范围上的若干负值的同时发生所指示)。可能期望基于如下原理来执行语音起始和/或截止的检测相干且可检测的能量改变在语音的起始和截止处在多个频率上发生。可例如通过在所需频率范围(例如,高频范围,例如从四到八kHz)中在若干频率分量上计算能量的一阶时间导数(即,能量随着时间的改变速率)来检测此能量改变。通过将这些导数的振幅与阈值进行比较,可计算每一频率区间的激活指示,且在针对每一时间间隔(例如,针对每一 10毫秒巾贞)的频率范围上组合(例如,平均化)激活指示以获得VAD统计。在此情况下,当大量频带展示在时间上相干的急剧能量增加时可指示语音起始,且当大量频带展示在时间上相干的急剧能量减小时 可指示语音截止。此统计在本文中称为“高频语音连续性”。图47A展示谱图,其中概略描绘了归因于起始的相干高频活动以及归因于截止的相干高频活动。除非由其上下文明确限制,否则本文中使用术语“信号”来指示其普通意义中的任一者,包含在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以另外方式产生。除非由其上下文明确限制,否则本文中使用术语“计算”来指示其普通意义中的任一者,例如运算、估计、平滑和/或从多个值中进行选择。除非由其上下文明确限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在术语“包括”用于本描述和权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者,包含如下情况(i) “从…导出”(例如,“B是A的前体”),(ii) “至少基于”(例如,“A至少基于B”),以及如果在特定上下文中适当的话,(iii) “等于”(例如,“A等于B”或“A与B相同”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置,除非上下文另外指示。根据特定上下文,术语“通道”有时用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为基数的对数,但此运算向其它基数的扩展属于本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如所述信号的频域表示(例如,如由快速傅立叶变换产生)或所述信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)的样本(或“区间”)。除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”,除非特定上下文另外指示。也一般地且可互换地使用术语“设备”和“装置”,除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制,否则本文中使用术语“系统”来指示其普通意义中的任一者,包含“交互以用于共同目的的一组元件”。一个文档的一部分以引用的方式的任何并入也应理解为并入了在所述部分内参考的术语或变量的定义(其中这些定义在所述文档的其它地方出现)以及在所并入的部分中参考的任何图式。可将近场界定为距声音接收器(例如,麦克风或麦克风阵列)小于一个波长的空间区。在此定义下,到所述区的边界的距离随着频率相反地变化。举例来说,在两百、七百和两千赫兹的频率下,到一个波长边界的距离分别为约170、49和17厘米。改为将近场/远场边界视为距麦克风或阵列一个特定距离(例如,距麦克风或距阵列中的一麦克风或距阵列的质心五十厘米,或者距麦克风或距阵列中的一麦克风或距阵列的质心I米或I. 5米)可能是有用的。
除非上下文另外指示,否则本文中使用术语“截止”作为术语“起始”的反义词。图2A展示根据一般配置的方法MlOO的流程图,其包含任务了2003300、了4003500和T600。方法MlOO通常经配置以在音频信号的一系列片段中的每一者上反复,以指示所述片段中是否存在话音活动状态的转变。典型的片段长度范围是从约五或十毫秒到约四十或五十毫秒,且片段可重叠(例如,邻近的片段重叠25%或50%)或不重叠。在一个特定实例中,将信号划分为一系列不重叠的片段或“帧”,每一者具有十毫秒的长度。由方法MlOO处理的片段也可为由不同操作处理的较大片段的片段(即,“子帧”),或反之亦然。任务T200计算片段η的每一频率分量k在所需频率范围上的能量E(k,η)的值(也称为“功率”或“强度”)。图2Β展示方法MlOO的应用的流程图,其中在频域中提供音频信号。此应用包含获得频域信号(例如,通过计算音频信号的快速傅立叶变换)的任务TlOO0在此情况下,任务Τ200可经配置以基于对应频率分量的量值来计算能量(例如,作为平方量值)。在替代实施方案中,方法MlOO经配置以(例如,从滤波器组)接收音频信号作为多个时域子带信号。在此情况下,任务Τ200可经配置以基于对应子带的时域样本值的平方和来计算能量(例如,作为和,或作为通过样本数目正规化的和(例如,平均平方值))。子带方案也可用于任务Τ200的频域实施方案中(例如,通过计算每一子带的能量的值作为子带k中的若干频率区间的平均能量,或作为所述频率区间的平均量值的平方)。在这些时域和频域情况中的任一者中,子带划分方案可为均匀的,使得每一子带具有大体上相同宽度(例如,在约百分之十内)。或者,子带划分方案可为不均匀的,例如超越方案(例如,基于巴克尺度的方案)或对数方案(例如,基于梅尔尺度的方案)。在一个此实例中,一组七个巴克尺度子带的边缘对应于频率20、300、630、1080、1720、2700、4400和7700 Hz。此子带布置可用于具有16 kHz的取样速率的宽带语音处理系统中。在此划分方案的其它实例中,省略较低子带以获得六子带布置,且/或使高频限制从7700Hz增加到8000Hz。不均匀子带划分方案的另一实例是四频带准巴克方案300到510Hz、510到920Hz、920到1480Hz以及1480到4000Hz。此子带布置可用于具有8kHz的取样速率的窄带语音处理系统中。
可能期望任务T200计算能量的值作为时间上经平滑的值。举例来说,任务T200可经配置以根据例如E (k, η) = β Eu(k,η) + (I- β ) E (k, η_1)的表达式来计算能量,其中Eu(k, η)是如上所述计算的能量的未经平滑的值,E(k,n)和E(k,n-1)分别是当前和先前经平滑的值,且β是平滑因数。平滑因数β的值的范围可为从O (最大平滑,无更新)到1(无平滑),且平滑因数β的典型值(对于起始检测可能不同于截止检测)包含0.05、0.1、0.2、O. 25 和 O. 3。可能期望所需频率范围延伸到高于2000Hz。或者或另外,可能期望所需频率范围包含音频信号的频率范围的上半部的至少一部分(例如,在8kHz下取样的音频信号的从2000到4000Hz的范围的至少一部分,或在16kHz下取样的音频信号的从4000到8000Hz的范围的至少一部分)。在一个实例中,任务T200经配置以在从四到八千赫的范围上计算能量值。在另一实例中,任务T200经配置以在从500Hz到8kHz的范围上计算能量值。任务T300计算片段的每一频率分量的能量的时间导数。在一个实例中,任务T300经配置以计算能量的时间导数作为每一帧η的每一频率分量k的能量差AE(k,η)[例如, 根据例如 Δ E (k, n) =E (k, η) - E (k, η - I)的表达式]。可能期望任务Τ300将AE(k,n)计算为在时间上经平滑的值。举例来说,任务T300可经配置以根据例如 Δ E (k, n) = a [E (k, η) - E (k, η - I) ] + (1 _ α ) [ Δ E (k, η - I)]的表达式来计算能量的时间导数,其中α是平滑因数。此时间平滑可帮助增加起始和/或截止检测的可靠性(例如,通过不再强调有噪声的假象)。平滑因数α的值的范围可为从0(最大平滑,无更新)到I (无平滑),且平滑因数α的典型值包含O. 05、0. 1、0. 2、0. 25和O. 3。对于起始检测,可能期望使用极少平滑或不使用平滑(例如,以允许快速响应)。可能期望基于起始检测结果而改变用于起始和/或截止的平滑因子α和/或β的值。任务Τ400产生片段的每一频率分量的活动指示A (k,η)。任务Τ400可经配置以通过将AE(k,n)与激活阈值进行比较来将A(k,η)计算为例如二进制值。可能期望激活阈值针对语音起始的检测具有正值Tart_m。在一个此实例中,任务T400经配置以根据如下表达式来计算起始激活参数Am(k,η)
Γηηοο1 , (ιjl, M(k,n)>Toa_
它怙况或Io5M它怙况a 可能期望激活阈值针对语音截止的检测具有负值在一个此实例中,任务T400经配置以根据如下表达式来计算截止激活参数Atjff (k,η)
_4] JflrM=I0,.其它情况或續其它怙况. 在另一此实例中,任务T400经配置以根据如下表达式来计算Atjff (k,η)
,!r( ’ 'I O,It 它估况 3 , ) —t O,认它 W 况 a任务T500组合片段η的活动指示以产生片段活动指示S(η)。在一个实例中,任务Τ500经配置以将S(n)计算为片段的值A(k,n)的和。在另一实例中,任务T500经配置以将S(n)计算为片段的值A(k,n)的经正规化和(例如,平均值)。任务T600将经组合的活动指示S (η)的值与转变检测阈值Ttx进行比较。在一个实例中,如果S(n)大于(或者不小于)Ttx,那么任务T600指示话音活动状态的转变的存在。对于其中A(k,η)[例如,AtjffGi, η)]的值可能为负的情况,如在以上实例中,如果S(η)小于(或者不大于)转变检测阈值Ttx,那么任务T600可经配置以指示话音活动状态的转变的存在。图2C展示根据一般配置的设备AlOO的框图,其包含计算器EC10、微分器DF10、第一比较器CP10、组合器COlO以及第二比较器CP20。设备AlOO通常经配置以针对音频信号的一系列片段中的每一者产生所述片段中是否存在话音活动状态的转变的指示。计算器EClO经配置以在所需频率范围上计算所述片段的每一频率分量的能量的值(例如,如本文中参考任务T200所描述)。在此特定实例中,变换模块FFTl对多通道信号的通道S10-1的片段执行快速傅立叶变换以对设备AlOO (例如,计 算器EC10)提供频域中的所述片段。微分器DFlO经配置以计算所述片段的每一频率分量的能量的时间导数(例如,如本文中参考任务T300所描述)。比较器CPlO经配置以产生所述片段的每一频率分量的活动指示(例如,如本文中参考任务T400所描述)。组合器COlO经配置以组合片段的活动指示以产生片段活动指示(例如,如本文中参考任务T500所描述)。比较器CP20经配置以将片段活动指示的值与转变检测阈值进行比较(例如,如本文中参考任务T600所描述)。图41D展示根据一般配置的设备MF100的框图。设备MF100通常经配置以处理音频信号的一系列片段中的每一者以指示所述片段中是否存在话音活动状态的转变。设备MF100包含用于在所需频率范围上计算片段的每一分量的能量(例如,如本文中参考任务T200所揭示)的装置F200。设备MF100还包含用于计算每一分量的能量的时间导数(例如,如本文中参考任务T300所揭示)的装置F300。设备MF100还包含用于指示每一分量的活动(例如,如本文中参考任务T400所揭示)的装置F400。设备MF100还包含用于组合活动指示(例如,如本文中参考任务T500所揭示)的装置F500。设备MF100还包含用于将经组合活动指示与阈值进行比较(例如,如本文中参考任务T600所揭示)以产生语音状态转变指示TIlO的装置F600。可能期望系统(例如,便携式音频感测装置)执行经配置以检测起始的方法MlOO的实例以及经配置以检测截止的方法MlOO的另一实例,其中方法MlOO的每一实例通常具有不同的相应阈值。或者,可能期望此系统执行将所述实例组合的方法MlOO的实施方案。图3A展示方法MlOO的此实施方案MllO的流程图,其包含活动指示任务T400的多个实例T400a、T400b、组合任务T500的多个实例T500a、T500b,以及状态转变指示任务T600的多个实例T600a、T600b。图3B展示设备AlOO的对应实施方案AllO的框图,其包含比较器CPlO的多个实例CPIOa、CPIOb、组合器COlO的多个实例COlOa、COlOb,以及比较器CP20的多个实例 CP20a、CP20b。可能期望将如上所述的起始和截止指示组合为单个量度。此经组合起始/截止得分可用以支持对语音活动(例如,近端语音能量的改变)随着时间的准确跟踪,即使在不同的噪声环境和声压级下也是如此。经组合起始/截止得分机制的使用还可使得更容易调谐起始/截止VAD。可使用如上所述通过任务T500的相应起始和截止实例针对每一片段计算的片段活动指示S (η)的值来计算经组合起始/截止得分Sra^ff (η)。图4Α展示方法MlOO的此实施方案Μ120的流程图,其包含频率分量激活指示任务Τ400和组合任务Τ500分别的起始和截止实例T400a、T500a和T400b、T500b。方法M120还包含任务T550,其基于由任务T500a (Son (η))和T500b (Soff (η))产生的S (η)的值来计算经组合起始-截止得分Sm^ff (η)。举例来说,任务Τ550可经配置以根据例如SmfOikabs (S。JnHStjff (η))的表达式来计算Son_off(n)。在此实例中,方法M120还包含任务T610,其将Sra^ff(Ii)的值与阈值进行比较以产生每一片段η的对应二进制VAD指示。图4Β展示设备AlOO的对应实施方案Α120的框图。图5Α、5Β、6和7展示可如何使用此经组合起始/截止活动量度来帮助跟踪近端语音能量在时间上的改变的实例。图5Α和5Β展不在不同噪声环境中和在不同声压级下包含相同近端话音的信号的谱图。图6和7的绘图A分别展示在时域中的图5Α和5Β的信号(作为振幅对以样本数计的时间的曲线关系)。图6和7的绘图B展示对绘图A的信号执行方法MlOO的实施方案以获得起始指示信号的结果(作为值对以帧数计的时间的曲线关系)。图6和7的绘图C展示对绘图A的信号执行方法MlOO的实施方案以获得截止指示信号的结果(作为值对以帧数计的时间的曲线关系)。在绘图B和C中,将对应帧活动指示信号展示为多值信号,将对应激活阈值展示为水平线(在绘图6Β和7Β中处于约+0. I且在绘图6C和7C中处于约-O. I),且将对应转变指示信号展示为二进制值信号(在绘图6Β和 7Β中具有O和约+0. 6的值,且在绘图6C和7C中具有O和约-O. 6的值)。图6和7的绘图D展示对绘图A的信号执行方法Μ120的实施方案以获得经组合起始/截止指示信号的结果(作为值对以帧数计的时间的曲线关系)。图6和7的绘图D的比较证明此检测器在不同噪声环境中和在不同声压级下的一致性能。例如猛关上的门、落下的板或拍手等非语音声音脉冲也可产生展示在一频率范围上的一致功率改变的响应。图8展示对包含若干非语音脉冲性事件的信号执行起始和截止检测(例如,使用方法MlOO的对应实施方案或方法MllO的实例)的结果。在此图中,绘图A展示时域中的信号(作为振幅对以样本数计的时间的曲线关系),绘图B展示对绘图A的信号执行方法MlOO的实施方案以获得起始指示信号的结果(作为值对与以帧数计的时间的曲线关系),且绘图C展示对绘图A的信号执行方法MlOO的实施方案以获得截止指示信号的结果(作为值对以帧数计的时间的曲线关系)。(在绘图B和C中,如参考图6和7的绘图B和C而描述来展示对应的帧活动指示信号、激活阈值和转变指示信号。)图8中的最左边箭头指示对由门猛关引起的不连续的起始(即,在正检测截止时检测到的起始)的检测。图8中的中心和最右边箭头指示由拍手引起的起始和截止检测。可能期望区别这些脉冲性事件与话音活动状态转变(例如,语音起始和截止)。非语音脉冲性激活可能比语音起始或截止在更宽频率范围上一致,语音起始或截止通常展现相对于时间的能量改变,其仅在约4到SkHz的范围上是连续的。因此,非语音脉冲性事件可能引起经组合活动指示(例如,S(η))具有过高而无法由语音使用的值。可实施方法MlOO以利用此性质来区别非语音脉冲性事件与话音活动状态转变。图9Α展示包含任务Τ650的方法MlOO的此实施方案Μ130的流程图,所述任务Τ650将S (η)的值与脉冲阈值Timp进行比较。图9Β展示包含任务Τ700的方法Μ130的实施方案Μ132的流程图,所述任务Τ700在S (η)大于(或者不小于)Timp的情况下超驰任务Τ600的输出以消除话音活动转变指示。对于其中A(k,η)[例如,AtjffG^n)]的值可为负(例如,如在以上截止实例中)的此情况,任务Τ700可经配置以仅在S(η)小于(或者不大于)对应超驰阈值的情况下指示话音活动转变指示。另外或在此过度激活检测的替代方案中,此脉冲抑制可包含对方法MllO的修改以将不连续的起始(例如,同一片段中的起始和截止的指示)识别为脉冲性噪声。也可通过起始的速度来区别非语音脉冲性噪声与语音。举例来说,频率分量中的语音起始或截止的能量往往随着时间比由于非语音脉冲性事件引起的能量更缓慢地改变,且可实施方法MlOO以利用此性质(例如,另外或在如上所述的过度激活的替代方案中)以区别非语音脉冲性事件与话音活动状态转变。图IOA展示方法MlOO的实施方案M140的流程图,其包含起始速度计算任务T800以及任务T400、T500和T600分别的实例T410、T510和T620。任务T800针对片段η的每一频率分量k计算起始速度△ΖΕΟ ,η)(即,能量相对于时间的二阶导数)。举例来说,任务Τ800可经配置以根据例如Δ 2Ε(k, n) = [ AE(k, η) - AE(k, η - I)]的表达式来计算起始
速度。 任务Τ400的实例Τ410经布置以针对片段η的每一频率分量计算脉冲性激活值Aimp-d2x(k,n)。任务T410可经配置以例如通过将A2E(k,n)与脉冲性激活阈值进行比较来将Aimp_d2(k,η)计算为二进制值。在一个此实例中,任务Τ410经配置以根据如下表达式来计算脉冲性激活参数Aimp_d2(k,η)細={『雄
j/ y \ (是, ^act—imp
…糾”=u.其它怙况α任务Τ500的实例Τ510组合片段η的脉冲性活动指示以产生片段脉冲性活动指示Simp_d2 (η)。在一个实例中,任务Τ510经配置以将Simp_d2 (η)计算为所述片段的值Aimp_d2 (k, η)的和。在另一实例中,任务Τ510经配置以将Simp_d2(n)计算为所述片段的值Aimp_d2(k,n)的经正规化和(例如,平均值)。任务T600的实例T620将片段脉冲性活动指示Simp_d2 (η)的值与脉冲检测阈值Timp-d2进行比较且在Simp_d2(n)大于(或者不小于)Timp_d2的情况下指示检测到脉冲性事件。图IOB展示方法M140的实施方案M142的流程图,其包含任务T700的实例,任务T700经布置以在任务T620指示S(n)大于(或者不小于)Timp_d2的情况下超驰任务T600的输出以消除话音活动转变指示。图11展示其中语音起始导数技术(例如,方法M140)正确地检测由图8中的三个箭头指示的脉冲的实例。在此图中,绘图A展示时域中的信号(作为振幅对以样本数计的时间),绘图B展示对绘图A的信号执行方法MlOO的实施方案以获得起始指示信号的结果(作为值对以帧数计的时间的曲线关系),且绘图C展示对绘图A的信号执行方法M140的实施方案以获得脉冲性事件的指示的结果(作为值对以帧数计的时间的曲线关系)。(在绘图B和C中,如参考图6和7的绘图B和C所描述来展示对应的帧活动指示信号、激活阈值和转变指示信号。)在此实例中,脉冲检测阈值Timp_d2具有约O. 2的值。由如本文描述的方法MlOO的实施方案产生的语音起始和/或截止的指示(或经组合起始/截止得分)可用以改善VAD级的准确性和/或快速地跟踪时间上的能量改变。举例来说,VAD级可经配置以将由方法MlOO的实施方案产生的话音活动状态的转变的存在或不存在的指示与由一个或一个以上其它VAD技术(例如,使用“与”或“或”逻辑)产生的指示进行组合以产生话音活动检测信号。其结果可与方法MlOO的实施方案的结果相组合的其它VAD技术的实例包含经配置以基于一个或一个以上因数将片段分类为有效(例如,语音)或无效(例如,噪声)的技术,所述因数例如为帧能量、信噪比、周期性、语音和/或残余(例如,线性预测译码残余)的自相关、过零率和/或第一反射系数。此分类可包含将此因数的值或量值与阈值进行比较和/或将此因数的改变的量值与阈值进行比较。或者或另外,此分类可包含将一个频带中的此因数(例如,能量)的值或量值或此因数的改变的量值与另一频带中的类似值进行比较。可能期望实施此VAD技术以基于多个准则(例如,能量、过零率等)和/或最近VAD决策的记忆来执行话音活动检测。其结果可与方法MlOO的实施方案的结果相组合的话音活动检测操作的一个实例包含将片段的高频带和低频带能量与例如在2010年10月的3GPP2文档C. S0014-D (v3. O)的第4. 7章(第4_48到4_55页)中描述的相应阈值进行比较,所述文档的题目为“增强型可变速率编解码器,用于宽带展频数字系统的语音服务选项3、68、70 和73 (Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems),,(在 www-dot-3gpp-dot_org 处可在线获得)。其它实例包含比较帧能量与平均能量的比率和/或低频带能量与高频带能量的比率。其中每一通道是基于由麦克风阵列中的一个对应麦克风产生的信号的多通道信号(例如,双通道或立体声信号)通常含有可用于话音活动检测的关于源方向和/或接近度的信息。此多通道VAD操作可例如通过区别含有从特定方向范围(例如,例如用户的嘴等所需声音源的方向)到达的方向性声音的片段与含有漫射声音或从其它方向到达的方向性声音的片段而基于到达方向(DOA)。一类基于DOA的VAD操作是基于多通道信号的两个通道中的每一者中的频率分量之间的相位差(针对所需频率范围中片段的每一频率分量)。此VAD操作可经配置以在相位差与频率之间的关系在一宽频率范围(例如500到2000Hz)上一致时(即,当相位差与频率的相关是线性的时)指示话音检测。下文更详细描述的此基于相位的VAD操作与方法MlOO的类似之处在于,点源的存在是由指示符在多个频率上的一致性来指示。另一类基于DOA的VAD操作是基于每一通道中的信号的实例之间的时间延迟(例如,通过在时域中使所述通道交叉相关而确定)。多通道VAD操作的另一实例是基于多通道信号的通道的电平(也称为增益)之间的差。基于增益的VAD操作可经配置以例如在两个通道的能量的比率超过阈值(指示信号正在从近场源到达且从麦克风阵列的轴方向中的一个所需方向到达)时指示话音检测。此检测器可经配置以在频域中(例如,在一个或一个以上特定频率范围上)或在时域中对信号进行操作。可能期望将起始/截止检测结果(例如,由方法MlOO或设备AlOO或MF100的实施方案产生)与来自基于多通道信号的通道之间的差的一个或一个以上VAD操作的结果进行组合。举例来说,如本文描述的语音起始和/或截止的检测可用以识别通过基于增益和/或基于相位的VAD仍未检测到的语音片段。将起始和/或截止统计并入到VAD决策中还可支持针对单通道和/或多通道(例如,基于增益的或基于相位的)VAD使用减小的拖尾周期。基于通道间增益差的多通道话音活动检测器以及单通道(例如,基于能量的)话音活动检测器通常依赖于来自一宽频率范围(例如,O到4kHz、500到4000Hz、0到8kHz或500到8000Hz范围)的信息。基于到达方向(DOA)的多通道话音活动检测器通常依赖于来自低频率范围(例如,500到2000Hz或500到2500Hz范围)的信息。假定有话音的语音在这些范围中通常具有显著能量内容,那么这些检测器可大体上经配置以可靠地指示有话音的语音的片段。然而,无话音的语音的片段通常具有低能量,尤其是与低频率范围中的元音的能量相比。可包含无话音的辅音以及有话音的辅音的无话音部分的这些片段也往往在500到2000 Hz范围中缺乏重要信息。因此,话音活动检测器可能无法将这些片段指示为语音,这可能导致译码低效和/或语音信息损失(例如,通过不适当的译码和/或过于激进的噪声减少)。可能期望通过将基于由谱图交叉频率连续性指示的语音起始和/或截止的检测 (例如,方法MlOO的实施方案)的语音检测方案与基于例如通道间增益差和/或通道间相位差的相干性等其它特征的检测方案进行组合来获得集成的VAD级。举例来说,可能期望用经配置以跟踪主要出现在高频率中的语音起始和/或截止事件的方法MlOO的实施方案来补充基于增益和/或基于相位的VAD框架结构。此经组合分类器的个别特征可彼此补充,因为与基于增益和基于相位的VAD相比,起始/截止检测往往对不同频率范围中的不同语音特性敏感。举例来说,500到2000Hz相位敏感VAD与4000到8000Hz高频语音起始/截止检测器的组合允许保存低能量语音特征(例如,在单词的富含辅音的开始处)以及高能量语音特征。可能期望设计经组合检测器来提供从起始到对应截止的连续检测指示。图12展示近场说话者的多通道记录的谱图,其也包含远场干扰语音。在此图中,顶部的记录是来自靠近用户的嘴的麦克风,且底部的记录是来自较远离用户的嘴的麦克风。来自语音辅音和齿擦音的高频能量在顶部谱图中清楚地可辨别。为了有效地保存出现在有话音的片段的末尾的低能量语音分量,可能期望例如基于增益或基于相位的多通道话音活动检测器或基于能量的单通道话音活动检测器等话音活动检测器包含惯性机制。此机制的一个实例是经配置以禁止检测器将其输出从有效切换到无效直到检测器继续在若干连续帧(例如,两个、三个、四个、五个、十个或二十个帧)的拖尾周期上检测到无效性为止的逻辑。举例来说,此拖尾逻辑可经配置以致使VAD继续在最近检测之后的某个周期中将片段识别为语音。可能期望拖尾周期足够长以俘获任何未检测到的语音片段。举例来说,可能期望基于增益或基于相位的话音活动检测器包含约两百毫秒(例如,约二十个帧)的拖尾周期以覆盖由于低能量或在相关频率范围中缺乏信息而被错过的语音片段。然而,如果未检测到的语音在拖尾周期之前结束,或者如果没有低能量语音分量实际上存在,那么拖尾逻辑可能致使VAD在拖尾周期期间传递噪声。语音截止检测可用以减少在单词末尾处的VAD拖尾周期的长度。如上所述,可能期望提供具有拖尾逻辑的话音活动检测器。在此情况下,可能期望在一布置中将此检测器与语音截止检测器组合以有效地响应于截止检测而终止拖尾周期(例如,通过将拖尾逻辑复位或以另外方式控制经组合检测结果)。此布置可经配置以支持连续检测结果,直到可检测到对应截止为止。在特定实例中,经组合VAD包含具有拖尾逻辑(例如,具有标称200毫秒周期)的增益和/或相位VAD和经布置以每当检测到截止的末尾时便致使经组合检测器停止指示语音的截止VAD。以此方式,可获得自适应拖尾。图13A展示根据一般配置的方法M200的流程图,其可用以实施自适应拖尾。方法M200包含任务TM100,其确定在音频信号的第一多个连续片段中的每一者中存在话音活动;以及任务TM200,其确定在所述音频信号的紧跟所述信号中的第一多个连续片段之后的第二多个连续片段中的每一者中不存在话音活动。任务TM100和TM200可例如由如本文描述的单通道或多通道话音活动检测器执行。方法M200还包含方法MlOO的实例,其检测在第二多个片段当中的一者中的话音活动状态的转变。基于任务TM100、TM200和MlOO的结果,任务TM300产生话音活动检测信号。图13B展示任务TM300的实施方案TM302的框图,其包含子任务TM310和TM320。针对第一多个片段中的每一者,且针对第二多个片段中的在其中检测到转变的片段之前出现的每一者,任务TM310产生VAD信号的对应值以指示活动(例如,基于任务TM100的结果)。针对第二多个片段中的在其中检测到转变的片段之后出现的每一者,任务TM320产生 VAD信号的对应值以指示缺乏活动(例如,基于任务TM200的结果)。任务TM302可经配置以使得检测到的转变是截止的开始或者截止的末尾。图14A说明方法M200的实施方案的操作的实例,其中用于转变片段(指示为X)的VAD信号的值可通过设计而选择为O或I。在一个实例中,用于其中检测到截止的末尾的片段的VAD信号值是指示缺乏活动的第一个值。在另一实例中,用于紧跟其中检测到截止的末尾的片段之后的片段的VAD信号值是指示缺乏活动的第一个值。图14B展示根据一般配置的设备A200的框图,其可用以实施具有自适应拖尾的经组合VAD级。设备A200包含第一话音活动检测器VADlO (例如,如本文描述的单通道检测器或多通道检测器),其可经配置以执行如本文描述的任务TM100和TM200的实施方案。设备A200还包含第二话音活动检测器VAD20,其可经配置以执行如本文描述的语音截止检测。设备A200还包含信号产生器SG10,其可经配置以执行如本文描述的任务TM300的实施方案。图14C展示设备A200的实施方案A205的框图,其中将第二话音活动检测器VAD20实施为设备AlOO的实例(例如,设备A100、A110或A120)。图15A展示设备A205的实施方案A210的框图,其包含第一检测器VADlO的实施方案VAD12,所述实施方案VAD12经配置以接收多通道音频信号(在此实例中,在频域中)且产生基于通道间增益差的对应VAD信号VlO和基于通道间相位差的对应VAD信号V20。在一个特定实例中,增益差VAD信号VlO是基于在从O到SkHz的频率范围上的差,且相位差VAD信号V20是基于从500到2500Hz的频率范围中的差。设备A210还包含如本文描述的设备AlOO的实施方案A110,其经配置以接收多通道信号的一个通道(例如,主要通道)且产生对应的起始指示TIlOa和对应的截止指示TIlOb0在一个特定实例中,指示TIIOa和TIIOb是基于在5IOHz到8kHz的频率范围中的差。(应明确注意,一般来说,经布置以调适多通道检测器的拖尾周期的语音起始和/或截止检测器可在不同于由所述多通道检测器接收的通道的通道上操作。)在特定实例中,起始指示TIlOa和截止指示TIlOb是基于从500到8000Hz的频率范围中的能量差。设备A210还包含信号产生器SGlO的实施方案SG12,其经配置以接收VAD信号VlO和V20以及转变指示TIlOa和TIlOb且产生对应的经组合VAD信号V30。图15B展示信号产生器SG12的实施方案SG14的框图。此实施方案包含“或”逻辑0R10,其用于组合增益差VAD信号VlO与相位差VAD信号V20以获得经组合多通道VAD信号;拖尾逻辑H010,其经配置以基于截止指示TIlOb对经组合多通道信号强加自适应拖尾周期,以产生经延伸VAD信号;以及“或”逻辑0R20,其用于组合经延伸VAD信号与起始指示TIlOa以产生经组合VAD信号V30。在一个实例中,拖尾逻辑HOlO经配置以在截止指示TIlOb指示截止的末尾时终止拖尾周期。最大拖尾值的特定实例包含用于基于相位的VAD的零个、一个、十个和二十个片段以及用于基于增益的VAD的八个、十个、十二个和二十个片段。应注意,也可实施信号产生器SGlO以将拖尾应用于起始指示TIlOa和/或截止指示 TIlOb0图16A展示信号产生器SG12的另一实施方案SG16的框图,其中改为通过使用“与”逻辑ANlO组合增益差VAD信号VlO与相位差VAD信号V20来产生经组合多通道VAD信号。信号产生器SG14或SG16的另外实施方案还可包含经配置以延伸起始指示TIlOa的 拖尾逻辑、用以针对其中起始指示TIlOa和截止指示TIlOb均为有效的片段超驰话音活动的指示的逻辑,和/或用于在“与”逻辑AN10、“或”逻辑ORlO和/或“或”逻辑0R20处的一个或一个以上其它VAD信号的输入。另外或在自适应拖尾控制的替代方案中,起始和/或截止检测可用以改变另一VAD信号(例如增益差VAD信号VlO和/或相位差VAD信号V20)的增益。举例来说,可响应于起始和/或截止指示而将VAD统计(在阈值处理之前)乘以大于一的因数。在一个此实例中,如果针对片段指示起始检测或截止检测,那么将基于相位的VAD统计(例如,相干性测量)乘以大于I的因数ph_mult,且将基于增益的VAD统计(例如,通道电平之间的差)乘以大于I的因数pd_mult。ph_mult的值的实例包含2、3、3. 5、3. 8、4和4. 5。pd_mult的值的实例包含I. 2、I. 5、I. 7和2. O。或者,可响应于在片段中缺乏起始和/或截止检测而使一个或一个以上此统计衰减(例如,乘以小于一的因数)。一般来说,可使用响应于起始和/或截止检测而将统计偏置的任何方法(例如,加上响应于检测的正偏置值或响应于缺乏检测的负偏置值,根据起始和/或截止检测而升高或降低用于测试统计的阈值,和/或以另外方式修改测试统计与对应阈值之间的关系)。可能期望对已经正规化(例如,如参考以下表达式(NI)到(N4)所描述)的VAD统计执行此乘法且/或在选择此偏置时调整用于VAD统计的阈值。还注意到,可使用方法MlOO的不同实例来产生起始和/或截止指示以用于此目的,此实例不同于用以产生起始和/或截止指示以用于组合为经组合VAD信号V30的实例。举例来说,方法MlOO的增益控制实例可在任务T600中使用与方法MlOO的VAD实例不同的阈值(例如,用于起始的O. 01或O. 02 ;用于截止的 O. 05,0. 07,0. 09 或 I. O)。可与本文描述的那些相组合(例如,通过信号产生器SG10)的另一 VAD策略是单通道VAD信号,其可基于帧能量与平均能量的比率和/或基于低频带和高频带能量。可能期望将此单通道VAD检测器朝向高错误警报率偏置。可与本文描述的那些相组合的另一 VAD策略是多通道VAD信号,其基于低频率范围(例如,低于900Hz或低于500Hz)中的通道间增益差。此检测器可预期准确地以低错误警报率检测有话音的片段。图47B列出可用以产生经组合VAD信号的VAD策略的组合的若干实例。在此图中,P表示基于相位的VAD,G表示基于增益的VAD,ON表示起始VAD,OFF表示截止VAD,LF表示低频率的基于增益的VAD,PB表示经提升的基于相位的VAD,GB表示经提升的基于增益的VAD,且SC表示单通道VAD。图16B展示根据一般配置的设备MF200的框图,其可用以实施具有自适应拖尾的经组合VAD级。设备MF200包含用于确定在音频信号的第一多个连续片段中的每一者中存在话音活动的装置FM10,其可经配置以执行如本文描述的任务TM100的实施方案。设备MF200包含用于确定音频信号的紧跟所述信号中的第一多个连续片段之后的第二多个连续片段中的每一者中不存在话音活动的装置FM20,其可经配置以执行如本文描述的任务TM200的实施方案。装置FMlO和FM20可例如实施为如本文描述的单通道或多通道话音活动检测器。设备A200还包含用于检测第二多个片段当中的一者中的话音活动状态的转变(例如,用于执行如本文描述的语音截止检测)的装置FM100的实例。设备A200还包含用于产生话音活动检测信号(例如,如本文中参考任务TM3 00和/或信号产生器SGlO所描述)的装置FM30。组合来自不同VAD技术的结果也可用以减小VAD系统对麦克风放置的敏感性。举例来说,当电话保持在下方(例如,远离用户的嘴)时,基于相位和基于增益的话音活动检测器可能均失效。在此情况下,可能期望经组合检测器更多地依赖于起始和/或截止检测。集成VAD系统也可与音高跟踪相组合。虽然基于增益和基于相位的话音活动检测器可能在SNR非常低时出问题,但噪声在高频率下通常不是问题,使得起始/截止检测器可经配置以包含拖尾间隔(和/或时间平滑操作),其可在SNR较低时增大(例如,以补偿其它检测器的停用)。基于语音起始/截止统计的检测器也可用以通过填充衰减与增加基于增益/相位的VAD统计之间的间隙来允许较精确的语音/噪声分段,因此使得能够减小用于那些检测器的拖尾周期。例如拖尾逻辑等惯性方法自身对于保存富含辅音的单词(例如“the”)的发音开始来说不是有效的。语音起始统计可用以在一个或一个以上其它检测器错过的单词开始处检测语音起始。此布置可包含时间平滑和/或拖尾周期以延伸起始转变指示直到可触发另一检测器为止。对于其中在多通道上下文中使用起始和/或截止检测的大多数情况,对对应于最靠近用户的嘴定位或以另外方式经定位以最直接接收用户话音的麦克风(也称为“靠近说话”或“主要”麦克风)的通道执行此检测可能是足够的。然而,在一些情况下,可能期望对一个以上麦克风执行起始和/或截止检测,例如对双通道实施方案中的两个麦克风执行起始和/或截止检测(例如,针对其中电话经旋转以背向用户的嘴的使用情形)。图17到19展示应用于图12的记录的不同话音检测策略的实例。这些图的顶部绘图指示时域中的输入信号以及通过组合个别VAD结果中的两者或两者以上而产生的二进制检测结果。这些图的其它绘图中的每一者指示VAD统计的时域波形、用于对应检测器的阈值(由每一绘图中的水平线指示)以及所得的二进制检测决策。从上到下,图17中的绘图展示㈧使用来自其它绘图的所有检测结果的组合的全局VAD策略;(B)基于麦克风间相位差与500到2500Hz频带上的频率的相关的VAD策略(不具有拖尾);(C)基于由O到8000Hz频带上的麦克风间增益差指示的接近度决策的VAD策略(不具有拖尾);⑶基于由在500到8000Hz频带上的谱图交叉频率连续性指示的语音起始的检测(例如,方法MlOO的实施方案)的VAD策略;以及(E)基于由500到8000 Hz频带上的谱图交叉频率连续性指示的语音截止的检测(例如,方法MlOO的另一实施方案)的VAD策略。图17的底部处的箭头指示由基于相位的VAD指示的若干错误肯定的在时间上的位置。图18与图17的不同之处在于,在图18的顶部绘图中所示的二进制检测结果是通过(在此情况下,使用“或”逻辑)仅组合分别如绘图B和C中所示的基于相位和基于增益的检测结果而获得。在图18的底部处的箭头指示通过基于相位的VAD和基于增益的VAD中的任一者未检测到的语音截止的在时间上的位置。图19与图17的不同之处在于,在图19的顶部绘图中所示的二进制检测结果是通过(在此情况下,使用“或”逻辑)仅组合分别如绘图B中所示的基于增益的检测结果和如绘图D和E中所示的起始/截止检测结果而获得,且基于相位的VAD和基于增益的VAD两者经配置以包含拖尾。在此情况下,由于图16中指示的多个错误肯定而丢弃来自基于相位的VAD的结果。通过组合语音起始/截止VAD结果与基于增益的VAD结果,基于增益的VAD的拖尾减少,且无需基于相位的VAD。虽然此记录还包含远场干扰语音,但近场语音起始/截 止检测器适当地失效而不检测此远场干扰语音,因为远场语音往往缺乏突出的高频信息。高频信息对于语音可理解性可为重要的。因为空气类似于低通滤波器而作用于行进经过空气的声音,所以由麦克风拾取的高频信息的量将通常随着声源与麦克风之间的距离增加而减小。类似地,低能量语音往往随着所需说话者与麦克风之间的距离增加而变为埋入于背景噪声中。然而,如本文中参考方法Ml 00描述的在高频范围上相干的若干能量激活的指示符可用以跟踪近场语音,即使在可能使低频语音特性模糊的噪声的存在下也是如此,因为此高频特征仍可以在经记录的谱中可检测到。图20展示埋入于街道噪声中的近场语音的多通道记录的谱图,且图21到23展示应用于图20的记录的不同话音检测策略的实例。这些图的顶部绘图指示时域中的输入信号以及通过组合个别VAD结果中的两者或两者以上而产生的二进制检测结果。这些图的其它绘图中的每一者指示VAD统计的时域波形、用于对应检测器的阈值(由每一绘图中的水平线指示)以及所得的二进制检测决策。图21展示可如何使用语音起始和/或截止检测来补充基于增益和基于相位的VAD的实例。左边的箭头群组指示仅由语音截止VAD检测到的语音截止,且右边的箭头群组指示仅由语音起始VAD检测到的语音起始(在低SNR中发音“to”和“pure”的起始)。图22说明仅无拖尾的基于相位和基于增益的VAD(绘图B和C)的组合(绘图A)频繁地错失可使用起始/截止统计(绘图D和E)检测到的低能量语音特征。图23的绘图A说明组合来自所有四个个别检测器的结果(图23的绘图B到E,所有检测器上均具有拖尾)支持准确的截止检测,从而允许对基于增益和基于相位的VAD使用较小的拖尾,同时还正确地检测单词起始。可能期望使用话音活动检测(VAD)操作的结果以用于噪声减少和/或抑制。在一个此实例中,将VAD信号作为增益控制应用于通道中的一者或一者以上(例如,以衰减噪声频率分量和/或片段)。在另一此实例中,应用VAD信号以计算(例如,更新)针对基于经更新噪声估计的多通道信号的至少一个通道上的噪声减少操作的噪声估计(例如,使用已通过VAD操作分类为噪声的频率分量或片段)。此噪声减少操作的实例包含谱减法操作和维纳(Wiener)滤波操作。可与本文揭示的VAD策略一起使用的处理后操作(例如,残余噪声抑制、噪声估计组合)的另外实例在第61/406,382号美国专利申请案(辛(Shin)等人,2010年10月25日申请)中描述。典型环境中的声学噪声可包含混串音噪声、机场噪声、街道噪声、竞争性讲话者的话音和/或来自干扰源(例如,电视机或广播)的声音。因此,此噪声通常是非静止的且可具有接近于用户自身话音的谱的平均谱。根据单个麦克风信号计算的噪声功率参考信号通常仅是近似的静止噪声估计。而且,此计算通常带来噪声功率估计延迟,使得仅可在显著延迟之后执行子带增益的对应调整。可能期望获得环境噪声的可靠且同时期的估计。噪声估计的实例包含基于单通道VAD的单通道长期估计以及由多通道BSS滤波器产生的噪声参考。通过使用来自接近度检测操作的(双通道)信息以分类主要麦克风通道的分量和/或片段,可计算单通道噪声参考。此噪声估计可能比其它方法快得多地可用,因为其不需要长期估计。此单通道噪声参考也可俘获非静止噪声,这不同于基于长期估计的方法,基于长期估计的方法通常不能支持非静止噪声的移除。此方法可提供快速、准确且非静止的噪声参考。噪声参考可经平滑(例如,可能在每一频率分量上使用一级平滑器)。接近度检测的使用可使得装置能够使用此方法来抑制附近的瞬态,例如传递到方向性掩蔽功 能的前瓣中的汽车噪声声音。如本文描述的VAD指示可用以支持噪声参考信号的计算。举例来说,当VAD指示指示了一个帧是噪声时,可使用所述帧来更新噪声参考信号(例如,主要麦克风通道的噪声分量的谱分布)。可在频域中例如通过对频率分量值进行时间平滑(例如,通过用当前噪声估计的对应分量的值更新每一分量的先前值)来执行此更新。在一个实例中,维纳滤波器使用噪声参考信号来对主要麦克风通道执行噪声减少操作。在另一实例中,谱减法操作使用噪声参考信号来对主要麦克风通道执行噪声减少操作(例如,通过从主要麦克风通道减去噪声谱)。当VAD指示指示了一个帧不是噪声时,可使用所述帧来更新主要麦克风通道的信号分量的谱分布,所述分布也可由维纳滤波器使用以执行噪声减少操作。所得操作可被视为利用双通道VAD操作的准单通道噪声减少算法。如上文描述的自适应拖尾可用于声码器上下文中以提供语音片段与噪声之间的更准确区分,同时在语音间隔期间维持连续检测结果。然而,在另一上下文中,可能期望允许VAD结果的较快速转变(例如,以消除拖尾),即使此动作致使VAD结果在同一语音间隔内改变状态也是如此。举例来说,在噪声减少上下文中,可能期望基于话音活动检测器识别为噪声的片段来计算噪声估计,且使用所计算得的噪声估计来对语音信号执行噪声减少操作(例如,维纳滤波或其它谱减法操作)。在此情况下,可能期望配置检测器以获得较准确的分段(例如,基于逐个帧),即使此调谐致使VAD信号在用户正讲话时改变状态也是如此。方法MlOO的实施方案可单独地或与一个或一个以上其它VAD技术组合地经配置以针对信号的每一片段产生二进制检测结果(例如,针对话音的高或“1”,否则为低或“O”)。或者,方法MlOO的实施方案可单独地或与一个或一个以上其它VAD技术组合地经配置以针对每一片段产生一个以上检测结果。举例来说,可使用语音起始和/或截止的检测来获得时间-频率VAD技术,其基于跨越片段的不同频率子带的起始和/或截止连续性来个别地表征所述频带。在此情况下,可使用上文提到的子带划分方案中的任一者(例如,均匀、巴克尺度、梅尔尺度),且可针对每一子带执行任务T500和T600的实例。对于不均匀的子带划分方案,可能期望任务T500的每一子带实例正规化(例如,平均化)针对对应子带的激活的数目,使得(举例来说)任务T600的每一子带实例可使用相同阈值(例如,用于起始的O. 7、用于截止的-O. 15)。举例来说,此子带VAD技术可指示给定片段在500到IOOOHz频带中载运语音,在1000到1200Hz频带中载运噪声,且在1200到2000 Hz频带中载运语音。可应用这些结果以增加译码效率和/或噪声减少性能。还可能期望此子带VAD技术在各种子带中的每一者中使用独立的拖尾逻辑(以及可能不同的拖尾间隔)。在子带VAD技术中,如本文描述的拖尾周期的调适可在各种子带中的每一者中独立地执行。经组合VAD技术的子带实施方案可包含组合每一个别检测器的子带结果,或者可包含组合来自少于全部检测器(可能仅一个)的子带结果与来自其它检测器的片段级结果。在基于相位的VAD的一个实例中,在每一频率分量处应用方向性掩蔽功能以确定所述频率处的相位差是否对应于在所需范围内的方向,且根据在受测频率范围上的此掩蔽的结果来计算相干性测量且将其与阈值进行比较以获得二进制VAD指示。此方法可包含将每一频率处的相位差转换为不依赖于频率的方向指示符,例如到达方向或到达时间差(例 如,使得可在所有频率处使用单个方向性掩蔽功能)。或者,此方法可包含将不同的相应掩蔽功能应用于在每一频率处观察到的相位差。在基于相位的VAD的另一实例中,基于在受测频率范围中的个别频率分量的到达方向的分布形状(例如,个别DOA经分组在一起的紧密程度)来计算相干性测量。在任一情况下,可能期望仅基于作为当前音高估计的倍数的频率来在相位VAD中计算相干性测量。举例来说,对于待检查的每一频率分量,基于相位的检测器可经配置以将相位估计为对应FFT系数的虚数项与FFT系数的实数项的比率的反正切(也称为反切)。可能期望配置基于相位的话音活动检测器以确定在宽带频率范围上每一对通道之间的方向相干性。此宽带范围可例如从0、50、100或200Hz的低频界限延伸到3、3. 5或4kHz (或甚至更高,例如高达7或8 kHz或更高)的高频界限。然而,检测器可能不必计算信号的整个带宽上的相位差。举例来说,对于此宽带范围中的许多频带,相位估计可为不实际的或不必要的。所接收波形在极低频率处的相位关系的实际评价通常需要变换器之间的对应较大的间距。因此,麦克风之间的最大可用间距可确立低频界限。另一方面,麦克风之间的距离不应超过最小波长的一半以便避免空间混叠。举例来说,八千赫的取样速率给出从零到四千赫的带宽。4 kHz信号的波长为约8. 5厘米,因此在此情况下,邻近的麦克风之间的间距不应超过约四厘米。可对麦克风通道进行低通滤波以便移除可能带来空间混叠的频率。可能期望定目标于特定频率分量或特定频率范围,语音信号(或其它所需信号)在所述特定频率范围上可预期为方向上相干的。可预期例如方向性噪声(例如,来自例如汽车等源)和/或漫射噪声等背景噪声在同一范围上将不是方向上相干的。语音在从四千赫到八千赫的范围中往往具有低功率,因此可能期望在至少此范围上放弃相位估计。举例来说,可能期望在从约七百赫兹到约两千赫的范围上执行相位估计和确定方向相干性。因此,可能期望配置检测器以针对少于全部的频率分量(例如,针对FFT的少于全部的频率样本)计算相位估计。在一个实例中,检测器针对700Hz到2000Hz的频率范围计算相位估计。对于四千赫带宽信号的128点FFT,700到2000Hz的范围大致对应于从第十个样本到第三十二个样本的23个频率样本。还可能期望配置检测器以仅考虑对应于信号的当前音高估计的倍数的频率分量的相位差。基于相位的检测器可经配置以基于来自所计算得的相位差的信息来评估通道对的方向相干性。将多通道信号的“方向相干性”界定为信号的各种频率分量从同一方向到
达的程度。对于理想的方向上相干的通道对,f的值针对所有频率均等于常数k,其中k的
值与到达方向Θ和到达时间延迟τ相关。可例如通过针对每一频率分量根据其与特定方向一致的程度(例如,由方向性掩蔽功能指示)将所估计的到达方向分级(也可由相位差与频率的比率或由到达时间延迟来指示),且随后组合各种频率分量的分级结果以获得信号的相干性测量,来量化多通道信号的方向相干性。可能期望产生相干性测量作为经时间平滑的值(例如,使用时间平滑功能计算相干性测量)。可将相干性测量的对比表达为相干性测量的当前值与相干性测量的随着时间的平均值(例如,在最近十个、二十个、五十个或一百个帧上的平均、模式或中值)之间的关系的值(例如,差或比率)。可使用时间平滑功能来计算相干性测量的平均值。基于相位 的VAD技术,包含方向相干性的测量的计算和应用,还在例如第2010/0323652 Al号和第2011/038489 Al号美国公开专利申请案(维瑟(Visser)等人)中描述。基于增益的VAD技术可经配置以基于每一通道的增益测量的对应值之间的差来指示片段中的话音活动的存在或不存在。此增益测量(可在时域中或在频域中计算)的实例包含总量值、平均量值、RMS振幅、中值量值、峰值量值、总能量以及平均能量。可能期望配置检测器以对增益测量和/或所计算得的差执行时间平滑操作。如上所述,基于增益的VAD技术可经配置以产生片段级结果(例如,在所需频率范围上)或者针对每一片段的多个子带中的每一者的结果。通道之间的增益差可用于接近度检测,其可支持较激进的近场/远场区分,例如较好的前方噪声抑制(例如,对在用户前方的干扰性说话者的抑制)。取决于麦克风之间的距离,经平衡的麦克风通道之间的增益差将通常仅在源处于五十厘米或一米以内的情况下出现。基于增益的VAD技术可经配置以检测当通道的增益之间的差大于阈值时片段是来自所需源(例如,以指示话音活动的检测)。所述阈值可试探性地来确定,且可能期望取决于例如信噪比(SNR)、噪声底限等一个或一个以上因数而使用不同的阈值(例如,当SNR较低时使用较高阈值)。基于增益的VAD技术还在第2010/0323652 Al号美国公开专利申请案(维瑟(Visser)等人)中描述。还应注意,经组合检测器中的个别检测器中的一者或一者以上可经配置以在与所述个别检测器中的另一者不同的时间尺度上产生结果。举例来说,当η小于m时,基于增益的、基于相位的或起始-截止检测器可经配置以针对具有长度η的每一片段产生VAD指示,以与来自经配置以针对具有长度m的每一片段产生VAD指示的基于增益的、基于相位的或起始-截止检测器的结果相组合。区别语音有效帧与语音无效帧的话音活动检测(VAD)是语音增强和语音译码的重要部分。如上所述,单通道VAD的实例包含基于SNR的VAD、基于似然比的VAD以及基于语音起始/截止的VAD,且双通道VAD技术的实例包含基于相位差的VAD和基于增益差(也称为基于接近度)的VAD。虽然双通道VAD大体上比单通道技术更准确,但其通常高度依赖于麦克风增益失配和/或用户正固持电话的角度。图24展示针对6 dB SNR的基于接近度的VAD测试统计对基于相位差的VAD测试统计的散布绘图,其中固持角度为与水平方向成-30、-50、-70和-90度。在图24和图27到29中,灰点对应于语音有效帧,而黑点对应于语音无效帧。对于基于相位差的VAD,在此实例中使用的测试统计是所估计DoA在观看方向范围中的频率区间的平均数目(也称为相位相干性测量),且对于基于量值差的VAD,在此实例中使用的测试统计是主要麦克风与次要麦克风之间的对数RMS电平差。图24证明为何固定阈值可能不适合于不同的固持角度。便携式音频感测装置(例如,头戴式耳机或手持机)的用户在相对于用户的嘴的并非最佳的定向(也称为固持位置或固持角度)上使用装置且/或在装置使用期间改变固持角度是常见的事。此固持角度变化可能不利地影响VAD级的性能。解决可变的固持角度的一种方法是检测固持角度(例如,使用到达方向(DoA)估计,其可基于相位差或到达时间差(TDOA),和/或麦克风之间的增益差)。可替代地或另外使用的解决可变的固持角度的另一方法是将VAD测试统计正规化。此方法可经实施为具有 使VAD阈值成为与固持角度相关的统计的函数的作用,而无需明确地估计固持角度。对于在线处理,可利用基于最小统计的方法。提出基于最大和最小统计跟踪的VAD测试统计的正规化以最大化区别能力,即使对于其中固持角度变化且麦克风的增益响应未良好匹配的情形也是如此。先前用于噪声功率谱估计算法的最小统计算法在此处适用于最小和最大经平滑测试统计跟踪。对于最大测试统计跟踪,同一算法用于(20测试统计)的输入。举例来说,最大测试统计跟踪可使用同一算法从最小统计跟踪方法导出,使得可能期望从参考点(例如,20 dB)减去最大测试统计。随后,可使测试统计扭曲以使最小经平滑统计值为零且最大经平滑统计值为一,如下
L ^MAX xjIiiin J其中St表示输入测试统计,S;表示经正规化测试统计,Smin表示所跟踪的最小经平滑测试统计,Smax表示所跟踪的最大经平滑测试统计,且ξ表示原始(固定)阈值。应注意,经正规化测试统计St'可归因于平滑而具有在
范围之外的值。明确预期且特此揭示,表达式(NI)中所示的决策规则可使用未经正规化测试统计St与自适应阈值来等效地实施,如下
S, ^ [Cl=(SMAX-Smin) c+ Smm], (Ν2)其中(SMX_Smin) ξ +Smin表示自适应阈值ξ ’,其等效于使用固定阈值ξ与经正规化测试统计St'。虽然基于相位差的VAD通常不受麦克风的增益响应的差影响,但基于增益差的VAD通常对此失配高度敏感。此方案的潜在额外益处在于,经正规化测试统计St'独立于麦克风增益校准。举例来说,如果次要麦克风的增益响应比正常高ldB,那么当前测试统计St以及最大统计Smax和最小统计Smin将低I dB。因此,经正规化测试统计St'将相同。图25展示针对6dB SNR的基于接近度的VAD测试统计的所跟踪最小(黑,下部轨迹)和最大(灰,上部轨迹)测试统计,其中固持角度为与水平方向成-30、-50、-70和-90度。图26展示针对6dB SNR的基于相位的VAD测试统计的所跟踪最小(黑,下部轨迹)和最大(灰,上部轨迹)测试统计,其中固持角度为与水平方向成-30、-50、-70和-90度。图27展示根据等式(NI)正规化的这些测试统计的散布绘图。每一绘图中的两条灰线和三条黑线指示针对两个不同VAD阈值的可能建议(具有一种色彩的所有线的右上侧被视为语音有效帧),所述阈值被设定为针对全部四个固持角度为相同的。等式(NI)中的正规化的一个问题在于,虽然整个分布经良好正规化,但仅噪声间隔(黑点)的经正规化得分方差针对较窄未经正规化测试统计范围的情况相对增加。举例来说,图27展示黑点群集随着固持角度从-30度改变到-90度而分散。可使用如下的修改来控制此分散
权利要求
1.一种处理音频信号的方法,所述方法包括 针对所述音频信号的第一多个连续片段中的每一者,确定所述片段中存在话音活动; 针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,确定所述片段中不存在话音活动; 检测在所述第二多个连续片段当中的不是将在所述第二多者当中出现的第一片段的一个片段期间出现所述音频信号的话音活动状态的转变;以及 产生话音活动检测信号,其针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值, 其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
2.根据权利要求I所述的方法,其中所述方法包括计算在所述第二多个片段当中的所述一个片段期间的第一通道的多个不同频率分量中的每一者的能量的时间导数,且其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数。
3.根据权利要求2所述的方法,其中所述检测出现所述转变包含针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示,且 其中所述检测出现所述转变是基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系。
4.根据权利要求3所述的方法,其中所述方法包括针对在所述音频信号中的所述第一多个连续片段之前出现的片段 计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数; 针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示;以及 基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系,确定在所述片段期间不出现所述音频信号的话音活动状态的转变。
5.根据权利要求3所述的方法,其中所述方法包括针对在所述音频信号中的所述第一多个连续片段之前出现的片段 针对在所述片段期间的所述第一通道的多个不同频率分量中的每一者,计算能量相对于时间的二阶导数; 针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量相对于时间的二阶导数,产生所述频率分量是否为脉冲性的对应指示;以及基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系,确定在所述片段期间不出现所述音频信号的话音活动状态的转变。
6.根据权利要求I所述的方法,其中针对所述音频信号的所述第一多个连续片段中的每一者,所述确定所述片段中存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差,且 其中针对所述音频信号的所述第二多个连续片段中的每一者,所述确定所述片段中不存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差。
7.根据权利要求6所述的方法,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
8.根据权利要求6所述的方法,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
9.根据权利要求6所述的方法,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动包括针对在所述片段期间的所述音频信号的第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者,且 其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动包括针对在所述片段期间的所述音频信号的所述第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
10.根据权利要求9所述的方法,其中所述方法包括计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数,且 其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数,且 其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
11.根据权利要求9所述的方法,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动是基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且 其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动是基于指示至少所述多个不同频率分量的所述到达方向之间的相干性程度的所述相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
12.一种用于处理音频信号的设备,所述设备包括 用于针对所述音频信号的第一多个连续片段中的每一者确定所述片段中存在话音活动的装置; 用于针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者确定所述片段中不存在话音活动的装置; 用于检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变的装置;以及 用于产生话音活动检测信号的装置,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值,且 其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
13.根据权利要求12所述的设备,其中所述设备包括用于计算在所述第二多个片段当中的所述一个片段期间的第一通道的多个不同频率分量中的每一者的能量的时间导数的装置,且 其中所述用于检测在所述第二多个片段当中的所述一个片段期间出现所述转变的装置经配置以基于所述所计算得的能量的时间导数来检测所述转变。
14.根据权利要求13所述的设备,其中所述用于检测出现所述转变的装置包含用于针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数产生所述频率分量是否为活动的对应指示的装置,且 其中所述用于检测出现所述转变的装置经配置以基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系来检测所述转变。
15.根据权利要求14所述的设备,其中所述设备包括 用于针对在所述音频信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数的装置; 用于针对在所述音频信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数来产生所述频率分量是否为活动的对应指示的装置;以及 用于基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系来确定在所述音频信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述音频信号的话音活动状态的转变的装置。
16.根据权利要求14所述的设备,其中所述设备包括 用于针对在所述音频信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量相对于时间的二阶导数的装置;用于针对在所述音频信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量相对于时间的二阶导数来产生所述频率分量是否为脉冲性的对应指示的装置;以及 用于基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系来确定在所述音频信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述音频信号的话音活动状态的转变的装置。
17.根据权利要求12所述的设备,其中针对所述音频信号的所述第一多个连续片段中的每一者,所述用于确定所述片段中存在话音活动的装置经配置以基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来执行所述确定,且 其中针对所述音频信号的所述第二多个连续片段中的每一者,所述用于确定所述片段中不存在话音活动的装置经配置以基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来执行所述确定。
18.根据权利要求17所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
19.根据权利要求17所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
20.根据权利要求17所述的设备,其中所述用于确定所述片段中存在话音活动的装置包括用于针对所述第一多者中的每一片段且针对所述第二多者中的每一片段并且针对在所述片段期间的所述音频信号的第一多个不同频率分量中的每一者计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差的装置,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
21.根据权利要求20所述的设备,其中所述设备包括用于计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数的装置,且 其中所述用于检测在所述第二多个片段当中的所述一个片段期间出现所述转变的装置经配置以基于所述所计算得的能量的时间导数来检测出现所述转变,且 其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
22.根据权利要求20所述的设备,其中所述用于针对所述第一多者中的每一片段确定所述片段中存在话音活动的装置经配置以基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值来确定存在所述话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且 其中所述用于针对所述第二多者中的每一片段确定所述片段中不存在话音活动的装置经配置以基于指示至少所述多个不同频率分量的所述到达方向之间的相干性程度的所述相干性测量的对应值来确定不存在话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
23.一种用于处理音频信号的设备,所述设备包括 第一话音活动检测器,其经配置以确定 针对所述音频信号的第一多个连续片段中的每一者,所述片段中存在话音活动,以及 针对在所述音频信号中的所述第一多个连续片段之后立即出现的所述音频信号的第二多个连续片段中的每一者,所述片段中不存在话音活动; 第二话音活动检测器,其经配置以检测在所述第二多个连续片段当中的一个片段期间出现所述音频信号的话音活动状态的转变;以及 信号产生器,其经配置以产生话音活动检测信号,所述话音活动检测信号针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值, 其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述音频信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
24.根据权利要求23所述的设备,其中所述设备包括计算器,所述计算器经配置以计算在所述第二多个片段当中的所述一个片段期间的第一通道的多个不同频率分量中的每一者的能量的时间导数,且 其中所述第二话音活动检测器经配置以基于所述所计算得的能量的时间导数来检测所述转变。
25.根据权利要求24所述的设备,其中所述第二话音活动检测器包含比较器,所述比较器经配置以针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数来产生所述频率分量是否为活动的对应指示,且 其中所述第二话音活动检测器经配置以基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系来检测所述转变。
26.根据权利要求25所述的设备,其中所述设备包括 计算器,其经配置以针对在多通道信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;以及 比较器,其经配置以针对在所述多通道信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数来产生所述频率分量是否为活动的对应指示, 其中所述第二话音活动检测器经配置以基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系来确定在所述多通道信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述多通道信号的话音活动状态的转变。
27.根据权利要求25所述的设备,其中所述设备包括 计算器,其经配置以针对在所述多通道信号中的所述第一多个连续片段之前出现的片段计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量相对于时间的二阶导数;以及 比较器,其经配置以针对在所述多通道信号中的所述第一多个连续片段之前出现的所述片段的所述多个不同频率分量中的每一者且基于所述对应所计算得的能量相对于时间的二阶导数来产生所述频率分量是否为脉冲性的对应指示, 其中所述第二话音活动检测器经配置以基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系来确定在所述多通道信号中的所述第一多个连续片段之前出现的所述片段期间不出现所述多通道信号的话音活动状态的转变。
28.根据权利要求23所述的设备,其中所述第一话音活动检测器经配置以针对所述音频信号的所述第一多个连续片段中的每一者基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来确定所述片段中存在话音活动,且 其中所述第一话音活动检测器经配置以针对所述音频信号的所述第二多个连续片段中的每一者基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差来确定所述片段中不存在话音活动。
29.根据权利要求28所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
30.根据权利要求28所述的设备,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
31.根据权利要求28所述的设备,其中所述第一话音活动检测器包含计算器,所述计算器经配置以针对所述第一多者中的每一片段且针对所述第二多者中的每一片段并且针对在所述片段期间的所述多通道信号的第一多个不同频率分量中的每一者计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
32.根据权利要求31所述的设备,其中所述设备包括计算器,所述计算器经配置以计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数,且 其中所述第二话音活动检测器经配置以基于所述所计算得的能量的时间导数来检测出现所述转变,且 其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
33.根据权利要求31所述的设备,其中所述第一话音活动检测器经配置以针对所述第一多者中的每一片段基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值来确定所述片段中存在所述话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且其中所述第一话音活动检测器经配置以针对所述第二多者中的每一片段基于指示至少所述多个不同频率分量的所述到达方向之间的相干性程度的所述相干性测量的对应值来确定所述片段中不存在话音活动,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
34.一种具有存储机器可执行指令的有形结构的计算机可读媒体,所述机器可执行指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器 针对多通道信号的第一多个连续片段中的每一者且基于在所述片段期间的所述多通道信号的第一通道与在所述片段期间的所述多通道信号的第二通道之间的差,确定所述片段中存在话音活动; 针对在所述多通道信号中的所述第一多个连续片段之后立即出现的所述多通道信号的第二多个连续片段中的每一者且基于在所述片段期间的所述多通道信号的第一通道与在所述片段期间的所述多通道信号的第二通道之间的差,确定所述片段中不存在话音活动; 检测在所述第二多个连续片段当中的不是将在所述第二多者当中出现的第一片段的一个片段期间出现所述多通道信号的话音活动状态的转变;以及 产生话音活动检测信号,其针对所述第一多者中的每一片段且针对所述第二多者中的每一片段具有指示活动和缺乏活动当中的一者的对应值, 其中针对所述第一多个连续片段中的每一者,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之前出现的每一者,且基于所述针对所述第一多者中的至少一个片段确定所述片段中存在话音活动,所述话音活动检测信号的所述对应值指示活动,且 其中针对所述第二多个连续片段中的在其中出现所述所检测到的转变的所述片段之后出现的每一者,且响应于所述检测到出现所述多通道信号的语音活动状态的转变,所述话音活动检测信号的所述对应值指示缺乏活动。
35.根据权利要求34所述的媒体,其中所述指令在由所述一个或一个以上处理器执行时致使所述一个或一个以上处理器计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数,且 其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数。
36.根据权利要求35所述的媒体,其中所述检测出现所述转变包含针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示,且 其中所述检测出现所述转变是基于指示所述对应频率分量为活动的所述指示的数目与第一阈值之间的关系。
37.根据权利要求36所述的媒体,其中所述指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器针对在所述多通道信号中的所述第一多个连续片段之前出现的片段 计算在所述片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数; 针对所述多个不同频率分量中的每一者且基于所述对应所计算得的能量的时间导数,产生所述频率分量是否为活动的对应指示;以及 基于(A)指示所述对应频率分量为活动的所述指示的数目与(B)高于所述第一阈值的第二阈值之间的关系,确定在所述片段期间不出现所述多通道信号的话音活动状态的转变。
38.根据权利要求36所述的媒体,其中所述指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器针对在所述多通道信号中的所述第一多个连续片段之前出现的片段 针对在所述片段期间的所述第一通道的多个不同频率分量中的每一者,计算能量相对于时间的二阶导数; 针对所述多个不同频率分量中的每一者,且基于所述对应所计算得的能量相对于时间的二阶导数,产生所述频率分量是否为脉冲性的对应指示;以及 基于指示所述对应频率分量为脉冲性的所述指示的数目与阈值之间的关系,确定在所述片段期间不出现所述多通道信号的话音活动状态的转变。
39.根据权利要求34所述的媒体,其中针对所述音频信号的所述第一多个连续片段中的每一者,所述确定所述片段中存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差,且 其中针对所述音频信号的所述第二多个连续片段中的每一者,所述确定所述片段中不存在话音活动是基于在所述片段期间的所述音频信号的第一通道与在所述片段期间的所述音频信号的第二通道之间的差。
40.根据权利要求39所述的媒体,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道的电平与所述第二通道的电平之间的差。
41.根据权利要求39所述的媒体,其中针对所述第一多者中的每一片段且针对所述第二多者中的每一片段,所述差为在所述片段期间的所述第一通道中的信号的实例与在所述片段期间的所述第二通道中的所述信号的实例之间的时间差。
42.根据权利要求39所述的媒体,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动包括针对在所述片段期间的所述多通道信号的第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者,且其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动包括针对在所述片段期间的所述多通道信号的所述第一多个不同频率分量中的每一者,计算所述第一通道中的所述频率分量的相位与所述第二通道中的所述频率分量的相位之间的差,其中在所述片段期间的所述第一通道与在所述片段期间的所述第二通道之间的所述差为所述所计算得的相位差中的一者。
43.根据权利要求42所述的媒体,其中所述指令在由一个或一个以上处理器执行时致使所述一个或一个以上处理器计算在所述第二多个片段当中的所述一个片段期间的所述第一通道的第二多个不同频率分量中的每一者的能量的时间导数,且其中所述检测在所述第二多个片段当中的所述一个片段期间出现所述转变是基于所述所计算得的能量的时间导数,且 其中包含所述第一多个频率分量的频带与包含所述第二多个频率分量的频带分离。
44.根据权利要求42所述的媒体,其中针对所述第一多者中的每一片段,所述确定所述片段中存在话音活动是基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息,且 其中针对所述第二多者中的每一片段,所述确定所述片段中不存在话音活动是基于指示至少所述多个不同频率分量的到达方向之间的相干性程度的相干性测量的对应值,其中所述值是基于来自所述对应多个所计算得的相位差的信息。
45.根据权利要求I所述的方法,其中所述方法包括 计算在所述第一和第二多个片段中的一者的片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;以及 产生所述第一和第二多者中的一者的所述片段的话音活动检测指示, 其中所述产生所述话音活动检测指示包含将所述片段的测试统计的值与阈值的值进行比较,且 其中所述产生所述话音活动检测指示包含基于所述所计算得的多个能量的时间导数来修改所述测试统计与所述阈值之间的关系,且 其中所述第一和第二多者中的一者的所述片段的所述话音活动检测信号的值是基于所述话音活动检测指示。
46.根据权利要求12所述的设备,其中所述设备包括 用于计算在所述第一和第二多个片段中的一者的片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数的装置;以及 用于产生所述第一和第二多者中的一者的所述片段的话音活动检测指示的装置,其中所述用于产生所述话音活动检测指示的装置包含用于将所述片段的测试统计的值与阈值进行比较的装置,且 其中所述用于产生所述话音活动检测指示的装置包含用于基于所述所计算得的多个能量的时间导数来修改所述测试统计与所述阈值之间的关系的装置,且 其中所述第一和第二多者中的一者的所述片段的所述话音活动检测信号的值是基于所述话音活动检测指示。
47.根据权利要求23所述的设备,其中所述设备包括 第三话音活动检测器,其经配置以计算在所述第一和第二多个片段中的一者的片段期间的所述第一通道的多个不同频率分量中的每一者的能量的时间导数;以及 第四话音活动检测器,其经配置以基于将所述片段的测试统计的值与阈值进行比较的结果来产生所述第一和第二多者中的一者的所述片段的话音活动检测指示, 其中所述第四话音活动检测器经配置以基于所述所计算得的多个能量的时间导数来修改所述测试统计与所述阈值之间的关系,且 其中所述第一和第二多者中的一者的所述片段的所述话音活动检测信号的值是基于所述话音活动检测指示。
48.根据权利要求47所述的设备,其中所述第四话音活动检测器为所述第一话音活动检测器,且 其中所述确定所述片段中存在或不存在话音活动包含产生所述话音活动检测指示。
全文摘要
本发明揭示用于基于跨越音频信号的一频率范围的在时间上一致的能量变化来检测所述信号的话音活动状态的转变的实施方案和应用。
文档编号G10L25/18GK102884575SQ201180023361
公开日2013年1月16日 申请日期2011年4月22日 优先权日2010年4月22日
发明者埃里克·维瑟, 伊恩·埃尔纳恩·刘, 辛钟元 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1