语音检测器和用于语音检测器中抑制子频带的方法

文档序号:2830429阅读:228来源:国知局
专利名称:语音检测器和用于语音检测器中抑制子频带的方法
技术领域
本发明涉及语音检测器,语音活动检测器(VAD)和用于选择性地 抑制语音检测器中的子频带的方法。
背景技术
,氐比特率以实现高性能语音编码器的一个重要部分是使用舒 适的噪:声来替代缄默或对背景使用较低比特率。实现这一点的关键功 能是语音活动检测器(VAD),它能够实现语音与背景噪声之间的分离。
TS 26.094中提出多种类型的语音活动检测器,参见参考文献[l], 参考文献[3]中公开了 VAD(本文称为AMR VAD1)和许多变化。AMR VAD1的核心特征是
-子频带信噪比(SNR)检测器的求和,
-基于信号电平的阈值适配,
-基于先前判定的背景估算适配,以及
-噪声电平中步阶增加的死锁恢复分析。
AMR VAD1的一个缺点是它对于某种类型的非平稳背景噪声过 于灵敏。
在C.S0014-A中公开另一种VAD(本文称为EVRC VAD),作为 EVRC RDA参见参考文献[2]以及参考文献[4]。所采用的主要技术是
-频带分离分析,其中对可变速率语音编解码器中的速率选择使 用最差情况频带,
-使用自适应噪声释i丈延迟求和原理来减少主检测器错误。噪声 释放延迟求和由Hong等人在参考文献[5]中进行了公开。
频带分离EVRC VAD的缺点在于,它偶尔作出坏的判定,并显 示甚低频率灵敏性。
Freeman公开了语音活动检测,参见参考文献[61,其中公开一种 具有独立噪声频谦的VAD,以及Barret(参见参考文献[7])公开了 一种 不会错误地表征信令音的低频车辆噪声的音检测器机制。基于 Freeman/Barret的解决方案的一个缺点是偶尔显示太低灵敏性(例如对 于背景音乐)。

发明内容
本发明的目的在于,提供对语音活动更灵敏而不存在现有技术装 置的缺点的一种语音检测器和一种语音活动检测器。
该目的由一种语音检测器和使用语音检测器的语音活动检测器 来实现,其中使用分成表示n个不同频率子频带(sub-baiid)的子信号的 输入信号来计算每个子频带的信噪比(SNR)。计算每个子频带的乘方 域中的SNR值,并使用非线性函数来计算乘方SNR值的至少其中一 个乘方SNR值。基于乘方(power)SNR值形成单值,并将该单值与给 定的阈值比较以生成语音检测器的输出端口上的语音活动判定。通过 对一个或多个子频带引入非线性函数,由SNR计算之后引入的非线性 函数选择性地减少可能将判定噪声引入到实际的判定度量中的子频 带的重要性。
本发明的另一个目的在于,提供一种方法,该方法提供一种对语 音活动更灵敏而不存在现有技术装置的缺点的语音检测器。
该目的通过一种用于SNR求和子频带语音检测器的自适应地选 择性地减少子频带的重要性的方法来实现,在该SNR求和子频带语音 检测器中,将至语音检测器的输入信号分成n个不同的频率子频带。 SNR求和是基于在执行SNR求和之前对表示至少一个子频带的信号 应用非线性加权。
与现有技术的解决方案相比,本发明的优点在于保持语音质量, 或甚至在某些情况下提高语音质量。
另一个优点在于,与现有4支术的解决方案相比,本发明减少非平 稳噪声状况的平均速率(例如多人谈话状况(babble condition))。 附困说明


图1示出VAD的现有技术的解决方案。
图2示出结合图l描述的VAD中所用的语音检测器的详细描述。
图3示出根椐本发明的语音检测器的第一实施例。
图4示出图示不同VAD在语音活动中的性能的图形。
图5示出根据本发明的VAD的第一实施例。
图6示出根椐本发明的VAD的第二实施例。
图7示出说明对不同VAD进行Mushra专家监听测试所^l得的感 观结果的图形。
图8示出包括根据本发明的VAD的语音编码器。
图9示出包括根据本发明的VAD的终端。
具体实施例方式
图1示出与参考文献[l]中公开的称为AMRVAD1的VAD相似的 现有技术的语音活动检测器VAD 10,图2示出对所采用的主语音检 测器的详细描述。
VAD io将进入的信号"tr入信号"分成数据样本的帧。这些数
椐样本的帧被子频带分析器(SBA)ll分成"n"个不同的频率子频带, 子频带分析器(SBA)ll还计算每个子频带的对应输入电平"电平[n]"。 然后在噪声电平估算器(NLE)12中使用这些电平通过对非语音帧的电 平估算值进行低通滤波来对每个子频带估算背景噪声电平
"bckr_est[n]"。因此,NLE生成在主语音检测器(PVD)中使用的估算 噪声状况或背景信号状况,例如音乐。PVD13使用每个子频带"n" 的电平信息"电平[n]"和估算背景噪声电平"bckr一est[n]"形成有关 当前数据帧是否包含语音数据的判定"vad一prim"。在NLE12中使用
"vad_prim"判定来确定非语音帧。
结合图2详细描述的PVD 13的基本操作是,监视子频带信噪比 (SNR)的变化,并将足够大的变化视为语音。这通过在框20中使用
"Calc.SNR,,函数计算每个子频带中的信噪比训r["]来获得
—〗-雄 ")
通过取为每个子频带计算的SNR值的平方将计算的SNR值转换 成乘方,这在框21中计算,然后形成基于所有子频带的组合SNR值。 组合SNR值的基是图2中的求和框22形成的所有子频带乘方SNR的 平均值。
,_卿》7]^(""]) (2) 一 左"
其中k是子频带的数量,例如如图2中所示为9个子频带。 然后可以通过在框23中将计算的"snr一sum"与阈值'VadJhr^ 比较形成来自PVD 13的主语音活动判定"vad_prim"。如图2所示, 从阈值适配电路(TAC)24获得阈值"vad—thr"。根据将来自NLE12的 所有子频带背景噪声电平求和获得的背景噪声电平调整阈值
"vad—thr",以便增加灵敏度(降低阈值),并避免在背景噪声电平高的 情况下遗漏包含语音数据的帧。
还将SBAll中计算的输入电平提供到平稳性估算器(STE)16,平 稳性估算器(STE)16向NLE 12提供信息"stat一rat",此信息指示背景 噪声的长期平稳性。还可以在VAD 10中提供噪声释放延迟模块 (NHM)14,其中使用NHM14扩充PVD检测为包含语音的帧的数量。 此结果是语音编解码器系统中使用的修改的语音活动判定
"vad_flag",如结合图8所描述的。将"vad_flag"判定提供到语音 编解码器15以指示输入信号包含语音,语音编解码器15将信号"音,, 和"基音(pitch)"提供到NLE 12。还可以将'Vad-prim"判定反馈到 NLE 12。表示为SBAll、 NLE 12、 NHM 14、语音编解码器15和STE 16的功能框对于本领域技术人员来说是公知的,因此不进行更详细的 描述。
所描述的现有技术PVD的缺点在于,它可能对非平稳性背景噪 声指示语音活动,例如多人说话的背景噪声。本发明的目标是修改现
有技术的PVD以减少缺点。
图3示出非线性主语音检测器NL PVD 30的第一实施例,它包括 与结合图2所描述的功能框相同的功能框和每个子频带"n"的功能 框31。功能框31提供对从功能框20计算的SNR值进行非线性加权, 这是减轻现有技术的问题的修改。对于此实施例,通过如"R^式实现 非线性函数以产生SNR求和的结果snr一sum:
<formula>formula see original document page 11</formula> 否则 W
其中"k"是子频带的数量(例如k=9), "snr[n]"是_子频带"n" 的信噪比,以及"sign_tresh"是非线性函数的显著呵值。
该非线性函数用于对每个低于"sign—thresh"的计算的SNR值将
SNR值设为零(O),并对于其他SNR值保持不变。显著阈值"sign一tresh"
优选地设为高于l(sign_thresh>l),并更为优选地设为2或更高
(sign_thresh>2)。对SNR值取平方以将其转换到乘方域,如本领域技
术人员所显见到的。1或更高的SNR值将导致1或更高的对应乘方
SNR值。但是,当从SNR求和计算snr一sum时,就功能框31中的非
线性函数的实现来说存在其他可能性,例如
<formula>formula see original document page 11</formula> 如果<formula>formula see original document page 11</formula>否则
(4)
其中"k"是子频带的数量(例如k=9), "sign一floor"是缺省值, "snr[n]"是子频带"n"的信噪比,以及"sign—tresh"是非线性函数 的显著阈值。
显著阈值"sign—tresh"优选地按上文论述的来设置,即设为高于 l(sign—thresh>l),并更为优选地i殳为2或更高(signjhresh>2)。缺省 值"sign—floor"优选地小于1(sign—flooKl),以及更为优选地小于或 等于0.5(sign—floor《0.5)。
图4中图示具有背景多人说话噪声的讲话的语音活动的性能提
高,其中示出了不同VAD的性能。该图形表示DTX,延迟(hangover) 模块所作的语音^^判定的平均值"Average(vad一DTX)",在图8中 对于不同VAD进一步描迷为以dBov表示的三个输入电平和以dB表 示的不同SNR值的函数。dBov表示"dB过载"。dBov电平0意味着 系统刚妤处在迚栽的阅值处。数字16 ^f^f本財+32767的最大值, 它对应于0dB。 -26^意味着最大样本大小狄大值以下26(18。示 出的VAD为
VAD1:以对应于输入电平-16 dBov的41、对应于输入电平-26 犯ov的44以JSjft应于输入电平-36 dBov的47所指示的交又来标i己。
EVRC VAD:对应于输入电平-16 dBov的42、对应于输入电平-26 犯ov的45以及对应于输入电平-36 dBov的48所指示的方块来标记。
VAD5(是包括根据本发明的主语音检测器30的VAD):对应于输 入电平-16 dBov的43、对应于输入电平-26 dBov的46以及对应于输 入电平-36 dBov的49所指示的三角来标记。
应该指出的是,在SNR值低于无穷大的所有输入电平处,与 VAD1相比,VAD5的平均活动"Average(vad—dtx)"显著较低,而对 于具有10dB的SNR值的所有输入电平,与EVRCVAD相比,VAD5 的"Average(vad_dtx),,较低。而且,VAD5和EVRC VAD显示出同样 好的平均活动,并且对于其他SNR值是相当的。
应该提及的是,对于不同子频带的显著阈值可以是完全相等的, 或可以是不同的,如下所示
<formula>formula see original document page 12</formula>
其中"k"是子频带的数量(例如k=9), "sign—floor"是每个子频 带"n"的缺省值,"snr[n]"是子频带"n"的信噪比,以及"sign—tresh[n]" 是每个子频带"n"中非线性函数的显著阈值。
对于某些类型的背景噪声来说,在不同的子频带中使用不同的显
著阈值将实现频率优化的性能。这意味着在不背离本发明概念的前提
下,显著阈值对于框3h至3l5中的非线性函数可设为1.5,而在功能 框316-319中设为2.0。
在图5中,描述了祁1^>发明的VAD 50的第一实施例,其具有 与结合图1描逸的现有才支术的VAD的功能框相同的功能框,所例外 的是使用了非线性主语音检测器NLPVD 51来替代现有技术的PVD, 非线性主语音检测器NLPVD 51具有与结合图3描述的功能框相同的 非线性函数框。可以将可选的控制单元CU 52连"l妄到VAD 50以在操 作期间对每个子频带的显著阈值"sign—fresh"和缺省值"sign—floor" 进行调整。显著阈值是固定的,但是可以通过CU52来更改(更新)。
在图5中,基于来自语音編解码器15的音和基音信号、存储在 NLE 12可访问的存储器寄存器中的先前的vad_prim判定和从STE 16 获取的电平平稳性值statjat来估算每个子频带的噪声电平。TS 26.094 中描述了子频带噪声电平适配的详细配置,参见参考文献[l]。上文论 述了非线性主语音检测器NLPVD的操作。
早前的实施例示出如何使用非线性主语音检测器来提高功能性 以便减少假活动判定。但是,对于某些稳定且平稳性背景噪声状况(例 如汽车噪声和白噪声),当设置显著阈值时存在折衷。为了解决此问题,
可以基于背景噪声状况的独立长期分析以使显著阈值为自适应的。
对于认为具有强子频带能量变化的状况,可以使用宽松的显著阈 值,而对于认为具有低子频带能量变化的状况,可以使用更严格的阈 值。显著阈值的适配优选地设计为使得活动语音部分不在背景噪声状 况的估算时^支使用。
图6示出根据本发明的VAD 60的第二实施例,该VAD60设有 非线性主语音检测器NL PVD 61,其中可以自适应地调整非线性功能 框中的每个子频带的显著阈值。具有固定最优显著阈值设置的最优语 音检测器OVD 62持续地与NLPVD 61并列运行以产生最优语音活动 判定"vad_opt,,。在噪声状况适配器NCA 63中,使用由"vad_opt"
指示的非活动语音周期期间分析背景噪声类型信息来调整NLPVD的 显著阈值。基于这两个附加模块,即OVD 62和NCA63,通过来自 NCA63的控制信号来调整NLPVD61中的显著阈值signjresh。最优 语音检测器OVD 62 to地是具有錢阈值的最优(或主动性)设置的 NLPVD61的副本,优选地是固定值SF。 SF的优选值是2.0。
NBA 63生成控制信号所基于的背景噪声类型信息优选地是STE 16中生成的stat—rat信号(由实线64指示),但是该控制信号还可以基 于表征噪声的其他;f^:,尤其是TS 26.094 VAD1中提供的以及来自语 编解码器分析的M(由虚线65指示),例如,高通滤波的基音相关值、 音标记或语音编解码器pitch_gain参数变化。
在优选实施例中,使用来自STE 16的stat一rat值作为由"vad_opt" 指示的非活动语音周期期间控制信号所基于的背景噪声类型信息TS 26.094中描述的原始算法的修改是,持续地对每个VAD判定帧执行 平稳性估算值"stat—rat"的计算。在3GPPTS 26.094中,"3.3.5.2背景 噪声估算"章节中解释了 "stat一rat"的计算。
平稳性(stat一rat)使用如下公式来估算
其中levelm是当前子频带振幅电平的矢量,以及avejevelm是过 去子频带电平的平均值的估算。STAT一THR—LEVEL设为适合的值, 例如184(TS 26.094 VAD1比例/精度)。
高"stat—rat"值指示存在大频带内电平变化,低"stat—rat"值指 示较小的频带内电平变化。
vad一opt判定的历史被存储在操作期间NCA可访问的存储器寄存 器中。
添加的NCA 63使用"stat—rat"值来按如下方式调整NL PVD 61: 当vadjDpt指示至少80 ms的i吾音不活动时,
如果"stat—rat"值高于阈值STAT一THR(指示高变化性),则
生成将公式(3)-(5)值中的"sign_tresh"向值2.0移动(步阶大小为0.02) 的控制信号。
如果"stat一rat"值低于阈值STAT一THR(指示低变化性),则 生成将公式(3)-(5)值中的"sign—tresh"向值0.125移动(步阶大小为0.01) 的控制信号。
如果vad一opt指示最近80 ms内的^f^T语音活动,则不生成调整 公式(3)-(5)中的"sign—tresh"值的控制信号。
上述自适应解决方案的结果是,在认为的非活动周期期间持续地 调整显著阈值,并通过根椐子频带能量分析来修改显著阈值以使主语 音检测器NL-PVD更灵敏C或更不灵敏)。
图7示出从关键材料的Mushra专家监听测试获得的主观结果, 关键材料由-26dBov处的语音结合不同的背景噪声(例如汽车、车库、 多人说话、购物商场和街道(均具有10dBSNR))组成。对于Mushra测 试,依据质量对来自不同编码器的语音样本排序。该测试使用AMR MR122模式作为高质量基准(表示为"Ref,)。比较的VAD功能是使 用AMR MR59编码的,并由VAD 1 、 EVRC VAD(在没有噪声抑制的 情况下使用)和具有固定显著阈值2.0和显著性底线0.5的(表示为 VAD5)的所公开的VAD组成。
图7中从监听的角度指示了不同VAD的95%置信区间,不同的 VAD之间没有本质的差别,但是本发明(VAD5)的平均活动(activity) 比VAD1低得多,参见图4。
图8示出一个完整的编码系统80,该系统80包括优选地根据本 发明设计的语音活动检测器VAD 81和包括不连续传输/舒适噪声 (DTX/CN)的语音编码器82。图8示出简化的语音编码器82,在参考 文献[8]和[9]中可以找到详细描述。VAD81接收输入信号,并生成判 定"vad_flag"。语音编码器82包括DTX释放延迟模块83 , DTX释 放延迟才莫块83可以将7个额外的帧添加到从VAD 81接收的 "vad—flag",有关更多细节,参见参考文献[9]。如果"vad—DTX"= T,则检测到语音,以及如果"vad—DTXM" = "0",则没有检测到 语音。ttvad_DTX"判定控制开关84,如果 ad一DTX"为(T,则捧 其设在位置0中,如果"vad—DTX"为"1",则将其设在位置l中。
在本示例中,还将"vad—DTX"转发到连接到开关84中的位置I 的语音编解码器85,语音编解码器85将"vad_DTX"与输入信号一 起使用以生成发往VAD81的"音"和"基音",如上所迷。还可以从 VAD 81转发"vad_flag",而非 acLDTX"。将"vad一flag"转发到 舒适噪声緩冲器(CNB)86,舒适噪声緩沖器(CNB)86跟踪输入信号中 的最新7个帧。将此信息转发到舒适噪声编码器87(CNC),舒适噪声 编码器87(CNC)还在非语音帧期间接收"vad—DTX"以生成舒适噪声, 有关更多细节,参见参考文献[8]。 CNC连接到开关84的位置0.
图9示出根据本发明的用户终端90。该终端包括连接到A/D装 置92的麦克风91, A/D装置92将模拟信号转换成数字信号。数字信 号被馈送到语音编码器93和VAD 94,如结合图8所述。经由发射器 TX和双工滤波器DPLX将来自i吾音编码器的信号转发到天线ANT, 在从天线传送信号。经由双工滤波器DPLX将天线ANT中接收到的 信号转发到接收分支RX。对接收时接收到的语音执行接收分支RX 的公知操作,并通过扬声器95重复该语音。
至上述语音检测器的输-入信号被分成子信号,每个子信号表示频 率子频带。子信号可以是为子频带计算的输入电平,但是还可设想基 于计算的输入电平产生子信号,例如通过在将其馈送到语音检测器之 前将输入电平自乘来将该输入电平转换到乘方域。表示频率子频带的 子信号还可以通过自动相关来生成,如参考文献[2]和[4]中描述的,其 中在乘方域中表示子信号而无需任何转换。相同的方法适用于语音检 测器中接收到的背景子信号。
缩略语
AMR 自适应多速率
ANT 天线
CNB 舒逸噪声緩;t器
CNC 舒适噪声编码器
DTX 不连续传输
DPLX 双工滤波器
EVRC 增强的可变速率(IS-127)
NCA 噪声状况适配器
NHM 噪声释放延i^t爽
NLE 噪声电平估算器
NLPVD 非线性主语音检测器
OVD 最优语音检测器
PVD 主语音检测器
RX 接收分支
SBA子频带分析器
SNR信噪比
STE平稳性估算器
TAC阈值适配电路
TX发射器
VAD语音活动检测器
参考文献"自适应多速率(AMR)语音编解码器;语音活动检测器(VAD)" ("Adaptive Multi-Rate (AMR) speech codec; Voice Activity Detector (VAD)" 3GPPTS 26.094 V6.0.0 (2004-12))"增强的可变速率编解码器,用于宽带展频数字系统的语音服 务选项3" ("Enhanced Variable Rate Codec, Speech Service Option 3 for Wideband Spread Spectrum Digital Systems", 3GPP2, C.S0014-A vl.O, 2004-05) Vahatalo转让给Nokia的US 5,963,901 Al ,标题为"用于语音
活动检测的方法和装置以及通信装置"(US 5,963,901 AI, by Vahatalo, with the title ('Method and device for voice activity detection^ and a communication device", assigned to Nokia, December 10,1996.) Hong转让给Motorola的US 5,410,632 Al,标,"语音活动 检测器中的可变释放延迟时间"(US 5,410,632 Al, by Hong, with the title "Variable hangover time in a voice activity detector", assigned to Motorola, December 23, 1991) Freeman的US 5,276,765,标题为"语音活动检测"(US 5,276,765 Al, by Freeman, with the title "Voice Activity Detection", March 10, 1989) Berrett的US 5,749,067 Al,标题为"语音活动检测器"(US 5,749,067 Al, by Berrett, with the title "Voice activity detector", March 8, 1996)"自适应多速率(AMR)语音编解码器;舒适噪声AMR语音业 务信道"("Adaptive Multi-Rate (AMR) speech codec; Comfort Noise AMR Speech Traffic Channels" 3GPP TS 26.094 V6.0.0 (2004-12》"自适应多速率(AMR)语音编解码器;源控制速率操作" ("Adaptive Multi-Rate (AMR) speech codec; Source Control Rate Operation" 3GPPTS 26.093 V6.1.0 (2006-06))
权利要求
1. 一种响应被分成子信号的输入信号的语音检测器(30;51;61),每个子信号表示频率子频带(n),所述语音检测器包括:-配置成接收所述子信号的第一输入端口,-配置成基于所述子信号接收背景子信号的第二输入端口,以及-用于为每个子频带基于对应的子信号和背景子信号计算(20)SNR值(snr[n])的部件,其特征在于,所述语音检测器(30;51;61)还包括:-用于为每个子频带计算(31n,21)乘方SNR值的部件,其中所述乘方SNR值的至少其中一个乘方SNR值是基于非线性函数计算的,-用于基于所计算的乘方SNR值来形成(22)单值(snr_sum)的部件,以及-用于将所述单值(snr_sum)与给定的阈值(vad_thr)比较(23)来作出输出端口上提供的语音活动判定(vad_prim)的部件。
2. 如权利要求1所述的语音检测器,其中所述乘方SNR值的每 个乘方SNR值是基于非线性函数来计算的。
3. 如权利要求1或2所述的语音检测器,其中所述语音检测器配 置成在基于所述非线性函数计算所述乘方SNR值之前将所述非线性 函数应用于所述SNR值。
4. 如权利要求1-3中任一项所述的语音检测器,其中所述语音检 测器配置成在所述非线性函数中使用子频带专用的显著阈值 (sign—thresh)来选择性地抑制子频带。
5. 如权利要求4所述的语音检测器,其中所述子频带专用显著阈 值(sign—thresh)对于至少两个子频带是不同的。
6. 如权利要求4所述的语音检测器,其中所迷子频带专用显著阈 值(sign一thresh)对于所有子频带是相同的。
7. 如权利要求4-6中任一项所述的语音检测器,其中所述子频带 专用显著阈值具有高于1的值(sign一tfares!^1),优选地具有2或更高的 值(sign一thresh > 2)。
8. 如权利要求4-7中任一项所述的语音检测器,其中所述i吾音检 测器配置成具有固定的子频带专用显著阈^直。
9. 如权利要求4-7中任一项所述的语音检测器,其中所述语音检 测器配置成基于估算噪声或背景信号状况来自适应地调整所i^子频 带专用显著阔值。
10. 如权利要求9所述的语音检测器,其中所述估算噪声或背景 信号状况基于所述输入信号的非活动语音部分。
11. 如权利要求4-10中任一项所述的语音检测器,其中所述语音 检测器配置成在所述非线性函数中将小于所述子频带专用显著阈值 (sign一thresh)的每个SNR值(snr[n])替换成缺省值。
12. 如权利要求11所述的语音检测器,其中所述缺省值是零(O)。
13. 如权利要求11所述的语音检测器,其中所述缺省值小于每个 子频带的SNR值。
14. 如权利要求13所述的语音检测器,其中所述缺省值小于 1(sign—floor<l),以及优选地小于或等于0.5(sign—floor《0.5)。
15. 如权利要求1-14中任一项所述的语音检测器,其中基于所述 语音检测器(51; 61)中计算的先前主语音活动判定(vactprim)来计算每 个子频带的所述背景子信号。
16. 如权利要求1-15中任一项所述的语音检测器,其中所述输入 信号包含9个频率子频带。
17. 如权利要求1-16中任一项所述的语音检测器,其中用于为每 个子频带计算乘方SNR值的所述部件还基于转换器(21)中实现的平方 函数。
18. 如权利要求1-17中任一项所述的语音检测器,其中形成单值 (snr—sum)的所述部件包括求和框(22),其中形成所有子频带乘方SNR 的平均值。
19. 如权利要求1-18中任一项所迷的语音检测器,其中所述语音 检测器还包括阈值适配电路(24),所逸阈值适配电^(24)响应通过对所 有子频带的背景子信号求和生成的信号(噪声电平)产生所述给定的阈 值(vad一thr)。
20. 如权利要求1-19中任一项所述的语音检测器,其中每个子信 号基于为每个子频带计算的输入电平(level[n]),以及每个背景子信号 基于每个子频带的估算背景噪声电平(bckr—est[n)。
21. —种用于确定输入信号中是否包含语音数据的语音活动检测 器(50; 60; 81; 94),其特征在于,所述i^音活动检测器(50; 60; 81; 94)包括如权利要求1-20中任一項所定义的主语音检测器(30; 51; 61)。
22. 如权利要求21所述的语音活动检测器,还包括- 子频带分析器(ll),配置成将所述输入信号分成数据样本的 帧,并进一步将所述数据样本的帧分成频率子频带,所述子频带分析 器还配置成为每个子频带计算对应的输入电平(level[n]),以及- 噪声电平估算器(16),配置成基于所计算的输入电平 (level[n])来生成每个子频带的估算背景噪声电平(bckr一est[n])。
23. 如权利要求22所述的语音活动检测器,其中所述主语音检测 器(30; 51; 61)设有其中存储先前主语音活动判定(vadjrim)的存储器; 以及在所述噪声电平估算器(12)中为每个子频带计算的估算背景噪声 还基于所存储的先前主语音活动判定(vacLprim)。
24. 如权利要求21-23中任一项所述的语音活动检测器,还包括- 用于基于表征所述输入信号中的噪声的参数来产生控制信 号的部件(62, 63),所述控制信号在所述主语音检测器(61)中用于自适 应地调整所述非线性函数中的子频带专用显著阈值(sign一thresh)。
25. 如权利要求24所述的语音活动检测器,还包括配置成基于 为每个子频带计算的输入电平(level[n])来产生平稳性值(stat一rat)的平 稳性估算器(16),其中所述控制信号基于所迷平稳性值(stat一rat)。
26. 如权利要求24-25中任一项所迷的语音活动检测器,其中用 于产生控制信号的所迷部件包括如权利要求1-20中任一项所定义的 辅助语音检测器(62),所述辅助洽音检测器(62)配置成产生辅助语音活 动判定(vacLopt),所述控制信号(sig—thresh)还基于所述辅助语音活动 判定(vad一opt)。
27. 如权利要求26所述的i吾音活动检测器,其中所述辅助语音检 测器(62)使用具有所有子频带的固定显著阈值(SF)的非线性函数。
28. —种电信系统中的节点,所述节点包^^。权利要求21-27中 任一项所定义的语音活动检测器。
29. 如权利要求28所述的节点,其中所述节点是终端(90)。
30. —种用于选择性地抑制SNR求和子频带语音检测器中的子 频带的方法,其特征在于,在进行SNR求和之前所述SNR求和基于 对至少一个子频带进行非线性加^L。
31. 如权利要求30所述的方法,其中在进行SNR求和之前对所 述子频带的每个子频带执行非线性加权。
32. 如权利要求30-31中任一项所述的方法,其中所述方法包括 在进行SNR求和之前计算每个子频带的乘方SNR值。
33. 如权利要求30-32中任一项所述的方法,其中所述非线性加 权基于如下非线性函数1 + f (s/gw 一 y oor)2如果s/gw—y ocv[w] < snr[n] < sign—threshsnr_sum是SNR求和的结果,K是频率子频带的数量,sign—floor是缺省值,snr[n]是子频带"n,,的信噪比,以及sign一tresh是所述非线性函数的显著阈值。
34.如权利要求33所迷的方法,还包括响应背景噪声状况自适 应地调整所n著阈值。
全文摘要
本发明涉及一种语音检测器30;51;61,该语音检测器30;51;61响应被分成表示频率子频带的子信号的输入信号,该语音检测器30;51;61包括用于基于每个子频带的对应子信号和每个子频带的背景子信号为每个子频带计算20 SNR值(snr[n])的部件。语音检测器30;51;61还包括用于计算每个子频带的31<sub>n</sub>,21乘方SNR值的部件,其中所述乘方SNR值的至少一个乘方SNR值是基于非线性函数计算的,用于基于所计算的乘方SNR值来形成22个单值snr_sum的部件,以及用于将所述单值snr_sum与给定的阈值vad_thr比较23来作出输出端口上呈交的语音活动判定vad_prim的部件。本发明涉及用于选择性抑制语音检测器中的子频带的语音活动检测器、节点和方法。
文档编号G10L11/00GK101379548SQ200780004941
公开日2009年3月4日 申请日期2007年2月9日 优先权日2006年2月10日
发明者M·塞尔斯泰特 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1