基于多个话音活动检测器的话音活动检测的制作方法

文档序号：2824940阅读：157来源：国知局

专利名称：基于多个话音活动检测器的话音活动检测的制作方法
技术领域：
本发明大体上涉及语音处理，且更具体地说，涉及话音活动检测。
背景技术：
话音活动检测(VAD)是用于语音处理中的技术，其中在音频信号(其也可含有音乐、噪声或其它声音)的若干部分中检测人类语音(话音)的存在或不存在。VAD的主要用途是在话音译码和语音辨识中。VAD可促进语音处理，且还可用以在非语音区段期间去活一些进程其可避免对静默的不必要译码/发射，从而节约计算和网络带宽。VAD是用于多种基于语音的应用的一种重要启用技术。习惯上，通常在单个装置 (例如通信手持机)中从输入音频信号本地估计VAD信息。话音通信系统中的VAD应能够在存在非常不同类型的声学背景噪声的情况下检测话音。检测有噪声环境中的话音的一个困难是有时遇到的非常低的信噪比(SNR)。在这些情形中，通常难以使用已知VAD技术来区分话音与噪声或其它声音。

发明内容
本文所揭示的技术改进VAD，以便增强语音处理，例如话音译码。所揭示的VAD技术改进话音检测的准确性和可靠性，且因此改进取决于VAD的功能，例如噪声减少、回音消除、速率译码等。通过使用可从一个或一个以上单独装置提供的VAD信息来实现VAD改进。可使用多个麦克风或提供较准确VAD的其它传感器形态来产生VAD信息。VAD信息来自可彼此连接的多个装置。根据一个方面，一种话音活动检测(VAD)方法包含从包含于装置中的第一话音活动检测器接收第一 VAD信号；从不包含于所述装置中的第二话音活动检测器接收第二VAD信号；将所述第一和第二 VAD信号组合成VAD输出信号；以及基于所述VAD输出信号检测话音活动。根据另一方面，一种系统包含；包含于装置中的第一话音活动检测器，其经配置以产生第一 VAD信号；不包含于所述装置中的第二话音活动检测器，其经配置以产生第二 VAD信号；以及控制逻辑，其与所述第一和第二话音活动检测器组合，所述控制逻辑经配置以将所述第一和第二 VAD信号组合成VAD输出信号。根据另一方面，一种系统包含用于检测第一位置处的话音活动的第一装置；用于检测第二位置处的话音活动的第二装置；以及用于将来自所述第一和第二装置的输出组合成VAD信号的装置。根据另一方面，一种计算机可读媒体包含可由一个或一个以上处理器执行的一组指令，所述计算机可读媒体包含用于从包含于装置中的第一话音活动检测器接收第一VAD信号的代码；用于从不包含于所述装置中的第二话音活动检测器接收第二 VAD信号的代码；以及用于将所述第一和第二 VAD信号组合成VAD输出信号的代码。所属领域的技术人员在审查以下图以及详细描述后将明白或变得明白其它方面、特征和优点。希望所有此些额外特征、方面和优点均包含在本描述内，且受所附权利要求书保护。

将理解，图式仅用于说明目的。此外，图中的组件不一定是按比例绘制的，而是将重点放在说明本文所述技术的原理上。在图中，相同參考标号在不同视图中始終表示对应部分。图I是示范性话音活动检测(VAD)系统的图。图2是说明使用图I的系统来检测话音活动的方法的流程图。图3是展示作为图I中所示的外部VAD处的SNR的函数的VAD信号加权因子的示范性曲线图。
图4是展示作为图I中所示的内部VAD处的SNR的函数的VAD信号加权因子的示范性曲线图。图5是展示包含VAD系统的示范性头戴式耳机/手持机组合的图。图6是展示包含于图5的头戴式耳机和手持机中的某些组件的框图。图7是展示图6中所示的手持机处理器的某些组件的框图。
具体实施例方式參考且并入有图式的以下详细描述描述并说明ー个或ー个以上具体实施例。提供这些实施例不是为了限制，而是仅为了示范和教示，以充分的细节来展示并描述这些实施例，以使所属领域的技术人员能够实践所主张的内容。因此，为了简明起见，描述可省略所属领域的技术人员已知的某些信息。词语“示范性”在本发明中始終用以表示“充当实例、个例或说明”。不必将本文中描述为“示范性”的任何东西解释为与其它方法或特征相比为优选或有利的。在常规语音处理系统中，通常从例如麦克风信号(例如手机的麦克风信号)等音频输入信号估计话音活动检测(VAD)。VAD是例如声码器和语音辨识装置等许多语音处理装置中的重要功能。如本文所掲示，话音活动检测器位于可连接到主要装置(例如、计算机、手机、其它手持式装置等)的単独装置中。在主要装置内，可进ー步处理来自单独装置的VAD信息，且语音处理发生。举例来说，蓝牙头戴式耳机可连接到手机。手机中的声码器可包含VAD算法，其正常使用手机的麦克风输入信号。当蓝牙头戴式耳机有效地连接到手机吋，蓝牙头戴式耳机的麦克风信号由VAD算法使用，而不是或结合手机的麦克风信号如果蓝牙头戴式耳机使用额外信息(例如多个麦克风、骨传导或皮肤振动麦克风，或电磁(EM)多普勒雷达信号)来准确地估计用户(目标)的VAD，那么此外部VAD信息也用于手机的声码器中，以改进声码器的性能。外部VAD信息可用以控制声码器功能，例如噪声估计更新、回音消除(EC)、速率控制等。外部VAD信号可为从头戴式耳机到手持机的I位信号，且可编码到发射到手持机的音频信号中，或可作为标头信息嵌入到蓝牙包中。接收手持机经配置以解码此外部VAD信号，且接着将其用于声码器中。
对于骨传导和皮肤振动麦克风，当用户讲话时，用户的皮肤和颅骨振动，且麦克风将皮肤振动转换为模拟电信号。骨传导和皮肤振动麦克风在有噪声环境中提供优点，因为话音信号不是像在使用常规麦克风的其它头戴式耳机中那样，从嘴部穿过空气到达头戴式耳机。因此，有效地将环境造成从传递到手持机的音频信号中去除。对于使用声学多普勒雷达装置进行的话音活动检测，使用传感器来检测说话者嘴部的动态状态。在操作频率下，背景噪声大大衰减，从而使装置变得在大多数操作条件下对外部声学噪声稳健。不同于其它非声学传感器(例如骨传导和皮肤振动传感器)，雷达装置无需用胶带粘贴或附接到说话者，使得其在大多数情形中更可接受。在外部VAD信号为蓝牙(BT)包的I位旗标的情况下，I位旗标可包含在存取码的尾部或每一蓝牙包标头中的类型字段中。或者，I位VAD旗标可包含在蓝牙包的有效负载部分的指定位置中。在任一情况下，VAD信号为包含在每一 BT包中的单一位旗标。当旗标被设定时，其指示蓝牙包包含由外部VAD检测的话音。当VAD旗标未设定时，话音不存在于蓝牙包的音频有效负载中。发送嵌入BT标头中的仅一个I位旗标提供离散信号(每块或BT包I个位)。可替代地使用具有多个位的旗标或表示外部VAD信号的多个旗标。外部VAD减少传统VAD中常常经历的语音处理错误，尤其是在低信噪比(SNR)情形中、在不稳定噪声和竞争话音情况下，以及在可能存在话音的其它情况下。另外，可识别目标话音，且外部VAD能够提供目标话音活动的可靠估计。可使用较可靠且准确的VAD来改进以下语音处理功能噪声减少(NR)，即对于较可靠的VAD，可在非话音区段中执行较高NR ;话音和非话音区段估计；回音消除(EC)，改进的双重检测方案；以及速率译码改进，其允许较积极的速率译码方案(针对非话音区段的较低速率)。图I为示范性话音活动检测系统10的图。系统10包含装置12,以及外部话音活动检测器(VAD) 14，其连接到声学传感器，例如一个或一个以上麦克风16。与外部VAD 14相关联的声学传感器可或者或另外包含一个或一个以上骨传导或皮肤振动麦克风，或电磁(EM)多普勒雷达装置，或此些传感器和/或麦克风的任何合适组合。装置12包含内部话音活动检测器(VAD) 18、控制逻辑20、语音处理器22(例如声码器)、一个或一个以上麦克风24，以及传感器26。装置12可为经配置以执行本文所揭示的功能的任何合适电子装置，例如计算机、膝上型计算机、通信装置(例如电话、蜂窝式电话)、个人数字助理(PDA)、游戏装置等。内部VAD 18可为实施VAD算法的任何合适装置，且可集成为语音处理器22的部分。控制逻辑20响应来自外部VAD 14、内部VAD 18以及传感器26的VAD信号。传感器26感测环境操作条件，基于此些条件将输入提供给控制逻辑20，所述输入用以确定由控制逻辑20产生的VAD输出信号。传感器26可输出控制输入,其基于一个或一个以上环境操作条件，例如环境噪声电平，例如在装置12处且/或接近外部VAD14或在外部VAD 14处测得的信噪比(SNR)。传感器26可包含麦克风16、24中的一者或两者。外部VAD 14位于装置12外部，且产生外部VAD信号，其由控制逻辑20接收。外部VAD 14可为实施VAD算法的任何合适装置。外部VAD 14可包含于单独装置中，例如头戴式耳机、扬声器电话、车载套件等。外部VAD 14和装置12可使用任何合适的通信媒体和协议彼此通信。外部VAD 14与装置12之间的连接可为有线连接或无线连接，例如射频(RF)或红外线(IR)链接，例如蓝牙链接，如由在WWW. bluetooth, com处可用的蓝牙规范所定义。可将外部VAD信号编码在传送到装置12的音频数据中，或外部VAD信号可为包含在音频包(例如蓝牙包)中的旗标,如上文所述。控制逻辑20可将外部和内部VAD信号组合成VAD输出信号。控制逻辑20可通过使用基于来自传感器26的环境输入的加权因子对VAD信号中的每ー者进行加权来组合输入VAD信号。下文结合图3和4来描述可使用的加权因子和方法的ー些实例。可基于VAD输出信号检测话音活动。在图I所示的实例中，将VAD输出信号提供给语音处理器22，其将VAD输出信号与阈值进行比较，以确定话音是否存在于正由语音处理器22处理的音频信号中。语音处理器22可为依靠话音活动检测的任何类型的语音处理组件，例如声码器。举例来说，语音处理器22可为增强型可变速率编解码器(EVRC)，例如“用于宽带扩频数字系统的增强型可变速率编解码器，语音服务选项3 (Bnhanced Variable Rate Codec, SpeechService Option 3for Wideband Spread Spectrum Digital Systems)”或 2004 年 4 月的第 3GPP2 C. S0014-A 期 3GPP2 中所指定的 EVRC。内部VAD 18和外部VAD 14所使用的VAD算法可为(例如)所属领域的技术人员当前已知的任何合适VAD算法。举例来说，可使用基于能量的VAD算法。这种类型的VAD算法计算信号能量，且将信号能量等级与阈值进行比较以确定话音活动。还可使用零交点计数型VAD算法。这种类型的VAD算法通过在输入音频信号从正波动到负且反之亦然时对每帧的零交点的数目进行计数来确定话音的存在。可使用零交点的某一阈值来指示话音活动。并且，可使用音高估计和检测算法以及VAD算法来检测话音活动，所述VAD算法计算共振峰和/或倒谱系数以指示话音的存在。内部VAD 18和外部VAD 14可替代地/另外使用其它VAD算法或上述VAD算法的任何合适组合。图2是说明使用图I的系统10来检测话音活动的方法的流程图100。在决策框102中，进行检查以确定外部VAD(例如，外部VAD 14)是否可用。如果不可用，那么方法进行到框110，其中基于从内部VAD(例如，内部VAD 18)输出的VAD信号来检测话音。如果外部VAD可用，那么方法进行到框104。在框104中，确定外部VAD的功能。外部VAD的功能是基于外部VAD所使用的声学传感器的类型，例如骨传导麦克风、音频麦克风、皮肤振动传感器、麦克风阵列、多普勒雷达装置，或前述各项的任何合适组合。在框106中，确定环境操作条件。所述条件可包含在外部VAD或装置附近或在外部VAD或装置处的环境条件。举例来说，所述操作条件可包含在外部VAD和/或装置的位置处测得的背景噪声。所述操作条件还可包含在外部VAD、装置或两者位置处测得的信噪比(SNR)。基于环境操作条件，控制逻辑可确定在确定VAD输出信号时仅使用来自外部VAD的VAD信号(框108)，仅使用来自内部VAD的VAD信号(框110)，或使用外部和内部VAD信号两者(框112到116)。如果仅使用外部VAD信号，那么仅基于外部VAD信号检测话音信号(框108)。如果仅使用内部VAD信号，那么仅基于内部VAD信号检测话音信号(框110)。如果操作条件认可使用内部和外部VAD信号两者，例如在内部VAD位置处存在相对较大量的环境背景噪声的情况下，那么估计外部VAD信号的置信度(框112)，且还估计内部VAD信号的置信度(框114)。可例如通过确定分别作为每一 VAD位置处的测得SNR或另一环境条件的函数的每一 VAD信号的加权因子(例如，概率值)来计算置信等级。接着可例如通过使VAD信号分别乘以概率值以获得对应的置信等级，来将概率值作为加权值应用于相应的VAD信号。每一概率值可为介于零与一之间的值。图3到4展示描绘概率值与在每一位置处测得的SNR之间的示范性关系的曲线图。加权因子还可基于环境条件而不是SNR。在框116中，控制逻辑基于经组合的外部和内部VAD信号来检测话音活动。经组合的VAD信号可为经加权的外部和内部VAD信号的总和，例如Y=P1*V1+P2*V2,等式 I其中，Y = VAD输出信号，P1 =外部概率值，V1 =外部VAD信号，P2 =内部概率值，且V2 =内部VAD信号。等式I中的每一项PfV1和P2*V2表示一置信等级。在一些情况下，外部和内部概率值Pi、P2各自在0到I的范围内，且另外可要求概率值的总和为值一。将VAD输出信号与阈值进行比较，以确定音频信号中是否存在话音活动。如果VAD输出信号超过(例如)阈值，那么音频信号中存在话音。相反，例如，如果VAD输出信号小于或等于阈值，那么音频信号中不存在话音。可使用其它阈值比较。可使用的另一示范性加权公式表达为Y=P^V1+(I-P) *V2,等式 2其中P为P1或P2。通过将值指派给P，获得值(I-P)，作为用于V2的剩余加权因子以计算Y。图3是展示实例外部VAD信号加权因子P1与在图I中所示的外部VAD 14处测得的环境操作条件(即SNR，n)之间的示范性关系的曲线图200。在垂直轴上表示测得SNR，且在水平轴上表示概率值。通常，在此实例中，SNR具有与外部VAD信号加权因子的直接关系，即随着SNR增加，加权因子通常增加，且相反，随着SNR减小，加权因子也减小。图4是展示实例内部VAD信号加权因子P2与在图I中所示的内部VAD 18处测得的环境操作条件(即SNR，n)之间的示范性关系的曲线图300。在垂直轴上表示测得SNR，且在水平轴上表示概率值。通常，在此实例中，SNR具有与内部VAD信号加权因子的直接关系，即随着SNR增加，加权因子通常增加，且相反，随着SNR减小，加权因子也减小。曲线图200、300仅展示一组实例关系。针对外部或内部VAD可使用不同概率函数。尽管图3到4说明加权因子与测得环境操作条件(例如，SNR)之间的大体反曲关系，但可使用其它关系(例如线性关系)来从测得环境条件得出加权因子。在其中外部和内部VAD加权因子相关的情形中(例如在以上等式2中给出)，一个曲线图可用于说明环境操作条件与加权因子之间的关系，且可直接计算其它权重因子的值。举例来说，使用等式2，可从I-P计算第二加权因子。通常P1与己之间的关系反映对哪一 VAD更可靠地确定话音活动的估计(内部VAD或外部VAD)。这主要取决于VAD的特性。举例来说，对于可取决于麦克风输入信号的内部VAD,内部VAD信号的可靠性高度取决于装置处的测得SNR，且图4的曲线图可适用。然而，在外部装置(例如，无线头戴式耳机)处，可使用骨传导麦克风。当使用骨传导麦克风时，外部VAD信号的可靠性例如并不一定取决于SNR，而是取决于骨传导传感器触碰用户的皮肤区域的准确性以及检测振动和骨传导的准确性。在此情况下，外部加权因子P1将不一定是SNR的函数，如图3中所示，而是骨传导传感器与用户皮肤的接触的等级。传感器触碰用户皮肤越多，P1的值越大。在组合例如位于外部装置(例如头戴式耳机)中的骨传导传感器与例如位于主要装置(例如手持机)中的音频麦克风的系统中，P1可与环境操作条件有关，使得P1(用于外部骨传导传感器)取决于外部装置的可用性和磨损，其中传感器触碰或在ー些使用情况下不触碰用户的皮肤。可基于依据内部和/或外部VAD的操作的历史数据和/或统计而估计此条件。用于内部VAD信号的P2可基于测得SNR。上文所述的加权因子和概率值(包含曲线图200、300中所说明的那些)可存储在查找表中。图5是展示包含并入有VAD系统10的功能性的头戴式耳机402和手持机404的示范性头戴式耳机/手持机组合400的图。图I的系统10可用于至少若干不同操作情形中。在图5中所示的实例中，VAD系统10的功能并入400头戴式耳机/手持机组合中，如本文在下文更详细地描述。在此环境中，在头戴式耳机402中測量外部VAD信息。此测量可来自额外麦克风、下巴振动麦克风/传感器，或电磁(EM),例如多普勒雷达传感器,其中的任一者均包含在头戴式耳机402中。接着以ニ进制或连续信号形式将此外部VAD信息作为外部VAD信号发送到头戴式耳机404。可将外部VAD信息编码到音频数据流中或嵌入到所发送的包的标头中。接着在手持机404中解码VAD信息，并将其用于进ー步处理，特别是为了改进声码器(例如EVRC)的性能。蓝牙无线链接优选在头戴式耳机402与手持机404之间使用。在其中外部VAD信号包含于包标头中的配置中，外部VAD信号为蓝牙(BT)包的I位旗标，所述I位旗标可包含在存取码的尾部或每ー蓝牙包标头中的类型字段中。或者，I位VAD旗标可包含在蓝牙包的有效负载部分的指定位置中。在任ー情况下，VAD信号为包含在每ー BT包中的单一位旗标。当旗标被设定时，其指示蓝牙包包含由外部VAD检测的话音。当VAD旗标未设定时,话音不存在于蓝牙包的音频有效负载中。发送嵌入BT标头中的仅ー个I位旗标提供离散信号(每块或BT包I个位)。可替代地使用具有多个位的旗标或表示外部VAD信号的多个旗标。可使用任何合适音频加水印技术将连续VAD信号编码到音频流中。使用音频加水印，将VAD信号调制到不可听范围中的音频数据上，例如调制到极低频率VAD信号中或高频VAD信号中。可通过以下步骤来实施音频加水印在外部装置(例如，头戴式耳机)中添加音频加水印预处理，其对连续VAD信号进行编码；且还在主要装置(例如，手持机)中添加音频加水印后处理，其解码音频数据以从音频数据提取连续VAD信号。手持机404可为便携式无线通信装置,例如蜂窝式电话、游戏装置或PDA,包含次要无线通信接ロ，优选为蓝牙接ロ。头戴式耳机402为无线头戴式耳机，优选为蓝牙头戴式耳机。头戴式耳机402和手持机404经由短程无线链接(例如蓝牙)彼此通信。经数字化的音频可使用常规蓝牙概况(例如HSP)和协议(如由蓝牙规范定义)在头戴式耳机402与手持机404之间传送，其中在ー些配置中可修改蓝牙包标头以包含外部VAD旗标。图6是展示包含于图5的头戴式耳机402和手持机404中的某些组件的框图。头戴式耳机402包含ー个或ー个以上麦克风406、麦克风预处理器408、外部VAD410以及无线接口 412。无线接口 412包含收发器416。麦克风预处理器408经配置以处理从麦克风406接收到的电子信号。麦克风预处理器408可包含模/数转换器(ADC)以及其它模拟和数字处理电路。ADC将来自麦克风406的模拟信号转换成数字信号。这些数字信号接着可由无线接口 412处理。可使用商业可购得的硬件、软件、固件或其任一合适组合来实施麦克风预处理器408。头戴式耳机402还可或替代地包含一个或一个以上下巴或皮肤振动传感器和/或电磁(EM)，例如多普勒雷达传感器，用于检测话音活动。代替于或结合麦克风信号(麦克2信号)将这些传感器的输出提供给外部VAD 410。如果需要，那么无线接口 412提供与手持机404和其它装置的双向无线通信。优选的是，无线接口 412包含商业可购得的蓝牙模块，其提供由以下各项组成的至少一蓝牙核
心系统蓝牙RF收发器、基带处理器、协议栈，以及用于将所述模块链接到头戴式耳机402中的控制器(例如处理器414)的硬件和软件接口。尽管可结合头戴式耳机402使用任何合适的无线技术，但收发器416优选为蓝牙收发器。无线接口 412可由头戴式耳机控制器(例如，处理器414)控制。外部VAD 410可由执行软件代码的处理器414实施。外部VAD 410可为实施VAD算法(包含本文所述的VAD算法中的任一者)的任何合适装置。外部VAD 410基于来自麦克风406或其它传感器的输入而输出外部VAD信号。如上文所述，接着通过处理器414将外部VAD信号作为单一位旗标嵌入到蓝牙音频包标头中。在头戴式耳机/手持机系统的替代配置中，处理器414使用音频加水印算法将VAD信号编码在数字化的麦克2信号上。无线接口 412经由蓝牙无线链接在蓝牙音频包中将数字化的麦克2信号和外部VAD信号传送到手持机404的无线接口 428。处理器414可为任何合适计算装置，例如微处理器(例如ARM7)、数字信号处理器(DSP)、一个或一个以上专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD)、离散逻辑，或其任一合适组合。手持机404包含一个或一个以上麦克风418、麦克风预处理器420、内部VAD 422、控制逻辑424、声码器426以及无线接口 428。无线接口 428包含收发器432。如果需要，那么无线接口 428提供与头戴式耳机402和其它装置的双向无线通信。优选的是，无线接口 428包含商业可购得的蓝牙模块，其提供由以下各项组成的至少一蓝牙核心系统蓝牙RF收发器、基带处理器、协议栈，以及用于将所述模块连接到手持机404中的控制器(例如处理器430)的硬件和软件接口。尽管可结合手持机404使用任何合适的无线技术，但收发器432优选为蓝牙收发器。无线接口 428可由手持机控制器(例如，处理器430)控制。内部VAD 422、控制逻辑424和声码器426可由执行软件代码的处理器430实施。处理器430可为任何合适计算装置，例如微处理器(例如ARM7)、数字信号处理器(DSP)、一个或一个以上专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD)、离散逻辑，或其任一合适组合。控制逻辑424响应来自外部VAD 410和内部VAD 422的VAD信号，以及来自头戴式耳机麦克风406的经数字化麦克风信号(麦克2信号)和来自手持机麦克风418的经数字化麦克风信号(麦克I信号)。控制逻辑424输出VAD输出信号,其被提供给声码器426。控制逻辑424可通过对外部和内部VAD信号进行加权来组合外部和内部VAD信号以产生VAD输出信号。可如本文在上文所述执行VAD信号的加权,且应用于姆ー VAD信号的加权因子可基于由包含于手持机404或头戴式耳机402中的ー个或ー个以上传感器(未图示)测量的环境操作条件，如本文在上文所述。声码器426基于VAD输出信号而检测话音活动。可在逐包基础上针对姆一音频包确定话音活动。将VAD输出信号提供给声码器426,其将VAD输出信号与阈值进行比较，以确定正由声码器426处理的音频信号(包)中是否存在话音。控制逻辑424还将来自麦克风406、418的经数字化音频信号(麦克I和麦克2信号)提供给声码器426以供处理和编码。声码器426可依据哪一麦克风406、418当前正用以接收语音而选择要处理哪一麦克风信号。经编码的语音(话音)信号由声码器426输出。声码器426可实施任何合适的话音译码算法，包含但不限于由3GPP2指定的EVRC。接着可使用WffAN接ロ 630将经编码的语音发射到WWAN。手持机404还包含无线广域网(WffAN)接ロ 630，其包括与WffAN(例如蜂窝式网络) 通信所必需的整个物理接ロ。WWAN接ロ 630包含无线收发器，其经配置以与WffAN中的基站交换无线信号。WffAN接ロ 630与WffAN交换无线信号，以促进经由WffAN到所连接装置的话音呼叫和数据传送。所连接装置可为另ー WWAN終端、陆线电话或网络服务实体，例如话音邮箱服务器、因特网服务器等。合适的无线通信网络的实例包含(但不限干)基于码分多址(CDMA)的网络、WCDMA、GSM、UTMS、AMPS、PHS 网络等。图7是展示图6中所示的手持机处理器430的某些组件的框图。处理器430包含连接到存储器502的微处理器(uP) 500。存储器502存储控制逻辑程序504、声码器程序506以及内部VAD程序508。控制逻辑程序504包含软件/固件代码，其在由uP 500执行时提供控制逻辑424的功能性。声码器程序506包含软件/固件代码，其在由uP 500执行时提供声码器426的功能性。内部VAD程序508包含软件/固件代码，其在由uP 500执行时提供内部VAD 422的功能性。尽管说明为单独程序，但控制逻辑程序504、声码器程序506以及内部VAD程序508可组合为ー个或ー个以上程序。存储器502和微处理器500可耦合在一起，且在共用总线上通信。存储器502和微处理器500可集成到单个芯片上，或它们可为单独组件或集成和离散组件的任一合适组合。另外，可替代地使用其它处理器-存储器架构，例如多处理器和/或多存储器布置。微处理器500可为任何合适处理器或控制器，例如ARM7、DSP、ー个或ー个以上专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD)、离散逻辑，或其任一合适组合。或者，可使用具有多个处理器的多处理器架构(例如，微处理器-DSP组合)来实施手持机404中的处理器430。在示范性多处理器架构中，可对DSP进行编程以提供音频处理的至少ー些处理，例如内部VAD 422、控制逻辑424和声码器426的功能，且可对微处理器进行编程以控制手持机404的总体操作。存储器502可为用于存储编程代码和/或数据内容的任何合适存储器装置，例如快闪存储器、RAM、ROM、PROM等。VAD系统10还可用于其它系统中，例如手持机-车载套件中。在此情形中，车载套件中所使用的多个麦克风允许准确地估计源定位和方向性信息。可使用此信息来抑制噪声或不想要的信号。此信息还可用于估计外部VAD信号。可将此外部VAD信号发送到手持机，手持机接着使用额外VAD信息来增强手持机的声码器性能。其中可使用VAD系统10的另一操作情形为会议呼叫扬声器电话-手持机组合。在此情况下，外部VAD装置包含于扬声器电话装置中，所述扬声器电话装置有线或无线连接到手持机。扬声器电话装置可使用多个麦克风来估计所关注话音源的VAD。可将源VAD信号发送到手持机，手持机接着使用额外VAD信息来增强手持机的声码器性能。本文所述的系统、装置、头戴式耳机、手持机及其相应组件的功能性，以及方法步骤和框可实施于硬件、软件、固件或其任一合适组合中。软件/固件可为具有可由一个或一个以上数字电路(例如微处理器、DSP、嵌入式控制器或知识产权(IP)核心)执行的指令集(例如，代码段)的程序。如果实施于软件/固件中，那么可将功能作为一个或一个以上计算机可读媒体上的指令或代码而加以存储或传输。计算机可读媒体包含计算机存储媒体与通信媒体两者，所述通信媒体包含促进计算机程序从一处到另一处的传送的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。作为实例(而非限制)，此计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于运载或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样，严格地说，可将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输软件，那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘使用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。已描述某些实施例。然而，对这些实施例的各种修改是可能的，且本文所呈现的原理也可适用于其它实施例。举例来说，本文所揭示的原理可适用于其它装置，例如包含个人数字助理(PDA)的无线装置、个人计算机、立体声系统、视频游戏等。并且，本文所揭示的原理可适用于有线头戴式耳机，其中头戴式耳机与另一装置之间的通信链路是电线，而不是无线链路。另外，在不脱离所附权利要求书的范围的情况下，可在不同于具体揭示的那些布置的布置中实施各种组件和/或方法步骤/框。所属领域的技术人员鉴于这些教示将容易想到其它实施例和修改。因此，在结合以上说明书和附图来看时，所附权利要求书意在涵盖所有此些实施例和修改。
权利要求
1.一种话音活动检测VAD的方法，其包括从包含于装置中的第一话音活动检测器接收第一 VAD信号；从不包含于所述装置中的第二话音活动检测器接收第二 VAD信号；将所述第一和第二 VAD信号组合成VAD输出信号；以及基于所述VAD输出信号检测话音活动。
2.根据权利要求I所述的方法，其进一步包括基于环境条件对所述第一 VAD信号进行加权。
3.根据权利要求2所述的方法，其中所述环境条件包含在所述装置处测得的信噪比SNR。
4.根据权利要求I所述的方法，其进一步包括基于环境条件对所述第二 VAD信号进行加权。
5.根据权利要求4所述的方法，其中所述环境条件包含在包含所述第二话音活动检测器的外部装置处测得的信噪比SNR。
6.根据权利要求I所述的方法，其进一步包括确定所述第二话音活动检测器的功能。
7.根据权利要求6所述的方法，其中所述第二话音活动检测器的所述功能是基于骨传导麦克风、音频麦克风、皮肤振动传感器、麦克风阵列或雷达信号。
8.根据权利要求I所述的方法，其进一步包括经由无线链路发射所述第二 VAD信号。
9.根据权利要求8所述的方法，其中所述无线链路为蓝牙无线链路。
10.一种话音活动检测VAD的方法，其包括提供第一装置和第二装置，每一装置经配置以借助于无线链路彼此通信；确定所述第二装置中的VAD信号；在所述第二装置处，基于所述VAD信号设定旗标，所述旗标包含于含有数字化音频的包中；借助于所述无线链路将所述包从第二装置发射到所述第一装置；以及基于包含于所述包中的所述旗标而检测所述第一装置处的话音活动。
11.根据权利要求10所述的方法，其中所述旗标为包含于蓝牙包标头中的一位值。
12.—种系统,其包括包含于装置中的第一话音活动检测器，其经配置以产生第一话音活动检测VAD信号；不包含于所述装置中的第二话音活动检测器，其经配置以产生第二话音活动检测VAD信号；以及控制逻辑，其与所述第一和第二话音活动检测器通信，所述控制逻辑经配置以将所述第一和第二 VAD信号组合成VAD输出信号。
13.根据权利要求12所述的系统，其进一步包括处理器，其接收所述VAD输出信号。
14.根据权利要求13所述的系统，其中所述处理器包含声码器。
15.根据权利要求12所述的系统，其中所述装置为无线手持机。
16.根据权利要求12所述的系统，其中所述第二话音活动检测器包含于与所述装置通信的头戴式耳机中。
17.根据权利要求16所述的系统，其中所述头戴式耳机为无线头戴式耳机。
18.根据权利要求12所述的系统，其中所述第二VAD信号是作为包含于蓝牙标头中的单一位值发射到所述控制逻辑。
19.根据权利要求13所述的系统，其中所述控制逻辑包含在所述装置中。
20.—种系统,其包括用于检测第一位置处的话音活动的第一装置；用于检测第二位置处的话音活动的第二装置；以及用于将来自所述第一和第二装置的输出组合成话音活动检测VAD输出信号的装置。
21.根据权利要求20所述的系统，其进一步包括用于接收所述VAD输出信号的处理器装置。
22.根据权利要求20所述的系统，其中所述第一装置包含于无线手持机中。
23.根据权利要求20所述的系统，其中所述第二装置包含于与装置通信的头戴式耳机中。
24.根据权利要求23所述的系统，其中所述头戴式耳机为无线头戴式耳机。
25.根据权利要求20所述的系统，其进一步包括用于将来自所述第一和第二装置的VAD信号作为包含于蓝牙标头中的单一位值发射到所述组合装置的装置。
26.根据权利要求20所述的系统，其中所述组合装置包含于所述第一位置处。
27.一种包含可由一个或一个以上处理器执行的一组指令的计算机可读媒体，其包括用于从包含于装置中的第一话音活动检测器接收第一 VAD信号的代码；用于从不包含于所述装置中的第二话音活动检测器接收第二 VAD信号的代码；以及用于将所述第一和第二 VAD信号组合成VAD输出信号的代码。
28.根据权利要求27所述的计算机可读媒体，其进一步包括用于基于所述VAD输出信号检测话音活动的代码。
29.根据权利要求27所述的计算机可读媒体，其进一步包括用于基于环境条件对所述第一 VAD信号进行加权的代码。
30.根据权利要求29所述的计算机可读媒体，其中所述环境条件包含在所述装置处测得的信噪比SNR。
31.根据权利要求27所述的计算机可读媒体，其进一步包括用于基于环境条件对所述第二 VAD信号进行加权的代码。
32.根据权利要求31所述的计算机可读媒体，其中所述环境条件包含在包含所述第二话音活动检测器的外部装置处测得的信噪比SNR。
全文摘要
一种话音活动检测VAD系统包含第一话音活动检测器、第二话音活动检测器和控制逻辑。所述第一话音活动检测器包含于装置中，且产生第一VAD信号。所述第二话音活动检测器位于所述装置外部，且产生第二VAD信号。所述控制逻辑将所述第一和第二VAD信号组合成VAD输出信号。可基于所述VAD输出信号检测话音活动。可将所述第二VAD信号表示为包含于含有数字化音频的包中的旗标。可经由无线链路将所述包从所述位于外部的VAD发射到所述装置。
文档编号G10L11/02GK102770909SQ201080064720
公开日2012年11月7日申请日期2010年12月14日优先权日2010年2月24日
发明者太元·李申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：太元·李
技术所有人：高通股份有限公司
我是此专利的发明人