使用Turbo型VAD的会议混音的制作方法

文档序号:7992312阅读:204来源:国知局
使用Turbo型VAD的会议混音的制作方法
【专利摘要】一种会议混音器(102)包括单元(104),其被配置为接收多个输入流;频谱语音活动检测(VAD)单元(136),其被配置为针对每个输入流生成并输出频谱VAD判定,所述频谱VAD判定指示包含数据分组的帧是否是语音;Turbo型VAD单元(110),其被配置为生成并输出Turbo型VAD判定,所述Turbo型VAD判定针对包含数组分组的帧指示哪个输入流是激活的,所述Turbo型VAD判定是基于频谱VAD判定和基于功率的判定,所述基于功率的判定指示包含数据分组的帧的估计的瞬时功率级别是否大于功率阈值;以及有限状态机(FSM)单元(114),其被配置为基于多个Turbo型VAD判定选择将哪些输入流作为激活流输出,该Turbo型VAD判定部分基于FSM所提供的反馈。
【专利说明】使用Turbo型VAD的会议混音
[0001]相关申请的交叉引用
[0002]本申请要求于2011年9月28日提交的美国临时专利申请第61/540,123号以及于2012年3月6日提交的美国临时专利申请第61/607,356号的优先级,这两篇文献的公开内容全文并入于此以作参考。
【技术领域】
[0003]当前公开内容涉及语音通信,并且更具体地涉及会议混音技术。
【背景技术】
[0004]这里提供的背景描述用于一般性呈现公开内容的背景的目的。在背景部分中所描述的范围内,当前名义发明人的工作和描述的各个方面可能并不适用为申请时的现有技术,它们既不直接地也不暗示地被承认为针对本申请公开内容的现有技术。
[0005]会议呼叫技术使得多个参与者或与会人能够通过网络互相通信。各种当前使用的会议呼叫技术采用了通过互联网语音传输协议(VoIP),VoIP使用互联网协议(IP)以使得能够通过网络(例如,互联网)进行通信。会议呼叫设备通常使用会议混音器,会议混音器被配置为接收并处理来自每个与会人的音频信号,并基于会议混音算法向每个与会人输出适当的信号。
[0006]会议混音器的设计面临着各种挑战,包括:避免把降低会议质量的背景噪音当作语音信号、当多个与会人同时说话时管理多重会话时段、即便在受到之前未激活与会人的打断的情况下仍然保持会议的自然流畅、以及保持与会人之间的平滑转换,这避免会话从一个与会人转到另一个与会人时会话的夹断(clipping off)。

【发明内容】

[0007]本公开内容的一个或多个实施例涉及改进的会议混音的方法和设备。
[0008]根据一个实施例的会议混音器使用了基于时间级别标准(Time-Levelcriterion)的变化的混音算法。在一个实施例中,可以使用标准的VoIP模块以及一些专用模块。根据一个实施例的混音算法可以获得常规会议混音器无法获得的一种或多种有利的优点,包括例如在各种噪音条件下支持高质量会议呼叫的能力、低处理延迟、实现简单、以及对计算资源的合理要求。根据一个实施例的混音算法可以使用简单的构件块以保证简化和最小的处理延迟。根据实施例,铺设于该混音算法的创建中的闭环反馈提供了噪音排斥并保证了高质量。
[0009]应当理解,当然,一些实施例的混音算法并不要求实现这些优点。
[0010]根据一个实施例,提供了一种会议混音器,包括:输入流接收单元,被配置为从相应的与会议混音器相连接的多个与会人接收数据分组的多个输入流;频谱语音活动检测(VAD)单元,被配置为针对每个所述输入流生成并输出频谱VAD判定,所述频谱VAD判定指示包含数据分组的帧是否是语音;Turbo型VAD单元,被配置为生成并输出Turbo型VAD判定,所述Turbo型VAD判定为包含数组分组的帧指示哪个输入流是激活的,所述Turbo型VAD判定基于每个述输入流的频谱VAD判定和基于功率的判定,所述基于功率的判定指示包含数据分组的帧的估计瞬时功率级别是否大于每个输入流的功率阈值;以及有限状态机(FSM)单元,被配置为基于与输入流中的多个帧相对应的多个Turbo型VAD判定而选择将哪些输入流作为激活流输出。
[0011]根据一个实施例,Turbo型VAD单元包括:功率估计单元,被配置为针对每个输入流估计帧的瞬时功率级别;比较单元,被配置为针对每个输入流对帧的估计瞬时功率级别与功率阈值进行比较,并且基于所述比较结果输出所述基于功率的判定,其中所述功率阈值指示语音数据的最小功率级别;频谱VAD单元,被配置为针对每个输入流输出所述频谱VAD判定;以及乘法器,被配置为针对每个输入流将基于功率的判定和频谱VAD判定相乘以生成Turbo型VAD判定。
[0012]根据一个实施例,频谱VAD单元被部署于Turbo型VAD单元内。
[0013]根据一个实施例,频谱VAD单元包括按照ITU-T G.729附录B推荐所实施的VAD单元。
[0014]根据一个实施例,会议混音器进一步包括:语音监控单元,被配置为针对每个所述输入流估计输入流的平均语音功率级别和平均噪音功率级别,并且基于所估计的平均语音功率级别和所估计的平均噪音功率级别的加权平均生成功率阈值。
[0015]根据一个实施例,FSM单元被配置为针对每个输入流,生成基于Turbo型VAD判定的活动比率,所述活动比率指示输入流是语音数据的可能性。
[0016]根据一个实施例,FSM单元生成活动比率使得所生成的活动比率包括O和I之间的数值,其中数值“O”指示输入流中完全没有语音数据,以及其中随着输入流中的语音数据的量的增加,所述数值逼近于数值“ I ”。
[0017]根据一个实施例,FSM单元进一步被配置为针对每个输入流,生成指示输入流的当前状态的状态信息,所述当前状态指示输入流当前是否携带语音数据,并且将状态信息反馈给语音监控单元反馈状态信息,以及语音监控单元进一步被配置为至少部分基于从FSM单元反馈的状态信息估计输入流的平均语音功率级别和平均噪音功率级别。
[0018]根据一个实施例,所述FSM单元生成所述状态信息以指示所述输入流中的以下当前状态之一:(a)激活状态,其指示所述输入流当前正携带语音数据,(b)未激活状态,其指示所述输入流当前未携带任何语音数据,(C)渐强状态,其指示所述输入流正在从所述未激活状态转变为所述激活状态,以及(d)渐弱状态,其指示所述输入流正在从所述激活状态转变为所述未激活状态。
[0019]根据一个实施例,会议混音器进一步包括增益控制单元,其被配置为针对每个输入流,基于所述输入流的所述估计的平均语音功率级别和所述输入流的所述估计的平均噪音功率级别来调整增益。
[0020]根据一个实施例,会议混音器进一步包括噪音抑制器,其被配置为针对每个输入流,基于所述输入流的所述估计的平均语音功率级别和所述输入流的所述估计的平均噪音功率级别来抑制噪音。
[0021]根据一个实施例,一种会议混音器的方法,包括从相对应的多个与会人接收数据分组的多个输入流;针对所述输入流的每个输入流生成并且输出频谱VAD判定,所述频谱VAD判定指示包含数据分组的帧是否是语音;生成并且输出Turbo型VAD判定,所述Turbo型VAD判定针对包含数据分组的帧指示哪个输入流是激活的,所述Turbo型VAD判定的所述生成和输出是基于每个所述输入流的所述频谱VAD判定和基于功率的判定,所述基于功率的判定指示帧的估计的瞬时功率级别是否大于每个所述输入流的功率阈值;以及基于与所述输入流中的多个帧相对应的多个所述Turbo型VAD判定,而选择将哪些输入流作为激活流输出。
[0022]根据一个实施例,该方法进一步包括,为针对每个所述输入流,估计帧的所述瞬时功率级别;针对每个所述输入流,比较所述帧的所估计的瞬时功率级别与所述功率阈值,所述功率阈值指示语音数据的最小功率级别,并且基于所述比较的结果输出所述基于功率的判定;针对每个输入流,输出所述频谱VAD判定;以及针对每个输入流,将所述基于功率的判定和所述频谱VAD判定相乘以生成所述Turbo型VAD判定。
[0023]根据一个实施例,频谱VAD判定的生成和输出包括,使用部署于用于生成所述Turbo型VAD判定的Turbo型VAD单元内的频谱VAD单元来生成和输出所述频谱VAD判定。
[0024]根据一个实施例,所述频谱VAD判定的所述生成和输出包括,使用按照ITU-TG.729附录B的推荐所实施的VAD单元来生成和输出所述频谱VAD判定。
[0025]根据一个实施例,该方法进一步包括针对每个所述输入流,估计所述输入流的平均语音功率级别和平均噪音功率级别,并且基于所估计的平均语音功率级别和所估计的平均噪音功率级别的加权平均来生成所述功率阈值。
[0026]根据一个实施例,该方法进一步包括针对每个所述输入流,生成基于所述Turbo型VAD判定的活动比率,所述活动比率指示所述输入流是语音数据的可能性。
[0027]根据一个实施例,其中所述活动比率的所述生成,包括生成所述活动比率使得所生成的活动比率包括O和I之间的数值,其中所述数值“O”指示所述输入流中完全没有语音数据,并且其中随着所述输入流中的所述语音数据的量的增加,所述数值逼近于数值“ I ”。
[0028]根据一个实施例,该方法进一步包括针对每个输入流,生成指示所述输入流的当前状态的状态信息,所述当前状态指示所述输入流当前是否携带语音数据,并且反馈所述状态信息,以及基于所述状态信息的反馈,估计所述输入流的所述平均语音功率级别和所述平均噪音功率级别。
[0029]根据一个实施例,所述状态信息的所述生成包括,生成所述状态信息以指示所述输入流的以下当前状态之一:(a)激活状态,其指示所述输入流当前正携带语音数据,(b)未激活状态,其指示所述输入流当前未携带任何语音数据,(C)渐强状态,其指示所述输入流正在从所述未激活状态转变为所述激活状态,以及(d)渐弱状态,其指示所述输入流正在从所述激活状态转变为所述未激活状态。
【专利附图】

【附图说明】
[0030]图1是示出根据一个实施例的会议混音器的框图;
[0031]图2是示出根据一个实施例的有限状态机(FSM)单元所使用的算法的状态图;
[0032]图3是示出根据一个实施例的分数、活动比率和当前状态之间关系的图形;
[0033]图4是示出根据一个实施例的会议混音方法的流程图;
[0034]图5是示出根据另一个实施例的会议混音方法的流程图;以及[0035]图6是示出根据又一个实施例的会议混音方法的流程图。
【具体实施方式】
[0036]下面将参考附图对实施例进行更加详细地描述。接下来的详细描述被提供用于帮助读者对被描述的系统、设备和/或方法获得全面的理解。相应地,本领域技术人员将有启示获得在此描述的设备、系统和/或方法的等效物、修改以及各种变化。同样地,出于增加清楚表述以及简洁的目的,可以省略公知功能和结构的描述。
[0037]以及,描述中所使用的术语旨在描述实施例。单数形式的表达包括复数形式的含义且决不意味着限制性的,除非有明确相反的指示。在本说明书中,表述“包含”、“包括”旨在指定特性、数字、步骤、元件和操作、部件或者及其组合,并且不应解释为排除其他特性、数字、步骤、操作、元件、部分或者其组合中的一个或多个的存在或可能。
[0038]图1是示出根据一个实施例的会议混音器102的框图。如图1所示,会议混音器102通过网络101与多个与会人连接,该多个与会人包括与会人100-1、与会人100-2、与会人100-3、并且一直到与会人100-n。混音器102的位置相对于与会人100是灵活的。例如,会议混音器102与与会人相关的网关或其它网络切换设备相关联。在一个不例中,一个与会人200的设备被耦合到网关/网络设备,而其他与会人通过互联网耦合。可替换地,会议混音器102被居中定位,而所有与会人通过互联网连接耦合到该会议混音器102。
[0039]网络101是通信网络或者各种通信网络的组合。例如,在一个实施例中,网络101是分组交换网络,比如基于IP的全球互联网,并且网络101可以进一步包含用于访问网络的实体,比如互联网服务提供商(ISP)。省略对各种涉及连接到互联网的实体的详细描述以免模糊本公开内容的教导。
[0040]与会人100-1使用会议呼叫通信设备、例如个人电脑、电话、或其它类型的能够与其他与会人100-2到100-n进行通信的电子设备。与会人100-1的会议呼叫通信设备一般包括数个用于参与会议呼叫的部件,例如用于将与会人100-1的语音数据经由会议混音器102输入到其他与会人100-2到100-n的麦克风,以及用于将语音数据从从一个或多个其它与会人100-2到100-n经由会议混音器102传输的扬声器。与会人100-1的会议呼叫通信设备可以发生变化,例如,如果混音器102与网关或其他网络切换设备相关联以及与会人200之一耦合到该网关/网络设备,则与会人将具有将该与会人与会议混音器102相连接的附加连接设备。
[0041]如图1所示,当与会人100-1期望参与会议呼叫时,与会人100-1向他或她的会议呼叫通信设备说话,从而将语音数据的输入流I1通过网络101传送给会议混音器102。与会人100-1的输入流I1包括对应于与会人100-1的语音数据的数据分组。该数据分组被布置在帧k,k+1, k+2内,这些帧是数字数据传送单元。图1图示与会人100-1,100-2,100-3和100-n分别向会议混音器102输入输入流11;12,13,和14。这些输入流中的一些输入流可以由与会人通信的实际语音数据组成,而这些输入流中的其他输入流可以由非语音数据,诸如由与会人所处环境产生的背景噪音组成。
[0042]对比常规会议混音器,这些常规会议混音器难以从语音数据中区分不需要的非语音数据(例如,背景噪音),该会议混音器102被配置为从会议中有效的过滤不需要的非语音数据。此外,会议混音器102实现了对常规会议混音器的多种改进,包括当多个与会人同时说话时对多重会话时段进行充分管理、承认未激活与会人对讨论的打断以保持会议的自然流畅、以及保持与会人间的顺畅过渡。为了实现这些和/或其它相对于常规会议混音器的优点,根据实施例会议混音器102应用了一个创新组件,其被称为Turbo语音活动检测(VAD)单元110,也被称作Turbo-VAD单元,它生成Turbo-VAD判定,该判定被用于支持快速阈值调整和在噪音条件下保持高质量会议呼叫。
[0043]应当注意常规VAD技术本质上倾向于语音判定,换句话说,倾向于将声音判定为语音,即便这个声音不是与会人的真实语音数据。这是因为常规VAD技术的主要功能是在不造成语音退化的情况下,减少点对点VoIP呼叫的带宽。然而,在会议呼叫中这种倾向是不合需要的,因为来自一个与会人的未被侦测到的噪音可能会与另一个与会人的语音混在一起,或者甚至更糟,将语音一起遮盖住。因此,常规VAD技术一般不被视为适合于会议呼叫混音。Turbo型VAD单元110采用了修改后的适合会议呼叫混音的VAD技术,将在下文中被详细描述。
[0044]为了保持会议混音器使用的混音算法的灵活性,针对算法只定义了少数外部输入。图1中示出了根据一个实施例的主输入,并且将在下文对其进行详细描述。下文描述的单元的实现可以在保持同样的端口的同时改变。
[0045]在一个实施例中,会议混音器102包括输入流接收单元104、增益控制单元106、语音监控单元108、Turbo型VAD单元110、噪音抑制单元112、有限状态机(FSM)单元114、分数计算单元116、混音单元118、系数计算单元120、舒适噪音生成单元122、输出流传输单元124、以及舒适噪音传输单元126。这些组件如图1所示,被耦合在一起。
[0046]输入流接收单元104是被配置为接收从与会人100-1,100-2,100-3和100_n各自传输的输入流I1,12,I3,和I4的组件。在一个实施例中,输入流接收单元104是被配置为接收数字信号、并起到作为与会人100-1,100-2,100-3和100-n与会议混音器102之间端口的作用的组件。在一个实施例中,输入流接收单元104是用软件实现的逻辑块。输入流可以源自在网络的VoIP电话等。在一个实施例中,输入流接收单元104接收来自对应的连接到会议混音器102的多个与会人的多个数据分组的输入流。
[0047]语音监控单元108包括语音功率估计单元128、噪音功率估计单元130、和阈值生成单元132。
[0048]在一个实施例中,语音功率估计单元128和噪音功率估计单元130根据FSMl 14的状态,持续地测量输入流的平均语音和噪音功率。这些测量被Turbo型VAD单元使用,并用于增益控制单元106和噪音抑制单元112 (如果启用)的激活。更具体的说,如图1所示,语音功率估计单元128和噪音功率估计单元130被连接至输入流接收单元104以接收输入流信息。而且,语音功率估计单元128和噪音功率估计单元130也被连接至有限状态机单元114以接收状态信息,并基于所接收的状态信息计算输入流的平均语音和噪音功率。
[0049]在一个实施例中,语音功率估计单元128和噪音功率估计单元130根据系统状态被激活并且使用自回归计算。语音功率估计单元128有一个渗漏属性,其被配置用于避免死锁(该死锁例如可能由被频谱VAD单元136错误归类为语音的非常密集的噪音所引起)。估计方案通过下面的等式I给出(其中k表示帧索引,以及Pk表示帧k的功率):
[0050]等式1:
[0051]'(1- CVOice) * Voice _Estk_! + Cvoice * Pk,状态=激活
Voice_EstIc =< (1- ζleakage) * Voice—Estk— i,状态=未激活
^ Voice_Estk~ I,其它
[0052]
^(1 - ζ noise) * Noise _Estk i +ζ noise* Pk ,状态=未激活
Noise _Estk = <
、Noise_Estk— I,其它
[0053]如等式I所示,取决于从FSM单元114传输的状态信息是否指示“激活”状态、“未激活”状态、或另 一个状态(比如从激活到未激活的转变状态,或者反之亦然),使用三个方程式中的一个来计算给定帧k的平均语音功率估计。同样,取决于从FSM单元114传输的状态信息是否指示“未激活”状态或其它状态(比如转变状态),使用两个方程式之一来计算给定帧k的平均噪音功率估计。
[0054]在一个实施例中,平均噪音和语音功率估计被初始化的值为_40dBm。这个数值相对较低,因此在频谱VAD单元136不正确地指示语音的情况下,系统将只在输入真实语音时进行适配。
[0055]系数ζ 应当?两足以下关系:ζ leakage〈〈 ^ Voice ^ ζ noise〈〈 ^ power2〈 ^ power I °
原因是语音和噪音估计表示被用于阈值和增益控制的长期级别(1-10秒)。另一方面,功率估计被用于每一帧的活动判定,并且因此表示瞬时功率级别(50-100ms)。
[0056]阈值生成单元132基于由语音功率估计单元128和噪音功率估计单元130分别计算的平均语音和噪音功率估计生成功率阈值,并将生成的功率阈值传输到Turbo型VAD单元110中的比较单元138。在一个实施例中,功率阈值被计算为噪音和语音功率级别(以dBm为单位)的加权平均值,并且有一些修改-该阈值被保持在-40到-20dBm之间并且不低于(Voice_Estk-10dB)的值。可替换地,可以其它任何合适的方式计算功率阈值。功率阈值被Turbo型VAD单元110用作语音数据的最小功率级别的指示器,这将在后面解释。
[0057]在一个实施例中,Turbo型VAD单元110使用闭环反馈方案生成Turbo型VAD判定以支持快速阈值调整,并保证在噪音条件下的高质量会议呼叫。Turbo型VAD判定以逐帧为基础指示给定帧是否为“激活”(也被称为“发声”),换句话说,帧是否是语音数据,或者为“未激活”(也被称为“无发声”),换句话说,帧是否是非语音数据。
[0058]Turbo型VAD单元110包括瞬时功率估计单元134、频谱VAD单元136、比较单元138、和乘法器140。
[0059]在一个实施例中,瞬时功率估计单元134估计输入流在瞬时的(即逐帧)基础上的平均功率。给定帧的瞬时功率包括来自给定帧的语音数据和非语音数据(例如,背景噪音)的功率两者,换句话说,总体功率。在一个实施例中,瞬时功率估计单元134按照下面的等式2 (k表示帧索引,Pk表示帧k的功率,Power_Estk表示步骤k的平均功率估计)估计平均瞬时功率:
[0060]等式2:
[0061]
【权利要求】
1.一种会议混音器,包括: 输入流接收单元,被配置为从相对应的与所述会议混音器相连接的多个与会人接收数据分组的多个输入流; 频谱语音活动检测(VAD)单元,被配置为针对每个所述输入流生成并输出频谱VAD判定,所述频谱VAD判定指示包含数据分组的帧是否是语音; Turbo型VAD单兀,被配置为生成并输出Turbo型VAD判定,所述Turbo型VAD判定为包含数组分组的帧指示哪些所述输入流是激活的,所述Turbo型VAD判定基于每个所述输入流的所述频谱VAD判定和基于功率的判定,所述基于功率的判定指示包含数据分组的帧的估计瞬时功率级别是否大于每个所述输入流的功率阈值;以及 有限状态机(FSM)单元,被配置为基于与所述输入流中的多个帧相对应的多个所述Turbo型VAD判定选择将哪些所述输入流作为激活流输出。
2.根据权利要求1所述的会议混音器,其中,所述Turbo型VAD单元包括: 功率估计单元,被配置为针对每个所述输入流估计帧的瞬时功率级别; 比较单元,被配置为针对每个所述输入流对所述帧的估计瞬时功率级别与所述功率阈值进行比较,并且基于所述比较的结果输出所述基于功率的判定,其中所述功率阈值指示语音数据的最小功率级别; 所述频谱VAD单元,被配置为针对每个所述输入流输出所述频谱VAD判定;以及乘法器,被配置为针对每个所述输入流将所述基于功率的判定和所述频谱VAD判定相乘以生成所述Turbo型VAD判定。
3.根据权利要求1所述的会议混音器,其中,所述频谱VAD单元被部署于所述Turbo型VAD单元内。
4.根据权利要求1所述的会议混音器,其中,所述频谱VAD单元包括按照ITU-TG.729附录B推荐所实施的VAD单元。
5.根据权利要求1所述的会议混音器,进一步包括: 语音监控单元,被配置为针对每个所述输入流估计所述输入流的平均语音功率级别和平均噪音功率级别,并且基于所估计的平均语音功率级别和所估计的平均噪音功率级别的加权平均生成所述功率阈值。
6.根据权利要求5所述的会议混音器,其中,所述FSM单元被配置为针对每个所述输入流,基于所述Turbo型VAD判定生成活动比率,所述活动比率指示所述输入流是语音数据的可能性。
7.根据权利要求6所述的会议混音器,其中,所述FSM单元生成所述活动比率,使得所生成的活动比率包括O和I之间的数值,其中数值“O”指示所述输入流中完全没有语音数据,以及其中随着所述输入流中的所述语音数据的量的增加,所述数值逼近于数值“ I ”。
8.根据权利要求7所述的会议混音器,其中, 所述FSM单元进一步被配置为针对每个所述输入流,生成指示所述输入流的当前状态的状态信息并且将所述状态信息反馈给所述语音监控单元,所述当前状态指示所述输入流当前是否携带语音数据,以及 所述语音监控单元进一步被配置为基于从所述FSM单元反馈的所述状态信息估计所述输入流的所述平均语音功率级别和所述平均噪音功率级别。
9.根据权利要求8所述的会议混音器,其中,所述FSM单元生成所述状态信息以指示所述输入流的以下当前状态之一:(a)激活状态,其指示所述输入流当前正携带语音数据,(b)未激活状态,其指示所述输入流当前未携带任何语音数据,(C)渐强状态,其指示所述输入流正在从所述未激活状态转变为所述激活状态,以及(d)渐弱状态,其指示所述输入流正在从所述激活状态转变为所述未激活状态。
10.根据权利要求5所述的会议混音器,还包括:增益控制单元,其被配置为针对每个所述输入流,基于所述输入流的所估计的平均语音功率级别和所述输入流的所估计的平均噪音功率级别来调整增益。
11.根据权利要求5所述的会议混音器,还包括:噪音抑制器,其被配置为针对每个所述输入流,基于所述输入流的所估计的平均语音功率级别和所述输入流的所估计的平均噪音功率级别来抑制噪音。
12.—种会议混音的方法,包括: 从相对应的多个与会人接收数据分组的多个输入流; 针对每个所述输入流生成并且输出频谱VAD判定,所述频谱VAD判定指示包含数据分组的帧是否是语首; 生成并且输出Turbo型VAD判定,所述Turbo型VAD判定针对包含数据的帧指示哪些输入流是激活的,所述Turbo型VAD判定的所述生成和输出是基于每个所述输入流的所述频谱VAD判定和基于功率的判定,所述基于功率的判定指示帧的估计的瞬时功率级别是否大于每个所述输入流的功率阈值;以及 基于与所述输入流中的多个帧相对应的多个所述Turbo型VAD判定,选择将哪些所述输入流作为激活流输出。
13.根据权利要求12所述的方法,还包括: 针对每个所述输入流,估计帧的所述瞬时功率级别; 针对每个所述输入流,比较所述帧的所估计的瞬时功率级别与所述功率阈值,并且基于所述比较的结果输出所述基于功率的判定,所述功率阈值指示语音数据的最小功率级别; 针对每个所述输入流,输出所述频谱VAD判定;以及 针对每个所述输入流,将所述基于功率的判定和所述频谱VAD判定相乘以生成所述Turbo型VAD判定。
14.根据权利要求12所述的方法,其中,所述频谱VAD判定的所述生成和输出包括,使用部署于用于生成所述Turbo型VAD判定的Turbo型VAD单元内的频谱VAD单元来生成和输出所述频谱VAD判定。
15.根据权利要求12所述的方法,其中,所述频谱VAD判定的所述生成和输出包括,使用按照ITU-T G.729附录B的推荐所实施的VAD单元来生成和输出所述频谱VAD判定。
16.根据权利要求12所述的方法,还包括: 针对每个所述输入流,估计所述输入流的平均语音功率级别和平均噪音功率级别,并且基于所估计的平均语音功率级别和所估计的平均噪音功率级别的加权平均来生成所述功率阈值。
17.根据权利要求16所述的方法,还包括:针对每个所述输入流,生成基于所述Turbo型VAD判定的活动比率,所述活动比率指示所述输入流是语音数据的可能性。
18.根据权利要求17所述的方法,其中所述活动比率的所述生成包括生成所述活动比率,使得所生成的活动比率包括O和I之间的数值,其中所述数值“O”指示所述输入流中完全没有语音数据,并且其中随着所述输入流中的所述语音数据的量的增加,所述数值逼近于数值“1”。
19.根据权利要求18所述的方法,还包括: 针对每个所述输入流,生成指示所述输入流的当前状态的状态信息并且反馈所述状态信息,所述当前状态指示所述输入流当前是否携带语音数据,以及 基于所述状态信息的反馈,估计所述输入流的所述平均语音功率级别和所述平均噪音功率级别。
20.根据权利要求19所述的方法,其中,所述状态信息的所述生成包括,生成所述状态信息以指示所述输入流的以下当前状态之一:(a)激活状态,其指示所述输入流当前正携带语音数据,(b)未激活状态,其指示所述输入流当前未携带任何语音数据,(c)渐强状态,其指示所述输入流正在从所述未激活状态转变为所述激活状态,以及(d)渐弱状态,其指示所述输入流正在从所述激活状态转变为所述未激活状态。
【文档编号】H04M3/42GK103931166SQ201280047507
【公开日】2014年7月16日 申请日期:2012年9月27日 优先权日:2011年9月28日
【发明者】A·普洛特尼科夫, T·卡达肖夫, M·科瓦伦科 申请人:马维尔国际贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1