有效的用来检测固定功率信号的语音活动检测器的制作方法

文档序号:2837358阅读:496来源:国知局
专利名称:有效的用来检测固定功率信号的语音活动检测器的制作方法
技术领域
本发明大体涉及信号处理,尤其涉及区别话音信号和非话音信号。
背景技术
通过将模拟信号转换成数字信号,语音被承载在数字电话网络 上,无论是电路交换还是分组交换的数字电话网络。在分组交换的网 络的情形下,代表数字信号的音频采样被组包,并且组包的采样通过 网络被电子发送。组包的采样在目的地节点被接收,该采样被拆包, 模拟信号被重建并提供给另一方。
在与其他方通话时,存在双方都不说话的时间段。在这种时间段
中,背景噪声(可包括背景语音)可由该电话的传声器(microphone) 接收到。当呼叫的任何一方都不在讲话和没有可听见的呼叫信令传送
(signaling)时所接收到的比如背景噪声的音频信息,比如音(tone), 在此被称作"静音(silence)"。
静音抑制是在参与电话呼叫的一方没有讲话时在网络上不传输 音频信息,以此显著减少带宽使用率并协助对抖动緩冲器调整点的识 别的过程。在因特网上语音协议("VoIP")系统中,语音活动检测
("VAD")或话音活动检测("SAD")被用来动态监视背景噪声、设 定合适的话音检测阈值以及识别抖动緩冲器调整点。VAD检测音频信 号或其采样中人的话音的存在与否,并使用该信息识别静音期。当静 音抑制生效时,在这种静音期接收到的音频信息不在网络上传输给其 它(目的地)端点。在给定了在任何一个时间通常是通话中的一方在 讲话的条件下,静音抑制可以在典型电话呼叫的持续过程中实现整体 带宽50°/。的节省。
在语声的话音和背景噪声之间进行区别是困难的。而且,VAD 或SAD必须很快进行以避免削波(clip )。为了解决这些问题,已经 使用了一些区别复杂度的算法。例子包括基于能量阈值(例如,使用 信噪比或SNR)、音调检测、频嫌(spectrum)或光镨(spectral) 形状分析、零交叉速率(例如,确定信号幅度从正改变到负有多频繁)、 周期测量、线性预测码或LPC剩余(residual)域中的高阶统计(例 如,当背景和输入信号的形状之间失配时,预测编码错误或剩余的能 量增加)、以及它们的组合的算法。
在一个公共静音抑制方案中,信号的功率被用作一致的判断以将 信号分类到语音和静音段。假设在出现话音时总信号的功率足够大于 背景噪声的功率。阈值用来标注用于将被分类为语音活动 (voice-active)的段的最小SNR。该阈值被熟知为噪声底限(floor) 并被使用信号功率动态地重新计算。如果该信号的SNR落在该阈值 中,那么其被认为是语音活动的。否则,其被认为是背景噪声。这种 行为可以从图2中看出,图2中描述了接收的音频信号的幅度波形 200、接收的音频信号的功率波形204和噪声底限功率波形208。噪声 底限的数值为信号波形200的平滑表示。该图进一步分别显示了检测 到的语音活动以及静音段212和216。从图2中可以看出,当该信号 包括话音段220和224时,由于信号功率的较大增长,噪声底限波形 208趋于向上,并由于信号功率的较大下降而在所述段之后立即向下。 在这个算法的核心是其通过其时变噪声底限的实施适用于改变背景 噪声的能力。
上面的VAD方案在检测比如进程音(例如,拦截(intercept) 音、回铃音、忙音、拨号音、重新排序(re order)音等)的具有实 质上恒定的功率的信号时存在困难。这些方案经常将这些音识别为背 景噪声,所述背景噪声并不被传输到另一端点。检测进程音的问题被 图3A和3B所显示。图3A将该进程音显示为正弦波形300。图3B 显示的音被表示为具有实质上恒定的功率级别的波形304。因为噪声 底限基于该信号的功率,所以当该信号具有实质上恒定的功率时,该
噪声底限波形308将接近波形304。使用上述的VAD方案,间隔312 将被正确地诊断为是语音活动的并因此被传输到另 一 端点,而间隔 316将被误诊为静音并因此不被传输到另一端点。最好也只不过是另 一方只会听到一部分音,这将使他或她认为是电话出现了故障。这种 误诊还会进一步引起抖动緩沖器的误调整(这将使另 一个人听到^哒 声或砰砰声)。
固定功率信号可以被更精细的方法可靠地检测到,比如通过使用 像快速傅立叶变换(FFT)和倒镨(Cepstral)分析这样的复杂技术 分析所述信号的频镨。然而,将信号转换到频域所需的处理和存储成 本太高并且用于这些算法的处理时间太长以至于在实时应用中是不 实际的。 一些技术,比如FFT,引入了延迟,这是因为需要构建输入 采样的緩沖器(组块(blocking ))和/或使用大量随机存储器(RAM ) 用于存储。 一种切实可行的解决方案一定是要基于时间的。
阈值VAD是最普遍使用的解决方案。在能量阈值方法下,出现 话音(包括进程音)时的总信号的能量被认为大于预设阈值。幅度大 于该阈值的信号被认为是语音活动的而不管VAD的结论。虽然保留 了很多进程音信息,但这种方法做出的假设在一些应用中是不能成立 (hold)的,结果导致准确率很低。信号的统计分析也已经被使用, 其例如使用幅度概率分布作为确定噪声级别的手段。但是,这些方法 还是在计算上昂贵的并且不适于VoIP网关设定。
已经部分成功的一种算法已经被4吏用在Acaya Inc.的 Crossfire 网关中。该网关使用零交叉速率方法并利用固定功率信号 的基于时间的周期。噪声信号被认为是在本性上随机的。用于每一帧 的零交叉速率被监测。常量零交叉速率意味着周期以及从而意味着语 音活动段。换句话说,各种零交叉点的周期被确定并且样式匹配技术 被用来识别固定功率信号的零交叉行为特性。
类似的零交叉算法被使用在用于ITU-T标准化的G.729话音编 码器的G.729B扩展中。在该扩展下,每10亳秒对包括80个音频采 样的语音帧做出选择。从这些话音帧中提取出来的参数包括全带能
量、低带能量、线光镨频率("LSF")系数和零交叉速率。从当前帧 提取出来的这四个系数之间的差值和噪声游动平均数被为每一帧计
算。这些差值代表噪声特性。大的差值意味着当前帧是语音,而相反 则意味着不存在语音。VAD做出的决定是基于复杂的多边算法的。
关于这些方法的问题是恒定零交叉速率不总是对应于周期信号。 噪声信号可能偶尔越过恒定速率的固定线。因为每段仅包括80个音 频采样,所以该方法的准确率受较小的釆样空间限制。识别零交叉点 时的错误可能使得恒定功率信号被误诊为背景噪声。为了解决该问 题,这些方案可通过使用额外的固定阈值被增强以确保高幅度信号总 是被确定为活动信号。然而,对这种阈值的使用会引起低幅度、固定 功率的信号现在错误地被检测为静音。
还有一种VAD方案由Tucker R.在1992年8月乂〉开的他的论文 "Voice Activity Detection Using a Periodicity Measure,,中提出。他描 述了一种VAD,其能够以低到0db的SNR可靠地操作并能够以-5db 检测到大部分语音。当找到非常大量的周期时,该检测器对输入信号 和触发器应用最小平方周期估计器。然而,其目的不是找出准确的讲 话爆发(talkspurt)边界,因此,其最适于话音登记应用,在那里很 容易包括较小的容限以允许任何错过的话音。就像所理解的那样,"讲 话爆发"边缘指话音和非话音音频信息之间的边界(例如,"静音"期 和语声话音期之间的边界)。该解决方案适用于VoIP系统,其中对 准确讲话爆发边界的检测是关鍵的。

发明内容
这些和其他需求由本发明的各个实施例和配置所解决。本发明总 体上涉及使用基于幅度的周期以检测转向点(例如峰值和最低点)和 所识别的转向点的样式匹配以确定所采样的音频信号段是否是周期 信号或实质上固定的功率级别的信号(此后称为"实质上固定的功率 信号")。实质上固定的功率信号的例子包括进程音。
在本发明的第一实施例中,提供了一种方法,包括步骤(a) 接收多个音频釆样,这些音频采样定义了采样的信号段;
(b) 在这些音频采样定义的信号幅度波形中识别转向点;
(c) 确定所识别的转向点是否代表实质上固定的功率级别的信 号;以及
(d) 当所识别的转向点代表实质上固定的功率级别的信号时, 认为所釆样的信号段包括活动信号。
在第二个实施例中,提供了一种方法,包括步骤
(a) 在语音通话过程中,接收模拟音频信号;
(b) 将该模拟音频信号转换为其数字表示,该数字表示包括多 个话音帧,每个话音帧包括多个音频采样,每个音频采样包括信号幅 度并具有固定的持续时间;
(c) 在这些音频采样中识别信号幅度转向点;
(d) 确定所识别的转向点是否代表非周期的信号;以及
(e) 当所识别的转向点代表非周期信号时,将所选择的话音帧 传输给目的地端点。
本发明不需要依赖于噪声底限波形,而可使用 一套其他基于时间 和幅度的技术,以识别固定功率信号。使用基于幅度和时间的周期相 对于单独依赖于基于时间的周期或基于时间的周期和零交叉的组合
而言,对信号波形的定义要精确得多。因此其能够准确地并有效地检 测固定功率信号的存在。
该发明能够改善仅依赖于基于时间的周期的方案。这种方法具有 80个采样中的l个的范围内的精确度。通过依赖于基于幅度的周期, 精确度可被提高到65536幅度级别中的1个。周期性的幅度是16比 特范围(即+32767至-32768 )。
该发明比用于执行话音抑制的其他解决方案需要更少的处理资 源,因此允许使用本发明的网关中具有高信道计数。例如,当所估计 的历史緩冲器的大小被定为100峰值/最低点数值时,其表示200字节 的RAM使用率,因为每个采样包括16比特。通常, 一个样式具有少 于40个转向点。由于相对较低的处理开销,话音活动检测能够快速发生,而避免削波。
本发明能够可靠地识别讲话爆发边界。
这些和其他优势将从这里包含的本发明的公开内容中变得明显。 如在此所使用的,"至少一个"、"一个或多个,,以及"和/或"是开放式的表述,其在操作中既是连接的又是分离的。例如,表述"A、 B 和C中的至少一个"、"A、 B或C中的至少一个"、"A、 B和C中的 一个或多个"、"A、 B或C中的一个或多个,,以及"A、 B和/或C,,中的 每一个表示单独A、单独B、单独C、 A和B—起、A和C一起、B 和C一起、或A、 B和C一起。
上面描述的实施例和配置不是完全的也不是穷尽的。就像将被理 解的那样,本发明的其他实施例可以单独或组合地利用上面陈述的或 在下面详述的一个或多个特征实现。


图l根据本发明第一实施例描述了语音通信架构; 图2描述了噪声底限功率波形对接收信号的功率中话音的变化 的响应;
图3A和3B描述了周期性信号波形和噪声底限功率波形对实质 上恒定的信号功率的响应;
图4A和4B描述了周期性信号波形以图示本发明的概念; 图5是根据本发明一个实施例的一组数据结构;以及 图6是根据本发明一个实施例的流程图。
具体实施例方式
图1中描述了根据第一实施例的架构100。该架构100包括由广 域网或WAN 112互联的语音通信设备104和企业网络108。企业网 络108包括服务于服务器120的网关116、局域网124和通信i殳备128。
网关116可以是控制进入或离开相应LAN的任何合适设备。该 网关逻辑上位于相应的企业基地(premise) 108中的其他组件和网络
112之间以 一边处理服务器120和内部通信设备128之间的通信传送, 另一边处理服务器120和网络112之间的通信。网关116通常包括电 子中继器功能,其从网络112拦截电信号并将电信号引入相应的LAN 124,反之亦然,并且提供代码和协议转换。当处理语音通信时,网 关116进一步执行多个VoIP功能,特别是静音抑制和抖动緩冲器处 理。因此网关116包括语音活动检测器132来执行VAD和SAD以及 舒适噪声发生器(未示出)来在静音期产生舒适的噪声。舒适噪声是 合成的背景噪声,其防止了收听者在静音抑制所导致的绝对静音期间 觉察到通信信道已经断开。合适的网关的例子包括Avaya Inc.的 G700、 G650、 G350、 Crossfire (串扰)、MCC/SCC媒体网关的修 改版本以及Acme Packet的Net-Net 4000会话边界控制器。
服务器200处理呼叫控制信令,比如进入的IP上语音或VoIP 和电话呼叫建立以及拆除消息。如在这里使用的术语"服务器,,应被理 解为包括ACD、专用分支交换机PBX (或专用自动交换机PAX)、 企业交换机、企业服务器、或其他类型的电信系统交换机或服务器、 以及其他类型的基于处理器的通信控制设备,比如媒体服务器、计算 机、附件等等。作为示例,图1的服务器可以是Avaya Inc.的DefinityTM 基于专用分支交换机(PBX)的ACD系统或运行修改的Advocate 软件的MultiVantageTM PBX 、 CRM Central 2000 ServerTM 、 communication Manager , S8300TM媒体服务器、SIP Enabled ServicesTM、和/或Avaya Interaction Center 。
内部和外部通信设备104和128优选为分組交换站或通信设备、 比如IP硬电话(hardphone)(例如Avaya Inc.的4600 Series IP Phone )、IP软电话(softphone X例如Avaya Inc.的IP Softphone )、 个人数字助理或PDA、个人电脑或PC 、笔记本电脑、基于分組的H.320 视频电话和会议单元、基于分组的语音消息和响应单元、基于对等的 通信设备、以及基于分组的传统计算机电话附件。合适的设备的例子 是Avaya Inc.的4610TM、 4621SWTM、和9620TMIP电话。
如从图1中看到的语音活动检测器116可依据该架构位于许多组件中。
该检测器132通过检测峰值和最低点(即转向点)来利用固定信 号的周期。除了基于时间的周期外,该检测器132还使用基于幅度的 周期。其依赖于对信号内部的规则样式的检测。该检测器132是有效 率的,因为其不需要大量的信号处理资源来检测固定功率信号。
缓沖器136存储n个音频采样。采样的数目通常与包含在将被传 输到目的地通信设备的分组(或帧)中的音频采样数目相同。N经常 为80,这表示以8KHz采样的10毫秒语音。检测器132在该緩冲器 136进行迭代,每次一个采样,并记录信号的采样部分的所选择的特 性。特别地,信号的高和低点(例如峰值和最低点)被记录。该信息 当与之前记录的信号特征历史相结合时能够提供该样式应该是什么 样的精简历史跨览(span)。
此后,还有后处理步骤来检索所收集的用于样式(或模板)的信 息。这通常通过搜索重复来完成。例如对于双频率信号,检测器132 搜索具有两个明显峰值和两个明显最低点的信号样式,而对于单频率 信号,搜索仅具有一个峰值并仅具有一个最低点的信号样式。当数值 与所选择的样式不符时,所采样的信号被认为是更随机的信号并被算 法所拒绝。可以通过建立 一个范围来考虑噪声底限波形和任何可能的 干扰,在该范围内两个数值被认为是相似的。这允许算法在存在背景 噪声时执行。
图5中显示了在处理緩沖器136中的采样的过程中所产生的记录 的数据结构的、例子。如图5所示,每个音频釆样具有相应的采样标识 符500,为了筒便起见,其被显示为连续编号。每个采样被分析,以 确定其相对于前一采样在幅度上是趋于向上(正)或向下(负)。当 趋势504在相邻釆样之间改变时,转向点、或峰值或谷底被识別。参 考图5,转向点在采样2和3 (峰值)、7和8 (谷底)、12和13 (峰 值)、和17和18(谷底)中的一个中或它们之间被识别。转向点的 每个实例通过合适的指示符508来标注(例如,"Y"意味着存在转向 点而"N"意味着不存在转向点)。到前一转向点512的时间距离通过
计数到前一转向点的实例的采样数来跟踪,因为采样大小关联于固定
的时间段(例如10毫秒)。例如,在采样3与转向点相关联的时间 距离为0 (因为在采样l之前没有釆样数据),在采样8为5 (或50 毫秒),在采样13为5 (或50毫秒),以及在采样18为5 (或50 毫秒)。最后,每个转向点的幅度516被记录。例如,在釆样3转向 点的幅度为+11000单位,在采样8为-10500单位,在采样13为+10700 单位,以及在釆样18为-11500单位。如将被理解的,周期性幅度是 16比特范围(即+32767至-32768 )。如还将被理解的,为了节省存储 器空间,数据结构可被简化为仅包括与转向点相关联的那些采样(例 如仅包括采样3、 8、 13、和18)。
然后基于转向点的周期和那些点的幅度,所得的记录数据被检 查,以查找在信号本身内部是否出现固定样式。信号内的固定样式可 通过将该数据与一个或多个通常为不同类型的进程音的模板进行比 较而被识别,这些进程音比如是拦截音、回铃音、忙音、拨号音、重 排序序者等,以确定所分析的采样信号段是否为固定信号。如所指出 的,在双频信号中搜索的样式具有以交替方式设置的第一和第二组明 显的峰值以及第一和第二组明显的最低点。在单频信号中搜索的样式 具有以交替方式设置的一组峰值和一组最低点。大部分进程音是单频 信号。样式不仅使用转向点的时间周期、还使用转向点处的信号幅度 来定义。可以使用概率来确定该段与该样式符合得多好。低于指定阈 值的概率不被认为是固定信号,而位于或高于该指定阈值的概率被认 为是固定信号。如从图5的数据结构中所看出的那样,采样的信号段 可被认为是固定信号。
如将被理解的,任何合适的样式匹配算法可被用于后处理。这种 算法一般检查给定样式的要素的存在。
相对简单的算法的一个例子是构建描述采样音频信号段的第一 和第二阵列。第一阵列包括在转向点之间所选择的时间距离的实例数 目。例如,该阵列可包含用于所选择的时间距离1、 2、 3、 4......的每
一个的多个实例。第二阵列包括转向点处的多个所选择的幅度范围的
实例数目。例如,该阵列可包含用于幅度范围A-B、 B-C、 C-D......的
每一个的多个实例,其中A、 B、 C、 D是幅度数值。然后在每个阵列 栏中所得到的实例将与指定模板在时间和幅度周期方面进行比较以
确定该信号段是否很可能是固定信号段。例如,该模板可以是不同阵 列栏中实例的最大允许分布。如果这些实例分布得太广,那么该比较 将指示该信号段是可变的,而更紧缩的分布指示该信号段是固定的。 然后与第一和第二阵列的比较所得的模板匹配概率被加权以达到该 信号段具有固定或可变信号的特性的组合概率。
分析方法被进一步显示在图4A和4B中。图4A和4B显示了固 定或恒定信号,比如音调,以及为了方便比较,还显示了基于噪声底 限波形的可允许范围。各种采样点被进一步显示在每个信号段中。图 4B中的虚线显示了周期性信号样式。如从图4A和4B中看到的,釆 样点会显示与图5中类似的行为。如虛线所示意的,图4B的信号样 式在下一个信号段被重复,不过转向点的幅度可能轻微偏移。本发明 的算法可被写成这种方式,即该方法能够在较小波形不完整存在的情 况下检测样式。换句话说,样式不需要完全匹配。这是特别重要的, 因为信号会由于背景噪声变失真。这种不完整至少部分地被考虑,因 为在模板和所分析的采样信号段之间的信号幅度的基本类似或不类 似与转向点之间时间间隔的基本类似或不类似相比,通常被更重地正 常加权。
现在将参考附图6描述检测器132的操作。
在步骤600,接收包括n个音频信号采样的帧。该帧中的采样在 所接收的模拟音频信号被转换为数字形式时被产生。以下步骤被一个 采样一个采样地以及一帧一帧地执行。如所指出的, 一个分组将通常 包含80个采样的一个帧。
在步骤604,下一个采样被选择用于分析。
在步骤608,由所选择的采样所指示的趋势被确定。如所指出的, 该趋势通常通过将所选择的采样的幅度与前一采样的幅度相比较而 确定。如果该幅度正在增长,那么该趋势为正,而如果该幅度正在下
降,那么该趋势为负。
在决定菱形框612,确定该采样是否包括转向点。当趋势从前一 个采样中的正改变为所选择采样中的负或是从前一个采样中的负改 变为所选择采样中的正时,所选择的采样被认为包括转向点。
当所选择的采样包括转向点时,到前一转向点的时间距离在步骤 616被确定。这是通过计数在所选择的采样和包含转向点的最新近(前 一个)采样之间的采样数量来完成的。
在步骤620,采样标识符、转向点指示符、从所选择的釆样中的 转向点到前 一 个转向点之间的时间距离、以及当前转向点的幅度都被 保存。
当所选择的釆样不包括转向点时或在步骤616之后,在决定菱形 框624中确定是否有下一个采样。如果有,那么检测器返回到步骤604。 如果没有,那么在决定菱形框628中,检测器确定所记录的数据是否 定义了样式。当所记录的数据很可能定义了样式时,在步骤632,检 测器断定在所选择的分组中的音频采样不是静音并且不考虑由另一 个技术例如使用噪声底限波形所作出的任何相反的决定。当所记录的 数据很可能不定义样式时,在步骤636,检测器断定在所选择的分组 中的音频采样不是固定信号。因此,不对另一个技术所确定的结果作 任何改变。
依据帧的内容,其或者被作为静音丢弃,或者被作为活动信号被 组包并发送到目的地端点。
本发明的多个变形和修改可以被使用。有可能提供本发明的 一些 特征而不提供其它特征。
例如在一个可选实施例中,本发明被用于非VoIP应用,比如话 音编码和自动话音识别。
在另一个实施例中,包括但不局限于专用集成电路或ASIC、可 编程逻辑阵列、和其它硬件设备的专用硬件实施方式可同样被构建来 实施这里描述的方法。而且,包括但不局限于分布式处理或组件/对象 分布式处理、并行处理、或虚拟机处理的可替换软件实施方式也可被
构建以实施这里描述的方法。
还应当说明,本发明的软件实施方式被任选地存储在有形的存储 媒体上,比如如盘或磁带的磁媒体、如盘的磁光或光媒体、或如存储 卡或容纳有一个或多个只读(非易失)存储器的其它封装的固态媒体。 电子邮件的数字文件附件或其它自包含信息档案或档案组被认为是 等同于有形存储媒体的分布媒体。因此,本发明被认为包括本发明的
可识别出的等同体和后续媒体。
尽管本发明参考特定标准和协议描述了在诸实施例中实施的组 件和功能,但是本发明并不局限于这些标准和协议。在此没有提及的 其它类似标准和协议也存在并被认为是包括在本发明中。此外,在此 提及的标准和协议以及在此没有提及的标准和协议周期性地被具有 实质相同功能的更快或更有效的等同体所取代。这种具有相同功能的 替换标准和协议被认为是包括在本发明中的等同体。
在各个实施例中的本发明包括实质上在这里描述和说明的组件、 方法、过程、系统和/或装置,它们包括各种实施例、子组合及其子集。 本领域技术人员在理解本公开内容后将明白如何做出并使用本发明。 在各种实施例中的本发明包括在不存在这里或在本发明各种实施例 中所描述的和/或说明的项目时(其中包括在不存在如已经被使用在之 前的,例如用于提高性能、实现简便和/或降低实施成本的设备或过程 中的项目时)提供设备和过程。
本发明的前述讨论已经被提出用于说明和描述目的。前述内容并 不是意在将本发明限制在这里描述的一个或多个形式中。例如在前述具体实施方式
中,本发明的各种特征被一起分组在一个或多个实施例
中以使得描述流畅。本公开内容的方法不应解释为反映这样的意图 所要求保护的发明比每个权利要求中所明确叙述的内容需要更多特 征。而是,如后面的权利要求所反映的,本发明的方面存在于少于单 个前面描述的实施例中的所有特征。因此,后面的权利要求被结合到 该具体实施方式
中,每个权利要求本身都作为本发明单独的优选实施
例。
此外,虽然本发明的描述包括了对一个或多个实施例和特定变形 和修改的描述,但是其它变化和修改同样处于本发明的范围之内,例 如在本领域技术人员理解本公开内容后,处于其技术和知识范围内。 其意在获取包括可允许程度的可选实施例的权利,这些实施例包括与 要求保护的内容可替换的、可互换的和/或等同的结构、功能、范围或 步骤,无论这种可替换的、可互换的和/或与等同的结构、功能、范围
或步骤在这里是否公开,而且并不意在公开限制说明(dedicate)任 何可专利性的主题。
权利要求
1.一种方法,包括(a)接收多个音频采样,这些音频采样定义了采样的信号段;(b)在由这些音频采样定义的信号幅度波形中识别转向点;(c)确定所识别出的转向点是否代表实质上固定的功率级别的信号;以及(d)当所识别出的转向点代表实质上固定的功率级别的信号时,认为所采样的信号段包括活动信号。
2. 如权利要求l所述的方法,其中所采样的信号段被作为第一 和第二方之间实况语音呼叫的一部分而接收,其中所述转向点对应于 信号幅度波形中的峰值和谷底,其中,当所识别出的转向点代表实质 上固定的功率级别的信号时,所采样的信号段被认为包括周期性的样 式,其中静音抑制生效,其中,当所采样的信号段包括活动信号时, 传输所述多个音频采样到目的地节点,并且其中当所采样的信号段不 包括活动信号和当该段不包括第一和/或第二方的语音能量时,不将所述多个音频釆样传输到目的地节点。
3. 如权利要求l所述的方法,其中该方法被用于确定抖动緩沖 器调整点,并进一步包括(e) 识别在信号幅度波形中相邻的、所识别出的转向点之间的 时间距离;(f) 确定所述相邻的、所识别出的转向点之间的时间距离是否 代表实质上固定的功率级别的信号;以及(g) 当所述时间距离代表实质上固定的功率级别的信号和当所 识别出的转向点代表实质上固定的功率级别的信号时,认为所采样的 信号段包括活动信号,其中,在确定所采样的信号段是否包括活动信 号时,步骤(c)的结果比步骤(f)的结果更重地被加权。
4. 如权利要求l所述的方法,其中转向点不是零交叉,并且其 中,当所识别出的转向点代表实质上固定的功率级别的信号时,所采样的信号段被认为包括进程音。
5. —种计算机可读媒体,包括用于执行权利要求1的步骤的处 理器可执行指令。
6. —种设备,包括(a) 输入装置,用于在语音通话期间接收模拟音频信号;(b) 转换装置,用于将该模拟音频信号转换成它的数字表示, 该数字表示包括多个话音帧,每个话音帧包括多个音频采样,每个音 频采样包括信号幅度并具有固定的持续时间;(c) 识别装置,用于在音频采样中识别信号幅度转向点;(d) 确定装置,用于确定所识别出的转向点是否代表周期性信 号;以及(e) 传输装置,用于当所识别出的转向点代表周期性信号时, 将所选择的话音帧传输到目的地端点。
7. 如权利要求6所述的设备,其中当所识别出的转向点代表周 期性信号时,不允许抖动緩冲器进行调整,并且其中当所选择的帧不 包括语声的话音时,传输装置不将所选择的话音帧传输到目的地端点 并且不允许抖动緩沖器进行调整。
8. 如权利要求6所述的设备,其中该周期性信号具有实质上固 定的功率级别,其中该识别装置识别在相邻的、所识别出的转向点之 间的时间距离,其中该确定装置确定相邻的、所识别出的转向点之间 的时间距离是否代表周期性信号,并且其中所述该时间距离代表周期 性信号和当所识别出的转向点代表周期性信号时,所选择的帧被认为 包括进程音。
9. 如权利要求6所述的设备,其中所述转向点不是零交叉,并 且其中当所识别出的转向点代表周期性信号时,所采样的信号段被认 为包括进程音。
10. 如权利要求6所述的设备,其中该设备是网关。
11. 如权利要求6所述的设备,其中该设备是分组交换语音通信设备。
全文摘要
本发明涉及一种语音活动检测器,该语音活动检测器使用幅度峰值和谷底的周期来识别实质上固定的功率或具有周期的信号。
文档编号G10L11/00GK101202040SQ20071014131
公开日2008年6月18日 申请日期2007年8月6日 优先权日2006年9月19日
发明者卢克·A.·塔克, 王明盛 申请人:阿瓦雅技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1