Methodandmeansforencodingbackgroundnoiseinformation的制作方法

文档序号:2823072阅读:261来源:国知局
专利名称:Method and means for encoding background noise information的制作方法
技术领域
本发明涉及在语音信号编码方法中用于对背景噪声信息进行编码的方法和装置。
背景技术
对于电话通话来说,自电信的开始起就为模拟的语音传输设置了带宽限制。语音 传输在从300Hz到3400Hz的受限制的频率范围上进行。在许多语音信号编码方法中,也为现今的数字电信设置了这样的受限制的频率范 围。在编码过程之前,为此实施模拟信号的带宽限制。在此为进行编码和解码而使用编码 解码器,由于所说明的在处于300Hz与3400Hz之间的频率范围中的带宽限制,下面也将该 编码解码器称作窄带的语音编码解码器(Narrow Band Speech Codec)。其中所述编码解码 器这个概念不仅指用于对音频信号进行数字编码的编码准则,而且指用于以重建音频信号 为目的的对数据进行解码的解码准则。窄带的语音编码解码器比如从ITU-T-介绍G. 729中得到公开。借助于在该文献 中所说明的编码准则来规定以8kbit/s的数据率来传输窄带的语音信号。此外还已知所谓的宽带的语音编码解码器(Wide Band Speech Codec),所述宽带 的语音编码解码器为改善听觉印象而规定在扩大了的频率范围内进行编码。这样扩大了的 频率范围比如在50Hz与7000Hz的频率之间。宽带的语音编码解码器比如从ITU-T-介绍 G. 729. EV中得到公开。通常以可缩放的方式来设计用于宽带的语音编码解码器的编码方法。这里可缩放 性是指,所传输的经过编码的数据包含不同的隔开的数据块,所述数据块包含经过编码的 语音信号的窄带部分、宽带部分和/或完全的带宽。这样的可缩放的设计一方面允许接收 者方面的向下兼容性,并且另一方面提供了一种简便的方案,即在传输信道中数据传递容 量受限制的情况下在发送者与接收者方面对所传输的数据帧的数据率与大小进行调整。为通过编码解码器降低数据传输率,通常压缩有待传输的数据。比如通过编码方 法进行压缩,在该编码方法中为对语音数据进行编码而确定用于激励信号的参数和滤波参 数。然后将所述滤波参数以及详细说明所述激励信号的参数传输给接收者。在那里借助所 述编码解码器将合成的语音信号合成,该合成的语音信号在主观的听觉印象方面与原始的 语音信号尽可能地相似。借助于所述也称作“综合分析(Analysis-by-Synthesis) ”的方法 不是传输所求得的并且数字化的扫描值(样本)本身,而是传输所求得的参数,所述参数能 够实现语音信号的接收者方面的合成。另一项用于降低数据传输率的措施提供了一种用于进行不连续传输 (Discontinuous Transmission)的方法,该方法在学术界也在DTX这个概念下为人所知。 DTX的基本目的是在讲话停顿期的情况下降低数据传输率。为此在发送者方面使用话音激活检测系统(Voice Activity Detection,VAD),该 话音激活检测系统在低于特定的信号电平时识别出讲话停顿期。通常在讲话停顿期内,接收者不希望出现完全的静默。相反,完全的静默会使接收者烦躁或者甚至使其推测出现连接中断。由于此原因,使用用于产生所谓的舒适噪声 (Comfort Noise)的方法。舒适噪声是为了在接收者方面填充静默阶段而合成的噪声。该舒适噪声用于对继 续存在的连接产生主观印象,而不要求为语音信号的传输设置的数据传输率。换句话说,发 送者方面用于对噪声进行编码的花费小于用于对语音数据进行编码的花费。不仅对接收 者感觉到的而且对实际上感觉到的对舒适噪声的合成来说,都以低得多的数据率来传输数 据。在这种情况下所传输的数据在学术界也称作SID(静默插入描述(Silence Insertion Description))。目前的可缩放的用于宽带语音编码解码器的编码方法目前没有规定任何用于进 行不连续传输的方法。在现有技术中,在结合接收者方面的舒适噪声发生器(CNG Comfort Noise Generator)应用不连续传输(DTX)方面存在问题。目前公知的用于进行不连续传输的方法只有在编码器方面在非有效的讲话周期 (讲话停顿期)期间探测到背景噪声的能量的显著变化时才规定传送具有更新的用于表征 背景噪声的参数的SID帧。这不仅涉及窄带的(50Hz到4kHz)语音编码解码器而且涉及对 用于进行不连续传输的方法提供支持的宽带的语音编码解码器。通常在决定传送具有更新 的参数的SID帧时使用在解码器中指定的能量极限值(能量阈值)。这导致在未超过指定 的能量极限值时不发送SID帧。但是从接收者与发送者之间的传输网络方面则将SID帧的 发送的这样的中断视为静止状态或者说“空闲信道”。为保证维持连接(“连接有效”),而 后可能需要额外的数据交换,用于显示应该维持所述连接。目前如此进行公知的额外设置的数据交换,即传输网络的网络管理中的管理位置 要求发送性的节点也就是说发送性的编码器重新传送最后传送的SID帧,如果直到最后发 送的SID帧所经过的空闲时间(“空闲周期”)对相应的连接来说被认为太长的话。对于这 样的重新传送来说,没有对重新发送的SID帧的参数进行更新。因而所述编码器不执行任 何额外的动作。

发明内容
本发明的任务是,说明一种在可缩放的语音编码解码器中得到改进的实施不连续 传输的方法。该任务通过独立权利要求的主题得到解决。本发明的基本构思在于,如此构造语音编码解码器的编码器,使得其在此前所检 测的空闲时间(“空闲周期”)之后重新求出或者说计算关于背景噪声的参数尤其是平均的 能量和自相关函数。换句话说,所述背景噪声参数的所提到的求出相当于噪声信号的编码。 网络中的管理位置在此向所述编码器通报在传输网络中所调节的空闲时间。所述编码器因 而比如通过传输网络中的管理位置的询问来确定所述空闲时间。只有在所求得的空闲时间 由编码器方面加以保存时才需要一次这样的询问。用于有待发送的SID帧的时间间隔的设置允许所述传输网络中的管理位置迫使 所述编码器发送经过更新的帧。这不仅保证更新以有利于在CNG中更好地重建背景噪声而 且保证更为可靠地保持所述连接。
所述按本发明的方法的优点在于,为决定是否应该以更新的SID帧的形式来发送 更新的背景噪声参数,不需要将所述背景噪声信号的能量与能量极限值进行比较。由此所 述方法相对于公知的方法节省了计算资源。另一个优点在于,两个SID帧之间的所设置的持续时间与相应的传输网络的要求
相一致。本发明的有利的改进方案和设计方案是从属权利要求的主题。本发明的一种有利的设计方案设置了 SID结构(SID比特流结构),对于该SID结 构来说背景噪声信息的窄带部分与背景噪声信息的宽带部分分开。对SID帧中的窄带的和 宽带的背景噪声信息进行分开处理实现了对所述背景噪声的窄带的和宽带的部分进行分 开的编码,并且使处理变得透明。此外,这种设计方案具有这样的优点,即接收者方面可以 确定,应该在所传输的SID帧的宽带部分的基础上还是应该在所述窄带部分的基础上产生 舒适噪声。这在降低用于语音信息帧的传输率从而还仅仅传输窄带的语音信息这种情况中 对于接收者方面的声学上的接收来说特别有利。也就是说如果像在如今的现有技术中一样 结合宽带的噪声对窄带的语音信息进行合成,那么这对接收者来说是十分烦人的。所述的 降低用于语音信息帧的传输率比如可能由发送者与接收者之间的网络的高负荷(拥堵)所 引起。小得多的SID帧不受这样的网络瓶颈的影响。因而对于所述小得多的SID帧来说既 不要强制降低其数据传输率又不要强制减少其内容。本发明的一种有利的设计方案规定,为确定所述背景噪声的窄带的第一部分的背 景噪声参数而求得所述背景噪声的能量和自相关函数。在所述窄带部分中,需要在讲话停 顿期的较长的时间段里、在实际上在比如100ms的时间段里进行求平均。所使用的按这种 实施方式的计算参量在此包括所述能量(不是对数的能量)和所述自相关函数。按照本发明的另一种有利的设计方案,在分类为非有效的或者分类为讲话停顿期 的时间区段开始时,引入额外的挂起周期(Hangover Period)。新引入的挂起周期下面称 为DTX挂起周期与以往公知的VAD挂起周期(Voice Activity Detection)相比,它用于 其它的以往未知的目的。所述两种挂起周期跟踪将多个帧标识为有效的语音帧并且由此在语音信号结束 时避免错误的分类这个目标,而所述DTX挂起周期则具有额外的目的,也就是获取关于背
景噪声的信息。本发明的一种有利的设计方案规定,抑制所述宽带的第二部分。所述宽带部分的 抑制在抑制宽带部分中的全部能量部分时起作用。该措施由于用于在解码器中产生(合 成)舒适噪声的发生器不能产生和编码器中的原始背景噪声相同的噪声特性这个事实而
有必要。本发明的一种有利的设计方案规定,将后置去加重滤波器(“De-emphasis Post Filter")运用到整个背景噪声信号上也就是运用到由宽带的和窄带的部分构成的组合上。 所述“后置去加重滤波器”导致能量的去加重(De-Emphasis)和更高的频率成分的去加重。 因为求平均以特定的方式使频谱的包络线变形,所以这种抑制以有利的方式有助于降低受 干扰的宽带的噪声对人类接收者产生的干扰性效应。


下面借助于附图对本发明的具有其它优点和设计方案的实施例进行详细解释。在此,唯一的附图是在解码器上从分类为语音的输入信号到分类为背景噪声的输 入信号的过渡的时间图。
具体实施例方式下面首先在不参照附图的情况下对作为本发明的基础的技术背景进行详细说明。在现有技术中在结合接收者方面的舒适噪声发生器(CNG Comfort Noise Generator)运用不连续传输(DTX)方面存在着问题。在DTX/CNG操作过程中,必须考虑到 以下方面1.从CNG方面需要恰当地产生背景噪声或者说舒适噪声,所述背景噪声或者说舒 适噪声的产生应该在接收者方面被听者理解为实际的噪声。在使用宽带的语音编码解码器 也就是比如具有处于50Hz与7kHz之间的频率的带宽的语音编码解码器的情况下,将宽带 的噪声的产生视为变差。除此以外,在解码器方面和编码器方面所述背景噪声的特征或者 说“音色”不总是相同的,因而目前的设置了能量和频谱的包络线的平均值形成的解决方案 引起原始的背景噪声信息的歪曲。2.只有在从编码器方面在非有效的讲话周期(讲话停顿期)中探测到背景噪声的 能量的显著变化时,所述DTX方法才传送更新的SID帧。这不仅涉及窄带的(50Hz到4kHz) 语音编码解码器而且涉及支持所述DTX/CNG方法的宽带的语音编码解码器。通常在此能量 极限值(能量阈值)起着重要作用。这导致在未超过指定的能量极限值时不发送SID帧。 但是从接收者与发送者之间的传输网络方面将SID帧的发送的这样的中断视为静止状态 或者说“空闲信道”。为保证维持连接(“连接有效”),可能需要额外的数据交换,用于显示 应该维持所述连接。目前按如下方法来处理上面所提到的问题关于第一点在SID帧中对涉及宽带部分的信息进行编码。在此将经过平均的对 数的能量和经过平均的导抗谱频率(ISF)比如在语音编码解码器G.722.2和AMR-WR中用 于描述宽带的背景噪声。在此没有分开处理所述宽带的背景噪声的下面部分和上面部分。 窄带的语音编码解码器G. 729使用经过平均的对数的能量和经过平均的自相关函数。所述 能量的平均周期和所述自相关函数的平均周期在此不一致。关于第二点网络管理中的管理位置要求发送性的节点也就是说发送性的编码器 重新传送最后传送的SID帧,如果“空闲周期”对所属的连接来说被认为太长的话。因此, 所述重新发送的SID帧和包含在其中的信息未更新。所述编码器因此未执行额外的动作。按本发明的方法规定,如此构造所述编码器,使得该编码器在特定的给定的时间 之后重新计算经过平均的能量和自相关函数。网络中的管理位置在此向所述编码器通报所 需要的空闲时间。下面对其它的用于产生SID帧的实施方式进行说明。产生SID结构(SID比特流结构),对于所述SID结构来说所述背景噪声信息的窄带 部分与所述背景噪声信息的宽带部分分开。对SID帧中的窄带的和宽带的背景噪声信息进行 分开处理实现了对所述背景噪声的窄带部分和宽带部分进行分开编码并且使处理变得透明。
在所述窄带部分中,需要在讲话停顿期的较长的时间段里实际上在比如IOOms的 时间段里进行平均。所使用的计算参量在此包括所述能量(不是对数的能量)和所述自相 关函数。所述自相关函数用于频谱包络线描绘。总放大率在此可以通过所有放大方法和求 平均方法的组合来补偿。用于所述自相关函数的数值通过相加或者平均值形成相应地标准 化(等权重)。这涉及所有SID帧。所述窄带部分的较长的求平均导致所述窄带的能量和 频谱的包络线的平滑,使得突然的能量变化没有导致对接收者中的舒适噪声的合成产生明 显的影响。相同的平均周期在开始语音信号(语音脉冲)之后产生第一个SID帧之后不仅 用于所述能量而且用于对频谱的包络线求平均。该措施保证在从讲话周期过渡到讲话停顿 期的过程中对所述窄带的背景噪声进行更为一致的评估。下面参照附图。附图示出了语音信号(语音脉冲),该语音信号在特定的时刻t低 于特定的信号电平阈值,在附图中作为虚线示出了所述阈值。纵坐标是指信号的电平或者 能量值。为此在发送者方面使用话音激活检测系统(Voice Activity Detection,VAD),该 话音激活检测系统在低于所述阈值时识别出讲话停顿期。所述VAD方法设置了公知的挂起 周期VAD-H0,此外在所述挂起周期VAD-HO中发送有效的语音帧并且只有在通常两个帧长 度之后才转换为产生SID帧的模式。按照本发明的这里所说明的实施方式,引入了额外的挂起周期DTX-H0。所述新的 挂起周期DTX-HO连接在以往公知的用作“黑盒子”的挂起周期VAD-HO上。在这个挂起周 期DTX-HO中,还总是将在编码器中经过处理的信号分类为语音信号,而与此同时已经开始 确定背景噪声参数。在此已经降低了语音编码的数据率,因为在讲话停顿期的开始时不需 要高质量的编码。此外,对于所述窄带部分来说,将所述挂起周期的一部分用于所述第一个 SID帧的平均值形成。前面提到的实施方式优选涉及挂起周期DTX-H0、VAD_H0内的最后的 帧FRAMES。相反,优选不使用所述挂起周期的第一个帧的信息。新引入的挂起周期DTX-HO与以往由话音激活检测系统(Voice Activity Detection)的需求激起的公知的挂起周期VAD-HO相比用于其它以往未受重视的目的。所 述两种挂起周期DTX-HO、VAD-HO跟踪着将多个帧标识为有效的语音帧并且由此避免在语 音信号结束时错误的分类这个目标,而所述DTX挂起周期DTX-HO则具有获取关于背景噪声 的信息这个额外的目的。关于所跟踪的避免在语音信号结束时错误的分类这个目标,所述新的挂起周期 DTX-HO是额外的保险措施,即在所述挂起周期DTX-HO结束之后确定地存在着背景噪声并 且在解码器的输入端上不存在语音信号。在以往使用公知的挂起周期VAD-HO时无法排 除这种情况,即存在的信号唯一地仅仅涉及背景噪声。在实际上,在这种公知的挂起周期 VAD-HO中还出现语音部分(语音脉冲)。此外,所述新的挂起周期DTX-HO仅仅用于获取背 景噪声。关于这种挂起周期DTX-HO、VAD-HO的持续时间的选择以及由此关于帧FRAMES的 数目的选择,比如应该如此选择一种有利的设置,从而为所述公知的挂起周期VAD-HO设置 两个帧的持续时间_参照用虚线绘出的轴帧_并且为所述新的挂起周期DTX-HO设置了五 个帧的持续时间。在所述宽带部分中实施能量抑制。所述宽带部分的抑制在抑制宽带部分中的总能 量部分时起作用。这项措施由于用于在解码器中产生(合成)舒适噪声的发生器不能产生与编码器中的原始背景噪声相同的噪声特性这个事实而有必要。 将后置去加重滤波器(“De-emphasis Post Filter”)运用到输出的宽带语音信 号上也就是运用到由宽带的和窄带的部分构成的组合上。这种滤波器主要抑制更高的频率 成分。此外,所述“后置去加重滤波器”导致能量的去加重(De-Emphasis)和更高的频率成 分的去加重。因为求平均以特定的方式使频谱的包络线变形,所以这种抑制可以有助于降 低受干扰的宽带的噪声对人类接收者产生的干扰性效应。
权利要求
用于为通过传输网络来不连续传输背景噪声参数而产生SID帧的方法,其中,周期性地求得背景噪声参数并且在所求得的背景噪声参数的基础上产生和发送SID帧,其中所述周期相当于所述传输网络的所求得的空闲时间。
2.按权利要求1所述的方法,其特征在于,求得窄带的第一部分的和宽带的第二部分 的背景噪声参数并且产生具有用于所述第一部分和所述第二部分的分开的区域的SID帧。
3.按权利要求2所述的方法,其特征在于,为确定所述背景噪声的窄带的第一部分的 背景噪声参数而求得所述背景噪声的能量和自相关函数。
4.按权利要求3所述的方法,其特征在于,在100毫秒的时间段里对所述窄带的第一部 分的背景噪声参数求平均。
5.按前述权利要求中任一项所述的方法,其特征在于,在从分类为语音的信号向分类 为背景噪声的信号过渡时设置了额外的挂起周期,在该挂起周期中确定背景噪声参数。
6.按权利要求2到5中任一项所述的方法,其特征在于,抑制所述宽带的第二部分。
7.按前述权利要求中任一项所述的方法,其特征在于,将后置去加重滤波器运用到整 个背景噪声信号上。
8.具有用于实施按权利要求1到7中任一项所述的方法的装置的编码解码器。
9.按权利要求8所述的编码解码器,其特征在于以本身公知的ITU-T标准G.729. 1进 行实施。
全文摘要
文档编号G10L19/00GK101952887SQ20098010577
公开日2011年1月19日 申请日期2009年2月2日 优先权日2008年2月19日
发明者Schandl Stefan, Setiawan Panji, Taddei Herve 申请人:Siemens Entpr Communications
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1