加权叠加方法

文档序号:2829994阅读:1079来源:国知局
专利名称:加权叠加方法
技术领域
本发明涉及信号处理。更具体地,本发明涉及一种方法、设备和 装置,其能使在信号子序列的加权叠加中出现的信号伪现象减轻。应 用包括信号处理,例如降噪、增强、编码、隐藏和合成。作为示例, 通过本发明改善语音和音频降噪、增强、编码、隐藏和合成应用。本 发明有利地应用于关于减轻电信和无线通信系统中的信号信息包的丢失和/或延迟4牛动和/或时钟歪斜(clock skew)的影响的系统。
技术背景本发明在此从其在电信系统中的应用得到启发,特别是关于其在 减轻信号信息包的丢失和/或延迟抖动和/或时钟歪斜的影响的应用。通 过阅读本发明的摘要、优选实施方式、附图和权利要求书,对本领域 的技术人员来说,本发明通常在信号数字处理中应用加权叠加过程的 情况下具有应用优势是显而易见的。现代电信是基于信号的数字传输的。例如,在图1中,发射机200 收集来自源100的声音信号。这个源可以是一个或者多个人的谈话结 果和由麦克风收集的其他声波源,或者其可以是声音信号存储或者产 生系统,例如文本到语音合成或者对话系统。如果该源信号是模拟的, 则其通过模拟_数字转换器转换为数字表示形式。根据适合数字信道 300的格式,对该数字表示随后进行编码和打包。该信息包在该数字信 道上传输。该数字信道典型地包含多个抽象层。
在图1中的抽象层,该数字信道接收一系列信息包作为输入,并 传送一系列信息包作为输出。由于典型地在信道中的噪音、缺陷(imperfection)和过载导致的信道中的衰减,输出的信息包序列典型 地受到 一些信息包丟失以及其他信息包的到达时间延迟和延迟抖动的 损害。另外,发射机与接收机的时钟差能够引起时钟歪斜。接收机400 的任务是对从信息包流接收的数据包进行解码,并且将解码的数字表 示转换并解码为数字信号表示,并进一步将这些表示转换为具有适于 输出到信号信宿(signal sink) 500的格式的解码的声音信号。这个信 号信宿可以是一个或者更多个人,通过例如一个或者多个扩音器将该 解码的声音信号提供给他们。可选地,该信号信宿可以是语音或者音 频存储系统,或者语音或者音频对话系统或者识别器。接收机的任务是精确地重现能够向该信宿提供的信号。当该信宿 直接或者间接地包括收听人时,该接收机的目的是获得这样的声音信 号的表示当呈现给该收听人时,该表示精确地重现能够由人类感知 的印象和来自 一个或多个源的声音信号信息。为了在由于信道丟失、 延迟、延迟抖动和时钟歪斜而使接收的信息包序列变差的通常情况下 确保这个任务,需要一个有效隐藏作为该接收机子系统的一部分。作为示例,图2中所示的是完成这个任务的接收机子系统的一个 可能实现。如这个图中所示,进来的信息包保存在抖动緩冲器410中, 从所述抖动缓冲器410,解码和隐藏单元420获得接收的编码信号表示, 并且将这些编码信号表示解码和隐藏,以获得适于存储在播放緩沖器 430中并随后播放的信号表示。控制何时开始隐藏和这个隐藏的哪些特 定参数,例如隐藏信号的长度,可以例如由控制单元440来完成,其 监控该抖动緩冲器和该播放緩沖器的内容,并控制该解码和隐藏单元 420的作用。隐藏也可作为信道子系统的一部分来实现。图3所示的是一个信 道子系统例子的示意图,其中信息包经由子系统320 ,人信道310转发 到信道330,我们在后面以术语中继引用。在实际系统中,中继功能可 由多个单元来完成,这些单元可采用多种上下文相关名称,例如各种 类型的路由器、代理服务器、边缘服务器、网络接入控制器、无线局 域网控制器、IP语音网关、媒体网关、未经授权的网络控制器和其他 的名称。在本上下文中所有这些都是中继系统的例子。图4中所示的是能够进行音频隐藏的中继系统的一个例子。如这 个图中所示,信息包经由信息包交换子系统320和350从输入緩沖器 310转发到输出緩沖器360。该控制单元370监控该输入和输出緩冲器, 并且作为这个监控的结果,确定是否需要译码和隐藏。如果需要,则 这些交换子系统经由该译码和隐藏单元330控制该信息包。如果不需 要,这些交换子系统经由最小协议作用子系统340控制该信息包,最 小协议作用子系统340将在该信息包报头上执行最小操作,以保持与 应用的协议一致。这可包括改变该信息包的序列号和时间戳的步骤。在利用但并不限于上面举例说明的系统来传输音频信号时,需要 隐藏表示或者部分表示声音信号的信号中的丢失、延迟、延迟抖动、 和/或时钟歪斜。有时包含在振荡器模块中的基音重复(pitch repetition) 方法,基于的是对有声语音中基音周期的估计,或者可选地,基于的 是对有声语音信号的相应基频的估计。给定基音周期后,通过反复读 取最后的基音周期来获得隐藏帧。可利用窗口叠加过程来使隐藏帧在 开始和结束处的不连续,以及基音周期的每次重复之间的不连续平滑。 对于基音重复方法的例子,参阅专利WO 0148736和国际电信联盟规
则ITU-TG.711附录1。在先技术系统将基于基音重复的隐藏与基于线 性预测编码原理的解码器集成在一起。在这些系统中,该基音重复典 型地在线性预测激励域中通过从长期预测程序或者自适应码本循环的 读取来实现。对于线性预测激励域中基于基音重复的隐藏的例子,参阅 专利US5699481,国际电信联盟规则ITU-TG.729,和因特网工程任务 组请求说明3951 (Internet Engineering Task Force Request For Comments 3951)。上面的方法适于隐藏丟失或者渐增的延迟,即正延迟抖动,和 例如由于时钟歪斜的原因而引起的输入或者抖动緩冲器的下溢或者接 近下溢的情况。为了隐藏渐减的延迟、负延迟抖动、或者输入或抖动 緩沖器的上溢或者接近上溢,需要产生缩短的隐藏信号。基于基音的 方法通过在基音周期和在先基音周期之间的叠加过程来实现这点。对 于这种方法的例子,参阅专利WO 0148736。同样这点可以在4吏用线性 预测解码器中存在的手段时实现。举例来说,专利US5699481公开了 一种方法,通过该方法,依赖于该自适应码本的状态,固定码本贡献 矢量从再现信号中被完全丟弃,以确保该再现信号中的基音周期。关 于基音重复方法, 一个目的是从隐藏帧到下一个帧的无缝信号连续。 专利WO0148736公开了一种达到这个目的的方法。利用WO0148736 中公开的发明,通过时变隐藏帧和可能信号相关长度来达到这个目的。 虽然这能够有效地确保与延迟抖动和时钟歪斜的隐藏有关的无缝信号 连续,但是,这个方法引入了与图4中所示类型的系统有关的缺点 依据这种类型的隐藏,不能确保将该隐藏编码到固定预定长度的帧中, 该固定预定长度的帧是与优选地经由最小协议作用340中继的已经编 码的帧进行无缝连接的帧。因此, 一个重要的目的是获得预定长度等于正常信号帧长度的隐
藏帧。 一个具有预定长度的隐藏方法是,完成超过预定帧长度的采样 之间的平滑叠加,该预定帧长度是隐藏帧数目的倍数,具有来自紧随该隐藏帧的该帧的采样尾部(tailing)子集。这个方法在现有技术中是 众所周知的,并被用于例如国际电信联盟规则ITU-TG.711附录1中。 在原理上,还可在连接一个帧和另一个帧时使用这个方法,其中,这 两个帧与原始音频信号中的非连续帧有关。因此,本领域的技术人员 可这样实现这点获得隐藏帧作为第一帧的继续,并且与第二帧一起 将这个隐藏帧输入到该叠加过程,从而部分地减小在该第一帧的最后 采样和该第二帧的第 一采样间的边界发生的不连续。对这些情况来说上面的方案是有问题的。这是因为,根据输入到 这个叠加过程中的两个或者多个信号的实际波形形状,结果音频信号 中会遗留明显的不连续。这个不连续会作为信号中的"冲击"或者"衰减" 而被收听人觉察到。在第一个情况中,其中涉及一个或者多个隐藏帧,这些隐藏帧的 重采样已经在文献中^是及,对于这种方法,参阅例如Valenzuela和 Animalu, "A new voice-packet reconstruction technique", IEEE, 1989 年。当目的是连接两个现有的帧而不是与隐藏帧相连时,这种方法不 提供解决方案,另外,对于隐藏帧与后续帧的连接,这个方法仍存在 问题。这是因为,为了减轻由收听人觉察到的不连续而需要的重采样 可能反而会引入明显的频率失真,即频移,这个频率失真也会由收听 人觉察到,成为令人讨厌的伪现象。发明内容本公开的发明,或者更确切地说是其具体实施方式
,有效地减轻
上面指出的已知解决方法中的局限,和已知解决方法中的以及用于信 号的数字处理的其他系统中的相关问题的解决方案中的其他未指明的 不足。根据本发明,这些目的都通过一种方法、 一种程序存储设备和 装置来达到,所有这些都是本发明的不同方面,具有如所附权利要求 书中限定的特征。本公开的发明提供了利用子序列间的加权叠加来执行信号子序列 的平滑连接的技术。典型地,但并不总是,根据相似性相关测量或者 失真测量,这些子序列是相似的但并不相同。具体地,与已知的使用 给定信号独立加权窗函数的叠加方法比较,本公开的发明提供连接具有固有不相似性(de-similarity)的信号帧的技术,与已知的现有技术 相比,具有明显较少的可察觉的伪现象。因此,本公开的发明减小现 有技术系统的局限,具有直接改善感觉质量的结果。下面的定义将贯穿使用在本发明的公开中。"采样"理解为产生自 数字化信号或者从其来源的信号的取样,或者表示这种信号的系数或 参数,这些系数或者参数为标量或者矢量值。"帧"理解为连续采样的 集合,使用上面采样的定义。"子序列"理解为一个或者多个连续采样 的集合,使用上面采样的定义。在使用例如叠加的情况下,两个连续 子序列可包括重叠采样。根据帧的选择, 一个子序列可在两个连续帧 之间扩展。在第一方案中,本发明提供一种响应采样的第一和第二子序列生 成采样的输出序列的方法,该方法包括-将加权叠加过程应用于该第一和第二子序列,以产生采样 的输出序列,
-响应该采样输出序列和釆样的一个或者多个目标序列之 间的匹配测量,优化与该加权叠加过程有关的加4又函数。该加权函数可响应采样的两个或者三个目标序列而得到优化。优选地,该优化包括调整与该加权叠加过程有关的至少 一个加4又 函数,例如,调整与该加权叠加过程有关的两个或者三个加权函数。与该加—又叠加过程有关的至少 一个加权函凄t可通过一组参数来表 示。该组参数可基于将至少一个加权函数的时间形状分解为基本窗口 形状的线性组合。该组参数可基于将至少一个加权函数的时间形状分 解为两个或者三个基本窗口形状的线性组合。该组参数的产生可包括 将至少 一个抽头延迟线应用于采样的第 一和第二子序列中的至少一 个。该组参数的产生可包括将两个抽头延迟线应用于采样的第一和第 二子序列。该组参数的产生可包括应用三个抽头延迟线。与该加权叠加过程有关的加权函数可响应该采样的输出序列与采 样的至少 一 个目标序列之间的距离测量而进行改变。这个距离测量可基于平方禾口i吴差(summed squared error), 例^口力口泽又的平方禾口i吴差。i亥 距离测量可根据最小二乘法(least squares)进行最小化,例如加权的 最小二乘法。第 一和第二子序列的采样表示数字化的音频采样,例如包括语音 的音频信号。该采样的第 一和第二子序列之一可以是隐藏采样的 一个序列。因而,本发明提供一种将加权叠加过程应用到连接两个或者多个 信号子序列的方法。叠加中的加权函数响应该叠加过程的输出和一个
或者多个目标子序列之间的失真测量而得到优化。该目标子序列构成 希望的,或者部分希望的该叠加过程的输出近似。有利地,该失真测量加权这些目标。本发明中的加权函数是带有平坦(flat)或者不平坦 (non-flat)时间和/或频率响应的一般函数。本发明的简单实施方式构 成预定窗口形状的优化标量加权,例如,用于优化该叠加过程的输出 和目标信号之间的相似性。更先进的实施方式有利地引入多个目标信 号和该加权函数的进一步有利参数化。这种有利参数化包括将标量加 权应用在多于一个加权函数上;包括将一个或者多个加权函凄t分解为 基本窗口形状的线性组合;和/或包括一个或者多个加权函数中的抽头 延迟线。有利地,平方和误差或者加权平方和误差测量在优化中得到 最小化,并且有利地将最小二乘法或者加权的最小二乘法应用于这个 最小化。在第二方案中,本发明提供一种适于执行根据第一方案的方法的 计算机可执行程序代码。这种程序代码可以以依赖机器或者独立于机 器的形式和以任一程序语言编写,例如机器代码或者高级程序语言。在第三方案中,本发明提供一种包含微处理器指令序列的程序存 储装置,例如通用的微处理器,以执行所述第一方案的方法。该存储 装置可以是任一类型的数据存储装置,例如磁盘、存储卡或者记忆棒、 硬盘等。在第四方案中,本发明提供一种用于接收数字化音频信号的设备, 例如,装置或者仪器,该设备包括-存储器装置,用于存储表示接收的数字化音频信号的釆 样,和 -处理装置,用于执行所述第一方案的方法。用适当的装置来执行本发明,例如下面的优选实施方式中描述的 装置,使得信号处理系统有效地连接相似但不相同的子序列,减轻现 有技术已知形式的加权叠加的伪现象。因此,我们的发明使得在严重 的时钟歪斜、信道损耗和/或延迟抖动的情况下在其中获得高质量的双 向音频通信。


下面参照附图对本发明进行更详细的描述,其中图1所示的是已知的易受到丢失、延迟、延迟抖动和/或时钟歪斜 影响的端到端信息包交换声音传输系统的方框图。图2是示例性的接收机子系统,在控制单元的控制下,该接收机 子系统完成抖动-緩冲、解码和隐藏、以及播放緩冲;图3所示的是易受时钟歪斜、丢失、延迟和延迟抖动影响的信息 包交换信道的中继子系统的示意图;图4是示例性的中继子系统,在控制单元的控制下,该中继子系 统完成输入緩冲、输出緩沖、并在需要时进行译码和隐藏;图5所示的是本发明的一组优选实施方式的方框图;图5A所示的是隐藏帧中的子序列的概略图,其以相反的时间顺序 从基于最后緩沖的子序列的子序列开始;图5B所示的是隐藏帧中的子序列的较大序列的另一个例子,其以 相反的时间顺序从最后两个緩沖子序列开始,并且其中连续子序列基
于进一步在时间上向后的緩冲的子序列;图5C示出由后退(stepback)和读取长度格式化的索引模式下的 采样计数索引;图6所示的是涉及索引和插值函数的信号的概略图;图7所示的是执行停止标准判断逻辑的一种可能方式的流程图;图8所示的是实现平滑和均等化、停止标准和允许重复数量的迭 代联合优化的一种可能方式的流程图;图9所示的是与相位调节滤波器的初始化和馈送有关的环形移位 和叠加的4吏用,和图10所示的是所公开的加权叠加过程的一种实施方式。虽然本发明容许各种改变和可选择的形式,但是,通过示例对具 体实施方式在附图中进行了显示,并将在这里进行详细描述。但是, 应该理解,本发明并不意在限定于公开的特定形式。相反,本发明应 涵盖所有的改变、等效形式和可选择的形式,这些形式都在由所附的 权利要求书限定的本发明的构思和范围之内。
具体实施方式
下面,结合隐藏帧的产生对本发明进行描述。但是,正如将从权 利要求书的范围可以理解的,本创造性的连接方法具有比其更广的应 用范围。该创造性的方法在如图2中所示接收机的解码和隐藏单元420中 被激活,或者在如图4所示中继的译码和隐藏单元330中被激活,或
者在其作用适当的通信系统的任一其他位置被激活。在这些位置可获得大量緩沖信号帧,并需要大量的隐藏帧。可获得的信号帧与需要的 隐藏帧可由音频信号例如语音信号的时域釆样组成,或者它们可由从 其起源的采样组成,例如线性预测激励釆样,或者它们可由来自该音 频信号和声音信号帧的完全或者部分表示的其它系数组成。这种系数 的示例是频域系数、正弦模型系数、线性预测编码系数、波形内插系 数,和其他完全或者部分表示该音频信号采样的系数组。图5所示的是本发明的优选实施方式。根据图5,可获得的信号帧 595存储在帧緩沖器600中,该信号帧595可以是来自这个或者其他方 法的较前操作中接收和解码或译码的信号帧或者隐藏帧,以产生隐藏 帧或者上述类型的信号帧组合。该帧緩沖器中的信号由索引模式发生 器660分析。该索引模式发生器能够方便地利用信号基音596和合声 597的估计。根据整个系统的设计,来自其他过程例如编码、解码或者 译码过程的这些估计可用于输入,或者它们通过其它的方法,优选地 利用现有技术的信号分析方法进行计算。而且,该索引模式发生器将 要产生的隐藏信号帧的数目598作为输入,并且将599指向该帧緩冲 器中该一个或多个隐藏帧取代的特定信号帧的开端和末端。作为示例, 如果这些緩冲器指向该帧缓冲器的末端,那么这表示该一个或多个隐 藏帧应当适于跟随存储在该帧緩沖器中的信号。作为另一个示例,如 果这些指针指向帧緩冲器中的连续帧的一个非空子集,那么这表示该 一个或多个隐藏帧应当取代表示或者部分表示声音信号的帧序列中的 这些帧。为了进一步说明这一点,假定该帧緩沖器600包括信号帧A、 B、 C、 D、 E,并且隐藏帧598的数目为2。那么,如果取代599的帧的指 针指向该帧緩冲器的末端,这表示两个隐藏信号帧应当顺次紧随信号帧E之后。相反地,如果指针599指向信号帧B、 C、 D,那么这两个 隐藏帧应当取代信号帧B、 C、 D,并顺次紧随在信号帧A之后,并且 由信号帧E顺次紧随其后。关于确定隐藏帧598的数目和隐藏帧最终要取代的帧子集,即, 指针599的方法,优选使用现有技术方法。这样,凄t据596、 597、 598 和599与该信号帧595 —起构成向本发明的方法的装置和i殳备的输入。在某个整体系统的设计中,在该隐藏单元的执行期间,信号帧的 长度或者维数(dimension)有利地保持为常数。在其他情况中,这典 型的是当该隐藏单元集成在中继系统中时,在该中继系统中,该隐藏 的结果应当置于表示在预定长度的时间间隔内的声音信号的信息包 中,另外确定该预定长度。作为示例,这个预定长度可以在IP系统的 语音呼叫建立期间的协议协商期间确定,并可在响应例如网络拥塞控 制机制的对话期间改变。正如将在后面会变得清楚的,本发明的一些 实施方式以有利的方式满足以预定长度的信号帧工作的要求。但是, 这种创新并不限于这些系统的要求;本创新的其他实施方式能够以非 整数数目的帧的隐藏和具有时变长度的隐藏帧进行工作,其中这些长 度也许与其他要素结合,能够是该帧緩沖器中的特定内容的函数。本发明的实施方式可有利地利用平滑和均等操作610对来自该帧 緩沖器的信号605进行操作。这个平滑和均等产生信号615,其中在时 间上比隐藏帧早的帧与该隐藏帧替代的信号帧或直接在其之前的帧具 有增加的相似性。可选地,如果该隐藏帧与没有替代的现有帧被顺次 插入,那么和与直接在隐藏帧的预期位置之前的帧是类似的。用于后 面引用,我们简单地称这两种情况为相似。相似正如收听人所理解的。
平滑和均等获得具有增加的相似性的信号,同时保留信号615自然的声音变化。相似性增加操作的例子由该平滑和均等610有利地执行,包括参数中增加的平滑度和相似性,例如能量包络、基音轮廓、声音 等级、声音中断、语包络和其他感知方面的重要参数。关于每个这些参数,过滤出在要被平滑和均等的帧内的参数变化 中的瞬间突变,并且这些帧中的参数的平均水平被平滑地修改,从而 在上面定义的相似含义上变得更加相似。有利地,仅在一定范围内引入相似性,其仍保持信号的自然声音变化。在该索引模式发生器660 的控制下,平滑和均等能够有利地减轻否则可出现在随后的索引和插 值操作620中的瞬变和不连续。此外,基音轮廓的平滑和均等能够有 利地通过该索引模式发生器660以最小化失真的方式得到控制,否贝'j, 其最终由相位滤波器650在后面引入到隐藏帧中。该平滑和均等操作 能够有利地利用信号或对在帧緩冲器600中在时间上更向后所得到的 信号帧(或从其导出的参数)进行参数替代、混合、插值和/或合并。 该平滑和均等操作610能够从该系统中省去,这并不脱离本发明的通 常的范围。在这种情况下,信号615等同于信号605,并且在那种情况 下,索引模式发生器660的信号输入656和控制输出665能够从系统 设计中省略。索引和插值操作620将可能经过平滑和均等的信号615和索引模 式666作为输入。此外,在本发明的一些有利实施方式中,索引和插 值操作将匹配质量指示器667作为输入。该匹配质量指示器可以是每 个瞬间时刻的标量值,或者其可以是时间和频率的函数。该匹配质量 指示器的目的在本说明书的后面会变得明显。该索引模式666确定该 索引和插值函数操作的参数。
图5A所示的是索引模式是如何可以在一个或者多个隐藏帧的合 成中逐渐在时间上向后移动中,对緩冲采样中的子序列BS1、BS2、BS3、 BS4建立索引的。在所示的示例中,隐藏帧CF1、 CF2、 CF3中的连续 子序歹iJCS1、 CS2、 CS3、 CS4、 CS5、 CS6、 CS7基于帧BF1、 BF2中 的采样的緩冲子序列BS1、 BS2、 BS3和BS4。如图所示,从具有位置 指针的緩冲子序列BS1-BS4对隐藏子序列CS1-CS7建立索引,该位置 指针在时间上逐渐向后移动然后逐渐向前移动,如函数记号CS1 (BS4)、 CS2(BS3)、 CS3(BS2)表示的那样,意思是CS1是基于BS4的,等等。 因而,图5A是作为说明隐藏帧中的连续子序列是如何可以基于连续緩 冲子序列、但在时间上重新排序而相互连接的一个示例。如图所示, 基于緩冲采样的最后四个子序列BS1、 BS2、 BS3、 BS4,以连续顺序 但是以相反的时间顺序,由此从最后的緩冲子序列BS1开始,选择第 一四个隐藏子序列CS1(BS4)、 CS2(BS3)、 CS3(BS2)和CS4(BS1)。在 以相反时间顺序的第 一四个子序列后,分别紧随三个子序列CS5、 CS6、 CS7,其全部基于按时间顺序的连续的緩冲子序列,即BS2、 BS3和 BS4。优选的索引模式是该索引模式发生器660的结果,并可能随到这 个模块的输入656、 596、 597、 598和599发生很大的变化。接着图5A 的记号,图5B示出隐藏子序列CS1-CS11如何可基于按时间重新排序 的緩沖子序列BS1-BS4的另一个说明性示例。如图所示,后面的隐藏 子序列逐渐基于在时间上更向后的緩冲子序列。举例来说,第一两个 连续隐藏子序列CS1和CS2基于上两个以相反时间排序的緩沖的子序 列BS3、 BS4,但是,后面的隐藏子序列,例如CS10是基于BS1,即, 比那些用于计算CS1和CS2的子序列,在时间上更向后的緩冲子序列。 因而,图5B用于说明连续隐藏子序列是以索引随时间逐渐向后变化的 方式、基于在时间上向前和向后索引的緩冲子序列的。
在本发明的有利的实施方式中,这个在时间上逐渐向后的变化被 确定为为了本说明书的目的我们称之为后退的顺序的形式和为了本说 明书的目的我们称之为读取长度的顺序的形式。在这种格式的索引模 式的简单实施方式中,指向信号采样、或者表示其的参数或系数的指 针向后移动一定的量,这个量与第一后退的量相等,之后,采样量、 或者表示其的参数或系数被插入到该隐藏帧中,这个量与第 一读取长 度相等。其后,该指针向后移动与第二后退的量相等的量,并读取等 于第二读取长度的采样量、或者参数或表示其的系数,等等。图5C所示的是对第一列举的索引采样进行重新排序的过程的示例。这个第一列举一皮列在信号时间轴上,而在图5C的隐藏时间轴上的列举表与重新排序的原始采样对应,这些原始采样被置于该隐藏帧中。 对于这个说明性的示例来说,随意选择第一、第二和第三后退分别作为5、 6、 5,并且,同样地随意选择第一、第二和第三读取长度分别作 为3、 4、 3。在这个示例中,分别具有时间索引组{6, 7, 8}、 {3, 4, 5, 6}和{2, 3, 4}的子序列是时间上向后逐渐变化的子序列。这里选 择的后退和读取长度的顺序纯粹是为了说明的目的。以16kHz进行采 样的语音剩余采样作为示例,后退的典型值为40到240的范围,但并 不限于这个范围,读取长度的典型值为5到1000采样的范围,但并不 限于这个范围。在这种格式的更先进的实施方式中,从向前控制 (directed)序列(例如原始时间或者时间上向后索引的子序列)到时 间上向后 一 步的另 一 个向前控制序列的转变,是通过渐变插值逐渐进 行的。图6所示的是响应一个后退和相应读取长度和匹配质量指示器的 索引和插值函数的简单实施方式的操作。仅是为了说明的目的,这里 的信号帧包括时域音频采样。以一种相似并从而直接的方式,将该渐 变插值应用于在本说明书中使用的"采样,,的一般定义上,即,包括表 示时域音频釆样的标量或者矢量值系数或者参数。在图中数字700说明信号615的片段。指针705是采样时刻,该采样时刻接着在索引和 插值输出信号625中最后产生的采样的采样时刻。时间间隔750具有 与读取长度相等的长度。时间间隔770也具有与读取长度相等的长度。 该时间间隔760具有与后退相等的长度。在700中/人时刻705开始的 信号采样和在时间上向前的读取长度一个接一个地与窗函数720相乘。 同样,从700中后退向后之后、位置706之前的一个采样的位置开始 的信号采样,和在此之前的读取长度釆样一个接一个地与窗函数710 相乘。与窗710和窗720相乘产生的采样一个4妾一个地与730相加产 生采样740,其构成新一批的针对来自索引和插值操作的输出625的采 样。这个操作完成后,指针705移到位置706。在本发明的简单实施方式中,窗函数710和720是读取长度750 的简单函数。 一个这种简单函数分别选择窗710和窗720作为长度两 倍于读取长度的汉宁窗(Harming window)的第一和第二半部分。但 是,这里也可选择宽范围的函数,要注意的是这个函数在本发明的上 下文中是有意义的,它们必须完成由750指示的片段中的采样与由770 指示的采样之间的加权插值,以这样的方式,即,我们逐渐地,但不 必是单调的,从750指示的片段的高加权移动到770指示的片段的高 加权。在本发明的其他实施方式中,窗函数710和720是匹配质量指示 器的函数。这种函数的简单示例是,根据由时间间隔750和770指示 的在信号700的片l殳上归一化关4关(normalized correlation)的阈值,
选择插值操作对幅度或者能量进行求和到整数。这种函数的另一个示 例是避免将振幅或者能量总和限制到一,而是将优化窗加权仅作为匹 配测量的函数。另外,这种方法的进一步改进采用归一化关联的实际 值,并响应它而优化该插值操作,例如,利用经典的线性估值方法。 但是,后面将描述优选方法的示例。在这些示例中,阈值和归一化关 联的实际值分别给出由匹配质量指示器667传送的有利信息的示例。 根据后面描述的优选实施方式,该插值操作可用于实现在不同频率的不同加权。在这种情况下,匹配质量指示器667能够有利地传送作为 频率函数的匹配测量。在有利实施方式中,这个作为频率的函数的加 权被实现为抽头延迟线或者其他参数滤波器的形式,该形式能够被优 化以达到最大匹配标准。图6中所示的是,当信号615 (和由此的信号片断700)包含表示 声音信号的或者从其起源的时域信号的时域采样的采样时,所给出的 索引和插值操作的说明。如上面提到的那样,在帧595中的和由此在 信号605和615中的采样能够有利地成为每个釆样都是一个矢量(矢 量值釆样),其中这个矢量包含系数或者参数,该系数或者参数表示或 者部分表示该声音信号。这种系数的例子是线性谱对参数(line spectral frequency )、频域系数、或者定义正弦信号模型的系数,例如振幅、频 率和相位的集合。以本发明的优选实施方式的这个详细说明为根本, 对本领域的技术人员来说,有利地应用到矢量值采样的插值操作的设 计是可行的,其余的细节能够在针对这种矢量值采样的每种特定情况 的一般文献的描述中找到。对本发明的理解能有利地观察到,当反复应用读取长度小于后退 的索引和插值操作时,那么结果会是,信号625中的采样变成信号釆
样的表示,其在信号615中逐渐地进一步并且更进一步地向后。于是, 当后退和或读取长度改变,以使得该读取长度变得比后退大时,那么这个过程将返回并且这时信号625中的采样变成信号采样的表示,其 在信号615中逐渐地进一步并更进一步地向前。通过对后退序列和读 取长度序列进行有利地选择,无需在时间上提前从帧緩冲器600中最 新接收的的信号帧进行采样,或者甚至无需在另一个预置时刻提向前 行釆样,就能够获得具有丰富和自然变化的长隐藏信号,其能够置于 比帧緩沖器600中的最新接收帧中的最新采样早的地方。从而,本发 明对具有低延迟播放或者输出緩冲时序安排的系统中的延迟脉沖 (delay spikes)的隐藏成为可能。在本说明书的描述中,通过反复使 用一个釆样的读取长度、两个采样的后退和包括值为0的单个采样的 窗720和包括值为1.0的单个釆样的窗710,来实现信号的简单严格向 后(strict backwards )的时间变化,该时间变化能够用于考虑作为本发 明的简单实施方式中的一部分。索引模式发生器660的主要目的是控制索引和插值操作620的作 用。在一组优选实施方式中,这个控制是在索引模式666中确定形式 的,该索引模式666可由后退序列和读取长度序列组成。这个控制可 进一步随同匹配质量指示器序列 一起增大,该匹配质量指示器序列依 次每个都可以是例如频率的函数。另一个特征是重复计数668,其可从 该索引模式发生器输出,并且其应用在本说明书的后面会变得清楚。 重复计数的意思是,时间上向后变化的次数,其是从该隐藏帧的构成 中开始的。该索引模式发生器获得这些来自信息基础的序列,其可包 括由该平滑和均等操作610输出的平滑和均等信号656;要产生的隐藏 帧的基音估计596、声音估计597、数目598,以及指向取代帧的指针 599。在索引模式发生器的一个实施方式中,它将根据声音指示器输入不同的模式。这种模式在下面进行举例说明。作为有利地在线性预测激励域使用的示例,如果该声音指示器鲁棒地(robustly)指示该信号为无声语音,或者在该信号中不存在有效 语音,即该信号包括背景噪声,则该索引模式发生器能够输入一个模 式,以这个模式开始该信号采样的筒单逆时变化。如前面所述,这个 能够通过例如提交后退值等于2的序列和读取长度值等于1的序列来 实现(这个说明书基于这样的设计选择,即该索引和插值操作本身会 识别这些值,并应用上面描述的适当的窗函数)。在一些情况下,这个 序列能够继续,直到信号的逆时变化已经针对隐藏帧中需要的新釆样 数目的一半执行,之后,后退序列中的值可变为O,借此开始信号的前 向时间变化,并继续,直到指针706有效地回到指针705在后退的第 一应用中的出发点。但是,对高质量的隐藏帧来说,这个简单的过程 不总会是充分的。该索引模式发生器的 一个重要任务是监控适当的停 止标准。在上面的示例中,逆时变化可将指针706带回到信号中的位 置,在该位置,如收听人感知的那样,声音与开始点明显不同。在出 现这个之前,应改变时间变化的方向。本发明的优选实施方式可应用基于一组测量的一组停止标准。下 面举例说明一些这些测量和停止标准。如果声音表示指针706处的信 号是有声音,那么在上面从无声开始的示例中,该时间变化的方向能 够有利地改变,同样,如果指针706的周围区域的信号能量不同于(正 如由绝对或者相对阈值确定的)指针705出发点处的信号能量,该时 间变化方向能够有利地改变。作为第三个示例,指针705出发点周围 区域和指针706当前位置之间的频谱差可能超过阈值,那么该时间变
^匕方向应当改变。当信号不能鲁棒地确定为无声或者包含非有效语音时,可引起模式的第二个示例。在这个模式中,基音估计596构成用于确定该索引 模式的基础。进行这个的一个过程是,搜索每个后退,以给出一个来 自指针705与时间上在前的一个基音周期的信号和来自比指针705早 的后退的点与在前的一个基音周期的信号之间的最大的归一化关联。 对后退可能值的搜索可有利地限定在一个区域内。如果没有发现前面 的后退,这个区域能够有利地设置来在前面发现的后退或者基音滞后 周围加减10%。 一旦确定了后退,读取长度的值将确定时间信号变化 是否应在时间上向后或向前变化,以及这个变化应当进行多快。通过 选择接近后退识别值的读取长度来获得一个慢变化。通过在向后和向 前变化的情况下分别选择比后退小得多或者大得多的读取长度来获得 一个快变化。该索引模式发生器的一个目的是,选择读取长度以优化 由收听人感知的声音质量。选择读取长度特别接近于后退向后可在一 些信号中,例如非充分周期性的信号,引起感觉上令人厌恶的伪现象, 例如串音。选择的读取长度特别远离后退,意味着隐藏帧的时间变化 期间,最终扫光(swept)帧緩冲器中的较大时间间隔,可选地,在为 隐藏帧产生足够数量的采样之前,时间变化的方向必须改变更多次。在诸如不是十分平稳(可选择地不是十分平滑和均等)信号的一 些信号中,第一种情形可以产生一种可感知的令人厌恶的伪现象,该 伪现象与隐藏帧或多个隐藏帧的声音中断续现象具有某种相似之处。 在第二种情形中,可以发生类似串音的伪现象。本发明的有利实施方 式的特点在于,可以将读取长度确定为后退和归一化关联的函数,其 在搜索最佳后退中被优化。下面的函数给出作用于语音信号上的本发 明实施方式中这个功能的一个简单而有利的选择,并且在信号帧包含在16kHz采样的20ms线性预测激励信号时的示例ReadLength = [(0.2+NormalizedCorrelation/3)*StepBack] 其中方括号[]被用于表示取最接近的整数,以及其中符号针对最佳后退获得的归一化关联、以及对应的后退。上面的函数仅作 为示例被包含,以表示本发明某些实施方式中的一种有利选择。包括 任一功能相关以获得这个读取长度的的读取长度的任一选择是可能 的,都不脱离本发明的构思。具体地,选择读取长度的有利方法包括 利用控制665均等确定平滑和均等操作610的参数,例如在中间隐藏 帧625中实现间歇状和串音状伪现象的共同最小化。这解释了为什么 索引模式发生器660将中间信号656而不是来自平滑和均等操作的输 出615当作输入信号656表示在控制665下的最终信号615的可能 形式(potential version),并且使索引模式发生器能够通过迭代完成优 化任务。对于上面无声和非有效声音模式的情形通常就是这种情况, 在这种模式中停止标准也是必需的。将上面模式中列举的停止标准的 所有示例也应用到这个模式中。另外,在这种模式中,根据对基音和 归一化关联的测量,停止标准可有利地成为本发明实施方式的一部分。图7,作为示例,示出用于停止标准组合的有利的判定逻辑。图7 中,参考标记指示如下800:识别信号是否为高关联类型、低关联类型或均不是。 确定初始能量等级801:确定下一后退和归一化关联及读耳又长度 802:确定信号是否进入低关联类型 803:确定信号是否进入高关联类型 804:信号为高关联类型吗? 805:信号为低关联类型吗?806:能量低于相对最小阈值或高于相对最大阈值?807:归一化关联低于用于高关联类型的阈值?808:归一化关联高于用于低关联类型的阈值?809:生成足够的采样了?在16kHz采样的语音的线性预测激励域中操作的情况中。图7中 标注的阈值可以有利地如下进行选择当遇到大于0.8的归一化关联 时,可以进入高关联类型;保持在高关联类型中的阈值在归一化关联 中可以设为0.5;当遇到小于0.5的归一化关联时,可以进入低关联类 型;保持在低关联类型中的阈值在归一化关联中可以设为0.8;最小相 对能量可以被设为0.3;并且最大相对能量可以设为3.0。此外,不脱 离本发明的构思和范围,在本发明的上下文中,可以使用其他逻辑以 及其他停止标准。停止标准的应用表示,不保证时间上向后直至产生足够的釆样或 者符合停止标准,然后在时间上再次向前的单一变化对隐藏帧给出所 需数量的采样。因此,在时间上向后和向前的更多变化可以由索引模 式发生器应用。但是,太多的向后和向前变化可能会在一些信号中产 生串音状伪现象。因此,本发明的优选实施方式可共同优化停止标准、
应用于读取长度计算中的函数、平滑和均等控制665、和来回变化的数 目,即重复计数668,并且如果使得指针指向帧以取代599,那么在每 个时间上向后的新变化之前,还开始在时间上进行向前变化的采样数。 至此,均等也可以有利地控制平滑和均等操作,以略微改变信号的基 音轮廓。此外,共同优化可考虑相位滤波器650的操作,并对基音轮 廓进行略微改变,以致产生索引模式,该索引模式与上面提到的其他 参数一起最小化引入的相位滤波器的失真。基于对本发明优选实施方个任务,这些工具包括迭代优化、马尔可夫(Markov)决策过程、维 特比(Viterbi)方法及其他。不脱离本发明的范围,任一所述工具都可 应用于这个4壬务。图8通过流程图示出迭代过程的例子,该过程完成对这些参数的 简单而有效的优化。在图8中,参考标记表示如下820:开始控制平滑和均等665821:获得新的平滑信号656822:开始4f止标准823:开始允许的重复次数824:识别均匀分布在由指针599所指示的可利用帧上的向后 和向前变化序列的索引模式,或者如果指向可利用帧的末端, 向后变化直4妄^i逭向前变化825:产生用于隐藏帧598的数目的足够采样量了吗? 826:是否达到重复的最大数?
827:增加允许的重复数828:是否达到停止标准的最宽松的阈值?829:;故宽停止标准的阈值830:改变控制增加平滑和均等的作用要注意的是,在前一变化或者时间上向后和向前的变化中还没有 合成足够信号的情况下, 一个时间上向后和向前的变化以及其后的时 间上向后和向前的变化可有利地不同。作为例子,应当"i殳计后退、读 取长度、和插值函数序列、还有在时间上向后和向前变化之后的结束 位置指针,以对否则产生自相似索引模式重复的周期性伪现象进行最 小化。将在16kHz的有声语音剩余域采样作为例子, 一个产生大约320 个采样的时间上向后和向前的变化,与时间上向后和向前的更早的变 化相比,能够优选地在信号中更向后终止大约100个釆样。至此,所公开的实施例有效地减轻现有技术方法中已知的声音串 音的伪现象问题,同时,能够有效隐藏突发的延迟抖动脉沖和突然出 现的重复信息包的丟失。然而,在不利网络条件中,如例如在一些无 线系统和无线自组织(ad hoc)网络及尽力服务(best effort)网络和其他 传输情况中所遇到的,甚至所公开的方法在某些情形中可能在隐藏帧 中引入少量音调成分。因此,可将小噪声混合操作630和功能衰减 (graceful attenuation)滤波器640有利地应用于本发明的一些实施方 式中。通常的噪声混合和衰减技术对于本领域:技术人员而言是众所周 知的。这包括对噪声成分的功率的频率相关时变和衰减功能的频率相 关时变的有利使用。在本发明的上下文中,噪声混合和衰减使用的特 定特征,是对用于自适应确定噪声混合和衰减操作参数的索引模式
666、匹配质量测量667和/或重复计数668的明确使用。具体地,索引 模式对未改变的信号采样位于隐藏帧中的地方和隐藏帧采样作为插值 操作结果的地方做出标引。而且,相对于读取长度的后退比率与匹配 质量测量的结合指示了从插值操作中得到的感知质量。因此,很少或 没有噪声可被有利地混入原始采样,更多噪声可以被有利地混入由插 值过程产生的采样中,并且被混入到这些采样中的噪声量可有利地成 为匹配质量测量的函数,有利地以频率微分(differentiated )方式。此 外,相对于后退的读取长度的值还指示可能发生的周期数,噪声混合 可有利地包括在确定要混入隐藏信号中的噪声量中的这种测量。将同 样的原理应用于衰减;有利地使用功能衰减,但是可能引入用于表示 原始信号采样的采样的较少衰减,并且可能引入用于从插值操作中得 到的采样的较多衰减。此外,这些采样中的衰减量可有利地成为匹配 质量指示的函数,且有利地以频率微分方式。同样,相对于后退的读取长度值表示可能出现的周期数;衰减操作可有利地包括衰减设计中 的这种测量。如在本发明的背景技术中所提到的,本发明实施方式的子集的重 要目标获得预置长度等于普通信号帧长度的隐藏帧。当想从系统的观 点中得到这时,达到这个目的的装置可有利地是相位滤波器650。这个 块的在计算上简单、近似而经常充分的操作是为了完成采样之间的平 滑叠加,该采样超过该预定帧的长度乘以具有来自隐藏帧后面的帧的 采样的尾部子集的隐藏帧数。单独地看,根据现有技术这种方法是众 所周知的,并在例如国际电信联盟规则ITU-TG.711附录1中使用。在 依据系统观点实施时,无论何时其增加叠加区域中的关if关性,通过将 随后的帧与-1相乘,可以改善该简单叠加过程。然而,也可有利地使
用其他方法,例如在有声信号帧之间的转变中,进一步减轻帧边界处 不连续的影响。
一种这样的方法是对隐藏帧进行重采样。作为一种独立的方法,这在现有技术中也非常公知。参见例如Valenzuela和Animala " 一种#斤的声音包的重构寺支术(A new voice-packet reconstruction technique ) ", IEEE, 1989。因此,本领域技术人员可以实施减轻帧边界 处不连续的操作。然而,在此所公开的本发明的优选实施方式中,重 采样可被有利地连续到紧随上一隐藏帧的帧中。从而,使得当由收听 人接收时,其觉察不到作为重采样技术的结果的时变的斜率以及由此 而产生的频移。此外,代替重采样,减轻帧边界处不连续的时变全通 滤波器的使用在本发明中被公开。这种的 一个实施方式通过滤波器方 程给出H—L(z,t)=(alpha—l(t)+alpha—2(t)*zA(-L))/(alpha—2(t)+alpha—l(t) *zA(-L》该函数的解释如下。假定需要在扫描区间(sweep interval)上从L 采样延迟到0采样延迟的扫描,其可包括所有或部分隐藏帧中的、在 该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。 然后,在扫描区间的开始,将alpha—l(t)设为零,alpha—2(t)设为1.0, 以执行L采样延迟。随着t上的扫描开始,alpha—l(t)应逐渐向0.5增加, alpha—2(t)应逐渐向0.5减小。当扫描区间alpha—l(t)最终等于alpha—2(t) 时,滤波器H—L(z,t)引入零延迟。相反地,如果需要在扫描区间上从O 采样延迟到L采样延迟的扫描,其可包括所有或部分隐藏帧中的、在 该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。 然后,在扫描区间的开始,将alpha—l(t)设为0.5, alpha—2(t)设为0.5, 以执行0采样延迟。随着t上的扫描开始,alpha一l(t)应逐渐向0减小,alpha—2(t)应逐渐向1.0增加。当扫描区间alpha—l(t)最终等于0并且 alpha—2(t)等于1.0时,滤波器H—L(z,t)引入L采样延迟。上面的滤波在计算上是简单的,但是它具有非线性相位响应。因 感知的原因,这个非线性相位将其使用限制至相对小的L。有利地,L < 10用于在16kHz的采样率处的语音。对起始L 4交大值实现滤波的一 种方法是启动几个较小L值的滤波器,所述较小L值的总和为期望的 总L值,这几个滤波器可有利地在不同时刻启动,并在不同的时间间 隔上扫描alpha范围。另 一种此滤波器可在其中应用的增加L范围的方 法将在后面公开。实现与上面在功能上相同的滤波的结构是,将信号 分为L多相位,并在每个这些多相位中执行下面的滤波H—l(z,t) = (alpha一l(t) + alpha—2(t)*zA(-l))/(alpha—2(t) + alpha—l(t) *zA(-l))依据本发明,通过使用向上采样(up-sampling)来有利地实现多 相位滤波。有利地实施这个的一种方法是对带有系数K的每个多相位 进行向上釆样,并且对带有系数K的、在向下采样(down-sampling ) 之前的每个向上采样的多相位中进行K次滤波H—l(z,t),并/人所述多相 位对相位改变的信号进行重构。系数K可有利地选择为K=2。通过向 上采样过程,获得接近线性的相位响应。从而,改善了收听人接收的 感知品质。当隐藏帧被无丢失地插入接收帧序列中时,可应用上面描述的在 多帧上的相位调整。它也可应用于当为了减小后续帧的播放延迟而将 帧从信号序列中去掉的情况。以及,其可应用于当丟失多个帧并且将 零或多个隐藏帧插入到丟失前接收的帧和丢失后接收的帧之间时。在
这些情形下,获得用于这个滤波器的输入信号以及得到延迟L的有利 的方法》0下1) 在时间上比不连续点早的帧上,继续或者开始这里或者任一其 他所公开的隐藏方法。2) 在时间上比不连续点晚的帧上,将数量L—test采样插入由隐藏 方法开始的帧中,该隐藏方法是这里或者任一其他所公开的一 种隐藏方法,但是具有时间采样的逆向索引。3) 匹配测量,例如归一化关联,应用于来自1)的隐藏帧和来自 2 )的包括标题L—test采样的帧之间。4) 最大化匹配测量的L—test选择为L。5) 利用加权叠加过程,现在将来自2)的隐藏帧和来自3)的帧 力口在一起。然而,这个加4又叠加方法能如本领域的4支术人员所 知的执行,优选地,它能够根据本说明书中后面公开的内容进 行优化。6) 从确定值L开始,将得到的帧用作上述相位拟合滤波的输入。 如果L大于阈-f直,则在不同时刻和时间间隔启动和系凄t扫描几 个滤波器,将它们的L值加到确定的值L。有利地,在以8或16kHz采样的语音或剩余语音中,上面阈值可 以在范围5至50内进行选择。另外有利地,在有声语音或剩余有声语 音中,通过对帧的第一基音周期的采样进行循环移位而获得隐藏采样 L—test及其进入到随后帧中的继续。从而与整个基音周期关联的、无需 归一化的关联性测量可有利被用作匹配测量,以得到优选循环移位L。 图9示出这种方法的一个实施方式。在这个图中,相位调整产生信号帧900和后续帧之间的平滑变换。这根据如下完成从信号帧卯O 和较早的帧中,生成隐藏信号910。这个隐藏信号可利用这里所公开的 方法来生成,或者利用本领域公知的其他方法来生成。该隐藏信号与 窗920相乘,并一寻925与另一窗930相加,窗930与纟姿如下方式生成 的信号相乘/人后面采样950和可能的960,通过有效地应用例如这里 所公开的隐藏方法或者使用本领域公知的其他方法生成隐藏信号940, 并与后面的采样950连接。优化隐藏940中的采样数,以使得对隐藏 910,与940和后面的采样950的连接之间进行最大化匹配。有利地,归一化关耳关可用作对这种匹配的测量。而且,为了减少 计算上的复杂度,该匹配可适用于被限制为包含一个基音周期的有声 语音或者剩余有声语音。在这种情况下,隐藏采样940可作为一个基 音周期的循环移位的第一部分而获得,并且,此时无需对一个基音周 期上的关联测量进行归一化。因此,避免了对归一化系数的计算。就 先前在优选实施方式的详细说明中所述的索引和插值操作来说,窗可 再次有利地成为匹配质量指示器的函数和/或频率的函数,并有利地作 为抽头延迟线进行实施。滤波器970的操作如下。直接向其输出传递 产生自叠加过程的第一 L采样,并且该第一 L采样用于设置滤波器的 初始状态。此后,对滤波器系数进行如上所述的初始化,并且随着滤 波器从采样L+l滤波和转发,这些系数被逐渐调整,从而逐渐去除延 迟的L采样,如上面所7>开的那样。此外,在上面描述过程中,如上所述,根据最大化匹配标准而对 窗的权重进行优化的方法以及该窗函数的统一化(generalization),应 用于基于频率的权重和以抽头延迟线或者其他参数的滤波器形式的匹
配滤波器。在有利的实施方式中,通过三个顺序的叠加序列获得基于频率的滤波器加权时变,三个叠加序列中,第一个减弱(fade down) 来自先前帧的隐藏帧,第二个以滤波器增强(fadeup)这些滤波形式, 以匹配来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次 减弱,第三个增强时间上在后的帧。在另外一组的有利实施方式中, 通过四个顺序的叠加序列获得基于频率的滤波器加权时变,第一个减 弱来自先前帧的隐藏帧,第二个以滤波器增强这些滤波形式,以匹配 来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次减弱, 第三个增强时间上在后的滤波形式,以进一步改善这种匹配,此后再 次减弱,最后第四个窗增强时间上在后的帧。加权叠加方法另外的有 利实施方式在这个说明书中的后面公开。关于将剩余域采样用作表示该语音信号的部分信息的实施例中的 平滑和均等操作610,利用基音自适应滤波,例如梳状滤波器或者周期 陷波滤波器,能够将平滑和均等操作有利地应用在这个剩余信号上。 此外,也可有利地应用具有作为未滤波剩余的模型的长期关联滤波器 加噪音的维纳或卡尔曼(Wiener或Kalman)滤波。在应用维纳或卡尔 曼滤波器的这种方式中,应用这个模型中的噪声变化来调整平滑和均 等量。由于在维纳或卡尔曼滤波理论中,这个成分传统上应用到对存 在的不希望的噪声成分进行建模,因此,这有些违反直觉的使用。在 应用于本创新中时,目的是设置平滑和均等的水平。在本发明的上下 文中,作为基音自适应梳状滤波或者陷波滤波以及维纳或者卡尔曼类 型滤波的可选形式,有利地应用第三种方法对剩余信号进行平滑和均 等。通过这第三种方法,或者是釆样振幅,如有利地用于例如无声语 音中,或者是采样的连续矢量,如有利地用于例如有声语音中,都愈
加相似。下面分别就有声语音矢量和无声语音采样的完成的可能过程 进行概述。对于有声语音来说,以矢量形式收集语音或者剩余语音的连续釆 样,并且每个矢量中的采样数等于一个基音周期。为了说明的方便,我们在这里将这个矢量表示为v(k)。现在,该方法将获得剩余矢量r(k) 作为v(k)分量,该v(k)分量不能通过一些方法在周围矢量v(k-Ll)、v(k-Ll+l).....v(k-l)和v(k+l)、 v(k+2)...... v(k+L2)中得到。为了说明的方便,在周围矢量中得到的分量表示为a(k)。随后以某种线性或非 线性方式对剩余矢量r(k)进行处理,以降低其可听度,同时保留得到的 重构矢量的自然性,所得到的重构矢量是通过将分量a(k)再次插入已处 理的r(k)的形式中而获得的。这带来有声语音或者有声剩余语音的平滑和均等形式。下面给出 上面所述的原理的一个简单的实施方式,为了方便,利用矩阵矢量符 号,并且为了示例的简单性,利用线性组合和最小平方的概念对a(K) 进行定义。这仅仅用作用于平滑和均等的上面一般原理的单一筒单实 施方式中的一个例子。为了这个例子的目的,将矩阵M(k)定义为M(k) = [ v(k-Ll) v(k画Ll+l)….v(k-l) v(k+l) v(k+2) .... V(k+L2)]据此,可将a(k)计算为例如M(k)已知情况下v(k)的最小平方估计a(k) = M(k) inv(trans(M(k》M(k)) v(k)其中inv()表示矩阵求逆或伪求逆,trans()表示矩阵变换。现在,例 如通过减法计算剩余矢量r(k)。
r(k) = v(k) - a(k)处理r(k)的一个例子是,通过削去这个矢量中的峰值,例如为了限 制采样的最大绝对值到等于最接近向后-向前隐藏过程中起始点的矢量 r(k)的最大幅度的水平,或者限制到在矢量中相同位置处采样的幅度乘 以的某系数,该矢量不是最接近于向后-向前隐藏过程中起始点的矢量。 已处理的剩余矢量rm(k)随后与矢量a(k)结合,以重构v(k)的均等形式, 在这里为了方便由ve(k)表示。作为一个示例可以通过简单的加法来完 成这种结合ve(k) = alpha* rm(k) + a(k)这个示例中的参数alpha可被设定为1.0或可有利地被选择小于 1.0, alpha的一个有利选择是0.8。对于无声语音来说,可有利地利用另一种平滑和均等方法。无声 语音平滑和均等的 一 个示例计算对数域中剩余信号幅度的多项式拟 合。作为例子,可在loglO域使用二阶多项式。将多项式拟合从对数域 转换回线性域之后,在对应向后-向前过程起始点的点处,有利地将拟 合曲线归一化为1.0。随后,降低限制拟合曲线到例如0.5,其中在剩 余信号的幅度能够利用拟合曲线进行分解后,以便于平滑地均等无声 剩余信号幅度的变化。至于加权叠加过程,在本说明书的前面公开了其一些而不是所有 的应用,即,索引和插值才喿作620和开始相位调整滤波970的输入信 号的方法,已知的这些方法可由本领域的技术人员实施。然而,在加 权叠加过程的优选实施方式中,可有利地4吏用在下面/>开的方法。在响应于匹配质量指示器而修正的加权叠加过程的简单实施方式
中,我们考虑第一窗口乘以第一子序列及第二窗口乘以第二子序列, 以及将这两个乘积输入叠加操作。现在,作为例子,我们让第一窗口 为逐渐减小的窗口,例如单调递减函lt,以及我们让第二窗口为逐渐 增加的窗口,例如单调递增函数。其次,为了简化例子的目的,我们 让第二窗口通过基本窗口形状乘以标量乘数被参数化。现在,我们定义target为所述第一子序列;w—target为逐个与所述逐渐减小窗口相 乘的采样的所述第 一子序列;w—regressor为逐个与用于逐渐增加窗口 的所述基本窗口形状相乘的采样的所述第二子序列;coef为所述标量 乘数。现在可优化第二窗口的标量乘数分量,以便最小化target和叠加 操作结果之间的平方和误差。为了方便用矩阵矢量符号,这个问题可 表示为最小化目标和数量之间的平方和差w—target + w—regressor* coef在这里定义矢量T和H为T = target - w—targetH = w—regressor给出这种优化的解为coef = inv(trans(H)*H)*trans(H)*T其中inv()表示标量或矩阵求逆,trans()表示矩阵或矢量的转置,以 及*是矩阵或矢量相乘。现在,如这里本发明所公开的主要部分一样, 可扩展本方法,以优化窗口的实际形状。获得这个的一种方式如下。 我们定义一个形状的集合,获得所要的窗口作为这个集合中元素的线 性组合。我们现在定义H,使得H的每个列是这个集合一个采样接着一个采样与所述的第二子序列相乘的形状,我们将coef定义为包含优化的窗函数中这些形状的未知权重的列向量。根据这些定义,现在将 表示这个问题及其解的上面的等式用于解决更一般窗口的形状。自然 地,在上面中,第一和第二窗口的作用可以互换,以1更现在对第一窗 口进行优化。本发明的更先进的实施方式共同优化两种窗口形状。这通过以下进行定义基本窗口形状的第二集合,其可能与窗口形状的第一集合 相同,并且有利地被选择作为窗口形状的第 一 集合中的每个窗口形状 中的采样的逆时索引。现在将w—target定义为矩阵,其中每个列为来 自一个采样接着一个采样与该第一子序列相乘的窗口形状的所述第二 集合的基本窗口形状,将coef定义为列向量,该列向量包含用于第一 窗口的第一权重和用于第二窗口的第二权重。然后,更一般的问题可 用公式表示为目标和数量间的平方和差的最小值[w—target w—regressor]*coef其中方括号[]用于根据子矩阵或矢量构成矩阵。现在,这里定义矢 量T和H为T = targetH = [w—target w一regressor]对这种优化的解为coef = inv(trans(H)*H)*trans(H)*T另外,本发明更先进的实施方式不仅优化瞬时窗口形状,还优化 具有基于优化频率权重的窗口。虽然本发明的一个实施方式应用抽头
延迟线的形式,但整个发明并不限于这种形式。完成这种普遍化的一种途径是,在上面w—target和w—regressor的定义中,用多个列替换每 个列, 一个采样接着一个采样地和对应于它们替换的列的基本窗口形 状相乘,但是,其中这个基本窗口形状现在是一个采样接着一个采样 地与相应的子序列相乘,该子序列在对应抽头延迟线中的特定位置延 迟。
有利地,不脱离这里所公开的本发明,这些方法的系数优化考虑 系数的加权、约束或顺序计算。这种加权可有利地包括向对应j氐绝对 延迟值的系数加更多的权重。这种顺序计算可有利地首先计算低绝对 延迟值的系数,从而仅使用那些系数最小化平方和误差,然后顺序地 重复这个过程,以增加延迟值,但是,在这个过程中仅在来自这个过 程中前面步骤的剩余误差上重复这个过程。来说,该优化使失真函数最小化,该失真函数是这些目标子序列的函 数并且从加权叠加系统输出。这种优化不脱离本发明,将各种限制应 用在对基本形状和延迟以及它们在整个叠加中的权重的选择上。根据 形状的精确选择,叠加的影响有利地逐渐从时间上紧随叠加区域的子 序列减弱。图10所示的是公开的叠加方法的一个实施方式。由于本发明并不 限于该图中的精确结构,所以该图仅仅用于说明本发明 一个实施方式 的目的。图10中, 一个子序列1000输入与另一个子序列1010进行优 化叠加的时间和频率形状。每个这些子序列输入单独的延迟线,图中, z表示一个采样提前的时间,z-1表示一个采样延迟的时间,并且选择 的延迟l、 -l和O纯粹是为了说明的目的其它、更多的或更少的延
迟可有利地与本发明结合使用。现在,将各个子序列的各个延迟形式 与多个基本窗口形状相乘,并且将这些的每个结果与要得到的系数连 同优化过程中的其他系数一起相乘。与这些系数相乘后产生的子序列 相加产生来自优化叠加的时间和频率形状的输出1020。在图IO的例子中,系数优化1030将子序列1040和1050作为输入,并最小化作为1040 和1050以及输出1020函凄t的失真函凄t。在权利要求书中,仅为了清楚的原因而包含附图的参考标记。附 图中典型实施方式的参考标记不应以任何方式构成对权利要求范围的 限制。
权利要求
1、一种响应采样的第一和第二子序列生成采样的输出序列的方法,所述的方法包括-将加权叠加过程应用于所述的第一和第二子序列,以产生所述采样的输出序列,-响应采样的输出序列与采样的一个或者多个目标序列之间的匹配的测量,优化与所述加权叠加过程有关的加权函数。
2、 根据权利要求1所述的方法,其中,响应采样的两个或者三个 目标序列,对所述加权函数进行优化。
3、 根据权利要求1或2所述的方法,其中,所述优化包括调整与 所述加权叠加过程有关的至少 一个加权函数。
4、 根据权利要求3所述的方法,其中,所述优化包括调整与所述 加权叠加过程有关的两个或者三个加权函数。
5、 根据前述任一项权利要求所述的方法,其中,用一组参数表示 与所述加权叠加过程有关的所述至少一个加权函数。
6、 根据权利要求5所述的方法,其中,所述一组参数基于的是将 至少 一个加权函数的时间形状分解为基本窗口形状的线性组合。
7、 根据权利要求6所述的方法,其中,所述一组参数基于的是将 至少一个加权函数的时间形状分解为两个或者三个基本窗口形状的线 性组合。
8、 根据权利要求5-7冲任一项所述的方法,其中,所述一组参数 的产生包括将至少一个抽头延迟线应用于所述采样的第一和第二子序 列的至少一个。
9、 根据权利要求8所述的方法,其中,所述一组参数的产生包括 将两个抽头延迟线应用于所述采样的第 一和第二子序列。
10、 根据权利要求8或9所述的方法,其中,所述一组参数的产 生包括应用三个抽头延迟线。
11、 根据前述任一项权利要求所述的方法,其中,响应所述采样 的输出序列与所述采样的至少 一个目标序列之间的距离的测量,修改 与所述加权叠加过程有关的加权函数。
12、 根据权利要求11所述的方法,其中,所述距离的测量基于平 方和误差。
13、 根据权利要求12所述的方法,其中,所述距离的测量基于加 权的平方和误差。
14、 根据权利要求11-13中任一项所述的方法,其中,根据最小二 乘法对所述距离的测量进行最d、化。
15、 根据权利要求14所述的方法,其中,根据加权的最小二乘法 对所述距离的测量进行最小化。
16、 根据前述任一项权利要求所述的方法,其中,所述第一和第 二子序列的采样表示数字化的音频采样。
17、 根据前述任一项权利要求所述的方法,其中,所述釆样的第 一和第二子序列之一是隐藏采样序列。
18、 计算机可执行的程序代码适用于执行根据前述任一项权利要 求所述的方法。
19、 一种程序存储装置,包括用于微处理器,例如通用微处理器 的指令序列,所述程序存储装置用于执行权利要求1-17中任一项所述 的方法。
20、 一种用于接收数字化音频信号的装置,所述装置包括 -存储器装置,用于存储表示接收的数字化音频信号的帧,和 -处理器装置,用于执行权利要求1-17中任一项所述的方法。
全文摘要
一种响应采样的第一和第二子序列生成采样输出序列的方法,该方法包括将加权叠加过程应用于所述的第一和第二子序列,以产生所述采样的输出序列,响应采样的所述输出序列与采样的一个或者多个目标序列之间的匹配测量,优化与所述加权叠加过程有关的加权函数。
文档编号G10L19/005GK101120399SQ200680003570
公开日2008年2月6日 申请日期2006年1月31日 优先权日2005年1月31日
发明者瑟伦·旺·安德森 申请人:索诺瑞特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1