通信系统中用于帧连接的方法

文档序号:2829993阅读:274来源:国知局
专利名称:通信系统中用于帧连接的方法
通信系统中用于帧连接的方法发明领域本发明涉及电信系统。更特别地,本发明涉及一种减轻不连续的方法、设 备和装置,该不连续出现在连接与原始音频信号中非连续帧相关的帧的时候, 或者出现在连接与隐藏方法相关的一个或者两个帧的时候。这特别地结合信号 信息包的丢失和ME迟抖动和/或时钟脉冲相,发生.。本发明改进无线电信系 统和报文分组交换网络上的信号传输质量。发明背景现代电信是基于信号的数字傲俞。例如,在图1中,激寸机200收集来自 源100的声音信号。这个源可以是由麦克风收集的一个或者多个人的谈话结果和其它声波源,或者其可以是声音信号存储或者产生系统,例如文本到语音合 成或者对话系统。如果该源信号是模拟的,则其通ilt莫拟一数字转换器转换为数字表示形式。根据适合数字信道300的格式,对该^^表示随后进《彌码和 打包。该信息包在该数字信iti:传输。该数字信道典型地包含多个抽象层。在图1中的抽象层中,该数字信道接收信息包序歹怖为输入,荆专送信息 包序列作为输出。由于信道中的衰减,其典型地由信道中的噪音、缺陷 (imperfection)和过载产生输出的信息包序列典型地受到一些信息包丢失以及 其它信息包的到达时间延迟和延迟抖动的干扰(conteminated)。另外,對寸机 与接收机的时钟差能够弓跑时钟脉冲相l錢。接收机400的任务就接收的数 据 行解码,并且将来自信息包流的解码数字表示转换并解码为数字信号表 示,并进一步将这些表示转换为具有适于输出到信号接收器(signal sink) 500 的格式的解码声音信号。这个信号接收器可以是一个或者更多个人,通过例如 一个或者多个扩音器将该解码的声音信号提供给他们。可选地,该信号接收器 可以是语音或者音频存储系统,或^i吾音或者音频J寸话系统或者识别器。该接收机的任务是精确地重现能够向该接收器提供的信号。当该接收器直 接或者间接地包括人类收听者时,该接收机的一个目的是获得该声音信号的表 示,当呈现给该人类收听者时,该表示精确地重现来自一个源或多个源的能够
由人类感知的印象和听觉信号信息。为了确《魏常情况下的这个任务,其中在 这个通常情况下,信道由于丢失、延迟、延迟抖动和可旨謎一步存在的时钟脉 冲相位差而使接收的信息包序列降质,这时需要一个有效隐藏作为该接收机子 系统的一部分。作为示例,图2中所示的是完成这个任务的接收机子系统的一个可能实现。 如这个图中所示,输入的信息包保存在抖动缓冲器410中,从这里解码和隐藏 单元420获得接收的编蹄言号表示,并且将这些编码信号表劍莉马和隐藏,以获得适于保存在播放缓冲器430中并随后播放的信号表示。对于何时开始隐藏和这个隐藏的哪^t寺定参数,例如隐藏信号的长度的控制,可以例如由控制单元440来完成,该控制单元440监控该抖动缓冲器和该播放缓冲器的内容,并 控制该解码和隐藏单元420的动作。隐藏也可作为信道子系统的一部分来实现。图3所示为一个信道子系统的 例子,其中信息包经由子系统320从信道310转送到信道330,这在后面我们以 中继作为其参考术语。在实际系统中,中继功能可由多个单元来完成,这些单 元可能采用不同的上下文相关名称,例如各种类型的路由器、代理服务器、边 缘服务器、网络访问控制器、无线局域网控制器、IP语音网关、媒体网关、未 经授权网络控帝幡和其它的名称。在本上下文中所有这些都是中继系统的例子。图4中戶标的是能够进行音频隐藏的中纟H^统的一个例子。如这个图中所 示,信息包经由信息包交换子系统320和350从输A^冲器310縦到输出缓 冲器360。该控制单元370监控斑俞入和输出缓冲器,并且作为这个监控的结果, 确定是否需要进行代码转换和隐藏。如果是这种情况,这些交换子系统经由该 代码转换和隐藏单元330控制该信息包。如果不是这种情况,这些交换子系统 经由最小助、议动作子系统340控制该信息包,该最小协议动作子系统340将在 该信息包报头上执行最小操作,以保持与应用协议的适应。这可包括改变该信 息包的序列号和时间戳的步骤。在利用但并不限于上面举例说明的系统来传输音频信号时,需要对表示或 者部分表示声音信号的信号中的丢失、延迟、延迟抖动、和/或时钟脉冲相位差 进行隐藏。有时包含在振荡器模型中的音调重复(pitch repetition)方法,是基于对有 声语音(voiced speech)中音调周期的估计,或者可选地,是基于对有声语音信号
的相应基频的估计。给定音调周期后,通过反复读取最后的音调周期来获得隐 藏帧。可利用窗叠加方法,来对隐藏帧的开始和末端处的不连续以及每个重复的音调周期之间的不a^卖进行平滑。对于音调重复方法的例子,参阅专利wo 0148736和国际电信 建议ITU-T G711附录l。在先技术的系统将基于音调 重复的隐藏与基于线性预领輪码原理的解码器集成在一起。在这些系统中,该 音调重复典型地在线性预测激励域中通过来自长期预测器或者自适应码本循环 的读取来实现。对于线性预测激励域中基于音调重复的隐藏的例子,参阅专利 US5699481,国际电信,建议ITU-T G729,和Internet工程工作小组)(书主释 3951的请求(Intemet Engineering Task Force Request For Comments 3951)。上面 的方法适用于隐藏丢失,或者渐增的延迟即正延迟抖动,和例如由于时钟脉冲 相位差而弓胞的输入或者抖动缓冲器的下溢或者接近下溢的情况。为了隐藏渐 减的延迟、负延迟抖动、或者输入或抖动缓冲器的上溢或者接近上溢,需要产 生縮短的隐藏信号。基于音调的方法通过在一个音调周期和一个在先音调周期 之间的叠加过禾i^实现这点。对于这种方法的例子,参阅专利WO 0148736。此 外这点可以在开发线性预测解码器中存在的设备时实现。举例来说,专利 US5699481公开了一种方法,M该方法,依赖于该自适应码本的状态,固定 码本贡献矢量(fixed codebook contribution vectors)从再现信号中被简单地丢弃,以 确保该再现信号中的音调周期。结合音调重复方法, 一个目的是从隐藏帧到下 一个帧的无缝信号连续。专利WO 0148736公开了一种达到这个目的的方法。 利用WO 0148736中公开的发明,M时变隐藏帧和可鄉也信号决定长度^ii 到这个目的。虽然这能够有效地确保与延迟抖动和时钟脉冲相位差的隐藏有关 的无缝信号连续,但是,这个方法引入了与图4中所示类型的系统有关的缺点 依据这种类型的隐藏,不能确保将该隐藏编码到有固定预定长度的帧中,其中 该固定长度的帧与已经编码的最好经由最小协议动作340进行中继的帧无纟 因此, 一个重要的目的是获得预定长度等于正常信号帧长度的隐藏帧。一 个具有预定长度的隐藏方法是,实现超过预定帧长度的采样之间的平滑叠加, 该预定帧长度是隐藏帧数目的倍数,具有来自紧随该隐藏帧的该帧的釆样尾部 (tmling)子集。这个方法在现有技术中是众所周知的,并被用于例如国际电信 联I建议ITU-T G 711附录l中。原则上,还可在连接一个帧和另一个帧时使
用这个方法,其中,这两个帧与原始音频信号中的非连续巾贿关。因此,本领 域的技术人员可通过获得隐藏帧作为第一帧的延续来实现这点,并且将这个隐 藏帧与第二帧一起输入到该叠加过程,从而部分地减小在该第一帧的最后采样 和该第二帧的第一采样间的边界处发生的不连续。对这些预期模式来说上面的解决方法是有问题的。这是因为,取决于输入 到这个叠加过程中的两个信号的实际波形形状,会有明显的不连续残留在结果音频信号中。该不连续会被人类收听者当作信号中的"冲击(bump)"或者"衰 减(fade)"而觉察到。在第一个预期模式中,其中涉及一个或者多个隐藏帧,这些隐藏帧的, 样已经在文献中提及,对于这种方法,参阅例如Valenzuela和Animalu, "Anew voice-packet reconstruction technique",正EE, 1989年。当目的是连接两个现有 的帧而不是与隐藏帧相连时,这种方法不提供解决方案,另外,对于隐藏帧与 后续帧之间的连接,这个方法仍存在问题。这是因为,为了减轻由收听者觉察 到的不连续而需要的,样可能反而会引入明显的频率失真,即频移,这种频 率失真也会被收听者当作恼人的人为5嫁而觉察到。发明相,本公开的发明,或者更确切地说是其具体实施方式
,有效地减轻上面指出 的已知解决方法中的缺点,以及其它未指明的已知解决方法中的不足。根据本 发明,通过一种方法、程序存储设备和^S来达到这些目的,所有这些都是本 发明的不同方面,具有附加的权利要求书中所限定的特征。特别是与已知的基于音调重复的方法相比,本公开的发明提供连接信号帧 的技术,这些信号帧在帧边界处具有固有的不连续性,与现有技术中已知技术 相比,该技术具有明显较少的可感知的人为现象。因此,本公开的发明離了 5见有技术系统的缺点,具有直接改善了可感知声音质量的结果。下面的定义将贯穿使用在本发明的公开中。"采样"理解为由数字化音频信 号产生的或者源自其导出信号的采样,或者这种信号的系数或参数表示,这些 系数或者参数为标量或者矢量值。"帧"理解为连续采样的集合,该采样使用上 面采样的定义。"子序列"理解为两个或者多个连续采样的集合,该采样使用上 面采样的定义。在使用例如叠加时,两个连续子序列可包括重叠采样。根据帧 的选择, 一个子序列可扩展到两个连续帧之间。
本发明在第一方面,提供一种用于连接采样的第一帧和随后的采样的第二 帧的方法,该方^^括^ffi相位^T波器,该相位搶波器适于最小化采样的所述 第一和第二帧之间边界处的不连续性。,地,该相位滤波器应用于至少两个连续帧中的至少一部分采样。该至 少两个^^卖顿可以是所述的第一和第二后续顿。该相位滤波器可用于至少该第二帧中的至少一部分采样,并且可用于连接 该第二帧的至少一个帧中的至少一部分采样。该相位滤波器可用于至少第二帧 中的至少一部分采样,并且可用于连接该第二帧的至少两个帧中的至少一部分 米样。该相位滤波器可用于至少该第一帧中的至少一部分采样,并且可用于该第 一帧之前的至少一个帧中的至少一部分采样。该相位纟虑波器可用于至少该第一 帧中的至少一部分采样,并且可用于该第一帧之前的至少两个帧中的至少一部 分采样。雌地,该相位滤波器包括一个全通滤波器部分,在简单的雌实施方式 中,该相位f虑波器是全通^M器。该全通 虑波器部分可以是参数(parametric) 全通纟麽波器部分。该参数全通澹波器部分tt^地包括1到20个与瞎系数。该相位搶波器可包 SI过弧度相位值pi来修gS少一个采样的子序列的相位。在〈雄实施方式中,该相位搶波器是时变的。该相位滄波器P琉是时变的, 这样,在远离该第一和第二帧间边界有限数目的采样处,该相位搶波器的响应 接近零相位,例如,该第一和第二帧间边界之后的都艮数目个采样。雌地, 在起始时间,该相位、搶波器,地具有最初选择的相位响应。远离边界的所述 采样的数目可以取决于相位滤波器的最初选择相位响应。该相位滤波器的响应 接近零相位的时间点可以位于该第一和第二帧至少其中之一内。可选地,该相 位滤波器的响应接近零相位的时间点位于为该第一帧之前的至少一个帧的帧 内。更多可选地,该相位滤波器的响应接近零相位的时间点位于为该第二帧之 后的至少一个帧的帧内。远离该边界的所述采样的数目可以取决于该第二帧或者该第二帧之后一个 帧中的采样的子序歹啲特征。例如,在输入采样表祸吾音信号的情况下,可以 使用这种采样特征来检测这些采样表示有声还是无声语音。
远离该边界的所述采样的数目可以取决于该第一帧或者该第一帧之前的帧 中的采样的子序列的特征。该相位滤波器可包括多相位结构。该相位滤波可包括一个增采样(up-sampling)过禾呈o该方 跑括应用一个加权叠加过程,例如包括匹配搶波器的加权叠加过程。 由该加权叠加过程产生采样的一部分有益地用于初始化该相位滤波器的状态, 如果在这个初始化之后,仍残留着由该叠加过程产生的另一部分采样,另卩么这些采样有益地用作该相位搶波器的第一输入采样。至少该第一和第二帧其中之一包括一个或者多个可由隐藏方法产生的隐藏 采样。该隐藏方法可以是一种包括基于缓冲采样的两个连续子序列以逆时序产 生隐m^样的两个遊卖子序列的方法。该相位^f波器可基于由所述第二帧在时间上向后而产生的隐li^样。该相 位》虑波器的初始状态可基于所述的隐藏采样。可包括来自选择的至少一个所述 隐藏采样的多个采样,以最大化匹酉己测量。所述的匹配测量可包括相关性,例 如归一化相关性。根据前面任一权利要求的方法,其中该第一和第二帧中的采样表示数字化的音频信号,例如包Mi吾音信号的音频信号。在本发明的有益实施方式中,全通熗波器,例如参数全通滤波器用于相位 滤波。该相位滤波器是时变的,这样,距离帧边界越远,其响应就越逐渐接近 零相位。在达到零相位的点,该搶波器与信号通道断开。这个点可以在用这个 方法减轻帧边界不连续的同一帧中,或者有利地,这个点可以是远离减轻帧边 界不连续点的一个或者几个帧。在本发明的另一个有益实施方式中,确定初始 相位搶波器、该滤波器的初始状态和该熗波器的输入,以最小化第一帧的最后 采样和第二帧的第一采样之间的不连续性,并且,该最小{ 过最大化由隐藏 方法获得的在所述第一帧中的最后采样的平滑连续和在所述第二帧中采样的相 位滤波的输入、状态或者输出的初始部分之间的相似性观糧来实现。另外,在 有益的实施方式中,通过时间上向后操作的隐藏方法获得在所述第二帧的第一 采样之前的表示时间的采样,其是根据该第二帧和在前帧的第一采样估计该相 位滤波器的输入、状态、和/或输出。在另一个有益实施方式中,在来自戶诚第 一帧的隐藏采样和该相位滤波器的输入、状态、或者输出之间应用加权叠加方
法,并雌应用匹配滄波器加权叠加方法。第二方面,本发明提供一种适于执行根据第一方面的方法的计算机可执行 禾M)^代码。这种禾M^f^码可以以依赖机器或者独立于机器的形式和以任何禾M^ 语言编写,例如机器代码或者高级fM)f设计语言。第三方面,本发明提供一种包含用于微处理器以执行该第一方面的方法的 指令序列的禾骄存储设备,该微处理器例如为通用微处理器。该存储设备可以是任一类型的娄娜存^^s,例如磁盘、存储卡或者记忆棒、硬盘等。第四方面,本发明提供一种用于接收数字化音频信号的装置,该装置例如为设备或者仪器,该^S包括_存储器装置,用于保存表示接收的数字化音频信号的采样,和 -处理装置,用于执行该第一方面的方法。用适当的装置来实现本发明,例如下面的优选实施方式中描述的装置,使 得解码器和隐藏系统和/或代码转换器和隐藏系统能够在不弓l入可感知盼瞎人的 人为现象的情况下,有效地隐藏丢失的序列或者舰的信息包。因此,劍门的 发明使得可以在严重的时钟脉冲相位差、信道丢失和/或延迟抖动的情况下获得 高质量的双向音频通信。


下面参照附图对本发明进行更详细的描述,其中图1所示的是己知的易受到丢失、延迟、延迟抖动和/或时钟脉冲相位差影响的端到端(end-to^nd)信息包交换声音传输系统的方框图;图2是示例的是在控制单元的控制下,完成抖动-缓冲、解码和隐藏以及播 放缓冲的接收机子系统;图3所示的是易受时钟脉冲相位差、丢失、延迟和延迟抖动影响的信息包 交换信道的中继子系统的方框图;图4是示例的在控制单元的控制下,完成输入缓冲、输出缓冲并在需要时 謝亍代码转换和隐藏的中继子系统;图5所示的是本发明的一组tti^实施方式的方框图;图5A所示的是隐藏帧中的子序列示意图,其以逆时顺序从基于最后缓冲 的子序列的子序列开始;图5B所示的是隐藏帧中的子序列的较大序列的另一个示例,其以逆时顺 序从最后两个缓冲子序列开始,并且其中连续的子序列基于进一步在时间上后 退的缓冲的子序列;图5C所示为具有由后退步骤(step back)和读取长度格式化的索引模式的 采样计数索引;图6所示的是关于索弓l和插值函数的信号示意图;图7所示的是执行用于停止标准的判ft腿辑的一种可能方式的流程图;图8所示的是实现平滑和均衡化、停止标准和允许重复数量的迭代i^优化的一种可能方式的流程亂图9所示的是与相位调节搶波器的初始化和1t^有关的环形斷立和叠加的 舰;和图10所示的是公开的加权叠加过程的一种实施方式。虽然本发明容许各种改变和可选择的形式,但是,具体实施方式
已经通过 附图中的示例进行了显示,并将在这里进行详细描述。但是,应该理解,本发 明并不限定于所公开的特定形式。相反,本发明应涵盖由附加的权利要求书限 定的落在本发明的衞申和范围之内的所有的改变、等效形式和可选择的形式。tt^实施方式的描述下面,结合对隐藏帧和随后帧的连接对本发明进行描述。但是,正如将从 权利要求书的范围可以理解的,本创造性的连接方法具有比其更广的应用范围。该创造性的方法在如图2中所示接收机的解码隐藏单元420中被激活,或 者在如图4所示中继的代码转换隐,元330中被激活,或者在其作用适当的 通信系统的任一其它位置被激活。在这些位置有大量可用缓冲信号帧,并需要 大量的隐藏帧。可用信号帧与所需隐藏帧可由音频信号例如语音信号的时域采 样组成,或者它们可由源自其的采样组成,例如缘性预测激励采样,或者它们 可由来自该音频信号和完全或者部分表示声音信号帧的其它系数组成。这种系 数的示例是频域系数、正弦模型系数、缘性预测编码系数、波形内插系数,和 其它完全或者部分表示该音频信号采样的系数集。图5所示的是本发明的优选实施方式。根据图5,可用信号帧595存储在帧 缓冲器600中,该信号帧595可以是来自这个或者其它方法的较前操作中所接 收和解码或代码转换的信号帧或者隐藏帧,以产生隐藏帧或者上述类型的信号 帧的组合。该帧缓冲器中的信号由索引模式发生器660分析。该索引模式发生
器會,有利地利用信号音调596和合声597的估计。取决于齡系统的设计,来自其它过程例如编码、解码或者代码转换过程的这對古计可用于输入,或者 它们通过雌禾佣现有技术的信号分析方法的其它方法进行计算。而且,该索引模式发生器将待产生的隐藏信号帧的数目598,和指向该帧缓冲器中该隐藏帧 将要取代的特定信号帧的开始和^^的指针599作为输入。作为示例,如果这 些缓冲器指向该帧缓冲器的末端,另P么这表示一个或多个隐藏帧应当适于跟随 在保存于该帧缓冲器中的信号之后。作为另一个示例,如果这些指针指向帧缓 冲器中的连续帧的一个非空子集,那么这表示该一个或多个隐藏帧应当取代表 示或者部分表示声音信号的帧序列中的这些帧。为了进一步说明这一点,假定该帧缓冲器600包括信号帧A、 B、 C、 D和 E,并且隐藏帧的数目598为2。那么,如果指向待取代的帧附旨针599指向该 帧缓冲器的末端,这表示两个隐藏信号帧应当顺次紧随信号帧E之后。相反地, 如果指针599指向信号帧B、 C禾口D,那么这两个隐藏帧应当取代信号帧B、 C 和D,并顺次紧随在信号帧A之后,并且信号帧E顺次紧随其后。关于确定隐藏帧的数目598和该隐藏帧最后要取代的帧的子集即指针599 的方法,优选4顿现有技术方法。这样,数据596、 597、 598和599与信号帧 595—起构成向本发明的方法、设备和装置的输入。在某整体系统的设计中,在该隐藏单元的执行期间,信号帧的长度或者维 数(dimension)有利地保持常数。在其它情况中,典型地是这种情况,当该隐 藏单元集鹏中继系统中时,在该中继系统中,,该隐藏的结果应当在预定长度 的时间间隔内置于表示声音信号的信息包中,该预定长度在别处确定。作为示 例,这个预定长度可以在IP语音系统的呼叫粒时的协议协商期间确定,并可 ;&X寸话期间在响应例如网络拥塞控制机制时改变。正如在后文中会更为清楚的, 本发明的一些实施方式以有利的方式满足了以预定长度的信号帧工作的要求。 但是,这种新发明并不限于这些系统的要求;本新发明的其它实施方式能够以 非整数数目的帧的隐藏和具有时变长度的隐藏帧工作,其中这些长度可能是该 帧缓冲器中的特定内容的函数,也许与其它要素相结合。本发明的实施方式可有利地禾拥平滑和均衡操作610对来自该帧缓冲器的 信号605进行操作。这种平滑和均衡产生信号615,其中在时间上比一个或多个 隐藏帧早的帧具有与该一个或多个隐藏帧替代的一个或多个信号帧或直接在其 之前的帧增加的樹以性。可选地,如果该一个或多个隐藏帧与未被替代的现有 帧柳顿次插入,另口么与直接在一个或多个隐藏帧的预期位置之前的一个或多个 帧是类似的。为了后文中的参考,劍门将这两种情况简称为相似。相似正如收 听者所理解的。平滑和均衡获得具有增加的相似性的信号,同时保留信号615 自然地声音变化。由该平滑和均衡610有利地执行的相似性增加的操作的例子, 包括参数中增加的平滑度和相似性,例如能量包络、音调轮廓、声音等级、声音中断、i飽络和其它可感知的重要参数。
关于每个这些参数,将待平滑和均衡的帧内参数变化中的瞬间突变过滤出 来,并且这些帧中的参数平均水平被平滑地修正,从而在上面定义的相似的含 义上变得更加相似。有利地,仅在一定范围内引入相似性,其仍保持信号的自然声音变化。在该索引模式发生器660的控制下,平滑和均衡能够有利地離 瞬变和不连续,其否则可能出现在随后的索弓(和樹IB作620中。此外,音调 轮廓的平滑和均衡能够有利iHil该索引模式发生器660以最小化失真的方式 得到控制,否则,其最后由相位滤波器650引入到后面的隐藏帧中。该平滑和 均衡操作能够有利地禾,信号或参数替代、混合、插值和域与在帧缓冲器600 中沿时间进一歩向前找到的信号帧(或从其中导出的参数)合并。该平滑和均 衡操作610能够从该系统中省去,这并不脱离本发明的通常的范围。在这种情 况下,信号615等同于信号605,并且在那种情况下,索引模式发生器660的信 号输入656和控制输出665能够从系统设计中省略。
索弓l和插值操作620将可能会劍平滑和均衡的信号615和索引模式666作 为输入。此外,在本发明的一些有利实施方式中,索引和插i^喿作将匹配质量 指示器667作为输入。该匹配质量指示器可以是一个齡瞬间时刻的l疆值, 或者其可以是时间和频率的函数。该匹配质量指示器的用途在说明书后文中会 变得清楚。该索弓l模式666确定该索弓l和插值函idt作的参数。
图5A所示的是索弓膜式可能如何索弓暖冲采样中的子序列BS1 、BS2、BS3 和BS4在一个或者多个隐藏帧的合成中逐渐在时间上向后移动的示例。在所示 的示例中,隐藏帧CF1、 CF2、 CF3中的连续子序列CS1、 CS2、 CS3、 CS4、 CS5、 CS6和CS7基于帧BF1、 BF2中的采样的缓冲子序列BS1、 BS2、 BS3禾口 BS4。如图可见,隐藏子序列CS1-CS7由位置指针从缓冲的子序列BS1-BS4索 引,该位置指针在时间上逐渐向后移动然后逐渐向前移动,如函数记号CS1(BS4)、 CS2(BS3)、 CS3(BS2)表示的那样,意思是CS1是基于BS4的,等 等。因而,图5A是作为说明隐藏帧中的连续子序列是可能如何基于连续的缓冲 的子序列、但在时间上重新排序的相互连接的一个示例。如图可见,第一四个 隐藏子序列CS1(BS4)、 CS2(BS3)、 CS3(BS2)和CS4(BS1)I^^择基于缓冲采样 的最后四行序列BS1、 BS2、 BS3、 BS4,以连续顺J^旦是以逆时间顺序,由 此从最后的缓冲子序列BS1开始。在以逆时间顺序的第一四付序列后,随后 的三个子序列CS5、 CS6、 CS7都基于以时间顺序i^卖的缓冲子序列,即分别为 BS2、 BS3和BS4。优选的索引模式是该索引模式发生器660的结果,并可能随 着到这个模块的输入656、 596、 597、 598和599发生很大的变化。遵循图5A 的fei己,图5B示出隐藏子序列CS1-CS11可能如何基于缓冲子序列BS1-BS4 沿时间重新排序的另一个说明性示例。如图可见,后来的隐藏子序列逐渐基于 在时间上进一步后退的缓冲子序列。举例来说,第一两个连续隐藏子序列CS1 和CS2基于最后两个缓冲的子序列BS3、 BS4以逆时排序,但是,后面的一个 隐藏子序列,例如CS10基于BS1,艮卩,相比那些用于计算CS1和CS2的子序 列,其基于在时间,一步后退的一个缓冲子序列。因而,图5B用于说明连续 隐藏子序列是基于以一定方式在时间上向前和向后索引的缓冲子序歹啲,由此 该索弓l随时间逐渐向后变化。在本发明的有利实施方式中,这个在时间上逐渐向后的变化为了说明书的 需要我们确定称之为后退步骤序列,和为了说明的需要我们称之为读取长度序 列。在这种格式的索引模式的简单实施方式中,指向信号采样、或者表示其参 数或系数的指针,向后移动一定的量,这个量与第一后退步骤的量相等,之后, 一定数量的采样、或者表示其参数或系数被插入到该隐藏帧中,这个一定数量 与第一读取长度相等。其后,该指针向后移动与第二后退步骤的量相等的量, 并从而读取等于第二读取长度的一定数量的采样、或者表示其的参数或系数, 等等。图5C所示的慰寸第一列举的索弓l采样进行重新排序的过程的示例。这个第 一列举被列在信号时间轴上,而在图5C的隐藏时间轴上的列举表与被置于该隐 藏帧中的原始采样的重新排序相对应。对于这个说明性的示例来说,随意选择 第一、第二和第三后退步骤分别为5、 6、 5,并且,同样地随意选择第一、第二 和第三读取长度分别为3、 4、 3。在这个示例中,分别具有时间索弓l集合j6, 7,
8}、 {3, 4, 5, 6}和{2, 3, 4}的子序列是时间上逐渐后退变化的子序列。这里 选择的后退步骤和读取长度的子序列纯粹是为了说明的目的。以16kHz进行采 样的语音剩余采样作为示例,后退步骤的典型值为40到240的范围,但并不限 于这个范围,读取长度的典型值为5到1000采样的范围,但并不限于这个范围。 在这种格式的更先进的实施方式中,从正向(directed)序列(例如原始时间或 者时间上向后索弓l的子序列)到另一个正向序列的转变, 一个时间上进一步后 退的步骤,是M渐变插值逐荐腿行的。图6所示的是响应一个后退步骤和相应读取长度和匹配质量指示器的索弓( 和插值函数的简单实施方式的操作。仅是为了说明的目的,这里的信号帧包括 时域音频采样。以一种相似并从而直接的方式,将该渐变插f,用于在本说明 书中使用的一般定义的"采样"上,艮P,包括表示时域音频采样的标量或者矢 量值系数或者参数。图中的700 g信号615的一个片段。指针705 M样时 亥廿,该采样时亥鹏随着在索弓(和插值输出信号625中最后产生的采样的采样时 亥ij。时间间隔750具有与读取长度相等的长度。时间间隔770也具有与读取长 度相等的长度。时间间隔760具有与后退步骤相等的长度。在700中从时刻705 开始的且在时间上向前的读取长度内的信号采样一个接一个地与窗函数720相 乘。同样,在700中从后退步Sfe后、4體706之前的一个采样4體开始的, 并且在那之前的读取长度内的信号采样, 一个接一个地与窗函数710相乘。与 窗710和窗720相乘所产生的采样一个接一个地相加730以产生采样740, i亥采 样740构成新一批的来自索弓瞎插傲喿作的输出625的采样。这个操作完鹏, 指示705移至lX體706。在本发明的简单实施方式中,窗函数710和720是读取长度750的简单函 数。 一个这种简单函数是分别选择窗710和窗720作为两倍于读取长度的汉宁 窗(harmingwindow)的前一半和后一半部分。但是,这里也可选择宽范围的函 数,要注意的是这个函数在本发明的上下文中是有意义的,它们必须要以这样 的一种方式完成由750指示的片段中的采样与由770指示的采样之间的加权插 值,该方式即,謝门衝紙也,但不必是单调地,AU寸于750指示的片段的高加 权移动到对于770指示的片段的高加权。在本发明的其它实施方式中,窗函数710和720是匹酉己质量指示器的函数。 这种函数的一个简单示例是,根据由时间间隔750和770指示的信号700的片 段上的归一化相关性有关(normalized correlation)的阈值,选择插值操作对幅 度或者能翻行求和取整。这种函数的另一个示例避免了计算振幅或者會糧总 和到一的限制,而是仅将窗的权值优化作为匹配测量的函数。另外,这种方法 的进一步改进采用归一化相关性的实际值,并响应它而优化该插值操作,例如, 禾,经典的缘性估值方法。不管怎样,后文中将描述 方法的示例。在这些 示例中,阈值和归一化相关性的实际值分别给出由匹配质量指示器667传送的 有利信息的示例。根据后文中描述的优选实施方式,该插值操作可用于执行不 同频率上的不同加权。在这种情况下,匹酉己质量 际器667會^!多有利地传送作 为频率函数的匹配测量。在有利实施方式中,这个作为频率的函数的加权作为 渐减的延迟线或者其它参数滤波器形式来执行,该形式能够被优化以达到最佳 匹配标准。图6中戶际的是,当信号615 (和由此的信号片断700)包含表示声音信号 的或者源自其的时域信号的时fe魏样的采样时,给出索弓l和插值操作的说明。 如前面擬啲那样,在帧595中的和由此在信号605和615中的采样能够有利 地成为針采样都是一个矢量(矢量f魏样),其中这种矢量包含系数或者参 数,该系数或者参数表示或者部分表示该声音信号。这种系数的例子是线状谱 频率(linespectolfrequency)、频±或系数、或者定义正弦信号模型的系数,例如 振幅、频率和相位的集合。以本发明的雌实施方式的这些详细说明为基础, 对本领域的技术人员来说,有利地应用在矢量1K样上的插值操作的设计是可 实施的,因为其余的细节能够在针对这种矢量IM样的每种特定情况的一般文 献的描述中找到。为有利地理解本发明,应该观察到,当反,用读取长度小于后退步骤的 索引和插值操作时,另卩么结果会是,信号625中的采样将表示在信号615中逐 渐i腿一步并且魏一步地后退的信号采样。于是,当后退步骤和或读取长度 改变,使得该读取长度变得比后退步骤大时,那么这个过程将返回并且这时信 号625中的采样将 在信号615中逐搏肚ikii一步并,一步地向前的信号采 样。通过对后退步骤序列和读取长度序列进行有利iik^择,无需帧缓冲器600 中的最近接收的信号帧的时间之前的采样,甚至无需另一个预置时刻之前的采 样,就能够获得具有丰富和自然变化的长隐藏信号,该预置时刻可能位于比帧 缓冲器600中最后接收的帧中的最后采样早的位置。从而,利用本发明使得对
于具剤氏延迟播放或者输出缓冲器时序安排的系统中的鹏尖峰(delay spikes) 的隐藏成为可能。在本说明书的明确描述中,通过反复〗OT—个采样的读取长 度、两个采样的后退步骤和窗720和窗710来实现信号简单精确的倒退(strict backwards)的时间变化,该窗720包括一个值为0的单个采样,该窗710包括 一个值为1.0的单个采样,该时间变化可以用于考虑作为本发明的简单实施方式 中的一部分。索引模式发生器660的主要目的是控制索弓l和插鶴作620的动作。在一 组,实施方式中,这个控制是在索引模式666中确定形式的,该索引模式666 可由后退步骤序列和读取长度序列组成。这个控制可进一步利用匹配质量指示 器序列增强,该匹配质量指示器序列依次每个都可以是例如频率的函数。另一 个待征是重复计数668,其可从该索引模式发生器输出,并且其用途在本说明书 的后文中会更清楚。重复计数的意思是,时间上向后变化的次数的数目,其是 从该一个或多个隐藏帧的构成中开始的。该索弓膜式发生器获得这些来自信息 基础的序列,其可包括由该平滑和均衡操作610输出的经过平滑和均衡的信号 656;音调估计596、声音估计597、要产生的隐藏帧的数目598,以及指向待取 代的帧的指针599。在索引模式发生器的一个实施方式中,它将根据声音指示器 进入不同的模式。这些模式在下面举例说明。作为有利地在线性预测激励域使用的示例,如果该声音指示器鲁棒地 (robustly)指示该信号为无声语音,或者在该信号中没有出现有效语音,即该 信号由背景噪声组成,则该索引模式发生器可以进入一个模式,在该模式中开 始该信号采样的简单逆时变化。如前面所述,这倉^I多通过例如提交后退步骤值 等于2的序列和读取长度值等于1的序列来实5见(这个说明书基于这样的设计 选择,即该索引和插值操作本身会识别这,,并应用上面描述的适当的窗函 数)。在一些情况下,这个序列能够继续,直至瞻号的逆时变化已经针对隐藏帧 中需要的新采样数目的一半得到执行,之后,后退步骤序列中的值可变为O,借 此开始信号的前向时间变化,并继续,直到指针706有效地回到指针705在后 退步骤的第一应用中的出发点。但是,这个简单的过程不总是足以产生高质量 的隐藏帧。该索引模式发生器的一个重要任务是监控适当的停止标准。在上面 的示例中,逆时变化可将指针706弓昭信号中的一个位置,在该位置,如收听 者感知的那样,声音与开始点的明显不同。在这个出现之前,应改变时间变化
的方向。本发明的tte实施方式可应用基于一组测量的一组停止标准。下面举例说 明一些这种测量和停止标准。如果声音显示指针706处的信号是有声音,那么 在上面从无声开始的示例中,该时间变化的方向育辦有利地改变,同样,如果指针706的周围区域的信号育糧不同于(由乡树或者相对阈值确定)指针705 出发点处的信号能量,该时间变化方向會^l多有利地改变。作为第三个示例,指 针705出发点周围区i辭吋旨针706当前〗體之间的频谱差可能超过阈值,夷P么 该时间变化方向应当改变。当信号不能鲁棒地确定为无声或者包含非活动语音时,可弓l起模式的第二 个示例。在这个模式中,音调估计596组,于确定该索引模式的基础。执行 这个的一个过程是,搜索每个后退步骤,以给出一个来自指针705并且时间上 在其之前一^H周周期的信号和来自后退步骤比指针705早的点并且在其之前 一个音调周期的信号之间的最大化的归一化相关性。对后退步骤可能值的搜索 可有利地限定在一个区域内。如果没有发现在前的后退步骤,这个区域可以有 利地被设置为在前面发现的后退步骤或者音调滞后的周围加上负10%。 一旦确 定了后退步骤,读取长度的值将确定时间信号变化应在时间上向后还是向前变 化,以及这个变化应当进行多快。通过将读取长度选择为矛妾近于后退步骤识别值来获得慢变化。M3i在向后和向前变化的情况下分别选择比后退步骤小得多或者大得多的读取长度来获得快变化。该索引模式发生器的一个目的是,选择 读取长度以优化由收听者感知的声音质量。选择i卖取长度过于接近于后退步骤 可能在一些信号例如非完全周期信号中,,引起感觉上恼人的人为现象,例如串 音。选择的读取长度距离后退步骤太远时,意B賴隐藏帧的时变期间,最终扫 过(swept) 了帧缓冲器中的一个较大时间间隔,可选地,在为隐藏帧产M够 数量的采样之前,时变的方向必须改变更多次。第一种情形可能是,在一些信号中,例如不够平稳的(或者不够平滑和均 衡的)信号,可能产生一种感觉上恼人的人为现象,该人为现象与一个或多个 隐藏帧中的声音中的口吃现象具有某种相似之处。在第二种情形中,可以发生 类似串音的人为现象。本发明的有益实施方式的一个特点在于,可以将读取长 度确定为后退步骤和归一化相关性的函数,其在搜索最佳后退步骤中被优化。 对于作用在语音信号上的本发明实施方式中这个函数的一个简单有益的选择由
下面的函数作为示例给出,并且这时信号帧包含20ms的以16kHz采样的线性ReadLength=[(0.2+NormalizedCorrelation/3)*StepBack]其中方括号[]用于表示取最接近的整数,以及其中符号ReadLength、 NormalizedCorrelation和StepBack分别用于表雜取长度、为最佳后退步骤而获 得的归一化相关性,以及对应的后退步骤。上面的函数仅作为示例包含在此, 以表示本发明某些实施方式中的一种有益选择。为获得这个读取长度,包括任 何函数关系的对于读取长度的任何选择都是可能的,都不脱离本发明精神。具 体地,选掛卖取长度的有益方纟跑括利用控制665确定平滑和均衡操作610的 参数,以便在中间隐藏帧625中实现口吃状和串音状人为现象的连接最小化。 这解释了为什么索引模式发生器660将中间信号656而不是来自平滑和均衡操 作的输出615当作输入信号656表示在控制665下的最终信号615的可能形 式(potential version),并且使索引模式发生器能够ilili&代完成优化任务。对 于上面无声和非有效声音模式的情形就是这种情况,在这种模式中停止标准也 是必需的。上面模式中列举的停止标准的所有例子也适用于这个,莫式。另外, 在这种模式中,根据对音调和归一化相关性的测量,停止标准可有益地成为本 发明实施方式的一部分。作为示例,图7示出用于停止标准组合的有益的判定逻辑。图7中,参考iH己指示如下800:识别信号是否为高(high)相关类型、低(low)相关类型或均不是。确定初始能量等级801:确定下一后退步骤和归一化相关f,读取长度802:确定信号是否itA低相关类型 803:确定信号是否SA高相关类型 804:信号为高相关类型吗? 805:信号为低相关类型吗?806:能量低于相对最小阈值或高于相对最大阈值? 807:归一化相关性低于用于高相关类型的阈值? 808:归一化相关性高于用于低相关类型的阈值? 809:已生皿够的采样?
在16kHz采样语音的线性预测ti]域中操作的情况中。图7中标注的阈值可以有益地如下进纟琉捧当遇到大于0.8的归一化相关性时,可以m高相关类塾为保持在高相关类型中的阈值在归一化相关性中可以设为0,5;当遇到小于0.5的归一化相关性时,可以itA低相关类型;保持在低相关类型中的阈值在归一化相关性中可以设为0.8;最小相对能量可以被设为0.3;并且最大相对能量可以设为3.0。此外,不脱离本发明的精神和范風在本发明的上下文中,可以使用其它逻辑以及其它停止标准。停止标准的应用意味着单一变化并不能保证对隐藏帧给出所需数量的采 样,该单一变化在时间上后退直至产生足够的采样或者符合停止标准,然后在 时间上再次向前。因此,在时间上后退或者前进的更多变化可以由索弓膜式发 生器应用。但是,太多的后退和前进变化可能会在一些信号中产生串音状人为5嫁。因此,本发明的im实施方式可共同优化停止标准、应用于读取长度计算中的函数、平滑和均衡控制665、和后退和前进变化的数目,即重复计数668, 并且如果被指向待取代帧的指针599激活,那么也包括在每次新的向后变化启 动前的向前变化的采样数目。所以,还可以有利地控制平滑和均衡操作,以略 微改变信号的音调轮廓。此外,共同优化可考虑相位熗波器650的操作,并对 音调轮廓进行略微改变,以产生索引模式,其与上面提至啲其它参数一起最小 化由该相位滤波器弓(入的失真。基于X寸本发明^^实施方式的说明,本领域技 术人员理解将各种通常的优化工具应用于这个任务,这些工具包括迭代优化、 马尔可夫(Markov)决策过程、维特比(Viterbi)方法及其它。不脱离本发明的范围,任一戶;im具者阿应用于这个任务。图8通过流程图示出迭代过程的例子,该过程完itX寸这些参数的简单而有 效的优化。图8中,参考t斜己指示如下 820:启动对于平滑和均衡的控制665 821:获得新的平滑信号656 822:启动停止标准 823:启动允许的重复次数824:识别均匀分布在由指针599所指示的可禾拥帧上的后退和前进变化序 列的索弓膜式,或者如果指向可利用帧的末端,后退变化直接跟随前进变化 825:已产生用于隐藏帧598数目的足够数量采样?
826:是否达到重复的最大数?827:允许增加的重 828:是否达到停止标准的最宽松的阈值?829:放宽停止标准的阈值830:改变控制以增加平滑和均衡的效果要注意的是,在前面的变化中或者时间上后退和前进的变化中还没有合成 足够信号的情况下, 一个在时间上后退和前进的变化以及其后的在时间上后退 和前进的变化可有利地是不一致的。作为例子,应当设计后退步骤序列、读取 长度、和插值函数序列、还有在时间上后退和前进变化之后的终点位置指针,以便对否则由相似索弓膜式重复产生的周期性人为现象进行最小化。以16kHz 的有声语音剩余i碟样为例, 一个产生大约假定320个采样的在时间上的后退 和前进的变化,与早先的在时间上后退和前进的变化相比,能够 地在信号 中更早终止大约100个采样。至此,戶万公开的实施例有效地减轻了现有技术方法中己知的人为的声音串 音问题,同时,會^!多有效隐藏突发的延迟抖动尖峰和突然出现的重复的信息包 丢失。然而,在不利网络劍牛中,例如在一些无线系统和无线特别(adhoc)网 络及尽力服务(best effort)网络和其它传输瞎况中戶腿至啲,甚至所公开的方 法在某些情形中可能在隐藏帧中弓l入少量音调部分。因此,较小噪声混合操作 630和功能衰减(graceful attenuation)滤波器640可有利地应用于本发明的某些 实施方式中。通常的噪声混合和衰减技术对于本领域技术人员而言是众所周知 的。这包括对由频率决定的噪声成分功率(power)的时间变化和由频率决定的 衰减函数的时间变化的有利使用。在本发明的上下文中,具体到噪声混合和衰 减4OT的特征,M用于自适应确定噪声混合和衰减操作参数的索弓膜式666、 匹配质量测量667和/或重复计数668的明确使用。具体地,索引模式对未改变 的信号采样放置于隐藏帧中的位置和隐藏帧中何处的采样是插值操作的结果做 出标引。而且,后退步骤相对于读取长度的比率与匹配质量测量相结合,表示 从插值操作中得到的感知质量。因此,很少或没有噪声可被有利地混入原始采 样,更多噪声可以被有利地混入由插值过程的产生的采样中,并且被混入到这 些采样中的噪声数量可有利地是匹配质量测量的函数,有利地以频率微分(differentiated)方式。此外,读取长度相对于后退步骤的值也表示可能发生的周期数,噪声混合可有利地包括在确定要混入隐藏信号中的噪声数量中的这种 测量。将同样的原理应用于衰减;有利地使用功能衰减,但是较少衰减可被引 A^示原始信号采样的采样,而较多衰减可以被弓l入从插值运算中得到的采样。 此外,这些采样中的衰减量可有利地是匹配质量指示的函数,且有利地以频率 微分方式。再者,读取长度相对于后退步骤的值表示可能出现的周期数;在衰 减设计中,衰减操作可有利地包M^种测量。如在本发明的背景技术中所提到的,本发明实施方式的子集的一个重要目 标是获得预置长度等于规则信号帧长度的隐藏帧。当想从系统设想得到这时,达到这个目的的装置可有利i也是相位搶波器650。这个块的在计算上简单、近似但经常充分的操作是为了完成采样之间的平滑叠加,该采样超过该预定帧的长 度,该预定帧长度是隐藏帧数目的多倍,具有来自隐藏帧之后帧的采样的尾部 子集。单独地看,根据现有技术这种方法是众所周知的,并在例如国际电信联盟建议ITU-TG711附录l中{顿。在依据系统设想实施时,通过将后续帧与-1 相乘,可以改善该简单叠加过程,无论何时这都增加叠加区域中的相关性。然 而,也可有利地使用其它方法进一步减轻帧边界处不连续的影响,例如在有声 信号帧之间的转变中。 一种这样的方法^t隐藏帧进行皿样。作为一种独立 的方法,这在现有技术中也是公知的。参见例如Valenzuela和Animalu, "A new voice-packet reconstruction technique",正EE, 1989。因it匕,本令页土或,支术人员可以实施MS帧边界处不连续的操作。然而,掛匕所公开的本发明的i^实施方式中, 鼓样可被有禾哋延续到紧随最后隐藏帧之后的帧中。从而,当由收听者解释 时,使得时变的斜率以及由此而产生的频移不被觉察到,该频移是觀样技术 的结果。此外,替代鼓样,为减轻帧边界不连续的时变全通滤波器的4顿在 本发明中被公开。其实施方式之一通过如下滄波器方程给出H一L(z,tXalpha一l(t)+alpha一2(tf/(-L))/(alpha—2,alpha一l(t"A-L》该函数解释如下。假定需要在一个扫描间隔(sweep interval)上进行从L 采样延迟到0釆样延迟的扫描,该扫描间隔可包括所有或部分隐藏帧中的、在 该隐藏帧之前的帧中的、和在该隐藏帧之后的帧中的所有或部分采样。然后, 在扫描间隔的开始,将alpha一l(t)设为零,alpha—2(t)设为1.0,以执行一个L采 样延迟。当在t上的扫描开始时,alpha—1(t)应-逐渐增加至0.5, alpha一2(t)应逐渐 减小至0.5。在扫描间隔的终点,alpha—1(t)等于alpha一2(t),那时滤波器H一L(z,t)
引入零E3E。相反地,如果需要在扫描间隔上进行从0采样延迟到L采样延迟 的扫描,该扫描间隔可包括所有或部分隐藏帧中的、在该隐^]I贞之前的帧中的、 和在该隐藏帧之后的帧中的所有或部分采样。然后,在扫描间隔的开始,将alphaj(t)设为0.5, alpha—2(t)设为0.5,以执行O采样延迟。当在t上的扫描开始 时,alpha—1(t)]5ZM渐减小至0, alpha—2(t)^Z^渐增加至1.0。在扫描间隔的终点, alpha—1②等于0并且alpha—2(t)等于1.0,那时滄波器H—L(z,t)引入L采样延迟。上面的滤波在计算上是简单的,但是它具有非线性相位响应。因感知的原 因,这个非线性相位将其J顿限制至相对小的L。有利地,对于采样率为16kHz 的语音,L< 10。对初始L较大值实现搶波的一种方法是启动几个较小L值的 搶波器,戶诚较小L值的总和为期望的总L值,这几个滤波器可有利地在不同 时刻启动,并在不同的时间间隔上扫描alpha范围。该滤波器可在其中应用的另 一种增加L范围的方法将在随后公开。实5见与上面在功會让相同的滄波结构是, 将信号分为L多相位,并在針这些多相位中执行下面的滤波 H一l(z,t) = (alpha一l(t) + alpha—2(tf,(-l))/(alpha一2(t) + alpha一l(t) 依据本发明,通过使用增采样(up-sanpling)来有利地实现多相位滤波。 有利地实施这个的一种方法是在以系数K进行降采样(down-sampling)之前, 以系数K对每个多相位进行增采样,并且在*±曾采样多相位中执行K次滤波 H—l(z,t),并对来自多相位的相位改变的信号进行重构。系数K可有利itt择为 K=2。 M增采样过程,获得t魏线性的相位响应。从而,改善了收听者的感知 质量。当隐藏帧被无损耗地插入接收帧序列中时,可应用上面描述的在多帧上的 相位调整。它也可应用于当为了减小后续帧的播放延迟而将帧从信号序列中去 除的情况。以及,其可应用于当丢失多个帧并且将零或多个隐藏帧插入至lj之前 接收的帧和丢失后接收的帧之间时。在这些情形下,获得用于这个滤波器的输 入信号以及得到延迟L的有利方法如下1) 在时间上比不连续点早的帧上,继续或者启动这里或者任一其它所公开 的隐藏方法。2) 在时间上比不连续点晚的帧上,ffiil隐藏方法将数量为L一test的采样插 入帧开始处,该隐藏方法是这里或者任一其它所公幵的一种隐藏方法,但是具 有时伺采样的逆向索引。 3) 匹配领糧,例如归一化相关性,鄉于来自1)的隐藏帧和来自2)的包 舌ltf(heading)L—test个采样的帧之间。4) 将最大化匹配测量的Ljest选择为L。5) 现在利用加权叠加步骤,将来自2)的隐藏帧和来自3)的帧加在一起。 尽管如本领域的技术人员所知能够实施这个加权叠加方法,但是,地,它能 够根据本说明书中后面公开的内容进行优化。6) 以确定值L启动,纟射寻到的帧用作上述相位拟合滤波(phase fitting filtering) 的输入。如果L大于阈值,贝i」在不同时刻和时间间隔启动和系数扫描几个滤波 器,它们的L值求和到确定的值L。有利地,在以8或16kHz采样的语音或剩余语音中,上面阈值可以在范围 5至50内进fi^择。更有利地,在有声语音或剩余有声语音中,通m帧的第 一音调周期的采样进行环形禾對立而获得隐 样L一test及其进入到随后帧中的 继续。从而无需归一化、对整僧调周期进行相关的相关性测量可有利地被用 作匹配测量,以找到优选环形禾多位L。图9示出这种方法的一个实施方式。在这个图中,相位调整产生信号帧900 和后续帧之间的平滑变换。这根据如下完成依据信号帧900和较早的帧,生 成隐藏信号910。这个隐藏信号可利用这里所公开的方纟緣生成,或舒'j用本领 域公知的其它方 妹生成。该隐藏信号与窗920相乘,并在925与另一窗930 相加,窗930与按如下方式生成的信号相乘根据后续采样950和可能的960, 通过有效地应用例如这里所公开的隐藏方法或者使用本领域公知的其它方法生 成隐藏信号940,并与后续采样950连接。优化隐藏940中的采样数,以使得对 隐藏910和连接940以及后续采样950的连接之间进行最大化匹配。有利地,归一化相关性可用作对这禾中匹配的领糧。而且,为了减少计算上 的复杂度,该匹配可对于有声语音或者剩余有声语音而言限于包含一个音调周 肌在这种情况下,隐舰样940可作为一傾调周期的环形樹立的第一部分 而获得,并且,此时无需对一^t调周期上的相关性测量进行归一化。因此, 避免了对归一化系数的估算。就先前在优选实施方式的详细说明中所述的索弓I 和插值操作来说,窗可再次有利地为匹配质量指示器的函数和/或频率的函数, 并有利地以渐减的延迟线实现。滤波器970的操作如下。由叠加过程产生的第 一L个采样直樹专递至U其输出,并且该第一 L采样用于设置滤波器的初始状态。
此后,赠虑波器系 行如上戶腿的初始化,并且当熗波器,條样L+1开始向 前滄波时,这些系数被逐淬形周整,以逐渐去除LEiE采样,如上面所公开的那 样。此外,在上述过程中,根据最大化匹配标准而对窗的权重进行优化的方法以及该窗函数的统一化(generalization),如上所述,应用于由频率决定的权重 和以渐减的延迟线或者其它参数搶波器的形式的匹配搶波器。在有益的实施方 式中,通过一系列三个叠加序列获得由频率决定的滤波器权重的时变,三个叠 加序列中,第一个消弱(fade down)来自先前帧的隐藏帧,第二个以滤波器增 强(fade up)这些具有搶波形式的帧,以匹配来自在逆向索引时间中获得的随 后帧的隐藏帧,然后对此再次消弱,第三个增强时间上在后的帧。在另外一组 有益实施方式中,通过一系列四个叠加序列获得由频率决定的滤波器权重的时 变,第一个消弱来自先前帧的隐藏帧,第二个以搶波器增强这些具有滤波形式 的帧,以匹配来自在逆向索引时间中获得的随后帧的隐藏帧,然后对此再次消 弱,第三个增强时间上在后的滤波形式的帧,以进一步改善这种匹配,此后再 次消弱,最后第四个窗增强时间上在后的帧。另外,加权叠加方法另外的有益 实施方式在本说明书的后面公开。关于实施例中的平滑和均衡操作610,其中乘lj余Jl^稱皮用作标该语音信 号的部分信息,利用音调自适应滤波,例如梳状滤、波器或者周期陷波滤波器, 能够将平滑和均衡有利地应用在这个剩余信号上。此外,也可有利地应用具有 长期相关搶波器加噪声的维纳或卡尔曼(Wiener或Kalman)滤波作为乘除未滤 波信号的模型。在应用维纳或卡尔曼滤波器的这种方式中,应用这个模型中的 噪声变化来调整平滑和均衡量。由于传统上在维纳或卡尔曼纟虑波理论中,这个 部^^f扰噪声成分的存在进行建模,因此,这在某种,號上魏反直觉的使用。 在应用于本创新中时,目的是设置平滑和均衡的水平。在本发明的上下文中, 作为音调自适应梳状滤波或者陷波滤波以及维纳或者卡尔曼类型滤波的可选形 式,有利地应用第三种方法对剩余信号进行平滑和均衡。通过这第三种方法, 如有利地应用于例如无声语音中的采样幅值,或者是如有利地应用于例如有声 语音中的采样的连续矢量,都愈加相似。在下面分别对用于有声语音矢量和无 声语音采样的完成此目的的可能过,liS行捐M。对于有声语音来说,以矢量收集语音或者剩余语音的连续采样,在等于一
个音调周期的每个矢量中具有许多采样。为了说明的方便,我们在这里将这个矢量表示为v(k)。现在,该方法将获得剩余矢量itk)作为v(k)分量,剩余矢量*) 不會 1某种方法在周围矢量v(k-Ll)、v(k-Ll+l)、 ...、 v(k-l)和v(k+l)、 v(k+2)、....、 v(k+L2)中找到。为了说明的方便,在周围矢量中发现的分量表示为a(k)。随后 以某种线性或非线性方式对剩余矢量r(k)进行处理,以降低其可听度,同时保留 得到的重构矢量的自然属性,所得到的重构矢量^M:将分量a(k)再次插入已处 理的r(k)形式中而获得的。这样获得有声语音或者有声剩余语音的经平滑和均衡的形式。下面给出上 面戶,的原理的一个简单的实施方式,其对a(k)的定义为了方便,禾lj用了矩阵矢 量符号,并且为了示例的简单性,禾,了线性组合和最小平方的概念。这仅仅 作为用于上述平滑和均衡的一般原理的单一简单实施方式中的一个例子。为了这个例子,将矩阵M(k)定义为M(k) = [ v(k-Ll) v(k-Ll+l)….v(k-l) v(k+l) v(k+2),…v(k+L2)]据此,可将a(k)计算为例如己知M(k)中的v(k)的最小平方估计a(k) = M(k) inv(trans(M(k)) M(k)) v(k)其中inv()表示矩阵求逆或伪求逆,transO表示矩阵变换。现在,可以例如 利用减法计算剩余矢量r(k)。 r(k) = v(k)_a(k)处理r(k)的一个例子是,M削去这个矢量中的峰值,例如为了限制采样的 最大乡M值到等于最接近后退-前进隐藏过程中起始点的矢量r(k)的最大幅度的 水平,或都蹄倒为在矢量中相同位置处采样幅度倍数的某系数,但在矢量中 最接近于后退-前进隐藏过程中起始点。已处理的剩余矢量rm(k)随后与矢量a(k) 结合,以重构v(k)的均衡形式,在这里为了方便由ve(k)表示。作为一个示例可 以通过简单的加^^完成这种结合ve(k) = alpha*rm(k) + a(k)这个例子中的参数alpha可被设定为1.0或可有利地被选择小于1.0, alpha 的一个有益选择是0.8。对于无声语音来说,可有益地利用另一种平滑和均衡方法。用于无声语音 的平滑和均衡的一个示例计算对数域中剩余信号幅度的多项式拟合。作为例子, 可在loglO域j顿二阶多项式。将多项式拟合从对数i或转换回线性域之后,在对
应后退-前iSil禾跑始点的点处,有利地樹以合曲线归一化为1.0。随后,降低限 制拟合曲线至,如0.5,其中在剩余信号的幅度會,利用拟合曲线进行,早后, 以便于平滑±也均衡无声剩余信号幅度的改变。至于加权叠加过程,在本说明书的前面公开了其一些而不是戶万有的应用,艮口,索弓l和撤封喿作620和启动相位调整滤波970的输入信号的方法,该过程可由本领域的技术人员用己知方式实施。然而,在加权叠加过程的,实施方 式中,可有利地使用在下面公开的方法。在响应于匹配质量指示器而改变的加权叠加过程的简单实施方式中,劍门 考虑第一窗口乘以第一子序列及第二窗口乘以第二子序列,以及这两个乘积进 入叠加操作。现在,作为例子,劍门让第一窗口为逐渐减小的窗口,例如单调 递减函数,并且我们让第二窗口为逐荐赠加的窗口,例如单调递增函数。其次,为了简化例子,劍门让第二窗口用基本窗开M^以禾疆乘i^确定参数。现在,我们定义target为所述第一子序列;w—target为所述第一子序列中逐个采样与 戶;fi^E渐减小的窗口相乘w—regressor为戶腿第二子序列中逐个采样与戶舰用 于逐鹏加窗口的基本窗糊犬相乘;并且coef为戶;f3^蔬乘数。现在可优化第 二窗口的fel乘数分量,以便最小化target和叠加操作结果之间的误差平方和。 为了方便而使用矢慰巨阵符号,这个问题可以用公式表示为最小化目标和数量 之间的平方和差w—target + w—regressor*coef在这里定义矢量T和H为T = target - w一targetH = w一regressor给出这种优化的解为coef = inv(trans(H)*H)*trans(H)*T其中inv(),l疆敏巨阵求逆,trans(),巨阵^量的转置,以及"*" 是矩阵或矢量乘法。现在,如本发明在此所公开的主要部分一样,本方法可以 扩展为优化窗口的实际形状。获得这个的一种方式如下。我们定义一个形式的 集合,其所需窗口是这个集合中元素的线性组合。劍门现在定义H,使得H的 每个列是这个集合一个采样接着一个釆样与所述的第二子序歹湘乘的形状,我 们将coef定义为包含优化的窗函数中这些形状的未知权重的列向量。根据这些28
定义,上面以公式表示的这个问题及其解的等式现在用于解决更一般窗口的形 状。自然地,在上文中,第一和第二窗口的作用可以互换,以便J见在对第一窗 口进行优化。
本发明的更先进的实施方式共同优化两种窗口形状。^iiii定义基本窗口
形状的第二集合来实现,可能与窗口形状的第一集合相同,并且有利选择作为
对窗口形状的第一集合的每个窗口形状中的采样的逆时索弓l。现在将w一terget
定义为矩阵,其中每个列为来自窗口形状的所述第二集合的基本窗形状, 一个
采样接着一个釆样与i織一子序列相乘,将coef定义为列向量,该列向量包含 用于该第一窗口的第一权重和用于第二窗口的第二权重。然后,更一般的问题 可用目标和数量间的平方和差的最小化来表示 [w_target w—regressor]承coef
其中方括号口用于根据子矩阵或向量构戯巨阵。现在,这里定义矢量T和
H为
T = target
H = [w一target w一regressor]
给出这种优化的解为
coef = inv(trans(H)*H)*trans(H)*T
另外,本发明更高级的实施方式不仅优化瞬时窗口形状,还优化具有优化 的由频率决定的权重的窗口。虽然本发明的一个实施方式应用渐 咸的延迟线的 形式,但齡发明并不限于这种形式。实现这种普遍化的一种途径是,在上面 w—target和w—regressor的定义中用多个列替换各列,该多个列中的每个列一个 采样接着一个采样地和对应于它们替换的列的基本窗形状相乘,但是,其中这 个基本窗形状现在是一个采样接着一个采样地与相应的子序歹湘乘,该子序列 在对应渐减的延迟线中的特定位置延迟。
有利地,不脱离这里所公开的本发明,这些方法的系数优化考虑系数的加 权、约束或顿序计算。这禾中加权可有利地包括向对应低绝对,值的系数加更 多的权重。这种顺序计算可有利地首先计算低绝对延迟值的系数,从而仅使用 那些系数来最小化误差平方和,然后顺序地重复这个过程,以增加延迟值,但 是,在这个过程中仅在来自前面步骤的剩^i^g上重复这个过程。
一般地,本发明的实施方式将几个子序列作为优化的目标。总的来说,该
优化最小化一个失真函数,该失真函数是这些目标子序列和来自加权叠加系统 的输出的函数。这种优化不脱离本发明,将各种限制应用在基本形状和舰以 及它们在旨叠加中的权重的选择上。根据形状的精确选择,叠加的影响随时 间逐渐有利地从叠加区fe妮的子序列中减弱。图10所示的是公开的叠加方法的一个实施方式。由于本发明并不限于该图 中的精确结构,所以该图仅仅用于说明本发明的一个实施方式。图10中, 一个子序列iooo输入与另一^T序列ioio进行优化叠加的时间和频率开m。旨这些子序列进入一个分离的延迟线,在图中,其中Z标提前一个采样的时间, 以及Z-1表示延迟一个采样的时间,并且其中选择的舰l、 一1和0纯粹是为 了说明的目的其它、更多的或更少的延迟可有利地与本发明结合〗顿。现在, 将每个子序列的每个延迟形式与多个基本窗口形状相乘,并且将这些的齡结 果与要查找的系数连同优化过程中的其它系数一起相乘。与这些系数相乘后产生的子序列相加以产生来自时间和频率开沐优化叠加的输出1020。在图10的例 子中,系数优化1030将子序列1040和1050作为输入,并最小化一个失真函数, 该失真函数为1040和1050以及输出1020的函数。在权利要求书中,仅为了清楚的原因而包含附图的参考^H己。附图中典型 实施方式的参考l射己不应以招可方式构成对权利要求范围的限制。
权利要求
1、一种用于连接采样的第一帧和随后的采样的第二帧的方法,所述方法包括应用适于最小化所述采样的第一和第二帧之间边界处不连续性的相位滤波器。
2、 根据权利要求l的方法,其中,戶脱的相位搶波器应用于至少两个连续 帧中的至少一部分采样。
3、 根据权利要求2的方法,其中,戶,至少两个连续帧^^,第一和第二 随后帧。
4、 根据前述任一权利要求的方法,其中,戶,相位纟虑波器应用于至少所述 第二帧中的至少一部分采样,和连接戶,第二帧的至少一个帧中的至少一部分 采样。
5、 根据权利要求4的方法,其中,所述相位滤波器应用于至少)5雄第二帧 中的至少一部分采样,和连接戶皿第二帧的至少两个帧中的至少一部分采样。
6、 根据前述任一权利要求的方法,其中,所述相位滤波器应用于至少所述 第一帧中的至少一部分采样,和在所述第一帧之前的至少一个帧中的至少一部 分采样。
7、 根据权利要求6的方法,其中,戶腿相位熗波器应用于至少戶诚第"^贞 中的至少一部分采样,和在戶,第一帧之前的至少两个帧中的至少一部分采样。
8、 根据前述任一权利要求的方法,其中,戶诚相位熗波器包括顿搶波器 部分。
9、 根据权利要求8的方法,其中,戶腿顿熗波器部分是参数全通熗波器 部分。
10、 根据前述任一权利要求的方法,其中,戶脱相位熗波器包括利用弧度 相位值pi修超少一个采样的子序歹湘位。
11、根据权利要求10的方法,其中,所述参数全通熗波器部分包括1到 20个非零系数。
12、 根据前述任一权利要求的方法,其中,戶满相位熗波器是时变的。
13、 根据权利要求i2的方法,其中,戶;f^相位搶波器是时变的,这样,在远离所述第一和第二帧之间边界的有限个采样处,所述相位滤波器的响应接近零相位。
14、 根据权利要求13的方法,其中,戶腿相位滤波翻开始时间具有初始 选择的相位响应。
15、 根据权利要求14的方法,其中,远离戶,边界的所,样数目取决于 戶,相位滤波器的所述初^^择的相位响应。
16、 根据权利要求13-15任一的方法,其中,戶腿相位滄波器的响应換5 零相位的时间点在戶皿第一和第二帧至少其中之一内。
17、 根据权利要求13-15任一的方法,其中,戶湖相位搶波器的响应f魏 零相位的时间点在至少一个戶,第一帧之前的帧之内。
18、 根据权利要求13-15任一的方法,其中,所述相位滄波器的响应舰零相位的时间点在至少一个戶;f^第二帧之后的帧之内。
19、 根据权利要求13-18任一的方法,其中,远离戶腐边界的戶湖采样的 数目取决于戶腐第二帧或者戶JM第二帧之后的一个帧中的采样子序歹啲特征。
20、 根据权利要求13-18任一的方法,其中,远离戶;^ii界的戶;M采样的 数目取决于戶;f^第一帧或者戶,第一帧之前的一个帧中的采样子序列的特征。
21、 根据前述任一权利要求的方法,其中,所述相位熗波器包括多相位结构。
22、 根据前述任一权利要求的方法,其中,所述相位滤波包括增采样。
23、 根据前述任一权利要求的方法,其中,戶诚方纟跑括应用加权叠加过程。
24、 根据权利要求23的方法,其中,戶Jf^加权叠加过程包括匹配滤波器。
25、 根据前述任一权禾腰求的方法,其中,戶腿第一和第二帧至少其中之 一包 M31隐藏方法产生的一个或者多个隐藏采样。
26、 根据权利要求25的方法,其中,戶脑隐藏方 跑括基于缓冲采样的两 个连续子序列逆时序产生隐 样的两,续子序列。
27、 根据前述任一权利要求的方法,其中,所述相位 麽波器基于由所述第 二帧在时间上向后而产生的隐 样。
28、 根据权利要求27的方法,其中,所述相位滤波器的初始状縫于戶服 的隐藏采样。
29、 根据权利要求27或者28的方法,其中,选择包含在至少一个所述隐 ^^样中的多个采样,以最大化匹配测量。
30、 根据权利要求29的方法,其中,戶诚的匹酉己测量包括相关性,例如归一化相关性。
31、 根据前述任一权利要求的方法,其中,戶脱第一和第二帧中的采样表 示数字化的音频信号。
32、 计^m可执行的禾i^戈码,适用于执行根据前面任一权利要求的方法。
33、 一种,將存储设备,包括用于微处理器例如通用微处理器的一系列指 令,用于执行权利要求1-31任一的方法。
34、 一种用于接收数字化音频信号的装置,所^S包括-存储器装置,用于保存表示接收的数字化音频信号的帧,和 -处理器装置,用于执行权利要求1-31的任一方法。
全文摘要
一种用于连接采样的第一帧和随后的采样的第二帧的方法,所述方法包括应用适于最小化所述采样的第一和第二帧之间边界处不连续性的相位滤波器。
文档编号G10L19/005GK101120398SQ200680003569
公开日2008年2月6日 申请日期2006年1月31日 优先权日2005年1月31日
发明者瑟伦·旺·安德森 申请人:索诺瑞特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1