在通信系统中生成隐藏帧的方法

文档序号:2829995阅读:197来源:国知局
专利名称:在通信系统中生成隐藏帧的方法
技术领域
本发明涉及远程通信系统。更具体地,本发明涉及一种方法、器 件和设备,用于补偿信号包的丢失和/或延迟抖动和/或时钟脉沖相位差(clock skew),以提高在无线远程通信系统和包交换网络上的信号传输品质。
背景技术
现代远程通信是基于信号的数字传输的。例如,图1中,发射机 200收集来自源100的声音信号。这个源可以是通过麦克风收集的一个 或者多个人发音的结果和其他声波源,或者它可以是诸如文本-语音 合成或者对话系统之类的声音信号存储或发生系统。如果该源信号是 模拟的,则它通过模拟-数字转换器被转换为数字表示形式。按照适 于数字信道300的格式,该数字表示随后被编码和打包。所述包在该 数字信道上被传输。该数字信道典型地包含多个抽象层。在图1中的抽象层中,该数字信道将包序列作为输入,并将包序 列作为输出传送。由于典型地由噪音引起的信道衰减、缺陷 (imperfection )以及信道过载,导致输出的包序列典型地受到一些包 丟失和其他包的到达时间延迟以及延迟抖动损害。另外,发射机与接 收机的时钟差可导致时钟相位脉冲差。接收机400的任务是对从包流 接收的数据包进行解码,并且将已解码数字表示转换并解码为数字信 号表示,以及进一步将这些表示转换为适于输出到信宿(signal sink) 500的格式的已解码声音信号。此信宿可以是一个或者更多个人,通过
例如一个或者多个扩音器来将该解码的声音信号才是供给所述的一个或 者多个人。可选地,该信宿可以是语音或者音频存储系统,或者语音 或者音频对话系统或者识别器。接收机的任务是正确地重现可以被提供给该信宿的信号。当该信 宿直接或者间接地包括人类收听者时,接收机的目的是获得这样的声 音信号的表示当该声音信号被呈现给该人类收听者时,该表示正确 地重现人类感知的印象和来自 一个源或多个源的声音信号信息。为了 在使接收的包序列造成其丟失、延迟、延迟抖动的信道恶化以及时钟 脉沖相位差可能进一步出现^J常见情况下确保所述任务,需要有效隐 藏作为该接收机子系统的 一部分。作为示例,在图2中示出的是完成这种任务的接收机子系统的一 种可行实施方案。如该图中所示,进入的包被存储在抖动緩沖器410 中,解码和隐藏单元420从抖动緩冲器410获得所接收的编码信号表 示,进而将这些编码信号表示解码和隐藏,以获得适于存储在播放緩 冲器430中的信号表示,并且随后进行播放。对何时开始隐藏和对所 述隐藏的具体参数,例如隐藏信号的长度的控制,作为示例,可以通 过控制单元440来执行,控制单元440监控抖动緩沖器和播放緩沖器 中的内容,并控制解码和隐藏单元420的动作。隐藏也可作为信道子系统的一部分来实现。图3示出信道子系统 的一个例子,其中包经由子系统320从信道310向前传送到信道330, 这在后面我们称之为中继。在实际系统中,中继功能可通过多个单元 来完成,所述单元可以采用各种内容相关的名称,例如不同类型的路 由器、代理服务器、边缘服务器、网络访问控制器、无线局域网控制 器、IP语音(Voice-over-IP)网关、媒体网关、未经授权的网络控制器
(unlicensed network controller)和其他的名称。在本文中,所有这些 都是中继系统的例子。在图4中示出能够进行音频隐藏的中继系统的一个例子。如该图 中所示,包经由包交换子系统320和350从输入緩沖器310向前传输 到输出緩冲器360。控制单元370监控输入和输出緩沖器,并且根据监 控的结果,确定是否需要进行代码转换和隐藏。如果是,则转换器指 引包经过代码转换和隐藏单元330。如果不是,则转换器指引包经过最 小协议动作子系统340,最小协议动作子系统340将在该包^^头上执行 最小操作,以保持与所应用的协议相适应。这可以包括改变包的序列 号和时间戳的步骤。在利用但并不限于上面举例说明的系统来传输音频信号时,需要 对声音信号的信号表示或局部表示中的丟失、延迟、延迟抖动、和/或 时钟脉冲相位差进行隐藏。完成此隐藏任务的现有技术分为音调重复 (pitch repetition )方法和时标修正(time-scale modification)方法。有时在振荡器模式中包括的音调重复方法,基于的是对浊语音中 音调周期的估计,或者可选地,基于的是对浊语音信号的对应基频的 估计。给定音调周期,通过反复读取最后的音调周期来获得隐藏帧。 利用窗叠加处理,可以对隐藏帧的开始和末端处以及每一个重复的音 调周期之间的中断进行平滑。对于音调重复方法的示例,参见专利WO 0148736和国际电信耳关盟标准ITU-T G.711附录1中。基于线性预编码 原理,现有技术系统将基于音调重复的隐藏与多个解码器集成。在这 些系统中,该音调重复典型地在线性预激励域中通过来自长期预测器 或者自适应码本环的读取来实现。对于在线性预激励域中音调重复的 隐藏的示例,参见专利US5699481、国际电信耳关盟标准ITU-T G.729和 因特网工程任务组请求说明3951 (International Engineering Task Force Request For Comments 3951 )。上面的方法用于隐藏丟失或者沐斤增的延 迟,即正延迟抖动,和例如由于时钟脉沖相位差的原因而引起的输入 或者抖动緩冲器的下溢或者接近下溢的情形。为了隐藏渐减的延迟、 负延迟抖动、或者输入或抖动緩冲器的上溢或者接近上溢,需要产生 缩短的隐藏信号。基于音调(pitch)的方法通过在音调周期和先前音 调周期之间的叠加处理来实现。对于这种方法的示例,参见专利WO 0148736。再者,这点可以在线性预解码器中使用现有工具的同时被实现。 作为示例,专利US5699481公开了一种方法, -使用这种方法,依据该 自适应码本的状态,从再现信号中仅仅去除固定码本贡献矢量 (contribution vector ),以确保该再现信号中的音调周期。关于音调重 复方法, 一个目的是从隐藏帧到下一个帧的无缝信号连续。专利WO 0148736公开了一种实现这个目的的方法。利用WO0148736中所公开 的发明,利用时变和可能信号相关长度的隐藏帧来实现该目的。虽然 这能够有效地确保与延迟抖动和时钟脉沖相位差的隐藏有关的无缝信 号连续,但是,这个方法引入了与图4中所示类型的系统有关的缺陷 随着这种类型的隐藏,不能确保将该隐藏编码到固定预置长度的帧中, 该固定长度的帧与优先经由最小协议动作340中继的已编码的帧进行 无缝连接。在用于对丢失和突然增加的延迟的进行隐藏的基于音调重复的方 法中,再次出现的问题是音调循环的重复使再现信号声音不自然。 更具体地,这种音频信号变得太具周期性。在最坏的情况中,在再现 声音信号中感受到了所谓的弦音(string sound )。为了緩解这种问题, 在现有技术中有很多方法。这些方法包括使用重复周期,所述重复周 期为所估计的音调周期的两倍或三倍。作为一个例子,因特网工程任 务组请求说明3951描述了一种方法,使用这种方法,如果估计的音调周期小于10ms,则将使用两倍的所估计的音调周期。作为另外例子, 国际电信联盟标准ITU-T G. 711附录1描述了 一种方法,使用这种方法, 引入两倍及更后的三倍的重复周期,以重复两个及更后的三个音调循 环,而不是重复单个音调周期。参见对这种方法的完整描述的国际电 信联盟标准ITU-T G.711附录1。此外,为了减少弦音,典型地引入具 有一定电平的随机或随机状信号成分的隐藏信号与隐藏信号的逐渐衰 减的混合所述电平取决于语音发声电平。有时,通过对緩沖信号的操 作或者使用在已经解码器中可获取的诸如随机代码本之类的工具,来 得到这种随机状信号。使用这种特征的例子,参见专利US5699481、 国际电信4关盟标准ITU-T G.729和因特网工程任务组:清求说明3951。 逐渐的衰减还被用于抑制引入的伪信号(artefact)。虽然,给出的下面 的隐藏方法,这可以成为如由近端听众所认为的最好选择。但是在为 了取消这种回声的混响输入和自适应滤波器的情形中,远端听众可能 认为这种衰减的效果主要为负面的。这是因为衰减减少了自适应回声 消除器激励的持续。从而,这对实际回声路径的跟踪变差,进而远端 听众可经受更大的混响输入。例》口在Linag、 Farber禾口 Girod的 "Adaptive Play out Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, vol. 5, no. 4, pp. 532-543, Dec. 2003中所描述的时标i奮正方法经由匹配的平滑叠加处理起作用。在该处理中,信 号段被緩冲而不是被播放,信号被平滑地加窗口并且被识别为模板段, 随后搜索其他平滑加窗的段以识别相似的段,其中相似性可以是例如 相关度。平滑加窗模板段和平滑加窗相似段;波随后叠加和添加,以产 生时标改变信号。当播放时标被扩展时,用于相似段的搜索区域在采 样时间中被定位在模板段之前。相反地,在播放时标被压缩时,用于 相似段的搜索区域在采样时间中被定位在模板段前面。在已知时标修 正方法中,在执行时标修正之前模板和相似段的长度以及应用到它们 的窗口被预先设定,这些定量不适应于响应应用了时标修正的特定信号的特性。如在Linag, Farber and Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, vol. 5, no. 4, pp. 532-543, Dec. 2003中所看到的使用现有技术时标修正,尖峰延迟(spike delay )不能在包交换 网络上的实时双向语音通信中所需要的低延迟播放表中从起始点就被有效地减轻。具有与时标修正和音调重复方法的共同点的其他方法是已知的。 在本文中应当提到的一种类型是基于正弦曲线的隐藏方法。例如,参 见R0dbr0和Jensen, "Time-scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony", in IEEE Proc. Workshop on Speech Coding, 2002, pp. 71-73。取决于插入数量、使用这些方法经由正弦模型域分别 完成音调重复,这些方法受到如与上面提到的音调重复和时标修正方 法所确定的同样限制。发明内容所公开的发明或其进一步的实施例有效地减轻了已知方案中上面 所确定的限制,例如听觉伪信号,以及已知方案中其他没有指明的缺陷。
具体地,相比于基于已知音调重复方法,所公开的发明提供多种 技术方案,以产生声音信号的隐藏信号表示,其中这些隐藏信号表示包含明显更少的在听觉上烦人的伪信号,例如弦音。结果是,从而緩 和了对具有直接改善的感知声音品质的这些系统的限制。同时地,在 对隐藏信号中引入明显更少的衰减的同时获得这种緩和。从而,缓和了对基于音调重复的系统的第二种限制。对第二限制的这种緩和还在 通信的近端侧提供了隐藏信号的直接改善的感知品质。此外,对于在 近端具有声学回声和自适应滤波器来减轻如由远端所感知的声学回声 影响的多个系统中,对第二种限制的緩和在通信的远端侧提供了改善 的感知品质。因为因展示更少衰减的公开的发明中的隐藏信号对自适 应回声消除滤波器的自适应处理提供了更持久的激励,所以获得该第 二种效果。进一步,所公开技术方案对声学背景噪声的鲁棒性超过已 知的基于音调重复方法的鲁棒性。此外,具体地与已知时标修正方法相比较,公开的发明能够在具 有低延迟播放或输出緩冲器调度的系统中实现尖峰延迟的隐藏,如在 包交换网络上的实时双向声音通信所需要的。从而减緩了在已知时标 修正中的这种主要限制。在第一方面,本方面提供一种用于生成与数字音频信号的传输相 有关的隐藏样本序列的方法,其中该方法包括从音频信号的数字表示 的缓冲样本中以采样时间顺序生成隐藏样本序列,其中隐藏样本序列 中的样本的至少两个连续子序列是基于緩冲样本的子序列的,其中所 述緩冲样本的子序列在重新安排的时间中是连续的。下面的定义应用于第 一方面并将在整个本7>开中纟皮-使用。"样本" 被理解从数字音频信号中获得、或者从数字音频信号中得到的信号中
获得的样本、或者表示这种信号的系数或参数,这些系数或者参数为标量(scalar)或者矢量值。使用上面样本的定义,"帧"被理解为连续样本集合。使用上面样本的定义,"子序列"被理解为一个或者多个连 续样本的集合。因此,在特定情形中,子序列等于样本。在使用例如 叠加的情形中,两个连续子序列可包括重叠样本。取决于对帧的选择, 子序列可在两个连续帧之间扩展。在优选实施例中,布置子序列,以 使一个子序列不可能为另 一子序列的子集。优选地,隐藏样本序列中的样本的至少两个连续子序列是基于緩 冲样本的子序列的,其中所述緩沖样本的子序列在相反的时间顺序中 是连续的。因此,在优选实施例中,隐藏样本序列包括例如连续样本 的连续子序列,其是基于相反的时间顺序的连续緩沖样本的,例如, 隐藏样本序列中的两个、三个、四个或者更多连续才羊本子序列可以基 于在相反的时间顺序中是连续的緩沖样本子序列。换言之,产生的隐 藏序列优选包含基于緩冲样本的或多或少直接反向重放的部分。在优 选实施例中,隐藏样本序列包括以相反的时间顺序的緩冲样本的连续 样本集。使用这种重新定序或反向定序计划基于緩冲样本来计算至少 部分隐藏样本序列,提供更自然的声音隐藏序列,而不受现有技术弦 声效果的影响并且也有助于消除或减少几种其他伪信号。所述的方法具有与通信系统相关的许多优点,例如VoIP系统。在这里,数字语音信号以帧形式传输,并且其中通信受到帧丢失和抖动 的影响,并且需要样本隐藏序列以至少部分地减少信号的很可能听见 的、恼人的中断。在优选实施例中,所述緩冲样本的位置被定位在隐藏样本序列产 生期间在采样时间中逐渐向前和向后变化的点处。这可以通过控制这
种时间变化的索引图形发生器来实现。通过分析緩沖样本,这种索引 图形发生器选择反向时间变化通路的开始、终止和速度。它还控制向 前变化的开始、停止和速度以及图形,通过这些,反向时间变化和向 前时间变化被排序,以产生自然发声隐藏序列。隐藏样本序列可以从基于按照时间顺序为最后的緩沖样本的子序列的子序列开始。对子序列的时间重新排序可以基于在时间上向前索引和读取样本 以及在时间上向后移步的顺序处理。优选地,索引和读取样本的顺序 处理包括步骤a) 通过以时间顺序向后移步多个緩冲样本来索引緩沖样本,在其步骤后,b) 从在步骤a)中被索引的緩冲样本开始,以时间顺序向前读取 多个緩冲样本,以及使用用于计算隐藏样本序列的子序列所读取的样本,其中向前读取的緩沖样本数量不同于向后被移步的緩沖样本数 量。使用这种不同的数量,避免了导致不自然弦音的周期性。该方法 在下面的实施例的详细描述中被进一步称为"后移步(back step)"和"读取长度"。向前读取的緩冲样本数量可以大于或小于向后移步的緩冲样本数 量。优选地,向前读取的緩冲样本数量小于向后移步的緩沖样本数量。 这个选择将提供一种方法,该方法在緩冲样本中在时间上进一步向后 逐渐变化并从而提供子序列样本逐渐地基于先前緩沖样本的隐藏序 列,在此后启动向前的变化。
通过涉及加权叠加处理,可以从緩冲样本的子序列计算出隐藏样 本序列中的子序列。在所述加权重叠处理中的加权函数另外可以为频 率的函数。可以修改加权叠加处理来响应匹配品质指示,这种匹配品 质指示为对进入加权叠加处理的两个或多个样本子序列的测量。使用向后和向前变化的位置指针,可以部分地描述时间上的重新 排序。优选地,对所述位置指针的所述向后变化通过停止标准来限制。 用于所述向后变化的停止标准、所述向前和所述向后变化的步距(或 者速度)、以及开始的所述向后变化的数量可以被共同优化,以优化在 由人类听众理解时的声音品质。优选地,对緩沖样本进行平滑和均衡操作。这可以在样本被緩沖 之前,在緩冲器中被实施,或者刚好在使用所述样本来计算隐藏样本 之前^皮实施。用于向后变化的停止标准、所述向前变化和所述向后变 化的步距、开始所述向前变化的数量以及平滑均衡操作可以一同被优 化,以优化在由人类听众理解时的声音品质。可以 一 同优化位置指针的向后和向前变化,以优化在由人类听众理解时的声音品质。优选地,进4亍相位滤波以使隐藏样本序列和样本的连续帧之间的 边界处的不连续最小化。引入的相位滤波有助于减少在引入隐藏序列 时众所周知的不连续问题。在进行这种相位滤波的情形中,所提及的 共同优化还可以包括由相位滤波所引入的信号失真,以优化在由人类听众感知时的声音品质。在隐藏样本序列中可以引入噪声混合。具体地,可以在隐藏样本 序列中引入噪声混合,并且其中改变所述噪声混合来响应在时间上向 前索引样本及在时间上向后移步的顺序处理。在这种情形中,在时间 上向前索引样本及在时间上向后移步的顺序处理以及对其的所述响应可以包括对匹配品质指示的使用。在隐藏样本序列中可以应用衰减函数。具体地,可以改变这种衰 减函数来响应对在时间上向前索引样本及在时间上向后移步的顺序处 理。在时间上向前索引样本及在时间上向后移步的顺序处理以及对其 的所述响应可以包括对匹配品质指示的使用。优选地,预置在隐藏样本序列中得到的样本数,例如,隐藏帧中 的样本数可以是固定的。样本数优选与数字音频信号的特性无关。预置的样本数优选具有在范围5 - 1000中的预置整数值,例如在范围20 - 500中,优选依赖于实际样本频率。隐藏样本序列可以;陂包含在一个隐藏帧中。该方法可进一步包括 至少产生与第 一隐藏帧连续的第二隐藏帧,第二帧包含隐藏样本的第 二序列。第一和第二隐藏帧中的隐藏样本序列优选的是不同的,也就 是说优选地避免隐藏帧的连续的复制。使用包括不同隐藏序列的帧导 致更自然的发声隐藏。优选地,第一和第二隐藏帧包含相同数量的样 本。优选地,相比于包含在第一隐藏帧中的任意样本子序列,第二隐 藏帧中的至少一个样本子序列至少部分地基于在时间中更靠后的緩冲 样本的子序列。从而,后来的隐藏帧优选基于更早的緩沖样本。在第二方面,本发明提供一种适于执行依据第 一方面的方法的计 算机可执行程序代码。这种程序代码可以以与机器相关或与机器无关 的形式并且以任何编程语言来编写,例如机器代码或更高级编程语言。
在第三方面,本发明提供一种程序存储设备,其包括用于诸如通 用微处理器之类的微处理器的指令序列,用于执行第一方面中的方法。 该存储设备可以是任何类型数据存储装置,例如磁盘、存储卡或者记忆棒、硬盘等。在第四方面,本发明提供一种用于接收数字音频信号的设备,例如器件或仪器,该设备包括-存储器装置,其用于存储表示所接收到的数字音频信号的样本,和-处理器装置,其用于执行第一方面的方法。用适当的装置来实现本发明,例如下面的优选实施方式中描述的 装置,使解码器和隐藏系统和/或代码转换器和隐藏系统能够有效地隐 藏丟失序列或延迟的包,而没有引入可感知的烦人伪信号。此外,这 实现了对听觉背景噪声和多个扬声器的鲁棒性,而没有引入快速衰落 (feding )。因为经由时间变化的该方法的连贯性与基于重复的方法相 比更少依赖严格的信号周期性,进而获得了增加的鲁棒性。从而,我 们的发明能够在具有听觉背景噪声、听觉回声和/或严重的时钟脉冲相 位差、信道损耗和/或延迟抖动的情况下获得高质量的双向语音通信。


下面参照附图对本发明进行更详细的描述,其中图1是示出已知的易受到丟失、延迟、延迟抖动和/或时钟脉冲相 位差影响的端到端包交换语音传输系统的方框图2是示例的接收机子系统,该接收机子系统在控制单元的控制下完成抖动-缓冲、解码和隐藏以及播放缓沖;图3是示出易受时钟脉沖相位差、丟失、延迟和延迟抖动影响的 包交换信道中的中继子系统的框图;图4是示例的中继子系统,该中继子系统在控制单元的控制下完 成输入緩冲、输出緩沖并在需要时进行代码转换和隐藏;图5是示出本发明的一组优选实施例的框图;图5A是示出隐藏帧中的子序列的略图,所述隐藏帧从基于在反向 时间顺序中的最后的缓冲子序列的子序列开始;图5B示出隐藏帧中的子序列中的较大序列的另一例子,所述隐藏 帧的从在反向时间顺序中的最后两个緩冲子序列开始,并且其中连续 子序列是基于在时间上进 一 步向后的緩冲子序列;图5C示出由后移步和读取长度形成的索引图形中的样本计数索引;图6是示出涉及索引和插入功能的信号略图;图7是示出执行用于停止标准的判定逻辑的一种可行方法的流程图;图8是示出完成平滑和均衡、停止标准和所允许重复数量的重复 共同优化的 一种可行方法的流程图;图9示出与对相位调节滤波器进行初始化和馈送相关的环形移位 和叠加的J吏用,和
图10示出所公开的加权叠加处理的一种实施例。虽然本发明容易受到各种^f'f改和可替换形式的影响,但具体实施 例以示例的形式显示在附图中,并将在这里详细描述。然而,应当理 解的是,将本发明不限于公开的特定形式。相反地,本发明应当涵盖 落入由附加的权利要求限定的本发明的宗旨和范围之内的所有修改、等效和替换。
具体实施方式
本发明的方法在如图2中所示的接收机的解码和隐藏单元420中 被实施,或者在如图4所示的中继的译码和隐藏单元330中被实施, 或者在其作用适当的通信系统的任意其他位置处被实施。在这些位置 处,大量緩沖信号帧是可利用的,并需要大量的隐藏帧。可利用的信 号帧与所需要的隐藏帧可由音频信号的时域样本,例如语音信号组成, 或者它们可由所得到的样本,例如线性预激励样本组成,或者它们可 由从音频信号以及声音信号帧的完全或部分表示中得到的其它系数组 成。这种系数的示例是频域系数、正弦模型系数、线性预编码系数、 波形插值系数,和其他完全或者部分表示音频信号样本的系数集。图5示出本发明的优选实施例。根据图5,可利用的信号帧595被 存储在帧緩冲器600中,该信号帧595可以是从本方法或者其他方法 的先前操作接收和解码或译码的信号帧或者隐藏帧,以产生隐藏帧或 者上面提到类型的信号帧的组合。该帧緩冲器中的信号由索引图形发 生器660分析。该索引图形发生器可以方便地利用对信号音调596和 发音597的估计。根据整个系统的设计,这些估计可从来自其他处理 例如编码、解码或者译码处理的输入获得,或者通过其他的方法优选
利用现有技术的信号分析方法进行计算。此外,该索引模式发生器将要产生的隐藏信号帧的数目598作为输入,并且将599指向该帧緩沖器中该一个或多个隐藏帧取代的特定信号帧的开始和末端。作为示例, 如果这些緩沖器指向该帧緩沖器的末端,那么这表示所述隐藏帧应当 适于紧跟在存储在该帧緩冲器中的信号之后。作为另一示例,如果这 些指针指向帧緩沖器中的连续帧的非空子集,那么这表示所述隐藏帧 应当取代表示或者部分表示声音信号的帧序列中的这些帧。为了进一步说明这一点,假定该帧緩冲器600包括信号帧A、 B、 C、 D、 E,并且隐藏帧的数量598为两个。那么,如果指向要取代的 帧的指针599指向该帧緩冲器的末端,这表示两个隐藏信号帧应当顺 次紧随信号帧E之后。相反地,如果指针599指出信号帧B、 C、 D, 则这两个隐藏帧应当取代信号帧B、 C、 D,并顺次紧随在信号帧A之 后,并且顺次由信号帧E紧随其后。关于确定隐藏帧的数量598和最后应该由隐藏帧:取代的帧的子集 即指针599的方法,优选使用现有^支术方法。这样,^:据596、 597、 598和599连同信号帧595 —起构成向本方法装置和本发明的设备的输入。在某些整体系统的设计中,在该隐藏单元的执行期间,信号帧的 长度或者尺寸有益地保持不变。在其他情况中,典型的情形是当该 隐藏单元集成在中继系统中时,在该中继系统中,在预定长度的时间 间隔内,该隐藏的结果应当置于表示声音信号的包中,该预定长度在 其他的装置中确定。作为示例,这个预定长度可以在VoIP系统中呼叫 建立时的协议协商期间确定,并可在对话期间^皮改变来响应例如网络 拥堵控制机制。如后面将会清楚的,本发明的一些实施例以有益的方
式满足对预定长度的信号帧起作用。但是,这种创新并不限于这些系 统要求;本发明的其他实施例能够对非整数隐藏帧和具有时变长度的 隐藏帧起作用,其中可能与其他系数相结合的这些长度可以为在该帧 缓沖器中的特定内容的函数。本发明的实施例可有益地利用平滑和均衡操作610对来自帧緩沖 器的信号605进行操作。此平滑和均衡产生信号615,其中在时间上比 隐藏帧早的帧具有与该隐藏帧替代的信号帧或紧接在其之前的帧增加 的相似性。可选地,如果该隐藏帧插入现有的巾贞序列中而不是取代, 相似性是与紧接在隐藏帧的预期位置之前的帧。为了后面的参考,我 们筒单地称这两种情况为相似。相似是收听者理解的意思。平滑和均 衡获得具有增加的相似性的信号,同时保留信号615的自然地声音变 化。由平滑和均衡610有益地执行的相似性增加的操作的例子包括增 加参数的平滑度和相似性,所述参数例如能量包络、音调轮廓、发声 等级、声音中断、语包络和其他可感知的重要参数。关于每个这些参数,过滤出在要平滑和均衡的帧内的参数变化中 的瞬间突变,并且这些帧中的参数平均水平被平滑地^^改以在含义上 变得与上面定义的相似更加相似。有益地,4又在一定范围内引入相似 性,其仍保持信号的自然声音变化。在该索引图形发生器660的控制 下,平滑和均衡能够有益地减轻可能出现在随后的索引和插值操作620 中的瞬变现象和断续。此外,音调轮廓的平滑和均衡能够有益地通过 该索引图形发生器660进行控制以使失真最小化,否则失真最后由相 位滤波器650引入到隐藏帧中。该平滑和均衡操作能够有益地利用信 号或者参数与信号帧(或者其产生的参数)的置换、混合、插值和/或 合并,所述信号帧在帧緩冲器600中在时间上进一步向后来建立。该
平滑和均衡操作610能够从该系统中省去,这并不脱离本发明的通常的范围。在这种情况下,信号615等同于信号605,并且在此情况下, 索引图形发生器660的信号输入656和控制输出665能够从系统设计中省略。索引和插值操作620可以以平滑和均4軒的信号615和索引图形666 作为输入。此外,在本发明的一些有益实施例中,索引和插值操作将 匹配品质指示667作为输入。该匹配品质指示可以是一个每个瞬间时 刻的标量值,或者其可以是时间和频率的函数。该匹配品质指示的目 的在后面的说明中将变得清楚明显。该索引图形666确定该索引和插 值函数操作的参数。图5A示出索引图形是如何可以索引緩沖样本BS1、 BS2、 BS3、 BS4中的子序列的例子,其在一个或者多个隐藏帧的合成中在时间上 逐渐向后。在所示的实施例中,隐藏帧CF1、 CF2、 CF3中的连续子序 列CS1、 CS2、 CS3、 CS4、 CS5、 CS6、 CS7是基于帧BF1、 BF2中的 样本緩冲子序列BS1、 BS2、 BS3和BS4。如所看到的,从緩冲子序列 BS]-BS4使用位置指针索引隐藏子序列CS1-CS7,该位置指针在时间 上逐渐向后移动、然后逐渐向前移动,如由函数记号CS1(BS4)、 CS2(BS3)、 CS3(BS2)所表示的,意味着CS1是基于BS4的等等。因 而,图5A是作为说明隐藏帧中的连续子序列是如何相互跟随的例子, 它们基于连续緩冲子序列、但在时间上重新排序。如所看到的,基于 緩冲样本中的最后四个子序列BS1、 BS2、 BS3、 BS4,以连续顺序但 是以相反的时间顺序选择第 一个四个隐藏子序列CS1 (BS4)、 CS2(BS3)、 CS3(BS2)和CS4(BS1),从而从最后的緩冲子序列BS1开始。在以相反 的时间顺序的第一个四个子序列之后,顺紧随其后的三个子序列CS5、 CS6、 CS7全部基于在时间顺序上连续的緩冲子序列,即分别是BS2、 BS3和BS4。优选的索引图形是该索引图形发生器660的结果,并可 随着对这个模块的输入656、 596、 597、 598和599而发生很大的变化。 按照图5A中的标记,图5B示出隐藏子序列CS1-CS11如何基于緩沖 子序列BS1-BS4在时间上重新排序的另 一个示范性示例。如所看到的, 后来的隐藏子序列逐渐基于在时间上进一 步向后的緩沖子序列。例如, 第一个两个连续隐藏子序列CS1和CS2是基于最后两个緩沖的子序列 BS3、 BS4的,以相反的时间顺序,而后面的隐藏子序列例如CS10是 基于BS1的,即相比用于计算CS1和CS2的那些在时间上进一步向后 的緩冲子序列。因而,图5B用于说明连续隐藏子序列是基于以一定方 式在时间上向前和向后索引緩冲子序列的,由此该索引随时间逐渐向 后变化。在本发明的有益实施例中,这个在时间上逐渐向后的变化被用于 形成因本说明书目的我们所称为后移步的序列以及因本说明书目的我们所称为读取长度的序列。在这种格式的索引图形的筒单实施例中, 信号样本或者表示其的参数或系数的指针向后移动一定的量,这个量等于第一后移步,在第一后移步后,样本数量或者表示其的参数或系 数被插入到该隐藏帧中,该数量等于第一读取长度。其后,该指针向 后移动等于第二后移步的数量,并读取等于第二读取长度的样本数量、 或者参数或表示其的系数,等等。图5C示出对第一列举的索引样本进行重新排序处理的例子。这个 第一列举被列表在信号时间轴上,而随着这些原始样本被置于该隐藏 帧中,在图5C的隐藏时间轴上的列举表与重新排序的原始样本对应。 用于这个示范性的示例,分别任意选择第一、第二和第三后移步为5、 6、 5,并且同样地分别任意选择第一、第二和第三读取长度为3、 4、 3。 在这个例子中,具有时间索引集合{6, 7, 8}、 {3, 4, 5, 6}和{2, 3, 4}的子序列分别是在时间上逐渐向后变化的子序列。这里选择的后移 步和读取长度的序列纯粹是为了说明的目的。以16kHz进行采样的语 音残余样本作为例子,后移步的典型值范围为40到240之间,但并不 限于这个范围,以及读取长度的典型值范围为5到1000,但并不限于 这个范围。在这种才各式的更先进的实施例中,爿(人向前定向(directed) 序列(例如原始时间或者时间上向后索引的子序列)到另一个向前定 向序列的转变, 一个在时间上进一步向后的移步,是通过逐渐移位插 值来实现的。图6示出响应一个后移步和相应读取长度和匹配品质指示的对索 引和插值函数的简单实施例的操作。仅是为了说明的目的,这里的信 号帧包括时域音频样本。以一种相似且因此直接的方式,将逐渐移位 插值应用于在本说明书中使用的一般定义"样本"上,即,包括表示 时域音频样本的系数或参数的标量或者矢量值。在该图中,数字700 示出信号615的片段。指针705是采样时刻,该采样时刻紧跟在索引 和插值输出信号625中最后产生的样本的采样时刻之后。时间间隔750 具有等于读取长度的长度。时间间隔770也具有等于读取长度的长度。 时间间隔760具有等于后移步的长度。从时刻705开始在700中的信 号样本和在时间上向前的读取长度一个接一个地与窗函数720相乘。 同样,从在后移步之后在位置706之前一个样本位置开始的700中的 信号样本和在那之前的读耳又长度一个接一个地与窗函数710相乘。与 窗710和窗720相乘产生的样本一个接一个地在730相加产生样本740, 其构成新一批来自索引和插值操作的输出625的样本。这个操作完成后,指针705移到位置706。在本发明的简单实施例中,窗函数710和720是读取长度750的 简单函数。 一个这种简单函数为分别选择窗710和窗720作为两倍于 读取长度的汉宁窗(harming window)的第一和第二半部分。而这里也 可选择宽范围的函数,要注意的是这个函数在本发明的上下文中是很 重要的,它们必须要完成由750所指示的片段中的样本与由770指示 的样本之间的加权插值,以这样的方式我们逐渐地而不必是单一地, 从对750所指示的片段的高加权移动到770所指示的片段的高加权。在本发明的其他实施例中,窗函数710和720是匹配品质指示的 函数。这种函数的简单示例是根据由时间间隔750和770指示的信 号700的片段上标准相关性(normalized correlation)的阈值,选择插 值操作对单元的幅度或者功率进行求和。这种函数的另一个示例避免 对计算一个振幅或者能量总和的限制,而是将窗加权优化为仅作为匹 配测量的函数。这种方法的进一步改进采用标准相关性的实际值,并 响应它而优化该插值操作,例如,使用经典的线性估值方法。因而, 在后面将描述优选方法的例子。在这些例子中,阈值和标准相关性的 实际值分别给出由匹配品质指示667传送的有益信息的示例。根据后 面描述的优选实施例,该插值操作可以在不同频率实现不同加权。在 这种情况下,匹配品质指示667能够有益地传送作为频率函数的匹配 测量。在有益实施例中,作为频率的函^:的这个加4又实现为抽头 (tapped)延迟线或者其他参数滤波器形式,其能够^皮优化以达到最佳 匹配标
图6中示出了,当信号615 (及因此的信号片段700)包含表示声音信号的或者源自其的时域信号的时域样本时的索引和插值操作。如上面所提到的,帧595中及因此在信号605和615中的样本能够有益 地成为以使每个样本都是一个矢量(矢量值样本),其中这个矢量包 含表示或者部分表示该声音信号的系数或者参数。这种系数的例子是 线性频率语、频域系数或者定义了正弦信号模式的系数,例如振幅、 频率和相位的集合。在本发明的优选实施例的这个详细说明的基础上, 对本领域的技术人员来说,将涉及有益应用在矢量值样本上的插值操 作是可行的,因其余的细节能够在针对这种矢量值样本的各个具体情 况的一般文献的描述中找到。用于对本发明的理解,有益地看到的是,当反复应用读取长度小 于后移步的索引和插值操作时,则结果是,信号625中的样本变成表 示在信号615中逐渐地进一步并且更进一步地向后的信号样本。从而, 当后移步和或读取长度被改变以使该读取长度变得比退后移步大时, 那么这个处理将返回并且现在信号625中的样本变成表示在信号615 中逐渐地进一步并更进一步地向前的信号样本。通过对后移步序列和 读取长度序列进行有益选择,能够获得具有丰富和自然变化的长隐藏 信号,无需在时间上提前要求最近接收的在帧缓冲器600中的信号帧, 甚至无需要求另一个预置时刻之前的样本,所述预置时刻可以位于比 在帧緩沖器600中最近接收的帧中的最近的样本更早的地方。从而, 本发明在具有低延迟播放或者输出緩冲安排的系统中对延迟尖峰的隐 藏成为可能。在本说明书的描述中,通过反复使用一个样本的读取长 度、两个样本的后移步和窗720和窗710来实现信号的筒单准确的时 间变化,窗720包括一个值为0的信号样本,窗710包括一个值为1.0的信号样本。索引图形发生器660的主要目的是控制索引和插值才喿作620的动 作。在一组优选实施例中,这个控制是在索引图形666中确定的,所 述控制可由后移步序列和读取长度序列组成。这个控制能够被进一步 增加具有匹配品质指示的序列,它们依次每个都可以是例如频率的函 数。另一个特征是重复计数668,其可从该索引图形发生器输出,并且 其应用在本说明书的后面会变得清楚。重复计数的意思是,时间上向 后变化的次数的数量在隐藏帧的构成中开始的。该索引图形发生器获 得这些来自基础信息的序列,其可包括由该平滑和均纟釺操作610输出 的平滑和均衡信号656;要产生的隐藏帧的音调估计596、发声估计597、 数量598,以及指向要取代帧的指针599。在索引图形发生器的一个实 施例中,它将根据发声指示输入不同的模式。这种模式在下面进行举 例说明。作为有益地在线性预激励域使用的实施例,如果该发音指示粗略 指示该信号为非语音,或者在该信号中没有出现有效语音,即该信号 由背景噪声构成,则该索引图形发生器能够进入信号样本的时间变化 的简单反转(reversion)被初始化的模式。如先前所述,这个能够通过 例如提交后移步值等于二的序列和读取长度值等于一的序列来完成 (本说明书是基于这个设计选择的,索引和插值操作本身会识别这些 值,并如上所述的应用适当的窗函数)。在一些情况下,这个序列可以 继续,直至信号的相反时间变化已经被实施了在隐藏帧中所需要的新 样本数量的一半,此后,后移步序列的值可变为O,从此开始信号的向 前时间变化,并且持续直至指针706有效地回到指针705在后移步的
第一应用中的离开点。然而,对高品质的隐藏帧来说,这个简单处理 不总是足够的。该索引图形发生器的一个重要任务是对适当停止标准 的监控。在上面的示例中,相反时间变化可将指针706引回到信号中 的某位置,在该位置,由人类听众理解的声音与开始点的明显不同。 在这出现之前应改变时间变化。本发明的优选实施例可应用基于测量组的 一组停止标准。下面举例说明一些这些测量和停止标准。如果发声指示在指针706处的信号 为有声的,那么在上面的示例中从无声开始,时间变化的方向能够有 益地被改变,同样,如果指针706的周围区域信号能量(由绝对或者 相对阈值确定的)不同于指针705离开点处信号的能量,该时间变化 方向能够有益地被改变。作为第三个示例,指针705离开点周围的区 域和指针706当前位置之间的频谱差可能超过阈值,那么该时间变化 方向应该要变4匕。当不能粗略地确定信号为无声或者包含无效语音时,能够引出第 二个示例的模式。在这个模式中,音调估计596组成用于确定该索引 图形的基础。 一个处理是,搜索每个后移步,以给出一个来自指针705 并且时间上在前的一个音调周期的信号与来自后移步比指针705早的 点并且在前的一个音调周期的信号之间的最大标准相关性。对于后移 步的可能值的搜索有益地被限制在一个区域。如果没有发现前面的后 移步,这个区域能够有益地在前面发现的后移步周围或者如果没有发 现先前的后移步在音调滞后周围设定为正负10%。如果时间信号变化 应在时间上向后或者向前变化, 一旦确定了后移步,将确定读取长度 的值以及该变化应当发生的多快。通过选择接近后移步识别值的读取 长度来获得一个慢的变化。在向前和向后变化的情况下通过分别选才奪
比后移步小得多或者大得多的读取长度来获得一个快的变化。该索引 图形发生器的一个目的是,选择读取长度以优化人类听众理解的声音 品质。在例如非充分周期信号的一些信号中选^t奪特别接近于后移步的 读取长度,会引起感知上令人烦恼的伪信号,例如弦音。选择的读取 长度距离后移步太远时,意味着在隐藏帧的时间变化期间最终掠过帧 緩沖器中的较大时间间隔,可选地,在为隐藏帧产生充足的样本量之前,时间变^:的方向必须改变更多次。
在诸如不是十分平稳(可选择地不是十分平滑和均衡)的信号的 一些信号中,第一种情形可以产生一种可感知的讨厌的伪信号,该伪信号与隐藏帧中的声音中的口吃(stuttering)具有某种相似之处。在第 二种情形中,可能发生弦音状的伪信号。本发明的有益实施例的特点 在于,可以将读取长度确定为后移步和标准相关性的函数,其在搜索 最优化后移步中被优化。在对语音信号进行作用和当信号帧包含以 16kHz采样的20ms线性预激励信号时,本发明的实施例中这个函数中 的一种简单又有益的选择是由下面函数给出的示例
读取长度=[(0.2+标准相关性/3)*后移步]
其中方括号[]被用于表示取最接近的整数,以及其中读取长度 (ReadLength )、标准相关性(NormalizedCorrelation )和后移步^皮用于 表示获得的分别用于优化后移步和相应的后移步的读取长度、标准相 关性。上面函数仅仅被包含作为示例,以达到本发明某些实施例中的 一种有益选择。在不脱离本发明精神的条件下,包含为了这种读取长 度的任何功能性相关的对读取长度的任意选择是可能的。具体地,选 择读取长度的有益方法包括控制665的使用,以用参数表示平滑和均 衡操作610,以在中间的隐藏帧625中实现口吃状和弦音状伪信号的共
同最小化。这解释了索引模型发生器660为什么将中间信号656当作 来自平滑和均衡操作的输出615:信号656表示在控制665下的最终信 号615的可能形式,并且使索引模型发生器通过叠代完成优化任务。 如用于上面无声和非有效声音模型的情形,在这种模式中停止标准也 是主要的。应用该模式的停止模型的所有例子也应用到这种模式。另 外的,在这种模式中,根据对音调和标准相关性的计量的停止标准可 有益地成为本发明的实施例中的一部分。图7示出了作为例子的用于停止标准组合的有益的判定逻辑。图7 中,参考标记指示如下800:识别信号是否为高(high)相关型、低(low)相关型或均不是。确定初始能级801:确定下一后移步和标准相关性及读取长度 802:确定信号是否已经进入低相关型 803:确定信号是否已经进入高相关型 804:信号为高相关型? 805:信号为低相关型?806:能量低于相关的最小阈值或高度相关的最大阈值? 807:标准相关性低于用于高相关型的阈值? 808:标准相关性高于用于低相关型的阈值? 809:生成了足够的样本?
在操作中,在以16kHz采样的语音的线性预激励域中。图7中标 注的阈值可以有益地按照如下的方式被选择在遇到大于0.8的标准相 关性时,可以进入高相关型;保留在高相关型中的阈值在标准相关性 中可以被设定为0.5;在遇到小于0.5的标准相关性时,可以进入低相 关型;保留在低相关型中的阈值在标准相关性中可以^皮设定为0.8;最 小相关能量可以^皮设定为0.3;以及最大相关能量可以^皮设定为3.0。 另外,不脱离本发明的宗旨和范围,在本发明的内容中,可以使用其 他逻辑以及可以使用其他停止标准。停止标准的应用表示,不保证时间上向后直至产生足够的样本或 者符合停止标准,然后在时间上再次向前的单一变化对隐藏帧给出所 需数量的样本。因此,可以通过索引模型发生器应用在时间上向后或 向前的更多变化。然而,在一些信号中,太多的前后变化可能在一些 信号中产生弦音状伪信号。因此,本发明的优选实施方式可共同优化 停止标准、应用于读取长度计算中的函数、平滑和均tf控制665、和来 回变化的数目,即重复计数668,并且如果使得指针指向帧以取代599, 那么在每个时间上向后的新变化之前,还开始在时间上进行向前变化 的样本数。为此,还可以有益地控制平滑和均衡操作,以略微改变信 号的音调轮廓曲线。此外,可以考虑相位滤波器650的运算的共同优 化,并且对音调轮廓曲线作出略微改变,以产生索引图形,所述索引 图形可以结合上述其他参数使得相位滤波器中所引入的失真最小化。 以本发明优选实施例的说明书中作为基础,本领域熟练技术人员理解 应用至这种任务的各种各样的通常优化工具,这些工具包括叠代优化、 马尔可夫(Markov)决策过程、维特比(Viterbi)方法及其他。任意 所述工具可应用至这种任务而不脱离本发明的范围。
图8通过流程图示出叠代过程的例子,以完成对这些参数的简单又有效的优化。图8中,参考标记指示如下 820:初始化对平滑和均#f 665的控制 821:获得新的平滑信号656 822:初始化停止标准 823:初始化所允许的重复次数824:识别用于均匀分布在由指针599所指示的可利用帧上的向前 和向后变化的序列的索引图形,或者若指向可利用帧的结尾,向后变 化直接跟随在向前变化之后825:是否有用于所产生的隐藏帧数量598的足够数量样本?826:是否达到重复的最大数?827:增大所允许的重复数828:是否达到用于停止标准的最宽松的阈值?829:放宽用于停止标准的阈值830:改变控制以增加对平滑和均衡的影响注意的是,在前面的变化或在时间上的前后变化中没有合成足够 信号的情形中, 一个在时间上的前后变化以及随后的在时间上的前后 变化是可有益地不同。作为例子,后移步的序列、读取长度、还有在 时间上的前后变化之后的插值函数的结束位置指针应当被设计,以使 最小化周期性伪信号,否则产生类似索引图形的重复。作为例子,使
用以16kHz采样的有声语音残余域,在时间上的一个前后变化,也就是说产生大约320个样本,在可以比较早的在时间上的前后变化在信 号中进一步向后优先结束大约100个样本。至此,所公开的实施例有效地緩解了根据现有技术方法已知的伪 发声弦音,同时对突然延迟抖动尖峰和突然的出现的重复包丢失实现 有效隐藏。然而,在不利网络环境中,例如在某些无线系统和无线自 组织(adhoc)网络及尽力服务(best effort)网络和其他传输场合中, 甚至所公开的方法在某些情形中可能在隐藏帧中引入少量音调成分。 因此,小噪声混合操作630和功能衰减(graceful attenuation)滤波器 640可有益地被应用在本发明的某些实施例中。噪声混合和衰减的通常 技术对于本领域技术人员而言是众所周知的。这包括对噪声成分的功 率的频率相关时间变化和衰减函数的频率相关时间变化的有益使用。 在本发明的内容中,具体到对噪声混合和衰减的使用的特征是使用索 引图形666、匹配品质测量667和/或重复计算668,用于对噪声混合和 衰减操作的适应性参数。具体地,索引图形对未改变信号样本被设置 在隐藏帧的地方和隐藏帧的样本作为插值运算的地方作出索引。而且, 与匹配品质测量相组合的后移步相对于读取长度的比率是对从插值运 算中得到的感知品质的指示。因此,很少或没有噪声可以被有益地混 合入原始样本,更多噪声可以被有益地混合入插值处理的结果的样本 中,以及^皮混合入这些样本中的噪声数量可以有益地以频率微分 (differentiated)方式有益地成为匹配品质测量的函lt。此外,读取长 度相对于后移步的值还是对可能发生的周期数的指示,噪声混合可有 益地将这种测量包括在噪声数量的确定中以混合入隐藏信号中。同样 原理应用至衰减;功能衰减被有益地使用,但是很少衰减可以被引入 用于表示原始信号样本的样本,而更多衰减可以被引入用于从插值运 算中得到的样本。此外,这些样本中的衰减数量有益地可以为匹配品 质指示的函数,且有益地以频率微分方式。在这,读取长度相对于后 移步的值为可能发生的周期数的指示;衰减操作可有益地将这种测量 包括在衰减设计中。如在本发明的背景技术中所提到的,本发明实施例的子集的重要 目标是获得预置长度的隐藏帧,所述预置长度等于规则信号帧的长度。 在需要从系统方案中得到这个时,为此目的的装置可有益地是相位滤波器650。对这块的在计算上简单、接近但经常足够的运算是为了完成 样本之间的平滑重叠相加,所述样本比带有从跟随隐藏帧之后的帧中 得到的样本拖尾子集的隐藏帧数量超过预置帧长度多倍。单独地看, 这种方法根据现有技术是众所周知的,例如在国际电信if关盟标准ITU-T G.711附录1中使用。在依据系统方案实施时,通过将随后帧与-l相乘 可以改进简单的样本重叠增加过程,这随时增加叠加区域中的相关性。 然而,其他方法可有益地被使用,例如在有声信号帧之间的过渡 (transition )中,以进一步减轻在帧边界处的不连续影响。 一种这样的 方法是对隐藏帧进行再次采样。被看作为单独的方法,这个依据现有 技术也是众所周知的。参见例如Valenzuela和Animalu, "A new voice-packet reconstruction technique", IEEE, 1989。因jt匕本领i或4支术人员 可以实施以减轻帧边界处的不连续。然而,在这里所/>开的本发明的 优选实施例中,再次采样可有益地接续紧随最后的隐藏帧的帧。从而,众理解时可以毫不觉察地实现。进一步,不同于在此采样,减轻帧边
子通过滤波方程给出H—L(z,t) = (alpha—l(t) + alpha—2(t)*zA(-L))/(alpha—2(t) + alpha—l(t)*zA(-L))该函数解释如下。假定所要的扫描是在扫描区间上从L样本的延 迟至0样本的延迟,这可以包括在所有或部分隐藏帧中的所有或部分 样本;在隐藏帧之前的帧中;以及在隐藏帧之后的帧中。然后,在扫 描区间的开始,alpha一l(t)被设置为零,以及alpha—2(t)被设置为1.0,以 实现L样本的延迟。当扫描开始超过t时,alpha—l(t)朝着0.5逐渐增 加,以及alpha—2(t)朝着0.5逐渐减小。在扫描区间的结束,alpha—l(t) 等于alpha—2(t),滤波器H—L(z,t)引入零延迟。相反地,如果在扫描区 间上需要从零样本的延迟至L样本的延迟的扫描,这可包括所有或部 分隐藏帧中的所有或部分样本;在隐藏帧之前的帧中;以及在隐藏帧 之后的帧中。然后,在扫描区间的开始,alpha一l(t)被设置为0.5,以及 alpha一2(t)被设置为0.5,以实现O样本的延迟。当t上的扫描开始时, alphaj(t)朝着0逐渐减小,以及alpha—2(t)朝着1.0逐渐增加。在扫描 区间的结束alpha—l(t)等于0及alpha一2(t)等于1.0,滤波器H—L(z,t)引入 L样本的延迟。上面滤波在计算上是筒单的,然而它具有非线性相位响应。因感 知原因,这个非线性相位将其使用限制至相当小的L。有益地,用于以 16kHz采样的语音的L< 10。实现用于初始L的更大IW直的滤波的一种 方法是初始化几个较小L值的滤波器,所述较小L值累加至所需的总 L值,这些几个滤波器可有益地在不同时刻被初始化,以及在不同时间 间隔上扫描他们的alpha范围。这种滤波器可以应用的增加L范围的一种其他方法在下面被公开。实现与上面的在功能上相同的滤波的结构是将信号分为L个多相位(poly-phase),进而在这些多相位的每个中实》4下面的滤波<formula>formula see original document page 37</formula>通过本发明,通过使用向上采样(up - sampling )有益地实施多相 位滤波。有利地实施这个的一种方法是对带有系数K的每个多相位进 行向上采样,并且对带有系数K的、在向下采样(down-sampling)之 前的每个向上采样的多相位中进行K次滤波H—l(z,t),并从所述多相位 对相位改变的信号进行重构。因子K可有益地被选择为K=2。通过上 采样过程,获得接近线性的相位响应。从而,改善了由人类听众所理 解的感知品质。在隐藏帧被无丢失地插入到接收帧序列中时,上面所述的在多帧 上进行相位调整是可应用的。它还在从信号序列中取出帧以减少随后 帧的重放延迟时是可应用的。以及在多个帧被丢失以及零或多个隐藏 帧被插入在在之前所接收的帧和在丢失后所接收的帧之间时,它是可 应用的。在这些情形下,获得用于这个滤波器的输入信号及找到延迟L 的有益方法j口下1) 在时间上比不连续点早的帧上,这里所披露的一个或任意其他 的隐藏方法被继续或开始。2) 在时间上比不连续点晚的帧上,L—test个样本被插入在由这里 所披露的一个或任意其他的隐藏方法开始的帧中,但是具有对时间样 本标注的相反索引。
3) 匹配测量,例如标准相关性,纟皮应用在依据1)的隐藏帧和依据2 )的包括头(heading ) L_test样本的帧之间。4) 使匹配测量最大化的L—test被选择为L。5) 依据2)的隐藏帧和依据3)的帧使用加权叠加程序现在被累 加在一起。而所述加权叠加程序对于本领域技术人员是众所周知的,其优选地可以在如下描述中^皮最优化。6 )得到的帧被用作上述相位适用滤波的输入,使用确定值L开始。 如果L大于阔值,则几个滤波器被开始且在不同时刻和时间区间上扫 描,他们的L值累加至确定值L。有益地,在以8或16kHz采样的语音或语音残余中,上面阈值可 以被选择为在范围5至50中的数值。另外有益地,在有声语音或有声 语音残余中,隐藏样本L一test及其进入下一帧的继续部分通过对帧的 第一音调周期样本的循环移位而获取。从而没有标准化的相关测量(correlation measure )、对全音调周期的相关可有益地被用作匹配测 量,以找到优选循环移位L。图9示出这种方法的一个实施例。在这个图中,相^:调整产生信 号帧900和后面的帧之间的平滑过渡。这通过如下完成,人信号帧900 和较早的帧,生成隐藏信号910。使用这里所公开的方法或者使用本领 域众所周知的其他方法,可以生成这个隐藏信号。该隐藏信号与窗口 920相乘,以及与另一个窗口 930 #皮925相加,其乘以如下生成的信号 后面的样本950或可能的960,通过有效地应用例如这里所7>开的隐藏 方法或者使用本领域众所周知的其他方法生成隐藏信号940,并且与下
面的样本950连接。隐藏940中的样本数被优化,以使隐藏910与940 和后面的样本950的连接之间的匹配最大化。有益地,标准相关性可被用作对这种匹配的测量。进一步,为了 减少计算上复杂度,用于有声语音或有声语音残余的匹配可被限制为 包括一个音调周期。在这种情形中,隐藏样本940可以被获得作用一 个音调周期的循环移位的第一部分,以及一个音调周期上的相关测量 现在不需要被标准化。从而,避免了对标准因子计算的估计。就先前 在优选实施例的详细说明中所述的索引和插值运算来说,窗口可再次 有益地成为匹配品质指示的函数和/或频率函数,进而有益地被实施作 为抽头延迟线。滤波器970的操作如下。从叠加过程中得到的第一 L 样本被直接传递至其输出端,并且被用于家安理滤波器的初始状态。 此后,滤波器系数被如上所述初始化,以及当滤波器从样本L+l向前 滤波,这些系数被逐渐调整,例如以逐渐去除延迟的L样本,如上所 述。此外,在上面描述过程中,如上所述,根据最大化匹配标准而对 窗的权重进行优化的方法以及该窗函数的统一化(generalization ),应 用于基于频率的权重和以抽头延迟线或者其他参数的滤波器形式的匹 配滤波器。在有益实施例中,通过三个叠加序列的序列获得频率相关 滤波器权重的时间变化,第一个消弱来自先前帧的隐藏帧,第二个增 强具有滤波器的滤波版本,以匹配在相反标注时间中获得的来自后面 帧的隐藏帧,然后使它们再次消弱,第三个增强在时间上在后面的帧。 在另 一组有益实施例中,频率相关滤波器权重的时间变化通过四个叠 加序列的序列而获得,第一个消弱来自先前帧的隐藏帧,第二个增强 具有滤波器的滤波版本,例如匹配在相反索引时间中获得的来自后面
帧的隐藏帧,然后使它们再次消弱,第三个增强在时间上在后面的过 滤后的帧,以进一步改善这种匹配,此后再次消弱,最后第四个窗口 增强在时间上在后面的帧。另外,加权叠加方法的有益实施例在后面 被公开在这个说明书中。关于实施例中的平滑和均衡操作610,其中残留域样本被用作表示 语音信号的部分信息,使用诸如梳状滤波器或周期陷波滤波器之类的 音调适用滤波,平滑和均衡可有益地被应用在这个残留信号上。此外, 可以有益地应用具有作为用于未滤波残留模型的长期相关滤波器正噪声的维纳或卡尔曼(Wiener或Kalman)滤波。在应用维纳或卡尔曼滤 波器的这种方式中,应用模型中的噪声变型以调整平滑和均衡的量。 这在某种程度上是违反直觉的使用,因为这个分量在维纳或卡尔曼滤 波理论中传统上被应用以模拟不想要的噪声分量的存在。当被应用在 本发明中时,目的是设置平滑和均衡的程度。在本发明的内容中,作 为音调适用梳状或陷波滤波和维纳或卡尔曼型滤波的替代,第三种方 法在本发明的正文中被有益地应用于对残留信号的平滑和均衡。通过 这第三种方法,有益地应用了例如未发声语音的样本幅度,或者有益 地应用了发声语音的样本的相邻矢量越来越相似。完成这种的可能过 程分别为在下面描述来分别用于发声语音的矢量和未发声语音的样 本。用于发声语音,语音或残留的连续样本以矢量形式大量被收集, 在每个矢量中的多个样本等于一个音调周期。为了描述的便利,我们 在这里将这个矢量标注为v(k)。现在,该方法将获得作为v(k)分量的剩余矢量r(k), v(k)不能通过某些方法在环境矢量v(k-Ll)、 v(k-Ll+l).....v(k-l)和v(k+l)、 v(k+2)、v(k+L2)中建立。为了描述的便利,在环
境矢量中建立的分量被标示为a(k)。剩余矢量r(k)随后以一些线性或非 线性方式被处理以降低其可听度,同时保留得到的重构矢量的属性, 所得到的重构矢量是通过将分量a(k)再次插入r(k)的已处理版本中而获得。这导致有声语音或有声残留语音的平滑和均衡版本。上面所述的 原理的一个简单实施例,用于方便的矩阵矢量表示和用于例子的简单 化,在下面给出了限定a(K)的线性组合和最小平方的表示。这仅仅用 作用于平滑和均衡的上面一般原理的单一简单实施例中的一个例子。用于这个例子的目的,将矩阵M(k)限定为M(k) = [ v(k-Ll) v(k-Ll+l).…v(k陽l) v(k+l) v(k+2).... V(k+L2)]据此,a(k)可以被计算为例如给定M(k)的v(k)的最小平方估计a(k) = M(k) inv(trans(M(k)) M(k)) v(k)其中inv()表示矩阵求逆或伪求逆,以及trans()表示矩阵变换 (matrix transposition )。 i见在,例浊口通过)咸法,可以i十算剩余失量r(k)。r(k) = v(k) - a(k)处理r(k)的一个例子是通过削去矢量中的峰值,例如将样本的最大 绝对值限制至与最接近前后隐藏过程处理的起始点的r(k)矢量的最大 幅度相等的水平,或者限制到多倍于处于相同位置处的样本幅度的一 些因子,在不同于最接近前后隐藏程序的起始点的矢量中。已处理的 剩余rm(k)随后与a(k)矢量合成,以重构v(k)的均tf形式,在这里为了 方便由ve(k)表示。这种合成作为一个例子可以通过简单加法来完成ve(k) = alpha* rm(k) + a(k)
这个例子中的参数alpha可被设定为1.0或可有益地-故选择为小于 1.0,用于alpha的一个有益选择是0.8。用于无声语音,具有优点的另一平滑和均衡方法可以被使用。用 于无声语音的平滑和均衡的一个例子计算在对数域对残留信号幅度的 多项式拟合。作为例子,第二级多项式和logl0域可以被使用。在从对 数域将多项式拟合转换之线性域之后,在对应于用于前后程序的起始 点处的拟合曲线被有益地标准化至1.0。随后,拟合曲线被下限至例如 0.5,其中在残留信号的幅度使用拟合曲线被分割之后,以平滑地均衡 出无声残留信号的幅度改变。至于加权重叠增加过程,其一些而不是全部应用在先前被公开在 本说明书中,也就是,索引和插值操作620和初始用于相位调整滤波 970的输入信号的方法、过程可以如同本领域一支术人员所知道的那样寻皮 实施。然而,在加权叠加处理的优选实施例中,在下面公开的方法可 以有益地一皮^吏用。在响应于匹配品质指示而改变的加权叠加处理的简化实施例中, 我们认为第一窗口乘以第一子序列及第二窗口乘以第二子序列,以及 这两个乘积输入叠加操作。现在作为一个示例,我们让第一窗口成为 逐渐减小的窗口 ,例如单调减少函数,以及我们让第二窗口成为逐渐 增加的窗口,例如单调增加函数。其次,用于简化例子的目的,我们 让第二窗口通过基本窗口形状乘以标量乘数被参数化。现在,我们定 义target为所述第 一子序列;w—target为逐个与所述逐渐减小窗口相 乘的样本的所述第一子序列;w—regressor为逐个与用于逐渐增加窗口 的所述基本窗口形状相乘的样本的所述第二子序列;coef为所述标量 乘数。现在第二窗口的标量乘数分量可以被优化,以使target和叠加运算的结果之间的误差平方和最小。为了便利使用矩阵矢量符号,问题可以^皮构成为^吏target和^:量之间的差的平方和最小。w—target + w—regressor*coef 在这里定义矢量T和H为T = target - w—target H = w一regressor给出这种优化的解为coef = lnv(trans(H)*H)*trans(H)*T其中inv()表述标量或矩阵求逆,trans()标示矩阵或矢量的转置,以 及*是矩阵或矢量乘法。现在,如这里所公开的中心分量一样,本方法 可以被扩展,以优化窗口的实际形状。实现这种方法的一种途径如下。 我们定义一套形状,所要的窗口作为在套中的元素的线性组合而获得。 我们现在定义H,以使H中的各列为来自该套逐个样本乘以第二自序 列的形状,以及我们将coef定义为包含优化窗函数中的这些形状的未 知权重的列矢量。使用这些定义,表述问题的上面方程式及其解现在 应用,以求解更多的一般窗口形状。自然地,在上面中,第一和第二 窗口的作用可以互换,以使现在是对第 一 窗口采用优化。本发明的更多有益实施例共同地优化两种窗口形状。这通过定义 第二套基本窗口形状来实现,可能等效于第一套窗口形状,进而有益地在第 一 套窗口形状中的各个窗口形状中被选作为样本的时间倒置索 引。现在将w—targe定义为矩阵,其中各列为来自所述第二套窗口形状 的基本窗口形状,所述第二套窗口形状是逐个样本乘以第一子序列,
以及将coef定义为列矢量,其包含用于第一窗口的第一权重和用于第 二窗口的第二权重。然后,更一般的问题可以被构造为使target和数量 之间的差的平方和最小。[w一target w—regressor]*coef其中方括号[]被用于由子矩阵或矢量构成矩阵。现在才艮据这里定义 矢量T和H为T = targetH = [w—target w—regressor]对这种优化的解被给定为coef = inv(trans(H)*H)*trans(H)*T另外,本发明更高级的实施例不仅仅优化了瞬间窗口形状,还有 具有优化频率相关权重的窗口。本发明的一个实施例应用抽头延迟线 的形式,尽管一般性发明决不限于这种形式。完成这种概括的一种途 径是在上面w—target和w—regressor的定义中,^#换多个列中的各列,置相对应的延迟的相关子序列。有益地,不脱离这里所公开的本发明,在这些方法中对系数的优 化考虑了对系数的权重、约束或顺序计算。这种加权可有益地包括对 与低绝对值延迟值相对应的系数加更多的权重。这种顺序计算可有益 地首先计算用于低绝对延迟值的系数,以仅仅使用那些系数的误差的 平方和最小化,以及然后顺序重复用于增加延迟值的这种处理,不仅 仅对于在这种处理中来自先前步骤的保留误差。一般地,本发明的实施例将几个子序列作为优化目标。在一般意 义上,优化使失真函数最小,所述失真函数是这些目标子序列和来自 加权叠加系统的输出的函数。这种优化不脱离本发明地可以对基本形 状和延迟及全部叠加中的它们的加权的选择应用各种约束。取决于对 形状的准确选择,叠加的影响在时间上有益地逐渐从在时间上跟随叠 加区域的子序列弱化。图10示出所公开的重叠增加方法的一个实施例。该图仅仅用于说 明本发明一个实施例的目的,因本发明不限于图中的精确结构。图10中, 一个子序列1000进入^^用另一子序列1010进^"叠加优化的时间 和频率形状。这些子序列中的各个进入分离的延迟线,其中在图中,z表示一个样本的时间提前,以及z-l表示一个样本的时间延迟,以及其 中对1 、 - 1和0的选择延迟纯粹用于说明的目的其它、更多的或更 少的延迟可有益地与本发明相结合使用。现在,将各个子序列的各个 延迟版本与多个基本窗口形状相乘,以及这些中的各个结果在优化过 程中与连同其它系数一起建立的系数相乘,在与这些系数相乘后,得 到的子序列被求和以产生根据优化叠加的时间和频率形状的输出 1020。在图10的例子中,对系数的优化1030将子序列1040和1050 作为输入,并且将为1040、 1050和输出1020的函数的失真函数最小 化。在权利要求中,对附图的参考标记仅仅因清楚原因被包含。这些 对附图中示例实施例的引用决不应当构成对权利要求范围的限制。
权利要求
1、一种用于生成与数字音频信号的传输相关的隐藏样本序列的方法,其中该方法包括从音频信号的数字表示的缓冲样本中以采样时间顺序生成隐藏样本序列,其中隐藏样本序列中的样本的至少两个连续子序列是基于缓冲样本子序列的,其中所述缓冲样本的子序列在重新排序的时间中是连续的。
2、 依据权利要求1所述的方法,其中隐藏样本序列中的样本的至 少两个连续子序列是基于緩沖样本的子序列的,其中所述緩冲样本的 子序列在相反的时间顺序中是连续的。
3、 依据权利要求1或2中任意一项所述的方法,其中在隐藏样本 序列的生成期间,所述緩冲样本子序列的位置^皮定位在在采样时间中 向后和向前逐渐变4匕的点处。
4、 依据权利要求2或3所述的方法,其中隐藏样本序列中的至少 两个连续子序列在相反的时间顺序中是基于緩冲样本的至少两个连续子序列的。
5、 依据权利要求4所述的方法,其中隐藏样本序列中的至少三个 连续子序列在相反的时间顺序中是基于緩冲样本的至少三个连续子序列的。
6、 依据前面权利要求中任意一项所述的方法,其中隐藏样本序列 从基于在时间顺序中是最后的緩冲样本的子序列的子序列开始。
7、 依据前面权利要求中任意一项所述的方法,其中所述子序列在 时间上的重新排序是基于在时间上向前索引和读取样本以及在时间上 向后移步的顺序处理的。
8、 依据权利要求7所述的方法,其中索引和读取样本的所述顺序处理包括步骤a )通过以时间顺序对多个緩沖样本进行向后移步来索引緩沖样 本,在其步骤后,b)从步骤a)中被索引的緩冲样本开始,以时间顺序向前读:取多 个緩冲样本,并且使用用于计算隐藏样本序列的子序列所读取的样本,其中向前读取的缓冲样本数量不同于向后移步的緩沖样本数量。
9、 依据权利要求8所述的方法,其中向前读取的緩沖样本数量大 于向后移步的緩沖样本数量。
10、 依据权利要求8所述的方法,其中向前读取的緩沖样本数量 小于向后移步的緩冲样本数量。
11、 依据前面权利要求中任意一项所述的方法,其中通过利用加 权叠加处理,从緩沖样本的子序列计算所述隐藏样本序列的子序列。
12、 依据权利要求11所述的方法,其中在所述加权叠加处理中的 加权函数另外还是频率的函数。
13、 依据权利要求11或12所述的方法,其中所述加权叠加处理 响应于匹配品质指示而#皮改变。
14、 依据权利要求13所述的方法,其中匹配品质指示响应进入到 加权叠加处理中的两个或多个才羊本子序列。
15、 依据前面权利要求中任意一项所述的方法,其中通过位置指 针的向后和向前变化而部分地描述所述重新排序。
16、 依据权利要求15所述的方法,其中利用停止标准对所述位置 指针的所述向后变化进行限制。
17、 依据前面权利要求中任意一项所述的方法,其中对所述緩沖 样本进行平滑和均衡操作。
18、 依据权利要求16所述的方法,其中用于所述向后变化的所述停止标准、所述向前和所述向后变化的步距、以及开始的所述向后变 化的数量共同地被优化,以优化在由人类听众理解时的声音品质。
19、 依据权利要求16至18中任意一项所述的方法,其中用于向 后变化的所述停止标准、所述向前变化和所述向后变化的步距、开始 的所述向后变化的数量以及所述平滑和均衡操作共同地被优化,以优 化在由人类听众理解时的声音品质。
20、 依据权利要求16至19中任意一项所述的方法,其中所述位 置指针的所述向后和向前变化被共同地优化,以优化在由人类听众理解时的声音品质。
21、 依据前面权利要求中任意一项所述的方法,其中进行相位滤 波以使在隐藏样本序列和连续样本帧之间的边界处的不连续最小化。
22、 依据权利要求18至20中任意一项所述的方法,其中进行相 位滤波以使在隐藏样本序列和连续样本帧之间的边界处的不连续最小 化,并且其中所述共同优化还包括由相位滤波所引入的信号失真,以 优化由人类听众所感知的声音品质。
23、 依据前面权利要求中任意一项所述的方法,其中噪声混合被 引入到隐藏样本序列中。
24、 依据权利要求7所述的方法,其中噪声混合被引入到隐藏样本序列中,并且其中所述噪声混合响应于在时间上向前的索引样本及 在时间上向后移步的顺序处理而改变。
25、 依据权利要求24所述的方法,其中所述在时间上向前的索引 样本及在时间上向后移步的顺序处理以及对其的所述响应包括匹配品质指示的使用。
26、 依据前面权利要求中任意一项所述的方法,其中在隐藏样本 序列中应用衰减函数。
27、 依据权利要求7所述的方法,其中在隐藏样本序列中应用衰 减函数,并且其中所述衰减函数响应于在时间上向前的索引样本及在 时间上向后移步的顺序处理而改变。
28、 依据权利要求27所述的方法,其中所述在时间上向前的索引 样本及在时间上向后移步的顺序处理以及对其的所述响应包括匹配品质指示的使用。
29、 依据前面权利要求中任意一项所述的方法,其中预置在隐藏 样本序列中得到的样本数。
30、 依据权利要求29所述的方法,其中所述预置的样本数与数字 音频信号的特性无关。
31、 依据权利要求29或30所述的方法,其中所述预置的样本数 具有在范围5 - 1000中的预置整教:值,例如在范围20- 500中。
32、 依据前面权利要求中任意一项所述的方法,其中隐藏样本序 列被包含在第一隐藏帧中。
33、 依据权利要求32所述的方法,其中该方法进一步包括至少生成与第一隐藏帧连续的第二隐藏帧,第二帧包含第二隐藏样本序列。
34、 依据权利要求33所述的方法,其中所述第一和第二隐藏帧中 的隐藏样本序列是不同的。
35、 依据权利要求33或34所述的方法,其中所述第一和第二隐 藏帧包含相同数量的样本。
36、 依据权利要求35所述的方法,其中相比于被包含在第一隐藏 帧中的任意样本子序列,第二隐藏帧中的至少 一个样本子序列至少部 分地基于在时间上更靠后的緩沖样本的子序列。
37、 适于执行依据前面权利要求中任意一项所述的方法的计算机可执行程序代码。
38、 一种程序存储设备,其包括用于诸如通用微处理器的微处理 器的指令序歹'L用于执行如在权利要求1至36中任意一项所述的方法。
39、 一种用于接收数字音频信号的设备,该设备包括 -存储器装置,其用于存储表示所接收数字音频信号的样本,和 -处理器装置,其用于执行如在权利要求1至36中之一所述的方法。
全文摘要
一种用于生成与数字音频信号传输相关的隐藏样本序列的方法,其中该方法包括从音频信号的数字表示的缓冲样本中以采样时间顺序生成隐藏样本序列,其中隐藏样本序列中的至少两个连续样本子序列基于缓冲样本子序列,其中所述缓冲样本子序列在重新排列的时间中是连续的。
文档编号G10L19/005GK101120400SQ200680003571
公开日2008年2月6日 申请日期2006年1月31日 优先权日2005年1月31日
发明者瑟伦·旺·安德森 申请人:索诺瑞特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1