用于语音流的可量测的混合的制作方法

文档序号:7585023阅读:176来源:国知局
专利名称:用于语音流的可量测的混合的制作方法
技术领域
本发明涉及使用对音频数据的多个并行流进行混合来处理音频的方法和系统。本发明尤其涉及但并不仅仅限于对语音数据的多个并行流的混合。
背景技术
由于其强度与失真情况相反,所以对语音的人工处理一般都使用数据的数字表示法。数字处理还允许数据的流动。这种流动使得象语音数据这样的音频数据能在流动的过程中被压缩,这样就有可能实现实时通信,而不会在访问文件之前,要求等待下载一个文件或该文件的一部分。对于语音处理的介绍,例如可以看W.B.Kleijn和K.K.Paliwal以及Elsevier等1995年编写的Speech Coding andSynthesis,尤其是第1-47页,这里引入这篇文章供参考。
当需要通过单一的音频设备来解释多语音流,以及需要通过单一的音频设备播放多语音流时,就需要在一个接收机进行语音流的混合。当可以将多语音流合并为单一的流或将其合并为数目减少的几个流以便用于重新发送到一个特定的接收机或一组接收机时,在传输路径的中点(例如在客户服务器内的服务器)也需要混合语音流。
在接收机中混合多数据流需要对所要输出的流进行解码,以产生要被扬声器播放的信号。对每个流的再现函数是由应用定义的,并且这种函数的范围可以从经由一付双扬声器的单声道的简单再现一直到用于提供扬声器补偿以及用于对每个声源空间定位的复杂的传输函数。
发明目的本发明的一个目的是提供用于混合多数据流的步骤,它能减少已有方案所需的处理功率。本发明的另一个目的是提供能减少已有方案所需带宽的混合步骤。本发明还有一个目的是提供其带宽和/或处理功率可量测的结构。
发明概述为达到这一目的,本发明提供用于音频处理的方法。该方法包括对多个并行音频流的合并。这些流中相应的每一个都包括相应的帧序列。该方法包括以下步骤。特定帧的子集是从多个并行帧中选出的。依据这种选择,该子集的特定帧被解码并被解释(render),以产生若干个特定信号。之后,这些特定信号被混合。
最好是,选择标准包括在并行帧中每一帧内固有的一个数值。例如,在参数编码方案中,特殊帧包括表示帧的能量常数的参数、或表示该帧是否与有声语音或无声语音相关的参数。另一种方法或补充的方法是,可被检索到幅度并将其加在一起以生成另一种量度。或许在附加加权之后,可根据这些数值,依据重要性而对这些并行帧定级,且本发明选择那些对解码来说是最重要的帧。为给出一个更特殊的例子,选择标准可以是能量常数和解释增益之间的数学关系。对解释增益的解释如下。经解码的数据流将要被解释,以产生可被扬声器播放的信号。该解释增益是一种表示对所解释的信号源的感知强度的影响。可由应用开发者依据需要任意设定解释增益。例如,可将解释增益设定为解释白噪声(即解释器的冲激响应的能量总和)时,从经解码的信号一直到每一个扬声器信号的能量增益的总和。
选择可以包括由用户或由应用开发者为每一个数据流所指定的相应的优先级。这种优先级与感知因素无关。之后,选择步骤可以仅仅依据这些优先级或依据所解释的能量和优先级的组合来创建一个子集。
可以使用多种方法来定义并行。例如,可以在将若干帧的同时性标记在时间标记上。作为另一个例子,并行帧是在选择开始时刻输入选择步骤时所存在的那些帧。在后一种操作模式下,可使用缓冲来帮助实现时间上的对准。
最好是,通过使用正弦解码器电路来实现解码,其中的正弦解码器电路的操作是基于重叠相加的合成方法,以限制听觉上的人为因素。对于正弦编码器,例如可以看美国专利No.4,771,465以及No.4,797,926,引入这两篇文件供参考。对于重叠相加合成法,同时还有正弦解码器,例如可以看美国专利No.5,327,518,引入这篇文件仅供参考。一般来说,获取帧的能量常数比对整个帧解码要容易。例如,诸如象线性预测编码和上述正弦编码这样的多种编码方案包括对表示信号功率或每帧能量的参数的传输,同时还包括对内容数据的传输,有关内容,请参见上面所引用的由Lleijn和Paliwal所写的第一章,尤其是第36页至第37页,以及请参见前述的美国No.4,771,465。因此,为了实现对特定帧的选择而不需额外的处理功率,利用帧的能量常数是更方便的。
附图的简要说明通过举例以及通过参照以下附图对本发明进行说明,其中

图1是用于处理语音的本发明的第一系统的框图;图2是说明图1系统如何操作的流程图;图3是本发明第二系统的框图;以及图4是本发明第三系统的框图。
在所有这些图中,相似的标号表示相似或相应的特征。
最佳实施例第一系统图1是依据本发明的用于混合第一和第二语音流A和B的第一系统100的框图。所举的例子是对N=2个数据流进行混合。本发明的原理也可应用于N=3,4,……等等情况。系统100包括编码器102和104,用于对第一和第二数据流A和B进行编码。编码器102和104的输出被连接到选择器106的输入端,这里的选择器包括一个N-至-M的多路转换器。多路转换器106的输出与解码器108的输入相连。编码器102-104及解码器108的操作例如可以是基于正弦编码原理。解码器108的输出耦合到路由器110的输入,这里路由器110包括一个多路信号分解器。多路信号分解器110的输出与第一和第二再现电路112和114的耦合。电路112和114的输出与例如是一个加法器的混合器116相耦合。混合器116的输出耦合到音频输出设备118,例如是一个扬声器。再现处理产生了将要被音频输出设备118播放的信号。系统100还包括一个控制器120,以便能如下所述依据每帧的能量常数、每帧的再现增益以及为每帧所指定的优先级来控制多路转换器。控制器120还依据数据流的特性来控制多路信号分解器110,以提供由解码器108解码的帧。器件106-120都是接收器122的一部分。
解释增益的作用如下。在接收器122中对多数据流A和B的混合需要解释经解码的数据流,以产生要被扬声器118所播放的信号。可以为每一种应用或每一种使用模式确定针对一个数据流的解释函数。这种函数的范围可以从使用一付双扬声器的单声道再现的简单复制到提供扬声器补偿以及为每一个声源提供空间定位的复杂的传输函数。这种解释函数可被用于相对于其它数据流例如是数据流B来估测解释电路对数据流例如是数据流A的感官上的影响。但是,解释函数一般是与信号相关的,而且很可能是与频率相关的。使用这种解释使得再现不切实际并且相当繁杂。因此,本发明更愿意每帧使用一个单数的解释增益。对每个应用和每个数据流都确定这种增益,如果需要还可以动态改变这种增益。这种增益接近了加在与特定数据流相关的语音源的感知强度上的更完善的解释函数的作用。一个数据流中每帧的能量常数乘以为这一数据流所设定的解释增益,就能产生被称作是解释能量的一个值。
优先级的作用如下。在解码器108输入端上的数据流A和B的相对重要性可以具有与感知补偿无关的分量。例如,可以通过设定优先级来控制听众所注意的焦点以及一个或多个源的静噪。因此,应用设计者或用户可以通过指定优先级来设置每个数据流的相对重要性。
控制器120利用包含有解释的能量和优先级的数学关系,对N个并行帧中的每一个指定级别。例如,并行帧中的每一个都被按降序定级,如果出现同一级别,则按照所再现的能量的降序定级。这样,控制器120以这样一种方式控制多路转换器106,使用固定数目的M个解码器108和固定数目的解释电路对M=最高级别的1帧进行解码和解释。
解释电路112和114依据帧的标识(A或B)而产生解释数据流。因此,控制器120可以基于与被解码帧相关的帧的标识来控制多路信号分解器110。另外,多路转换器106可依据数据流的标识而向多路信号分解器110提供控制信号。
这样系统100可提供一种混合方法,用于解码,且有可能用于解释,这种解释对处理功率来说是可量测的,该系统同时还提供了对音频输出的可接受的结果。
流程2是说明系统100如何操作的流程图200。本发明适用于使用M个解码器来处理编码帧的N个并行的语音流,其中M小于N。在图1中N=2而M=1。
在步骤202中,检查N个并行帧的数目,并为并行帧中的每一个确定一个相应的能量常数。例如象正弦编码或基于线性预测的编码这样的适当的编码方案传送每帧的能量度量,同时还传送该帧的内容数据。因此,不用对该帧解码,或仅仅使用比解码整个帧所需的处理功率小的处理功率,就可以确定每帧的能量常数。
在步骤204,在步骤202中处理过的N帧中的各个帧都被指定了一个解释能量度量,这种指定是通过将各个能量常数乘以相应的被称作解释增益的系数而实现的,这种解释增益对相应的数据流是特定的。
在步骤206,对N帧中的每一帧,其相对于其它帧的优先级是基于相应数据流的优先级而确定的,它表示了该帧的相对重要性。
在步骤208,例如可以依据相关数据流的优先级,按照降序对N个帧进行定级。如果存在相同的定级,则依据在步骤204中所确定的其相应的再现能量度量,仍然按降序对相关帧定级。
在步骤210,利用M个解码器,对最高级别的M帧解码并将其再现。
在步骤212,通过将M个经解码及解释的帧中的每一个与对应于同一数据流中的在先的帧重叠相加,从而产生了M个经解码及解释后的数据流。
在步骤214,通过将M个经解码及解释的数据流加在一起,从而对它们进行混合。
第二系统图3是本发明第二系统300的框图。系统300显示了N个输入数据流如何在中介单元上被转换为一个单独的数据流,以便能传送到从若干接收机中所选出的一个接收机中,其中N=2个数据流—A和B。为了清楚简洁,图3仅仅显示了接收器302。对数据流的选择现在是由位于传输路径上的位于编码器102-104以及解码器108之间的中介单元上的N-至-M多路转换器304来实现的。例如只有M=依据如上讨论的标准所选出的1帧才能被送到接收器302,被送到302的还有上述用于系统100的多个实施例中任意一个所提到的数据流标识符。控制器120可以是但不必须是接收器302的一部分。
注意,将经多路转换的数据流从中介单元送到每个接收器,在这个过程中不需要支持通用音频信号的编码器。每个接收器的带宽被限制为M个输入数据流(这里M=1)所需的带宽加上用于传输每帧的数据流的标识所需的带宽。这种方法保证带宽的可量测性。在本例中,每帧的数据流标识符是通过多路转换器304被提供给多路信号分解器110的。在中介单元上的处理功率被限制为计算解释数据流的能量和对数据流定级。在接收器302一方的解码、解释和混合等价于对M个数据流的处理,因而确保了处理功率的可量测性。
第三系统图4是本发明的第三系统400的一个方框图,该系统可以替换系统100和300。当来自数据流的一个子集主体的特定帧与来自下一个子集的特定帧有差异时,相应于系统100和300的操作的处理方法需要解码器108从一个数据流切换到另一个数据流。系统100和300依赖于在接收器122和302中的相位连续性且依赖于重叠相加重建(请看上述所引用的文献),以便能平滑与特定帧的相邻子集相应的不同数据流的子集之间的转换。
系统400处理N=2的数据流A和B。N-至-M多路转换器304受到控制,用于依据从上述讨论的标准所选出的一个标准而从N个并行帧中选出M个特定帧的子集。这M个帧被送到接收器402,其中M-至-N多路信号分解器110与N个数据流中的一个相关数据流相应的N个解码器404和406中的一个解码器指定当前子集的M个所选帧中特定的一个。在解码器一侧,在选择处理中被放弃的N-M帧被看作帧损耗。即,解码器404和406被控制以便能离散地或连续地将事先所接收的帧的时间扩展,以便从上述帧损耗中将其恢复出来。例如可通过再现单元408和410实现再现。当使用正弦编码时,离散的时间扩展优于简单重复。这些优点与所需的计算的复杂性相关。这将在以下进行说明。正弦编码是利用参数的(请看上面所引用的由Kleijn和Paliwal所写的文献)。解码包括两个步骤从编码帧中重建参数设定,运行由参数所指示的时间期间的振荡器。将同一帧解码两次需要执行这两个步骤。使用时间扩展执行一次解码需要仅仅执行第一步骤。之后在解码器404和406的输出端上的解码帧的N个数据流被交付给解释器412和414,并在混合器416中被加在一起。
系统400的操作避免了在解码器中的多个数据流之间进行切换。但是,它需要在接收器中运转N个解码器和解释器。系统400相对于带宽来说是可量测的。
注意,本发明涉及音频处理,尤其是但并不专用于语音处理。
还应当注意,可以以软件来表示控制器120、解码器108、404和406以及解释器112、114、412和414的操作,上述软件例如可以是在PC所用的磁盘这样的有形介质上的计算机程序。另外,也可以通过使用户例如是通过从网上下载软件来实现本发明的方法,从而可以实现本发明。这即是,本发明还涉及允许包括混合多个并行音频流的音频处理的方法。本发明包括以下步骤能从众多的并行帧中选择几个特定帧的子集;能对所选子集的特定帧进行解码;能够解释经解码的特定帧,用于产生特定信号;能够混合特定信号。视频会议、卡拉OK以及不同位置使用多个部件的对音乐的播放都会从本发明中受益。
权利要求
1.一种包括混合多个并行音频流的音频处理方法,其中各个数据流都包括一个相应序列的帧,其中该方法包括——从多个并行帧中选择多个特定帧的子集;——对所选子集的特定帧进行解码;——解释经解码的特定帧,用于产生特定信号;以及——混合特定信号。
2.如权利要求1的方法,包括为多个数据流中的每一个指定一个相应的优先级,其中所述选择是基于所指定的相应的优先级而实现的。
3.如权利要求1的方法,包括确定各个并行帧的相应的能量常数,其中所述选择是基于所确定的相应的能量常数来实现的。
4.如权利要求3的方法,包括为多帧中的相应一帧指定一个相应的解释增益系数,其中所述选择是以相应的能量常数和相应的解释增益系数为基础的。
5.如权利要求4的方法,包括为多帧中相应的一帧指定相应的优先级,其中所述选择是以相应的能量常数、相应的解释增益系数和相应的优先级为基础的。
6.一种用于处理音频的信息处理系统,包括——一个输入端,用于接收多个并行音频流,其中多个数据流中相应的每一个都包括一个相应的帧序列;——与该输入端相耦合的一个选择器,用于从所述输入端上的多个并行帧中选出多个特定帧的子集,且所述选择器还用于将特定帧送到选择器输出端上;以及——与所述选择器输出端耦合的解码装置,用于对特定帧进行解码。
7.如权利要求6的系统,具有一个控制器,用于依据指定给相应的多个数据流的相应的优先级来控制所述选择器。
8.如权利要求6的系统,具有一个控制器,其操作用于确定多个并行帧中各个帧的相应的能量常数,其操作还用于依据所确定的相应的能量常数来控制选择器。
9.如权利要求8的系统,其中所述控制器依据所包含的相应的能量常数和表示增益增益的相应的数值之间的数学关系来控制所述选择器。
10.如权利要求8的所述系统,其特征在于所述控制器是基于包含能量常数与表示用于每个数据流的解释增益的相应的数值之间的数学关系、以及基于指定给多个数据流中相应一个数据流的相应的优先级来控制所述选择器的。
11.一种应能用于可提供多并行音频流的要求的信息处理系统,其中这些流中相应的每一个都包括一个相应的帧序列接收器包括——一个输入端,用于接收所述数据流;——与所述输入端耦合的一个选择器,用于从位于输入端的并行的多个帧中选择多个特定帧的子集,并用于将特定帧送到选择器输出端;以及——与所述选择器输出端相耦合的解码装置,用于对多个特定帧进行解码。
12.如权利要求11的接收器,包括一个控制器,用于依据指定给这相应多个帧的相应的优先级来控制所述选择器。
13.如权利要求11的所述接收器,包括一个控制器,该控制器的操作用于确定相应的每个并行帧的相应的能量常数,其操作还用于依据所确定的相应的能量常数来控制所述选择器。
14.如权利要求13的所述接收器,其中所述控制器依据包含相应的能量常数和表示相应的解释增益的相应的数值之间的数学关系来控制所述选择器。
15.如权利要求13的所述接收器,其中所述控制器依据包含相应的能量常数和用于相应一个数据流的表示其相应的解释增益的相应的数值之间的数学关系、以及依据指定给相应一个数据流的相应的优先级来控制所述选择器。
16.一种应能用于可提供多并行音频流的要求的信息处理系统,其中这些流中相应的每一个都包括一个相应的帧序列;并且其中所述系统包括一个选择器,该选择器具有一个选择器输入端,用于接收数据流,该选择器的操作用于从多个并行帧中选择多个特定帧的子集,其操作还用于使所述特定帧出现在选择器输出端接收器包括——用于耦合到所述选择器输出端的一个输入端;——与所述接收器输入端相耦合的解码装置,用于对多个特定帧进行解码;——一个控制器具有——一个控制器输入端,用于依据指定给相应各个数据流的相应的优先级来接收信息;以及——连接到所述选择器的一个控制器输出端,用于依据所述优先级来控制所述选择器。
17.如权利要求16的所述接收器,其中——所述控制器具有与所述选择器输入端耦合的第二控制器输入端,用于依据并行帧的相应的能量常数来接收信息;以及——控制器依据所述优先级与所述能量常数的组合来控制所述选择器。
18.应用于权利要求7要求的所述系统中,有形介质包括一个计算机程序,用于表示控制器以及用于依据以下几组输入数值中至少一组来创建用来控制所述选择器的控制数据——所述优先级;以及——相应多个并行帧的相应的能量常数。
19.一种能处理包含混合多个并行音频数据流的音频处理的方法,每一个相应的数据流都包括相应的帧序列,其中所述方法包括——能在所述多个帧中选择多个特定帧的子集;——能对所选子集的特定帧进行解码;——能解释经解码的特定帧,用于产生特定信号;并且——能混合所述多个特定信号。
全文摘要
语音处理系统接收语音帧的多数据流。该系统根据预先指定的流的优先级和能量常数,从共同存在的一些帧中选出与这些帧最相关的子集。之后,所选出的帧被解码并被解释。所得到的信号被混合。这种结构提供了带宽的可量测性以及/或处理功能的可量测性。
文档编号H04RGK1272938SQ99800765
公开日2000年11月8日 申请日期1999年2月11日 优先权日1998年5月18日
发明者P·卡斯特洛达科斯塔, N·伊斯迈尔, R·莫尔莱, A·辛哈 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1