一个声频或语音信号的参数编码的制作方法

文档序号:2822943阅读:200来源:国知局
专利名称:一个声频或语音信号的参数编码的制作方法
技术领域
本发明有关一种分别用于按照权利要求1和6中前叙部分所描述的,将一个声频或语音信号编码为正弦代码数据的参数编码器和编码方法。
本发明还有关一种分别用于按照权利要求11和12中所描述的,由所述正弦代码数据重构一个所述声频或语音信号的近似的参数译码器和译码方法。
背景技术
声频或语音信号在经一个信道发射之前,或被存储在一个存储介质上之前,最好被编码以压缩所述信号的数据。声频或语音信号主要由正弦代码数据代表,因此,在本技术中已知有特定的编码器专用于编码这些信号。例如,这样一个参数编码器见于“A new speech codingmodel based on a least-squares sinusoidal representation”(声学,语音和信号处理IEEE国际会议论文集(ICASSP87),第1641-1644页,达拉斯TX,1987年4月6-9日。IEEE,Picataway,NJ。作者E.B.George和M.J.T.Smith)。在图5中举例说明了该参数编码器。按照图5,该参数编码器500包含一个分段单元510,用于将一个所接收的声频或语音信号划分为至少一个有限段x(n)。
所述段x(n)被输入一个计算单元520。所述计算单元520由该段x(n)计算正弦代码数据,该数据的形式是一个给定扩展 的相位和幅值,对于一个给定规则(例如加权平方误差最小)来说,该扩展 尽可能好地近似x(n)。对于所述参数编码器,该扩展由下式给出x^(n)=Σi=1LAi(n)cos(Φi(n))---(1)]]>其中Ai(n)=Σi=0J-1ajinj---(2)]]>Φi(n)=Σk=0K-1φkink---(3)]]>这里, 和 分别是幅值参数Ai和相位参数Φi的多项式系数。
计算单元520包含一个频率估算单元522,该单元通过在所接收段x(n)的频谱中挑选频率,由该段x(n)计算相位系数 ,例如,计算k=1时的系数,即 。这些代表所述正弦代码数据相位部分的相位系数 一方面被输出给一个多路复用器530,另一方面被输入一个模式生成单元524。所述模式生成单元根据公式(3)计算相位参数Φi(n)。
模式生成单元524还根据下面公式生成扩展 (n)的J×L分量PijPij=njcos(Φi(n))其中,i=1~L,j=0~(J-1)该J×L分量Pij被输入一个幅值估算单元526,该单元根据所述接收分量以及分段单元510输出的接收段x(n)确定最理想的幅值数据 相位系数 和幅值系数 构成代表扩展 (n)的正弦代码数据,该扩展 (n)是段x(n)的一个近似。这些正弦代码数据被多路复用器530多路复用以形成一个数据流,该数据流可被存入一个记录介质或经一个信道发射。
如公式(1)中所描述的,并从所述参数编码器500知道的扩展 (n)能为声频或语音信号的一个单独的段x(n)提供合适的近似。不过,该正弦代码数据的计算过于复杂。

发明内容
本发明的一个目的是改进一个用于将一个声频或语音信号编码为正弦代码数据的已知参数编码器和方法,并且,本发明的目的还有改进一种已知的参数译码器和方法,该译码器和方法用于在所述正弦代码数据的传输和恢复之后,由所述正弦代码数据重构所述声频或语音信号的一个近似,因此,可以用一种简单廉价的方式执行所述正弦代码数据的计算。
这一目的是通过权利要求1中提出的方式解决的。更具体的,这一目的是通过使计算单元为以下扩展 计算正弦代码数据 和 来达到的x^(n)=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>并且Θi(n)=Σk=1Kθkink]]>其中
i代表扩展 (n)的一个分量;j,k代表参数;n代表一个离散时间参数; 代表作为所述正弦代码数据之一的相位系数值;fj代表J个线性无关函数集中的第j个实例;Θi是一个相位; 代表描述所述正弦代码数据幅度部分的分量的线性关联幅值。
在试图定义一个正弦数据,以使所声明的扩展 准确描述一个指定段x(n)时所出现的最佳化问题很容易解决。这一计算的简单性是由于,所声明的扩展 中,除了相位系数 之外,幅值数据 和 是线性关联的。应指出,在Θi中不会出现零阶的相位系数,而在Φi中会出现这种分量,其形式为 另外,所声明扩展 能为定义正弦代码数据提供更多的自由度,这是因为,与该技术中已知的扩展相比,所声明的扩展更广,并且能为一个单独的段x(n)提供更准确的近似。
按本发明的一个第一实例,线性无关函数fj(n)被设为fj(n)=nj。以这种方式,根据权利要求提出的扩展 被限定为一个多项式扩展。
根据权利要求提出的参数编码器的有利实例,特别是根据权利要求提出的计算单元,是相关编码器权利要求的主题。
以上指出的目的还通过权利要求6中提出的一种用于编码一个音频或语音信号的方法解决。所述方法的优点和实例对应于以上所解释的参数编码器的优点和实例。
以上所指出的目的还通过权利要求11所提出的一个参数译码器实现,该译码器用于由所发射或恢复的代码数据重构一个音频或语音信号的近似 。更具体的,达到该目的的方法是,采用一个已知的综合器,按照下面公式,由所述正弦代码数据 和 重构所述段 x^(n)=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>并且Θi(n)=Σk=1Kθkink]]>其中
i代表扩展 (n)的一个部分;j,k代表参数;n代表一个离散时间参数;fj代表J个线性无关函数集中的第j个实例; 代表作为所述正弦代码数据之一的相位系数值;Θi是一个相位; 代表描述和所述正弦代码数据幅度部分的分量的线性关联幅值。
权利要求中提出的扩展 的计算比该技术中已知扩展的计算简单。这是由于所述扩展中幅值数据 和 的线性关联性及零阶相位系数的省略。
由于扩展 的计算简单,因此,对原始音频或语音信号s(形式为其近似 )的重构实现起来更快而且费用更低。
上述目的还通过权利要求12中提出的译码方法达到。所述方法的优点对应于以上参照参数译码器提到的优点。
附图描述在以下描述中,结合了五个附图,其中

图1显示了按本发明的参数编码器的第一实例;图2显示了按本发明的参数编码器的第二实例;图3是一个流程图,举例说明了按本发明的参数编码器的第二实例的操作;图4显示了按本发明一个实例的参数译码器;图5显示了该技术中已知的一个参数编码器。
实施例描述在描述本发明的推荐实例之前,先给出有关本发明主题的一些基本解释。
本发明提出一个扩展 (n),用于近似一个正弦音频或语音信号s的一个段x(n)。所述扩展 (n)由相位和幅度数据代表,以下也将其称为正弦代码数据。定义该正弦代码数据的原则是,对于一个给定的规则(例如,平方加权误差最小),扩展 (n)能尽可能好地近似该正弦音频或语音信号s的一个段x(n)。换句话说,必须通过解一个最佳化问题来定义该正弦代码数据。在定义了能最好地近似一个特定段x(n)的正弦代码数据之后,该数据被存储在一个存储介质上或经一个信道发射,该数据作为代表所述段x(n)的代码数据,因此,该数据还代表所述音频或语音信号s。该正弦代码数据在存储或发射之前,最好先进行编码和/或净化,以从中消除不相关或冗余数据。
以下,将参照图1解释按本发明第一实例,所述正弦代码数据的生成。
图1显示了一个参数编码器100的一个第一推荐实例,该编码器100用于生成代表一个输入音频或语音信号s的所述正弦代码数据。所接收的信号s被输入一个分段单元110,该单元将所述信号s划分为至少一个段x(n)。所述段x(n)被输入一个计算单元120,用于生成所述正弦代码数据,扩展 的定义为x^(n)=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]---(4)]]>并且Θi(n)=Σk=1Kθkink---(5)]]>其中i,j,k代表参数;n代表一个离散时间参数; 代表作为所述正弦代码数据之一的相位系数值;fj代表J个线性无关函数组中的第j个实例;Θi是一个相位; 代表描述所述正弦代码数据一些部分的分量的线性相关幅度值。对于一个给定的规则(例如,加权平方误差最小)来说,该正弦数据尽可能好地近似输入所述计算单元120的段x(n)。要由所述计算单元120确定的正弦代码数据是相位 和幅值数据 和 公式(4)中的Ci定义为Ci=Σj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]---(6)]]>以下,将其称为扩展 的第i个分量,i=1~L。
计算单元120包含一个频率估算单元122,用于按公式(5)为扩展 (n)的所有Ci(i=1~L)确定一组L×K个相位系数 (k=1~K),该扩展 (n)代表逐个接收的段x(n)。所述L×K频率 被输入一个模式生成单元124,用于按照公式(5)计算一组频率参数Θi(n)(共L个,i=1~L)。所述模式生成单元124还用于按下面公式为分量Ci(i=1~L)生成一组模式对 (J×L)Pij1=fj(n)cos(Θi(n));]]>Pij2=fj(n)sin(Θi(n))]]>i=1~L并且j=0~(J-1)。
所述模式对组 与段x(n)一起输入一个幅值估算单元126,幅值估算单元126为扩展 (n)的所有分量Ci的所有接收模式 确定多元J×L幅值 ,为模式 确定多元J×L幅值 采用计算单元120和(特别是)频率估算单元122和幅值估算单元126,确定并优化正弦数据(该数据包含相位数据 和幅值数据 ),该数据(近似)满足规则“段x(n)与扩展 (n)间的加权平方误差E最小”。
参数译码器100还包含一个多路复用器130,用于将所述频率估算单元122输出的L×K相位系数 和所述幅值估算单元126输出的J×L幅值数据 和 转换为一个数据流,存储在一个存储介质上或经一个信道发射。
图2显示了参数编码器100’的一个第二实例。和参数编码器100类似,参数编码器100’也用于由输入音频或语音信号s生成所述正弦代码数据。其分段单元110’的操作与分段单元110的操作相一致,因此,分段单元110’在其输出端生成所接收信号s的段x(n)。所述段x(n)被输入一个计算单元120’。与第一实例的计算单元120不同的是,计算单元120’并非同时为一个段 (n)的所有部分计算多元正弦代码数据,而是顺序地为扩展 的每个分量Ci(i=1~L)生成该正弦代码数据。这种计算方式在本技术中一般被称为综合分析或匹配追踪算法。不过,在以前的技术中,所述方法的应用只见于与公式(4)中提出的扩展 不同的扩展。
以下,将参照图2和图3解释所述第二实例的计算单元120’的操作。更具体的,描述怎样按照公式(4)计算扩展 的正弦代码数据,以使得分段单元110’输出的一个段与按照公式(4)计算出的该段的扩展 之间的加权平方误差(近似)最小。
在第一个循环i=1时,计算扩展 的第一个分量Ci(i=1)的正弦代码数据(图3中的步骤a))。
为完成这一步骤,分段单元110’的输出x(n)被设为εi-1=x(n)(见步骤b))。
在所述第一循环中,分段单元110’的所述输出被输入一个频率估算单元122’,用于由输入值εi-1确定K个相位系数 (见步骤c)),其中,k=1~K。所述相位系数 代表所搜索正弦代码数据的相位,因此,由计算单元输出。另外,所述相位系数 被输入一个模式生成单元124’,用于根据公式(5)计算第一个分量C1的相位Θi,其中i=1(见步骤d))。所述模式生成单元124’还按下式为分量Ci生成2×J个模式(j=0~(J-1))Pij1=fj(n)cos(Θi(n));]]>Pij2=fj(n)sin(Θi(n))]]>此时,i=1(见步骤e))。所生成的这些模式 与参数εi-1一起输入一个幅值估算单元126’。所述幅值估算单元126’根据输入数据,为所述分量Ci(i=1)确定所述模式 的J个幅值 和所述模式 的J个幅值 (见步骤f))。所计算出的幅值 和 构成描述段x(n)的扩展 的正弦数据的幅值部分,从计算单元120’输出,以便与所述相位数据 一起合并成一个代表所述第一分量Ci(i=1)的数据流。另外,所述幅值数据 和 与它们各自的模式 和 一起输入一个综合器128’,用于按下面公式计算分量Ci(i=1)(见步骤g))Ci=Σj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>所述分量Ci被输入一个减法单元129’,以便从输入所述估算单元122’的值εi-1中减去所述分量。所述减法单元129’输出端得到的差值被记为εi(i=1)(见步骤h))。
现在,用于为扩展 计算第一分量C1及其正弦代码数据 和 的第一循环已经结束。随后,将参数i与扩展 的分量Ci的总数L比较(见步骤I))。若i<L,则重复步骤c)到i),此时i=i+1。在这些情况下,i≥1时分段单元110’的输出与频率估算单元122’的输入断开;所述频率估算单元122’的输入与所述减法单元129’的输出相连,用于接收差值εi。不过,若i≥L,则扩展 的所有L个分量的正弦代码数据都已计算完毕。因此,对一个特定的段 ,计算单元120’执行的计算过程完成。随后,为输入音频或语音信号的下一个段重复整个过程。
图4显示了一个参数译码器400,用于由所接收的输入数据恢复一个音频或语音信号s的近似。这些所接收的输入信号相应于被发射之后或从存储介质中恢复之后的一个数据流的数据。
参数译码器400包含一个选择单元420,用于从所述接收的输入数据中挑选代表音频或语音信号s的近似值的段 的正弦代码数据 和 。参数译码器400还包含一个综合器440,用于由所述接收的正弦代码数据恢复所述段 ,和一个连结单元460,用于将重构的段 连结起来,重构近似值。
应指出,上面提到的实例仅仅起举例说明的作用,并不限定本发明,本技术专业人员可以不脱离附加权利要求的范围,设计出许多不同的实例。在权利要求中,括号中的任何参考符号并不限定权利要求。“包含”一词并不排除出现与权利要求中所列出的元件和步骤不同的元件和步骤的可能性。本发明可由包含若干分立元件的硬件实现,也可通过适当编程的计算机实现。在一个列举了若干装置的设备权利要求中,这些装置中的若干个装置可由同一硬件实现。一些措施是在互不相同的独立权利要求中指出的,则并不表明不能将这些措施组合起来。
权利要求
1.一个参数编码器(100,100’),用于将一个音频或语音信号s编码为正弦代码数据,该编码器包括-一个分段单元(110,110’),用于将所述信号s分为至少一个段x(n);-一个计算单元(120,120’),用于由段x(n)计算所述正弦代码数据(该数据的形式为一个给定扩展 的相位和幅值数据),以使得对于一个给定的规则来说,扩展 (n)尽可能好地近似段x(n);该编码器的特点在于计算单元(120,120’)为以下的扩展 计算正弦代码数据 和 x^=Σi=1LCi=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>并且Θi(n)=Σk=1K-1θkink]]>其中i,j,k代表参数;n代表一个离散时间参数;Ci代表扩展 的第i个分量; 代表作为所述正弦代码数据之一的相位系数值; 代表J个线性无关函数组中的第j个实例;Θi是一个相位; 代表描述所述正弦代码数据一些部分的分量的线性关联幅值。
2.权利要求1中的参数编码器,其特点在于fj(n)=nj。
3.权利要求1中的参数编码器,其特点在于,计算单元(120)包含-一个频率估算单元(122),用于为扩展 (n)(该扩展 (n)代表所接收段x(n))的所有分量Ci确定多元相位系数 (L×K,其中i=1~L,k=1~K);-一个模式生成单元(124),按照下式,由相位系数 计算L个相位Θi(n)(其中i=1~L)Θi(n)=Σk=1K-1θkink]]>并按照下面公式为分量Ci(i=1~L)计算多元的J×L模式对 Pij1=fj(n)cos(Θi(n))]]>和Pij2=fj(n)sin(Θi(n))]]>i=1~L且j=0~(J-1);-一个幅值估算单元(126),为扩展 的所有分量Ci的模式 确定多元J×L幅值 ,并为模式 确定多元J×L幅值 -这里,对于段x及其扩展 之间的加权平方和最小这一规则来说,正弦数据 和 至少是近似最优的。
4.权利要求1中的参数编码器,其特点在于,一个多路复用器(130)用于将所述正弦代码数据合并为一个数据流。
5.权利要求1中的参数编码器,其特点在于,计算单元(120’)包含-一个频率估算单元(122’),用于由一个输入值εi-1为分量Ci确定多元K个相位系数 (k=1~K);其中,对于第一个分量C1(i=1),输入值被设为ε0=x(n);-一个模式生成单元(124’),按照下式,由所述多元相位系数 为分量Ci计算相位ΘiΘi(n)=Σk=1Kθkink]]>并按照下面公式为分量Ci生成多元的2×J模式 ,其中,j=1~LPij1=j(n)cos(Θi(n))]]>和Pij2=fj(n)sin(Θi(n))]]>-一个幅值估算单元(126’),由所接收的段x(n)和所接收的多元模式 ,为分量Ci的所述模式确定J个幅值 和J个幅值 -一个综合器(128’),按照以下公式,由所述多元2×J模式 和多元幅值 和 重构分量CiCi=Σj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>-一个减法单元(129’),从输入值εi-1中减去所述分量Ci,以便将所得到的差值εi前馈到频率估算单元(122’)的输入端,作为一个新的输入值,用来计算代表分量Ci+1的正弦代码数据;这里,对于段x及其扩展 之间的加权平方和最小这一规则来说,正弦数据 和 是最优的。
6.一种参数编码方法,用于将一个音频或语音信号s编码为正弦代码数据,该方法包括以下步骤-将所述信号s分为至少一个段x(n);-由段x(n)计算所述正弦代码数据(该数据的形式为一个给定扩展 的相位和幅度数据),以使得对于一个给定的规则来说,扩展 (n)尽可能好地近似段x(n);其特点在于-扩展 被定义为x^=Σi=1LCi=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>并且Θi(n)=Σk=1Kθkink]]>其中i代表扩展 (n)的一个分量Ci;j,k代表参数;n代表一个离散时间参数;fj代表J个线性无关函数集中的第j个实例; 代表作为所述正弦代码数据之一的相位系数值;Θi是一个相位; 表示代表所述正弦代码数据幅值部分的分量的线性关联幅值。
7.权利要求6中的方法,其特点在于fj(n)=nj。
8.权利要求6中的方法,其特点在于,通过取扩展 频域内的峰值频率来定义频率
9.权利要求6中的方法,其特点在于,为满足段x及其扩展 之间的加权平方和最小这一规则,定义最佳幅值 和 的步骤包含以下步骤-为所接收段x(n)的所有分量Ci确定多元L×K相位系数 (i=1~L,k=1~K);-按照下式,由相位系数 计算多元L个相位Θi(n)Θi(n)=Σk=1Kθkink]]>-并按照下面公式,为分量Ci(i=1~L)生成多元的J×L模式对 Pij1=fj(n)cos(Θi(n))]]>和Pij2=fj(n)sin(Θi(n))]]>-为扩展 的所有分量Ci的所有模式对 确定多元J×L幅值 和多元J×L幅值
10.权利要求6中的方法,其特点在于,为满足段x及其扩展 之间的加权平方和最小这一规则,定义幅值 和 的步骤包含以下步骤a)令i=1;b)εi-1=ε0=x(n);c)由一个输入值εi-1,为分量Ci确定一组K个相位系数 (k=1~K);d)按照下式,由所述多元相位系数 ,为分量Ci计算相位ΘiΘi(n)=Σk=1Kθkink]]>e)按照下面公式,为分量Ci生成一组2×J模式 (j=0~(J-1))Pij1=fj(n)cos(Θi(n))]]>和Pij2=fj(n)sin(Θi(n))]]>f)由所接收的段x(n)和所接收的多元模式 ,为分量Ci的所述模式确定J个幅值 和J个幅值 g)按照以下公式,由所述多元J对模式Pij和多元幅值 和 重构分量CiCi=Σj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>h)从输入值εi-1中减去所述分量Ci,计算一个差值εii)检查是否i≥L,这里L代表分量的一个给定数量;j)若i<L,使i=i+1,从步骤c)开始,重复以上方法步骤;k)若i≥L,则扩展 的所有L个分量的正弦代码数据都已计算完毕,因此,过程结束。
11.一个参数译码器(400),用于由所发射和恢复的代码数据重构一个音频或语音信号s的近似值,包括-包含一个选择单元(420),用于从所述发射和恢复的代码数据中挑选正弦代码数据,这些正弦代码数据代表近似值的段 -一个综合器(440),用于由所述接收的正弦代码数据重构所述段 ;和-一个连结单元(460),用于连接连续的段 ,以形成所述音频或语音信号s的近似;这里,该正弦代码数据是所述段 的至少一个分量的一组频率和幅度值;其特点在于-其综合器用于按下面公式,由所述正弦代码数据重构所述段 x^=Σi=1LCi=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>Θi(n)=Σk=1Kθkink]]>其中i代表扩展 (n)的一个分量Ci;j,k代表参数;n代表一个离散时间参数;fi代表J个线性无关函数组中的第j个实例; 代表作为所述正弦代码数据之一的相位系数值;Θi是一个相位; 表示代表所述正弦代码数据幅值部分的分量的线性关联幅值。
12.用于由所发射和恢复的代码数据重构一个音频或语音信号s的近似值的译码方法,包括从所接收的发射或恢复代码数据中挑选代表近似值的段 的正弦代码数据的步骤;-由所述正弦代码数据重构所述段 ;并-将连续的段 连接在一起,以生成该音频或语音信号s的近似值;-其中,该正弦代码数据是所述扩展 的至少一个分量的一组频率和幅度值;其特点在于-在所述重构步骤中,按下面公式,由所述正弦代码数据重构所述段 x^=Σi=1LCi=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>Θi(n)=Σk=1Kθkink]]>其中i代表扩展 的一个分量Ci;j,k代表参数;n代表一个离散时间参数;fj代表J线性无关函数组中的第j个实例; 代表作为所述正弦代码数据之一的相位系数值;Θi是一个相位 表示代表所述正弦代码数据幅值部分的分量的线性关联幅值。
13.由正弦代码数据组成的数据流,该正弦代码数据代表一个音频或语音信号s的近似值的段 ,其中,该正弦代码数据是所述段 的至少一个分量的一组频率和幅度值;其特点在于,该段 被定义为x^=Σi=1LCi=Σl=1LΣj=0J-1[djifj(n)cos(Θi(n))+ejifj(n)sin(Θi(n))]]]>并且Θi(n)=Σk=1Kθkink]]>其中i代表扩展 (n)的一个部分;j,k代表参数;n代表一个离散时间参数;fj代表J个线性无关函数组中的第j个实例; 代表作为所述正弦代码数据之一的相位系数值;Θi是一个相位; 表示代表所述正弦代码数据幅值部分的分量的线性关联幅值。
14.存储介质,在其上存储权利要求13中提出的数据流。
全文摘要
一个已知的编码器100,包含一个分段单元110,用于将一个音频或语音信号s划分为至少一个段x(n),并包含一个计算单元120,该单元由段x(n)计算正弦代码数据,该正弦代码数据的形式是一个给定扩展(n)的相位和幅度数据,对于一个给定的规则来说,扩展(n)尽可能好地近似段x(n)。本发明的一个目的是改进该译码器,以便能以简单廉价的方式执行所述正弦代码数据的计算。按本发明,这一目的是通过按以下扩展,为段x(n)计算正弦代码数据来达到的。
文档编号G10L19/02GK1429384SQ01809429
公开日2003年7月9日 申请日期2001年12月20日 优先权日2001年1月16日
发明者A·C·登布林克 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1