语音编码装置和语音编码方法

文档序号:2829990阅读:189来源:国知局
专利名称:语音编码装置和语音编码方法
技术领域
本发明涉及语音编码装置和语音编码方法,特别涉及由立体声的语音输入信号生成单声道信号并进行编码的语音编码装置和语音编码方法。

背景技术
随着在移动通信和IP通信中的传输频带的宽带化以及服务的多样化,在语音通信中,对高音质化和更强的现场感的需求日益增高。例如,今后可以预料对下述的服务的需求会增多,即,电视电话服务中的免提(Handsfree)形式的通话、在电视会议中的语音通信、例如在多个地点多个说话者同时进行会话等的多地点语音通信、在保持现场感的同时能够传输周围的声音环境的语音通信等的服务。那时,人们期待例如比单声道信号现场感更强并能够识别多个说话者的说话位置的使用立体声语音的语音通信的实现。为了实现这样的使用立体声语音的语音通信,必须进行对立体声语音的编码。
另外,在IP网络上的语音数据通信中,为了实现网络上的业务控制和组播通信,具有可扩展结构的语音编码备受期望。可扩展结构是指在接收端只从一部分编码数据也可解码语音数据的结构。
因此,在对立体声语音进行编码并传输时,也期望具有在单声道/立体声之间可扩展结构(单声道/立体声可扩展结构)的编码,其可以在接收端选择立体声信号的解码或单声道信号的解码。
在这样的具有单声道/立体声可扩展结构的语音编码中,由立体声的输入信号生成单声道信号。作为单声道信号的生成方法,例如有对立体声信号的各个声道的信号简单地进行平均,从而获得单声道信号的方法(参照非专利文献1)。 ISO/IEC 14496-3,”Information Technology-Coding ofaudio-visual objects-Part 3Audio”,subpart-4,4.B.14 Scalable AAC with corecoder,pp.304-305,Sep.2000.

发明内容
发明需要解决的问题 然而,在仅通过对立体声信号的各个声道的信号直接进行平均而生成单声道信号时,尤其是在语音方面,有时变成强弱不明显且难以收听的单声道信号。
本发明的目的为提供语音编码装置和语音编码方法,该装置和方法在由立体声信号生成单声道信号时,能够生成富有清晰性和可理解性且强弱明显的适当的单声道信号。
解决该问题的方案 本发明的语音编码装置所采用的结构包括加权单元,通过对应于立体声信号的各个声道的信号的语音信息量的加权系数,对所述各个声道的信号进行加权;生成单元,对加权后的所述各个声道的信号进行平均,生成单声道信号;编码单元,对所述单声道信号进行编码。
发明的有益效果 根据本发明,在由立体声信号生成单声道信号时,能够生成富有清晰性和可理解性且强弱明显的适当的单声道信号。



图1是表示本发明实施方式1的语音编码装置的结构的方框图。
图2是表示本发明实施方式1的加权单元的结构的方框图。
图3是本发明实施方式1的L声道信号的波形例。
图4是本发明实施方式1的R声道信号的波形例。

具体实施例方式 下面,参照附图详细说明本发明的实施方式。
(实施方式1) 图1表示本实施方式的语音编码装置的结构。图1所示的语音编码装置10包括加权单元11、单声道信号生成单元12、单声道信号编码单元13、单声道信号解码单元14、差分信号生成单元15和立体声信号编码单元16。
立体声语音信号的L声道(左声道)信号XL和R声道(右声道)信号XR,被输入至加权单元11和差分信号生成单元15。
加权单元11对L声道信号XL和R声道信号XR分别进行加权。至于加权的具体方法将后述。加权后的L声道信号XLW和R声道信号XRW被输入至单声道信号生成单元12。
单声道信号生成单元12通过对L声道信号XLW和R声道信号XRW进行平均,生成单声道信号XMW。该单声道信号XMW被输入至单声道信号编码单元13。
单声道信号编码单元13对单声道信号XMW进行编码,并输出单声道信号XMW的编码参数(单声道信号编码参数)。将该单声道信号编码参数与从立体声信号编码单元16输出的立体声信号编码参数进行复用后,被传输至语音解码装置。另外,单声道信号编码参数被输入至单声道信号解码单元14。
单声道信号解码单元14通过对单声道信号编码参数进行解码,获得单声道信号。该单声道信号被输入至差分信号生成单元15。
差分信号生成单元15生成L声道信号XL和单声道信号之间的差分信号ΔXL及R声道信号XR和单声道信号之间的差分信号ΔXR。这些差分信号ΔXL和ΔXR被输入至立体声信号编码单元16。
立体声信号编码单元16对L声道的差分信号ΔXL和R声道的差分声道ΔXR进行编码,并输出这些差分信号的编码参数(立体声信号编码参数)。
接着,使用图2详细说明加权单元11。如该图所示,加权单元11包括指标计算单元111、加权系数计算单元112和乘法单元113。
立体声语音信号的L声道信号XL和R声道信号XR被输入至指标计算单元111和乘法单元113。
指标计算单元111将表示各个声道的信号XL和XR的语音信息量比例的指标IL和IR,对每一定区间(例如,以各个帧、多个帧为单位等)进行计算。将L声道信号的指标IL和R声道信号的指标IR设为表示在时间上相同的区间的数值。这些指标IL和IR被输入至加权系数计算单元112。另外,关于指标IL和IR的具体内容,将在后述的实施方式中进行说明。
加权系数计算单元112基于指标IL和IR,计算对于立体声信号的各个声道的信号的加权系数。加权系数计算单元112基于式(1)和(2),计算对于L声道信号XL的每一定区间的加权系数WL和对于R声道信号XR的每一定区间的加权系数WR。另外,这里所述的一定区间与在指标计算单元111计算了指标IL和IR时的一定区间相同。这些加权系数WL和WR被输入至乘法单元113。
...式(1) ...式(2) 乘法单元113将立体声信号的各个声道的信号的振幅乘以加权系数。由此,立体声信号的各个声道的信号通过对应于各个声道的信号的语音信息量的加权系数,被进行加权。具体而言,在将L声道信号的一定区间内的第i个样本设为XL(i)以及将R声道信号的第i个样本设为XR(i)时,可以基于式(3)和(4)来求加权后的L声道信号的第i个样本XLW(i)和加权后的R声道信号的第i个样本XRW(i)。加权后的各个声道的信号XLW和XRW被输入至单声道信号生成单元12。
XLW(i)=WL·XL(i)...式(3) XRW(i)=WR·XR(i)...式(4) 然后,图1所示的单声道信号生成单元12,计算加权后的L声道信号XLW和加权后的R声道信号XRW的平均值,并将该平均值作为单声道信号XMW。单声道信号生成单元12基于式(5),生成单声道信号的第i个样本XMW(i)。
...式(5) 单声道信号编码单元13对单声道信号XMW(i)进行编码。单声道信号解码单元14通过对单声道信号编码参数进行解码,获得单声道信号。
差分信号生成单元15在将L声道信号的第i个样本设为XL(i)、将R声道信号的第i个样本设为XR(i)以及将单声道信号的第i个样本设为XMW(i)时,基于式(6)和(7),求L声道信号的第i个样本的差分信号ΔXL(i)和R声道信号的第i个样本的差分信号ΔXR(i)。
ΔXL(i)=XL(i)-XMW(i) ...式(6) ΔXR(i)=XR(i)-XMW(i) ...式(7) 然后,在立体声信号编码单元16,对于差分信号ΔXL(i)和ΔXR(i)分别进行编码。至于差分信号的编码方法,使用例如差分PCM编码等适合于对语音差分信号进行编码的方法。
这里,例如,在L声道信号如图3所示由语音信号所构成,并且R声道信号如图4所示由无声(只有DC分量)所构成时,由语音信号所构成的L声道信号比起无声(只有DC分量)所构成的R声道信号,向接收端的收听者提供较多的信息。因此,如以往一样,在只通过对各个声道的信号直接进行平均而生成单声道信号时,该单声道信号成为使L声道信号的振幅为二分之一的信号,由此可以推测该信号成为缺乏清晰性和可理解性的信号。
相对于此,在本实施方式中,由通过加权系数而进行加权的各个声道的信号来生成单声道信号,该加权系数为基于表示各个声道的信号的语音信息量比例的指标。可以推测,语音信息量越多,在接收端对单声道信号进行解码和再现时的单声道信号的清晰性和可理解性越高。因此,通过如本实施方式生成单声道信号,能够生成富有清晰性和可理解性且强弱明显的适当的单声道信号。
另外,在本实施方式中,基于如此生成的单声道信号,进行具有单声道/立体声可扩展结构的编码,由此使得语音信息量的比例较大的声道的信号和单声道信号之间的差分信号的功率,比起在将各个声道的信号的平均值作为单声道信号时的功率较小(即,使得语音信息量的比例较大的声道的信号和单声道信号之间的相似程度较高)。其结果,能够降低对于该声道的信号的编码失真。语音信息量的比例较小的另一个声道的信号和单声道信号之间的差分信号的功率,虽然比起在将各个声道的信号的平均值作为单声道信号时的功率较大,但是在声道与声道之间,能够使各个声道的编码失真不均等,所以能够使语音信息量较多的声道的信号的编码失真更小。因此,能够使在接收端被解码的整个立体声信号的听觉上的失真感较小。
(实施方式2) 在本实施方式中,对将各个声道的信号的熵作为表示语音信息量比例的指标来使用的情况,进行说明。在这个情况,指标计算单元111通过如下方式计算熵。加权系数计算单元112通过如下方式计算加权系数。另外,被进行编码的立体声信号,实际上是被样本化的离散值,但是即使将它作为连续值来处理也具有同样性质,所以在以下的说明中,将该信号作为连续值来进行说明。
具有概率密度函数p(x)的连续样本值x的熵被以式(8)来定义。
(比特/样本值)...式(8) 指标计算单元111基于式(8)对各个声道的信号计算熵H(X)。语音信号通常能够以式(9)所示的指数分布(拉普拉斯分布)来进行近似,这里,利用此计算熵H(X)。另外,α被以后述的式(12)来定义。
...式(9) 通过使用式(9),能够以式(10)来计算出式(8)所示的熵H(X)。也就是说,可由式(10)求出的熵H(X)表示为了表现一个样本值时所需要的比特数,因此,能够作为表示语音信息量比例的指标来使用。另外,在式(10)中,如式(11)所示,将语音信号的振幅的绝对值的平均值视为0。
H(X)=1-log2α (比特/样本值)...式(10) ...式(11) 另外,在指数分布的情况,在将语音信号的标准偏差设为σx时,α被以式(12)来表示。
...式(12) 如上述,语音信号的振幅的绝对值的平均值被视为0,因此,标准偏差可使用语音信号的功率P来表示为如式(13)所示。
...式(13) 在使用式(12)和式(13)时,式(10)变成如式(14)。
...式(14) 因此,L声道信号的每一定区间的熵HL,在将L声道信号的功率设为PL时,可以基于式(15)来求。
(比特/样本值)...式(15) 相同地,R声道信号的每一定区间的熵HR,在将R声道信号的功率设为PR时,可以基于式(16)来求。
(比特/样本值)...式(16) 如此,由指标计算单元111求各个声道的信号的熵HL和HR,而这些熵被输入至加权系数计算单元112。
另外,在上述说明中,将语音信号的分布假设为指数分布来求熵,但也可以基于实际的信号的样本xi和由该信号的发生频率计算出的发生概率p(xi),计算各个声道的信号的熵HL和HR。
然后,在加权系数计算单元112,将熵HL和HR作为在实施方式1所示的指标IL和IR来使用,并基于式(17)和(18)计算加权系数WL和WR。这些加权系数WL和WR被输入至乘法单元113。
...式(17) ...式(18) 如此,在本实施方式中,通过将熵作为表示语音信息量(比特数)的指标来使用,并对各个声道的信号进行基于熵的加权,能够生成语音信息量较多的声道的信号被强调、且强弱明显的单声道信号。
(实施方式3) 在本实施方式中,对将各个声道的信号的S/N比作为表示语音信息量比例的指标来使用的情况进行说明。在这个情况,指标计算单元111通过如下方式计算S/N比,而加权系数计算单元112则通过如下方式计算加权系数。
在本实施方式中使用的S/N比,是输入信号中作为主要的信号S和除此之外的信号N的比例。例如,在输入信号为语音信号时,是主要的语音信号S和周围的背景噪声信号N的比例。具体而言,将基于式(19)求出的输入语音信号的平均功率(对输入语音信号的以帧为单位的功率进行时间平均而求的功率)PS和在非语音区间(只有噪声的区间)的噪声信号的平均功率(对非语音区间的以帧为单位的功率进行时间平均而求出的功率)PE的比例,逐次计算并更新,而将其作为S/N比。另外,对收听者而言,语音信号S通常是比噪声信号N更需要的信息的情况较多,所以通过将S/N比作为指标来使用,能够生成收听者所需要的信息被强调的单声道信号。因此,在本实施方式中,将S/N比作为表示语音信息量比例的指标来使用。
...式(19) 基于式(19),L声道信号的S/N比(S/N)L使用L声道信号的语音信号的平均功率(PS)L和L声道信号的噪声信号的平均功率(PE)L,以式(20)来表示。
...式(20) 同样地,R声道信号的S/N比(S/N)R使用R声道信号的语音信号的平均功率(PS)R和R声道信号的噪声信号的平均功率(PE)R,以式(21)来表示。
...式(21) 但是,在(S/N)L和(S/N)R为负时,将负的S/N比置换为预先规定的正的下限值。
如此,在指标计算单元111,求各个声道的信号的S/N比(S/N)L和(S/N)R,而这些S/N比被输入至加权系数计算单元112。
然后,在加权系数计算单元112,将S/N比(S/N)L和(S/N)R作为在实施方式1所示的指标IL和IR来使用,并基于式(22)和(23)计算加权系数WL和WR。这些加权系数WL和WR被输入至乘法单元113。
...式(22) ...式(23) 另外,也可以使用以下方式来计算加权系数。即,也可以使用不纪录log的S/N比来求加权系数,以代替使用式(20)和(21)所示的log区域的S/N比来求加权系数。此外,也可以预先准备如S/N比越大加权系数越大的表示S/N比和加权系数的对应关系的表,而基于S/N比参照该表来求加权系数,以代替使用式(22)和(23)来计算加权系数。
如此,在本实施方式中,通过将S/N比作为表示语音信息量的指标来使用,并基于S/N比对各个声道的信号进行加权,能够生成语音信息量较多的声道的信号被强调且强弱明显的单声道信号。
另外,作为表示语音信息量比例的指标,还可使用语音波形的规则性(基于不规则性越大语音信息量越多)和频谱包络的时间性变化量(基于变化量越大语音信息量越多)等。
另外,将上述各个实施方式的语音编码装置,可装载于移动通信系统中所使用的无线通信移动台装置和无线通信基站装置等无线通信装置。
另外,在上述实施方式,举例说明了以硬件构成本发明的情况,但本发明也可通过软件来实现。
另外,用于上述实施方式的说明中的各功能块,通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片,也可以一部分或全部被集成为一个芯片。
虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以使用在LSI制造后可编程的FPGA(Field ProgrammableGate Array),或者可重构LSI内部的电路单元的连接和设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其他技术的出现,如果能够出现替代LSI集成电路化的新技术,当然可利用新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
本说明书是基于2005年1月26日申请的日本专利申请第2005-018150号。其内容全部包含于此。
工业实用性 本发明可以适用于移动通信系统和采用因特网协议的分组通信系统等中的通信装置。
权利要求
1.一种语音编码装置,包括
加权单元,通过基于立体声信号的各个声道的信号的语音信息量的加权系数,对所述各个声道的信号进行加权;
生成单元,对加权后的所述各个声道的信号进行平均,生成单声道信号;以及
编码单元,对所述单声道信号进行编码。
2.如权利要求1所述的语音编码装置,其中,
所述加权单元将各个声道的信号的熵作为所述语音信息量来使用,计算所述加权系数。
3.如权利要求1所述的语音编码装置,其中,
所述加权单元将各个声道的信号的S/N比作为所述语音信息量来使用,计算所述加权系数。
4.一种无线通信移动台装置,包括如权利要求1所述的语音编码装置。
5.一种无线通信基站装置,包括如权利要求1所述的语音编码装置。
6.一种语音编码方法,包括
加权步骤,通过对应于立体声信号的各个声道的信号的语音信息量的加权系数,对所述各个声道的信号进行加权;
生成步骤,对加权后的所述各个声道的信号进行平均,生成单声道信号;以及
编码步骤,对所述单声道信号进行编码。
全文摘要
在由立体声信号生成单声道信号时,能够生成富有清晰性和可理解性且强弱明显的适当的单声道信号的语音编码装置。在该装置中,加权单元(11)对L声道信号(XL)和R声道信号(XR)分别进行加权,并将加权后的L声道信号(XLW)和R声道信号(XRW)输入至单声道信号生成单元(12);单声道信号生成单元(12)通过对L声道信号(XLW)和R声道信号(XRW)进行平均,生成单声道信号(XMW),并将其输入至单声道信号编码单元(13);单声道信号编码单元(13)对单声道信号(XMW)进行编码,并输出单声道信号(XMW)的编码参数(单声道信号编码参数)。
文档编号G10L19/00GK101107505SQ20068000328
公开日2008年1月16日 申请日期2006年1月25日 优先权日2005年1月26日
发明者后藤道代, 吉田幸司 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1