一种处理音频信号的方法和装置制造方法

文档序号：2826430阅读：154来源：国知局

一种处理音频信号的方法和装置制造方法
【专利摘要】本发明公开了一种用于处理音频信号的装置及其方法。本发明包括：当将第二编译方案应用于当前帧时，通过音频处理装置接收窗口类型信息，所述窗口类型信息表示多个窗口当中的用于当前帧的特定窗口；并且根据窗口类型信息将当前窗口应用于当前帧，其中，当将第一编译方案应用于先前帧时，所述多个窗口是由短窗口、第一过渡窗口、第二过渡窗口组成的，其中，短窗口具有宽度是N/8的至少一个上升线，并且第一过渡窗口和第二过渡窗口具有宽度是N/4的上升线（其中N是帧长）。
【专利说明】一种处理音频信号的方法和装置
[0001]本申请是2012年3月23日提交的国际申请日为2010年7月27日、申请号为201080042540.6 (PCT/KR2010/004918)的，发明名称为“一种处理音频信号的方法和装置”专利申请的分案申请。
【技术领域】
[0002]本发明涉及一种用于对音频信号进行处理的装置以及其方法。虽然本发明适用于广泛的应用范围，但是其尤其适用于对音频信号进行编码或解码。
【背景技术】
[0003]通常，基于音频特征的编译方案被应用于诸如音乐信号这样的音频信号，而基于语音特征的编译方案被应用于语音信号。

【发明内容】

[0004]技术问题
[0005]然而，如果将规定的编译方案应用于在其中音频和语音特征相互混合的信号，那么音频编码效率被降低或者音质被恶化。
[0006]技术方案
[0007]因此，本发明是指用于对音频信号进行处理的装置及其方法，其基本上可消除由于现有技术的局限性和缺点所造成的一个或多个问题。
[0008]本发明的目的是提供一种用于对音频信号进行处理的装置及其方法，通过其可将至少两种编译方案中的一个应用于一个帧或子帧。
[0009]本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法，通过其在将不同编译方案应用于包括一系列帧的音频信号的每个帧或子帧的过程中，可解决由于与每个编译方案相对应的窗口形状的不对称所产生的不匹配。
[0010]本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法，通过其可在矩形窗口和非矩形窗口相互接触时，消除混叠等等。
[0011]本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法，通过其，如果频域方案所应用的帧跟在线性预测域方案所应用的帧之后，则可跳过用于对窗口长度差进行补偿的窗口传输。
[0012]本发明的另一个目的是提供一种用于对音频信号进行处理的装置及其方法，通过其以根据随后帧的编译方案来对与当前帧相对应的窗口类型进行转换的方式，可解决由于窗口形状的不对称所导致的不匹配。
[0013]本发明的进一步目的是提供一种用于对音频信号进行处理的装置和方法，通过其以根据先前帧是否是频域方案的帧来有选择地应用长期预测的方式，可提高线性预测域方案的帧中的比特效率。
[0014]将在随后的描述中对本发明的附加特征和优点进行阐述，并且其部分地可从该描述显而易见地得知，或者从本发明的实施中学习到。通过所写的描述和其权利要求以及附图中所指出的特定结构可实现并获得本发明的目的及其它优点。
[0015]为了实现这些及其它优点，并且根据本发明的目的，如具体体现且广泛描述地，提供了一种用于处理音频信号的方法，其包括:通过音频处理装置接收音频信号，所述音频信号包括以矩形编译方案编码的第一块的第一数据，以及以非矩形编译方案编码的第二块的第二数据；接收与第二块相对应的补偿信号；利用第一数据估计混叠部分的预测；根据第二数据、补偿信号、以及混叠部分的预测来获得用于第二块的重建信号。
[0016]根据本发明，矩形编译方案以矩形窗口来编码或解码，非矩形编译方案以非矩形窗口来编码或解码。
[0017]根据本发明，根据校正部分以及混叠部分的误差来产生补偿信号，校正部分对应于和矩形窗口与非矩形窗口之间的不对称有关的差异，混叠部分的误差对应于混叠部分和混叠部分的预测之间的差异。
[0018]根据本发明，混叠部分对应于第一块和用于非矩形编译方案的非矩形窗口之间的
重叠部分。
[0019]根据本发明，估计预测包括:根据矩形窗口方案利用第一块的第一数据来产生用于第一块的输出信号；利用用于第一块的输出信号以及非矩形窗口来获得混叠部分的预测。
[0020]根据本发明，重建信号近似于以矩形窗口处理的信号，该矩形窗口与用于非矩形编译方案的非矩形窗口不同。
[0021]根据本发明，获得重建信号包括:对第二数据进行逆频率变换以产生时域第二信号；对补偿信号进行逆频率变换以产生时域补偿信号；通过将时域补偿信号添加到时域第二信号和混叠部分的预测，而获得重建信号。
[0022]根据本发明，第一块与巾贞和子巾贞中的一个相对应，并且第二块与巾贞和子巾贞中的一个相对应。
[0023]为了进一步实现这些及其它优点，并且根据本发明的目的，提供一种用于处理音频信号的装置，其包括:解复用器，其接收音频信号，所述音频信号包括以矩形编译方案编码的第一块的第一数据，以及以非矩形编译方案编码的第二块的第二数据，并且用于接收与第二块相对应的补偿信号；矩形解码单元，用于利用第一数据估计混叠部分的预测；以及非矩形解码单元，用于根据第二数据、补偿信号、以及混叠部分的预测来获得用于第二块的重建信号。
[0024]根据本发明，矩形编译方案以矩形窗口来编码或解码，非矩形编译方案以非矩形窗口来编码或解码。
[0025]根据本发明，根据校正部分以及混叠部分的误差来产生补偿信号，校正部分对应于和矩形窗口与非矩形窗口之间的不对称有关的差异，混叠部分的误差对应于混叠部分和混叠部分的预测之间的差异。
[0026]根据本发明，混叠部分对应于第一块与用于非矩形编译方案的非矩形窗口之间的
重叠部分。
[0027]根据本发明，矩形解码单元被配置成:根据矩形窗口方案，利用第一块的第一数据来产生用于第一块的输出信号；并且利用用于第一块的输出信号和非矩形窗口来获得混叠部分的预测。
[0028]根据本发明，重建信号近似于以矩形窗口处理的信号，该矩形窗口与用于非矩形编译方案的非矩形窗口不同。
[0029]根据本发明，非矩形解码单元被配置成:对第二数据进行逆频率变换以产生时域第二信号；对补偿信号进行逆频率变换以产生时域补偿信号；以及通过将时域补偿信号添加到时域第二信号和混叠部分的预测，来获得重建信号。
[0030]根据本发明，第一块与巾贞和子巾贞中的一个相对应，并且第二块与巾贞和子巾贞中的一个相对应。
[0031]为了进一步实现这些及其它优点，并且根据本发明的目的，提供了一种用于处理音频信号的方法，包括:通过音频处理装置接收编译标识信息，所述编译标识信息表示是将第一编译方案还是第二编译方案应用于当前帧；当编译标识信息表示将第二编译方案应用于当前帧时，接收窗口类型信息，该窗口类型信息表示多个窗口当中的用于当前帧的特定窗口；根据窗口类型信息识别出当前窗口是长_起始窗口，其中，长_起始窗口跟在先前帧的仅长窗口之后，其中，长_起始窗口包括平缓的长_起始窗口以及陡峭的长_起始窗口；以及当将第一编译方案应用于随后帧时，将平缓的长_起始窗口应用于当前帧，其中:平缓的长_起始窗口包括带有第一斜坡的下降线，陡峭的长_起始窗口包括带有第二斜坡的下降线，第一斜坡比第二斜坡平缓。
[0032]根据本发明，第一斜坡的宽度等于第二斜坡的宽度的两倍。
[0033]根据本发明，第一斜坡的宽度与N/4 (其中，N是巾贞长)相对应。
[0034]根据本发明，第一斜坡的宽度与256个抽样相对应,并且其中,第一斜坡的宽度等于长_起始窗口的长度的1/8。
[0035]根据本发明，仅长窗口是水平对称，并且长_起始窗口是水平不对称，长_起始窗口在右半边具有零部分。
[0036]根据本发明，带有第一斜坡或第二斜坡的下降线的中心点在距长_起始窗口的起始点的3N/2距离处(其中N是帧长)。
[0037]根据本发明，第一编译方案基于频域，并且第二编译方案基于线性预测域。
[0038]为了进一步实现这些及其它优点，并且根据本发明的目的，提供了一种用于处理音频信号的装置，其包括:解复用器，用于通过音频处理装置接收编译标识信息，所述编译标识信息表示是将第一编译方案还是第二编译方案应用于当前帧，并且当编译标识信息表示将第二编译方案应用于当前帧时，接收窗口类型信息，该窗口类型信息表示多个窗口当中的用于当前帧的特定窗口；第二编译单元，用于根据窗口类型信息识别出当前窗口是长_起始窗口，其中，长_起始窗口跟在先前帧的仅长窗口之后，其中，长_起始窗口包括平缓的长_起始窗口以及陡峭的长_起始窗口，并且当将第一编译方案应用于随后帧时，将平缓的长_起始窗口应用于当前帧，其中:平缓的长_起始窗口包括带有第一斜坡的下降线，陡峭的长_起始窗口包括带有第二斜坡的下降线，第一斜坡比第二斜坡平缓。
[0039]根据本发明，第一斜坡的宽度等于第二斜坡的宽度的两倍。
[0040]根据本发明，第一斜坡的宽度与N/4 (其中N是当前帧的长度)相对应。
[0041]根据本发明，第一斜坡的宽度与256个抽样相对应,并且其中,第一斜坡的宽度等于长_起始窗口的长度的1/8。[0042]根据本发明，仅长窗口是水平对称，并且长_起始窗口是水平不对称，长_起始窗口在右半边具有零部分。
[0043]根据本发明，带有第一斜坡或第二斜坡的下降线的中心点在距长_起始窗口的起始点的3N/2距离处(其中N是帧长)。
[0044]根据本发明，第一编译方案基于频域，并且第二编译方案基于线性预测域。
[0045]为了进一步实现这些及其它优点并且根据本发明的目的，提供了一种用于处理音频信号的方法，其包括:通过音频处理装置接收音频信号，所述音频信号包括第一块的第一数据以及第二块的第二数据；接收与第二块相对应的补偿信号；根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号，其中当以矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第一斜坡的上升线，其中，第一斜坡比第二斜坡平缓。
[0046]根据本发明，当以非矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第二斜坡的上升线。
[0047]根据本发明，当过渡窗口类别包括长_停止(long_stop)窗口和停止_起始(stop_start)窗口时，长_停止窗口和停止_起始窗口是水平不对称的，并且在左半边具有零部分。
[0048]根据本发明，当以矩形编译方案对第一数据进行编码时，接收补偿信号。
[0049]根据本发明，根据与矩形窗口与非矩形窗口之间的不对称有关的差异，以及混叠部分与混叠部分的预测之间的差异中的至少一个差异，产生补偿信号。
[0050]为了进一步实现这些及其它优点，并且根据本发明的目的，提供一种用于处理音频信号的装置，其包括:解复用器，用于接收音频信号，所述音频信号包括第一块的第一数据以及第二块的第二数据，并且用于接收与第二块相对应的补偿信号；非矩形解码单元，用于根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号，其中当以矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第一斜坡的上升线，其中，第一斜坡比第二斜坡平缓。
[0051]根据本发明，当以非矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第二斜坡的上升线。
[0052]根据本发明，当过渡窗口类别包括长_停止窗口和停止_起始窗口时，长_停止窗口和停止_起始窗口是水平不对称的，并且在左半边具有零部分。
[0053]根据本发明，当以矩形编译方案对第一数据编码时，接收补偿信号。
[0054]根据本发明，根据与矩形窗口和非矩形窗口之间的不对称有关的差异，以及混叠部分与混叠部分的预测之间的差异中的至少一个差异，产生补偿信号。
[0055]为了进一步实现这些及其它优点，并且根据本发明的目的，提供一种用于处理音频信号的方法，包括:通过音频处理装置接收音频信号，所述音频信号包括第一块的第一数据以及第二块的第二数据；接收与第二块相对应的补偿信号；根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号，其中当以矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第一斜坡的上升线，其中，第一斜坡比第二斜坡平缓。
[0056]根据本发明，当以非矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第二斜坡的上升线。
[0057]根据本发明，过渡窗口类别包括长_停止窗口和停止_起始窗口，并且长_停止窗口和停止_起始窗口是水平不对称的，并且在左半边具有零部分。
[0058]根据本发明，当以矩形编译方案对第一数据编码时，接收补偿信号。
[0059]根据本发明，根据与矩形窗口和非矩形窗口之间的不对称有关的差异，以及混叠部分与混叠部分的预测之间的差异中的至少一个差异，产生补偿信号。
[0060]为了进一步实现这些及其它优点，并且根据本发明的目的，提供一种用于处理音频信号的装置，其包括:解复用器，用于接收音频信号，所述音频信号包括第一块的第一数据以及第二块的第二数据，并且用于接收与第二块相对应的补偿信号；非矩形解码单元，用于根据第二数据、补偿信号、以及第二块的窗口获得用于第二块的重建信号，其中，当以矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第一斜坡的上升线，其中，第一斜坡比第二斜坡平缓。
[0061]根据本发明，当以非矩形编译方案对第一数据编码，并且第二块的窗口属于过渡窗口类别时，第二块的窗口具有带有第二斜坡的上升线。
[0062]根据本发明，过渡窗口类别包括长_停止窗口和停止_起始窗口时，长_停止窗口和停止_起始窗口是水平不对称的，并且在左半边具有零部分。
[0063]根据本发明，当以矩形编译方案对第一数据编码时，接收补偿信号。
[0064]根据本发明，根据与矩形窗口和非矩形窗口之间的不对称有关的差异，以及混叠部分与混叠部分的预测之间的差异中的至少一个差异，产生补偿信号。
[0065]为了进一步实现这些及其它优点，并且根据本发明的目的，提供了一种用于处理音频信号的方法，其包括:当将第二编译方案应用于当前帧时，通过音频处理装置接收窗口类型信息，所述窗口类型信息表示多个窗口当中的用于当前帧的特定窗口；并且根据窗口类型信息将当前窗口应用于当前帧，其中，当将第一编译方案应用于先前帧时，所述多个窗口是由短窗口、第一过渡窗口、第二过渡窗口组成的，其中，短窗口具有宽度是N/8的至少一个上升线，并且第一过渡窗口和第二过渡窗口具有宽度是N/4的上升线(其中N是帧长)。
[0066]根据本发明，短窗口、第一过渡窗口、以及第二过渡窗口的长度是2N。
[0067]根据本发明，短窗口、第一过渡窗口、以及第二过渡窗口的左半边与1024个抽样相对应。
[0068]根据本发明，当前窗口与先前窗口之间的交叉点在距当前窗口的起始的N/2距离处。
[0069]根据本发明，第一过渡窗口在右半边不具有零部分，第二过渡窗口在右半边具有零部分，短窗口具有重叠在一起的多个短部分，并且短部分具有上升线和下降线。
[0070]为了进一步实现这些及其它优点，并且根据本发明的目的，提供了一种用于处理音频信号的方法，其包括:通过音频处理装置接收音频信号，所述音频信号包括以第一编译方案编码的当前帧以及以第二编译方案编码的随后帧；接收子编译标识信息，所述子编译标识信息表示以矩形编译方案或非矩形编译方案对当前帧的至少一个块进行编码；当子编译标识信息表示以非矩形编译方案对当前帧的至少最后块进行编码时，根据用于随后帧的随后窗口是否是短窗口，来确定用于当前窗口的包括第一形状和第二形状的窗口形状；将具有所确定的窗口形状的当前窗口应用于当前帧，其中:第一形状具有带有第一斜坡的下降线，第二形状具有带有第二斜坡的下降线，并且第一斜坡比第二斜坡平缓。
[0071]根据本发明，第一斜坡的宽度与256个抽样或N/4相对应，并且第二斜坡的宽度与128个抽样或N/8 (N是帧长)相对应。
[0072]根据本发明，当前窗口与随后窗口之间的交叉点在距随后窗口的起始的N/2距离处。
[0073]根据本发明，第一斜坡与非短窗口中的上升斜坡的斜坡相匹配，并且第二斜坡与短窗口中的上升斜坡的斜坡相匹配。
[0074]为了进一步实现这些及其它优点，并且根据本发明的目的，提供了一种用于处理音频信号的装置，其包括:解复用器，用于当将第二编译方案应用于当前帧时接收窗口类型信息，所述窗口类型信息表示多个窗口当中的用于当前帧的特定窗口；第二编译单元，用于根据窗口类型信息将当前窗口应用于当前帧，其中，当将第一编译方案应用于先前帧时，所述多个窗口是由短窗口、第一过渡窗口、第二过渡窗口组成的，其中，短窗口具有宽度是N/8的至少一个上升线，并且第一过渡窗口和第二过渡窗口具有宽度是N/4的上升线(其中N是中贞长)。
[0075]根据本发明，短窗口、第一过渡窗口、以及第二过渡窗口的长度是2N。
[0076]根据本发明，短窗口、第一过渡窗口、以及第二过渡窗口的左半边与1024个抽样相对应。
[0077]根据本发明，当前窗口与先前窗口之间的交叉点在距当前窗口的起始的N/2距离处。
[0078]根据本发明，第一过渡窗口在右半边不具有零部分，第二过渡窗口在右半边具有零部分，短窗口具有重叠在一起的多个短部分，并且短部分具有上升线和下降线。
[0079]为了进一步实现这些及其它优点，并且根据本发明的目的，提供了一种用于处理音频信号的装置，其包括:解复用器，用于接收音频信号，所述音频信号包括以第一编译方案编码的当前帧以及以第二编译方案编码的随后帧，并且用于接收子编译标识信息，所述子编译标识信息表示以矩形编译方案或非矩形编译方案对当前帧的至少一个块进行编码；第一编译单元，用于当子编译标识信息表示以非矩形编译方案对当前帧的至少最后块进行编码时，根据用于随后帧的随后窗口是否是短窗口，来确定用于当前窗口的包括第一形状和第二形状的窗口形状；将具有所确定的窗口形状的当前窗口应用于当前帧，其中:第一形状具有带有第一斜坡的下降线，第二形状具有带有第二斜坡的下降线，并且第一斜坡比第二斜坡平缓。
[0080]根据本发明，第一斜坡的宽度与256个抽样或N/4相对应，并且第二斜坡的宽度与128个抽样或N/8 (N是帧长)相对应。
[0081]根据本发明，当前窗口与随后窗口之间的交叉点在距随后窗口的起始的N/2距离处。
[0082]根据本发明，第一斜坡与非短窗口中的上升斜坡的斜坡相匹配，并且第二斜坡与短窗口中的上升斜坡的斜坡相匹配。
[0083]应该理解的是先前的一般描述和随后的详细说明是示例性和说明性的，并且其被用于提供对所要求的本发明的进一步说明。
[0084]有益效果[0085]因此，本发明提供以下效果或优点。
[0086]首先，本发明对诸如由于窗口间不对称(例如，矩形窗口与非矩形窗口之间不对称)等所引起的混叠这样的缺点进行补偿，从而显著改善音频信号的音质。
[0087]其次，当应用了用于对混叠等等进行补偿的方案时，矩形窗口与非矩形窗口之间100%重叠变得不必要。因此，非矩形窗口可保持具有平缓斜坡的下降线。
[0088]第三，本发明适用于具有包含平缓斜坡的下降线的非矩形窗口，由此同类窗口(homogeneous window)(例如，非矩形窗口)之间的交叉点与异类窗口(heterogeneouswindow)(例如，非矩形窗口和矩形窗口)之间的交叉点相匹配。
[0089]第四，因为同类窗口的交叉点与异类窗口的交叉点相匹配，因此用于对窗口长度差进行补偿的过渡窗口变得不必要，并且第一编译方案(例如，线性预测域方案)与第二编译方案(例如，频域方案)之间的直接过渡成为可能。
[0090]第五，因为直接过渡成为可能，因此可应用适用于相应块的音频信号特征的窗口，而无需使用用于解决不匹配的窗口。因此，可显著地提高音质。
[0091]第六，因为与非矩形窗口类型相对应的窗口的形状根据短窗口是存在于先前块还是存在于随后块而变，因此满足TDAC条件。因此，可提闻首质。
【专利附图】

【附图说明】
[0092]所附附图被包括以提供对本发明进一步了解，并纳入且构成了该说明书的一部分，所述附图对本发明的实施例进行说明并且与该描述一下对本发明的原理进行说明。
[0093]在附图中:
[0094]图1是根据本发明的音频信号处理装置的示意性方框图；
[0095]图2是根据本发明的第一实施例的编码器的方框图；
[0096]图3是根据本发明的第一实施例的解码器的方框图；
[0097]图4是由块单元配置的音频信号的示意图，按每个帧(或子帧)可对其应用不同的编译方案；
[0098]图5是用于过渡到异类编译方案(heterogeneous coding scheme)(即，矩形编译方案和非矩形编译方案)的示意图；
[0099]图6是当矩形窗口和非矩形窗口相互重叠时的特征的示意图；
[0100]图7是校正部分(CP),混叠部分(aliasing part) (AP)、以及未补偿信号的示意图；
[0101]图8是具有对称性(即，TDAC的条件)的非矩形窗口的特征的示意图；
[0102]图9是用于对校正部分和/或混叠部分进行补偿的补偿信号的示例的示意图；
[0103]图10是图6所示的异类窗口(S卩，矩形窗口和非矩形窗口)的组合中的非矩形窗口的示例的示意图；
[0104]图11是矩形窗口之后的矩形窗口被重叠的情况的示意图；
[0105]图12是根据本发明的第二实施例的编码器的方框图；
[0106]图13是根据本发明的第二实施例的解码器的方框图；
[0107]图14是根据是否将矩形编译方案应用于先前块的过渡窗口(transitionwindow)的形状的示意图；[0108]图15是根据本发明的第三实施例的编码器的方框图；
[0109]图16是根据本发明的第三实施例的解码器的方框图；
[0110]图17是与第一编译方案窗口或第二编译方案窗口(短窗口)相结合的长_起始窗口的不意图；
[0111]图18是与第一编译方案窗口或第二编译方案窗口(例如，长_停止窗口)相重叠的短窗口的示意图；
[0112]图19是根据本发明的第四实施例的编码器的方框图；
[0113]图20是根据本发明的第四实施例的解码器的方框图；
[0114]图21是窗口间路径或过渡的表格；
[0115]图22是过渡到第一编译方案中的长_停止窗口的情况的示意图；
[0116]图23是过渡到第一编译方案中的短窗口的情况的示意图；
[0117]图24是第一编译方案窗口与新形状的短窗口相重叠的情况的示意图；
[0118]图25是根据本发明的第五实施例的编码器的方框图；
[0119]图26是根据本发明的第六实施例的解码器的方框图；
[0120]图27是与第一编译方案(例如TCX)相对应的窗口与短窗口(或长_停止窗口)相重置的情况的不意图；
[0121]图28是与在形状I至形状4之内变化的第一编译方案当中的非矩形方案相对应的窗口的表格；
[0122]图29是根据本发明的第六实施例的编码器的方框图；
[0123]图30是根据本发明的第六实施例的解码器的方框图；
[0124]图31是每个块(帧或子帧)的编译方案的示例的示意图；
[0125]图32是用于与长期预测有关的信号波形的一个示例的示意图；
[0126]图33是根据本发明的实施例的编码器所应用到的音频信号编码装置的示例的示意图；
[0127]图34是根据本发明的实施例的编码器所应用到的音频信号解码装置的示例的示意图；
[0128]图35是实现根据本发明的一个实施例的音频信号处理装置的产品的示意性方框图；以及
[0129]图36是用于对实现根据本发明的一个实施例的音频信号处理装置的产品之间的关系进行说明的示意图。
【具体实施方式】
[0130]在随后的描述中，对本发明的附加特征和优点进行阐述，并且其部分可从该描述中显而易见地得知，或者可以从本发明的实施中学习到。特别地，通过在所写描述及其权利要求以及附图中所指出的结构可实现并获得本发明的目的及其他优点。
[0131]为了实现这些和其他优点，并且根据本发明的目的，如具体体现和广泛描述地，
[0132]为了进一步实现这些及其他优点，并且根据本发明的目的，
[0133]很清楚的是先前的一般描述和下面的详细描述是示例性和说明性的，并且其旨在提供对所要求的本发明的进一步说明。[0134]本发明的模式
[0135]现在对本发明的优选实施例进行详细地参考，在附图中示出了所述优选实施例的示例。首先，不将在该说明书和权利要求中所使用的术语或词语解释为局限于一般或字典含义，并且应解释为与基于下述原理的本发明的技术思想相匹配的含义和概念，所述原理即就是发明人能够适当地定义术语的概念，以最好地方式对发明人的发明进行描述。该公开中所公开的实施例以及附图中所示的配置仅是一个优选实施例，并且不表示本发明的所有技术思路。因此，很清楚的是本发明覆盖本发明的修改和变化，只要其落入在提交该申请时的所附权利要求及其等效体的范围之内。
[0136]根据本发明，应将未在该说明书中所公开的术语解释为与本发明的技术思路相匹配的以下含义和概念。具体地说，可将“编译(coding)”有选择地解释为“编码”或“解码”，并且该公开中的“信息”是通常包括值、参数、系数、元素等等的术语，并且其含义可偶而解释为不同，本发明并不受到此限制。
[0137]在该公开中，在广义上，音频信号在概念上与视频信号有区别，并且表示可听觉上识别的各种信号。从狭义上讲，音频信号是指不具有或具有少量语音特征的信号。应在广义上对本发明的音频信号进行解释。然而，在用作与语音信号加以区分的情况下，本发明的音频信号可被理解为狭义上的音频信号。
[0138]虽然规定编译(coding)仅是编码，但是可以将其解释为包括编码和解码。
[0139]图1是根据本发明的音频信号处理装置的示意性方框图。
[0140]参考图1，根据本发明的音频信号处理装置的编码器100包括一对编译单元(SP，矩形编译单元120R和非矩形编译单元120N，或第一编译单元120-1和第二编译单元120-2)并且能够进一步包括信号分类器110和复用器130。
[0141]在这种情况下，矩形编译单元120R是应用了矩形编译方案的编译单元。尤其是，矩形编译方案是指应用了具有矩形形状的窗口的编译方案，而非矩形编译方案是指应用了具有非矩形形状的窗口的编译方案。
[0142]此外，第一和第二编译单元120-1和120-2是用于分别根据不同域来应用第一和第二编译方案的单元。在这种情况下，域可以包括线性预测域、频域、时域等等。例如，第一编译方案是基于线性预测域的编译方案，并且第二编译方案是基于频域的编译方案。并且，随后对根据域类型的定义和性质进行详细地描述。
[0143]编码器100可包括三个特定编译单元(B卩，A编译单元120A、B编译单元120B、以及C编译单元120C)。例如图1所示，应用于A编译单元120A的A编译方案是矩形编译方案，并且与第一编译方案相对应。应用于B编译单元120B的B编译方案是非矩形编译方案，并且与第一编译方案相对应。应用于C编译单元120C的C编译方案是非矩形编译方案，并且与第二编译方案相对应。如在先前描述中所提到的，图1所示的图仅仅是示例性的，本发明并不受到此限制。为了使以下描述清楚和方便起见，图1所示的示例用作参考。
[0144]或者，A，B、C编译方案分别与ACELP (代数码激励线性预测)、TCX (变换码激励)、以及MDCT (修正离散傅里叶变换)相对应，但是本发明并不受到此限制。随后参考矩形编译方案、非矩形编译方案、第一编译方案、以及第二编译方案的细节对A、B、C编译方案进行详细地描述。
[0145]信号分类器110对输入音频信号的特征进行分析，并且此后根据所分析的特征来确定将上述至少两个编译方案中的哪一个应用到当前帧或子帧。根据该确定，产生编译方案信息。如在先前描述中提到的，至少两个编译方案与矩形和非矩形编译方案、第一和第二编译方案、或者A至C编译方案相对应，但是本发明并不受到此限制。
[0146]例如，在图1所示的示例的情况下，编译方案信息可包括编译标识信息和子编译标识信息(subcoding identification information)。在这种情况下,编译标识信息表示用于当前帧的第一编译方案或第二编译方案。在当前帧与第一编译方案相对应的情况下，子编译标识信息是表示对于每个帧或子帧而言第一编译方案是A编译方案或还是B编译方案的信息。
[0147]此后，信号分类器110产生编译方案信息，并且此后将其递送到复用器130。
[0148]同时，在信号分类器110的控制之下，对每个帧或子帧的输入信号进行分类，并且此后将其输入到矩形/非矩形编译单元120R/120N或第一 /第二编译单元120-1/120-2。在图1所示的示例的情况下，将输入信号输入到A至C编译单元102A至120C中的一个。
[0149]在图1所示的示例的情况下，A至C编译单元120A至120C中的每一个将由相应编译方案对输入信号进行编码所产生的数据递送到复用器120。
[0150]复用器130通过对编译方案信息以及作为通过相应单元执行编译的结果的数据进行复用而至少产生比特流。
[0151]同时，根据本发明的音频信号处理装置的解码器200包括至少两个解码单元220R和220N，或220-1和220-2，并且可进一步包括解复用器210。在这种情况下，至少两个解码单元是在解码方面与先前的至少两个编译单元相对应，并且分别包括矩形解码单元220R和非矩形解码单元220N (或第一解码单元220-1和第二解码单元220-2)的部件。按照与编码器100相似的方式，所述至少两个解码单元可分别包括A至C解码单元220A至220C。
[0152]矩形解码单元220R所应用的矩形编译方案和非矩形解码单元220N所应用的非矩形编译方案与在先前描述中所说明的那些几乎一样。并且，第一解码单元220-1所应用的第一编译方案和第二解码单元220-2所应用的第二编译方案与在先前描述中所说明的那些几乎一样。如在先前描述中所提到的，如图1所示，在包括A至C解码单元220A至220C的情况下，随后对相应编译单元所使用的A至C编译方案进行详细地描述。
[0153]之后，解复用器210从至少一个比特流中提取编译方案信息以及每个帧或子帧的数据。根据编译方案信息，将所提取的数据转发到相应解码单元220A，220B，或220C。最终，每个解码单元通过相应解码方案对该数据进行解码，以产生输出音频信号。
[0154]在下面的描述中，依次对根据图1所示的本发明的音频信号处理装置的实施例进行描述。
[0155]图2是根据本发明的第一实施例的编码器的方框图，并且图3是根据本发明的第一实施例的解码器的方框图。尤其是，第一实施例涉及用于对诸如当矩形编译方案所编码的块与非矩形编译方案所编码的块相接触时的混叠等等这样的缺陷进行补偿的实施例。
[0156]参考图2，像图1所示的先前编码器100 —样，根据第一实施例的编码器100A包括矩形编译单元120R和非矩形编译单元120N，并且可进一步包括复用器130。尤其是，矩形编译单元120R包括矩形方案编译部分122和矩形方案合成(synthesis)部分124。并且，非矩形编译单元120N包括补偿信息产生部分128，并且可进一步包括非矩形方案编译部分126。[0157]首先，通过以块为单元对输入信号进行划分，并且此后对于每个块将其输入到矩形编译单元120R或非矩形编译单元120N。在这种情况下，块是与帧或子帧相对应的单元。
[0158]在下面的描述中，参考图4和图5对每帧的编译方案(例如，矩形编译方案、非矩形编译方案)进行检查，并且参考图6至11对用于对由于过渡到异类编译方案(例如，矩形编译方案或非矩形编译方案)所产生的缺陷(例如，混叠等等)进行补偿的各种方法进行描述。优先描述图4至11，并且再描述图2和图3所示的部件。
[0159]图4示出了音频信号的配置单元，以及对于每个配置单元而言的编译方案。
[0160]参考图4，可以观察到音频信号被配置成具有包括第i帧(帧i)和第(i+Ι)帧(帧i+Ι)的一系列帧。尤其是，可认识到单个帧包括多个子帧(例如4个子帧)。此外，图4示出了不同编译方案适用于每个帧或子帧。尤其是，图4示出了存在3种编译方案[即，A编译方案(ACELP)、B编译方案(TCX)、以及C编译方案(FD)]的示例。例如，帧可被配置成具有多个子帧(例如，4个子帧)。并且，如图4 (A)所示的第i帧所示，A编译方案(例如ACELP)可应用到每个子帧。如图4 (B)第i帧以及图4 (D)所示的第i帧和第(i+Ι)帧所示，B编译方案(例如TCX)可应用到I子帧、2个连续子帧、以及4个连续子帧(即，一帧)。如图4(A)和图4 (B)所示，C编译方案(例如FD)不通过子巾贞单元来应用，而是通过巾贞单元来应用，但是本发明并不受到此限制。
[0161]图5是过渡到异类编译方案(即，矩形编译方案和非矩形编译方案)的示意图。
[0162]参考图5 (A-1)，在第N块中过渡到矩形编译方案并且在第(N+1)块中过渡到非矩形编译方案。相反地，参考图5 (A-2)，在第N块中过渡到非矩形编译方案并且在第(N+1)块中过渡到矩形编译方案。在这种情况下，块与在先前描述中所说明的帧或子帧相对应。也就是说，第N或第(N+1)帧或子帧可包括帧或子帧。尤其是，总共4种组合(例如，帧-帧、帧-子帧、子帧-帧、以及子帧-帧)是可能的。
[0163]从图4 (A)至图4 (D)所示的先前情况可发现如图5 (A_l)所示的从矩形编译方案过渡到非矩形编译方案的示例。
[0164]如在参考图1的先前描述中所提到的，A编译方案(ACELP)与矩形编译方案相对应，而B编译方案(TCX)和C编译方案(FD)中的每一个与非矩形编译方案相对应。从A编译方案(ACELP)过渡到B编译方案(TCX)或C编译方案(FD)的情况(即图5 (A-1))与图5(B-1)至图5 (B-4)所示的虚线所表示的部分中的一个相对应。
[0165]相反地，从非矩形编译方案过渡到矩形编译方案的情况[即，图5 (A-2)]没有在图5 (B-1)至图5 (B-4)中表示，S卩，从B编译方案(TCX)或C编译方案(FD)过渡到A编译方案(ACELP)的情况没有在图5 (B-1)至图5 (B-4)中表示，但是可从两个或三个位置(例如，图5 (B-2)中的第I块和第2块等等)中发现。
[0166]因此，由于矩形窗口和非矩形窗口彼此接触的位置的不对称，可产生诸如混叠等等这样的缺陷。在下面的描述中，参考图6至9对用于对该缺陷进行补偿的方法进行描述。
[0167]图6是当矩形窗口和非矩形窗口彼此重叠时的特征的示意图。图7是校正部分(CP)、混叠部分(AP)、以及未补偿信号的示意图。特别地，图6与矩形窗口后面是非矩形窗口的情况相对应。然而，随后在该公开中还对按照非矩形窗口与随后矩形窗口相重叠的方式，使得非矩形窗口之后跟随矩形窗口的情况进行说明。
[0168]参考图6，可以观察到矩形窗口和非矩形窗口彼此部分重叠。与包括块A至F的音频信号相关，将矩形窗口应用于块B和块C上，并且将非矩形窗口应用于块C至F上。尤其是，矩形窗口和非矩形窗口在块C处彼此重叠。图6 (a)至图6 (d)示出了由于依次将窗口化(windowing)、折叠(folding)、展开(unfolding)、以及窗口化应用于块A至F上所造成的结果。在这种情况下，为了应用与非矩形窗口相关的时域混叠消除(TDAC)，依次将窗口化、折叠、展开、以及窗口化应用到相应的块上。
[0169]参考图6 (a)，将矩形窗口应用到块B和块C的每一个上(B卩，虚线块)并且将非矩形窗口应用于到块C至F的每一个上。C (L1)表示由于将非矩形窗口的部分L1S用于块C上所造成的结果。并且，D (L2)表示由于将非矩形窗口的部分L2S用到块D上所造成的结果。随后，如果对非矩形窗口应用结果执行折叠，那么将导致图6 (b)所示的块。在这种情况下，Er，Dr等等是指对相应块执行折叠，并且此后参考块界限使折叠的块进行反转。之后，执行展开以导致图6 (c)所示的示意图。最终，如果将非矩形窗口应用到展开块上，那么产生如图6 (d)所示的相同结果。
[0170]尤其是，可如下表示与原始信号的块D相对应的未补偿信号，即，作为仅传送数据所获取的信号。
[0171][公式I]
[0172]未补偿信号=(-Cr(L^r+D(L2))(L2)
[0173]在公式I中，“C”表示与块C相应的数据，“D”表示与块D相对应的数据，“r”表示反转，“L/’表示由于应用非矩形窗口的部分L1所造成的结果，并且“L2”表示由于应用非矩形窗口的部分L2所造成的结果。
[0174]在下面的描述中，参考图7至9对用于对未补偿信号进行补偿以变为与原始信号相同或相似的方法进行描述。`首选，参考图7，示出了与公式I相对应的未补偿信号。
[0175]同时，非矩形窗口具有对称性。如下对如图8所示的非矩形窗口的特征进行说明。图8是具有对称性(即，TDAC的条件)的非矩形窗口的特征的示意图。
[0176][公式2]
[0177]LpRi2=I,其中 i=l 或 2
[0178]Llr=R2
[0179]L2r=R1
[0180]在公式2中，”表示左边第一部分，“L2”表示左边第二部分，“R/’表示右边第一部分，并且“R2”表示右边第二部分。
[0181]因此，如果应用非矩形窗口的上述特征，那么可将公式I归纳成以下。
[0182][公式3]
[0183]未补偿信号=(-Cr(L1) r+D (L2)) (L2)=D (L2) [Cr (R2L2)(因为 Llr=R2)
[0184]因此，为了使未补偿信号变成等于原始信号D，即，为了执行理想补偿，因此需要的信号如图7所示，并且可以表示如下。
[0185][公式4-1]
[0186]理想补偿的所需信号
[0187]=原始信号-未补偿信号
[0188]=D- (D (L2) [Cr (R2L2))
[0189]同时，利用在公式2中所示的特征，可将公式4-1归纳成以下。[0190][公式4-2]
[0191]理想补偿的所需信号
[0192]=D (R2) 2+C (R2L2)(因为 1_L22=R22)
[0193]在公式4-2中，第一个项(D (R2)2)与校正部分相对应，并且第二个项(Cr (R2L2))被称为混叠部分。
[0194]如果同类窗口(例如，非矩形窗口和非矩形窗口)彼此重叠，那么校正部分CP和混叠部分AP与按照通过执行时域混叠消除(TDAC)而增加的方式而将被删除的部分相对应。换句话说，因为异类窗口(即，矩形窗口和非矩形窗口)彼此重叠，则校正部分CP和混叠部分AP是残余误差而没有被消除。
[0195]具体地说，校正部分CP与非矩形窗口(具体地说R2)所应用到的当前块(例如块D)(即，窗口交叉点后面的块)的一部分相对应。并且，混叠部分AP与非矩形窗口(具体地说R2和L2)所应用到的先前块(例如块C)(即，窗口交叉点后面的块)(例如，矩形窗口和非矩形窗口彼此重叠处的块)的一部分相对应。
[0196]同时，因为解码器可利用先前块的数据重建先前块(例如，块C)，因此可利用所重建的先前块产生对混叠部分的预测。这被表示为公式5。
[0197][公式5]
[0198]混叠部分的预测=qCr (R2L2)
[0199]同时，可将作为混叠部分的预测与原始混叠部分之间的差异(或量化误差)的混叠部分的误差表不为公式6。
[0200][公式6]
[0201]混叠部分的误差=er(R2L2)=Cr (R2L2) -qCr (R2L2)
[0202]利用公式5和公式6,将公式4_2归纳为公式7。
[0203][公式7]
[0204]理想补偿的所需信号
[0205]=D (R2) 2+Cr (R2L2) =D (R2)2+ (qCr+er) (R2L2)
[0206]在公式(7)中，D (R2) 2表示校正部分CP，qCr (R2L2)表示混叠部分AP的预测，并且er (R2L2)表示混叠部分的误差。
[0207]因此，如公式7所示，用于理想补偿所需的信号是校正部分CP与混叠部分AP之和。
[0208]在下面的描述中，参考图9对用于对校正部分CP和混叠部分AP进行补偿的三种方法进行说明。
[0209]图9是用于对校正部分和/或混叠部分进行补偿的补偿信号的实施例的示意图。
[0210]参考图9，图9 (A)所示的第一实施例的补偿信号包括校正部分CP和混叠部分的误差，而图9 (B)所示的第二实施例的补偿信号仅包括校正部分CP。根据图9 (B)所示的第三实施例，不将补偿信号发送到解码器，而是通过解码器对校正部分CP和混叠部分AP进行估计。
[0211][公式8-1]
[0212]方法A:补偿信号=D (R2) 2+er (R2L2),其中“D”为重建信号。
[0213]在根据第一实施例的补偿信号的情况下，如在参考公式5的先前描述中所提到的，解码器根据先前块(即，与矩形窗口与非矩形窗口之间的重叠部分相对应的块)的数据可获得对混叠部分AP的预测，而无需从编码器到解码器的传送。即使补偿信号包括校正部分CP和混叠部分的误差，解码器也可产生对混叠部分的预测。因此，可获得用于理想补偿的信号(参照公式7)。根据第一实施例，通过传送误差而不是混叠部分AP本身可节省比特的数目。此外，通过对混叠部分AP的误差进行补偿可获得理想的补偿信号。
[0214]根据第二实施例，补偿信号包括仅与相应校正部分CP相对应的信号。
[0215][公式8_2]
[0216]方法B:补偿信号=D (R2)2，其中，重建信号是D-er (R2L2)0
[0217]如在先前描述中所提到的(或与第一实施例相似)，解码器产生对混叠部分AP的预测，并且此后利用与校正部分CP相对应的补偿信号与预测一起获得补偿的信号。根据第二实施例，因为混叠部分AP的误差保持在补偿信号中，因此重建率(reconstruction rate)或音质可能被恶化。然而，与第一实施例相比，补偿信号的压缩率可以更高地提高。
[0218]根据第三实施例，补偿信号没有被传送，而是解码器估计矫正部分CP和混叠部分AP0
[0219][公式8_3]
[0220]方法C:补偿信号=未传送的、解码器中产生的补偿信号=qCr (L2R2)+D (R2) 2，其中，重建信号是D-er (L2)/(R2)0
[0221]如在先前描述中所提到的(或与第一实施例和第二实施例相似)，解码器可产生对混叠部分AP的预测。同时，可按照对与当前块(例如块D)相对应的信号的窗口形状进行补偿的方式而产生校正部分CP。尤其是，与公式I相似，将利用先前块(qC)的数据所产生的qCr (L2R2)添加到未补偿信号上。此后，通过使D (L2) 2-er (L2R2)除以(L2) 2 (这与将D(R2) 2 加到 D (L2) 2-er (L2R2)上相对应)，产生 D (L2)2_er (L2R2)，获得 D_er (R2) / (L2)。在公式8-3中，没有表示当前块(块D)的量化误差。
[0222]第三实施例的重建率低于第一或第二实施例的重建率。然而，因为第三实施例根本不需要用于传送补偿信号的比特，因此第三实施例的压缩率相当高。
[0223]图10是图6所示的异类窗口(即，矩形窗口和非矩形窗口)的组合中的非矩形窗口的示例的示意图。在非矩形窗口的示例中，如图10 (A)至图10 (C)所示,每个角不是直角而是具有斜坡(slope)的上升线。可将与图10 (A)至图10 (C)相对应的非矩形窗口的形状表不为表格I。
[0224][表格I]
[0225]
【权利要求】
1.一种处理音频信号的方法，包括: 通过音频处理装置接收编译标识信息，所述编译标识信息表示是将第一编译方案还是第二编译方案应用于当前帧；当所述编译标识信息指示向所述当前帧应用所述第二编译方案时，接收窗口类型信息，所述窗口类型信息表示多个窗口当中用于所述当前帧的特定窗口；基于所述窗口类型信息，识别当前窗口是长_起始窗口，其中，所述长_起始窗口跟在先前帧的仅长窗口之后，其中，所述长_起始窗口包括平缓的长_起始窗口以及陡峭的长_起始窗口；以及当所述第一编译方案被应用于随后帧时，将所述平缓的长_起始窗口应用于所述当前帧，其中: 所述平缓的长_起始窗口包括带有第一斜坡的下降线，所述陡峭的长_起始窗口包括带有第二斜坡的下降线，所述第一斜坡比所述第二斜坡平缓。
2.根据权利要求1所述的方法，其中，所述第一斜坡的宽度等于所述第二斜坡的宽度的两倍。
3.根据权利要求1所述的方法，其中，所述第一斜坡的宽度与1/4的帧长相对应。
4.根据权利要求1所述的方法，其中，所述第一斜坡的宽度与256个抽样相对应，并且其中，所述第一斜坡的宽度等于所述长_起始窗口的长度的1/8。
5.根据权利要求1所述的方法，其中，所述仅长窗口是水平对称的，并且所述长_起始窗口是水平不对称的，并且在右半边具有零部分。
6.根据权利要求1所述的方法，其中，带有所述第一斜坡或所述第二斜坡的下降线的中心点在距所述长_起始窗口的起始点3N/2距离处，并且其中，N是帧长。
7.根据权利要求1所述的方法，其中，所述第一编译方案基于线性预测域，并且所述第二编译方案基于频域。
8.一种用于处理音频信号的装置，包括: 解复用器，所述解复用器用于通过音频处理装置接收编译标识信息，所述编译标识信息表示是将第一编译方案还是第二编译方案应用于当前帧，并且，当所述编译标识信息表示将所述第二编译方案应用于所述当前帧时，接收窗口类型信息，所述窗口类型信息表示多个窗口当中用于所述当前帧的特定窗口；第二编译单元，所述第二编译单元用于基于所述窗口类型信息识别当前窗口是长_起始窗口，其中，所述长_起始窗口跟在先如帧的仅长窗口之后，其中，所述长_起始窗口包括平缓的长_起始窗口以及陡峭的长_起始窗口，并且，当所述第一编译方案被应用于随后帧时，将所述平缓的长_起始窗口应用于所述当前帧，其中: 所述平缓的长_起始窗口包括带有第一斜坡的下降线，所述陡峭的长_起始窗口包括带有第二斜坡的下降线，所述第一斜坡比所述第二斜坡平缓。
9.根据权利要求8所述的装置，其中，所述第一斜坡的宽度等于所述第二斜坡的宽度的两倍。
10.根据权利要求8所述的装置，其中，所述第一斜坡的宽度与1/4的帧长相对应。
11.根据权利要求8所述的装置，其中，所述第一斜坡的宽度与256个抽样相对应，并且其中，所述第一斜坡的宽度等于所述长_起始窗口的长度的1/8。
12.根据权利要求8所述的装置，其中，所述仅长窗口是水平对称的，并且所述长_起始窗口是水平不对称的，并且在右半边具有零部分。
13.根据权利要求8所述的装置，其中，带有所述第一斜坡或所述第二斜坡的下降线的中心点在距所述长_起始窗口的起始点3N/2距离处，并且其中，N是帧长。
14.根据权利要求8所述的装置，其中，所述第一编译方案基于线性预测域，并且所述第二编译方案基于频域。
【文档编号】G10L19/02GK103761971SQ201310579014
【公开日】2014年4月30日申请日期:2010年7月27日优先权日:2009年7月27日
【发明者】吴贤午, 姜泓求, 李昌宪, 宋政旭申请人:延世大学工业学术合作社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴贤午;姜泓求;李昌宪;宋政旭
技术所有人：延世大学工业学术合作社
我是此专利的发明人

上一篇：插入用于电子会议的语音命令的制作方法
上一篇：一种用于数据库信息查询的语音查询系统的制作方法