多通道音频数据的重构的制作方法

文档序号：7736283阅读：190来源：国知局

专利名称：多通道音频数据的重构的制作方法
多通道音频数据的重构本发明涉及用于隐蔽重构多通道音频数据中的缺陷空间数据。多通道的音频数据通常至少根据有限数量通道中的空间数据和音频数据(例如单通道的数据)来进行重构。多通道音频数据一般是指具有多个独立的音轨。多个独立的声源可有助于为听众提供环绕声音的感觉(afford)。特别是在家庭影院的应用中，多通道音频数据可包括例如双通道的立体声数据或者六通道的5. 1数据。本发明还可应用在空间音频会议领域，在该应用中，对应于发言者的数据进行空间化处理，从而为听众提供发言者的声音是由特定空间位置产生的感觉。空间数据用于根据更少数量通道的数据(例如单通道数据)来获得多通道的数据。这些空间数据能够例如包括通道间差异度(Inter-pathway level)或ILDs (通道间差异度)、通道间相关性或ICCs (通道间交叉相关性)、通道间延迟或ITDs (通道间时间差异)、通道间的相位差异或IPDs (通道间相位差异)、或者其它相类似的。接收到至少包括单通道数据和空间数据的音频数据可能会有缺陷，S卩，某些数据出现缺失或发生错误。这种缺陷传输的测试可通过CRC(循环冗余校验)编码类型的方法执行。通常，可采用预测数值替换缺陷数值以减少缓解这些缺陷。这些预测数值可根据已知的预测模型确定。有多个预测模型是公知的。例如，可选择任意数值、先前数值、根据先前接收到的音频数据通过线性预测或相似方法确定的数值作为预测数值。当以有缺陷的方式接收单通道数据时，采用单通道的预测数值替换缺陷数值一般都可获得令人较为满意的效果。但是，当以缺陷的方式接收空间数据时，采用预测数值来替换缺陷数值的效果就可能不令人满意。空间数据随时间的强烈变化会使听众产生非常明显的声音源突然移位的感觉。例如，如果缺陷数值替换成对应于空间缺失的任意数值，会产生使听众混乱的 (disruptive)重新回到单声道声音的感觉，尤其是在双声道信号的情况。实际上，在人耳层面的3D空间中可准确回放的双声道的信号通常都对应在空间中相对固定的虚拟声音源。因此，在重构多通道音频数据的过程中就需要更好地隐蔽缺陷空间数据。根据本发明的第一个方面，本发明的目的是提供处理声音数据的方法，其用于至少根据有限数量的通道和空间数据来重构多通道音频数据，所述方法包括检测接收到的帧的空间数据的有效性的步骤。如果该检测显示这些空间数据是有效的，则包括步骤a.空间数值根据多个预测模型的各个模型进行预测；b.选择预测模型，根据预测的空间数值和实际接收到的空间数据来选择预测模型，使得在随后接收到缺陷空间数据的情况中，根据选定的模型预测空间数值，并且使用该预测空间数值来重构多通道音频数据。因此，被认为有效的空间数据可以用于在多个预测模型中选择预测模型，以便在被认为有缺陷的空间数据的接收情况中使用。这样根据内容自适应的方法能以比使用单一预测模型的现有技术更好的方式来减少空间数据的缺陷。专业术语“有限数量的通道”可理解为比多通道数据的通道数量更少的通道数量。例如，有限数量通道的数据可以包括单通道数据。空间数据和常见的接收到的音频数据可由传输通道产生。例如，这些数据可通过互联网接收。或者，接收的音频信号可从存储介质中读取，例如DVD ( “数字通用磁盘”)或其它相类似的。本发明不限制接收的音频数据源。接收的音频数据可以包括编码信号、解复用和/或解码信号、数值或其它相类似的。步骤a和b在接收到有效的帧后进行系统执行。因此，可随时间而采用各种不同的处理。尤其是，当为各个有效帧执行步骤a和b处理时，可在存储器中写入选定的预测模型的标识符，以便在随后接收到缺陷空间数据时，能够迅速获得需应用的预测模型。此外，步骤a和b的执行是根据确定的条件实现，并且这样可能避免执行多余的计算。例如，当认为帧是有效时，则空间数据至少暂时存储在存储器中。步骤a和步骤b 仅在随后接收到的被认为是有缺陷的空间数据时执行(因此根据存储的数据)。因而，当没有必要执行时，这样的方法特别地避免了执行步骤a的预测。根据另一实例，在接收到被认为有效的帧后而系统执行步骤a的预测，同时仅当接收到有缺陷的帧时才执行步骤b (根据存储在存储器中的先前一个或多个帧中的空间数据)。有利的是，在步骤b的过程中，各个预测的空间数值与根据接收到的空间数据的评估数值进行比较。具体地，一方面根据由该模型预测空间数值，以及另一方面根据接收到的空间数据的评估数值，为各个模型计算近似数值。然后选择在预测数值与评估数值之间更合适的近似数值的预测模型。评估数值可以是一个空间数据，例如评估数值可包括ILD。在这样的情况下，在步骤b的过程中，可直接将预测空间数值与接收的空间数据进行比较。或者，评估数值可仅从空间数据中获得。例如，评估数值可包括对帧和确定频带的 ILDs中产生的增益、延迟或者其它相类似。在这样的情况下，在步骤b中将预测的空间数值与根据接收到的空间数值获得的数值进行比较。有利的是，对于至少一种模型，先前预测的空间数值还与对应的评估数值进行比较。因此，选择最适合的内容的预测模型可更合适地执行。例如，有可能使用多个帧中接收到的空间数据，并且进行多个帧的预测数值与评估数值的比较。具体地说，所接收到的一系列帧中的各个帧且对于至少一个模型，有可能根据这个模型来预测空间数值，从而预测一系列的空间数值。该模型一方面可根据所预测的一系列空间数值而另一方面根据一系列帧的数据所评估的一系列数值来计算其近似数值。有利的是，在预测模型选择步骤中，不使用有缺陷的空间数据，从而避免误导这样的选择。此外，还有可能使用例如从同一帧(one the same frame)中接收到的当前空间数据来选择预测模型。数据由于在传输过程中或由数据存储介质的退化(degradations)而产生缺陷。本发明不限制引起这类缺陷的原因。例如，在按等级分层级传输(或称为可扩展编码)的情况下，发送器或传输网络的其它元件可选择不传输数据集，这时在接收到的空间数据中可能会缺失一些数据。空间数据的缺陷特性可根据诸如CRC类型码已知方法进行测试。本发明不限制将选择预测模型的标示符写入存储器的方法。例如，有可能将对应于该模型的程序指令选择性地复制至程序存储器，或在存储器中相当简单地存储模型名，选择性挥发(optionally volatile)。在步骤a的过程中，根据预测模型来执行空间数值的预测，更具体地说，可根据模型来改变用于预测的数据。例如，对于将任意数值分配给空间数值构成的模型，则预测不需要数据。对于重新使用先前的空间数值和/或由先前空间数值的权重构成的模型，则在预测过程中需要使用该先前空间数值。有利的是，步骤a对对应于给定频带的空间数据执行。因此，多个预测可在多个不同的频带中同步进行。实际上，在立体声信号的情况中，多数适合的预测模型的选择可与频率相关可根据考虑的频带来选择不同的预测模型。根据本发明的另一个方面，本发明的目的是提供包括通过处理器执行所述指令时的用于执行上述的方法的指令。根据本发明的另一个方面，本发明的目的是提供用于隐蔽缺陷空间数据的装置。该装置包括可为一个或多个存储器的存储器单元，其用于存储多个指令组(suites of instruction)，且各个指令组对应于预测模型。此外，该装置包括接收空间数据的部件。检测模块可检测通过接收部件接收到的空间数据的有效性。在接收到的空间数据被检测模块测试为有效的情况下，评估模块有可能执行存储在存储器单元中的各组指令来预测空间数值。选择模块有可能根据由评估模块所预测的空间数值和由接收部件所接收到的空间数据来选择预测模型。此外，隐蔽装置还包括预测模块，用于在所接收到的空间数据被测试模块测试为有缺陷时根据由选择模块所选择的模型来预测空间数值。根据本发明的另一方面，本发明的目的是提供用于重构多通道音频数据的装置。该装置包括多通道重构部件，用于至少根据有限数量通道的数据(例如单通道数据)来重构多通道音频数据。该装置还包括上述的隐蔽装置。预测模块用于在接收到的空间数据被测试模块认为有缺陷时向多通道重构部件提供预测的空间数值，以便重构多通道音频数据。用于重构多通道音频数据的装置可集成在处理器或其它包括电脑或HIFI系统类型的装置中，或者其它相类似的。重构装置的不同的硬件部件，例如重构部件，隐蔽装置，测试模块以及其它相类似的，既可以是单独的，也可以是组合的。本发明的其它特性或优点将通过参考下述附图的详细阐述更为明晰，其中-

图1示出了典型的对话编码装置；-图2示出了典型的解码装置，包括根据本发明一个实施例的典型重构装置；-图3示出了根据本发明一个实施例的典型计算方法；
-图4示出了增益典型的可能演变；以及，-图5示出了可执行根据本发明一个方面的计算机程序的装置。相同标示符表示在各个图中表示相同或相似的物体。在附图所示的实例中，多通道音频数据的通道数量确切地为2，但有可能为更多的数量。多个通道的音频数据例如可包括为在6通道中的5.1数据。本发明还可应用于空间音频会议的领域中。具体地说，可参考MPEG环绕标准，它所阐述的树状结构可用于或仿真产生大于两个以上的通道。在所述的实施例中，音频数据以帧或数据包的方式集中分组，并索引为η。图1示出了典型的编码器，编码器的立体声信息通过频带传输并应用于频域。为此目的，编码器集成了诸如DSP (数字信号处理器)的时间频率转换器10，它能执行诸如离散傅立叶变换或DFT、MDCT变换(改进离散余弦变换)、MCLT变换(调制复数重叠变换)的变换。因此，可根据对应于左和右时序信号的SJn)和&⑷的数值来获得频率的左信号 Sl (k)和右信号&(10的数值。然后，籍助于矩阵部件11对左通道和右通道SK(n)的信号进行矩阵处理。这些部件11可根据立体声信号& (k)和Sk (k)来确定单通道信号M (k)和残差信号E(k)。单通道信号M(k)通常为左信号SJk)和右信号&⑴的一半之和(half-sum) 0 残差信号E(k)可为左信号SJn)和右信号Sk(η)之间差异的一半。提供合适的矩阵可使单通道信号M(k)传输更多的信息。为此目的，籍助于矩阵部件11所执行的方法可随着时间而演变，以避免消除在左右通道中反相的部分。用于评估空间数据的部件12可根据单通道信号M(k)和残差信号E(k)评估例如立体声参数的空间数据。该领域的技术人员都熟知这些立体声参数，并且这些立体声参数可包括诸如通道相互层级差异(ILDS)、通道相关性(ICCS)差异和通道(IPDs/ITDs)间的延迟或相位差。这些立体声参数ILD(b)可通过由变量b索引的频带确定。这些频带可根据近似人类感知的频率范围进行确定。例如，可根据考虑的频谱范围和期望的精度确定使用在8至 20之间的频带。量化、编码及复用部件13可量化并编码立体声参数ILD(b)，使允许以较低的数据吞吐量进行传输。在图1所示的变换域或在时间域中，单通道信号M(k)也可籍助于部件13进行量化和编码。标准的算法都可用于处理单通道信号M(k)，例如ITU G. 729. 1或G. 718类型的语音编码器。也可以是MPEG-4AAC或HE-AAC类型的通用音频编码器。残差信号E(k)进行选择性地传输，也可以采用频域或时域中的该信号的专用的标准化的编码或传输技术。量化、编码及复用部件13输出所获得的编码信号S·通过诸如无线通道进行传输。此外，编码器可产生多个单声道通道获得的数据，并且编码器输出所获得的数据通道的数量小于输入编码器的数据通道的数量。
图2示出了用于接收对应传输信号S·的信号S' enc的典型的解码器。解码器和解复用部件四可从接收到的信号S' ■中获得单通道数据M' (k)、空间数据ILD' (b)以及选择性获得残差数据E' (k)。此外，解码器包括重构装置沈，用于根据单通道数据M' (k)、空间数据ILD' (b)并且选择性的根据残差信号数据E' (k)来重构多通道的音频数据S' Jk)和S' K(k)。图3示出籍助于图2的重构装置沈执行的算法。因而，同时对两个图进行阐述。重构装置沈包括用于在缺陷空间数据ILD' (b)情况中提供替换数值的隐蔽装置 20和用于适当重构的多通道重构部件27。在步骤300中，多通道重构部件27可执行例如下述组合类型
权利要求
1.一种声音数据的处理方法，用于至少根据有限数量的通道和空间数据来重构多通道音频数据，所述方法包括检测接收到的帧的空间数据的有效性的步骤(306)，如果所述检测显示所接收到的空间数据是有效的，则包括步骤a.空间数值(307)根据多个预测模型的各个模型进行预测；以及，b.选择预测模型，根据预测的空间数值和所接收到的空间数据来选择预测模型，使得在随后接收到缺陷空间数据的情况中，根据选定的模型预测空间数值，并且使用该预测空间数值来重构多通道音频数据。
2.根据权利要求1所述的方法，其特征在于，如果检测显示所接收到的空间数据有效，进一步包括在步骤a前的存储所述有效空间数据的步骤，并且其在随后接收到缺陷空间数据的情况下，根据所述存储的空间数据执行步骤b。
3.根据权利要求2所述的方法，其特征在于，所述步骤a在随后接收到缺陷空间数据的情况下根据所述存储的空间数据执行。
4.根据权利要求1所述的方法，其特征在于，所述步骤a和步骤b在接收有效帧后系统地执行，所述方法还包括在步骤b后将该选定的预测模型标识符写入存储器的步骤。
5.根据权利要求1所述的方法，其特征在于，所述预测空间数值包括增益。
6.根据权利要求1所述的方法，其特征在于，所述预测空间数值包括延迟。
7.根据权利要求1所述的方法，其特征在于，在步骤b中近似数值(σΙη, σ〗. )一方面根据与所述多个模型的各个模型,『Γ)(6，"))相关的预测空间数值以及另一方面根据接收到的空间数据的评估数值(Wjb，n)，WK(b，n))进行计算，以及，选择所述近似数值显示预测空间数值与所述评估数值之间更合适的预测模型。
8.根据权利要求7所述方法，其特征在于，在步骤a和步骤b中对所接收到的帧序列中的各帧，可根据多个模型中的至少一个模型来预测空间数值(0，n), ^叫⑦力))；以及，对于所述模型，近似数值(σ^，—方面根据与所述模型相关的预测空间数值序列以及另一方面根据所接收到的帧序列的空间数据的评估数值序列(Wjb，n)，WK(b，n))进行计算。
9.根据权利要求1所述方法，其特征在于，所述步骤a对对应予确定频带(b)的空间数据执行。
10.一种计算机程序，其特征在于，当由处理器执行指令时，所述计算机程序包括执行权利要求1所述方法的指令。
11.一种用于隐蔽缺陷数据的器件(20)，其特征在于，包括存储器单元(21)，用于存储多个指令组，各个指令组对应于预测模型；接收部件，用于接收空间数据；检测模块(22)，用于检测由接收部件所接收到的空间数据的有效性；评估模块(23)，用于在所接收到的空间数据被测试模块测试为有效的情况下，并且，执行所述存储在存储器单元中各组指令来预测空间数值；以及，选择模块(M)，用于根据评估模块所预测的空间数值和根据接收部件所接收到的空间数据来选择预测模型；隐蔽装置进一步包括预测模块(25)，用于在随后接收到被所述测试模块认为缺陷数据的情况下，根据选择模块所选择的所述模型来预测空间数值。
12. 一种用于重构多通道音频数据的装置06)，其特征在于，所述装置包括多通道重构部件(27)，用于至少根据单通道数据重构多通道音频数据；根据权利要求11所述的隐蔽装置(20)，其中预测模块(25)，用于在接收到被测试模块认为有缺陷的空间数据的情况下，向多通道重构部件提供用于多通道音频数据重构的预测空间数值。
全文摘要
一种音频数据的处理方法，其适用于至少根据减少的通道数量中的数据和空间数据重构多通道音频数据。进行检测来确定接收到的空间数据是否有效。如果检测为有效的，则根据多个模型中的各个模型来预测空间数值。预测模型根据因此而预测的空间数值和所接收到的空间数据来选择，使之能在随后接收到缺陷空间数据的情况下，根据所选择的模型来预测空间数值并使用该预测空间数值来重构多通道音频数据。
文档编号H04S3/00GK102138177SQ200980134855
公开日2011年7月27日申请日期2009年7月3日优先权日2008年7月30日
发明者戴维德·维雷泰, 皮埃里克·菲利普申请人:法国电信

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴维德·维雷泰
技术所有人：法国电信
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。