丢包掩蔽装置和方法以及音频处理系统的制作方法

文档序号：2826070阅读：338来源：国知局

丢包掩蔽装置和方法以及音频处理系统的制作方法
【专利摘要】本申请涉及丢包掩蔽装置和方法以及音频处理系统。根据一种实施方式，提供了丢包掩蔽装置，用于掩蔽音频包流中的包丢失，每个音频包包括传输格式的至少一个音频帧，音频帧包括至少一个单声道分量和至少一个空间分量。该丢包掩蔽装置可以包括：第一掩蔽单元，用于针对丢失包中的丢失帧生成至少一个单声道分量；以及第二掩蔽单元，用于针对所述丢失帧生成所述至少一个空间分量。根据该实施方式，在针对多通道空间或声场编码音频信号的丢包掩蔽中可以尽可能避免空间畸变比如不正确的角度和发散度。
【专利说明】丢包掩蔽装置和方法以及音频处理系统

【技术领域】
[0001] 本申请总体上涉及音频信号处理。本申请的实施方式涉及在包(分组)交换网络上的音频传输过程中，由空间音频包(分组)的丢失产生的畸变的掩蔽。更具体地，本申请的实施方式涉及丢包掩蔽装置、丢包掩蔽方法以及包括该丢包掩蔽装置的音频处理系统。

【背景技术】
[0002] 语音通信可能面对各种的质量问题。例如，如果语音通信是在包交换网络中进行的，由于在网络中出现的延迟抖动或由于信道条件差比如（比如信号减弱或者WIFI干扰)，可能会丢失一些包。丢失的包产生喀哒声或砰砰声或者其他畸变，这显著地降低了在接收器侧所感知的语音质量。为了应对包丢失的负面影响，已经提出过丢包掩蔽（PLC)算法，也公知为消失巾贞掩蔽（frame erasure concealment)算法。这样的算法通常在接收器侧工作，生成合成音频信号以覆盖接收的比特流中的失去的数据(消失部分)。这些算法主要是针对时域或频域中的单声道信号提出的。基于掩蔽是在解码之前还是解码之后进行，可以将单声道PLC分为编码域、解码域或混合域方法。对多通道信号直接应用单声道PLC可能导致不希望有的畸变。例如，解码域PLC可以在对每个声道解码之后对每个声道单独执行。这样的方法的一个缺点是：由于缺乏对跨声道相关性的考虑，所以可以观察到空间上失真的畸变以及不稳定的信号强度。空间畸变比如不正确的角度和发散度可能显著地降低空间或声场编码音频的感知质量。因此，需要有针对多通道空间音频信号的PLC算法。

【发明内容】

[0003] 根据本申请的实施方式，提供了一种用于掩蔽音频包流中的包丢失的丢包掩蔽装置，每个音频包包括传输格式的至少一个音频帧，该至少一个音频帧包括至少一个单声道分量和至少一个空间分量，该丢包掩蔽装置包括：第一掩蔽单元，用于针对丢失包中的丢失帧生成至少一个单声道分量；以及第二掩蔽单元，用于针对所述丢失帧生成至少一个空间分量。
[0004] 上述丢包掩蔽装置可以应用于中间装置比如服务器，例如音频会议混合服务器，或由终端用户使用的通信终端。
[0005] 本申请还提供了一种音频处理系统，该系统包括包含上述丢包掩蔽装置的服务器和/或包含上述丢包掩蔽装置的通信终端。
[0006] 本申请的另一种实施方式提供了一种用于掩蔽音频包流中的包丢失的丢包掩蔽方法，每个音频包包括传输格式的至少一个音频帧，该至少一个音频帧包括至少一个单声道分量和至少一个空间分量。该丢包掩蔽方法包括：针对丢失包中的丢失帧生成至少一个单声道分量；以及/或者针对所述丢失帧生成至少一个空间分量。
[0007] 本申请还提供了一种其上记录有计算机程序指令的计算机可读介质，当该指令由处理器执行时，使所述处理器能够执行上述丢包掩蔽方法。

【专利附图】

【附图说明】
[0008] 在附图中以示例而非限制的方式来说明本发明，其中相似的附图标记指代相似的兀件，在附图中：
[0009] 图1是示意性地示出了可以应用本申请的实施方式的示例性语音通信系统的图；
[0010] 图2是示意性地示出了可以应用本申请的实施方式的另一种示例性语音通信系统的图；
[0011] 图3是示出了根据本申请的一种实施方式的丢包掩蔽装置的图；
[0012] 图4是示出了图3中的丢包掩蔽装置的特定示例的图；
[0013] 图5是示出了根据图3的实施方式的变型的图3中的第一掩蔽单元400的图；
[0014] 图6是示出了图5中的丢包掩蔽装置的变型的特定示例的图；
[0015] 图7是示出了根据图3的实施方式的另一种变型的图3中的第一掩蔽单元400的图；
[0016] 图8是示出了图7所示的变型的原理的图；
[0017] 图9A是示出了根据图3中的实施方式的又一种变型的图3中的第一掩蔽单元400 的图；
[0018] 图9B是示出了根据图3中的实施方式的又一种变型的图3中的第一掩蔽单元400 的图；
[0019] 图10是示出了图9A中的丢包掩蔽装置的变型的特定示例的图；
[0020] 图11是示出了根据本申请的另一种实施方式的通信终端中的第二变换器的图；
[0021] 图12至图14是示出了根据本申请的实施方式的丢包掩蔽装置的应用的图；
[0022] 图15是示出了用于实施本申请的实施方式的示例性系统的框图；
[0023] 图16至图21是示出了根据本申请的实施方式及其一些变型的丢包掩蔽方法中的单声道分量的掩蔽的流程图；
[0024] 图22不出了不例声场编码系统的框图；
[0025] 图23a不出了不例声场编码器的框图；
[0026] 图23b不出了不例声场解码器的框图；
[0027] 图24a示出了用于对声场信号进行编码的示例方法的流程图；以及
[0028] 图24b示出了用于对声场信号进行解码的示例方法的流程图。

【具体实施方式】
[0029] 下面参照附图描述本发明的实施方式。应当指出，为了简洁，在附图和描述中省略了与本领域的技术人员公知的但是对于理解本申请而言并非必需的部件和处理有关的表示和描述。
[0030] 本领域的技术人员应当理解，本发明的各个方面可以实施为系统、设备(例如移动电话、便携式媒体播放器、个人计算机、服务器、电视机机顶盒或数字录像机或者任意其他媒体播放器)、方法或者计算机程序产品。因此，本发明的各个方面可以采用硬件的实施方式的形式、软件的实施方式(包括固件、驻留软件、微代码等）的形式或者软件方面与硬件方面相结合的实施方式的形式，在本文中其可以总体上被称为"电路"、"模块"或"系统"。此夕卜，本发明的各个方面可以采用包括在一个或更多个计算机可读介质中的计算机程序产品的形式，其中，计算机可读介质上包括有计算机可读程序代码。
[0031] 可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置或设备、或者以上的任意适当的组合。计算机可读存储介质的更具体的示例(非穷举性的列举）可以包括：具有一条或更多条导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器（RAM)、只读存储器（ROM)、可擦除可编程只读存储器（EPROM或闪存)、光纤、便携式光盘只读存储器（CD-ROM)、光学存储设备、磁性存储设备或者以上的任意适当组合。在本文献的上下文中，计算机可读存储介质可以是能够包含或者存储用于由指令执行系统、装置或设备来使用或者与其结合使用的程序的任意有形的介质。
[0032] 计算机可读信号介质可以包括其中包括有计算机可读程序代码的传播的数据信号，该数据信号为基带信号或者作为载波的一部分。这样的传播的信号可以采用各种形式，包括但不限于电磁信号或光学信号或者其任意适当的组合。
[0033] 计算机可读信号介质可以为不是计算机可读存储介质并且可以传递、传播或传输用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任意计算机可读介质。 [0034] 包括在计算机可读介质上的程序代码可以使用任意适当的介质发送，介质包括但不限于无线、有线线路、光纤光缆、射频（RF)等或者以上的任意适当的组合。
[0035] 用于执行本发明的各个方面的操作的计算机程序代码可以用一种或更多种编程语目的任意组合来编写，编程语目包括面向对象的编程语目比如Java、Smalltalk、C++等以及传统的过程编程语言比如"C"编程语言或类似的编程语言。程序代码可以在用户的计算机上作为单独软件包整体执行，或者部分在用户的计算机上执行且部分在远程计算机上执行，或者整体在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过包括局域网（LAN)或广域网（WAN)的任意类型的网络连接至用户的计算机，或者可以连接到外部计算机(例如通过使用因特网服务提供商的因特网）。
[0036] 下面参照根据本发明的实施方式的方法、装置(系统）和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个块以及流程图和/或框图中的块的组合可以用计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，以形成机器，使得通过计算机或其他可编程数据处理装置的处理器来执行的指令形成用于实现流程图和/或框图的块或多个块中所指定的功能/行为的装置。
[0037] 这些计算机程序指令还可以存储在如下计算机可读介质中：该计算机可读介质可以引导计算机、其他可编程数据处理装置或其他设备以特定的方式工作，以使得存储在计算机可读介质中的指令产生制品，该制品包括实现流程图和/或框图的块或多个块中所指定的功能/行为的指令。
[0038] 计算机程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列运算步骤，从而产生计算机实现的处理，以使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的块或多个块中所指定的功能/行为的处理。
[0039] 整体解决方案
[0040] 图1是示意性地示出了可以应用本申请的实施方式的示例语音通信系统的图。
[0041] 如图1所示，用户A操作通信终端A，用户B操作通信终端B。在语音通信会话中，用户A和用户B通过他们的通信终端A和B相互交谈。通信终端A和B通过数据链路10 耦接。数据链路10可以实施为点对点连接或通信网络。在用户A和用户B的任一侧，对从另一侧传输的音频包进行包丢失检测（未示出）。如果检测到包丢失，则可以执行丢包掩蔽 (PLC)来掩蔽包丢失以使得所再现的音频信号听起来更加完整并且具有较少的由包丢失引起的畸变。
[0042] 图2是示意性地示出了可以应用本申请的实施方式的另一种示例语音通信系统的图。在该示例中，可以在用户之间进行语音会议。
[0043] 如图2所示，用户A操作通信终端A，用户B操作通信终端B，用户C操作通信终端 C。在语音会议会话中，用户A、用户B和用户C通过他们的通信终端A、B和C彼此交谈。图 2所示的通信终端与图1所示的通信终端的功能相同。但是，通信终端A、B和C通过公共数据链路20或单独的数据链路20耦接至服务器。数据链路20可以实施为点对点连接或通信网络。在用户A、用户B和用户C中任一侧，对从另一侧或另外两侧传输的音频包进行包丢失检测(未示出）。如果检测到包丢失，则可以执行丢包掩蔽（PLC)来掩蔽包丢失以使得所再现的音频信号听起来更加完整并且具有较少的由包丢失引起的畸变。
[0044] 包丢失可以出现在从发起通信终端到服务器再到目的通信终端的路径上的任何位置。因此，可替代地或者附加地，包丢失检测(未示出)和PLC还可以在服务器中进行。为了在服务器中进行包丢失检测和PLC，可以对服务器所接收的包进行解包（未示出）。然后，在PLC之后，可以对进行了丢包被掩蔽的音频信号再次进行打包(未示出）以将其传输至目的通信终端。如果有两个用户同时进行交谈(这可以使用语音活动检测（VAD)技术来判断)，在将这两个用户的话音信号传输至目的通信终端以前，需要在混合器800中完成混合操作以将两个话音信号流混合成一个话音信号流。这可以在PLC之后但是在打包操作之前完成。
[0045] 尽管在图1B中示出了三个通信终端，但是在该系统中也可以合理地耦接有更多个通信终端。
[0046] 本申请尝试通过分别对通过向声场信号应用适当的变换技术获得的单声道分量和空间分量应用不同的掩蔽方法，来解决声场信号的包丢失问题。具体地，本申请涉及当包丢失发生时在空间音频传输中构建人工信号。
[0047] 如图3所示，在一种实施方式中，为了掩蔽音频包流中的包丢失而提供了一种丢包掩蔽（PLC)装置，每个音频包包括传输格式的至少一个音频帧，该音频帧包括至少一个单声道分量和至少一个空间分量。PLC装置可以包括用于针对丢失包中的丢失帧生成至少一个单声道分量的第一掩蔽单兀400、和用于针对该丢失巾贞生成至少一个空间分量的第二掩蔽单元600。所生成的至少一个单声道分量和所生成的至少一个空间分量组成用于替换该丢失帧的生成帧。
[0048] 如在现有技术中已知的，为了满足传输的需要，音频流已经被变换和存储为帧结构(可以称其为"传输格式")，并且已经在发起通信终端中被打包成音频包，然后由服务器或目的通信终端中的接收器1〇〇接收。为了执行PLC，可以设置第一解包单元200用于将每个音频包解包为包括至少一个单声道分量和至少一个空间分量的至少一个帧，并且可以设置包丢失检测器300用于检测流中的包丢失。可以将或可以不将包丢失检测器300视为 PLC装置的一部分。发起通信终端可以采用任何技术来将音频流变换成任何合适的传输格式。
[0049] 传输格式的一个示例可以采用自适应变换比如自适应正交变换来获得，该自适应变换可以生成多个单声道分量和空间分量。例如，音频帧可以是基于参数化特征分解编码的参数化特征信号，至少一个单声道分量可以包括至少一个特征通道分量（比如至少主要特征通道分量)，并且该至少一个空间分量包括至少一个空间参数。再例如，音频帧可以通过主成分分析（PCA)被分解，并且该至少一个单声道分量可以包括至少一个基于主成分的信号，该至少一个空间分量包括至少一个空间参数。
[0050] 从而，在发起通信终端中可以包括用于将输入音频信号变换成参数化特征信号的变换器。取决于输入音频信号的格式(该格式可以称为"输入格式")，可以用不同的技术来实现该变换器。
[0051] 例如，输入首频/[目号可以是1?保真度立体声响复制（Ambisonic) B格式彳目号，并且对应的变换器可以对B格式信号执行自适应变换，比如KLT变换(卡洛南-洛伊 (Karhunen-LoSve)变换)，以获得包括特征通道分量(其还可以称为旋转音频信号）和空间参数的参数化特征信号。通常，可以将LRS (左、右和环绕）信号或其他人工上混合信号转换成一阶高保真度立体声响复制格式（B格式)，即WXY声场信号(其还可以是WXYZ声场信号，但是在使用LRS捕获的语音通信中，仅考虑水平WXY)，并且自适应变换可以按信息重要性降低的顺序将声场信号的所有3个通道W、X和Y联合编码为一组新的特征通道分量(旋转音频信号)Em (m=l，2,3)(即，E1、E2和E3,数字m可以更大或更小)。如果特征信号的数量为3,则通常通过3 X 3变换矩阵（比如协方差矩阵)进行的该变换可以由作为边信息发送的3个空间边参数（d，(p和Θ )的集合来描述，以使得解码器能够应用逆变换来重建原始声场信号。注意，如果在传输中出现包丢失，则无论是特征通道分量(旋转音频信号)还是空间边参数都不能由解码器获得。
[0052] 可替代地，可以将LRS信号直接变换成参数化特征信号。
[0053] 可以将上述编码结构称为自适应变换编码。但是，如上所提到的，可以使用包括 KLT在内的任何自适应变换，或使用任何其他方案来执行该编码，包括从LRS信号到参数化特征信号的直接变换。本申请提供了将输入音频信号变换成参数化特征信号的特定算法的示例。详情请参见本申请中的"音频信号的正自适应变换和逆自适应变换"部分。
[0054] 在上面所讨论的自适应变换编码中，如果带宽充足，则将所有的El、E2和E3编码在帧中并且打包在包流中，这称为离散编码。否则，如果带宽有限，则可以考虑替代方法，鉴于E1是原始声场的感知上有意义/优化的单声道表示，可以通过伪去相关信号的计算来重建E2和E3。在实际的实施方式中，E1和E1的去相关版本的加权组合是优选的，而去相关版本可以仅是E1的延迟拷贝，并且可以基于E1和E2的频带能量比以及E1和E3的频带能量比来计算加权因子。可以将该方法称为预测编码。详情请参见本申请中的"音频信号的正自适应变换和逆自适应变换"部分。
[0055] 这样，在输入音频流中，每个帧包括单声道分量的一组频域系数(针对E1、E2和E3 的)，和可以称为空间分量或空间参数的量化边参数。如果应用预测编码，则边参数还可以包括预测参数。当发生包丢失时，在离散编码中，Em (m=l，2, 3)和空间参数两者都在传输过程中丢失；而在预测编码中，丢失包导致了预测参数、空间参数和El的丢失。
[0056] 第一解包单元200的操作是发起通信终端中的打包单元的逆操作，此处省略其详细描述。
[0057] 在包丢失检测器300中，可以采用任何现有的技术来检测包丢失。通常的方法是检测由解包单元200从所接收的包中解包的包/帧的序列号，序列号的不连续表示所缺失的序列号的包/帧的丢失。序列号一般是VoIP包格式比如实时传输协议（RTP)格式中的强制字段。注意，目前包一般包括一个帧(一般为20ms)，但是包也可以包括多于一个帧，或者一个帧可以跨越若干个包。如果包丢失，则包中的所有帧都丢失。如果帧丢失，则一定是一个或更多个丢失包的结果。因此通常基于帧来实施丢包掩蔽，即，PLC用于恢复由于丢失包引起的丢失帧。因此，在本申请的上下文中，包丢失一般等同于帧丢失并且解决方案一般是针对帧来描述，除非必须提到包，例如，用于强调丢失包中的丢失帧的数量。因此，在权利要求中，"每个音频包包括至少一个音频帧"这样的用语应当被解释为覆盖一个帧跨越多个包的情形。相应地，"丢失包中的丢失帧"这样的用语应当被解释为覆盖由于至少一个丢失包导致的跨多个包的帧的至少部分丢失这样的情形。
[0058] 在本申请中，提出了对单声道分量和空间分量实施独立的丢包掩蔽操作，因此分别设置第一掩蔽单元400和第二掩蔽单元600。第一掩蔽单元400可以被配置成通过复制相邻帧中的对应单声道分量来针对所述丢失帧生成至少一个单声道分量。
[0059] 在本申请的上下文中，"相邻帧"意味着当前帧(可以是丢失帧）之前或之后的帧，可以是直接相邻，或在中间插有其他(一个或更多个）帧。即，为了恢复丢失帧，可以使用未来帧或历史帧，并且一般可以使用直接相邻的未来或历史帧。可以将直接相邻的历史帧称为"上一帧"。在一种变型中，当复制对应的单声道分量时，可以使用衰减因子。
[0060] 当丢失了至少两个连续的帧时，第一掩蔽单元400可以被配置成针对较前或较后的丢失帧分别复制(一个或更多个）历史帧或(一个或更多个）未来帧。即，第一掩蔽单元可以在有或没有衰减因子的情况下通过复制相邻历史帧中的对应的单声道分量来生成至少一个较早丢失帧的至少一个单声道分量，并且在有或没有衰减因子的情况下通过复制相邻未来帧中的对应的单声道分量来生成至少一个较晚丢失帧的至少一个单声道分量。
[0061] 第二掩蔽单元600可以被配置成：通过平滑相邻帧的至少一个空间分量的值，或通过复制上一帧中对应的空间分量来针对所述丢失帧生成至少一个空间分量。
[0062] 在可以允许或容忍延迟的一些情形中，还可以使用未来帧来帮助确定丢失帧的空间分量。例如，可以使用内插算法。即，第二掩蔽单元600可以被配置成：基于至少一个相邻历史帧和至少一个相邻未来帧中的对应的空间分量的值通过内插算法来针对所述丢失中贞生成至少一个空间分量。
[0063] 当至少两个包或至少两个帧丢失时，可以基于内插算法来确定所有丢失帧的空间分量。
[0064] 前已提及存在各种可能的输入格式和传输格式。图4示出了使用参数化特征信号作为传输格式的示例。如图4所示，音频信号被编码为参数特征信号并作为参数特征信号传输，参数特征信号包括作为单声道分量的特征通道分量和作为空间分量的空间参数(关于编码侧的细节，请参见"音频信号的正自适应变换和逆自适应变换"部分)。具体地，在该示例中，有三个特征通道分量Em (m=l，2, 3)和对应的空间参数，比如发散度d (E1的方向性)、方位角f (El的水平方向)和θ (在三维空间中E2和E3围绕El的旋转)。对于正常传输的包，特征通道分量和空间参数都正常地传输(在包内）；而对于丢失包/帧，特征通道分量和空间参数两者都丢失，因而要执行PLC以生成新的特征通道分量和空间参数来替代丢失包/帧的特征通道分量和空间参数。如果是在目的通信终端中，正常传输的或生成的特征通道分量和空间参数可以直接再现（比如再现为双声道声音）或首先变换成适当的中间输出格式，中间输出格式可以进行进一步的变换或直接再现。类似于输入格式，中间输出格式可以是任何可用的格式，比如高保真度立体声响复制B格式（WXY或WXYZ声场信号)、LRS 或其他格式。中间输出格式的音频信号可以直接再现，或是可以进行进一步的变换以适应再现设备。例如，可以通过逆自适应变换比如逆KLT (参见本公开中的"音频信号的正自适应变换和逆自适应变换"部分）将参数化特征信号变换成WXY声场信号，如果需要双声道重放则进一步变换成双声道声音信号。相应地，本申请的所述丢包掩蔽装置可以包括第二逆变换器，用以对音频包(可能经过了 PLC)执行逆自适应变换，以获得逆变换的声场信号。
[0065] 在图4中，第一掩蔽单元400 (图3)可以使用传统的单声道PLC，比如前面所提到的有或没有衰减因子的情况下的复制，示出如下：
[0066]

【权利要求】
1. 一种用于掩蔽音频包流中的包丢失的丢包掩蔽装置，每个音频包包括传输格式的至少一个音频巾贞，所述至少一个音频巾贞包括至少一个单声道分量和至少一个空间分量，所述丢包掩蔽装置包括：第一掩蔽单元，用于针对丢失包中的丢失帧生成所述至少一个单声道分量；以及第二掩蔽单元，用于针对所述丢失帧生成所述至少一个空间分量。
2. 根据权利要求1所述的丢包掩蔽装置，其中，所述第一掩蔽单元被配置成：通过在有或没有衰减因子的情况下复制相邻帧中对应的单声道分量，来针对所述丢失帧生成所述至少一个单声道分量。
3. 根据权利要求1所述的丢包掩蔽装置，其中所述第一掩蔽单元包括：第一变换器，用于将所述丢失帧之前的至少一个历史帧中的所述至少一个单声道分量变换成时域信号；时域掩蔽单元，用于针对所述时域信号掩蔽所述包丢失，产生丢包被掩蔽的时域信号；以及第一逆变换器，用于将所述丢包被掩蔽的时域信号变换成所述至少一个单声道分量的格式，产生与所述丢失帧中的所述至少一个单声道分量对应的生成的单声道分量。
4. 根据权利要求1至3中的任一项所述的丢包掩蔽装置，其中每个音频帧还包括至少一个预测参数，所述至少一个预测参数用来基于所述帧中的所述至少一个单声道分量来预测所述帧的至少一个其他单声道分量；以及所述第一掩蔽单元包括：主掩蔽单元，用于针对所述丢失帧生成所述至少一个单声道分量，以及第三掩蔽单元，用于针对所述丢失帧生成所述至少一个预测参数。
5. 根据权利要求4所述的丢包掩蔽装置，还包括：预测解码器，用于基于所生成的一个单声道分量，使用所生成的至少一个预测参数，来针对所述丢失帧预测所述至少一个其他单声道分量。
6. 根据权利要求1至3中的任一项所述的丢包掩蔽装置，其中每个音频帧包括至少两个单声道分量并且所述第一掩蔽单元包括：主掩蔽单元，用于针对所述丢失帧生成所述至少两个单声道分量之一，预测参数计算器，用于使用历史帧针对所述丢失帧计算至少一个预测参数，以及预测解码器，用于基于所生成的一个单声道分量，使用所生成的至少一个预测参数，来针对所述丢失帧预测所述至少两个单声道分量中的至少一个其他单声道分量。
7. 根据权利要求6所述的丢包掩蔽装置，其中所述第一掩蔽单元还包括：第三掩蔽单元，如果在所述丢失帧的上一帧中包括至少一个预测参数，或是针对所述上一帧生成/计算了至少一个预测参数，则所述第三掩蔽单元基于所述上一帧的所述至少一个预测参数来针对所述丢失帧生成所述至少一个预测参数，并且其中所述预测参数计算器被配置成：如果所述丢失帧的上一帧中没有包含预测参数并且针对所述上一帧没有生成/计算预测参数，则使用前一帧针对所述丢失帧计算所述至少一个预测参数，以及所述预测解码器被配置成：使用所计算或生成的至少一个预测参数，根据所生成的一个单声道分量，来针对所述丢失帧预测所述至少两个单声道分量的所述至少一个其他单声道分量。
8. 根据权利要求6所述的丢包掩蔽装置，其中所述主掩蔽单元还被配置成生成所述至少一个其他单声道分量，并且所述第一掩蔽单元还包括调整单元，用于使用由所述主掩蔽单元生成的所述至少一个其他单声道分量来调整由所述预测解码器预测的所述至少一个其他单声道分量。
9. 根据权利要求7所述的丢包掩蔽装置，其中所述第三掩蔽单元被配置成以下述方式来针对所述丢失帧生成所述至少一个预测参数：在有或没有衰减因子的情况下复制所述上一帧中的对应的预测参数，对相邻帧的对应的预测参数的值进行平滑，或使用历史帧和未来帧中对应的预测参数的值进行内插针对所述丢失帧生成。
10. 根据权利要求6所述的丢包掩蔽装置，其中所述预测参数计算器被配置成：基于所述丢失帧的上一帧中与针对所述丢失帧所生成的一个单声道分量对应的单声道分量和所述上一帧中与针对所述丢失帧要被预测的单声道分量对应的单声道分量，来计算针对所述丢失帧的所述至少一个预测参数。
11. 根据权利要求10所述的丢包掩蔽装置，其中所述预测参数计算器被配置成：针对所述丢失帧计算所述至少一个预测参数，以使得所述上一帧中与针对所述丢失帧要被预测的单声道分量对应的单声道分量与该对应的单声道分量的相关分量之间的预测残差的均方误差减小。
12. 根据权利要求10所述的丢包掩蔽装置，其中所述至少一个预测参数包括能量调整增益，并且所述预测参数计算器被配置成：基于所述丢失帧的上一帧中与针对所述丢失帧所生成的一个单声道分量对应的单声道分量来确定去相关信号；确定所述去相关信号的能量的第二指标和所述丢失帧的上一帧中与针对所述丢失帧所生成的一个单声道分量对应的单声道分量的能量的第一指标；以及如果所述第二指标大于所述第一指标，则基于所述去相关信号来确定所述能量调整增
13. 根据权利要求1所述的丢包掩蔽装置，其中所述第二掩蔽单元被配置成：通过对相邻帧的所述至少一个空间分量的值进行平滑来针对所述丢失帧生成所述至少一个空间分量。
14. 根据权利要求1所述的丢包掩蔽装置，其中所述第二掩蔽单元被配置成：基于至少一个相邻历史帧和至少一个相邻未来帧中对应的空间分量的值，通过内插算法来针对所述丢失帧生成所述至少一个空间分量。
15. 根据权利要求1到14之一所述的丢包掩蔽装置，其中，所述第一掩蔽单元被配置为用第一掩蔽方法针对所述丢失帧生成所述至少一个单声道分量，所述第二掩蔽单元被配置为用第二掩蔽方法针对所述丢失帧生成所述至少一个空间分量，其中所述第一掩蔽方法与所述第二掩蔽方法不同。
16. 根据权利要求1到15之一所述的丢包掩蔽装置，还包括第二逆变换器，用于对音频包进行逆自适应变换，以获得逆变换的声场信号。
17. 根据权利要求16所述的丢包掩蔽装置，其中，所述逆自适应变换包括逆卡洛南-洛伊变换。
18. -种用于掩蔽音频包流中的包丢失的丢包掩蔽方法，每个音频包包括传输格式的至少一个音频帧，所述至少一个音频帧包括至少一个单声道分量和至少一个空间分量，所述丢包掩蔽方法包括：针对丢失包中的丢失帧生成所述至少一个单声道分量；以及针对所述丢失帧生成所述至少一个空间分量。
19. 根据权利要求18所述的丢包掩蔽方法，其中生成所述至少一个单声道分量包括：通过在有或没有衰减因子的情况下复制相邻帧中对应的单声道分量来针对所述丢失帧生成所述至少一个单声道分量。
20. 根据权利要求18所述的丢包掩蔽方法，其中生成所述至少一个单声道分量包括：将所述丢失帧之前的至少一个历史帧中的所述至少一个单声道分量变换成时域信号；针对所述时域信号掩蔽所述包丢失，产生丢包被掩蔽的时域信号；以及将所述丢包被掩蔽的时域信号变换成所述至少一个单声道分量的格式，产生与所述丢失帧中的所述至少一个单声道分量对应的生成的单声道分量。
21. 根据权利要求18至20中任一项所述的丢包掩蔽方法，其中每个音频帧还包括至少一个预测参数，所述预测参数用来基于所述帧中的所述至少一个单声道分量来预测所述帧的至少一个其他单声道分量，以及生成所述至少一个单声道分量包括：针对所述丢失帧生成所述至少一个单声道分量，以及针对所述丢失帧生成所述至少一个预测参数。
22. 根据权利要求21所述的丢包掩蔽方法，还包括：基于所生成的一个单声道分量，使用所生成的至少一个预测参数，来针对所述丢失帧预测所述至少一个其他单声道分量。
23. 根据权利要求18到20中任一项所述的丢包掩蔽方法，其中每个音频帧包括至少两个单声道分量，并且生成所述至少一个单声道分量包括：针对所述丢失帧生成所述至少两个单声道分量之一，使用历史帧来针对所述丢失帧计算至少一个预测参数，以及基于所生成的一个单声道分量，使用所生成的至少一个预测参数，来针对所述丢失帧预测所述至少两个单声道分量中的至少一个其他单声道分量。
24. 根据权利要求23所述的丢包掩蔽方法，其中生成所述至少一个单声道分量还包括：如果在所述丢失帧的上一帧中包括至少一个预测参数，或针对所述上一帧已经生成/ 计算了至少一个预测参数，则基于所述上一帧的所述至少一个预测参数来针对所述丢失帧生成所述至少一个预测参数，并且其中，所述计算操作包括：当在所述丢失帧的上一帧中没有包含预测参数并且针对所述上一帧没有生成/计算预测参数，则使用前一帧针对所述丢失帧计算所述至少一个预测参数，以及所述预测操作包括：使用所计算或生成的至少一个预测参数，根据所生成的一个单声道分量，来针对所述丢失帧预测所述至少两个单声道分量中的所述至少一个其他单声道分量。
25. 根据权利要求23所述的丢包掩蔽方法，还包括：生成所述至少一个其他单声道分量，以及使用所生成的所述至少一个其他单声道分量来调整由所述预测操作预测的所述至少一个其他单声道分量。
26. 根据权利要求24所述的丢包掩蔽方法，其中生成所述至少一个预测参数包括以下述方式来针对所述丢失帧生成所述至少一个预测参数：在有或没有衰减因子的情况下复制所述上一帧中的对应的预测参数，对相邻帧的对应的预测参数的值进行平滑，或使用历史帧和未来帧中对应的预测参数的值进行内插针对所述丢失帧生成。
27. 根据权利要求23所述的丢包掩蔽方法，其中所述计算包括：基于所述丢失帧的上一帧中与针对所述丢失帧所生成的一个单声道分量对应的单声道分量和所述上一帧中的与针对所述丢失帧要被预测的所述单声道分量对应的单声道分量，来计算针对所述丢失帧的所述至少一个预测参数。
28. 根据权利要求27所述的丢包掩蔽方法，其中所述计算操作包括：针对所述丢失帧计算所述至少一个预测参数，以使得所述上一帧中与针对所述丢失帧要被预测的单声道分量对应的单声道分量与该对应的单声道分量的相关分量之间的预测残差的均方误差减小。
29. 根据权利要求27所述的丢包掩蔽方法，其中所述至少一个预测参数包括能量调整增益，并且所述计算操作包括：基于所述丢失帧的上一帧中与针对所述丢失帧所生成的一个单声道分量对应的单声道分量来确定去相关信号；确定所述去相关信号的能量的第二指标和所述丢失帧的上一帧中与针对所述丢失帧所生成的一个单声道分量对应的单声道分量的能量的第一指标；以及如果所述第二指标大于所述第一指标，则基于所述去相关信号来确定所述能量调整增
30. 根据权利要求18所述的丢包掩蔽方法，其中生成所述至少一个空间分量包括：通过对相邻帧的所述至少一个空间分量的值进行平滑来针对所述丢失帧生成所述至少一个空间分量。
31. 根据权利要求18所述的丢包掩蔽方法，其中生成所述至少一个空间分量包括：基于至少一个相邻历史帧和至少一个相邻未来帧中对应的空间分量的值通过内插算法来针对所述丢失帧生成所述至少一个空间分量。
32. 根据权利要求18到31之一所述的丢包掩蔽方法，其中，用第一掩蔽方法针对所述丢失帧生成所述至少一个单声道分量，用第二掩蔽方法针对所述丢失帧生成所述至少一个空间分量，其中所述第一掩蔽方法与所述第二掩蔽方法不同。
33. 根据权利要求18到32之一所述的丢包掩蔽方法，还包括对音频包进行逆自适应变换，以获得逆变换的声场信号。
34. 根据权利要求33所述的丢包掩蔽方法，其中，所述逆自适应变换包括逆卡洛南-洛伊变换。
35. -种音频处理系统，包括：包含根据权利要求1至17中任一项所述的丢包掩蔽装置的服务器，和/或包含根据权利要求1至17中任一项所述的丢包掩蔽装置的通信终端。
36. 根据权利要求35所述的音频处理系统，还包括含有第二变换器的通信终端，该第二变换器用于对输入音频信号执行自适应变换，以提取所述至少一个单声道分量和所述至少一个空间分量。
37. 根据权利要求36所述的音频处理系统，其中，所述自适应变换包括卡洛南-洛伊变换。
38. 根据权利要求36所述的音频处理系统，其中所述第二变换器还包括：自适应变换器，用于将所述输入音频信号的每一帧分解为所述至少一个单声道分量，所述至少一个单声道分量通过变换矩阵与所述输入音频信号的所述帧相关联；平滑单元，用于平滑所述变换矩阵中每一个元素的值，得到当前帧的平滑后的变换矩阵；以及空间分量提取器，用于从所述平滑后的变换矩阵得到所述至少一个空间分量。
【文档编号】G10L19/02GK104282309SQ201310282083
【公开日】2015年1月14日申请日期:2013年7月5日优先权日:2013年7月5日
【发明者】黄申, 孙学京, 海科·普尔哈根申请人:杜比实验室特许公司, 杜比国际公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄申;孙学京;海科·普尔哈根
技术所有人：杜比实验室特许公司;杜比国际公司
我是此专利的发明人

上一篇：一种非周期成分音节模型建立、及语音合成的方法和设备的制作方法
上一篇：乐音产生装置以及乐音产生方法