音频编码装置、方法以及音频解码装置、方法

文档序号：9218171阅读：398来源：国知局

音频编码装置、方法以及音频解码装置、方法
【专利说明】
[0001] 本发明专利申请是发明名称为"音频编码装置、方法和程序以及音频解码装置、方法和程序"、申请日为2011年11月4日、国际申请号为"PCT/JP2011/075489"、国家申请号为"201180056122. 7"的发明专利申请的分案申请。
技术领域
[0002] 本发明涉及经由IP网和移动通信网传输包含对由多个帧构成的音频信号进行编码而得到的音频码的音频分组时的错误掩藏，更具体而言，涉及用于实现错误掩藏的音频编码装置、音频编码方法和音频编码程序以及音频解码装置、音频解码方法和音频解码程序。
【背景技术】
[0003]在IP网和移动通信中传输音频/声音信号（以下称作"音频信号"）时，对音频信号进行编码而以较小的比特数来表现并分割为音频分组，经由通信网传输该音频分组。通过通信网接收到的音频分组在接收侧的服务器、MCU、终端等中被解码，从而得到解码音频信号。
[0004]在通过通信网传输音频分组时，由于通信网的拥挤状态等，可能会产生丢失一部分音频分组或在写入到音频分组中的一部分信息中产生错误的现象（所谓的分组丢失）。在这种情况下，无法在接收侧对音频分组进行正确解码，因此不能得到期望的解码音频信号。此外，由于与产生分组丢失的音频分组对应的解码音频信号被感知为噪音，因此显著损坏对收听的人赋予的主观品质。
[0005]为了消除上述那样的不良情况，存在"接收侧中的掩藏技术"和"发送侧中的掩藏技术"，作为对由于分组丢失而丢失的部分的音频声音信号进行插值的分组丢失掩藏技术。
[0006]在其中的"接收侧中的掩藏技术"中，例如非专利文献1的技术那样，通过在以音调（pitch)为单位复制了之前正常接收到的分组所包含的解码音频信号后，乘以预先确定的衰减系数，生成与分组丢失的部分对应的音频信号。但是，"接收侧中的掩藏技术"以分组丢失的部分的音频性质与分组丢失紧之前的音频相似为前提，因此在分组丢失的部分与丢失紧之前的音频具有不同性质的情况、和功率急剧变化的情况下不能充分发挥掩藏效果。
[0007]此外，在"接收侧中的掩藏技术"中存在专利文献1的技术作为更高级的技术。在该专利文献1的技术中，复制之前正常接收到的分组所包含的解码音频来生成掩藏信号，但以下方法与上述非专利文献1的技术不同：通过乘以根据复制源的音频性质（功率谱的形状）而发生变化的衰减系数，进行异常声音少且高音质的掩藏信号的整形。
[0008]另一方面，存在专利文献2的技术和专利文献3的技术作为"发送侧中的掩藏技术"。
[0009]在其中的专利文献2的技术中，将之前正常接收到的分组所包含的音频信号蓄积到缓冲器中，并且将表示在丢失分组时从缓冲器的哪个位置复制音频信号的位置信息编码为辅助信息并进行传输。并且，除了位置信息以外，还在辅助信息中包含表示分组丢失部分是否为无声区间这样的振幅信息，由此防止在产生了分组丢失的部分本来是无声区间的情况下混入不必要的声音的情况。
[0010] 此外，在专利文献3的技术中，解码装置具有：掩藏分组丢失的第一掩藏装置；根据辅助信息修正第一掩藏装置输出的第一掩藏信号的第二掩藏装置；以及对辅助信息进行解码的辅助信息解码装置。在第一掩藏装置中不能充分发挥掩藏效果的情况下，第二掩藏装置使用辅助信息解码装置生成的辅助信息来修正第一掩藏信号，生成第二掩藏信号。作为辅助信息，利用功率谱包络、根据相邻的帧的功率谱包络预测的值和对输入功率谱包络的误差进行编码得到的值。第二掩藏装置在具有能够用作辅助信息的功率谱包络的频域中对第一掩藏信号乘以增益，生成比第一掩藏信号精度更高的第二掩藏信号。
[0011] 现有技术文献
[0012] 专利文献
[0013] 专利文献1 :日本再公表特许W02007/000988号公报
[0014] 专利文献2 :日本特开2003 - 316670号公报
[0015] 专利文献3 :日本特开2008 - 111991号公报
[0016] 非专利文献
[0017]非专利文献 1 :ITU - TG. 711AppendixI

【发明内容】

[0018] 发明要解决的课题
[0019] 但是，专利文献1的技术是根据之前正常接收到的解码信号，通过预测生成掩藏信号的方法，因此难以根据之前的信号高精度地生成例如响板的拍打声那样具有与预测结果偏离较大的功率变化的掩藏信号。
[0020] 此外，专利文献2的技术在发送侧生成与无声区间相关的振幅信息，防止在分组丢失的部分为无声区间的情况下生成掩藏信号，但对于上述的响板的拍打声那样的伴随突发的功率变化的声音不具有足够的掩藏效果。
[0021] 此外，专利文献3的技术是在以帧为单位进行时频变换后进行频域中的处理的方法，因此处理的单位是帧单位，难以处理帧内的急剧的功率变化。此外，以之前的信号和分组丢失的信号的相关性高为前提对分组丢失部分的解码音频进行高精度化，因此在功率急剧变化的部分产生分组丢失的情况下，信号的相关性变低，因此功率谱包络的预测误差变大，所以难以利用较少的比特数来进行编码，难以生成高精度的解码音频。
[0022] 如上所述，在现有技术中，具有如下问题：对拍手和响板的拍打声那样的伴随有在时间上较快的功率变化的信号（以下称作"瞬态信号"）不具有足够的错误掩藏效果。即，在接收侧，要根据通过解码由紧之前正常接收到的音频分组而得到的解码信号，正确预测在音频信号中的哪个时刻产生瞬态信号是极为困难的。
[0023] 本发明的目的在于解决上述问题，给出能够高精度地掩藏难以根据前后信号来预测的瞬态信号中的分组丢失的错误掩藏技术。
[0024]用于解决课题的手段
[0025] 本发明的一个方面的音频编码装置，其对由多个帧构成的音频信号进行编码，其中，该音频编码装置具有：音频编码部，其对音频信号进行编码；以及辅助信息编码部，其估计辅助信息并对其进行编码，该辅助信息被用于解码音频信号时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，所述辅助信息编码部作为所述辅助信息，估计与功率的变化相关的标志和量化瞬态功率并对其进行编码。
[0026] 也可以是，所述辅助信息仅包含所述标志和所述量化瞬态功率。
[0027] 此外，本发明的另一个方面的音频编码装置，其对由多个帧构成的音频信号进行编码，其中，该音频编码装置具有：音频编码部，其对音频信号进行编码；以及辅助信息编码部，其估计辅助信息并对其进行编码，该辅助信息被用于解码音频信号时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，所述辅助信息编码部作为所述辅助信息，估计与功率的变化相关的标志并对其进行编码，在所述标志为规定的模式的情况下，作为所述辅助信息，还估计量化瞬态功率并对其进行编码，在所述标志不为规定的模式的情况下，作为所述辅助信息，不包含量化瞬态功率。
[0028] 本发明的一个方面的音频解码装置，其根据包含音频码和辅助信息码的音频分组对音频码进行解码，所述辅助信息码被用于解码音频码时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，其中，该音频解码装置具有：错误/丢失检测部，其检测音频分组中的分组错误或分组丢失，并输出表示检测结果的错误标志；音频解码部，其对音频分组中包含的音频码进行解码来求出解码信号；辅助信息解码部，其对音频分组中包含的辅助信息码进行解码来求出辅助信息；第一掩藏信号生成部，其在所述错误标志表示音频分组的异常的情况下，根据已经求出的解码信号，生成用于掩藏分组丢失的第一掩藏信号；以及掩藏信号修正部，其根据所述辅助信息，修正第一掩藏信号，所述辅助信息解码部对所述辅助信息码中包含的与功率的变化相关的标志和量化瞬态功率进行解码，作为辅助信息求出所述标志和所述量化瞬态功率。
[0029] 也可以是，所述辅助信息仅包含所述标志和所述量化瞬态功率。
[0030] 此外，本发明的另一个方面的音频解码装置，其根据包含音频码和辅助信息码的音频分组对音频码进行解码，所述辅助信息码被用于解码音频码时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，其中，该音频解码装置具有：错误/丢失检测部，其检测音频分组中的分组错误或分组丢失，并输出表示检测结果的错误标志；音频解码部，其对音频分组中包含的音频码进行解码来求出解码信号；辅助信息解码部，其对音频分组中包含的辅助信息码进行解码来求出辅助信息；第一掩藏信号生成部，其在所述错误标志表示音频分组的异常的情况下，根据已经求出的解码信号，生成用于掩藏分组丢失的第一掩藏信号；以及掩藏信号修正部，其根据所述辅助信息，修正第一掩藏信号，所述辅助信息解码部对所述辅助信息码中包含的与功率的变化相关的标志进行解码，在所述标志为规定的模式的情况下，还对所述辅助信息码中包含的量化瞬态功率进行解码，作为辅助信息求出所述标志和所述量化瞬态功率，在所述标志不为规定的模式的情况下，作为所述辅助信息，不包含量化瞬态功率。
[0031] 本发明的一个方面的由音频编码装置执行的音频编码方法，该音频编码装置对由多个帧构成的音频信号进行编码，其中，该音频编码方法具有：音频编码步骤，对音频信号进行编码；以及辅助信息编码步骤，估计辅助信息并对其进行编码，该辅助信息被用于解码音频信号时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，在所述辅助信息编码步骤中，所述音频编码装置作为所述辅助信息，估计与功率的变化相关的标志和量化瞬态功率并对其进行编码。
[0032] 此外，本发明的另一个方面的由音频编码装置执行的音频编码方法，该音频编码装置对由多个帧构成的音频信号进行编码，其中，该音频编码方法具有：音频编码步骤，对音频信号进行编码；以及辅助信息编码步骤，估计辅助信息并对其进行编码，该辅助信息被用于解码音频信号时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，在所述辅助信息编码步骤中，所述音频编码装置作为所述辅助信息，估计与功率的变化相关的标志并对其进行编码，在所述标志为规定的模式的情况下，作为所述辅助信息，还估计量化瞬态功率并对其进行编码，在所述标志不为规定的模式的情况下，作为所述辅助信息，不包含量化瞬态功率。
[0033] 本发明的一个方面的由音频解码装置执行的音频解码方法，该音频解码装置根据包含音频码和辅助信息码的音频分组对音频码进行解码，所述辅助信息码被用于解码音频码时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，其中，该音频解码方法具有：错误/丢失检测步骤，检测音频分组中的分组错误或分组丢失，并输出表示检测结果的错误标志；音频解码步骤，对音频分组中包含的音频码进行解码来求出解码信号；辅助信息解码步骤，对音频分组中包含的辅助信息码进行解码来求出辅助信息；第一掩藏信号生成步骤，其在所述错误标志表示音频分组的异常的情况下，根据已经求出的解码信号，生成用于掩藏分组丢失的第一掩藏信号；以及掩藏信号修正步骤，根据所述辅助信息，修正第一掩藏信号，在所述辅助信息解码步骤中，所述音频解码装置对所述辅助信息码中包含的与功率的变化相关的标志和量化瞬态功率进行解码，作为辅助信息求出所述标志和所述量化瞬态功率。
[0034]此外，本发明的另一个方面的由音频解码装置执行的音频解码方法，该音频解码装置根据包含音频码和辅助信息码的音频分组对音频码进行解码，所述辅助信息码被用于解码音频码时的分组丢失的掩藏，并与音频信号的功率的时间变化相关，其中，该音频解码方法具有：错误/丢失检测步骤，检测音频分组中的分组错误或分组丢失，并输出表示检测结果的错误标志；音频解码步骤，对音频分组中包含的音频码进行解码来求出解码信号；辅助信息解码步骤，对音频分组中包含的辅助信息码进行解码来求出辅助信息；第一掩藏信号生成步骤，在所述错误标志表示音频分组的异常的情况下，根据已经求出的解码信号，生成用于掩藏分组丢失的第一掩藏信号；以及掩藏信号修正步骤，根据所述辅助信息，修正第一掩藏信号，在所述辅助信息解码步骤中，所述音频解码装置对所述辅助信息码中包含的与功率的变化相关的标志进行解码，在所述标志为规定的模式的情况下，还对所述辅助信息码中包含的量化瞬态功率进行解码，作为辅助信息求出所述标志和所述量化瞬态功率，在所述标志不为规定的模式的情况下，作为所述辅助信息，不包含量化瞬态功率。
[0035] 发明效果
[0036] 本发明通过以上所述的方法，能够送出与功率急剧变化的部分相关的信息，因此能够针对在现有技术中难以实现分组丢失掩藏的伴随有功率的急剧的时间变化的信号 (瞬态信号）实现高精度的分组丢失掩藏。
【附图说明】
[0037] 图1是示出发明的一个实施方式中的系统环境的图。
[0038] 图2是第1、第2、第3、第6实施方式中的编码部的结构图。
[0039] 图3是图2的编码部的处理的流程图。
[0040] 图4是第1实施方式等中的辅助信息编码部的结构图。
[0041] 图5是示出作为音频编码对象的信号和作为辅助信息编码对象的信号之间的时间关系以及比特流的结构例的图。
[0042] 图6是第1、第2、第3、第5、第6实施方式中的解码部的结构图。
[0043] 图7是图6的解码部的处理的流程图。
[0044] 图8是示出掩藏信号修正部的处理的一例的流程图。
[0045] 图9是示出辅助信息编码部的结构的一例的图。
[0046] 图10是第4、第5实施方式中的编码部的结构图。
[0047] 图11是示出第一掩藏信号生成部的结构的一例的图。
[0048] 图12是示出掩藏信号修正部的处理的一例的流程图。
[0049] 图13是第4实施方式中的解码部的结构图。
[0050] 图14是示出第6实施方式中的作为音频编码对象的信号和作为辅助信息编码对象的信号之间的时间关系以及比特流的结构例的图。
[0051] 图15是计算机的硬件结构图。
[0052] 图16是计算机的外观图。
[0053] 图17是示出音频编码程序的结构的图。
[0054] 图18是示出音频解码程序的结构的图。
[0055] 图19是示出解码部的其他结构例的图。
[0056] 图20是第7实施方式中的辅助信息编码部的结构图。
[0057] 图21是图20的辅助信息编码部的处理的流程图。
[0058] 图22是第7、第11实施方式中的辅助信息解码部的结构图。
[0059] 图23是图22的辅助信息解码部的处理的流程图。
[0060] 图24是第7、第8实施方式中的掩藏信号修正部的结构图。
[0061] 图25是第7实施方式的掩藏信号修正部的处理的流程图。
[0062] 图26是第8实施方式中的辅助信息编码部的结构图。
[0063] 图27是图26的辅助信息编码部的处理的流程图。
[0064] 图28是示出第8实施方式中的辅助信息编码部的变形例的结构图。
[0065] 图29是图28的辅助信息编码部的处理的流程图。
[0066] 图30是第8实施方式中的辅助信息解码部的结构图。
[0067] 图31是图30的辅助信息解码部的处理的流程图。
[0068] 图32是第8实施方式的掩藏信号修正部的处理的流程图。
[0069]图33是第10实施方式中的辅助信息编码部的结构图。
[0070]图34是图33的辅助信息编码部的处理的流程图。
[0071]图35是第10实施方式中的辅助信息解码部的结构图。
[0072] 图36是图35的辅助信息解码部的处理的流程图。
[0073] 图37是第10实施方式中的掩藏信号修正部的处理的流程图。
[0074] 图38是第11实施方式中的辅助信息编码部的结构图。
[0075] 图39是图38的辅助信息编码部的处理的流程图。
[0076] 图40是第11实施方式中的辅助信息解码部的处理的流程图。
[0077] 图41是示出瞬态检测部的输出内容的图。
[0078] 图42是示出瞬态位置信息的标量量化方法的例子的图。
[0079] 图43是第12实施方式中的辅助信息编码部的结构图。
[0080] 图44是第12实施方式中的辅助信息解码部的结构图。
[0081] 图45是第13实施方式中的辅助信息编码部的结构图。
[0082] 图46是第13实施方式中的辅助信息解码部的结构图。
[0083] 图47是第14实施方式中的辅助信息编码部的结构图。
[0084] 图48是第14实施方式中的辅助信息解码部的结构图。
[0085] 图49是第15实施方式中的辅助信息编码部的结构图。
[0086] 图50是第15实施方式中的辅助信息解码部的结构图。
【具体实施方式】
[0087] 以下，使用【附图说明】本发明的各种实施方式。
[0088][第1实施方式]
[0089]首先，使用图1说明本发明假定的系统环境。如图1所示，通过麦克风等传感器得到的音频信号用数字形式来表现，并被输入到编码部1。
[0090] 每当所确定的样本数量的音频信号被蓄积预定量到内置的缓冲器中时，编码部1 对缓冲器内的数字信号进行编码。将上述预定量的、即蓄积的样本数量称作帧长度，将蓄积在缓冲器中的数字信号的集合称作帧。例如，在以32kHz的采样频率进行收音时设为了 20ms的帧长度的情况下，将640样本的数字信号蓄积到缓冲器中。另外，缓冲器的长度可以长于1帧。例如，在将缓冲器的长度设为2帧的情况下，如果仅在最初等待将2帧的数字信号蓄积到缓冲器中后再开始编码，则能够将作为编码对象的帧的下一帧数字信号用于辅助信息的估计。作为进行编码的时刻，可以以帧长度为单位进行编码，也可以使帧之间具有一定长度的重叠来进行编码。编码采用3GPP enhanced aacPlus或G. 718等的音频编码。关于音频编码的方法，可以使用任何方法。此外，为了辅助信息计算而使用蓄积在缓冲器中的音频声音信号计算辅助信息，进行编码并传输（辅助信息码）。辅助信息码可以与音频码利用同一个分组来传输，也可以用与包含音频码的分组不同的分组来传输。之后将对编码部 1的动作的详细情况进行叙述。
[0091]分组构成部2在由编码部1得到的音频码中附加RTP头等通信所需的信息，生成音频分组。通过网络将所生成的音频分组送出到接收侧。
[0092] 分组分离部3将通过网络接收到的音频分组分

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：堤公孝;菊入圭;
技术所有人：株式会社NTT都科摩;
我是此专利的发明人

上一篇：一种直录播互动系统中的音频处理方法及装置的制造方法
上一篇：用于信号处理的方法和装置的制造方法