一种音频信号增强方法和装置的制造方法_4

文档序号：9249914阅读：来源：国知局

益参数等作为特征，判断语音是否存在。
[0175] 本实施例中，还可W包括如下步骤：
[0176] 当检测到所述音频信号中连续的多帖的噪声类型与之前判断的所述音频信号中包含的噪声类型不同时，在所述连续的多帖内统计所述连续的多帖包含的每种噪声类型的帖数量，选择帖数量最多的噪声类型作为所述音频信号的当前噪声类型；
[0177] 所述使用预先为所述音频信号的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值，包括：
[0178] 使用预先为所述音频信号的当前噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值。
[0179] 该实施方式可W实现及时调整音频信号的噪声类型，因为一个音频信号往往会包括多个音频信号帖，而该些音频信号帖也可能会存在不同噪声类型的音频信号帖，从而通过上述步骤就可W实现及时使用当前正确的噪声类型对应的神经网络进行增强，W提高音频信号的质量。
[0180] 本实施例中，在图1所示的实施例的基础上增加了多种可选的实施方式，且都可 W实现降低音频信号的增强过程中计算复杂度和附加时延。
[0181] 请参阅图6,图6是本发明实施例提供的另一种音频信号增强方法的示意图，该实施例中WISF参数进行举例，如图6所示包括W下步骤：
[0182] 601、利用部分解码器从输入比特流中提取含噪语音的编码参数，其中，编码参数包括ISF参数、自适应码书增益gp(m)、代数码书增益g。(m)、自适应码书矢量dm(n)和代数码书矢量Cm(n)等；
[0183] 602、利用部分解码器得到的自适应码书增益、代数码书增益、自适应码书矢量和代数码书矢量参数，对自适应码书增益和代数码书增益进行联合调整，得到调整后的自适应码书增益和代数码书增益。
[0184] 603、WISF和码书增益相关参数作为特征，利用高斯混合模型（GMM)对背景噪声进行分类。
[01化]其中，上述码书增益相关参数可W包括自适应码书增益的平均值和代数码书增益的方差。
[0186] 604、根据噪声分类的结果，选择对应的递归深度神经网络（RDNN)模型对部分解码器得到的含噪语音的ISF参数进行处理，得到纯净语音ISF参数的估计值。
[0187] 605、对调整后的自适应码书增益和代数码书增益参数，W及调整后的ISF参数进行重新量化，并替换码流中的对应位置。
[01能]本实施例中，引入畑順模型对含噪语音的谱包络参数（如ISF参数）进行调整，由于模型中时域递归连接的存在，可有效提升谱包络参数调整结果的时域平滑性，改善语音质量。另外，基于的谱包络参数调整方法可W避免现有方法中调整后的LPC滤波器不稳定的问题，提高算法鲁椿性。W及引入基于GMM的噪声分类后，谱包络调整时可W选择对应当前噪声环境的RDW^模型，有助于提高算法对复杂噪声环境的适应性。且与现有技术方案相比，基于的谱包络估计方法计算复杂度较低，可有效提高运行速度。
[0189] 下面为本发明装置实施例，本发明装置实施例用于执行本发明方法实施例一至二实现的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例一和实施例二。
[0190] 请参阅图7,图7是本发明实施例提供的一种音频信号增强装置的结构示意图，如图7所示，包括：解码单元71、增强单元72和替换单元73,其中：
[0191] 解码单元71，用于解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数。
[0192] 本实施例中，上述待增强帖可W理解为上述音频信号的当前帖，即上述音频信号中当前输入的音频信号帖。另外，上述输入可W理解为本方法的输入，或者执行本方法的装置的输入。
[0193] 另外，解码单元71还可W理解为仅对上述待增强帖中谱包络参数对应的比特进行解码，其中，上述中谱包络参数对应的比特可W是该音频信号帖包括的比特流中为谱包络参数的比特。其中，上述谱包络参数可W包括；线谱频率（LineSpectral化equencies， LSF)、导抗谱频率（ImmittanceSpectralRrequencies，ISF〇或者线性预测系数（Linear PredictionCoefficients,LPC)等其他等价参数。
[0194] 本实施例中，上述音频信号可W是语音信号或者音乐信号等比特流中包含谱包络参数的任意音频信号。
[0195] 增强单元72,用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值。
[0196] 本实施例中，可W是预先设定多个神经网络，且每个神经网络与一种噪声类型对应，该样当上述音频信号的噪声类型确定后，就可W选择该噪声类型对应的神经网络进行增强处理。
[0197] 另外，本实施例中，上述音频信号中包含的噪声类型可W是在对上述待增强帖进行解码之前获取的，例如；通过对上述音频信号的起始段的若干个帖的噪声类型统计获得的上述音频信号中包含的噪声类型；或者通过对上述音频信号的若干个不存在语音信号的帖的噪声类型统计获得的上述音频信号中包含的噪声类型等等。或者通过与上述待增强帖相邻的若干个帖的噪声类型统计获得的上述音频信号中包含的噪声类型。另外，上述音频信号中包含的噪声类型还可W是根据该音频信号的来源进行确认的，例如；打电话的语音信号可W根据电话双方的地理位置、通话时间或者历史语音信号的噪声类型等信息确认该语音信号的噪声类型，如通过电话双的地理位置判断一方在某一工地时，那么就可W确定当前语音信号的噪声类型为工地对应的噪声类型，或者某一用户打电话时，该用户输出的语音信号中十次有九次的噪声类型都为噪声类型A时，那么，就可W根据该历史记录确定该用户在下一次打电话时输出的语音信号中包含的噪声类型为噪声类型A。
[0198] 替换单元73,用于对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[0199] 由于在对上述待增强帖进行解码时，只获取上述待增强帖的谱包络参数，而上述待增强帖中的其他参数可W不进行解码，从而步骤103将上述待增强帖的谱包络参数的纯净估计值的量化索引替换掉所述待增强帖的谱包络参数对应的比特后，就可W得到经过增强的待增强帖的比特流。
[0200] 另外，本实施例中，上述装置可W应用于任意具备解码和计算功能的智能设备，例如；服务器、网络侧设备、个人计算机（PersonalComputer,PC)、笔记本电脑、手机、平板电脑等智能设备。
[0201] 本实施例中，解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数；使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值；对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数的纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。该样可W实现只需要对音频信号帖的谱包络参数对应的比特进行解码，即进行部分解码，从而可W降低音频信号的增强过程中计算复杂度和附加时延。
[0202] 请参阅图8,图8是本发明实施例提供的另一种音频信号增强装置的结构示意图，如图8所示，包括：解码单元81、增强单元82和替换单元83,其中：
[0203] 解码单元81，用于解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数。
[0204] 增强单元82,用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的待增强帖的谱包络参数进行增强处理，W获取所述待增强帖的谱包络参数的纯净估计值。
[02化]本实施例中，增强单元82可W包括：
[0206] 第一计算单元821，用于计算所述音频信号的待增强帖与若干帖的谱包络参数的均值，其中，所述若干帖为所述音频信号中在所述待增强帖之前的若干帖；
[0207] 第二计算单元822,用于计算所述待增强帖的去均值的谱包络参数，其中，所述去均值的谱包络参数为所述待增强帖的谱包络参数与所述均值的差值；
[0208] 第S计算单元823,用于使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱包络参数进行增强处理，W得到所述去均值的谱包络参数的纯净估计值；
[0209] 第四计算单元824,用于将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的均值相加，W得到所述待增强帖的谱包络参数的纯净估计值。
[0210] 本实施例中，上述神经网络可W是递归深度神经网络或者其他神经网络，其中，使用递归深度神经网络化e州；TrentDe巧化uralNetwork,畑NN)时，由于畑順中时域递归连接的存在，可有效提升谱包络调整结果的平滑性，从而改善音频信号质量，另外，基于RD順的谱包络参数调整的方法还可W避免现有方法调整后的LPC滤波器不稳定的问题，从而可 W提高算法鲁椿性，另外，基于RD順的谱包络估计方法计算复杂度比较低，从而可有效提高运算速度。
[0211] 替换单元83,用于对所述纯净估计值进行量化，得到所述待增强帖的谱包络参数纯净估计值的量化索引，并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[0212] 本实施例中，如图9所示，上述装置还可W包括：
[0213] 调整单元84,用于对所述待增强帖的自适应码书增益和代数码书增益进行联合调整，分别对联合调整后的自适应码书增益和代数码书增益进行量化，得到所述待增强帖的联合调整后的自适应码书增益的量化索引和代数码书增益的量化索引，其中，所述待增强帖的自适应码书增益和代数码书增益是对所述待增强帖进行解码操作获取的；
[0214] 替换单元83还可W用于将所述待增强帖联合调整后的的自适应码书增益的量化索引替换掉所述待增强帖的自适应码书增益对应的比特，将所述待增强帖的联合调整后的代数码书增益的量化索引替换掉所述待增强帖的代数码书增益对应的比特。
[0215] 其中，上述待增强帖的自适应码书增益和代数码书增益可W是对所述待增强帖进行解码操作获取的，例如，解码单元81可W用于解码输入的音频信号的比特流，获取所述音频信号的待增强帖的谱包络参数、自适应码书增益和代数码书增益。
[0216] 即解码单元81对待增强帖的谱包络参数、自适应码书增益和代数码书增益对应比特进行解码。
[0217] 本实施例中，上述对所述待增强帖的自适应码书增益和代数码书增益进行联合调整可W采用能量守恒准则进行调整，例如：可W将上述待增强帖的自适应码书增益和代数码书增益分别定义为第一自适应码书增益和第一代数码书增益，而将联合调整后的待增强帖的自适应码书增益和代数码书增益分别定义为第二自适应码书增益和第二代数码书增益，具体调整过程可W如下：
[0218] 调整第一代数码书增益，得到第二代数码书增益；
[0219] 根据第一自适应码书增益和第二代数码书增益，确定第二自

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6