一种音频信号增强方法和装置的制造方法_2

文档序号:9249914阅读:来源:国知局
先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信 号的待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计 值;对所述纯净估计值进行量化,得到所述待增强帖的谱包络参数的纯净估计值的量化索 弓I,并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。该样可W实现只需 要对音频信号帖的谱包络参数对应的比特进行解码,即进行部分解码,从而可W降低音频 信号的增强过程中计算复杂度和附加时延。
【附图说明】
[0055] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据该些附图获得其他的附图。
[0056] 图1是本发明实施例提供的一种音频信号增强方法的流程示意图;
[0化7] 图2是本发明实施例提供的另一种音频信号增强方法的流程示意图;
[0化引图3是本发明实施例提供的一种RD順模型示意图;
[0059] 图4是本发明实施例提供的另一种RD順模型示意图;
[0060] 图5是本发明实施例提供的一种GMM模型的结构示意图;
[0061] 图6是本发明实施例提供的另一种音频信号增强方法的示意图;
[0062] 图7是本发明实施例提供的一种音频信号增强装置的结构示意图;
[0063] 图8是本发明实施例提供的另一种音频信号增强装置的结构示意图;
[0064] 图9是本发明实施例提供的另一种音频信号增强装置的结构示意图;
[0065] 图10是本发明实施例提供的另一种音频信号增强装置的结构示意图;
[0066] 图11是本发明实施例提供的另一种音频信号增强装置的结构示意图。
【具体实施方式】
[0067] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0068] 请参阅图1,图1是本发明实施例提供的一种音频信号增强方法的流程示意图,如 图1所示,包括W下步骤:
[0069] 101、解码输入的音频信号的比特流,获取所述音频信号的待增强帖的谱包络参 数。
[0070] 本实施例中,上述待增强帖可W理解为上述音频信号的当前帖,即上述音频信号 中当前输入的音频信号帖。另外,上述输入可W理解为本方法的输入,或者执行本方法的装 置的输入。
[0071] 另外,步骤101还可W理解为仅对上述待增强帖中谱包络参数对应的比特进行 解码,其中,上述中谱包络参数对应的比特可W是该音频信号帖包括的比特流中为谱包络 参数的比特。其中,上述谱包络参数可W包括;线谱频率(LineSpectral化equencies, LSF)、导抗谱频率(ImmittanceSpectralRrequencies,ISF〇 或者线性预测系数(Linear PredictionCoefficients,LPC)等其他等价参数。
[0072] 本实施例中,上述音频信号可W是语音信号或者音乐信号等比特流中包含谱包络 参数的任意音频信号。
[0073] 102、使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信 号的待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计 值。
[0074] 本实施例中,可W是预先设定多个神经网络,且每个神经网络与一种噪声类型对 应,该样当上述音频信号的噪声类型确定后,就可W选择该噪声类型对应的神经网络进行 增强处理。
[0075] 另外,本实施例中,上述音频信号中包含的噪声类型可W是在对上述待增强帖进 行解码之前获取的,例如;通过对上述音频信号的起始段的若干个帖的噪声类型统计获得 的上述音频信号中包含的噪声类型;或者通过对上述音频信号的若干个不存在语音信号的 帖的噪声类型统计获得的上述音频信号中包含的噪声类型等等。或者通过与上述待增强帖 相邻的若干个帖的噪声类型统计获得的上述音频信号中包含的噪声类型。另外,上述音频 信号中包含的噪声类型还可W是根据该音频信号的来源进行确认的,例如;打电话的语音 信号可W根据电话双方的地理位置、通话时间或者历史语音信号的噪声类型等信息确认该 语音信号的噪声类型,如通过电话双方的地理位置判断一方在某一工地时,那么就可W确 定当前语音信号的噪声类型为工地对应的噪声类型,或者某一用户打电话时,该用户输出 的语音信号中十次有九次的噪声类型都为噪声类型A时,那么,就可W根据该历史记录确 定该用户在下一次打电话时输出的语音信号中包含的噪声类型为噪声类型A。
[0076] 103、对所述纯净估计值进行量化,得到所述待增强帖的谱包络参数的纯净估计值 的量化索引,并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。
[0077] 由于在对上述待增强帖进行解码时,只获取上述待增强帖的谱包络参数,而上述 待增强帖中的其他参数可W不进行解码,从而步骤103将上述待增强帖的谱包络参数的纯 净估计值的量化索引替换掉所述待增强帖的谱包络参数对应的比特后,就可W得到经过增 强的待增强帖的比特流。
[007引另外,本实施例中,上述方法可W应用于任意具备解码和计算功能的智能设备,例 如;服务器、网络侧设备、个人计算机(PersonalComputer,PC)、笔记本电脑、手机、平板电 脑等智能设备。
[0079] 本实施例中,解码输入的音频信号的比特流,获取所述音频信号的待增强帖的谱 包络参数;使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信号的 待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计值; 对所述纯净估计值进行量化,得到所述待增强帖的谱包络参数的纯净估计值的量化索引, 并将所述量化索引替换掉所述待增强帖的谱包络参数对应的比特。该样可W实现只需要对 音频信号帖的谱包络参数对应的比特进行解码,即进行部分解码,从而可W降低音频信号 的增强过程中计算复杂度和附加时延。
[0080] 请参阅图2,图2是本发明实施例提供的另一种音频信号增强方法的流程示意图, 如图2所示,包括W下步骤:
[0081] 201、解码输入的音频信号的比特流,获取所述音频信号的待增强帖的谱包络参 数。
[0082] 202、使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述音频信 号的待增强帖的谱包络参数进行增强处理,W获取所述待增强帖的谱包络参数的纯净估计 值。
[0083] 本实施例中,步骤202可W包括:
[0084] 计算所述音频信号的待增强帖与若干帖的谱包络参数的均值,其中,所述若干帖 为所述音频信号中在所述待增强帖之前的若干帖;
[0085] 计算所述待增强帖的去均值的谱包络参数,其中,所述去均值的谱包络参数为所 述待增强帖的谱包络参数与所述均值的差值;
[0086] 使用预先为所述音频信号中包含的噪声类型设置的神经网络对所述去均值的谱 包络参数进行增强处理,W得到所述去均值的谱包络参数的纯净估计值;
[0087] 将所述去均值的谱包络参数的纯净估计值与预先获取的纯净音频谱包络参数的 均值相加,W得到所述待增强帖的谱包络参数的纯净估计值。
[008引本实施例中,上述神经网络可W是递归深度神经网络或者其他神经网络,其中,使 用递归深度神经网络化e州;TrentDe巧化uralNetwork,畑NN)时,由于畑順中时域递归连 接的存在,可有效提升谱包络调整结果的平滑性,从而改善音频信号质量,另外,基于RD順 的谱包络参数调整的方法还可W避免现有方法调整后的LPC滤波器不稳定的问题,从而可 W提高算法鲁椿性,另外,基于RD順的谱包络估计方法计算复杂度比较低,从而可有效提 局运算速度。
[0089] 下面对本实施例使用的畑順进行详细介绍:
[0090] 上述RD順可W如图3所示,其中,图3中所示RD順模型的相关符号解释如下 表示上述去均值的谱包络参数(例如:含噪语音的去均值ISF特征),式/。,"表示上述去均值 的谱包络参数的纯净估计值(例如:纯净语音去均值ISF特征的估计值),hi、h2、h3为隐层 状态,Wl、W2、W3、W4为各层之间的权重矩阵,bl、b2、b3、b4为各层的偏移量矢量,U为递归连接 矩阵,m为帖标号。另外,图3所示的畑順模型各层之间的映射关系描述如下:
[0091] 显层到隐层1的映射关系为:
[0092] hi(m) =0(WiXno切(m)+bi)
[0093] 隐层1到隐层2的映射关系为:
[0094] ha(m) =0(Wahl(m)+h^
[0095] 隐层2到隐层3的映射关系为:
[009(5] h3(m) =。(W3(h2(m)+Uh2(m-l))+b3)
[0097] 隐层3到输出层的映射关系为;
[009引 S,,。",恤)=W山帕+b,
[0099] 式中0为Sigmoid激活函数。
[0100] 另外,上述畑順还可W如图4所示,其中,图4中所示畑順模型的相关符号解释如 下屯。1。表示上述去均值的谱包络参数(例如冶噪语音的去均值ISF特征),表示上 述去均值的谱包络参数的纯净估计值(例如:纯净语音去均值ISF特征的估计值),hi、tv h巧隐层状态,W1、胖2、胖3、胖4为各层之间的权重矩阵,13 1、62、63、64为各层的偏移量矢量,口为 递归连接矩阵,m为帖标号。另外,图4所示的RD順模型各层之间的映射关系描述如下:
[0101] 显层到隐层1的映射关系为:
[0102] hi(m) =0(WiXno切(m)+bi)
[0103] 隐层1到隐层2的映射关系为:
[0104] hg(m) =0(胖2化1(m) +U山(m-1)) +b2)
[01化]隐层2到隐层3的映射关系为:
[0106] h3(m) =0(W3(hg(m)+U2I12(m-1))+b3)
[0107] 隐层3到输出层的映射关系为:
[010引 餐。恤)=W4(h,怔)+ 叫l3(," -1)) +b,
[0109] 本模型结构与图3所示的RD順模型结构相比,在隐层1和隐层3增加了递归连接。 较多的递归连接有利于模型对语音信号谱包络的时域相关性进行建模。
[0110] 另外,上述畑順模型都可W是预先获取的,例如:预先接收用户输入的或者预先 接收其他设备发送的。
[011U 当然,上述RD順模型还可w是预先训练获取的,下面WISF和语音信号为例进行 举例说明。其中,RD順模型的训练可W将含噪语音的特征作为模型输入,纯净语音的特征 作为模型的目标输出。纯净语音和含噪语音的特征需要配对,即对某段纯净语音提取特征 后,需要对其加入噪声,再提取含噪语音特征,作为一对训练特征。
[0112] 畑順模型的输入特征是含噪语音信号的去均值ISF特征,特征获取方式如下:
[0"引X。。切(m) =ISF。。切(m)-ISFme孤noisy
[0114] ISF"w,>)为第m
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1