音频处理方法、装置、电子设备、存储介质及程序产品与流程

文档序号:31712574发布日期:2022-10-04 20:08阅读:57来源:国知局
音频处理方法、装置、电子设备、存储介质及程序产品与流程

1.本技术涉及音频处理技术,尤其涉及一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

2.在超宽带音频编码的场景中,根据人耳听觉机理与心理声学模型,用户通常对信号的低频部分比对信号的高频部分更敏感。在编解码处理中,相较于信号的高频部分,低频部分会分配得到更多码率。但这并不意味着对高频部分的舍弃,缺失高频部分会影响主观听感。
3.因此需要在超宽带音频编码的场景中对高频信号进行编码以及解码,相关技术中针对如何在极低码率的情况下实现高频信号的高效编解码的技术问题,相关技术中尚无有效实现方案。


技术实现要素:

4.本技术实施例提供一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在编码时对谱平坦度信息进行编码,提高高频部分的编码完整度并降低复杂度,从而提高后续解码得到的音频质量。
5.本技术实施例的技术方案是这样实现的:
6.本技术实施例提供一种音频处理方法,包括:
7.对音频信号进行滤波处理,得到低频信号以及高频信号;
8.对所述低频信号进行核心编码处理,得到核心码流;
9.对所述低频信号进行频域变换处理,得到低频频谱,并对所述高频信号进行频域变换处理,得到高频频谱;
10.对所述低频频谱以及所述高频频谱进行谱包络提取处理,得到所述音频信号的谱包络信息,并对所述高频频谱进行谱平坦度提取处理,得到所述高频频谱的谱平坦度信息;
11.对所述高频频谱的谱平坦度信息以及所述音频信号的谱包络信息进行量化编码处理,得到所述音频信号的频带拓展码流,并将所述频带拓展码流与所述核心码流组成所述音频信号的编码码流
12.本技术实施例提供一种音频处理装置,包括:
13.分带模块,用于对音频信号进行滤波处理,得到低频信号以及高频信号;
14.核心编码模块,用于对所述低频信号进行核心编码处理,得到核心码流;
15.频域变换模块,用于对所述低频信号进行频域变换处理,得到低频频谱,并对所述高频信号进行频域变换处理,得到高频频谱;
16.提取模块,用于对所述低频频谱以及所述高频频谱进行谱包络提取处理,得到所述音频信号的谱包络信息,并对所述高频频谱进行谱平坦度提取处理,得到所述高频频谱的谱平坦度信息;
17.量化模块,用于对所述高频频谱的谱平坦度信息以及所述音频信号的谱包络信息进行量化编码处理,得到所述音频信号的频带拓展码流,并将所述频带拓展码流与所述核心码流组成所述音频信号的编码码流。
18.在上述方案中,所述提取模块,还用于:对所述低频频谱进行谱包络提取处理,得到所述低频频谱的低频谱包络信息;对所述高频频谱进行谱包络提取处理,得到所述高频频谱的高频谱包络信息;将所述低频谱包络信息以及所述高频谱包络信息组成所述音频信号的谱包络信息。
19.在上述方案中,所述提取模块,还用于:获取所述低频频谱的第一融合配置数据,其中,所述第一融合配置数据包括每个第一谱线组合的谱线序数;针对每个所述第一谱线组合执行以下处理:从所述低频频谱中提取对应所述第一谱线组合的每个谱线序数的谱系数;对每个所述谱线序数的谱系数进行求平方处理,得到每个所述谱线序数的第一平方谱系数;当所述第一谱线组合的谱线序数的数目为多个时,对多个所述谱线序数的第一平方谱系数进行求和处理,得到第一求和结果;对所述第一求和结果进行求对数处理,得到对应所述第一谱线组合的第一融合谱包络信息;基于至少一个所述第一谱线组合的第一融合谱包络信息,生成所述低频谱包络信息。
20.在上述方案中,所述提取模块,还用于:获取所述高频频谱的第二融合配置数据,其中,所述第二融合配置数据包括每个第二谱线组合的谱线序数;针对每个所述第二谱线组合执行以下处理:从所述高频频谱中提取对应所述第二谱线组合的每个谱线序数的谱系数;对每个所述谱线序数的谱系数进行求平方处理,得到每个所述谱线序数的第二平方谱系数;当所述第二谱线组合的谱线序数的数目为多个时,对多个所述谱线序数的第二平方谱系数进行求和处理,得到第二求和结果;对所述第二求和结果进行求对数处理,得到对应所述第二谱线组合的第二融合谱包络信息;基于至少一个所述第二谱线组合的第二融合谱包络信息,生成所述高频谱包络信息。
21.在上述方案中,所述提取模块,还用于:获取所述高频频谱的第三融合配置数据,其中,所述第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个所述第三谱线组合执行以下处理:获取所述第三谱线组合的几何均值,并获取所述第三谱线组合的算术均值;将所述第三谱线组合的几何均值与所述第三谱线组合的算术均值的比值作为所述第三谱线组合的谱平坦度信息;基于至少一个所述第三谱线组合的谱平坦度信息,生成所述高频频谱的谱平坦度信息。
22.在上述方案中,所述提取模块,还用于:获取所述高频频谱的第三融合配置数据,其中,所述第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个所述第三谱线组合执行以下处理:从所述高频频谱中提取对应所述第三谱线组合的每个谱线序数的谱系数;对每个所述谱线序数的谱系数进行求平方处理,得到每个所述谱线序数的第三平方谱系数;当所述第三谱线组合的谱线序数的数目为多个时,对多个所述谱线序数的第三平方谱系数进行乘积处理,得到第一乘积结果;基于所述谱线序数的数目,对所述第一乘积结果进行开更号处理,得到对应所述第三谱线组合的几何均值;将多个所述第三谱线组合的几何均值组成所述第三谱线组合的几何均值。
23.在上述方案中,所述提取模块,还用于:获取所述高频频谱的第三融合配置数据,其中,所述第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个所述第三谱线
组合执行以下处理:从所述高频频谱中提取对应所述第三谱线组合的每个谱线序数的谱系数;对每个所述谱线序数的谱系数进行求平方处理,得到每个所述谱线序数的第三平方谱系数;当所述第三谱线组合的谱线序数的数目为多个时,对多个所述谱线序数的第三平方谱系数进行求和处理,得到第三求和结果;基于所述谱线序数的数目,对所述第三求和结果进行求平均处理,得到对应所述第三谱线组合的算术均值;将多个所述第三谱线组合的算术均值组成所述第三谱线组合的算术均值。
24.在上述方案中,所述量化模块,还用于:获取谱平坦度信息的量化表以及所述谱包络信息的量化表;按照所述谱平坦度信息的量化表对所述高频频谱的谱平坦度信息进行量化处理,得到谱平坦度量化结果;按照所述谱包络信息的量化表对所述音频信号的谱包络信息进行量化处理,得到谱包络量化结果;将所述谱平坦度量化结果以及所述谱包络量化结果组成所述音频信号的频带拓展码流。
25.在上述方案中,所述量化模块,还用于:获取多个语音样本信号,并针对每个所述语音样本信号执行以下处理:对所述语音样本信号进行滤波处理,得到所述语音样本信号的低频样本信号以及高频样本信号,其中,所述低频样本信号的频率低于所述高频样本信号的频率;对所述低频样本信号进行频域变换处理,得到低频样本频谱,并对所述高频样本信号进行频域变换处理,得到高频样本频谱;对所述低频样本频谱以及所述高频样本频谱进行谱包络提取处理,得到所述语音样本信号的谱包络信息,并对所述高频频谱进行谱平坦度提取处理,得到所述语音样本信号的谱平坦度信息;对多个所述语音样本信号的谱平坦度信息进行聚类处理,得到多个谱平坦度聚类中心,并基于所述多个谱平坦度聚类中心,构建所述谱平坦度信息的量化表;对多个所述语音样本信号的谱包络信息进行聚类处理,得到多个谱包络聚类中心,并基于所述多个谱包络聚类中心,构建所述谱包络信息的量化表。
26.在上述方案中,所述核心编码模块,还用于:对音频信号进行滤波处理,得到所述音频信号的低频信号以及高频信号,所述低频信号的频率低于所述高频信号的频率;对所述低频信号进行特征提取处理,得到所述低频信号的第一特征;对所述高频信号进行高频分析处理,得到所述高频信号的第二特征,其中,所述第二特征的特征维度低于所述第一特征的特征维度;对所述第一特征以及所述第二特征进行量化编码处理,得到所述音频信号的核心码流。
27.本技术实施例提供一种音频处理方法,包括:
28.对编码码流进行拆解处理,得到频带拓展码流以及核心码流;
29.对所述核心码流进行核心解码处理,得到低频信号,并对所述低频信号进行频域变换处理,得到所述低频信号的低频频谱;
30.对所述频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信息;
31.基于所述谱平坦度信息、所述谱包络信息以及所述低频频谱执行高频频谱重构处理,得到高频频谱;
32.对所述高频频谱进行时域变换处理,得到高频信号,并对所述低频信号与所述高频信号进行合成处理,得到对应所述编码码流的音频信号。
33.本技术实施例提供一种音频处理装置,包括:
34.拆解模块,用于对编码码流进行拆解处理,得到频带拓展码流以及核心码流;
35.核心模块,用于对所述核心码流进行核心解码处理,得到低频信号,并对所述低频信号进行频域变换处理,得到所述低频信号的低频频谱;
36.反量化模块,用于对所述频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信息;
37.重构模块,用于基于所述谱平坦度信息、所述谱包络信息以及所述低频频谱执行高频频谱重构处理,得到高频频谱;
38.时域变换模块,用于对所述高频频谱进行时域变换处理,得到高频信号,并对所述低频信号与所述高频信号进行合成处理,得到对应所述编码码流的音频信号。
39.在上述方案中,所述重构模块,还用于:对所述低频频谱进行谱平坦度提取处理,得到所述低频频谱的低频谱平坦度信息;从所述谱平坦度信息中提取对应所述高频频谱的每个高频子带的子带谱平坦度信息,并从所述谱包络信息中提取对应所述高频频谱的每个高频子带的子带谱包络信息;针对所述高频频谱的每个高频子带,确定所述低频频谱中每个低频子带的子带谱平坦度信息与所述高频子带的子带谱平坦度信息之间的谱平坦度差值,将所述谱平坦度差值最小的低频子带确定为目标频谱;根据对应所述高频频谱的每个高频子带的子带谱包络信息、对应每个所述高频子带的谱平坦度差值,对与每个所述高频子带对应的目标频谱进行幅值调整处理,并将对应多个所述高频子带的调整结果拼接为所述高频频谱。
40.在上述方案中,所述重构模块,还用于:针对每个所述高频子带对应的目标频谱执行以下处理:确定与所述高频子带的谱平坦度差值适配的白噪声,并在所述目标频谱上添加所述适配的白噪声,得到复合目标频谱;确定所述复合目标频谱的谱包络信息,并确定所述复合目标频谱的谱包络信息与所述高频子带的谱包络信息的谱包络差值;基于所述谱包络差值对所述复合目标频谱的幅值进行调整。
41.在上述方案中,所述重构模块,还用于:获取所述低频频谱的几何均值,并获取所述低频频谱的算术均值;将所述低频频谱的几何均值与所述低频频谱的算术均值的比值作为所述低频频谱的低频谱平坦度信息。
42.在上述方案中,所述重构模块,还用于:获取所述低频频谱的第四融合配置数据,其中,所述第四融合配置数据包括每个第四谱线组合的谱线序数;针对每个所述第四谱线组合执行以下处理:从所述低频频谱中提取对应所述第四谱线组合的每个谱线序数的谱系数;对每个所述谱线序数的谱系数进行求平方处理,得到每个所述谱线序数的第四平方谱系数;当所述第四谱线组合的谱线序数的数目为多个时,对多个所述谱线序数的第四平方谱系数进行乘积处理,得到第二乘积结果;基于所述谱线序数的数目,对所述第二乘积结果进行开更号处理,得到对应所述第四谱线组合的几何均值;将多个所述第四谱线组合的几何均值组成所述低频频谱的几何均值。
43.在上述方案中,所述重构模块,还用于:获取所述低频频谱的第四融合配置数据,其中,所述第四融合配置数据包括每个第四谱线组合的谱线序数;针对每个所述第四谱线组合执行以下处理:从所述低频频谱中提取对应所述第四谱线组合的每个谱线序数的谱系数;对每个所述谱线序数的谱系数进行求平方处理,得到每个所述谱线序数的第四平方谱系数;当所述第四谱线组合的谱线序数的数目为多个时,对多个所述谱线序数的第四平方谱系数进行求和处理,得到第四求和结果;基于所述谱线序数的数目,对所述第四求和结果
进行求平均处理,得到对应所述第四谱线组合的算术均值;将多个所述第四谱线组合的算术均值组成所述低频频谱的算术均值。
44.本技术实施例提供一种电子设备,包括:
45.存储器,用于存储可执行指令;
46.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的音频处理方法。
47.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本技术实施例提供的音频处理方法。
48.本技术实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本技术实施例提供的音频处理方法。
49.本技术实施例具有以下有益效果:
50.对音频信号进行滤波处理,得到低频的低频信号以及高频的高频信号,对低频信号进行核心编码处理,得到核心码流;从低频信号的低频频谱以及高频信号的高频频谱提取出音频信号的谱包络信息以及高频信号的谱平坦度信息,对谱平坦度信息以及谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并与核心码流组成音频信号的编码码流,通过谱包络信息以及谱平坦度信息可以实现高频信号的有效编码,以提高高频部分的编码完整度,从而提高后续解码得到的音频质量。
附图说明
51.图1是本技术实施例提供的音频处理系统的结构示意图;
52.图2a-2b是本技术实施例提供的电子设备的结构示意图;
53.图3a-3d是本技术实施例提供的音频处理方法的流程示意图;
54.图4是本技术实施例提供的音频处理方法的频带拓展编码示意图;
55.图5是本技术实施例提供的音频处理方法的频带拓展解码示意图;
56.图6是本技术实施例提供的音频处理方法的频带拓展解码示意图;
57.图7是本技术实施例提供的音频处理方法的编码示意图;
58.图8是本技术实施例提供的音频处理方法的解码示意图。
具体实施方式
59.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
60.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
61.在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
62.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
63.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
64.1)频带扩展(bwe,band width extension),也可称为频带复制,是音频编码领域的一项经典技术。频带扩展技术是一种参数编码技术,通过频带扩展可以在接收端实现有效带宽的扩展,以提高音频信号的质量,使用户可以直观感受到更亮的音色、更大的音量和更好的可懂度。
65.2)正交镜像滤波器组(qmf,quadrature mirror filters),是一个包含分析-合成的滤波器对,其中,qmf分析滤波器组用于子带信号分解,以降低信号带宽,使各个子带信号可顺利由通道处理;qmf合成滤波器组用于将解码端恢复出的各子带信号进行合成处理,例如通过零值内插和带通滤波等方式重建出原始的音频信号。
66.4)改进的离散余弦变换(mdct,modified discrete cosine transform),是一种线性正交交叠变换。它使用了一种时域混叠抵消技术,包含50%的时域交叠窗,在不降低编码性能的情况下有效地克服交叠窗中的边缘效应,从而有效地去除由边缘效应产生的周期化噪声。
67.5)频带复制(sbr,spectral band replication),是用于改进信源编码系统的技术,即通过在编码端减小频谱带宽,在解码端复制相应的音频来实现,在保持相同感知音质的情况下,它可以大幅减小编码比特率。
68.7)神经网络(nn,neural networks),是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
69.在超宽带音频编码的场景中,根据人耳听觉机理与心理声学模型,用户通常对信号的低频部分比对信号的高频部分更敏感。在编解码处理中,相较于信号的高频部分,低频部分会分配得到更多码率。但这并不意味着对高频部分的舍弃,缺失高频部分会影响主观听感。因此需要在超宽带音频编码的场景中对高频信号进行编码以及解码。
70.相关技术中可以对高频信号进行参数化表示,在解码端由这些参数和相应的音频信号的低频部分重构出音频信号的高频部分。相关技术对高频信号进行参数化编码时仅考虑高频信号的谱包络信息,无法对高频信号进行表征性更强的编码,申请人在实施本技术实施例时发现,对非ai音频编解码器应用相关技术的频带拓展方案时,解码得到的结果会存在一定误差,误差较大程度来源于对高频信号的编解码不够准确,对ai音频编解码器应用相关技术的频带拓展方案时,低频信号经过神经网络建模,编码传输后得到的结果所带来的误差与非ai音频编解码器得到结果的误差相比会有显著差异,解码得到的结果会存在更大误差,即高频信号的编解码不够准确带来的误差更加显著,会让解码端重构出的高频部分有明显的杂音。
71.本技术实施例提供一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在编码时对谱平坦度信息进行编码,以提高高频部分的编码完整度,从而提高后续解码得到的音频质量,下面说明本技术实施例提供的电子设备的示例性应用,
本技术实施例提供的电子设备可以实施为终端,也可以实施为服务器,或者由终端和服务器协同实施。下面以由终端和服务器协同实施本技术实施例提供的音频处理方法为例进行说明。
72.参见图1,图1是本技术实施例提供的音频解码系统100的架构示意图,为实现支撑一个语音应用,如图1所示,音频解码系统100包括:服务器200、网络300、第一终端400(即编码端)和第二终端500(即解码端),其中,网络300可以是局域网,或者是广域网,又或者是二者的组合。
73.在一些实施例中,在第一终端400上运行有客户端410,客户端410可以是各种类型的客户端,例如即时通信客户端、网络会议客户端、直播客户端、浏览器等。客户端410响应于发送方(例如网络会议的发起者、主播、语音通话的发起者等)触发的音频采集指令,调用第一终端400自带的麦克风进行音频信号的采集,并对采集得到的音频信号进行滤波处理,得到低频信号以及高频信号,其中,低频信号的频率低于高频信号的频率;对低频信号进行核心编码处理,得到核心码流;对低频信号进行频域变换处理,得到低频频谱,并对高频信号进行频域变换处理,得到高频频谱;对低频频谱以及高频频谱进行谱包络提取处理,得到音频信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到高频频谱的谱平坦度信息;对高频频谱的谱平坦度信息以及音频信号的谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并将频带拓展码流与核心码流组成音频信号的编码码流。接着,客户端410可以将编码码流通过网络300发送至服务器200,以使服务器200将码流发送至接收方(例如网络会议的参会对象、观众、语音通话的接收者等)关联的第二终端500。客户端510(例如即时通信客户端、网络会议客户端、直播客户端、浏览器等)在接收到服务器200发送的编码码流后,对编码码流进行拆解处理,得到频带拓展码流以及核心码流;对核心码流进行核心解码处理,得到低频信号,并对低频信号进行频域变换处理,得到低频信号的低频频谱;对频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信息;基于谱平坦度信息、谱包络信息以及低频频谱执行高频频谱重构处理,得到高频频谱,其中,高频频谱的频率高于低频频谱的频率;对高频频谱进行时域变换处理,得到高频信号,并对低频信号与高频信号进行合成处理,得到对应编码码流的音频信号。
74.本技术实施例提供的音频处理方法可以广泛应用于各种不同类型的语音通话的应用场景中,例如通过即时通信客户端进行的语音通话、游戏应用中的语音通话、网络会议客户端中的语音通话等。
75.示例的,以网络会议场景为例,网络会议是线上办公中一个重要的环节,在网络会议中,网络会议的参与方的声音采集装置(例如麦克风)在采集到发言人的语音信号后,需要将所采集到的语音信号发送至网络会议的其他参与方,该过程涉及到语音信号在多个参与方之间的传输和播放,在该场景中,可以应用本技术实施例提供的音频处理方法对网络会议中的语音信号进行编码以及解码,从而使得语音信号中的高频信号编解码更为高效准确,提高了网络会议中语音通话的质量。
76.在另一些实施例中,本技术实施例可以借助云技术(cloud technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、存储、处理和共享的一种托管技术。
77.云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技
术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。上述服务器200之间的服务交互功能可以通过云技术实现。
78.示例的,图1中示出的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。图1中示出的第一终端400和第二终端500可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。终端(例如第一终端400和第二终端500)以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例中不做限制。
79.在一些实施例中,终端(例如第二终端500)或服务器200还可以通过运行计算机程序来实现本技术实施例提供的音频处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(native)应用程序(app,application),即需要在操作系统中安装才能运行的程序,如直播app、网络会议app、或者即时通信app等;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意app中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
80.参见图2a,图2a是本技术实施例提供的电子设备的结构示意图,图2a所示的第一终端400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。第一终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2a中将各种总线都标为总线系统440。
81.处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
82.用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
83.存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
84.存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器450旨在包括任意适合类型的存储器。
85.在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
86.操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
87.网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;
88.呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
89.输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
90.在一些实施例中,本技术实施例提供的装置可以采用软件方式实现,图2a示出了存储在存储器450中的音频处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:分带模块4551、核心模块4552、频域变换模块4553、提取模块4554以及量化模块4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
91.参见图2b,图2b是本技术实施例提供的电子设备的结构示意图,图2b所示的第二终端500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。第二终端500中的各个组件通过总线系统540耦合在一起。用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531。用户接口530还包括一个或多个输入装置532。存储器550内还包括:操作系统551、网络通信模块552、呈现模块553、输入处理模块554。
92.在一些实施例中,本技术实施例提供的装置可以采用软件方式实现,图2b示出了存储在存储器550中的音频处理装置555,其可以是程序和插件等形式的软件,包括以下软件模块:拆解模块5551、核心解码模块5552、反量化模块5553、重构模块5554以及时域变换模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
93.下面将从第一终端设备(即编码端)、服务器、以及第二终端设备(即解码端)之间交互的角度,对本技术实施例提供的音频解码方法进行说明。
94.参见图3a,图3a是本技术实施例提供的音频处理方法的流程示意图,将结合图3a示出的步骤以及图7进行说明。
95.需要说明的是,终端设备执行的步骤具体是由终端设备上运行的客户端执行的,为了表述方便,本技术不对终端设备和终端设备上运行的客户端进行具体区分。此外,还需要说明的是,本技术实施例提供的音频解码方法可以由终端设备上运行的各种形式的计算机程序执行,并不局限于上述终端设备运行的客户端,还可以是上文所述的操作系统、软件模块、脚本和小程序,因此下文中以客户端的示例不应视为对本技术实施例的限定。
96.在步骤101中,对音频信号进行滤波处理,得到低频信号以及高频信号。
97.作为示例,低频信号的频率低于高频信号的频率,音频信号是32千赫兹(khz)采样率的超宽带信号,32khz采样率表征每秒采样32000次得到32000个采样点,对音频信号按帧长为640点进行分帧,即将640个采样点为一帧进行分帧,每帧的帧长为640点,每帧的时长为0.02秒,经过qmf分带滤波器组对音频信号进行滤波处理,得到信号的帧长为320点的高频部分(高频信号)和帧长为320点低频部分(低频信号)。
98.在步骤102中,对低频信号进行核心编码处理,得到核心码流。
99.在一些实施例中,步骤102中对低频信号进行核心编码处理,得到核心码流,可以通过以下技术方案实现:对低频信号进行特征提取处理,得到低频信号的第一特征;对第一特征进行量化编码处理,得到音频信号的核心码流。即通过神经网络模型对低频信号进行特征提取处理,获得低维度的特征向量,特征向量的数据维度小于低频信号的数据维度。对低频信号对应的特征向量进行矢量或者标量量化,并对量化后索引值进行熵编码处理,得到核心码流。
100.通过神经网络模型生成一个远低于原始信号维度的特征向量,然后通过熵编码等技术可以达成低码率编码的效果。
101.在步骤103中,对低频信号进行频域变换处理,得到低频频谱,并对高频信号进行频域变换处理,得到高频频谱。
102.作为示例,频域变换处理可以是mdct处理,对高频信号执行mdct处理,得到高频频谱,高频频谱包括多个谱系数。或者还可以对高频信号执行dct处理,得到高频频谱,高频频谱包括多个谱系数。对低频信号执行mdct处理,得到低频频谱,低频频谱包括多个谱系数。或者还可以对低频信号执行dct处理,得到低频频谱,低频频谱包括多个谱系数。
103.在步骤104中,对低频频谱以及高频频谱进行谱包络提取处理,得到音频信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到高频频谱的谱平坦度信息。
104.在一些实施例中,步骤104中对低频频谱以及高频频谱进行谱包络提取处理,得到音频信号的谱包络信息,可以通过以下技术方案实现:对低频频谱进行谱包络提取处理,得到低频频谱的低频谱包络信息;对高频频谱进行谱包络提取处理,得到高频频谱的高频谱包络信息;将低频谱包络信息以及高频谱包络信息组成音频信号的谱包络信息。
105.通过本技术实施例可以通过提取谱包络信息,实现在频带扩展编码时对低频信号以及高频信号的能量进行编码,提升编码有效性,从而后续解码时可以取得更好地恢复效果。
106.在一些实施例中,上述对高频频谱进行谱包络提取处理,得到高频频谱的高频谱包络信息,可以通过以下技术方案实现:获取高频频谱的第二融合配置数据,其中,第二融合配置数据包括每个第二谱线组合的谱线序数;针对每个第二谱线组合执行以下处理:从高频频谱中提取对应第二谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第二平方谱系数;当第二谱线组合的谱线序数的数目为多个时,对多个谱线序数的第二平方谱系数进行求和处理,得到第二求和结果;对第二求和结果进行求对数处理,得到对应第二谱线组合的第二融合谱包络信息;基于至少一个第二谱线组合的第二融合谱包络信息,生成高频谱包络信息。
107.作为示例,高频频谱按照相应的谱包络融合表1融合,以提取谱包络信息,提取谱包络信息所用公式如公式(1)所示:
[0108][0109]
其中,mk表示mdct变换结果(高频频谱)的第k个谱系数,i表征谱包络的序号(第一谱线组合的序号),例如,当i为1时,将m0,m1,

,m
19
分别进行平方处理,并对平方结果进行求和处理。
[0110]
作为示例,第二融合配置数据可以为表1:
[0111][0112][0113]
表1高频部分的包络融合表
[0114]
表1表征存在1组针对mdct变换结果的融合处理,将mdct变换结果的第0个谱系数至第19个谱系数进行基于公式(1)的融合处理,第二融合配置数据包括每个第二谱线组合的谱线序数,从表1可以看出第二谱线组合的数目为4,针对表1示出的第二谱线组合,需要对第0个谱系数至第19个谱系数进行融合,从高频频谱中提取对应第二谱线组合的每个谱线序数的谱系数,即提取第0个谱系数至第19个谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第二平方谱系数到m
k2
,例如,m
02
、m
12
等等,当第二谱线组合的谱线序数的数目为多个时,对多个谱线序数的第二平方谱系数进行求和处理,得到第二求和结果相当于将20个第二谱平方系数进行求和处理,对第二求和结果进行求对数处理,得到对应第二谱线组合的第二融合谱包络信息spec_env(1);当第二谱线组合的数目为多个时,将多个第二谱线组合的第二融合谱包络信息spec_env(i)组成高频谱包络信息,或者当第二谱线组合的数目为1个时,将第二谱线组合的第二融合谱包络信息spec_env(1)作为高频谱包络信息。
[0115]
通过本技术实施例对高频信号的频谱进行基于第二融合配置结果的谱包络信息融合处理,第二融合配置结果用于表征需要将哪些谱线进行融合,是以心理声学模型中的临界带为理论基础,在具体实验中综合考虑bwe质量与码率得到的。临界带是基于心理声学实验得到的结果,具体反映人耳耳蜗处物理机械刺激与神经电刺激的转换,对于某特定频率与其附近特定范围内的其他频率的纯音音频信号,人耳转换的神经电刺激是一致的,也就表示无需使用过多码率去实现太高的频域分辨率,根据多次实验测试,发现高频部分的能量包络选取范围为第二融合配置结果时,可以实现较好的码率以及音频质量。
[0116]
在一些实施例中,上述对低频频谱进行谱包络提取处理,得到低频频谱的低频谱包络信息,可以通过以下技术方案实现:获取低频频谱的第一融合配置数据,其中,第一融合配置数据包括每个第一谱线组合的谱线序数;针对每个第一谱线组合执行以下处理:从低频频谱中提取对应第一谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第一平方谱系数;当第一谱线组合的谱线序数的数目为多个时,对多个谱线序数的第一平方谱系数进行求和处理,得到第一求和结果;对第一求和结果进行求对数处理,得到对应第一谱线组合的第一融合谱包络信息;基于至少一个第一谱线组合的第一融合谱包络信息,生成低频谱包络信息。
[0117]
作为示例,低频频谱按照相应的谱包络融合表2融合,以提取谱包络信息,提取谱包络信息所用公式如公式(2)所示:
[0118][0119]
其中,mk表示mdct变换结果(低频频谱)的第k个谱系数,i表征谱包络的序号(第一谱线组合的序号),例如,当i为1时,将m
80
,m1,

,m
150
分别进行平方处理,并对平方结果进行求和处理。
[0120]
作为示例,第一融合配置数据可以为表2:
[0121]
谱包络序号谱系数的序号180 150
[0122]
表2低频部分的包络融合表
[0123]
表2表征存在1组针对mdct变换结果的融合处理,将mdct变换结果的第80个谱系数至第150个谱系数进行基于公式(1)的融合处理,第一融合配置数据包括每个第一谱线组合的谱线序数,从表2可以看出第一谱线组合的数目为1,针对表2示出的第一谱线组合,需要对第80个谱系数至第150个谱系数进行融合,从低频频谱中提取对应第一谱线组合的每个谱线序数的谱系数,即提取第80个谱系数至第150个谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第一平方谱系数到m
k2
,例如,m
802
、m
812
等等,当第一谱线组合的谱线序数的数目为多个时,对多个谱线序数的第一平方谱系数进行求和处理,得到第一求和结果相当于将71个第一谱平方系数进行求和处理,对第一求和结果进行求对数处理,得到对应第一谱线组合的第一融合谱包络信息spec_env(i);当第一谱线组合的数目为多个时,将多个第一谱线组合的第一融合谱包络信息spec_env(i)组成低频谱包络信息,或者当第一谱线组合的数目为1个时,将第一谱线组合的第一融合谱包络信息spec_env(i)作为低频谱包络信息。
[0124]
通过本技术实施例对低频信号的频谱进行基于第一融合配置结果的谱包络信息融合处理,第一融合配置结果用于表征需要将哪些谱线进行融合,是通过实验统计测试得到,当低频信号的核心编码是ai超宽带语音编码时,由于ai超宽带语音编码对语音建模能力较强,具备降噪能力,故需要引入变量衡量估计其降噪效果,可以以低频部分的能量包络作为估计变量,通过对大规模数据集的统计测试,发现低频部分的能量包络选取范围为第一融合配置结果时,可以实现较好的码率以及音频质量。
[0125]
在一些实施例中,步骤104中对高频频谱进行谱平坦度提取处理,得到高频频谱的谱平坦度信息,可以通过以下技术方案实现:获取所述高频频谱的第三融合配置数据,其中,所述第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个所述第三谱线组合执行以下处理:获取所述第三谱线组合的几何均值,并获取所述第三谱线组合的算术均值;将所述第三谱线组合的几何均值与所述第三谱线组合的算术均值的比值作为所述第三谱线组合的谱平坦度信息;基于至少一个所述第三谱线组合的谱平坦度信息,生成所述高频频谱的谱平坦度信息。
[0126]
作为示例,高频频谱按照相应的谱平坦度融合表3融合,以提取谱平坦度信息,提
取谱平坦度信息的计算可以参考公式(3):
[0127][0128]
其中,nume(i)与demo(i)分别表示mdct变换结果中第i个第三谱线组合的几何均值与算术均值,谱平坦度信息flatness(i)是第i个第三谱线组合的几何均值与算术均值的比值。i表征第三谱线组合的序号,例如,当i为1时,将m0,m1,

,m
39
分别进行平方处理,并基于平方结果确定出谱平坦度信息。
[0129]
作为示例,第三融合配置数据可以为表3:
[0130]
第三谱线组合的序号谱系数的序号10240 80
[0131]
表3高频部分的谱平坦度信息融合表
[0132]
表3表征存在2组针对mdct变换结果的融合处理,将mdct变换结果的第0个谱系数至第39个谱系数计算几何均值以及算术均值,并基于得到的几何均值以及算术均值确定出谱平坦度。第三融合配置数据包括每个第三谱线组合的谱线序数,从表3可以看出第三谱线组合的数目为2,针对表3示出的第1个第三谱线组合,需要对第0个谱系数至第39个谱系数进行融合。当第三谱线组合的数目为多个时,将多个第三谱线组合的谱平坦度信息flatness(i)组成高频频谱的谱平坦度信息,或者当第三谱线组合的数目为1个时,将第1个第三谱线组合的谱平坦度信息flatness(1)作为高频频谱的谱平坦度信息。
[0133]
高频部分的谱平坦度融合表3是以心理声学模型中的临界带为理论基础,在具体实验中综合考虑bwe质量与码率得到的。临界带是基于心理声学实验得到的结果,具体反映人耳耳蜗处物理机械刺激与神经电刺激的转换,对于某特定频率与其附近特定范围内的其他频率的纯音音频信号,人耳转换的神经电刺激是一致的,也就表示无需使用过多码率去实现太高的频域分辨率,通过对大规模数据集的统计测试,发现高频部分的谱平坦度融合选取范围为第三融合配置结果时,可以实现较好的码率以及音频质量。
[0134]
在一些实施例中,上述获取第三谱线组合的几何均值,可以通过以下技术方案实现:从高频频谱中提取对应第三谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第三平方谱系数;当第三谱线组合的谱线序数的数目为多个时,对多个谱线序数的第三平方谱系数进行乘积处理,得到第一乘积结果;基于谱线序数的数目,对第一乘积结果进行开更号处理,得到对应第三谱线组合的几何均值。
[0135]
作为示例,几何均值的计算过程可以参见公式(4):
[0136][0137]
承接上述示例,针对第1个第三谱线组合(i为1),从高频频谱中提取对应第1个第三谱线组合的每个谱线序数的谱系数,即根据表3可以需要提取第0个谱系数至第39个谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第三平方谱系数到m
k2
,例如,m
02
、m
12
等等,当第三谱线组合的谱线序数的数目为多个时,对多个谱线序数的第三平
方谱系数进行乘积处理,得到第一乘积结果相当于将40个第三谱平方系数进行累乘处理,基于谱线序数的数目,对第一乘积结果进行开更号处理(即相当于开40次方),得到对应第三谱线组合的几何均值nume(1)。
[0138]
在一些实施例中,上述获取第三谱线组合的算术均值,可以通过以下技术方案实现:从高频频谱中提取对应第三谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第三平方谱系数;当第三谱线组合的谱线序数的数目为多个时,对多个谱线序数的第三平方谱系数进行求和处理,得到第三求和结果;基于谱线序数的数目,对第三求和结果进行求平均处理,得到对应第三谱线组合的算术均值。
[0139]
作为示例,几何均值的计算过程可以参见公式(5):
[0140][0141]
承接上述示例,针对第1个第三谱线组合(i为1),从高频频谱中提取对应第1个第三谱线组合的每个谱线序数的谱系数,即根据表3可以需要提取第0个谱系数至第39个谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第三平方谱系数到m
k2
,例如,m
02
、m
12
等等,当第三谱线组合的谱线序数的数目为多个时,对多个谱线序数的第三平方谱系数进行求和处理,得到第三求和结果相当于将40个第三谱平方系数进行求和处理,基于谱线序数的数目,对第三求和结果进行求平均处理(即除以40),得到对应第三谱线组合的算术均值demo(1)。
[0142]
在步骤105中,对高频频谱的谱平坦度信息以及音频信号的谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并将频带拓展码流与核心码流组成音频信号的编码码流。
[0143]
在一些实施例中,步骤105中对高频频谱的谱平坦度信息以及音频信号的谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,可以通过以下技术方案实现:获取谱平坦度信息的量化表以及谱包络信息的量化表;按照谱平坦度信息的量化表对高频频谱的谱平坦度信息进行量化处理,得到谱平坦度量化结果;按照谱包络信息的量化表对音频信号的谱包络信息进行量化处理,得到谱包络量化结果;将谱平坦度量化结果以及谱包络量化结果组成音频信号的频带拓展码流。
[0144]
在一些实施例中,上述获取谱平坦度信息的量化表以及谱包络信息的量化表,可以通过以下技术方案实现:获取多个语音样本信号,并针对每个语音样本信号执行以下处理:对语音样本信号进行滤波处理,得到语音样本信号的低频样本信号以及高频样本信号,其中,低频样本信号的频率低于高频样本信号的频率;对低频样本信号进行频域变换处理,得到低频样本频谱,并对高频样本信号进行频域变换处理,得到高频样本频谱;对低频样本频谱以及高频样本频谱进行谱包络提取处理,得到语音样本信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到语音样本信号的谱平坦度信息;样本信号的谱包络信息提取以及谱平坦度信息提取的方式可以参见步骤104的具体实施方式,对多个语音样本信号的谱平坦度信息进行聚类处理,得到多个谱平坦度聚类中心,并基于多个谱平坦度聚类中心,构建谱平坦度信息的量化表;对多个语音样本信号的谱包络信息进行聚类处理,得到多个谱包络聚类中心,并基于多个谱包络聚类中心,构建谱包络信息的量化表。
[0145]
作为示例,量化谱平坦度信息所用的量化表如表4所示,表4中体现出每个谱平坦度聚类中心,相当于经过聚类处理得到4个聚类中心,在后续量化过程中将谱平坦度信息a量化为4个聚类中心中与a差值最小的聚类中心:
[0146]
谱平坦度量化结果0.1439240574836730.2358435839414600.3153154551982880.423458933830261
[0147]
表4谱平坦度信息量化表
[0148]
作为示例,高频部分的谱包络信息所用的量化表如表5所示,表5中体现出基于样本数据的高频部分第一子带和第二子带进行聚类得到的谱包络聚类中心,相当于经过聚类处理得到31个聚类中心,在后续量化过程中将高频部分第一子带和第二子带的谱包络信息a量化为31个聚类中心中与a差值最小的聚类中心:
[0149]-5.8-3.1-2.8-2.6-2.35-2.1-1.85-1.6-1.35-1.1-0.85-0.6-0.35-0.10.150.40.650.91.151.41.651.92.152.42.652.93.153.43.653.94.154.4 [0150]
表5谱包络量化表(第1子带和第2子带)
[0151]
作为示例,高频部分的谱包络信息所用的量化表还如表6所示,表6中体现出基于样本数据的高频部分第三子带和第四子带进行聚类得到的谱包络聚类中心,相当于经过聚类处理得到8个聚类中心,在后续量化过程中将高频部分第三子带和第四子带的谱包络信息a量化为8个聚类中心中与a差值最小的聚类中心:
[0152][0153][0154]
表6谱包络量化表(第3子带和第4子带)
[0155]
作为示例,低频部分的谱包络量化表如表7所示,表7中体现出基于样本数据的低频部分进行聚类得到的谱包络聚类中心,相当于经过聚类处理得到8个聚类中心,在后续量
化过程中将低频部分的谱包络信息a量化为8个聚类中心中与a差值最小的聚类中心:
[0156]
谱包络量化结果-5.3-3.9-1.20.72.13.54.45.4
[0157]
表7谱包络量化表
[0158]
表4-7的生成过程是统计实验得到,通过对大量音频文件按上述流程计算谱平坦度,最终得到基于大量音频分布的统计分布。综合考虑码率与音频质量,将该统计分布进行聚类量化,最终生成表4-7。
[0159]
通过量化编码的方式可以对谱平坦度信息以及谱包络信息进行有效压缩表示,从而降低谱平坦度信息以及谱包络信息的数据量,避免占用过多通信资源有效提高通信效率。
[0160]
通过本技术实施例提供的音频处理方法可以在与相关技术相比不付出更多码率的情况下对高频部分进行联合谱包络信息以及谱平坦度信息的有效编码,从而对高频部分进行低复杂度的有效表征,使得后续解码过程中可以恢复出更真实自然的音频信号。尤其当核心编码器是基于神经网络模型的编码器时,低频信号经过神经网络建模,编码传输后得到的结果所带来的误差与非ai音频编解码器得到结果的误差相比会有显著差异,解码得到的结果会存在更大误差,即高频信号的编解码不够准确带来的误差更加显著,若使用相关技术的频带拓展方案会让解码端重构出的高频部分有明显的杂音,若应用本技术实施例提供的音频处理方法,可以重构出准确的高频部分,从而恢复出更真实自然的音频信号。
[0161]
参见图3b,图3b是本技术实施例提供的音频处理方法的流程示意图,将结合图3b示出的步骤进行说明。
[0162]
在步骤201中,对编码码流进行拆解处理,得到频带拓展码流以及核心码流。
[0163]
作为示例,参见图8,图8是本技术实施例提供的音频处理方法的解码示意图,解码端将收到的编码码流拆解为bwe码流和核心码流。核心码流通过ai超宽带语音解码器恢复出低频信号,低频信号与bwe码流经过本技术实施例提出的bwe解码器恢复出高频码流,将高频码流时域变换为高频信号,将高频信号与低频信号经过合成滤波器组生成超宽带信号。
[0164]
在步骤202中,对核心码流进行核心解码处理,得到低频信号,并对低频信号进行频域变换处理,得到低频信号的低频频谱。
[0165]
作为示例,参见图5,图5是本技术实施例提供的音频处理方法的频带拓展解码示意图,图5中的低频信号是核心解码得到的低频信号,将核心解码得到的低频信号进行频域变换处理,得到低频信号的低频频谱,频域变换处理可以是mdct处理或者dct处理。
[0166]
在步骤203中,对频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信
息。
[0167]
由于频带拓展码流是对谱平坦度信息以及谱包络信息进行量化编码处理得到的,因此可以通过反量化解码处理得到谱平坦度信息以及谱包络信息。
[0168]
在步骤204中,基于谱平坦度信息、谱包络信息以及低频频谱执行高频频谱重构处理,得到高频频谱。
[0169]
在步骤205中,对高频频谱进行时域变换处理,得到高频信号,并对低频信号与高频信号进行合成处理,得到对应编码码流的音频信号。
[0170]
作为示例,对高频频谱进行mdct的反时频变换,得到高频信号,将恢复得到的高频信号与核心解码器解码得到的低频信号输入正交镜像混合滤波器组中进行合成滤波,得到音频信号。
[0171]
在一些实施例中,参见图3c,图3c是本技术实施例提供的音频处理方法的流程示意图,步骤204中基于谱平坦度信息、谱包络信息以及低频频谱执行高频频谱重构处理,得到高频频谱可以通过图3c示出的步骤2041至步骤2044实现。
[0172]
在步骤2041中,对低频频谱进行谱平坦度提取处理,得到低频频谱的低频谱平坦度信息,并从低频谱平坦度信息中提取低频频谱中每个低频子带的子带谱平坦度信息。
[0173]
在一些实施例中,步骤2041中对低频频谱进行谱平坦度提取处理,得到低频频谱的低频谱平坦度信息,可以通过以下技术方案实现:获取低频频谱的第四融合配置数据,其中,第四融合配置数据包括每个第四谱线组合的谱线序数;针对每个第四谱线组合执行以下处理:获取第四谱线组合的几何均值,并获取第四谱线组合的算术均值;将低频频谱的几何均值与低频频谱的算术均值的比值作为第四谱线组合的谱平坦度信息;基于至少一个第四谱线组合的谱平坦度信息,生成低频频谱的低频谱平坦度信息。
[0174]
在一些实施例中,上述获取第四谱线组合的几何均值,可以通过以下技术方案实现:从低频频谱中提取对应第四谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第四平方谱系数;当第四谱线组合的谱线序数的数目为多个时,对多个谱线序数的第四平方谱系数进行乘积处理,得到第二乘积结果;基于谱线序数的数目,对第二乘积结果进行开更号处理,得到对应第四谱线组合的几何均值。
[0175]
在一些实施例中,上述获取第四谱线组合的算术均值,可以通过以下技术方案实现:从低频频谱中提取对应第四谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第四平方谱系数;当第四谱线组合的谱线序数的数目为多个时,对多个谱线序数的第四平方谱系数进行求和处理,得到第四求和结果;基于谱线序数的数目,对第四求和结果进行求平均处理,得到对应第四谱线组合的算术均值。
[0176]
步骤2041中确定低频频谱的低频谱平坦度信息的实施方式可以参见步骤104中提取高频频谱的谱平坦度信息的实时方式,区别仅在于将处理对象由高频频谱替换为低频频谱,从而所使用的第四谱线组合也不同于第三谱线组合。
[0177]
在步骤2042中,从谱平坦度信息中提取对应高频频谱的每个高频子带的子带谱平坦度信息,并从谱包络信息中提取对应高频频谱的每个高频子带的子带谱包络信息。
[0178]
在步骤2043中,针对高频频谱的每个高频子带,确定低频频谱中每个低频子带的子带谱平坦度信息与高频子带的子带谱平坦度信息之间的谱平坦度差值,将谱平坦度差值最小的低频子带确定为目标频谱。
[0179]
在步骤2044中,根据对应高频频谱的每个高频子带的子带谱包络信息、对应每个高频子带的谱平坦度差值,对与每个高频子带对应的目标频谱进行幅值调整处理,并将对应多个高频子带的调整结果拼接为高频频谱。
[0180]
在一些实施例中,步骤2044中根据对应高频频谱的每个高频子带的子带谱包络信息、对应每个高频子带的谱平坦度差值,对与每个高频子带对应的目标频谱进行幅值调整处理,可以通过以下技术方案实现:针对每个高频子带对应的目标频谱执行以下处理:确定与高频子带的谱平坦度差值适配的白噪声,并在目标频谱上添加适配的白噪声,得到复合目标频谱;确定复合目标频谱的谱包络信息,并确定复合目标频谱的谱包络信息与高频子带的谱包络信息的谱包络差值;基于谱包络差值对复合目标频谱的幅值进行调整。
[0181]
作为示例,具体恢复过程可以如图6所示,首先对低频频谱进行平坦度分析计算,得到低频部分的谱平坦度,计算过程可以参见公式(7)-(9),然后根据高频部分的谱平坦度信息选取与每个高频子带最接近的低频部分作为目标频谱,接下来根据谱平坦度信息的差异以及谱包络信息对目标频谱进行能量微调,最后将高频部分的多个子带拼接为完整的高频频谱,经过倾斜滤波器调整即得到完整的高频频谱。对高频频谱进行mdct的反时频变换,得到高频信号,将恢复得到的高频信号与核心解码器解码得到的低频信号输入正交镜像混合滤波器组中进行合成滤波,得到超宽带语音信号。
[0182]
本技术实施例提供的音频处理方法会根据解码端恢复的低频信号的频谱、谱包络信息以及高频部分的谱平坦度信息,进行联合处理以重构高频频谱,并且在解码端进行误差控制,从而避免语音编码器(尤其是基于nn建模的超低码率语音编码器)对低频部分的编码误差在高频部分被扩大化,从而使得解码音质大幅提高。
[0183]
参见图3d,图3d是本技术实施例提供的音频处理方法的流程示意图。图3d示出了完整的编码与解码过程。
[0184]
在步骤301中,编码码流对音频信号进行滤波处理,得到低频信号以及高频信号;
[0185]
在步骤302中,编码码流对低频信号进行核心编码处理,得到核心码流;
[0186]
在步骤303中,编码码流对低频信号进行频域变换处理,得到低频频谱,并对高频信号进行频域变换处理,得到高频频谱;
[0187]
在步骤304中,编码码流对低频频谱以及高频频谱进行谱包络提取处理,得到音频信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到高频频谱的谱平坦度信息;
[0188]
在步骤305中,编码码流对高频频谱的谱平坦度信息以及音频信号的谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并将频带拓展码流与核心码流组成音频信号的编码码流。
[0189]
在步骤306中,编码端将编码码流发送至解码端。
[0190]
在步骤307中,解码端对编码码流进行拆解处理,得到频带拓展码流以及核心码流;
[0191]
在步骤308中,解码端对核心码流进行核心解码处理,得到低频信号,并对低频信号进行频域变换处理,得到低频信号的低频频谱;
[0192]
在步骤309中,解码端对频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信息;
[0193]
在步骤310中,解码端基于谱平坦度信息、谱包络信息以及低频频谱执行高频频谱
重构处理,得到高频频谱;
[0194]
在步骤311中,解码端对高频频谱进行时域变换处理,得到高频信号,并对低频信号与高频信号进行合成处理,得到对应编码码流的音频信号。
[0195]
对音频信号进行滤波处理,得到低频的低频信号以及高频的高频信号,对低频信号进行核心编码处理,得到核心码流;从低频信号的低频频谱以及高频信号的高频频谱提取出音频信号的谱包络信息以及高频信号的谱平坦度信息,对谱平坦度信息以及谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并与核心码流组成音频信号的编码码流,通过谱包络信息以及谱平坦度信息可以实现高频信号的有效编码,以提高高频部分的编码完整度,根据解码端恢复的低频信号的频谱、谱包络信息以及高频部分的谱平坦度信息,进行联合处理以重构高频频谱,从而提高后续解码得到的音频质量。
[0196]
下面,将说明本技术实施例在一个实际的应用场景中的示例性应用。
[0197]
在一些实施例中,在第一终端上运行有客户端,客户端可以是各种类型的客户端,例如即时通信客户端、网络会议客户端、直播客户端、浏览器等。客户端响应于发送方(例如网络会议的发起者、主播、语音通话的发起者等)触发的音频采集指令,调用第一终端自带的麦克风进行音频信号的采集,并对采集得到的音频信号进行滤波处理,得到低频信号以及高频信号,其中,低频信号的频率低于高频信号的频率;对低频信号进行核心编码处理,得到核心码流;对低频信号进行频域变换处理,得到低频频谱,并对高频信号进行频域变换处理,得到高频频谱;对低频频谱以及高频频谱进行谱包络提取处理,得到音频信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到高频频谱的谱平坦度信息;对高频频谱的谱平坦度信息以及音频信号的谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并将频带拓展码流与核心码流组成音频信号的编码码流。接着,客户端可以将编码码流通过网络发送至服务器,以使服务器将码流发送至接收方(例如网络会议的参会对象、观众、语音通话的接收者等)关联的第二终端。客户端(例如即时通信客户端、网络会议客户端、直播客户端、浏览器等)在接收到服务器发送的编码码流后,对编码码流进行拆解处理,得到频带拓展码流以及核心码流;对核心码流进行核心解码处理,得到低频信号,并对低频信号进行频域变换处理,得到低频信号的低频频谱;对频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信息;基于谱平坦度信息、谱包络信息以及低频频谱执行高频频谱重构处理,得到高频频谱,其中,高频频谱的频率高于低频频谱的频率;对高频频谱进行时域变换处理,得到高频信号,并对低频信号与高频信号进行合成处理,得到对应编码码流的音频信号。
[0198]
本技术实施例提供一种音频处理方法,在编码端对音频信号中低频部分进行编码压缩得到核心码流同时执行基于谱平坦度信息的频带扩展方案,实现极低码率下对超宽带语音的编码传输。
[0199]
参见图4,图4是本技术实施例提供的音频处理方法的频带拓展编码示意图,输入信号是32千赫兹(khz)采样率的超宽带信号,32khz采样率表征每秒采样32000次得到32000个采样点,对输入信号按帧长为640点进行分帧,即将640个采样点为一帧进行分帧,每帧的帧长为640点,每帧的时长为0.02秒,经过qmf分带滤波器组处理,得到信号的帧长为320点的高频部分和帧长为320点低频部分,下文分别称之为高频信号(高频信号)和低频信号(低频信号)。
[0200]
按照帧长320个采样点以及帧移160个采样点,对高频信号和低频信号分别进行mdct时频变换,得到相应的高频频谱(高频频谱)和低频频谱(低频频谱),其中,帧移160个采样点表征相邻两帧的起始位置的时间差为160个采样点对应的时间间隔。
[0201]
低频频谱和高频频谱分别按照相应的谱包络融合表融合,以提取谱包络信息,提取谱包络信息所用公式如公式(6)所示:
[0202][0203]
其中,mk表示mdct变换结果的第k个谱系数,i表征谱包络的序号,例如,当i为1时,将m0,m1,

,m
19
分别进行平方处理,并对平方结果进行求和处理。
[0204]
本技术实施例中使用的高频部分和低频部分的谱包络融合表分别如表8和表9所示。
[0205]
首先结合表8进行说明,表8表征存在4组针对mdct变换结果的融合处理,将mdct变换结果的第0个谱系数至第19个谱系数进行基于公式(6)的融合处理,相当于是将第0个谱线至第19个谱线进行融合,将mdct变换结果的第20个谱系数至第54个谱系数进行基于公式(6)的融合处理,将mdct变换结果的第55个谱系数至第89个谱系数进行基于公式(6)的融合处理,mdct变换结果的第90个谱系数至第130个谱系数进行基于公式(6)的融合处理。
[0206]
谱包络序号谱系数的序号10220355490 130
[0207]
表8高频部分的谱包络融合表
[0208]
高频部分的谱包络融合表8是以心理声学模型中的临界带为理论基础,在具体实验中综合考虑bwe质量与码率得到的。临界带是基于心理声学实验得到的结果,具体反映人耳耳蜗处物理机械刺激与神经电刺激的转换,对于某特定频率与其附近特定范围内的其他频率的纯音音频信号,人耳转换的神经电刺激是一致的,也就表示无需使用过多码率去实现太高的频域分辨率,根据多次实验测试,并以码率与bwe质量作为实验结果评价指标,得到表8所示的数据。
[0209]
再结合表9进行说明,表9表征存在1组针对mdct变换结果的融合处理,将mdct变换结果的第80个谱系数至第150个谱系数进行基于公式(6)的融合处理。
[0210]
谱包络序号谱系数的序号180 150
[0211]
表9低频部分的包络融合表
[0212]
低频部分的谱包络融合表9也是通过实验统计测试得到,当低频部分用到的编码器是ai超宽带语音编码器时,由于ai超宽带语音编码器对语音建模能力较强,具备降噪能力,故需要引入变量衡量估计其降噪效果。可以以低频部分的能量包络作为估计变量,通过对大规模数据集的统计测试,发现低频部分的能量包络选取范围为表9示出的数据时,可以
得到较为准确且稳定的估计值,并且复杂度与码率是可接受的。综合考虑计算准确度、稳定性、复杂度与码率等因素,选取表9示出的数据作为低频部分的谱包络融合表。
[0213]
高频频谱按照相应的谱平坦度融合表融合,以提取谱平坦度信息,提取谱平坦度信息的计算可以参考公式(7)-公式(9):
[0214][0215][0216][0217]
其中,mk表示mdct变换结果的第k个谱系数,nume(i)与demo(i)分别表示mdct变换结果中各个谱线的几何均值与算术均值,谱平坦度信息flatness(i)是上述几何均值与算术均值的比值。谱平坦度信息反映出该段频谱对应的音频是更接近白噪声还是更接近单一频率的纯音信号。i表征谱平坦度信息的序号,例如,当i为1时,将m0,m1,

,m
39
分别进行平方处理,并基于平方结果确定出谱平坦度信息。
[0218]
高频频谱按照高频部分的谱平坦度融合表提取谱平坦度信息,如表10所示:
[0219]
谱平坦度序号谱系数的序号10240 80
[0220]
表10高频部分的谱平坦度融合表
[0221]
高频部分的谱平坦度融合表10是以心理声学模型中的临界带为理论基础,在具体实验中综合考虑bwe质量与码率得到的。临界带是基于心理声学实验得到的结果,具体反映人耳耳蜗处物理机械刺激与神经电刺激的转换,对于某特定频率与其附近特定范围内的其他频率的纯音音频信号,人耳转换的神经电刺激是一致的,也就表示无需使用过多码率去实现太高的频域分辨率,根据多次实验测试,并以码率与bwe质量作为实验结果评价指标,得到表10所示的数据。
[0222]
对谱包络信息和谱平坦度信息分别按照相应的量化表进行量化编码形成bwe码流,其中,量化谱平坦度信息所用的量化表如表11所示。
[0223][0224][0225]
表11谱平坦度信息量化表
[0226]
表11的生成过程是统计实验得到,通过对大量音频文件按上述流程计算谱平坦度,最终得到基于大量音频分布的统计分布。综合考虑码率与音频质量,将该统计分布进行聚类量化,最终生成表11。高频部分的第1子带和第2子带的谱包络量化表12、高频部分的第3子带和第4子带的谱包络量化表13、低频部分的谱包络量化表14的生成方式与表11的生成方式类似。所有量化表的具体结果与统计实验相关,且量化表维度可根据具体应用场景灵活调节。
[0227]
高频部分的第1子带和第2子带的谱包络量化表如表12所示:
[0228]-5.8-3.1-2.8-2.6-2.35-2.1-1.85-1.6-1.35-1.1-0.85-0.6-0.35-0.10.150.40.650.91.151.41.651.92.152.42.652.93.153.43.653.94.154.4 [0229]
表12谱包络量化表(第1子带和第2子带)高频部分的第3子带和第4子带的谱包络量化表如表13所示:
[0230]
谱包络量化结果-5.8-3-1.501234
[0231]
表13谱包络量化表(第3子带和第4子带)低频部分的谱包络量化表如表14所示:
[0232][0233][0234]
表14谱包络量化表(低频)
[0235]
图5是本技术实施例提供的音频处理方法的频带拓展解码示意图,解码端在收到
bwe码流以及低频信号后恢复出超宽带音频信号。解码端收到bwe码流后经过解码、反量化模块,恢复出谱包络信息和谱平坦度信息。低频时域信号经过mdct时频变换,得到低频频谱。根据低频频谱、高频谱包络信息与高频谱平坦度信息,恢复出高频频谱。具体恢复过程可以如图6所示,恢复过程如下:首先对低频频谱进行平坦度分析计算,得到低频部分的谱平坦度,计算过程可以参见公式(7)-(9),然后根据高频部分的谱平坦度信息选取与每个高频子带最接近的低频部分作为目标频谱,接下来根据谱平坦度信息的差异以及谱包络信息对目标频谱进行能量微调,最后将高频部分的多个子带拼接为完整的高频频谱,经过倾斜滤波器调整即得到完整的高频频谱。对高频频谱进行mdct的反时频变换,得到高频信号,将恢复得到的高频信号与核心解码器解码得到的低频信号输入正交镜像混合滤波器组中进行合成滤波,得到超宽带语音信号。
[0236]
本技术实施例提供的音频处理方法会根据解码端恢复的低频信号的频谱、bwe边信息包含的原始谱包络信息以及高频谱平坦度信息,进行联合判决与调整以重构高频频谱,从而尽量避免超低码率语音编码器(尤其是基于nn建模的超低码率语音编码器)对低频部分的编码误差在高频部分被扩大化,从而使得解码音质大幅提高。
[0237]
参见图7,图7是本技术实施例提供的音频处理方法的编码示意图,编码端中,超宽带信号经过分析滤波器组,得到高频部分和低频部分,其中ai超宽带语音编码器将低频部分进行编码压缩得到核心码流。低频部分和高频部分同时作为本技术实施例提出的bwe编码器的输入,生成bwe码流,并与核心码流一起进行最终码流组装。
[0238]
参见图8,图8是本技术实施例提供的音频处理方法的解码示意图,解码端将收到的编码码流拆解为bwe码流和核心码流。核心码流通过ai超宽带语音解码器恢复出低频信号,低频信号与bwe码流经过本技术实施例提出的bwe解码器恢复出高频码流,将高频码流时域变换为高频信号,将高频信号与低频信号经过合成滤波器组生成超宽带信号。
[0239]
本技术实施例提供的音频处理方法中频带扩展技术可以与ai超宽带语音编码器进行组合以实现极低码率的超宽带语音编码。本技术实施例通过加入谱平坦度信息以及谱包络信息作为bwe边信息,在极低复杂度下扩展ai超宽带语音解码器的宽带信号为超宽带信号,并且在解码侧加入对ai超宽带语音编码器这一基于nn建模的语音编码器生成低频文件的误差控制,相较于想干技术中其他频带扩展方式,减少频带扩展时低频量化噪声对重构的高频信号的影响。
[0240]
下面继续说明本技术实施例提供的音频处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2a所示,存储在存储器450的音频处理装置455中的软件模块可以包括:分带模块4551,用于对音频信号进行滤波处理,得到低频信号以及高频信号,其中,低频信号的频率低于高频信号的频率;核心编码模块4552,用于对低频信号进行核心编码处理,得到核心码流;频域变换模块4553,用于对低频信号进行频域变换处理,得到低频频谱,并对高频信号进行频域变换处理,得到高频频谱;提取模块4554,用于对低频频谱以及高频频谱进行谱包络提取处理,得到音频信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到高频频谱的谱平坦度信息;量化模块4555,用于对高频频谱的谱平坦度信息以及音频信号的谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并将频带拓展码流与核心码流组成音频信号的编码码流。
[0241]
在一些实施例中,提取模块4554,还用于:对低频频谱进行谱包络提取处理,得到
低频频谱的低频谱包络信息;对高频频谱进行谱包络提取处理,得到高频频谱的高频谱包络信息;将低频谱包络信息以及高频谱包络信息组成音频信号的谱包络信息。
[0242]
在一些实施例中,提取模块4554,还用于:获取低频频谱的第一融合配置数据,其中,第一融合配置数据包括每个第一谱线组合的谱线序数;针对每个第一谱线组合执行以下处理:从低频频谱中提取对应第一谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第一平方谱系数;当第一谱线组合的谱线序数的数目为多个时,对多个谱线序数的第一平方谱系数进行求和处理,得到第一求和结果;对第一求和结果进行求对数处理,得到对应第一谱线组合的第一融合谱包络信息;基于至少一个第一谱线组合的第一融合谱包络信息,生成低频谱包络信息。
[0243]
在一些实施例中,提取模块4554,还用于:获取高频频谱的第二融合配置数据,其中,第二融合配置数据包括每个第二谱线组合的谱线序数;针对每个第二谱线组合执行以下处理:从高频频谱中提取对应第二谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第二平方谱系数;当第二谱线组合的谱线序数的数目为多个时,对多个谱线序数的第二平方谱系数进行求和处理,得到第二求和结果;对第二求和结果进行求对数处理,得到对应第二谱线组合的第二融合谱包络信息;基于至少一个第二谱线组合的第二融合谱包络信息,生成高频谱包络信息。
[0244]
在一些实施例中,提取模块4554,还用于:获取高频频谱的第三融合配置数据,其中,第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个第三谱线组合执行以下处理:获取第三谱线组合的几何均值,并获取第三谱线组合的算术均值;将第三谱线组合的几何均值与第三谱线组合的算术均值的比值作为第三谱线组合的谱平坦度信息;基于至少一个第三谱线组合的谱平坦度信息,生成高频频谱的谱平坦度信息。
[0245]
在一些实施例中,提取模块4554,还用于:获取高频频谱的第三融合配置数据,其中,第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个第三谱线组合执行以下处理:从高频频谱中提取对应第三谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第三平方谱系数;当第三谱线组合的谱线序数的数目为多个时,对多个谱线序数的第三平方谱系数进行乘积处理,得到第一乘积结果;基于谱线序数的数目,对第一乘积结果进行开更号处理,得到对应第三谱线组合的几何均值;将多个第三谱线组合的几何均值组成第三谱线组合的几何均值。
[0246]
在一些实施例中,提取模块4554,还用于:获取高频频谱的第三融合配置数据,其中,第三融合配置数据包括每个第三谱线组合的谱线序数;针对每个第三谱线组合执行以下处理:从高频频谱中提取对应第三谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第三平方谱系数;当第三谱线组合的谱线序数的数目为多个时,对多个谱线序数的第三平方谱系数进行求和处理,得到第三求和结果;基于谱线序数的数目,对第三求和结果进行求平均处理,得到对应第三谱线组合的算术均值;将多个第三谱线组合的算术均值组成第三谱线组合的算术均值。
[0247]
在一些实施例中,量化模块4555,还用于:获取谱平坦度信息的量化表以及谱包络信息的量化表;按照谱平坦度信息的量化表对高频频谱的谱平坦度信息进行量化处理,得到谱平坦度量化结果;按照谱包络信息的量化表对音频信号的谱包络信息进行量化处理,得到谱包络量化结果;将谱平坦度量化结果以及谱包络量化结果组成音频信号的频带拓展
码流。
[0248]
在一些实施例中,量化模块4555,还用于:获取多个语音样本信号,并针对每个语音样本信号执行以下处理:对语音样本信号进行滤波处理,得到语音样本信号的低频样本信号以及高频样本信号,其中,低频样本信号的频率低于高频样本信号的频率;对低频样本信号进行频域变换处理,得到低频样本频谱,并对高频样本信号进行频域变换处理,得到高频样本频谱;对低频样本频谱以及高频样本频谱进行谱包络提取处理,得到语音样本信号的谱包络信息,并对高频频谱进行谱平坦度提取处理,得到语音样本信号的谱平坦度信息;对多个语音样本信号的谱平坦度信息进行聚类处理,得到多个谱平坦度聚类中心、以及对应每个谱平坦度聚类中心的谱平坦度,并基于多个谱平坦度聚类中心、以及对应每个谱平坦度聚类中心的谱平坦度信息,构建谱平坦度信息的量化表;对多个语音样本信号的谱包络信息进行聚类处理,得到多个谱包络聚类中心、以及对应每个谱包络聚类中心的谱包络信息,并基于多个谱包络聚类中心、以及对应每个谱包络聚类中心的谱包络信息,构建谱包络信息的量化表。
[0249]
在一些实施例中,核心编码模块4552,还用于:对音频信号进行滤波处理,得到音频信号的低频信号以及高频信号,低频信号的频率低于高频信号的频率;对低频信号进行特征提取处理,得到低频信号的第一特征;对高频信号进行高频分析处理,得到高频信号的第二特征,其中,第二特征的特征维度低于第一特征的特征维度对第一特征以及第二特征进行量化编码处理,得到音频信号的核心码流。
[0250]
下面继续说明本技术实施例提供的音频处理装置555的实施为软件模块的示例性结构,在一些实施例中,如图2b所示,存储在存储器550的音频处理装置555中的软件模块可以包括:拆解模块5551,用于对编码码流进行拆解处理,得到频带拓展码流以及核心码流;核心解码模块5552,用于对核心码流进行核心解码处理,得到低频信号,并对低频信号进行频域变换处理,得到低频信号的低频频谱;反量化模块5553,用于对频带拓展码流进行反量化处理,得到谱平坦度信息以及谱包络信息;重构模块5554,用于基于谱平坦度信息、谱包络信息以及低频频谱执行高频频谱重构处理,得到高频频谱,其中,高频频谱的频率高于低频频谱的频率;时域变换模块5555,用于对高频频谱进行时域变换处理,得到高频信号,并对低频信号与高频信号进行合成处理,得到对应编码码流的音频信号。
[0251]
在一些实施例中,重构模块5554,还用于:对低频频谱进行谱平坦度提取处理,得到低频频谱的低频谱平坦度信息;从谱平坦度信息中提取对应高频频谱的每个高频子带的子带谱平坦度信息,并从谱包络信息中提取对应高频频谱的每个高频子带的子带谱包络信息;针对高频频谱的每个高频子带,确定低频频谱中每个低频子带的子带谱平坦度信息与高频子带的子带谱平坦度信息之间的谱平坦度差值,将谱平坦度差值最小的低频子带确定为目标频谱;根据对应高频频谱的每个高频子带的子带谱包络信息、对应每个高频子带的谱平坦度差值,对与每个高频子带对应的目标频谱进行幅值调整处理,并将对应多个高频子带的调整结果拼接为高频频谱。
[0252]
在一些实施例中,重构模块5554,还用于:针对每个高频子带对应的目标频谱执行以下处理:确定与高频子带的谱平坦度差值适配的白噪声,并在目标频谱上添加适配的白噪声,得到复合目标频谱;确定复合目标频谱的谱包络信息,并确定复合目标频谱的谱包络信息与高频子带的谱包络信息的谱包络差值;基于谱包络差值对复合目标频谱的幅值进行
调整。
[0253]
在一些实施例中,重构模块5554,还用于:获取低频频谱的几何均值,并获取低频频谱的算术均值;将低频频谱的几何均值与低频频谱的算术均值的比值作为低频频谱的低频谱平坦度信息。
[0254]
在一些实施例中,重构模块5554,还用于:获取低频频谱的第四融合配置数据,其中,第四融合配置数据包括每个第四谱线组合的谱线序数;针对每个第四谱线组合执行以下处理:从低频频谱中提取对应第四谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第四平方谱系数;当第四谱线组合的谱线序数的数目为多个时,对多个谱线序数的第四平方谱系数进行乘积处理,得到第二乘积结果;基于谱线序数的数目,对第二乘积结果进行开更号处理,得到对应第四谱线组合的几何均值;将多个第四谱线组合的几何均值组成低频频谱的几何均值。
[0255]
在一些实施例中,重构模块5554,还用于:获取低频频谱的第四融合配置数据,其中,第四融合配置数据包括每个第四谱线组合的谱线序数;针对每个第四谱线组合执行以下处理:从低频频谱中提取对应第四谱线组合的每个谱线序数的谱系数;对每个谱线序数的谱系数进行求平方处理,得到每个谱线序数的第四平方谱系数;当第四谱线组合的谱线序数的数目为多个时,对多个谱线序数的第四平方谱系数进行求和处理,得到第四求和结果;基于谱线序数的数目,对第四求和结果进行求平均处理,得到对应第四谱线组合的算术均值;将多个第四谱线组合的算术均值组成低频频谱的算术均值。
[0256]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的音频处理方法。
[0257]
本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的音频处理方法,例如,如图3a-3d示出的音频处理方法。
[0258]
在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
[0259]
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0260]
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
[0261]
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0262]
综上所述,通过本技术实施例对音频信号进行滤波处理,得到低频的低频信号以及高频的高频信号,对低频信号进行核心编码处理,得到核心码流;从低频信号的低频频谱以及高频信号的高频频谱提取出音频信号的谱包络信息以及高频信号的谱平坦度信息,对谱平坦度信息以及谱包络信息进行量化编码处理,得到音频信号的频带拓展码流,并与核心码流组成音频信号的编码码流,通过谱包络信息以及谱平坦度信息可以实现高频信号的有效编码,以提高高频部分的编码完整度,从而提高后续解码得到的音频质量。
[0263]
以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1