本发明涉及语音信号处理与音频编码,具体为一种基于神经网络的lc3编码框架中频谱整形参数推导方法。
背景技术:
1、低复杂度通信编解码器(lc3)作为蓝牙leaudio标准采用的低延迟音频编码格式,其技术规范由蓝牙技术联盟制定发布,凭借高效的音频信号压缩传输能力,已在各类语音通信场景中得到广泛应用,lc3编码器通常需依次完成分帧处理、时频变换、频谱整形、量化及熵编码等核心步骤,其中频谱噪声整形(sns)模块作为关键环节,主要依据输入音频帧的频带能量分布推导频谱整形参数,通过频谱整形处理,引导量化噪声在不同频率区域的分布,兼顾编码效率与主观听感质量的双重需求。现有lc3的sns模块普遍采用基于能量统计、瞬态检测等规则的解析式算法,结合预设码本对频谱整形参数进行表示和量化,其输出参数数量、参数形式及比特流结构均严格遵循lc3标准规定,在低延迟通信和满足基础主观听感要求方面形成了成熟的工程实践。然而,随着语音通信系统向智能语音交互、语音控制等多元化场景拓展,编码语音在后续语音处理或识别任务中的特征保持能力逐渐成为关键需求,而现有lc3的sns模块频谱整形策略主要围绕人耳听觉特性设计,并未针对语音识别模型对频谱结构的敏感性进行专项优化,导致编码后的语音频谱特征难以适配后续语音识别等处理需求。
2、同时,现有sns模块依赖固定码本和预定义规则推导参数,参数推导过程以单帧统计特征为主,缺乏对不同语音内容、环境条件及帧间连续特征的自适应调节能力,在部分应用场景中易出现频谱整形参数帧间变化剧烈的问题,进而影响后续语音特征处理的稳定性。已有相关研究证实,在量化结构保持不变的情况下,频谱噪声在不同频带间的分布方式会直接影响语音特征提取与识别处理效果,这表明在维持lc3编码框架和比特流结构不变的前提下,通过优化频谱整形参数推导方式来改善语音特征保持能力具备可行的技术空间,因此,如何在不改变lc3编码器比特流结构和解码器端行为的基础上,提供一种更灵活的频谱整形参数推导方法,以适配包括语音识别在内的多种语音应用需求,成为当前lc3的sns技术领域亟待解决的关键问题。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于神经网络的lc3编码框架中频谱整形参数推导方法,解决了上述背景技术中所提出的问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:一种基于神经网络的lc3编码框架中频谱整形参数推导方法,应用于lc3音频编码系统,所述方法包括以下步骤:
3、对输入音频帧执行时频变换处理,按照预设频带划分规则计算各频带的能量值,获取表征当前帧频谱分布特征的多频带能量信息;
4、基于所述多频带能量信息,结合帧持续时间、采样率、本帧可用比特数、瞬态检测标志及能量统计特征构建输入特征向量,所述瞬态检测标志用于指示当前音频帧是否存在瞬态能量变化,所述能量统计特征用于描述频谱整体分布特性;
5、将所述输入特征向量输入至部署于lc3编码器中的轻量化神经网络预测模块,所述神经网络预测模块输出与lc3标准规定数量一致的频谱整形参数,所述神经网络采用低精度数值表示方式,参数量及计算复杂度适配嵌入式数字信号处理器的实时运行需求;
6、将所述频谱整形参数输入lc3标准定义的参数量化与编码模块,按照lc3标准规定的量化规则和编码方式生成对应的频谱整形侧信息;
7、对量化后的频谱整形参数执行插值处理,再基于插值后的频谱整形参数对频谱系数进行整形,以间接控制量化噪声在不同频带上的分布特性,随后继续执行 lc3 标准定义的后续编码流程,生成符合 lc3 标准的编码比特流;其中,所述神经网络预测模块在功能上替代 lc3 编码器中传统的频谱整形参数推导模块,且不改变 lc3 标准规定的比特流语法结构、参数组织方式及解码器端处理行为。
8、优选的,所述输入特征向量还包括前一音频帧对应的频谱整形参数,通过引入该参数增强神经网络对相邻音频帧之间时序连续性的建模能力,进而提升预测得到的频谱整形参数在帧间的稳定性。
9、优选的,所述轻量化神经网络为前馈神经网络结构,网络深度精简,可被量化为低精度整数形式,推理过程能够在嵌入式数字信号处理器上以亚毫秒级完成,满足lc3编码对实时性的要求。
10、优选的,所述神经网络通过包含多约束条件的训练目标进行训练,所述训练目标至少包括结构一致性约束、语音识别特征保持约束及参数平滑约束,其中结构一致性约束用于限制预测的频谱整形参数与传统lc3频谱整形参数在统计分布和结构特性上保持一致,语音识别特征保持约束用于减小编码前后语音在语音识别特征空间中的差异,参数平滑约束用于抑制相邻频谱整形参数之间的剧烈变化。
11、优选的,所述结构一致性约束通过对比神经网络预测的频谱整形参数与传统lc3频谱整形参数推导模块输出的参考频谱整形参数实现,确保两者在统计分布和结构特性上的一致性;所述语音识别特征保持约束通过对比编码前后语音的特征差异实现,所述特征包括梅尔频率刻度特征或语音模型嵌入空间特征;所述参数平滑约束通过限制相邻频谱整形参数之间的变化幅度实现。
12、优选的,所述神经网络部署于嵌入式数字信号处理器时,采用定点量化、片内存加载及专用神经网络库加速执行的方式,所述嵌入式数字信号处理器为cadencehifi4架构,专用神经网络库为cadencehifinnlib,通过该部署方式满足低功耗和实时性运行要求。
13、优选的,所述神经网络的网络权重采用8位定点数,偏置采用32位定点数,中间激活值采用16位定点数,对应的量化比例和零点存储为常量表,部署阶段所述模型权重与量化参数加载至嵌入式数字信号处理器的片内存中,减少外部存储器访问带来的延迟。
14、优选的,所述时频变换采用修正离散余弦变换,所述预设频带划分规则按照lc3标准中规定的频带划分方式执行,确保多频带能量信息的获取符合lc3编码体系的要求。
15、一种音频编码系统,包括:
16、频带能量计算模块,用于对输入音频帧执行时频变换处理,按照预设频带划分规则计算各频带的能量值,获取多频带能量信息;
17、输入特征构建模块,用于基于所述多频带能量信息,结合帧持续时间、采样率、本帧可用比特数、瞬态检测标志、能量统计特征及可选的前一帧频谱整形参数构建输入特征向量;
18、神经网络预测模块,为轻量化前馈神经网络结构,用于根据所述输入特征向量预测与lc3标准规定数量一致的频谱整形参数,所述神经网络采用低精度数值表示方式,功能上替代传统的频谱整形参数推导模块;
19、参数量化与编码模块,用于按照lc3标准对所述频谱整形参数进行量化和编码,生成对应的频谱整形侧信息;
20、频谱整形模块,对量化后的频谱整形参数执行插值处理,再基于插值后的频谱整形参数对频谱系数进行整形,其实现方式与lc3标准一致;
21、后续编码模块,用于执行lc3标准定义的量化、熵编码及比特流封装等后续流程,生成符合lc3标准的编码比特流。
22、一种计算机可读存储介质,其上存储有程序指令。
23、本发明提供了一种基于神经网络的lc3编码框架中频谱整形参数推导方法。具备以下有益效果:
24、1.本发明通过构建包含多频带能量信息、帧级参数、瞬态检测标志及可选的前一帧频谱整形参数在内的输入特征向量,并结合结构一致性、语音识别特征保持及参数平滑的多约束训练机制,实现对频谱整形参数的精准预测,有效抑制帧间参数的剧烈变化,减少噪声背景对语音频谱特征的干扰,同时避免主观听感质量出现显著下降。
25、2.本发明通过在lc3编码框架中采用轻量级神经网络替代传统频谱整形参数推导模块,且不改变lc3标准规定的比特流结构、参数数量及解码器端行为,实现对lc3标准的完全兼容,确保编码生成的比特流可被所有标准lc3解码器无缝解析,同时让解码语音的频谱特征在后续语音处理应用中具备更优的稳定性,提升语音相关应用对编码语音的适配能力。
26、3.本发明通过采用低精度量化的轻量化神经网络结构,结合嵌入式数字信号处理器适配的部署策略,实现模型在低功耗硬件平台上的实时推理运行,无需额外硬件改造即可直接集成于现有lc3编码器,在满足lc3编码低延迟要求的前提下,为语音识别、智能语音交互等多种应用场景提供灵活适配能力,具备良好的技术扩展性。