本技术涉及音频处理,更具体地说,本技术涉及一种基于增强学习的音频处理方法、系统及数字扬声器。
背景技术:
1、近年来,人工智能技术在语音识别、图像处理等领域取得突破性进展,部分研究开始将增强学习(reinforcement learning,rl)机制引入音频处理,以实现系统自适应调整和用户行为反馈驱动优化,基于增强学习的音频处理是一种将智能学习机制引入音频信号分析与增强的前沿方法。随着消费级音频设备特别是数字扬声器的广泛应用,用户对音质体验的要求日益提升,现代数字扬声器系统通常具备高采样率、低失真输出能力,并集成了多种数字信号处理模块(如均衡器、动态压缩器、降噪处理器等),用于提升音频播放的清晰度、层次感与空间感。
2、然而,现有技术中,通常依赖静态或手动配置参数,缺乏对音频内容类型及播放环境的感知能力,导致在多样化使用场景下表现不佳。例如,在语音通话场景中,增强低频或过度混响可能反而削弱语义清晰度;而在音乐播放场景中,若未能根据节奏与频谱特征动态调整音效,可能影响沉浸体验。并且当前系统往往将内容分类和音效处理分别独立实现,未能充分利用内容识别结果动态驱动增强策略的切换与调整,导致音效调节响应滞后或不精准。因此,如何充分利用音频内容识别结果动态驱动增强策略的切换与调整,以提高数字扬声器对输入音频的音效调节响应能力是业界面临的难题。
技术实现思路
1、本技术提供一种基于增强学习的音频处理方法、系统及数字扬声器,可以充分利用音频内容识别结果动态驱动增强策略的切换与调整,以提高数字扬声器对输入音频的音效调节响应能力。
2、第一方面,本技术提供一种基于增强学习的音频处理方法,所述音频处理方法包括如下步骤:
3、采集数字扬声器接收到的音频信号;
4、将所述音频信号转换为音频频域校正信号,对所述音频频域校正信号进行失真抑制,得到音频失真权衡信号,进而提取所述音频失真权衡信号中的能量动态趋势向量;
5、获取预先训练的基于增强学习的音频内容分类模型,依据所述能量动态趋势向量和基于增强学习的音频内容分类模型对所述音频信号进行内容分类,进而得到数字扬声器接收到的音频信号的音频内容类型;
6、根据所述音频内容类型对数字扬声器接收到的音频信号进行动态音效增强。
7、在本实施例中,使用数字信号监听器采集数字扬声器接收到的音频信号。
8、在本实施例中,将所述音频信号转换为音频频域校正信号具体包括:
9、对所述音频信号进行基线漂移校正,进而得到音频校正信号;
10、对所述音频校正信号进行频域转换,进而得到音频频域校正信号。
11、在本实施例中,对所述音频频域校正信号进行失真抑制,得到音频失真权衡信号具体包括:
12、对所述音频频域校正信号进行卷积复合,得到卷积复合后的音频频域校正信号;
13、确定卷积复合后的音频频域校正信号中的噪声估计频谱;
14、根据卷积复合后的音频频域校正信号的频谱、所述噪声估计频谱和预设的失真均衡因子确定噪音抑制频谱;
15、将所述噪音抑制频谱转换为音频失真权衡信号。
16、在本实施例中,提取所述音频失真权衡信号中的能量动态趋势向量具体包括:
17、生成所述音频失真权衡信号对应的能量动态趋势曲线;
18、对所述能量动态趋势曲线进行多维特征提取,进而得到所有的能量动态趋势特征;
19、根据所有的能量动态趋势特征确定所述音频失真权衡信号中的能量动态趋势向量。
20、在本实施例中,基于增强学习的音频内容分类模型是自学习模型。
21、在本实施例中,依据所述能量动态趋势向量和基于增强学习的音频内容分类模型对所述音频信号进行内容分类是将所述能量动态趋势向量作为输入数据输入到基于增强学习的音频内容分类模型中对所述音频信号进行内容分类。
22、在本实施例中,根据所述音频内容类型对数字扬声器接收到的音频信号进行动态音效增强具体包括:
23、基于所述音频内容类型获取对应的音效处理策略模板;
24、获取数字扬声器接收到的音频信号的内容特征和数字扬声器所处环境的环境数据;
25、使用所述内容特征和所述环境数据对所述音效处理策略模板进行动态调控,进而得到音效处理动态策略;
26、依据所述音效处理动态策略对数字扬声器接收到的音频信号进行音效增强。
27、第二方面,本技术提供一种基于增强学习的音频处理系统,用于执行一种基于增强学习的音频处理方法,所述音频处理系统包括:
28、音频采集模块,用于采集数字扬声器接收到的音频信号;
29、特征提取模块,用于将所述音频信号转换为音频频域校正信号,对所述音频频域校正信号进行失真抑制,得到音频失真权衡信号,进而提取所述音频失真权衡信号中的能量动态趋势向量;
30、内容分类模块,用于获取预先训练的基于增强学习的音频内容分类模型,依据所述能量动态趋势向量和基于增强学习的音频内容分类模型对所述音频信号进行内容分类,进而得到数字扬声器接收到的音频信号的音频内容类型;
31、音效增强模块,用于根据所述音频内容类型对数字扬声器接收到的音频信号进行动态音效增强。
32、第三方面,本技术提供一种数字扬声器,所述数字扬声器包括上述的基于增强学习的音频处理系统。
33、本技术公开的实施例提供的技术方案具有以下有益效果:
34、通过采集数字扬声器接收到的音频信号;将所述音频信号转换为音频频域校正信号,对所述音频频域校正信号进行失真抑制,得到音频失真权衡信号,进而提取所述音频失真权衡信号中的能量动态趋势向量;获取预先训练的基于增强学习的音频内容分类模型,依据所述能量动态趋势向量和基于增强学习的音频内容分类模型对所述音频信号进行内容分类,进而得到数字扬声器接收到的音频信号的音频内容类型;根据所述音频内容类型对数字扬声器接收到的音频信号进行动态音效增强。
35、由此可见本技术中,首先,将音频信号转换为音频频域校正信号,并对其进行失真抑制,从而获得音频失真权衡信号,进一步提取其中的能量动态趋势向量,能够有效去除因设备特性、信号干扰或环境噪声引入的非理想因素,提炼出更具表达性的能量变化规律,通过精细且多维度的内容建模,为增强学习模型提供了更清晰、可辨别的状态输入,有助于模型精准判断当前音频所处的内容类型或场景状态;然后,将获取的能量动态趋势向量输入至预先训练好的基于增强学习的音频内容分类模型中进行内容识别,能够充分发挥增强学习模型在复杂环境中自主策略优化和动态决策的优势,从而实现对音频内容类型的高精度、实时判别;最后,根据音频内容类型对数字扬声器接收到的音频信号进行动态音效增强,能够实现对不同音频场景的智能适配和精准调控,通过先对音频信号内容进行识别分类,再依据分类结果调用与之匹配的音效增强策略模板,并结合播放环境与实时音频特征对策略参数进行动态调节,使得音效处理过程不再是静态固定的,而是具有自适应能力,显著提升了音效增强的针对性和响应性,实现在复杂环境中持续优化听觉体验的目的,从而显著提升数字扬声器对输入音频的音效调节响应能力与智能水平。
36、综上所述,本技术采用的技术方案可以充分利用音频内容识别结果动态驱动增强策略的切换与调整,以提高数字扬声器对输入音频的音效调节响应能力。