本技术涉及音频优化,特别涉及一种音频优化模型训练方法、音频优化方法及优化系统。
背景技术:
1、在智能驾驶进程中,智能座舱处于复杂多变的行驶环境里,外界交通噪音、车辆自身机械运转与振动噪声等持续侵扰座舱音频播放。
2、传统的音频处理手段难以精确分离噪声和座舱内的音频信号,致使音频细节大量丢失;例如座舱内的音频流导航语音提示模糊难辨,多媒体播放音乐的高音细节被噪声吞噬等,严重影响用户对信息的接收和娱乐体验。
技术实现思路
1、本技术为解决上述技术问题,提供一种音频优化模型训练方法、音频优化方法及优化系统。
2、具体的,本技术提供一种音频优化模型训练方法,包括:实时调整采集参数,以根据所述采集参数采集第一音频数据,并根据所述第一音频数据生成多元音频特征库;其中,所述第一音频数据至少包括人声、环境声和乐器声;然后获取第二音频数据,并根据所述第二音频数据生成座舱音频特征数据库;其中,所述第二音频数据包括座舱内的多种音频流;以及,基于所述多元音频特征库和座舱音频特征数据库构建训练数据集,根据所述训练数据集对初始音频优化模型进行训练,获得目标音频优化模型。
3、在上述技术方案中,实时调整采集参数来采集第一音频数据,使得能够根据智能座舱内不断变化的实际情况进行动态适配,以保证可以采集到全面且准确的音频数据,为后续模型训练奠定坚实基础;通过分别构建多元音频特征库和座舱音频特征数据库,并将它们结合形成训练数据集,使得模型能够同时学习到音频的通用特征和座舱内特定音频流的特征,这种结合有助于模型更精确地识别和分离噪声与有用的音频信号,解决了传统的音频处理手段难以精确分离信号的问题,减少音频细节的丢失;基于以上方法训练获得的目标音频优化模型在实际应用中具有更高的可靠性和稳定性,提升了用户的体验。
4、进一步的,所述采集第一音频数据,包括:基于ai算法,并根据车辆当前状态信息和外部环境感知数据初始化采集参数,以基于初始化的采集参数采集第一音频数据;其中,所述采集参数至少包括采样率、位深度、麦克风阵列拾音范围;其中,在基于初始化的采集参数采集第一音频数据的过程中,还包括:
5、基于ai算法,并根据车辆实时状态信息、实时环境感知数据和当前采集音频类型实时调整所述采集参数,以基于实时调整的采集参数采集第一音频数据。
6、在上述技术方案中,车辆在不同的状态下,如启动、行驶、加速、减速、停车等,产生的内部机械运转与振动噪声有很大差异;例如,车辆加速时发动机转速升高,机械噪声的频率和强度都会增加。通过结合车辆当前状态信息初始化采集参数,能够让采集设备在一开始就针对当前车辆状态下的音频特点进行设置,比如适当提高采样率以捕捉高频的机械噪声细节,或者调整麦克风阵列拾音范围来重点关注车内特定位置的声音,从而更精确地采集到与当前车辆状态相关的音频数据。
7、此外,外部环境不同,交通噪音等外界干扰也会有很大不同;在城市拥堵路段,周围车辆的喇叭声、刹车声等噪音复杂多样,而在高速公路上,主要是风噪和车辆行驶的低频噪声;结合外部环境感知数据初始化采样参数,可以使采集设备更好地适应外部环境噪声的特点。例如,在嘈杂的城市环境中增大位深度,以更精确地记录音频信号的幅度变化,避免因噪声过大而导致音频数据失真。
8、进一步的,完成第一音频数据的采集之后,还包括:对所述第一音频数据进行第一预处理和第一特征提取,以获取多元音频特征,并根据采集音频类型和对应的外部环境感知数据对所述多元音频特征进行分类;以及,基于多元音频特征的分类结果构建多元音频特征库。
9、在上述技术方案中,第一预处理环节能够去除第一音频数据中的噪声、干扰以及一些无用的信号成分,可以通过滤波、降噪等操作来使得后续提取的特征可以更加准确地反映音频的本质特征,为特征提取和模型训练提供高质量的数据基础;第一特征提取能够从经过预处理的音频数据中提取出最具代表性和区分性的特征,以提高后续模型训练的效率,及增强模型对音频信号的理解和识别能力。
10、此外,根据采集音频类型和对应的外部环境感知数据对多元音频特征进行分类,能够为音频特征建立清晰的组织结构;通过分类,可以将相似的音频特征归为一类,使得模型训练过程更加高效。
11、进一步的,所述生成座舱音频特征数据库,包括:对所述音频流进行第二预处理和第二特征提取,以获得多维度音频特征;其中,所述多维度音频特征至少包括时域特征、频域特征、时频联合域特征和听觉感知特征;以及,对所述多维度音频特征进行量化处理和归一化处理,并基于处理后的多维度音频特征及对应的座舱场景构建座舱音频特征数据库。
12、在上述技术方案中,提取时域特征、频域特征、时频联合域特征和听觉感知特征等多维度音频特征,能够从不同角度全面地描述音频流的特性,以更精确地描述音频流,让模型能够更深入地理解音频的本质特征,提高音频处理的准确性和效果。
13、此外,对多维度音频特征进行量化处理,将连续的特征值离散化,减少了数据的存储空间和计算复杂度;归一化处理将多维度音频特征映射到一个统一的尺度范围内,消除了不同特征之间的量纲差异,避免了某些特征因数值过大或过小而对模型训练产生不良影响,使模型更容易学习到特征之间的内在关系,从而提升模型的性能。
14、进一步的,将所述训练数据集划分成训练集、验证集和测试集;所述获得目标音频优化模型,包括:基于预设训练参数和所述训练集对初始音频优化模型进行训练;其中,在训练过程中,还包括:
15、基于所述验证集和测试集实时评估所述初始音频优化模型的模型性能,并根据评估结果对所述初始音频优化模型进行调整和优化,直至初始音频优化模型符合预设模型性能要求,获得目标音频优化模型。
16、在上述技术方案中,在训练过程中,基于验证集和测试集实时评估初始音频优化模型的性能,能够为模型训练提供实时反馈;当发现模型在验证集或测试集上的性能下降时,可以及时调整预设训练参数,如学习率、批次大小等,或者对模型的结构进行调整,如增加或减少神经网络的层数、神经元数量等;这种实时反馈和调整机制可以使模型训练更加高效,避免在错误的方向上进行过多的训练,节省计算资源和时间。
17、进一步的,所述音频优化模型训练方法还包括:每当重新采集到预设数量的第一音频数据或每间隔预设周期,对所述目标音频优化模型进行增量训练,以更新所述目标音频优化模型;其中,在应用所述目标音频优化模型的过程,还包括:
18、若目标音频特征不处于模型预测范围内,则基于当前采集到的第一音频数据对所述目标音频优化模型进行适应训练,以更新所述目标音频优化模型;其中,所述目标音频特征基于需要优化的目标音频数据获得。
19、在上述技术方案中,随着时间推移,新采集到的音频数据可能包含之前未出现过的音频特征,通过每隔预设周期或重新采集到预设数量的第一音频数据就进行增量训练,模型能够学习到这些新特征,从而不断扩充自身的知识体系,提高对各种音频情况的适应能力。
20、此外,当遇到目标音频特征超出模型预测范围的情况时,如果不进行适应训练,模型可能无法对目标音频进行有效优化,导致用户体验下;而及时进行适应训练,模型可以迅速调整自身参数,对当前的目标音频进行优化,满足用户的实时需求,提供更加优质的音频体验。
21、进一步,基于同一构思,本技术还提供一种音频优化方法,包括:获取目标音频数据,并根据所述目标音频数据获取对应的目标音频特征,以基于所述目标音频特征从所述座舱音频特征数据库中获取对应的多维度音频特征,作为目标输入特征;以及,将所述目标输入特征输入至目标音频优化模型,并结合用户配置信息和车辆实时状态信息进行一次音频优化,以获取初始输出音频;其中,所述目标音频优化模型是通过以上所述的音频优化模型训练方法训练获得的。
22、在上述技术方案中,在音频优化过程中结合用户配置信息,能够根据不同用户的偏好和需求进行个性化的音频调整,为每个用户提供符合其口味的音频体验,大大提高了用户的满意度;结合车辆实时状态信息进行音频优化,模型可以根据当前的车辆状态动态调整音频参数,以补偿不同状态下的音频干扰,确保在各种行驶条件下都能为用户提供清晰、舒适的音频效果。
23、进一步的,所述音频优化方法还包括:基于所述初始输出音频获取对应的播放设备信息,并根据所述播放设备信息、实时环境感知数据和用户配置信息对所述初始输出音频进行二次音频优化,以获取目标输出音频。
24、在上述技术方案中,不同播放设备具有不同的声学特性和性能参数,通过获取播放设备信息进行二次音频优化,可以针对特定设备的特点对音频进行调整,充分发挥设备的最佳性能,让用户在使用不同设备时都能获得高质量的音频体验;通过结合实时环境感知数据进行二次音频优化,可以根据环境噪音的情况对音频进行增强或调整;在一次音频优化的基础上进行二次优化时,再次结合用户配置信息,可以对音频进行更加细致的调整,满足用户多样化的需求。
25、进一步,基于同一构思,本技术还提供一种音频优化系统,包括:
26、第一获取模块,用于获取目标音频数据,并根据所述目标音频数据获取对应的目标音频特征。
27、第二获取模块,用于基于所述目标音频特征从所述座舱音频特征数据库中获取对应的多维度音频特征,作为目标输入特征。
28、以及,音频优化模块,用于将所述目标输入特征输入至目标音频优化模型,并结合用户配置信息和车辆实时状态信息进行一次音频优化,以获取初始输出音频。
29、在上述技术方案中,用户配置信息体现了用户的个性化音频需求,不同用户对音频的喜好和设置可能不同,系统可以根据这些信息为用户提供个性化的音频优化方案;并且采用训练获得的目标音频优化模型可以有效分离出噪声和目标音频数据,进一步提升用户体验。
30、进一步的,所述音频优化系统,还包括:音频输出适配模块,用于基于所述初始输出音频获取对应的播放设备信息,并根据所述播放设备信息、实时环境感知数据和用户配置信息对所述初始输出音频进行二次音频优化,以获取目标输出音频。
31、在上述技术方案中,一次音频优化获得初始输出音频已具备较高音质,对高音质音频进行最后的优化处理,确保音频在播放设备和座舱空间环境下能够展现出最佳音质效果和听觉体验。
32、与现有技术相比,本技术的有益效果在于:
33、本技术通过实时调整采集参数,以根据所述采集参数采集至少包括人声、环境声和乐器声的第一音频数据,并根据所述第一音频数据生成多元音频特征库;以及获取包括座舱内的多种音频流的第二音频数据,并根据所述第二音频数据生成座舱音频特征数据库;进一步基于所述多元音频特征库和座舱音频特征数据库构建训练数据集,根据所述训练数据集对初始音频优化模型进行训练,获得目标音频优化模型。本技术可以采集到全面且准确的音频数据,为后续模型训练奠定坚实基础;并且模型能够同时学习到音频的通用特征和座舱内特定音频流的特征,这种结合有助于模型更精确地识别和分离噪声与有用的音频信号,减少音频细节的丢失;基于以上方法训练获得的目标音频优化模型在实际应用中具有更高的可靠性和稳定性,提升了用户的体验。