本技术涉及语音分析或合成领域,尤其涉及一种面罩内语音增强方法、系统、存储介质及程序产品。
背景技术:
1、随着工业生产、应急救援等领域的快速发展,各类防护面罩的使用日益广泛。在消防救援现场、水下作业环境、工业防毒等特殊工作场景中,工作人员需要佩戴专业防护面罩以确保人身安全。这些场景下,清晰的语音通讯对于工作效率和安全保障具有重要意义。然而,面罩佩戴过程中产生的声学环境变化,以及复杂的环境噪声,给语音通讯带来了严峻挑战。
2、相关技术中,采用的语音增强方案主要通过设置降噪麦克风阵列来采集语音信号,并运用传统的数字信号处理算法进行噪声抑制。一般利用麦克风阵列获取目标语音和环境噪声,然后使用维纳滤波或谱减法等经典算法对信号进行降噪处理,最后通过均衡器调节不同频段的增益,以提升语音信号的清晰度。
3、然而,相关技术中的语音增强方法难以充分考虑面罩内特殊环境对发声的影响,容易由此引起的语音信号衰减和失真,在多人协同工作时语音的失真会对沟通造成阻碍。
技术实现思路
1、本技术提供了一种面罩内语音增强方法、系统、存储介质及程序产品,用于提升面罩内发声的语音质量,保证多人协同工作时的流畅沟通。
2、第一方面,本技术提供了一种面罩内语音增强方法,应用于语音增强系统,该方法包括:采集多个目标对象在佩戴面罩状态下的第一音频样本和未佩戴面罩状态下的第二音频样本;根据第一音频样本和第二音频样本,确定面罩效应下的频谱差异特征;频谱差异特征包括频率响应偏移量和振幅衰减量;基于频谱差异特征进行模型训练,得到语音增强模型;获取工作场景中目标用户的实时音频信号,并对实时音频信号进行降噪预处理,得到预处理音频信号;将预处理音频信号输入至语音增强模型,得到增强音频信号;根据预设用户配置调整增强音频信号,得到输出音频信号,并以输出音频信号输出目标语音。
3、在上述实施例中,语音增强系统通过采集戴面罩和未戴面罩的音频样本,分析频谱差异特征,建立语音增强模型,并结合实时降噪预处理和用户配置,实现了面罩内语音的精准增强,通过确定面罩对语音的实际影响,确保了增强后语音的自然度和清晰度,提高了佩戴面罩时的语言沟通质量。
4、结合第一方面的一些实施例,在一些实施例中,将预处理音频信号输入至语音增强模型,得到增强音频信号的步骤,具体包括:采集工作场景的环境参数;环境参数包括温度参数、湿度参数、大气压参数和噪声等级参数;在根据环境参数确定工作场景处于异常状态时,获取预先存储的对应异常状态的补偿参数;根据环境参数和补偿参数对语音增强模型的处理参数进行调整,得到语音增强优化模型;将预处理音频信号输入至语音增强优化模型,得到增强音频信号。
5、在上述实施例中,语音增强系统通过监测环境参数并在异常状态下应用补偿参数,动态调整语音增强模型的处理参数,使系统能够适应各种复杂工作环境,保证了语音增强效果在不同环境下的稳定性和可靠性。
6、结合第一方面的一些实施例,在一些实施例中,根据第一音频样本和第二音频样本,确定面罩效应下的频谱差异特征的步骤,具体包括:采集多种不同类型面罩的材质影响参数,并基于材质影响参数构建面罩材质特征库;获取目标对象的发声特征数据,并基于面罩材质特征库和发声特征数据,构建声学映射模型;实时获取面罩的佩戴类型和目标用户的身份信息,根据声学映射模型确定频谱补偿参数;根据第一音频样本、第二音频样本和频谱补偿参数,确定频谱差异特征。
7、在上述实施例中,语音增强系统通过建立面罩材质特征库和声学映射模型,结合实时佩戴信息进行频谱补偿,实现了对不同类型面罩的精确适配,适用于不同面罩材质对语音影响各异的问题,提升了系统的通用性。
8、结合第一方面的一些实施例,在一些实施例中,根据第一音频样本、第二音频样本和频谱补偿参数,确定频谱差异特征的步骤,具体包括:对第一音频样本和第二音频样本进行时频域分解,得到时变谱特征;将时变谱特征矩阵输入至预设频谱映射模型,得到频谱包络特征和谐波结构特征;根据频谱补偿参数对频谱包络特征和谐波结构特征进行校正,得到频谱优化特征;解析频谱优化特征,确定频谱优化特征在不同频段的能量分布特征和相位特征;根据能量分布特征和相位特征,计算频率响应偏移量和振幅衰减量,得到频谱差异特征。
9、在上述实施例中,语音增强系统通过时频域分解和频谱映射模型,对语音信号进行多维度分析,实现了频谱差异特征的精确提取,保证了语音增强模型的训练质量。
10、结合第一方面的一些实施例,在一些实施例中,在根据预设用户配置调整增强音频信号,得到输出音频信号,并以输出音频信号输出目标语音的步骤之前,该方法还包括:构建包括多个场景模板的用户配置模板库;采集目标用户的语音习惯数据,并根据语音习惯数据从用户配置模板库中匹配目标模板;接收用户输入的实时场景需求,并根据实时场景需求调整目标模板的模板参数,确定预设用户配置。
11、在上述实施例中,语音增强系统通过建立场景模板库并结合用户语音习惯进行动态匹配,实现了语音增强效果的个性化定制,满足了不同用户在各种场景下的差异化需求,提升了用户体验。
12、结合第一方面的一些实施例,在一些实施例中,采集目标用户的语音习惯数据,并根据语音习惯数据从用户配置模板库中匹配目标模板的步骤,具体包括:对目标用户的实时语音进行分帧分析,提取包括基频轨迹、共振峰分布和声强变化特征的声学特征;检测实时语音的语速、停顿模式和语调变化规律,生成目标用户的韵律特征;根据声学特征和韵律特征构建目标用户的用户语音画像,生成语音习惯数据;将语音习惯数据输入至模板匹配引擎,计算与用户配置模板库中各个场景模板的相似度得分;选取相似度得分最高的场景模板作为目标模板。
13、在上述实施例中,语音增强系统通过分析用户语音的声学特征和韵律特征,构建用户语音画像,实现了模板匹配的精准性,确保了语音增强效果与用户个人特点的匹配度,提高了系统的适用性。
14、结合第一方面的一些实施例,在一些实施例中,在根据预设用户配置调整增强音频信号,得到输出音频信号,并以输出音频信号输出目标语音的步骤之后,该方法还包括:构建包含多个反馈指标的语音质量评估模型;实时采集目标用户的语音反馈数据,并输入语音反馈数据至语音质量评估模型,得到多个质量指标得分;在多个质量指标得分中的任意一个不满足预设指标要求时,确定多个质量指标得分的质量优化建议;根据质量优化建议调整语音增强模型的处理参数。
15、在上述实施例中,语音增强系统通过构建语音质量评估模型,实时收集反馈并进行优化调整,实现了语音增强效果的持续改进,通过完整的质量监控和优化机制,保证了系统性能的长期稳定。
16、第二方面,本技术实施例提供了一种语音增强系统,该语音增强系统包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该语音增强系统执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
17、第三方面,本技术实施例提供一种包含指令的计算机程序产品,当上述计算机程序产品在语音增强系统上运行时,使得上述语音增强系统执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
18、第四方面,本技术实施例提供一种计算机可读存储介质,包括指令,当上述指令在语音增强系统上运行时,使得上述语音增强系统执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
19、可以理解地,上述第二方面提供的语音增强系统,第三方面提供的计算机程序产品和第四方面提供的计算机存储介质均用于执行本技术实施例所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
20、本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
21、1、由于采用了面罩状态下的第一音频样本和未佩戴状态下的第二音频样本对比分析,并提取频谱差异特征进行模型训练,所以能够准确捕捉面罩对语音造成的频率响应偏移和振幅衰减特征,有效解决了现有技术中仅依靠简单信号处理无法应对面罩效应导致的语音失真问题,进而实现了面罩内语音的精准增强和高质量还原,保证了增强后语音的自然度和清晰度,使佩戴面罩时的语言沟通质量得到提升。
22、2、由于采用了时频域分解技术对音频样本进行处理,并通过频谱映射模型提取频谱包络特征和谐波结构特征,再结合频谱补偿参数进行优化校正,所以能够全面准确地获取语音信号在各个频段的能量分布和相位特征,有效解决了现有技术中对面罩引起的复杂频谱变化特征提取不充分的问题,进而实现了面罩效应下语音特征的精确刻画,为语音增强模型提供了更加可靠的训练基础,确保了后续增强处理的准确性和效果。
23、3、由于采用了分帧分析技术提取基频轨迹、共振峰分布等声学特征,并结合语速、停顿模式等韵律特征构建用户语音画像,所以能够全面准确地描述用户的个性化语音特点,有效解决了现有技术中模板匹配精度不足导致的增强效果不理想的问题,进而实现了语音增强效果与用户个人特点的精准匹配,提升了语音增强的个性化水平和适用性。