本发明涉及语音通信,更具体地说,本发明涉及双组人声同步采集的频域降噪与还原方法及系统。
背景技术:
1、在语音通信领域,尤其是紧急救援、医疗急救等关键场景中,通话者的语音信号质量直接影响信息传递的准确性与响应效率。极端情绪状态下,语音信号常伴随复杂的生理性失真,如何在有效降噪的同时保留关键信息,成为提升语音通信可靠性的核心挑战。
2、现有技术中,公开号为cn114550752a的中国专利申请公开了双向语音信号自动降噪波形节点情绪分析方法及装置,通过将声音波形信号分时序段截取,与预先生成的情绪训练集比对,实现语音情绪分类,其核心在于通过波形特征关联情绪状态,同时集成自动降噪与波形建模功能。公开号为cn119964537a的中国专利申请则公开了一种混音降噪方法及系统,通过情绪识别判断车内人员是否处于不良情绪状态,若为焦躁情绪则采集声音信号,提取噪音特征向量并生成混音声波段以中和噪音,减少噪音对情绪的影响。
3、然而,上述现有技术仍存在针对性缺陷:公开号为cn114550752a的中国专利申请中的情绪分析依赖波形比对,仅能实现情绪分类与基础降噪,无法识别极端情绪下的生理性复合失真,如声带紧张导致的频域压缩、情绪颤抖引发的周期性频率偏移,易将压缩后的高频增强成分误判为噪声;公开号为cn119964537a的中国专利申请虽结合情绪调整降噪策略,但聚焦于环境噪音与情绪的相互影响,未区分生理性失真与真实噪声的本质差异,会将情绪颤抖的频率波动误判为环境干扰并抑制。更关键的是,极端情绪下的复合失真频率常与关键信息,如方位、数字,的基础频率重叠,现有技术的无差别处理会导致“过度降噪”,造成重要信息丢失,在紧急通信场景中可能延误救援决策,甚至引发严重后果。
技术实现思路
1、为了克服现有技术的上述缺陷,本发明提供双组人声同步采集的频域降噪与还原方法及系统,通过双组采集构建双源频域坐标系,结合四象限分区识别情绪失真类型,针对性执行频域重构与修正,有效区分生理性失真与环境噪声;显著提升极端情绪语音的降噪与还原精度,为紧急通信中关键信息的准确传达提供可靠技术支撑。
2、为实现上述目的,本发明提供如下技术方案:
3、双组人声同步采集的频域降噪与还原方法,包括:
4、通过双组采集点获取双组人声同步信号,构建双源频域坐标系,将双组人声信号映射到所构建的双源频域坐标系中,形成两组能量分布点;
5、在双源频域坐标系中,计算两组能量分布点的空间关系,得到度量双组人声同步信号失真程度的指标,识别当前双组人声同步信号的语音状态是否为情绪失真状态;
6、在双源频域坐标系中划分四象限失真识别区域,确定识别为情绪失真状态的双组人声同步信号对应的两组能量分布点的象限归属,生成相应的失真类型标记;
7、根据生成的失真类型标记,对第一组频域信号frea和第二组频域信号freb进行分割,生成不同类型的频域子信号,针对不同类型的频域子信号执行相应的频域重构处理和修正,得到修正后的第一组频域信号fre”a和第二组频域信号fre”b;
8、对修正后的第一组频域信号fre”a和第二组频域信号fre”b进行频段划分,识别能量显著降低频段,对能量显著降低频段进行增强处理。
9、进一步地,所述双组人声同步信号包括第一组人声信号和第二组人声信号;
10、所述形成两组能量分布点的方法包括:对第一组人声信号和第二组人声信号分别执行快速傅里叶变换,得到第一组频域信号和第二组频域信号,将第一组频域信号中各频率分量的幅值作为y坐标,频率值作为x坐标,形成第一组能量分布点;将第二组频域信号中各频率分量的幅值作为y坐标,频率值作为x坐标,形成第二组能量分布点。
11、进一步地,所述计算两组能量分布点的空间关系,得到度量双组人声同步信号失真程度的指标的方法包括:
12、基于历史正常语音数据统计分析,在双源频域坐标系中设定标准椭圆区域;分别计算两组能量分布点到标准椭圆区域边界的最短距离,记为第一偏差值和第二偏差值;计算第一偏差值与第二偏差值的差值diffab以及平均值meanab,将差值diffab和平均值meanab作为度量双组人声同步信号失真程度的指标。
13、进一步地,所述识别当前双组人声同步信号的语音状态是否为情绪失真状态的方法包括:
14、设定连续时间窗口数量couc、差值阈值thrd和平均值阈值thrm;当连续couc个时间窗口内的差值diffab均大于差值阈值thrd且平均值meanab均大于平均值阈值thrm时,标记双组人声同步信号的语音状态为情绪失真状态。
15、进一步地,所述失真类型标记的生成方法包括:
16、在双源频域坐标系中,以原点o为中心划分四个象限区域,第一象限定义为频域压缩失真区域,第二象限定义为混合失真区域,第三象限定义为颤抖失真区域,第四象限定义为正常区域;
17、统计识别为情绪失真状态的双组人声同步信号对应的第一组能量分布点和第二组能量分布点在四个象限区域的分布比例;
18、根据第一组能量分布点和第二组能量分布点在四个象限区域的分布比例,自动生成对应的失真类型标记。
19、进一步地,所述根据第一组能量分布点和第二组能量分布点在四个象限区域的分布比例,自动生成对应的失真类型标记的方法包括:
20、确定第一组能量分布点和第二组能量分布点的重点分布象限;根据第一组能量分布点和第二组能量分布点的重点分布象限,生成失真类型标记,所述失真类型标记包括频域压缩失真标记、颤抖失真标记、混合失真标记和正常语音标记。
21、进一步地,所述确定第一组能量分布点和第二组能量分布点的重点分布象限的方法包括:设定分布阈值tratio,若第一组能量分布点落入第i个象限区域的点数占总点数的比例超过分布阈值tratio,则说明第i个象限区域为第一组能量分布点的重点分布象限;否则,表明第一组能量分布点没有重点分布象限;若第二组能量分布点落入第j个象限区域的点数占总点数的比例超过分布阈值tratio,则说明第j个象限区域为第二组能量分布点的重点分布象限;否则,表明第二组能量分布点没有重点分布象限;其中,i和j表示象限编号,i=1,2,3,4,j=1,2,3,4。
22、进一步地,所述根据生成的失真类型标记,对第一组频域信号frea和第二组频域信号freb进行分割,生成不同类型的频域子信号包括:若失真类型标记为频域压缩失真标记,则生成压缩失真子信号;若失真类型标记为颤抖失真标记,则生成颤抖失真子信号;若失真类型标记为混合失真标记,则生成混合失真子信号;若失真类型标记为正常语音标记,则生成正常子信号。
23、进一步地,所述得到修正后的第一组频域信号fre”a和第二组频域信号fre”b的方法包括:
24、针对不同类型的频域子信号执行相应的频域重构处理,得到处理后的第一组频域信号fre'a和第二组频域信号fre'b;对处理后的第一组频域信号fre'a和第二组频域信号fre'b进行修正,得到修正后的第一组频域信号fre”a和第二组频域信号fre”b;
25、所述对处理后的第一组频域信号fre'a和第二组频域信号fre'b进行修正的方法包括:标记处理后的第一组频域信号fre'a和第二组频域信号fre'b中的处理误差点,针对标记为处理误差点的频率点,调整频域重构的相关参数。
26、双组人声同步采集的频域降噪与还原系统,其用于实现上述的双组人声同步采集的频域降噪与还原方法,所述系统包括:
27、映射模块:通过双组采集点获取双组人声同步信号,构建双源频域坐标系,将双组人声信号映射到所构建的双源频域坐标系中,形成两组能量分布点;
28、失真识别模块:用于在双源频域坐标系中,计算两组能量分布点的空间关系,得到度量双组人声同步信号失真程度的指标,识别当前双组人声同步信号的语音状态是否为情绪失真状态;
29、象限标记模块:用于在双源频域坐标系中划分四象限失真识别区域,确定识别为情绪失真状态的双组人声同步信号对应的两组能量分布点的象限归属,生成相应的失真类型标记;
30、频域修正模块:根据生成的失真类型标记,对第一组频域信号frea和第二组频域信号freb进行分割,生成不同类型的频域子信号,针对不同类型的频域子信号执行相应的频域重构处理和修正,得到修正后的第一组频域信号fre”a和第二组频域信号fre”b;
31、频段增强模块:用于对修正后的第一组频域信号fre”a和第二组频域信号fre”b进行频段划分,识别能量显著降低频段,对能量显著降低频段进行增强处理。
32、相比于现有技术,本发明的有益效果为:
33、本发明通过双组同步采集构建的频域-空间融合分析框架,实现了对极端情绪下语音复合失真的精准识别与针对性处理。借助双源频域坐标系中能量分布点的空间关系分析,能够有效区分生理性复合失真与环境噪声,避免将频域压缩导致的高频增强成分、情绪颤抖引发的周期性频率偏移误判为噪声进行抑制;通过四象限分区生成的失真类型标记,可对不同复合失真特征执行适配的频域重构与修正,结合频段增强处理,能有效保留并恢复与关键信息相关的频率成分,防止关键信息因过度降噪或降噪不足而丢失或模糊,显著提升了极端情绪状态下语音信号的降噪与还原精度,为紧急通信等依赖清晰语音传达关键信息的场景提供了稳定可靠的技术支撑。