基于双耳去掩蔽原理的语音通信系统可懂度增强方法及系统

文档序号:45326545发布日期:2026-04-24 20:39阅读:5来源:国知局

本发明涉及语音信号处理,尤其涉及基于双耳去掩蔽原理的语音通信系统可懂度增强方法及系统。


背景技术:

1、语音通信作为人机交互与人际联络的核心媒介,其清晰度与可懂度直接决定了信息传递的有效性与用户体验的可靠性。在现代高噪声应用场景中,诸如车载驾驶舱、航空调度塔台、建筑工地及城市交通枢纽等环境,背景噪声强度常高达70分贝以上,严重干扰语音信号的感知质量。在此类复杂声学条件下,传统语音通信系统普遍面临语音信噪比显著降低、语义可辨识度急剧下降的技术瓶颈,进而影响操作安全与沟通效率。为应对这一挑战,业界长期致力于语音增强技术的研发,其中以单通道降噪算法与基于深度神经网络的语音分离模型为主流解决方案。此类方法通常通过频谱掩蔽、噪声功率谱估计或端到端学习机制,在时频域对混合信号进行重构,从而抑制非语音成分并强化目标语音能量。

2、具体而言,现有技术多依赖于单声道输入信号处理架构,其核心逻辑在于从单一音频通道中识别并滤除噪声成分,或通过训练大量带噪-纯净语音对,构建映射函数以恢复原始语音波形。该类方案在平稳噪声或低混响场景下展现出一定有效性,尤其在计算资源受限的嵌入式设备中具备部署优势。然而,其根本局限在于完全忽略了人类听觉系统所固有的双耳空间感知机制。生理声学研究表明,人耳在自然听音过程中并非孤立处理左右耳道信号,而是通过整合双耳时间差与双耳强度差两类关键线索,实现对目标声源的空间定位与噪声掩蔽的主动解除。这种被称为“双耳去掩蔽效应”的生理现象,使得即便在整体信噪比未显著提升的情况下,只要语音与干扰噪声在双耳间呈现特定的相位异步性与幅度非对称性,听者仍能显著提高对目标语音的识别准确率。换言之,语音清晰度的提升不仅取决于信号本身的能量增强,更依赖于其在双耳听觉空间中的相对分布特性。

3、然而,随着智能座舱、远程调度及高危作业通信等新兴场景对语音交互鲁棒性提出更高要求,上述单通道处理范式在原理层面的结构性缺陷日益凸显。究其原因在于,单声道增强本质上是一种“能量中心化”策略,其优化目标局限于提升语音频段的能量占比,却无法复现真实听觉环境中由双耳差异所构建的空间选择性注意机制。当噪声具有强方向性或多源混叠特性时,单通道模型难以有效区分语音与同频段干扰,极易导致语音失真或残留伪影。与此同时,即便部分高端通信设备采用立体声输出,其左右声道信号往往仅为原始单声道信号的简单复制或固定延时版本,缺乏对双耳时间差与强度差的动态调控能力,无法根据实时声场环境与用户头部位置自适应生成最优的空间去掩蔽参数。这种静态声像设计不仅未能激活人耳的天然抗噪潜能,反而可能因不当的相位关系引入额外的听觉混淆,进一步削弱语音可懂度。在移动通信场景中,用户头部姿态、声源方位及噪声分布均处于动态变化之中,若系统无法实时感知并响应这些变量以调整双耳信号的相位差与增益比,则所谓“空间增强”将沦为形式上的双通道输出,而无实质性的感知增益。

4、因此,如何突破传统单通道语音增强框架的感知维度限制,构建一种能够动态模拟并优化双耳时间差与双耳强度差的语音通信机制,从而在不依赖复杂噪声建模或高算力神经网络的前提下,从听觉感知底层激活双耳去掩蔽效应,已成为本领域技术人员当前面临的关键挑战和亟待解决的技术难题。


技术实现思路

1、针对现有技术的不足,本发明提供了一种基于双耳去掩蔽原理的语音通信系统可懂度增强方法及系统,通过模拟人类双耳听觉机制,引入动态相位差和幅度比调控,有效强化双耳去掩蔽效应,进而能够在复杂声学环境中显著提升语音信号的可懂度和清晰度。

2、第一方面,本发明提供了一种基于双耳去掩蔽原理的语音通信系统可懂度增强系统,所述系统包括语音信号输入模块、双耳信号生成模块、去掩蔽增强模块、自适应优化模块和信号输出模块;

3、所述语音信号输入模块,用于接收原始语音通信信号,并进行通道对齐校正,生成标准语音通信信号;

4、所述双耳信号生成模块,根据标准语音通信信号的方位角和仰角,从hrtf参数库中通过双线性插值算法得到对应的左、右耳滤波器系数,并对双声道立体声信号进行卷积运算,生成双耳信号;

5、所述去掩蔽增强模块,通过对双耳信号施加可控相位差与幅度比强化双耳去掩蔽效应;其中,对左声道立体声信号施加相位偏移,生成左声道信号,对双声道立体声信号施加信号增益,生成增益调节后的双耳信号;

6、所述自适应优化模块,用于实时感知声学环境与用户状态,计算标准语音通信信号相对于用户双耳的相对方位角,并根据相对方位角动态设定相位偏移与幅度比;

7、所述信号输出模块,用于将增益调节后的双耳信号通过双耳输出设备播放。

8、优选地,所述语音信号输入模块,包括:

9、所述原始语音通信信号来源于远程通信终端、本地麦克风阵列或预录制语音流文件;所述语音信号输入模块包括抗混叠低通滤波器、24位σ-δ型模数转换器和采样率同步单元;

10、当输入信号为单声道立体声信号时,将其复制为双声道立体声信号,当输入为双声道立体声信号,直接执行双声道立体声信号对齐校正;所述对齐校正流程为:首先计算双声道立体声信号互相关函数,定位最大值对应的时延,随后对滞后通道施加最大值对应的时延的整数样本补偿,并对非整数部分采用三次样条插值进行亚样本对齐,消除因麦克风物理间距或布线差异引入的初始相位偏移,生成标准语音通信信号。

11、优选地,所述双耳信号生成模块,包括:

12、所述双耳信号生成模块内置hrtf参数库,所述hrtf参数库存储于外部qspi flash中,共包含108个离散空间方位点数据;所述离散空间方位点数据覆盖水平角0°至360°及10个仰角层级;每个离散空间方位点数据均以512阶fir滤波器系数形式存储,左、右耳滤波器分别记为和,,系数采用q15定点格式;

13、当标准语音通信信号方位角为θ、仰角为φ时,微控制器采用双线性插值算法,先在水平面上对θ进行线性插值,再在仰角维度进行线性插值,计算出连续方位下的和系数,并存储于数字信号处理器的l2缓存中,以备卷积运算;

14、卷积运算采用分段重叠相加法,每次读取1024个样本作为一个数据块,并将512阶的hrtf滤波系数通过补零的方式扩展到1024点,将这两个1024点的序列都补零至2048点,再进行快速傅里叶变换和频域乘法;用于确保频域运算等效于时域卷积结果;每次处理前,数字信号处理器从l2缓存读取当前和,对双声道立体声信号分别进行频域卷积,再经快速傅里叶逆变换还原为时域信号,生成双耳信号。

15、优选地,所述去掩蔽增强模块,包括:

16、所述去掩蔽增强模块包括相位调制子模块和增益调节子模块;

17、所述相位调制子模块仅作用于左声道立体声信号,其工作原理为:将左声道立体声信号视为实信号,通过希尔伯特变换将实信号转换为解析信号,并由32阶的fir滤波器实现;随后根据欧拉公式将解析信号乘以复指数调制因子,生成调制后的解析信号;而后将调制后的解析信号的实部作为相位调制后的左声道信号;

18、所述增益调节子模块,用于对双声道立体声信号施加独立增益;增益值由16位数字电位器模型实现,即,,其中,和分别为左声道立体声信号和右声道立体声信号的增益控制字,和分别为左声道立体声信号增益值和右声道立体声信号增益值;采用查表法将db值映射为q15定点增益系数,并根据和输出增益强化后的双耳信号。

19、优选地,所述自适应优化模块,包括:

20、所述自适应优化模块包括环境感知单元、头部姿态检测单元与参数决策引擎;其中,所述环境感知单元通过集成于通信终端的双麦克风阵列采集环境声源,并通过经带通滤波计算声源的广义互相关函数,所述计算公式如下所示:

21、;

22、式中,表示声音信号的频率分量;和分别表示麦克风1和麦克风2的信号频谱;表示复共轭;表示互功率谱,表示两个信号频谱的乘积;表示复指数因子,用于将将频域信号合成回时域;表示麦克风2相对麦克风1延迟的时间差;表示广义互相关函数,用于计算最大时间差;当获得最大时间差后,利用公式计算出声源的方位角,其中,为声速,为麦克风间距;

23、所述头部姿态检测单元,通过9轴惯性测量单元追踪用户头部的旋转姿态;所述9轴惯性测量单元包括3轴加速度计、3轴陀螺仪和3轴磁力计,能够以100hz的频率输出三组原始数据;所述三组原始数据包括三轴加速度、三轴角速度以及三轴磁场强度;所述三组原始数据经卡尔曼滤波器融合后解算出头部三维空间朝向,再转换为欧拉角;所述欧拉角包括偏航角、俯仰角和滚转角;其中,所述偏航角定义为绕垂直轴的旋转角度;所述俯仰角定义为绕水平轴的旋转角度;所述滚转角定义为绕前轴的旋转角度;

24、将声源的方位角和欧拉角输入参数决策引擎,得到标准语音通信信号相对用户双耳的相对方位角;若标准语音通信信号来自固定方向,则相对方位角,为偏航角;若系统支持多目标跟踪,则,其中,由上层应用指定,并根据的值,设定相位偏移与幅度比。

25、优选地,所述根据的值,设定相位偏移与幅度比,包括:

26、当时,判定目标位于正前方,,;

27、当时,判定目标位于右侧,,;

28、当时,判定目标位于左侧,,;

29、其中,为相位偏移;为幅度比;,,均为经验优化系数。

30、优选地,所述自适应优化模块,还包括:

31、所述自适应优化模块还集成生理状态反馈机制;所述生理状态反馈机制通过集成于耳机耳罩内的光电容积脉搏波传感器采集用户指尖或耳垂血流信号,血流信号通过带通滤波后提取rr间期序列,并计算心率变异性指标sdnn;当时,判定用户处于高认知负荷或听觉疲劳状态,此时自动将相位偏移增大10%,并将幅度比提升5%。

32、优选地,所述信号输出模块,包括:

33、将增益调节后的双耳信号经过24位σ-δ型模数转换器转换为模拟信号,再经过class-d功率放大器驱动双耳输出设备;

34、所述双耳输出设备依应用场景而定:在车载头枕实施场景中,左右扬声器嵌入驾驶员座椅头枕两侧,距耳道入口距离为8±1cm,安装角度向耳道中心偏转15°,扬声器为全频带微型动圈单元;在话务员通信场景中,输出设备为封闭式动圈耳机;在户外作业场景中,输出设备为具备主动降噪功能的通信耳罩,其被动隔声量在500 hz–4 khz频段不低于25 db,主动降噪深度额外提供15 db衰减。

35、第二方面,本发明还提供了一种基于双耳去掩蔽原理的语音通信系统可懂度增强方法,应用于如上所述的一种基于双耳去掩蔽原理的语音通信系统可懂度增强系统,所述方法包括:

36、接收原始语音通信信号,并进行通道对齐校正,生成标准语音通信信号;

37、根据标准语音通信信号的方位角和仰角,从hrtf参数库中通过双线性插值算法得到对应的左、右耳滤波器系数,并对双声道立体声信号进行卷积运算,生成双耳信号;

38、对双耳信号施加可控相位差与幅度比强化双耳去掩蔽效应;其中,对左声道立体声信号施加相位偏移以生成左声道信号,对双声道立体声信号分别施加信号增益生成增益调节后的双耳信号;

39、实时采集环境声源与用户头部姿态信息,计算标准语音通信信号相对于用户双耳的相对方位角,并根据相对方位角动态设定相位偏移与幅度比;

40、将增益调节后的双耳信号通过双耳输出设备播放,形成具有空间选择性的去掩蔽声场。

41、与现有技术相比,本发明具有以下优点和有益的效果:

42、在技术层面,本发明突破了传统单通道语音增强的局限性,通过模拟人类双耳听觉机制,引入动态相位差和幅度比调控,有效强化了双耳去掩蔽效应,进而能够在复杂声学环境中显著提升语音信号的可懂度和清晰度,而不依赖于高算力的噪声建模。

43、在自适应能力方面,本发明能够实时感知声学环境变化和用户头部姿态,并通过相对方位角计算动态调整相位偏移与幅度比,确保语音声像始终与用户听觉焦点对齐,从而增强空间选择性注意。此外,本发明还集成了生理状态监测功能,通过检测用户心率变异性指标,在认知负荷较高时自动优化增强策略,进一步降低听觉疲劳,提升通信的可持续性。

44、在应用层面,本发明具有良好的普适性,可灵活部署于车载头枕、话务员耳机或户外通信耳罩等多种设备中,满足不同场景下的可靠性需求。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!