本发明属于语音信号处理,具体涉及一种适用于多种麦克风阵列结构的多通道语音分离方法、装置及系统,尤其涉及一种具备阵列几何无关性的语音分离处理方案。
背景技术:
1、随着自动语音识别、语音助手、远程通信、会议系统以及智能家居等技术的快速发展,语音分离技术作为前端语音处理的关键环节,在多说话人识别、语音增强、语音交互等应用中发挥着重要作用。其核心目标是在多人同时发声或存在背景噪声的复杂环境中,从混合信号中分离出各个说话人的清晰语音,为后续的识别、理解和交互任务提供可靠输入。
2、当前,多通道语音分离技术已成为提升分离效果的重要方向,通常依赖麦克风阵列收集空间信息,以增强说话人间的区分度。然而,现有主流方法普遍建立在固定阵列几何形状和固定通道数量的假设基础之上,如线性阵列或环形阵列。尽管这类方法在受控环境中表现良好,但在实际部署过程中却面临显著挑战。
3、具体而言,实际应用中的麦克风阵列布局往往具有高度的非结构性和不确定性。不同设备、平台或空间场景下的麦克风安装位置差异显著,可能导致阵列呈现非对称、不规则甚至动态变化的结构特性。例如,智能音箱、智能电视、车载设备等产品中,麦克风布局因产品设计而异;而在会议系统或远场拾音场景中,麦克风的数量、分布和朝向常常无法预先统一设定。这些因素使得基于固定几何假设的方法难以适应通道数变化或阵列结构多样化的现实需求。
4、此外,在通道数量发生变化或麦克风故障导致通道丢失的情况下,传统方法的性能会出现明显下降,难以保证分离质量和系统鲁棒性。因此,如何在不依赖预设阵列结构的前提下实现稳定、高效的语音分离,成为当前语音处理领域亟需解决的重要技术问题。
技术实现思路
1、发明旨在解决现有多通道语音分离方法对固定阵列几何形状和通道数量的依赖,以及在实际应用中存在的局限性,提出了一种统一频谱-空间建模的阵列几何无关语音分离方法和系统。本发明能够在各种麦克风阵列几何配置下实现高效、准确的语音分离,具有良好的泛化能力和实时处理性能。
2、一种与阵列几何无关的语音分离方法,包括以下步骤:
3、获取由任意几何结构的多通道麦克风阵列采集的混合语音信号,并对所述语音信号进行短时傅里叶变换,得到复数谱图;
4、在相邻麦克风通道之间执行插值操作,生成多个虚拟麦克风信号,以增强空间方向信息密度;
5、基于原始通道与虚拟通道的复数谱图,提取频谱–时间特征与空间方向特征,并通过注意力机制进行融合,得到统一的多模态特征张量;
6、将融合特征输入分层双路径建模网络,分别在时间轴和频率轴上建模长程依赖,输出多个说话人的复数谱图;
7、对所述复数谱图执行逆短时傅里叶变换,生成多个说话人的时域语音信号。
8、所述生成虚拟麦克风信号的步骤包括:
9、计算相邻麦克风之间的相位差与幅度响应;
10、基于所述相位差与幅度响应,采用加权插值方式在相邻通道间生成预设数量的虚拟麦克风信号。
11、所述空间方向特征的提取采用空间字典学习模块,具体包括:
12、构建每个时间帧和频率点上的复向量,并将其映射至预设空间字典上;
13、基于方向响应归一化与幅度加权机制,获得多方向的空间响应嵌入向量。
14、所述分层双路径建模网络包括:
15、多级patch merging层用于进行特征下采样;
16、双路径注意力建模模块,包括tconformer和fconformer子模块,分别沿时间维度和频率维度进行建模;
17、patch expanding层用于特征重建,并输出多说话人的解码特征。
18、还包括:
19、基于说话人置换不变训练机制(pit)与尺度不变信噪比(si-sdr)损失函数对网络模型进行训练。
20、一种阵列几何无关的语音分离装置,包括:
21、声音采集单元,用于通过多通道麦克风阵列采集混合语音信号;
22、虚拟麦克风估计单元,用于根据麦克风通道布局生成多个虚拟麦克风信号;
23、频谱与空间特征提取单元,用于提取频谱–时间特征与空间方向特征,并执行特征融合;语音分离单元,用于通过分层双路径网络建模融合特征,并输出多个说话人的复数谱图;音频还原单元,用于对所述谱图执行逆傅里叶变换,生成分离的时域语音信号;
24、采用前述的方法实现与阵列几何无关的语音分离。
25、所述虚拟麦克风估计单元包括:
26、相位差计算子单元;
27、振幅响应计算子单元;
28、插值生成子单元,用于基于所述相位与幅度结果生成虚拟通道。
29、所述频谱与空间特征提取单元包括:
30、二维卷积神经网络,用于提取频谱–时间特征;
31、空间字典学习模块,用于提取空间方向特征;
32、注意力融合模块,用于对所述两类特征进行融合。
33、一种语音分离系统,包括前述的语音分离装置,还包括:
34、发言者跟踪单元,用于基于分离语音信号提取声纹特征并进行身份识别与位置跟踪;
35、控制与展示交互单元,用于根据跟踪结果驱动会议系统终端完成摄像头跟随、画面切换与发言者标注等多模态交互功能。
36、本发明的语音分离方法包括以下步骤:
37、1.数据获取步骤:通过多通道麦克风阵列采集语音数据。所述麦克风阵列的几何形状可以是线性、圆形、方形、三角形或其他不规则形状,通道数量不固定,适用于各种实际应用场景。
38、2.虚拟麦克风估计步骤:根据麦克风阵列的几何形状信息和相邻麦克风之间的位置信息,采用插值方法生成虚拟麦克风信号,增加阵列的空间信息密度。具体而言,通过对相邻麦克风的相位和幅度进行线性插值计算,生成虚拟麦克风信号的相位和幅度,提高空间分辨率。虚拟麦克风的生成不依赖于阵列的几何形状,适用于各种阵列配置。
39、3.频谱和空间特征提取步骤:利用二维卷积神经网络(2d-cnn)提取每个通道的局部频谱-时间特征,得到频谱特征图。同时,使用空间字典学习(sdl)模块捕捉多通道信号之间的空间信息。sdl模块通过构建可学习的复杂核矩阵,将多通道复数谱图投影到超球面上,生成空间嵌入向量,以实现更精准的空间特征建模。频谱特征与空间特征的结合,使模型能够充分利用时频信息和空间信息,提高语音分离的准确性。
40、4.层次化双路径架构建模步骤:引入层次化的双路径结构,分别沿时间轴和频率轴建模依赖关系。首先,通过块合并操作逐步减少时频维度,降低计算复杂度。然后,采用双路径编码器(如双路径conformer模块)分别在时间轴和频率轴上捕捉特征之间的依赖关系,增强时频特征的关联性。最后,通过对称解卷积操作,将特征图恢复至原始分辨率,输出高保真度的分离语音信号。
41、5.模型训练和验证步骤:将上述处理后的数据输入统一频谱-空间建模的阵列几何无关语音分离模型中,进行模型训练和验证。利用大规模的训练数据,模型能够学习到复杂的频谱和空间特征映射关系,提升分离性能。
42、本发明还提供了一种阵列几何无关的语音分离装置,包括:
43、声音采集单元:用于通过多通道麦克风阵列采集多通道语音信号。
44、虚拟麦克风估计单元:用于生成虚拟麦克风信号,增加空间信息密度。
45、频谱与空间特征提取单元:用于提取频谱特征和空间特征。
46、语音分离单元:用于进行语音分离处理,输出分离后的语音信号。
47、该方法适用于多种麦克风阵列结构,采用虚拟麦克风估计机制生成增强空间信息密度的虚拟通道信号,并结合频谱–时间特征与空间方向特征,通过空间字典学习与注意力融合模块提取多模态表示。所提特征进一步输入分层双路径建模网络,在时间轴与频率轴上分别建模全局依赖关系,从而实现多说话人语音的高精度分离。所述系统具备良好的阵列结构自适应性,能够适应通道数变化与阵列形状差异,在远程会议、语音识别前端、车载语音处理等场景中均具有良好应用价值。
48、本发明的优点在于:
49、1.阵列几何无关性:本方法不依赖于固定的麦克风阵列几何形状和通道数量,能够适应不同阵列形状(如线性、圆形、不规则形状)和不同通道数量的麦克风阵列。在未见过的阵列几何形状和单通道场景下,仍能表现出良好的泛化能力,满足实际应用需求。
50、2.高效的空间信息利用:通过虚拟麦克风估计技术,生成额外的虚拟麦克风信号,增强了空间信息的密度,提高了空间分辨率。结合空间字典学习模块,精确捕捉多通道信号之间的空间特征,提升了语音分离的准确性。
51、3.降低计算复杂度:引入层次化双路径架构,通过块合并操作逐步减少时频维度,降低了计算复杂度。同时,在时间轴和频率轴上分别建模依赖关系,使模型在保证性能的同时,提高了计算效率,适用于实时语音分离应用。
52、4.广泛的应用场景:本发明可广泛应用于智能语音助手、自动驾驶、远程会议、语音识别、智能家居等多种场景。在复杂的声学环境和多说话人情况下,仍能保持优异的语音分离性能,具有较高的实用价值。
53、与现有技术相比,本发明通过引入虚拟麦克风估计和空间字典学习,实现了在不同阵列几何形状和通道数量下的一致分离性能。层次化双路径架构的应用,有效降低了计算复杂度,满足了实时处理的需求。整体而言,本发明在语音分离的准确性、适应性和效率上都有显著的提升,克服了现有技术的局限性。
54、综上所述,本发明提供了一种统一频谱-空间建模的阵列几何无关语音分离方法和系统,能够在各种麦克风阵列配置下,实现高效、准确的语音分离,具有广阔的应用前景。