本发明涉及语音识别,尤其涉及一种复杂场景的两阶段音视频说话人提取方法及系统。
背景技术:
1、目标说话人提取技术(target speaker extraction,tse)是在著名的鸡尾酒会问题中,忽略其他噪音和干扰,而只将目标人的声音提取出来。tse技术正随着人工智能的快速发展广泛应用于各个领域。在现实应用中,人们通常只关注特定个体的语音内容,并希望能够将其从混合的声音中提取出来。针对这一需求,目标人抽取技术具备更高的实用性和适应性。通过目标人抽取技术,可以准确地提取特定个体的语音信号,过滤掉其他说话人的干扰。这种个性化的分离技术能够满足个人的特定需求,提供更精准、清晰的语音内容。通过满足用户对特定个体语音的关注,目标人抽取技术在现实应用中具有更高的实用价值和广泛的适用性。
2、然而,随着智能语音技术的快速发展,用户对于个性化应用性能和鲁棒性的要求也越来越高。这意味着目标人抽取技术需要在各种不同的噪声场景下展现出卓越的表现能力。在真实环境中,噪声来源和特性多种多样,如背景噪声、交叠说话人和环境声音等,对目标人抽取算法提出了更高的挑战。因此,本方法面向复杂声学场景下的目标人抽取技术展开研究,针对目标人抽取技术在实际应用的需求和痛难点,从训练和实际测试条件的匹配性入手,解决复杂场景下目标人抽取的准确性和鲁棒性问题,具有重要的应用和研究意义。
3、音视频语音分离方案常从视频信息中提取目标人抽取的辅助特征。相比于注册语音,视觉信息可以和混叠语音同步获取,不需要提前注册。另外,相对于语音信号,视觉信息在高噪声场景下不会受到影响,能更有效地对抗音频干扰,更容易为分离器提供高质量的辅助特征。
4、然而现有的大部分音视频分离技术都是针对近场混叠语音,在一定信噪比条件下,近场语音的分离效果已经比较好,但在实际场景中很少会出现不带混响的纯净语音,并且干扰源的种类也非常多,比如白噪声、自然声、音乐等等。虽然也有一些方法可以对带混响的混合语音进行分离,但目前对带混响的混合语音的分离质量仍有待提升。
技术实现思路
1、本发明提供一种复杂场景的两阶段音视频说话人提取方法及系统,用以解决现有技术中对带混响的混合语音的分离质量不佳的缺陷,实现一种复杂场景的两阶段音视频说话人提取方法。
2、本发明提供一种复杂场景的两阶段音视频说话人提取方法,包括:
3、提取音频特征和视频特征,并将所述音频特征和所述视频特征对齐后拼接,得到融合特征,其中,所述音频特征自包含待提取说话人语音的场景音频提取得到,所述视频特征自与场景音频对应的场景视频中提取得到,表征待提取说话人的唇部动作特征;
4、将所述融合特征输入预先训练得到的一阶段分离网络,得到所述一阶段分离网络输出的带有混响的待提取说话人语音;
5、将所述带有混响的待提取说话人语音输入预先训练得到的二阶段去混响网络,得到待提取说话人的干净语音;
6、其中,至少所述一阶段分离网络基于预先构建的数据集训练得到,所述数据集中的每条数据至少包括目标说话人包含混响的语音和混合目标说话人语音、其他说话人语音和场景混响得到的干扰音频,以及包含目标说话人完整唇部动作且与目标说话人语音对应的视频。
7、根据本发明提供的一种复杂场景的两阶段音视频说话人提取方法,所述将所述融合特征输入预先训练得到的一阶段分离网络的步骤前,还包括:
8、采集目标说话人语音和干扰语音,其中,说话人语音由目标说话人的音视频数据提取得到,干扰语音包括竞争说话人的音频数据、非语音噪声干扰和音乐干扰中的一种或多种;
9、采集多个不同场景的混响数据,并为所述目标说话人语音和干扰语音添加混响;
10、使用加权信噪比的方式随机组合添加混响后的目标说话人语音和若干条干扰语音,得到所述干扰音频;
11、基于所述干扰音频整理得到所述数据集,使所述数据集中的每条数据包括干扰音频、该干扰音频对应的目标说话人包含混响的语音以及对应的目标说话人语音。
12、根据本发明提供的一种复杂场景的两阶段音视频说话人提取方法,所述提取音频特征的步骤,具体包括:
13、使用预训练的唇读任务网络对所述场景视频提取,得到唇部嵌入向量,以表征与目标说话人语音内容相关的隐式音频信息;
14、将所述唇部嵌入向量在维度上与所述音频特征对齐;
15、将对齐后的唇部嵌入向量输入多层时序模块,以增强唇部嵌入向量的时域上下文表示能力,得到所述多层时序模块输出的视频特征,其中,所述多层时序模块采用级联的visualconv1d层结构,并通过跨层残差连接保留原始特征信息,所述visualconv1d层为用于视觉时序建模的一维卷积组件,其通过分组卷积与通道变换操作在时间维度上提取并融合局部动态模式。
16、根据本发明提供的一种复杂场景的两阶段音视频说话人提取方法,所述visualconv1d层包括依次进行的以下子操作:relu激活、全局层归一化、1x1通道扩展卷积、relu激活、全局层归一化、深度可分离卷积、prelu激活、全局层归一化和1x1通道压缩卷积。
17、根据本发明提供的一种复杂场景的两阶段音视频说话人提取方法,所述一阶段分离网络包括多个级联的分离模块,其中,每个所述分离模块依次对输入的特征进行提炼,并输出一个中间分离结果;所述一阶段分离网络使用如下损失函数训练得到:
18、;
19、式中, k为分离模块的数量,表示第 k层分离模块的损失,为总损失;
20、其中,第 k层分离模块的损失如下式所示:
21、;
22、式中,x表征分离模块输出的估计值,s表征目标说话人包含混响的语音,zm表示零均值化,表示所述目标说话人包含混响的语音在估计信号上的投影,表征极小值,t表示总时间帧数,t表示时间帧索引。
23、根据本发明提供的一种复杂场景的两阶段音视频说话人提取方法,所述一阶段分离网络和所述二阶去混响网络在所述数据集上同步训练得到。
24、本发明还提供一种基于复杂场景的两阶段音视频说话人提取系统,包括:
25、获取模块,用于提取音频特征和视频特征,并将所述音频特征和所述视频特征对齐后拼接,得到融合特征,其中,所述音频特征自包含待提取说话人语音的场景音频提取得到,所述视频特征自与场景音频对应的场景视频中提取得到,表征待提取说话人的唇部动作特征;
26、初步分离模块,用于将所述融合特征输入预先训练得到的一阶段分离网络,得到所述一阶段分离网络输出的带有混响的待提取说话人语音;
27、提取模块,用于将所述带有混响的待提取说话人语音输入预先训练得到的二阶段去混响网络,得到待提取说话人的干净语音;
28、其中,至少所述一阶段分离网络基于预先构建的数据集训练得到,所述数据集中的每条数据至少包括目标说话人包含混响的语音和混合目标说话人语音、其他说话人语音和场景混响得到的干扰音频,以及包含目标说话人完整唇部动作且与目标说话人语音对应的视频。
29、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述复杂场景的两阶段音视频说话人提取方法。
30、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述复杂场景的两阶段音视频说话人提取方法。
31、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述复杂场景的两阶段音视频说话人提取方法。
32、本发明提供的复杂场景的两阶段音视频说话人提取方法及系统,通过构建并训练一阶段分离网络和二阶段去混响网络,将语音提取任务拆分为两个阶段执行,有效减少提取模型整体的训练难度,相较于单阶段的语音提取模型,有效提高了分离后语音的可懂度,在保留空间声学特性的同时实现高保真语音重建,为会议系统、司法取证、智能助听器等实际场景的落地应用提供了可靠解决方案,推动多模态语音处理技术向复杂现实环境迈进关键一步。