视听语音识别方法、装置、设备、介质及产品与流程

文档序号:33709090发布日期:2023-03-31 22:54阅读:67来源:国知局
视听语音识别方法、装置、设备、介质及产品与流程

1.本技术涉及人工智能技术领域,尤其涉及一种视听语音识别方法、装置、设备、介质及产品。


背景技术:

2.语音是人们日常生活中最重要的交流手段,同时还具备人类特有的地域或情绪等各种属性。为了进一步探索语音中包含的秘密,语音识别技术应运而生。自动语音识别技术除了研究语言学,还包含了人工智能理论、数字信号处理、模式识别等多种不同学科的理论与实践,具有非常重要的研究价值。
3.当前主流语音识别技术如单模态视觉唇语识别技术和单模态听觉语音识别技术识别,准确率较高,然而高准确率基于语音数据集纯净无噪声信息、训练数据与测试数据相同分布、语速稳定的朗读等特定语音场景的条件下。
4.在处于高噪声、方言、口音等复杂环境场景下,目前的语音识别方式的准确性较差。


技术实现要素:

5.本技术提供一种视听语音识别方法、装置、设备、介质及产品,用以解决目前在处于高噪声、方言、口音等复杂环境场景下,目前的语音识别方式的准确性较差的问题。
6.本技术第一方面提供一种视听语音识别方法,包括:
7.获取待识别的视频特征和对应的含噪语谱图;所述视频特征为基于用户的唇部图像提取的特征;所述含噪语谱图为基于用户的音频数据提取生成的;
8.将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图;
9.将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。
10.进一步地,如上所述的方法,所述获取待识别的视频特征和对应的含噪语谱图,包括:
11.获取待识别的音频数据和视频数据;
12.对所述音频数据进行预处理,以生成对应的含噪语谱图;所述预处理包括预加重处理、分帧操作、加窗处理、短时傅里叶变换和梅尔滤波处理;
13.采用预设人脸识别工具对所述视频数据进行人脸识别,生成对应的人脸图像;
14.将所述人脸图像输入预设伪三维残差卷积网络,以提取所述视频特征。
15.进一步地,如上所述的方法,所述预设视听语音增强模型包括:视频编码器、音频编码器、预设融合降噪模块和音频解码器;
16.所述将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图,包括:
17.将所述视频特征输入所述视频编码器进行编码处理,生成对应第一视频编码特征;
18.将所述含噪语谱图输入所述音频编码器进行编码处理,生成对应第一音频编码特征;
19.将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征;
20.将所述增强编码特征输入所述音频解码器进行解码处理,生成所述增强语谱图。
21.进一步地,如上所述的方法,所述预设融合降噪模块包括:软阈值算法和阈值块;
22.所述将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征,包括:
23.将所述第一视频编码特征和所述第一音频编码特征进行拼接,生成中间编码特征;
24.将所述中间编码特征输入所述阈值块进行卷积池化处理和非线性变换处理,生成阈值参照值;
25.采用所述软阈值算法根据所述阈值参照值对所述音频编码特征进行降噪处理,生成降噪后的增强编码特征。
26.进一步地,如上所述的方法,所述预设视听语音识别模型包括视听编码器、预设视听融合算法、视听解码器和softmax函数;
27.所述将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列,包括:
28.将所述增强语谱图和所述视频特征输入所述视听编码器进行编码处理,生成对应的第二音频编码特征和第二视频编码特征;所述视听编码器包括时间卷积神经网络和跳过循环神经网络skiprnn;
29.采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征;
30.将所述最终融合编码特征输入所述视听解码器进行解码处理,生成最终融合解码特征;
31.采用softmax函数对所述最终融合解码特征进行分类处理,输出概率最大值所对应的最终字符序列。
32.进一步地,如上所述的方法,所述采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征,包括:
33.采用所述预设视听融合算法将所述第二视频编码特征投影至所述第二音频编码特征上,生成包含第二视频编码特征的第二音频编码特征;
34.采用所述预设视听融合算法将所述第二音频编码特征投影至所述第二视频编码特征上,生成包含第二音频编码特征的第二视频编码特征;
35.将所述包含第二视频编码特征的第二音频编码特征和所述包含第二音频编码特征的第二视频编码特征进行融合,生成所述最终融合编码特征。
36.本技术第二方面提供一种视听语音识别装置,包括:
37.获取模块,用于获取待识别的视频特征和对应的含噪语谱图;所述视频特征为基于用户的唇部图像提取的特征;所述含噪语谱图为基于用户的音频数据提取生成的;
38.降噪模块,用于将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图;
39.识别模块,用于将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。
40.进一步地,如上所述的装置,所述获取模块具体用于:
41.获取待识别的音频数据和视频数据;对所述音频数据进行预处理,以生成对应的含噪语谱图;所述预处理包括预加重处理、分帧操作、加窗处理、短时傅里叶变换和梅尔滤波处理;采用预设人脸识别工具对所述视频数据进行人脸识别,生成对应的人脸图像;将所述人脸图像输入预设伪三维残差卷积网络,以提取所述视频特征。
42.进一步地,如上所述的装置,所述预设视听语音增强模型包括:视频编码器、音频编码器、预设融合降噪模块和音频解码器;
43.所述降噪模块具体用于:
44.将所述视频特征输入所述视频编码器进行编码处理,生成对应第一视频编码特征;将所述含噪语谱图输入所述音频编码器进行编码处理,生成对应第一音频编码特征;将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征;将所述增强编码特征输入所述音频解码器进行解码处理,生成所述增强语谱图。
45.进一步地,如上所述的装置,所述预设融合降噪模块包括:软阈值算法和阈值块;
46.所述降噪模块在将所述第一视频编码特征和所述第一音频编码特征输入所述预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征时,具体用于:
47.将所述第一视频编码特征和所述第一音频编码特征进行拼接,生成中间编码特征;将所述中间编码特征输入所述阈值块进行卷积池化处理和非线性变换处理,生成阈值参照值;采用所述软阈值算法根据所述阈值参照值对所述音频编码特征进行降噪处理,生成降噪后的增强编码特征。
48.进一步地,如上所述的装置,所述预设视听语音识别模型包括视听编码器、预设视听融合算法、视听解码器和softmax函数;
49.所述识别模块具体用于:
50.将所述增强语谱图和所述视频特征输入所述视听编码器进行编码处理,生成对应的第二音频编码特征和第二视频编码特征;所述视听编码器包括时间卷积神经网络和跳过循环神经网络skiprnn;采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征;将所述最终融合编码特征输入所述视听解码器进行解码处理,生成最终融合解码特征;采用softmax函数对所述最终融合解码特征进行分类处理,输出概率最大值所对应的最终字符序列。
51.进一步地,如上所述的装置,所述识别模块在采用所述预设视听融合算法对所述第二音频编码特征和所述第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征时,具体用于:
52.采用所述预设视听融合算法将所述第二视频编码特征投影至所述第二音频编码
特征上,生成包含第二视频编码特征的第二音频编码特征;采用所述预设视听融合算法将所述第二音频编码特征投影至所述第二视频编码特征上,生成包含第二音频编码特征的第二视频编码特征;将所述包含第二视频编码特征的第二音频编码特征和所述包含第二音频编码特征的第二视频编码特征进行融合,生成所述最终融合编码特征。
53.本技术第三方面提供一种电子设备,包括:存储器和处理器;
54.所述存储器存储计算机执行指令;
55.所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面任一项所述的视听语音识别方法。
56.本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的视听语音识别方法。
57.本技术第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的视听语音识别方法。
58.本技术提供的一种视听语音识别方法、装置、设备、介质及产品,该方法包括:获取待识别的视频特征和对应的含噪语谱图;所述视频特征为基于用户的唇部图像提取的特征;所述含噪语谱图为基于用户的音频数据提取生成的;将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图;将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。本技术的视听语音识别方法,通过预设视听语音增强模型基于视频特征对含噪语谱图进行降噪处理,从而得到纯净程度更高的增强语谱图。通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别,以两种模态互补的方式,提高最终字符序列的准确性,从而提高了语音识别的准确性。
附图说明
59.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
60.图1为可以实现本技术实施例的视听语音识别方法的场景图;
61.图2为本技术提供的视听语音识别方法的流程示意图一;
62.图3为本技术提供的视听语音识别方法的流程示意图二;
63.图4为本技术提供的视听语音识别方法的整体流程示意图;
64.图5为本技术提供的预设伪三维残差卷积网络结构类型示意图;
65.图6为本技术提供的视听语音识别方法的降噪流程示意图;
66.图7为本技术提供的视听语音识别方法的阈值块结构示意图;
67.图8为本技术提供的视听语音识别方法的视听编码器结构示意图;
68.图9为本技术提供的视听语音识别装置的结构示意图;
69.图10为本技术提供的电子设备的结构示意图。
70.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
71.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
72.本技术实施例的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
73.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
74.需要说明的是,本公开视听语音识别方法、装置、设备、介质及产品可用于数据处理技术领域。也可用于除数据处理以外的任意领域,如金融领域。本公开视听语音识别方法、装置、设备、介质及产品应用领域不作限定。
75.下面以具体地实施例对本技术的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
76.为了清楚理解本技术的技术方案,首先对现有技术的方案进行详细介绍。当前主流语音识别技术识别准确率提升至98%及以上。但是高准确率是在语音数据集纯净无噪声信息、训练数据与测试数据相同分布、语速稳定的朗读等特定语音场景的前提下。因此,目前的语音识别技术性能稳定的关键是克服各种环境因素的影响。近些年随着人工智能技术的蓬勃发展,从单模态学习到多模态学习的趋势已经成为改善各种人工智能任务的关键。为了解决存在噪声的语音识别率低的问题,研究人员提出了视听语音识别的概念。这项技术在日常生活中也被屡屡使用,例如听力存在障碍的人一般会结合对话者的唇部动作去帮助理解说话者的语音信息。存在噪声背景的情况下,听力正常者通常结合声音和唇部的变化以达到单纯结合存在噪声的声音无法比拟的效果。
77.人类对外界的感知一直都是多维的,不仅仅使用听觉,还会使用视觉、触觉、味觉和嗅觉,其中视觉和听觉是我们在日常生活中最重要的两种感知方式。在过去的几十年里,视听语音识别方法已经在学术界得到了广泛的发展。但是,目前关于视听语音识别技术的应用还处于初级阶段,很多实际场景问题例如导航系统、智能语音助手以及无人驾驶等还有待科研和开发人员解决,诸如含噪音视频模态信息的融合问题、由于数据复杂导致训练无法收敛问题以及模型泛化效果不佳等问题,这些问题很大程度上阻碍了视听语音识别技术在各种实际场景的应用。音视频模态信息融合问题是限制视听语音识别识别性能最为突出的问题,如果音视频模态融合方法出现问题会导致多模态视听语音识别的准确率比单模态语音识别准确率更低。在以上理论和现实背景的基础下,基于视听融合的语音识别技术是一个需要深入研究的课题,同时也是一个充满挑战的课题。
78.随着人工智能理论尤其是深度学习理论的发展,基于深度学习的语音识别系统性能相较以往有了长足的进步,但是在处于高噪声、方言、口音等复杂环境场景下,目前的语
音识别方式的准确性较差。
79.所以针对现有技术中在处于高噪声、方言、口音等复杂环境场景下,目前的语音识别方式的准确性较差的问题,发明人在研究中发现,由于单模态视觉唇语识别技术与单模态听觉语音识别技术的目标均是预测所说内容对应的文本信息,因此视觉唇语信息和听觉语音信息可以作为基本分布相同的两种异构模式。为了解决该问题,可以通过视听多模态互补的方式,对含噪语谱图进行降噪,以及提高语音识别准确性。
80.具体的,获取待识别的视频特征和对应的含噪语谱图。视频特征为基于用户的唇部图像提取的特征。含噪语谱图为基于用户的音频数据提取生成的。将视频特征和含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图。将增强语谱图和视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。
81.本技术的视听语音识别方法,通过预设视听语音增强模型基于视频特征对含噪语谱图进行降噪处理,从而得到纯净程度更高的增强语谱图。通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别,以两种模态互补的方式,提高最终字符序列的准确性,从而提高了语音识别的准确性。
82.发明人基于上述的创造性发现,提出了本技术的技术方案。
83.下面对本技术实施例提供的视听语音识别方法的应用场景进行介绍。如图1所示,其中,1为电子设备,2为拍摄设备,3为待识别语音的用户。本技术实施例提供的视听语音识别方法对应的应用场景的网络架构中包括:电子设备1和拍摄设备2。拍摄设备2可以为具有拍摄功能的智能终端,如手机、平板等。
84.示例性的,在用户3说话的时候,拍摄设备2拍摄了用户3的视频数据和音频数据。视频数据中包括用户3的脸部特征,尤其是唇部图像对应的特征。拍摄设备3通过对视频数据和音频数据进行特征提取,生成对应的视频特征和含噪语谱图。拍摄设备3发送该视频特征和含噪语谱图至电子设备1,电子设备1将视频特征和含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图。同时,电子设备1将增强语谱图和视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。电子设备1可以输出最终字符序列至拍摄设备2,以将最终字符序列展示至用户3。
85.在其他应用场景中,也可以是由第一电子设备1从存储有视频特征和含噪语谱图的其他电子设备处获取视频特征和含噪语谱图。也可以由第一电子设备1兼顾拍摄用户3的功能,实现生成用户3对应的视频数据和音频数据,并进行特征提取,得到对应的视频特征和含噪语谱图。对此本实施例不作限定。
86.下面结合说明书附图对本技术实施例进行介绍。
87.本实施例的视听语音识别(英文全称为:audio-visual speech recognition,英文简称为:avsr),同时利用音视频双模态信息共同完成对语音信息的识别。
88.图2为本技术提供的视听语音识别方法的流程示意图一,如图2所示,本实施例中,本技术实施例的执行主体为视听语音识别装置,该视听语音识别装置可以集成在电子设备中。则本实施例提供的视听语音识别方法包括以下几个步骤:
89.步骤s101,获取待识别的视频特征和对应的含噪语谱图。视频特征为基于用户的唇部图像提取的特征。含噪语谱图为基于用户的音频数据提取生成的。
90.本实施例中,可以直接从存储有视频特征和对应的含噪语谱图的电子设备处获
取,也可以通过获取视频数据和音频数据进行提取后获取。本实施例对此不作限定。
91.由于用户在说话时,一般会存在干扰的噪音,如环境音、设备音等。因而,音频数据提取特征后得到的为含噪语谱图。
92.步骤s102,将视频特征和含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图。
93.本实施例中,预设视听语音增强模型基于视频特征对含噪语谱图进行降噪处理,通过视频特征与含噪语谱图之间互不特性,进一步降低含噪语谱图中的噪音,得到增强语谱图。从而使后续的语音识别准确性更高。
94.预设视听语音增强模型可以采用神经网络,如包括视频编码器、音频编码器、预设融合降噪模块和音频解码器。其中,视频编码器、音频编码器为卷积神经网络,音频解码器为反卷积神经网络。
95.步骤s103,将增强语谱图和视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。
96.本实施例中,预设视听语音识别模型基于视听多模态的互补,进行语音识别,进一步提高语音识别的准确性。
97.本技术实施例提供的一种视听语音识别方法,该方法包括:获取待识别的视频特征和对应的含噪语谱图。将视频特征和含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图。将增强语谱图和视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。
98.本技术的视听语音识别方法,通过预设视听语音增强模型基于视频特征对含噪语谱图进行降噪处理,从而得到纯净程度更高的增强语谱图。通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别,以两种模态互补的方式,提高最终字符序列的准确性,从而提高了语音识别的准确性。
99.图3为本技术提供的视听语音识别方法的流程示意图二,如图3所示,本实施例提供的视听语音识别方法,是在本技术上一实施例提供的视听语音识别方法的基础上,进行了进一步的细化。图4为本技术提供的视听语音识别方法的整体流程示意图,本实施例的整体流程如图4所示,则本实施例提供的视听语音识别方法包括以下步骤。
100.步骤s201,获取待识别的音频数据和视频数据。
101.本实施例中,获取的方式可以是从拍摄设备中获取,也可以从存储有音频数据和视频数据的电子设备处获取。
102.步骤s202,对音频数据进行预处理,以生成对应的含噪语谱图。预处理包括预加重处理、分帧操作、加窗处理、短时傅里叶变换和梅尔滤波处理。
103.本实施例中,首先对音频数据进行预加重,预加重是为了加重语音的能量,使得高频信息凸显出来,解决语音中低频具有较高能量的现象即频谱倾斜。为了将长时间的语音信号分成多个单帧短时间信号以及利用短时间内的语音信号稳定特性,进行了分帧操作。由于语音帧起始信号和终止信号之间的不连续性会导致出现频谱泄漏现象,此时需要对信号进行加窗处理降低此影响,加窗处理会使整体信号更加连续,本实施例中可以采用汉明窗来进行加窗运算,提高加窗运算效果。
104.同时,为了将难以处理的时域语音信号转为易于观察分析的频域信号,对经过前
面处理过程后的语音帧进行短时傅里叶变换后得到各帧的频谱。将短时傅里叶变换窗口大小设置为640个样本,相当于40ms(毫秒),相当于单个视频帧25fps(每秒传输帧数)的长度,窗口移动长度为10ms以保证相邻窗口重叠75%。将短时傅里叶变换(英文简称为:stft,英文全称为:short-time fourier transform)得到的语谱图乘以梅尔标度滤波器组得到梅尔标度语谱图,得到含噪语谱图。
105.如图4所示,音频数据中经过上述预处理后,尤其是短时傅里叶变换得到含噪语谱图。
106.步骤s203,采用预设人脸识别工具对视频数据进行人脸识别,生成对应的人脸图像。
107.本实施例中,对于视频特征提取,由于视频按照时间维度展开是一组图像序列,所以其天然地拥有空间属性和时间属性。空间属性指图像序列中唇部图像区域所包含的信息,时间属性指唇部图像区域随着时间的运动变化信息。视频模态特征应该同时包含视频空间特征和时间特征。在将视频裁剪为图像时,应注意图像中应该只包含人脸图。
108.本实施例中预设人脸识别工具采用的openface2.x开源人脸识别框架,从而提高人脸识别准确率。
109.如图4所示,视频数据提取特征过程中,视频数据中基于人脸识别后得到的人脸图像中的唇部图像。
110.步骤s204,将人脸图像输入预设伪三维残差卷积网络,以提取视频特征。
111.本实施例,采取了一种伪三维残差卷积网络(英文全称为:pseudo-3d,英文简称为:p3d)。假设将三维卷积层的大小表示为d
×k×
k,其中d可以表示为卷积核的时间深度,k是卷积核的空间大小。那么如果有一个3
×3×
3的三维卷积层,那么可以分为1
×3×
3空间卷积即普通的二维卷积和一个3
×1×
1的时间卷积。p3d有三种结构,具体结构如图5所示,分别为p3d-a和p3d-b以及p3d-c。
112.本实施例中,使用p3d-a和p3d-b以及p3d-c依次堆叠而成的30层p3d网络,结构如下p3d-a
‑‑
p3d-b
‑‑
p3d-c
‑‑
p3d-a
‑‑
p3d-b
‑‑
p3d-c
……
p3d-a
‑‑
p3d-b
‑‑
p3d-c。从而可以进一步提高特征提取效果。
113.当语音信号处于噪声干扰背景或者大部分信息被覆盖的极端情况下时,预设视听语音增强模型会将纯净音频信号从复杂语音信号中提取出来。而利用说话者的唇部运动信息从包含噪声信息的说话者的音频信息提取出干净的音频信息是视听语音增强的重点。视听语音增强模型接受两种原始模态的输入即音视频模态输入,经过特征提取器提取特征后,对提取后的特征进行多模态的融合,模型对融合后的特征进行解码使其趋近与纯净声学特征。视听语音增强中的核心步骤是音视频多模态特征融合,优秀的融合算法是良好性能的前提。本实施例的预设视听语音增强模型包括:视频编码器、音频编码器、预设融合降噪模块和音频解码器,整体结构如图6所示。
114.步骤s205,将视频特征输入视频编码器进行编码处理,生成对应第一视频编码特征。
115.步骤s206,将含噪语谱图输入音频编码器进行编码处理,生成对应第一音频编码特征。
116.音频编码器和视频编码器是由多层不同卷积核的卷积神经网络(英文全称为:
convolutional neural networks,英文简称为:cnn)组成,解码器由其对应的反卷积组成,图6中的融合在本实施例中是指将音视频编码器获得的两种模态的更高表征进行融合。
117.步骤s207,将第一视频编码特征和第一音频编码特征输入预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征。
118.本实施例中,通过第一视频编码特征对第一音频编码特征进行降噪处理,提纯第一音频编码特征中用户声音的特征。
119.可选的,本实施例中,预设融合降噪模块包括:软阈值算法和阈值块。
120.步骤s207可以具体为:
121.将第一视频编码特征和第一音频编码特征进行拼接,生成中间编码特征。
122.将中间编码特征输入阈值块进行卷积池化处理和非线性变换处理,生成阈值参照值。
123.采用软阈值算法根据阈值参照值对音频编码特征进行降噪处理,生成降噪后的增强编码特征。
124.预设融合降噪模块基于软阈值算法(英文全称为:soft thresholding,英文简称为:st),st算法是指将处于阈值绝对值范围内的信号值置为0,处于阈值以外的信号值线性变换渐近于0。
125.软阈值化是一种非线性变换处理,和relu激活函数类似。可以将st算法代替relu函数应用在神经网络中。本实施例中所使用的st算法可总结为以下公式。
[0126][0127]
其中,公式中的x为含有噪声信息的音频模态特征,y为经过增强后的音频特征,τ为阈值。
[0128]
从公式中也可以看出st算法最核心的一步是阈值的计算,一个好的阈值是降噪成果有效的前提,在st中,阈值的设置须满足正数和不大于信号的最大值两个条件。如果阈值大于信号最大值会导致输出为0。基于阈值的性质,本实施例中设计了一个阈值块,输入是经过cnn处理后的音视频模态的更高表征信息,输出是如图7所示。
[0129]
在阈值块中,首先将视频编码器、音频编码器提取出的第一视频编码特征xv和第一音频编码特征va进行拼接,此时可以认为视频模态对受损音频模态进行了一定程度的补全,然后经过两次卷积最大池化操作,将更多的保留音视频模态的共享特征空间信息,那么经过sigmoid函数得到值可代表为音频中的纯净信息即应该增强的部分,其中,sigmoid函数是一种激活函数,可以将一个实数映射到(0,1)的区间,可以用来做二分类。此时,阈值应该是1与其的差值,以上过程可用以下公式表示。
[0130][0131][0132]
那么对于不同的输入样本每次都会获得其对应的阈值。可以看成一种特殊的注意力机制,注意到与当前任务有关的特征,将它们保留下来,无关的特征置为0。将音频编码器
提取出的音频模态特征与阈值τ进行比较,特征值不在τ的绝对值范围进行趋向0处理,在阈值τ绝对值范围内置0处理。此时得到的音频特征图里就大幅度降低了混合在其中的噪声信息且增大了纯净音频特征显示。
[0133]
步骤s208,将增强编码特征输入音频解码器进行解码处理,生成增强语谱图。
[0134]
将st算法处理后的音频特征图经过音频解码器反卷积后,得到和含噪语谱图同样维度的增强语谱图,为后续的语音识别提供基础。
[0135]
步骤s209,将增强语谱图和视频特征输入预设视听语音识别模型进行语音识别输出对应的最终字符序列。
[0136]
本实施例的步骤s209的实现方式与上一实施例的步骤s103的实现方式类似,在此不再一一赘述。
[0137]
可选的,本实施例中,预设视听语音识别模型包括视听编码器、预设视听融合算法、视听解码器和softmax函数。则步骤s209可以细化为:
[0138]
将增强语谱图和视频特征输入视听编码器进行编码处理,生成对应的第二音频编码特征和第二视频编码特征。视听编码器包括时间卷积神经网络和跳过循环神经网络skiprnn。
[0139]
采用预设视听融合算法对第二音频编码特征和第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征。
[0140]
将最终融合编码特征输入视听解码器进行解码处理,生成最终融合解码特征。
[0141]
采用softmax函数对最终融合解码特征进行分类处理,输出概率最大值所对应的最终字符序列。
[0142]
本实施例中的预设视听语音识别模型,整体结构是编码器-解码器结构,其音频特征输入是经过视觉感知增强后的增强语谱图,是接近于纯净音频语谱图的音频特征,视频输入即视频特征。整个视听编码器的结构如图8所示,图中,x
v1
指代输入的视频特征,x
a1
指代输入的音频特征-增强语谱图,主流模型使用rnn结构来对音视频模态特征进行更高维度的特征表达,为了在具备cnn的特性的同时可以更好的获取语音和视频模态特征中包含的序列信息,本实施例中采用时间卷积神经网络(英文全称为:temporal convolutional network,英文简称为tcn)来替代cnn。tcn不仅具有cnn优异的并行处理能力,还具有灵活的感受野,其中,感受野受隐藏层层数、卷积核大小以及膨胀系数决定,而且tcn的底层结构是cnn,所以不存在梯度爆炸和梯度消失等问题。
[0143]
由于本实施例基于预设视听语音增强模型和预设视听语音识别模型两个模型,整体模型比当前的视听语音识别模型在结构与模型参数要大,所以在不降低模型性能的前提下创造性的采用跳过循环神经网络skiprnn(英文全称为skip recurrent neural network),其网络结构中的二进制状态更新门相比普通的rnn,改善了推理速度慢、梯度消失以及难以捕获长期依存关系等问题。rnn的结构采用gru(英文全称为:gate recurrent unit,门控循环单元)结构,它相比普通的rnn改善了推理速度慢、梯度消失以及难以捕获长期依存关系等问题。那么本实施例主要采用tcn和gru作为视听编码器的组成单元。
[0144]
可选的,本实施例中,采用预设视听融合算法对第二音频编码特征和第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征,包括:
[0145]
采用预设视听融合算法将第二视频编码特征投影至第二音频编码特征上,生成包
含第二视频编码特征的第二音频编码特征。
[0146]
采用预设视听融合算法将第二音频编码特征投影至第二视频编码特征上,生成包含第二音频编码特征的第二视频编码特征。
[0147]
将包含第二视频编码特征的第二音频编码特征和包含第二音频编码特征的第二视频编码特征进行融合,生成最终融合编码特征。
[0148]
音视频多模态信息一般具有高维属性,如果将音视频模态的高维特征映射到低维度的统一的共享子空间将其进行特征融合,可以促进模态信息的相互补充与共享。基于此,本实施例提出一个基于两次跨模态注意力的预设视听融合算法,第一次使用跨模态注意力将视频模态信息投影到音频模态信息中使音频模态空间包含视频模态信息,第二次使用跨模态注意力将音频模态信息投影到视频模态信息中使视频模态空间包含音频模态信息,之后再将包含视频模态信息的音频模态和包含音频模态信息的视频模态进行融合,生成最终融合编码特征。
[0149]
其中,在第一次使用跨模态注意力机制时,将视频模态表示为query记为qv,音频模态表示为key和value记为ka和va。则qv、ka和va的定义如下所示:
[0150][0151][0152][0153]
其中,和是权重向量,d表示特征维度,表示音频编码器输出的音频信息的更高表征,表示视频编码器输出的视频信息的更高表征,l表示序列长度。将query和key做相关性得分,如果相关性得分高,则此时音频信息中纯净音频占主导地位,得分低则认为音频信息中的噪声覆盖了原本的信息,可表示为如下:
[0154][0155]
ya=score
ava
[0156]
其中,score表示音视频模态信息的相关性得分,表示归一化。将得到的相关性得分对va相乘得到此时的ya虽然表示音频模态信息,但其中也有视频模态信息的特征表示,相当于视频信息对含噪的音频信息进行了降噪处理。ya也表示视频模态在不同噪声情况下对音频模态信息的最终影响。第二次跨模态注意力于第一次跨模态注意力类似,可用以下公式表示:
[0157][0158][0159][0160]
[0161]yv
=score
vvv
[0162]
其中,各参数仅下标变化了,含义与上述第一次跨模态注意力类似。根据以上公式可得,和第一次使用跨模态注意力类似,只是将query和key所代表的模态进行了调换,和ya一样,此时得到的yv视频模态空间已经包含音频模态信息。将yv和ya进行特征空间融合得到的融合特征作为上下文向量送入解码器中,此时的融合特征包含了增强后的音视频模态共享特征以及音视频相异特征,经过解码和softmax操作得到最终字符序列。
[0163]
本实施例的视听语音识别方法,具有以下效果:
[0164]
更好的视频特征提取效果,通过使用伪三维神经网络作为视频特征提取网络,相比单纯使用cnn在提取视频的空间特征和时间特征上表现更好。
[0165]
更好的融合效果,音视频模态信息融合更加充分,在视听融合时选择使用两次跨模态注意力使音视频模态的高维特征映射到低维度的统一的共享子空间将其进行特征融合,以达到更好的融合效果。
[0166]
更高的识别准确率,在使用视听语音增强方法时,利用视觉信息对含有噪声的音频信息中的纯净音频进行增强,在后续的视听融合算法中使纯净的音频信息和对用的视频信息更好的融合,实现更高的识别准确率。
[0167]
图9为本技术提供的视听语音识别装置的结构示意图,如图9所示,本实施例中,该视听语音识别装置300可以设置在电子设备中,视听语音识别装置300包括:
[0168]
获取模块301,用于获取待识别的视频特征和对应的含噪语谱图。视频特征为基于用户的唇部图像提取的特征。含噪语谱图为基于用户的音频数据提取生成的。
[0169]
降噪模块302,用于将视频特征和含噪语谱图输入预设视听语音增强模型进行降噪处理,输出对应的增强语谱图。
[0170]
识别模块303,用于将增强语谱图和视频特征输入预设视听语音识别模型进行语音识别,输出对应的最终字符序列。
[0171]
本实施例提供的视听语音识别装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果与图2所示方法实施例类似,在此不再一一赘述。
[0172]
本技术提供的视听语音识别装置在上一实施例提供的视听语音识别装置的基础上,对视听语音识别装置进行了进一步的细化,则视听语音识别装置300包括:
[0173]
可选的,本实施例中,获取模块301具体用于:
[0174]
获取待识别的音频数据和视频数据。对音频数据进行预处理,以生成对应的含噪语谱图。预处理包括预加重处理、分帧操作、加窗处理、短时傅里叶变换和梅尔滤波处理。采用预设人脸识别工具对视频数据进行人脸识别,生成对应的人脸图像。将人脸图像输入预设伪三维残差卷积网络,以提取视频特征。
[0175]
可选的,本实施例中,预设视听语音增强模型包括:视频编码器、音频编码器、预设融合降噪模块和音频解码器。
[0176]
降噪模块302具体用于:
[0177]
将视频特征输入视频编码器进行编码处理,生成对应第一视频编码特征。将含噪语谱图输入音频编码器进行编码处理,生成对应第一音频编码特征。将第一视频编码特征和第一音频编码特征输入预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征。将增强编码特征输入音频解码器进行解码处理,生成增强语谱图。
[0178]
可选的,本实施例中,预设融合降噪模块包括:软阈值算法和阈值块。
[0179]
降噪模块302在将第一视频编码特征和第一音频编码特征输入预设融合降噪模块进行融合降噪,生成降噪后的增强编码特征时,具体用于:
[0180]
将第一视频编码特征和第一音频编码特征进行拼接,生成中间编码特征。将中间编码特征输入阈值块进行卷积池化处理和非线性变换处理,生成阈值参照值。采用软阈值算法根据阈值参照值对音频编码特征进行降噪处理,生成降噪后的增强编码特征。
[0181]
可选的,本实施例中,预设视听语音识别模型包括视听编码器、预设视听融合算法、视听解码器和softmax函数。
[0182]
识别模块303具体用于:
[0183]
将增强语谱图和视频特征输入视听编码器进行编码处理,生成对应的第二音频编码特征和第二视频编码特征。视听编码器包括时间卷积神经网络和跳过循环神经网络skiprnn。采用预设视听融合算法对第二音频编码特征和第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征。将最终融合编码特征输入视听解码器进行解码处理,生成最终融合解码特征。采用softmax函数对最终融合解码特征进行分类处理,输出概率最大值所对应的最终字符序列。
[0184]
可选的,本实施例中,识别模块303在采用预设视听融合算法对第二音频编码特征和第二视频编码特征进行跨模态注意力机制处理和融合处理,生成最终融合编码特征时,具体用于:
[0185]
采用预设视听融合算法将第二视频编码特征投影至第二音频编码特征上,生成包含第二视频编码特征的第二音频编码特征。采用预设视听融合算法将第二音频编码特征投影至第二视频编码特征上,生成包含第二音频编码特征的第二视频编码特征。将包含第二视频编码特征的第二音频编码特征和包含第二音频编码特征的第二视频编码特征进行融合,生成最终融合编码特征。
[0186]
本实施例提供的视听语音识别装置可以执行图2-图8所示方法实施例的技术方案,其实现原理和技术效果与图2-图8所示方法实施例类似,在此不再一一赘述。
[0187]
根据本技术的实施例,本技术还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
[0188]
如图10所示,图10是本技术提供的电子设备的结构示意图。电子设备旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
[0189]
如图10所示,该电子设备包括:处理器401和存储器402。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。
[0190]
存储器402即为本技术所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本技术所提供的视听语音识别方法。本技术的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本技术所提供的视听语音识别方法。
[0191]
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非
瞬时计算机可执行程序以及模块,如本技术实施例中的视听语音识别方法对应的程序指令/模块(例如,附图9所示的获取模块301、降噪模块302和识别模块303)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中的视听语音识别方法。
[0192]
同时,本实施例还提供一种计算机产品,当该计算机产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例的视听语音识别方法。
[0193]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术实施例的其它实施方案。本技术旨在涵盖本技术实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术实施例的一般性原理并包括本技术实施例未公开的本技术领域中的公知常识或惯用技术手段。
[0194]
应当理解的是,本技术实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术实施例的范围仅由所附的权利要求书来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1