一种基于深度学习的特定目标唇语识别方法

文档序号:34897235发布日期:2023-07-26 01:57阅读:35来源:国知局
一种基于深度学习的特定目标唇语识别方法

本发明涉及计算机视觉和深度学习领域,特别是涉及一种基于深度学习的特定目标唇语识别方法。


背景技术:

1、唇语识别是一项集计算机视觉与自然语言处理于一体的复合型技术,系统使用计算机视觉技术从连续的图像中识别出人脸信息,从而提取对应口型变化的连续特征,随即将连续变化的特征送入唇语识别模型中,最后模型预测出讲话人变化的口型可能对应的发音,根据预测出的发音,计算出可能性最大的自然语言语句。唇语识别是计算机视觉和人机交互领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能恢复、刑事侦查、身份认证等领域。目前大量的安防监控摄像头只有视频而没有音频信息,采用唇语辅助技术可以获得许多单纯依靠视频无法得到的信息。另外,唇语识别技术也可以解决嘈杂环境下音频识别准确度不高的问题。所以唇语识别技术在安防、工业、民用领域都有重要的实践意义。

2、目前的唇语识别技术主要包括基于注意力机制的唇语识别、基于3d卷积的唇语识别、基于隐马尔可夫模型的唇语识别等,这些唇语识别技术的局限性在于:为了实现较高的识别准确率,使用的模型规模通常都比较大,因此训练代价也随之增加;如果为了减少成本而降低模型规模,又会损失很多的识别准确率;当前缺少针对特定目标的唇语识别技术。


技术实现思路

1、针对现有技术中的上述不足,本发明提供的一种基于深度学习的特定目标唇语识别方法解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。

2、为了达到上述发明目的,本发明采用的技术方案为:一种基于深度学习的特定目标唇语识别方法,包括以下步骤:

3、s1:制定唇语识别数据集,包括大型通用数据集和小样本特定目标数据集;

4、s2:采用swin-transformer网络和transformer网络构建唇语识别基础模型;

5、s3:利用大型通用数据集对唇语识别基础模型进行训练,输出第一大概率标签序列;

6、s4:基于第一大概率标签序列,采用对抗域适应的方法,构建特定目标唇语识别模型;

7、s5:利用小样本特定目标数据集和部分大型通用数据集对特定目标唇语识别模型进行训练,输出第二大概率标签序列,保证特定目标唇语识别模型对特定目标唇语识别的准确率;

8、s6:对特定目标唇语识别模型进行测试,获得针对特定目标的唇语识别结果。

9、上述方案的有益效果是:本发明以swin-transformer网络和transformer网络为主框架构建唇语识别基础模型,在唇语识别基础模型的基础上,采用对抗域适应的方法构建特定目标唇语识别模型,有效提高模型对特定目标的唇语识别准确率,解决了目前唇语识别方法使用的模型规模较大、训练代价较大、识别准确率易受模型规模影响以及目前缺少特定目标的唇语识别方法的问题。

10、进一步地,s1中制定唇语识别数据集包括以下分步骤:

11、s1-1:采用原始数据集随机选取不同的视频样本进行组合拼接,生成2-6秒的长句视频样本,同时拼接对应的真实标签,形成大型通用数据集;

12、s1-2:为模拟真实环境,在室内自然光条件下采集小样本特定视频,要求人脸区域占相机画面的75%,采集的视频内容为原始数据集中短语组合形成的语句标签,同时采集部分样本时进行角度偏移;

13、s1-3:利用seetaface人脸检测算法对采集的视频内容进行视频处理,包括裁剪出人脸有效视频段、定位唇部区域、进行视频拆帧、截取每帧图像中的唇部部分以及保存所有唇部图像形成小样本特定目标数据集。

14、上述进一步方案的有益效果是:通过上述技术方案,获得模型所需的唇语识别数据集,包括大型通用数据集和小样本特定目标数据集。

15、进一步地,s2中唇语识别基础模型的前端部分采用swin-transformer网络提取唇部图像特征,所述唇语识别基础模型的后端部分采用transformer网络进行编码操作和解码操作,将唇部序列图像翻译成对应的标签信息。

16、上述进一步方案的有益效果是:通过上述技术方案,构建唇语识别基础模型,其中,利用swin-transformer网络提取特征值,利用transformer网络对特征值进行编码和解码,获得对应的标签信息。

17、进一步地,s2中swin-transformer网络包括以下分步骤:

18、s2-1:通过patch拆分模块将尺寸为h×w×3的rgb图像拆分为n个非重叠等尺寸的patch块,每个patch块作为一个token;

19、s2-2:利用线性嵌入层将n个patch块映射到任意维度c,得到每个patch块对应的特征向量;

20、s2-3:将特征向量依次送入多个swin-transformer block,得到最终输出结果。

21、上述进一步方案的有益效果是:通过上述技术方案,构成swin-transformer网络的内部结构,用于提取唇部特征图像。

22、进一步地,s2中transformer网络的编码器部分由n个编码器层堆叠形成,transformer网络的解码器部分由n个解码器层堆叠形成,每个编码器层由两个子层连接形成,第一个子层包括多头注意力模块、残差连接模块和层归一化模块,第二个子层包括点式前馈网络模块、残差连接模块和层归一化模块。

23、上述进一步方案的有益效果是:通过上述技术方案,构成transformer网络的结构,主要包括编码器部分和解码器部分,分别利用该部分进行编码操作和解码操作。

24、进一步地,s4中采用对抗域适应的方法,构建特定目标唇语识别模型,包括以下分步骤:

25、s4-1:将特定目标唇语识别模型的前端部分的swin-transformer网络作为特征提取器,把源域样本和目标域样本成对送入特征提取器中提取唇部特征信息;

26、s4-2:将提取到的唇部特征信息同时传输至特定目标唇语识别模型的后端部分的transformer网络和领域判别器;

27、s4-3:利用领域判别器判断接收到的唇部特征信息来自源域或目标域,并计算相应的损失,利用transformer网络进行编码操作和解码操作,并计算相应的损失,完成特定目标唇语识别模型的构建。

28、上述进一步方案的有益效果是:通过上述技术方案,构建特定目标唇语识别模型,利用特征提取器提取唇部特征信息,利用领域判别器判断唇部特征信息的来源,利用transformer网络进行编码和解码,并计算相应的损失。

29、进一步地,s4-3中损失采用交叉熵损失函数loss计算,公式为

30、

31、其中,y为样本的标签,为样本预测为正类的概率。

32、上述进一步方案的有益效果是:根据上述公式,利用交叉熵损失函数计算本方案构建特定目标唇语识别模型中的损失。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1