一种基于多尺度时空卷积的唇语识别方法及系统

文档序号:33511108发布日期:2023-03-21 23:30阅读:129来源:国知局
一种基于多尺度时空卷积的唇语识别方法及系统

1.本发明属于计算机视觉识别技术领域,涉及一种唇语识别方法及系统。


背景技术:

2.唇语识别旨在通过视觉特征解释唇部、面部和舌头的运动来理解语音,与现有的人脸识别、指纹识别和手势识别相比,唇语识别具有高时效性和直接性的特点,在信息安全、语音识别和辅助驾驶方面具有极高的应用价值。
3.由于语言的模糊性,不同的文字可能对应一致的唇部变化,这就需要基于完整的序列来进行建模,充分提取上下文信息,考虑时空之间的关联性,从而对不同说话人的不同说话习惯进行唇语识别。现有的方法大多数都是基于有声视频来进行单词预测,没有对唇部运动变化的特征进行很好的建模,识别过程过于依赖音频信息,只将唇语识别作为辅助,体现不出视觉表达的有效性。因此,如何有效地解决唇语识别中同形不同字所导致的模糊识别问题成为了唇语识别中非常重要的一个任务。


技术实现要素:

4.为了解决背景技术中所述的问题,本发明提出了一种基于多尺度时空卷积的唇语识别方法及系统。
5.本发明的唇语识别方法包括以下步骤:
6.s1)采集唇语视频序列数据构建唇语识别数据集;
7.s2)对唇语识别数据集进行预处理,得到裁剪后的连续灰度唇语图像序列;
8.s3)构建基于多尺度时空卷积的音素序列提取网络模型,用于提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别;
9.s4)将连续灰度唇部图像序列输入音素序列提取网络模型中,生成相应的发音音素序列;
10.s5)将发音音素序列转换为文字格式的多个自然语句,通过预设的统计语言模型对其进行验证,验证合格后得到目标自然语句。
11.进一步地,所述步骤s1)中,构建唇语识别数据集时,将唇语句子中的单词标签转换为音素标签,并利用声学信息将音素标签与音频信息进行一对多的映射。
12.更进一步地,所述步骤s2)包括以下步骤:
13.s21)将唇语识别数据集中带有音素标签的视频序列数据裁剪为预设长度,并调整为预设的帧数值;
14.s22)依次对每帧图像进行关键点检测,根据得到的人脸关键点标注信息来确定各人脸图像中嘴角关键点,进而获取相应的唇部区域图像;
15.s23)将唇部区域图像转换为灰度图,并进行归一化处理,得到预处理后的连续灰度唇部图像序列。
16.更进一步地,所述步骤s3)的基于多尺度时空卷积的音素序列提取网络模型中,提
取时空运动信息:利用一个卷积核大小为5
×5×
7的3d卷积层去提取图像序列的时空信息,得到序列间的时空特征向量,其时间维度保持不变而空间维度减少到原图像序列的四分之一;提取细粒度特征:利用标准的resnet18网络来编码图像特征,在每个时间步长输出一个512维的向量,再加上当前的位置编码,以此输出序列内的细粒度特征向量;聚合多尺度唇部特征:引入空间平均池化以聚合空间信息,利用空间池化层来减少空间维度并调整输入大小,通过时空卷积模块对图像特征进行多尺度聚合,最后在时空卷积模块后再添加一个时间平均池化以聚合时间信息;预测音素类别:利用softmax函数计算最后的分类概率,输出大小为音素类别种类的预测结果,其中音素类别共有43个类别。
17.更进一步地,所述时空卷积模块由四个时空卷积网络顺序堆叠而成的;所述四个时空卷积网络中,第一个时空卷积网络的输入尺寸与另外三个时空卷积网络不同,另外三个时空卷积网络均是相同的构造;所述每个时空卷积网络均由两个子时空卷积块构成,且每个子时空卷积块后按顺序接weight norm、relu函数和dropout操作;所述四个时空卷积网络的输出通过串联简单地组合,设置3、5、7三种不同步长,利用交叉熵损失进行训练,获取更大的感受野,提取深层特征。
18.更进一步地,所述步骤s4)中,生成发音音素序列的具体步骤如下:
19.s41)设连续灰度唇部图像序列为t={t1,t2,

,t
l
},其中b对应视频的数量,l表示图像序列长度,h和w分别表示图像的高度和宽度,输入连续灰度唇部图像序列t到音素序列提取网络模型中;
20.s42)通过音素序列提取网络模型提取时空运动信息:通过一个卷积核大小为5
×7×
7的3d卷积层提取图像序列t的时空信息,得到序列间的时空特征向量t1,
21.s43)通过音素序列提取网络模型提取细粒度特征将时空特征向量t1输入到标准resnet18网络中来编码图像特征,随后在每个时间步长输出一个512维的向量,加上当前的位置编码,输出序列内的细粒度特征向量t2;
22.s44)通过音素序列提取网络模型聚合多尺度唇部特征:利用空间平均池化操作聚合空间信息,以多尺度聚合细粒度特征向量t2得到t3;将t3输入到四个时空卷积网络顺序堆叠而成的时空卷积模块中,得到图像特征t4;再通过一个时间平均池化操作聚合时间信息,由t4得到t5;
23.s45)通过音素序列提取网络模型预测音素类别:通过softmax函数对特征t5进行计算,得到43种音素类别中的一种yi=softmax(t5);
24.s46)组合输出分类结果,得到预测的发音音素序列为y={y1,y2,

,ym},其中m表示为发音音素序列长度。
25.更进一步地,所述步骤s5)中,得到目标自然语句的具体步骤包括:
26.s51)基于预置的音素发音映射表,查询发音音素序列中各音素对应的音素id,进而得到各音素对应的多个单词;接着按照因素序列的排序对相应的单词进行组合,得到文字格式的多个自然语句;
27.s52)选择长短期记忆网络作为预设统计语言模型,将多个自然语句按单词顺序输入其中,得到各自然语句的得分,选择分数最高的作为目标自然语句。
28.本发明还提出了一种基于多尺度时空卷积的唇语识别系统,包括数据采集模块、
预处理模块、音素生成模块和目标自然语句生成模块;
29.所述数据采集模块用于采集唇语视频序列数据构建唇语识别数据集;所述预处理模块用于对唇语识别数据集进行预处理,得到裁剪后的连续灰度唇语图像序列;所述音素生成模块中设置有基于多尺度时空卷积的音素序列提取网络模型,音素生成模块输入连续灰度唇语图像序列,通过音素序列提取网络模型提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别,生成相应的发音音素序列;所述目标自然语句生成模块中设置有预设统计语言模型,目标自然语句生成模块将将发音音素序列转换为文字格式的多个自然语句,通过预设统计语言模型对其进行验证,验证合格后得到目标自然语句。
30.本发明还提出了一种基于多尺度时空卷积的唇语识别方法计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现是上述所述方法中的步骤和上述所述的系统。
31.本发明还提出了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述的方法和上述所述系统。
32.本发明与现有技术相比,首选构建唇语识别数据集并对其进行预处理得到连续灰度唇语图像序列,通过构建的基于多尺度时空卷积的音素序列提取网络模型,针对连续灰度唇语图像序列提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别,生成相应的发音音素序列,从而通过对发音音素序列的转换,得到目标自然语句。本发明的方法和系统基于多尺度时空卷积,可以对唇语视频序列数据进行并行处理,在具体的唇语识别中,只需要对未来的信息进行遮挡就可以很好的模拟真实说话过程,从而保证说话的时序性,本发明的方法和系统不仅可以让我们捕捉到短时时间特征也可以捕捉长距离的句子内的空间特征。本发明利用不同尺度的时空卷积去提取句子间的深层关联特征,聚合不同时间尺度和空间尺度的信息,在特征编码时同时结合长短期信息,考虑整体结构和相邻的词组的相关性,从而更好地依据上下文信息,降低唇语识别在视觉表征上的模糊性,提高唇语识别的效率和准确率。
附图说明
33.图1为本发明的方法流程图及系统架构图。
34.图2为本发明中句子标签到音素标签映射实例。
35.图3为本发明中基于多尺度时空卷积的音素序列提取网络模型的架构示意图。
36.图4为本发明中时空卷积模块的总体架构示意图。
37.图5为本发明中音素序列提取网络模型提取发音音素序列的具体过程示意图。
具体实施方式
38.下面结合附图详细说明本发明的实施情况,但它们并不构成对本发明的限定,仅做举例而已,同时通过说明,将更加清楚地理解本发明的优点。本领域的普通的技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。实施例中其他未详细说明的部分均为现有技术。
39.首先就本发明中涉及的技术术语进行解释和说明。
40.池化层:将池化层引入唇语识别方法中,作用在不同维度卷积层之间,目的是为了
逐步缩小唇部特征的尺寸,确保模块间输入输出的维度一致性,减少参数数量,防止过拟合。池化的原理十分简单,只需要在不同的通道上根据窗口大小分开执行,不对通道数进行改变,整个过程不需要参数控制。最常见的池化操作有平均池化和最大池化,前者主要是计算图像区域的平均值作为该区域池化后的值,后者选图像区域的最大值作为该区域池化后的值。
41.dropout:dropout是一种常用的参数正则化方法,通常在循环过程中,先随机选择神经层中一些节点加以隐藏,然后再进行网络中的训练和优化过程。在每次循环时选择不同的神经元节点,直到训练结束。
42.本发明提出了一种基于多尺度时空卷积的唇语识别方法,该方法的流程图如图1所示,下面对该方法的步骤进行详细说明。
43.s1)数据采集
44.采集唇语视频序列数据构建唇语识别数据集,具体地,构建唇语识别数据集时,将唇语句子中的单词标签转换为音素标签,并利用声学信息将音素标签与音频信息进行一对多的映射。
45.这是由于考虑到现有的大多数唇语识别数据集都是以单词为标签,按行读取,需要在构建数据集的过程中,将句子中的单词标签转换为音素标签,便于模型后续的有监督学习,直接将音频信息进行音素标签的映射,利用声学信息的映射,音频信息和音素标签是多对一的映射,从而能够保证音素标签映射的准确性,不会带来任何视觉上的模糊。
46.图2为句子标签到音素标签映射的实例。
47.s2)数据预处理
48.对唇语识别数据集进行预处理,得到裁剪后的连续灰度唇语图像序列。具体的步骤如下:
49.①
将唇语识别数据集中带有音素标签的视频序列数据裁剪为预设长度,并调整为预设的帧数值;
50.②
依次对每帧图像进行关键点检测,根据得到的人脸关键点标注信息来确定各人脸图像中嘴角关键点,进而获取相应的唇部区域图像;
51.③
将唇部区域图像转换为灰度图,并进行归一化处理,得到预处理后的连续灰度唇部图像序列。
52.s3)构建基于多尺度时空卷积的音素序列提取网络模型
53.基于多尺度时空卷积的音素序列提取网络模型的架构如图3所示,用于提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别,具体如下所述:
54.①
提取时空运动信息:利用一个卷积核大小为5
×5×
7的3d卷积层去提取图像序列的时空信息,得到序列间的时空特征向量,其时间维度保持不变而空间维度减少到原图像序列的四分之一。
55.②
提取细粒度特征:利用标准的resnet18网络来编码图像特征,在每个时间步长输出一个512维的向量,再加上当前的位置编码,以此输出序列内的细粒度特征向量。
56.③
聚合多尺度唇部特征:引入空间平均池化以聚合空间信息,利用空间池化层来减少空间维度并调整输入大小,通过时空卷积模块对图像特征进行多尺度聚合,最后在时空卷积模块后再添加一个时间平均池化以聚合时间信息。
57.时空卷积模块的总体架构如图4所示,由四个时空卷积网络顺序堆叠而成的;四个时空卷积网络中,第一个时空卷积网络的输入尺寸与另外三个时空卷积网络不同,另外三个时空卷积网络均是相同的构造。每个时空卷积网络均由两个子时空卷积块构成,且每个子时空卷积块后按顺序接weight norm(权重归一化)、relu函数和dropout操作;在该模块的输入输出间采用跳转连接残差映射的思想。子时空卷积块由不同尺度tcn(temporal convolutional network)块的堆叠,其中不同尺度指的是不同的膨胀率,膨胀率随着层数指数级的增加,在特征编码期间,使用了多个分支且不同内核大小的tcn。四个时空卷积网络的输出通过串联简单地组合,设置3、5、7三种不同步长,利用交叉熵损失进行训练,获取更大的感受野,提取深层特征。
58.④
预测音素类别:利用softmax函数计算最后的分类概率,输出大小为音素类别种类的预测结果,其中音素类别共有43个类别。
59.s4)生成音素序列
60.将连续灰度唇部图像序列输入音素序列提取网络模型中,生成相应的发音音素序列。发音音素序列提取的过程如图5所示,具体如下:
61.①
设连续灰度唇部图像序列为t={t1,t2,

,t
l
},其中b对应视频的数量,l表示图像序列长度,h和w分别表示图像的高度和宽度,输入连续灰度唇部图像序列t到音素序列提取网络模型中;
62.②
通过音素序列提取网络模型提取时空运动信息:通过一个卷积核大小为5
×7×
7的3d卷积层提取图像序列t的时空信息,得到序列间的时空特征向量t1,
63.③
通过音素序列提取网络模型提取细粒度特征:将时空特征向量t1输入到标准resnet18网络中来编码图像特征,随后在每个时间步长输出一个512维的向量,加上当前的位置编码,输出序列内的细粒度特征向量t2;
64.④
通过音素序列提取网络模型聚合多尺度唇部特征:利用空间平均池化操作聚合空间信息,以多尺度聚合细粒度特征向量t2得到t3;将t3输入到4个时空卷积网络堆叠而成的多阶段时域卷积网络中,得到图像特征t4;再通过一个时间平均池化操作聚合时间信息,由t4得到t5;
65.⑤
通过音素序列提取网络模型预测音素类别:通过softmax函数对特征t5进行计算,得到43种音素类别中的一种yi=softmax(t5);
66.⑥
组合输出分类结果,得到预测的发音音素序列为y={y1,y2,

,ym},其中m表示为发音音素序列长度。
67.s5)生成目标自然语句
68.将发音音素序列转换为文字格式的多个自然语句,通过预设的统计语言模型对其进行验证,验证合格后得到目标自然语句。具体如下所述:
69.首先基于预置的音素发音映射表,查询发音音素序列中各音素对应的音素id,进而得到各音素对应的多个单词;接着按照因素序列的排序对相应的单词进行组合,得到文字格式的多个自然语句。
70.然后选择长短期记忆网络作为预设统计语言模型,将多个自然语句按单词顺序输入其中,得到各自然语句的得分,选择分数最高的作为目标自然语句。
71.本发明还提出了一种基于多尺度时空卷积的唇语识别系统,该系统的组成如图1所示,由数据采集模块、预处理模块、音素生成模块和目标自然语句生成模块组成。
72.数据采集模块用于采集唇语视频序列数据构建唇语识别数据集。
73.预处理模块用于对唇语识别数据集进行预处理,得到裁剪后的连续灰度唇语图像序列。
74.音素生成模块中设置有基于多尺度时空卷积的音素序列提取网络模型,音素生成模块输入连续灰度唇语图像序列,通过音素序列提取网络模型提取时空运动信息、提取细粒度特征、聚合多尺度唇部特征和预测音素类别,生成相应的发音音素序列。
75.目标自然语句生成模块中设置有预设统计语言模型,目标自然语句生成模块将将发音音素序列转换为文字格式的多个自然语句,通过预设统计语言模型对其进行验证,验证合格后得到目标自然语句。
76.该系统中部各个模块的具体实现过程见上述方法中所述,此处不再赘述。
77.基于上述方法和系统,本发明提出了一种基于多尺度时空卷积的唇语识别方法计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现是上述所述方法中的步骤和上述所述的系统。本发明还提出了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述的方法和上述所述系统。
78.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
79.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
80.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
81.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
82.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1