一种基于神经网络的唇语识别方法及系统与流程

文档序号：17005745发布日期：2019-03-02 02:01阅读：321来源：国知局

本发明涉及唇语识别技术领域，尤其涉及一种基于神经网络的唇语识别方法及系统。

背景技术：

随着人工智能技术的发展，复杂场景下音视觉混合的输入，单纯拼写的文字输入已是一种过去式，语音识别的比重逐渐提高，正在成为当下主流的自然交互方式。但是，单纯的语音交互易受环境影响，容易出现噪声干扰，比如说充满噪音的户外马路、在会议室里有他人说话的人声争执、车载场景下的发动机或空调噪声等等，都会大大减少语音识别的准确率，用户体验出现鲜明落差。

为了改善语音识别不准确的问题，出现了唇语识别技术。唇语识别技术是指通过对获取到的说话人的唇部动作等信息进行分析，识别出说话人所表达内容的方案。传统的唇语识别方案大多都包含嘴部检测、嘴部分割、嘴部归一化、特征提取和唇语分类器的构建，但是，传统的唇语识别方案的表现差强人意，唇语解读的准确率也就只有20％-60％，唇语识别结果的准确率低。

技术实现要素：

有鉴于此，本发明的目的在于提出一种基于神经网络的唇语识别方法及系统，能够实现不受环境噪声干扰影响，对视频进行识别，识别出唇语结果，该识别出的唇语结果的准确率较高，用户体验较佳。

根据本发明的一个方面，提供一种基于神经网络的唇语识别方法，包括：

获取到唇部序列图像；

从所述获取到的唇部序列图像，提取出唇部序列图像的特征；

将所述提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将所述经学习后的唇部序列图像的特征进行训练，训练所述经学习后的唇部序列图像的特征到唇语的识别模型；

根据所述训练所述经学习后的唇部序列图像的特征到唇语的识别模型，对所述提取出的唇部序列图像的特征进行解码识别，识别出唇语结果。

其中，所述获取到唇部序列图像，包括：

利用人脸检测和关键点检测方式，从图像序列中定位人脸，并检测人脸关键点，通过人脸关键点对唇部区域进行定位，获取到唇部序列图像；其中，人脸关键点包括能够表征人脸面部关键信息特征的位置。

其中，所述利用人脸检测和关键点检测方式，从图像序列中定位人脸，并检测人脸关键点，通过人脸关键点对唇部区域进行定位，获取到唇部序列图像，包括：

对初始的视频，利用人脸检测和关键点检测方式，从所述视频的图像序列中定位人脸，并检测人脸关键点，通过人脸关键点中的两嘴角关键点对唇部区域进行定位，并根据所述对唇部区域进行的定位和所述人脸关键点中的两嘴角关键点，计算出相对于标准嘴的平移和旋转因子，以及根据所述计算出的相对于标准嘴的平移和旋转因子，以两嘴角关键点的均值中心为图像中心分割得到所述唇部序列图像，获取到所述唇部序列图像。

其中，所述从所述获取到的唇部序列图像，提取出唇部序列图像的特征，包括：

对深度神经网络进行训练，应用所述经训练后的深度神经网络，按所述获取到的唇部序列图像的时间顺序，对所述获取到的唇部序列图像进行特征提取和特征拼接，从所述获取到的唇部序列图像，提取出唇部序列图像的特征。

其中，所述对深度神经网络进行训练，包括：

构建唇语识别任务的连接时序分类器的损失函数作为误差，利用神经网络反向传导优化算法，通过不断的输入、输出、误差、反向传导误差的网络优化过程，对所述深度神经网络进行训练。

其中，所述根据所述训练所述经学习后的唇部序列图像的特征到唇语的识别模型，对所述提取出的唇部序列图像的特征进行预测概率解码识别，识别出唇语结果，包括：

根据所述训练所述经学习后的唇部序列图像的特征到唇语的识别模型，使用集束搜索连接时序分类器对所述提取出的唇部序列图像的特征进行预测概率解码识别，解码识别出至少两种唇语结果，按得分顺序对所述至少两种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果。

其中，在所述根据所述训练所述经学习后的唇部序列图像的特征到唇语的识别模型，对所述提取出的唇部序列图像的特征进行解码识别，识别出唇语结果之后，还包括：

以文本的形式，输出所述识别出的唇语结果。

根据本发明的另一个方面，提供一种基于神经网络的唇语识别系统，包括：

获取单元、提取单元、学习训练单元、解码识别单元；

所述获取单元，用于获取到唇部序列图像；

所述提取单元，用于从所述获取到的唇部序列图像，提取出唇部序列图像的特征；

所述学习训练单元，用于将所述提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将所述经学习后的唇部序列图像的特征进行训练，训练所述经学习后的唇部序列图像的特征到唇语的识别模型；

所述解码识别单元，用于根据所述训练所述经学习后的唇部序列图像的特征到唇语的识别模型，对所述提取出的唇部序列图像的特征进行解码识别，识别出唇语结果。

其中，所述解码识别单元，具体用于：

其中，所述基于神经网络的唇语识别系统，还包括：

输出单元，用于以文本的形式，输出所述识别出的唇语结果。

可以发现，以上方案，可以根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果，能够实现不受环境噪声干扰影响，对视频进行识别，识别出唇语结果，该识别出的唇语结果的准确率较高，用户体验较佳。

进一步的，以上方案，可以对深度神经网络进行训练，应用该经训练后的深度神经网络，按该获取到的唇部序列图像的时间顺序，对该获取到的唇部序列图像进行特征提取和特征拼接，从该获取到的唇部序列图像，提取出唇部序列图像的特征，能够实现对该唇部序列图像的特征进行准确且速度快的提取。

进一步的，以上方案，可以将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将该经学习后的唇部序列图像的特征进行训练，训练该经学习后的唇部序列图像的特征到唇语的识别模型，该双向长短时记忆网络仍有对很久以前信息的保存和处理能力，而且不会有梯度消失问题，能很好的学习时序特征，预测出比较准确的标签。

进一步的，以上方案，可以根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，使用集束搜索连接时序分类器对该提取出的唇部序列图像的特征进行预测概率解码识别，解码识别出至少两种唇语结果，按得分顺序对该至少两种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果，能够实现得到比较准确的预测出图像序列的标签，该识别出的唇语结果的准确率较高，用户体验较佳。

进一步的，以上方案，可以以文本的形式，输出该识别出的唇语结果，能够实现以文本的形式输出该识别出的唇语结果，方便查阅。

附图说明

图1是本发明基于神经网络的唇语识别方法一实施例的流程示意图；

图2是本发明基于神经网络的唇语识别方法另一实施例的流程示意图；

图3是本发明基于神经网络的唇语识别系统一实施例的结构示意图；

图4是本发明基于神经网络的唇语识别系统另一实施例的结构示意图；

图5是本发明基于神经网络的唇语识别系统又一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种基于神经网络的唇语识别方法，能够实现不受环境噪声干扰影响，对视频进行识别，识别出唇语结果，该识别出的唇语结果的准确率较高，用户体验较佳。

请参见图1，图1是本发明基于神经网络的唇语识别方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

s101：获取到唇部序列图像。

其中，该获取到唇部序列图像，可以包括：

其中，该利用人脸检测和关键点检测方式，从图像序列中定位人脸，并检测人脸关键点，通过人脸关键点对唇部区域进行定位，获取到唇部序列图像，可以包括：

对初始的视频，利用人脸检测和关键点检测方式，从该视频的图像序列中定位人脸，并检测人脸关键点，通过人脸关键点中的两嘴角关键点对唇部区域进行定位，并根据该对唇部区域进行的定位和该人脸关键点中的两嘴角关键点，计算出相对于标准嘴的平移和旋转因子，以及根据该计算出的相对于标准嘴的平移和旋转因子，以两嘴角关键点的均值中心为图像中心分割得到该唇部序列图像，获取到该唇部序列图像。

在本实施例中，人脸关键点包括能够表征人脸面部关键信息特征的一些位置。

在本实施例中，对初始的视频利用人脸检测和关键点检测的方式，可以使用68个关键点的人脸检测，能够很好的实现对人脸嘴唇的定位；嘴部的关键点属于角点，相对于其他关键点来说更易于检测，其定位的准确性更高，故采用嘴角的两个关键点计算出相对于标准嘴的平移和旋转因子；关于使用多个个关键点来对人脸进行检测，本发明不加以限定。

在本实施例中，可以以两嘴角关键点的均值中心为图像中心分割得到该唇部序列图像，获取到该唇部序列图像，该获取到的该唇部序列图像可以为200像素*50像素的唇部序列图像。

s102：从该获取到的唇部序列图像，提取出唇部序列图像的特征。

其中，该从该获取到的唇部序列图像，提取出唇部序列图像的特征，可以包括：

对深度神经网络进行训练，应用该经训练后的深度神经网络，按该获取到的唇部序列图像的时间顺序，对该获取到的唇部序列图像进行特征提取和特征拼接，从该获取到的唇部序列图像，提取出唇部序列图像的特征。

其中，该对深度神经网络进行训练，可以包括：

构建唇语识别任务的ctc(connectionisttemporalclassification，连接时序分类器)的损失函数作为误差，利用神经网络反向传导优化算法，通过不断的输入、输出、误差、反向传导误差的网络优化过程，对该深度神经网络进行训练。

在本实施例中，对特征按照时间时序进行拼接，即提取一个图像的特征，也提取这张图片前几张图片和后几张图片的特征，并做特征拼接。这样做的目的是保证得到一个时序特征。

s103：将该提取出的唇部序列图像的特征输入到双向lstm(longshort-termmemory，长短时记忆网络)进行时间空间特征序列学习，并将该经学习后的唇部序列图像的特征进行训练，训练该经学习后的唇部序列图像的特征到唇语的识别模型。

s104：根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果。

其中，根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行预测概率解码识别，识别出唇语结果，可以包括：

根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，使用集束搜索连接时序分类器对该提取出的唇部序列图像的特征进行预测概率解码识别，解码识别出至少两种唇语结果，按得分顺序对该至少两种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果。

其中，在该根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果之后，还可以包括：

以文本的形式，输出该识别出的唇语结果。

在本实施例中，采用双向长短期记忆lstm网络网络，是因为唇语不仅和之前的状态有关系，也和后面的状态相关。lstm的遗忘门偏置初始化为1.0，意味着在训练的时候记得更多前面的信息。循环神经网络(rnn)在工作时一个重要的优点在于，其能够在输入和输出序列之间的映射过程中利用上下文相关信息。然而不幸的是，标准的循环神经网络rnn能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退。因此，为了解决这个问题，本发明使用双向lstm网络。双向lstm前面有三个隐藏层，用于特征输入。

在本实施例中，网络模型的训练是使用连接时序分类器ctc，可以理解为神经网络的时序类分类，语音识别的声学模型训练属于监督学习，需要知道每一帧对应的标号(label)才能训练，ctc的引入可以放宽这种一一对应的限制要求，只需要一个输入序列和一个输出序列就可以训练，ctc直接输出预测的概率，不需要外部的后处理。训练流程和传统的神经网络类似，构建lossfunction(损失函数)，然后根据bp(errorbackpropagation,误差反向传播算法)算法进行训练，不同之处在于传统的神经网络的训练准则是针对每帧数据，即每帧数据的训练误差最小，而ctc的训练准则是基于序列比如语音识别的一整句话，序列化的概率求解比较复杂，因为一个输出序列可以对应很多的路径，所有引入前后向算法来简化计算。

在本实施例中，可以在数据上自建了一个唇语识别语料库，这个小语料库可以包括500个视频数据，大约3000多个汉字，并构建了深度卷积网络(vgg-16)提取图像特征，特征输入三个隐藏层，第一二层隐藏层设置节点个数是512，第三层隐藏层的节点个数是2*512，再输入双向lstm网络实现图像序列到文本序列的学习。输入网络lstm后面是四个隐藏层对双向lstm输出值用激活函数和做处理，输出值输入到第5层隐藏层，后接ctc网络，生成序列标签。ctc_loss作为训练损失，训练设定200个epoch(1个epoch表示过了1遍训练集中的所有样本，所有训练样本的一个正向传递和一个反向传递，epochs被定义为向前和向后传播中所有批次的单次训练迭代，这意味着1个周期是整个输入数据的单次向前和向后传递)网络达到收敛，保存训练好的网络模型，应用时，摄像头捕获视频，自动调用已训练好的网络模型，做唇语识别，以文本的形式输出识别信息。

在本实施例中，任务相关特征提取的在图像数据库(imagenet)上预训练的vgg-16网络模型和对时序特征学习所用的双向lstm网络模型。

在本实施例中，所用的提取特征的vgg-16预训练模型，框架可以使用keras-2.0.2。对提取到的每一帧的特征与预设帧如前9帧和后9帧的特征做拼接，一帧图像的特征是512维，对512为图像使用maxpool的方式降维成26维，拼接后的特征是494维，一个3秒的视频对应72帧的唇部图像，提取到的特征存储在72*494的矩阵里面。

在本实施例中，训练的网络模型可以是3个隐藏层+双向lstm+2层隐藏层，训练epoch＝200，训练的batch_size＝8,droupout＝0.05。每个batch的损失计算使用ctc_loss，将上一步总损失作为误差利用神经网络反向传导优化算法，通过不断的输入-输出-误差-反向传导误差的网络优化过程，就可以得到一个越来越优的中文唇语识别网络，根据经验训练达到200epoch就收敛了。

在本实施例中，使用beamsearch(集束搜索)ctc对构建的深度神经网络输出的预测概率正确预测出序列的标签，beamsearch是贪婪思想的扩展，beamsearch选择当先得分最高的词句，采用这种思想，对于一个问题，模型最后的输出应该有好几种回答。回答按得分排序，最后选择得分最高的句子作为最终输出。在本实施例中，可以寻找上一时刻产生的比如8个高得分的答案作为本时刻的候选答案，然后排序本时刻的候选答案集，选择得分最高的作为本时刻的最终答案，得到唇语识别结果。

可以发现，在本实施例中，可以根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果，能够实现不受环境噪声干扰影响，对视频进行识别，识别出唇语结果，该识别出的唇语结果的准确率较高，用户体验较佳。

进一步的，在本实施例中，可以对深度神经网络进行训练，应用该经训练后的深度神经网络，按该获取到的唇部序列图像的时间顺序，对该获取到的唇部序列图像进行特征提取和特征拼接，从该获取到的唇部序列图像，提取出唇部序列图像的特征，能够实现对该唇部序列图像的特征进行准确且速度快的提取。

进一步的，在本实施例中，可以将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将该经学习后的唇部序列图像的特征进行训练，训练该经学习后的唇部序列图像的特征到唇语的识别模型，该双向长短时记忆网络仍有对很久以前信息的保存和处理能力，而且不会有梯度消失问题，能很好的学习时序特征，预测出比较准确的标签。

进一步的，在本实施例中，可以根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，使用集束搜索连接时序分类器对该提取出的唇部序列图像的特征进行预测概率解码识别，解码识别出至少两种唇语结果，按得分顺序对该至少两种唇语结果进行得分排序，选择得分最高的唇语结果做为解码识别结果，识别出唇语结果，能够实现得到比较准确的预测出图像序列的标签，该识别出的唇语结果的准确率较高，用户体验较佳。

请参见图2，图2是本发明基于神经网络的唇语识别方法另一实施例的流程示意图。本实施例中，该方法包括以下步骤：

s201：获取到唇部序列图像。

可如上s101所述，在此不作赘述。

s202：从该获取到的唇部序列图像，提取出唇部序列图像的特征。

可如上s102所述，在此不作赘述。

s203：将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将该经学习后的唇部序列图像的特征进行训练，训练该经学习后的唇部序列图像的特征到唇语的识别模型。

可如上s103所述，在此不作赘述。

s204：根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果。

可如上s104所述，在此不作赘述。

s205：以文本的形式，输出该识别出的唇语结果。

可以发现，在本实施例中，可以以文本的形式，输出该识别出的唇语结果，能够实现以文本的形式输出该识别出的唇语结果，方便查阅。

本发明还提供一种基于神经网络的唇语识别系统，能够实现不受环境噪声干扰影响，对视频进行识别，识别出唇语结果，该识别出的唇语结果的准确率较高，用户体验较佳。

请参见图3，图3是本发明基于神经网络的唇语识别系统一实施例的结构示意图。本实施例中，该基于神经网络的唇语识别系统30包括获取单元31、提取单元32、学习训练单元33、解码识别单元34。

该获取单元31，用于获取到唇部序列图像。

该提取单元32，用于从该获取到的唇部序列图像，提取出唇部序列图像的特征。

该学习训练单元33，用于将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将该经学习后的唇部序列图像的特征进行训练，训练该经学习后的唇部序列图像的特征到唇语的识别模型。

该解码识别单元34，用于根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果。

可选地，该获取单元31，可以具体用于：

可选地，该提取单元32，可以具体用于：

构建唇语识别任务的连接时序分类器的损失函数作为误差，利用神经网络反向传导优化算法，通过不断的输入、输出、误差、反向传导误差的网络优化过程，对该深度神经网络进行训练。

可选地，该解码识别单元34，可以具体用于：

请参见图4，图4是本发明基于神经网络的唇语识别系统另一实施例的结构示意图。区别于上一实施例，本实施例所述基于神经网络的唇语识别系统40还包括：输出单元41。

该输出单元41，用于以文本的形式，输出该识别出的唇语结果。

该基于神经网络的唇语识别系统30/40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

请参见图5，图5是本发明基于神经网络的唇语识别系统又一实施例的结构示意图。该基于神经网络的唇语识别系统的各个单元模块可以分别执行上述方法实施例中对应步骤。相关内容请参见上述方法中的详细说明，在此不再赘叙。

本实施例中，该基于神经网络的唇语识别系统包括：处理器51、与处理器51耦合的存储器52、解码器53及输出器54。

该处理器51，用于获取到唇部序列图像。

该处理器51，还用于从该获取到的唇部序列图像，提取出唇部序列图像的特征。

该处理器51，还用于将该提取出的唇部序列图像的特征输入到双向长短时记忆网络进行时间空间特征序列学习，并将该经学习后的唇部序列图像的特征进行训练，训练该经学习后的唇部序列图像的特征到唇语的识别模型。

该存储器52，用于存储操作系统、该处理器51执行的指令等。

该解码器53，用于根据该训练该经学习后的唇部序列图像的特征到唇语的识别模型，对该提取出的唇部序列图像的特征进行解码识别，识别出唇语结果。

该输出器54，用于以文本的形式，输出该识别出的唇语结果。

可选地，该处理器51，可以具体用于：

可选地，该解码器53，可以具体用于：

进一步的，以上方案，可以以文本的形式，输出该识别出的唇语结果，能够实现以文本的形式输出该识别出的唇语结果，方便查阅。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜吉祥;蔡微微;张洪博
技术所有人：华侨大学
我是此专利的发明人

上一篇：超声波导入仪的制作方法
上一篇：一种生态园林城市道路结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。