基于唇语识别的汇编语言编辑器及识别方法与流程

文档序号：25098098发布日期：2021-05-18 22:19阅读：288来源：国知局

1.本发明涉及唇语识别技术，属于计算机视觉领域。

背景技术：

2.目前应用语音识别技术代替人工打字已经非常成熟，但是特定场景下，人们不想让旁边的人听到自己说话的内容，语音识别受到限制。因此，唇语识别技术大受关注。目前唇语识别在野外场景下的识别准确度达到50％以上，已经远远超过唇语工作者，在垂直场景下准确度更是高达92％。基于此，本发明公布了一种特定语言上的唇语识别技术来代替人工打字。
3.相比较众多编程语言，汇编语言最为简单，没有复杂的操作、括号、变量名，同时关键字数量最少，常用命令只有几十条，并且多为二元操作符或者三元操作符。这种命令结构较为单一，为唇语识别提供了数据基础。

技术实现要素：

4.发明目的：针对上述情况，本发明公布了一种针对汇编语言使用唇语识别技术代替人工写代码的方法。
5.技术方案：该发明基于ibm
‑
pc汇编语言指令集采集数据，基于lipnet网络采用时空卷积神经网路(stcnn)，长短期记忆网络及变体(lstm、gru)进行设计。涉及到端点的对齐，使用文本分类损失(ctc)处理空白唇部动作。具体步骤如下：
6.步骤1：明确会使用的变量名，作为关键字存储在指令集中。
7.步骤2：划分每条指令的动作，寄存器等，进行每一条指令数据的采集。采集的数据都是一条语句，在实时测试的时候，需要整段话的输入，所以对数据集需要做一个扩充。
8.步骤3：使用设计好的网络对数据集进行端对端的训练，得出模型。
9.步骤4：对一段视频帧进行唇动判断，将每段话中语句划分出来，过滤指令语句前后的空白帧，提取出每条指令帧序列。
10.步骤5：将每条指令帧序列作为网络的输入，预测出对应的指令，输出到编辑器上，并且模型的预测和指令帧序列的提取可以异步实现，达到实时的效果。
11.整个方案可以划分为3个模块，具体如下：
12.(1)唇语网络模块：主要研究唇语识别网络模型的构造流程，本发明采用的模型是利用时空卷积神经网络、门控循环单元以及联结主义文本分类的混合模型。在使用网络之前还需要对数据进行预处理，提取唇部矩形区域并且进行归一化操作。时空卷积神经网络用于提取视频帧序列的特征表示。在此基础上，使用门控循环单元gru理解提取的特征，最后使用联结主义文本分类损失函数(ctc)来优化。
13.(2)唇动判断模块：在此过程中，主要从数据扩充后的视频帧序列中提取每一条有效唇语句子的起始位置和结束位置。首先是数据扩充过程，由于网络模型训练的数据只是一条句子，不太符合真实场景，没有考虑到停顿和多条语句的情况，所以先对其进行扩充操
作。再对于扩充的数据进行唇动帧判断，最后基于唇动帧的位置逐条语句进行唇动序列的提取。
14.(3)唇读系统模块：在对唇语网络和唇动判断进行研究之后，唇语网络得到的模型和唇动判断子模块连接起来，构成唇读系统。在唇读系统中，唇动判断模块的输出的帧序列在网络模型中预测的结果就是整个唇读系统的输出，扩充后的数据集就是唇读系统的输入。
15.每次唇读系统的输出作为编辑器的一行指令语句。
16.有益效果：本发明提出的基于唇语识别的编辑器，在一定程度上代替了打字。提出的基于汇编语言的编程方式甚至可以取代传统键盘手打代码的方式。相较于语音识别需要在噪音干扰较小，话筒距离较近的环境下才能作用的缺点，唇语识别在复杂背景下也可以正常工作。在推广到办公室等(不便说话或者嘈杂)工作环境下，明显基于唇语识别的编辑器更占优势。
附图说明
17.图1为单条指令语句唇部帧序列图。
18.图2为本发明的网络构成示意图。
19.图3为单条数据集的构成示意图。
20.图4为本发明嘴唇的几何形状图。
具体实施方式
21.如图1所示，该发明基于ibm
‑
pc汇编语言指令集采集数据，基于lipnet网络采用时空卷积神经网路(stcnn)，长短期记忆网络及变体(lstm、gru)进行设计。涉及到端点的对齐，使用文本分类损失(ctc)处理空白唇部动作。具体步骤如下：
22.步骤1：明确会使用的变量名，作为关键字存储在指令集中。
23.步骤2：划分每条指令的动作，寄存器等，进行每一条指令数据的采集。采集的数据都是一条语句，在实时测试的时候，需要整段话的输入，所以对数据集需要做一个扩充。
24.步骤3：使用设计好的网络对数据集进行端对端的训练，得出模型。
25.步骤4：对一段视频帧进行唇动判断，将每段话中语句划分出来，过滤指令语句前后的空白帧，提取出每条指令帧序列。
26.步骤5：将每条指令帧序列作为网络的输入，预测出对应的指令，输出到编辑器上，并且模型的预测和指令帧序列的提取可以异步实现，达到实时的效果。
27.整个方案可以划分为3个模块，具体如下：
28.(1)唇语网络模块：主要研究唇语识别网络模型的构造流程，本发明采用的模型是利用时空卷积神经网络、门控循环单元以及联结主义文本分类的混合模型。在使用网络之前还需要对数据进行预处理，提取唇部矩形区域并且进行归一化操作。时空卷积神经网络用于提取视频帧序列的特征表示。在此基础上，使用门控循环单元gru理解提取的特征，最后使用联结主义文本分类损失函数(ctc)来优化。
29.(2)唇动判断模块：在此过程中，主要从数据扩充后的视频帧序列中提取每一条有效唇语句子的起始位置和结束位置。首先是数据扩充过程，由于网络模型训练的数据只是
一条句子，不太符合真实场景，没有考虑到停顿和多条语句的情况，所以先对其进行扩充操作。再对于扩充的数据进行唇动帧判断，最后基于唇动帧的位置逐条语句进行唇动序列的提取。
30.(3)唇读系统模块：在对唇语网络和唇动判断进行研究之后，唇语网络得到的模型和唇动判断子模块连接起来，构成唇读系统。在唇读系统中，唇动判断模块的输出的帧序列在网络模型中预测的结果就是整个唇读系统的输出，扩充后的数据集就是唇读系统的输入。每次唇读系统的输出作为编辑器的一行指令语句。
31.以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：兰星;胡庆浩;冷聪
技术所有人：中科方寸知微（南京）科技有限公司
我是此专利的发明人

上一篇：一种口罩耳带辅助片及具有耳带辅助片的口罩的制作方法
上一篇：一种水利工程用河道清理装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。