一种唇语输入方法和系统的制作方法_2

文档序号：8487465阅读：来源：国知局

中的嘴唇位置和关键点可以通过人脸识别的相似技术，包括但不限于以下描述的基于级联回归的方法:
[0062]1.从互联网上收集大量图片，人工标记出嘴唇关键点。
[0063]2.计算每个嘴唇的关键点与平均关键点的距离。其中平均关键点是指嘴唇的每个关键点取平均，这样得到了各个关键点的相对位置。
[0064]3.在每个关键点上提取 128 维 SIFT特征(Scale-1nvariant feature transform,尺度不变特征)，得到特征向量。
[0065]4.根据步骤3中得到的特征向量和步骤2中得到的关键点距离，采用最小二乘法得到一个线性模型。然后在唇语输入时，利用该线性模型对采集的视频图像中用户的嘴唇位置和关键点进行定位。
[0066]步骤A2可以通过如下方式实现:
[0067]在唇语识别模块，根据嘴唇动作，推测用户可能进行的发音，并根据用户发音来推断用户说话的内容。唇语识别模块可以是在线的，也可以是离线的。在线模式中，唇语识别模块部署在远程服务器上。输入设备把嘴唇的动作信息发送到服务器，由服务器上的唇语识别模块进行分析，并把结果发送回输入设备。在离线模式中，唇语识别模块部署在输入设备本身，直接对视频采集模块生成的关键特征进行识别。在唇语识别模块，从嘴唇动作学习用户希望输入的文字，可以通过类似语音识别的技术，唯一不同是输入信息由音频特征转化为视频特征。这些技术包括但不限于以下描述的基于回馈式深度人工神经网络的方法:
[0068]1.在互联网上收集大量人物说话的视频，人工标记出说话内容。
[0069]2.利用视频采集模块，得到视频中每帧的嘴唇关键点的特征向量。
[0070]3.把这些特征向量合并成特征向量序列，作为要训练的神经元网络的输入，人工标记的说话内容作为对应的训练目标。然后利用训练好的神经元网络，在唇语输入时，根据用户的嘴唇动作判断用户希望输入的文字。
[0071]4.神经元网络可以但不限于以下结构:
[0072]a.输入层接受特征向量序列。
[0073]b.卷积层对输入向量进行平滑和提取特征。
[0074]c.反馈层通过联系之前和之后的输入特征，对当前输入特征进行提取。该反馈层可以但不限于通过Long Short Term Memory (LSTM)来实现。
[0075]d.全连接层对特征进行进一步抽象。
[0076]e.输出层输出最终的判断结果。输出层可以但不限于使用Connect1nistTemporal Classificat1n(CTC)来实现。
[0077]本发明还可以包括唇语识别修正模块，如图3所示，用于对唇语识别模块输出的内容的合理性进行判断，并对不合理的输出内容根据语音习惯等内容进行修正。其中，唇语识别修改模块可以为唇语识别自动修正模块，也可以为唇语识别人工修正模块。
[0078]其中，唇语识别自动修正模块，用于自动对唇语识别模块识别出的语言信息的合理性进行判断以及对不合理的内容进行修正。示例性地，唇语识别自动修正模块可以利用语言模型来提高精度，即对最后的输出利用语言模型来判断输入内容的合理性，并进行修改。这些语言模型包括但不限于N-gram模型。
[0079]其中，唇语识别人工修正模块，则可以用于对唇语识别模块识别出的语言信息所对应的文字进行显示，并人工判断显示的文字是否为希望输入的文字，如果不是，则可以人工通过手动的方式对相关内容进行修正。这个过程可以采用类似于传统的编辑短信的方式进行。
[0080]输入模块把唇语识别的结果(即语言信息)输入到待输入装置，例如手机、平板电脑等。具体地，将语言信息输入到待输入装置的位置可以为合适的位置，例如短信、记事本、微博、微信、以及其他各种app。输入模块可以利用待输入装置例如安装不同操作系统的计算机、手机和平板设备等提供的输入API完成对待输入的语言信息的输入。输入模块还可以提供类似其他输入方法的候选项列表，可以让用户选择，并替换默认输入内容。在一个示例中，输入模块的输入结果在屏幕上显示，当出现输入错误时，可以人为进行手动纠正。
[0081]下面提供一个“唇语输入”的具体实例，该实例中用户想要输入的是“你好”，具体包括如下步骤:
[0082]1.首先，用户对着摄像头做出“你好”的口型；
[0083]2.摄像头捕捉到用户嘴唇的变化，大体类似:首先下嘴唇向下运动，嘴角向上运动(发音ni)，之后，嘴唇呈O型(发音hao);
[0084]3.通过分析嘴唇上的关键点(例如嘴角，上唇线，下唇线，以及其他大量分布在嘴唇上的点)的变化，得到视频中每帧的嘴唇的关键点的特征向量。
[0085]4.把这些特征向量合并成特征向量序列，输入事先确定的语言模型(例如事先训练好的神经元网络)，通过语言模型分析出用户最有可能的想要的发音是nihao ;从而判断识别出用户想要输入的语言信息为“你好”;
[0086]5.将识别的结果即“你好”输入到待输入设备的相应位置(例如短信的输入框)中。
[0087]本发明的唇语输入方法和系统，可以通过捕捉嘴唇的动作来判断用户想要表达的语言信息，因而只需对待输入装置(例如移动设备等)的视频采集模块做出说话时嘴唇的运动就可以输入相应的语言信息，具有输入方便的特点。
[0088]并且，本输入方法和系统在公共场合使用时，可以通过不发出声音的方式进行输入，从而避免暴露隐私以及打扰他人等问题。此外，相对于语音输入法，本方法和系统不易受外界噪声干扰。
[0089]以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。
【主权项】
1.一种唇语输入方法，其特征在于，包括如下步骤: 步骤SlOO:通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频；步骤S200:对所述视频中的用户的嘴唇动作进行分析，识别出与用户的口型对应的语言信息；步骤S300:将所述语言信息输入待输入装置。
2.如权利要求1所述的方法，其特征在于，步骤S200包括: 步骤S201:确定所述视频中的每帧图像中嘴唇的位置，并提取嘴唇上的关键点；步骤S202:跟踪每帧图像之间所述关键点的位置变化，得到每帧图像中所述关键点的特征向量；步骤S203:基于所述特征向量，通过事先确定的语言模型识别出与用户的口型对应的语言信息。
3.如权利要求2所述的方法，其特征在于，所述步骤S201基于级联回归的方法，利用事先训练好的线性模型实现。
4.如权利要求2所述的方法，其特征在于，所述步骤S203基于回馈式深度人工神经网络的方法实现，所述语言模型为训练好的神经元网络。
5.如权利要求4所述的方法，其特征在于，所述神经元网络的结构包括:输入层，接受特征向量序列；卷积层，对输入向量进行平滑和提取特征；反馈层，通过联系之前和之后的输入特征，对当前输入特征进行提取；全连接层，对特征进行进一步抽象；输出层，输出最终的判断结果。
6.如权利要求1至5任一项所述的方法，其特征在于，所述步骤S200包括: 对所述视频中的用户的嘴唇动作进行分析以识别出与用户的口型对应的初步语言信息; 自动对所述初步语言信息的合理性进行判断并对不合理的内容进行修正以得到与用户的口型对应的语言信息。
7.如权利要求1至5任一项所述的方法，其特征在于，在所述步骤S300中，在将所述语言信息输入待输入装置之前、同时或之后，显示所述语言信息对应的文字内容。
8.—种唇语输入系统，其特征在于，包括视频采集模块、唇语识别模块和输入模块；其中，所述视频采集模块用于采集捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频；所述唇语识别模块用于对所述视频中的用户的嘴唇动作进行分析，识别出与用户的口型对应的语言信息；所述输入模块用于将所述语言信息输入到待输入装置。
9.如权利要求8所述的系统，其特征在于，所述唇语识别模块执行如下操作: 确定所述视频中的每帧图像中嘴唇的位置，并提取嘴唇上的关键点；跟踪每帧图像之间所述关键点的位置变化，得到每帧图像中所述关键点的特征向量；基于所述特征向量，通过事先确定的语言模型识别出与用户的口型对应的语言信息。
10.如权利要求8或9所述的系统，其特征在于，还包括唇语识别自动修正模块，用于自动对唇语识别模块识别出的语言信息的合理性进行判断以及对不合理的内容进行修正。
11.如权利要求8或9所述的系统，其特征在于，还包括唇语识别人工修正模块，用于对唇语识别模块识别出的语言信息对应的文字进行显示以及人工修正。
【专利摘要】本发明涉及一种唇语输入方法和系统。该方法的步骤包括：步骤S100：通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频；步骤S200：对所述视频中的用户的嘴唇动作进行分析，识别出与用户的口型对应的语言信息；步骤S300：将所述语言信息输入待输入装置。该系统包括视频采集模块、唇语识别模块和输入模块。本发明的方法和系统只需对待输入装置的视频采集模块做出说话时嘴唇的运动就可以输入相应的语言信息，具有输入方便的特点。
【IPC分类】G06F3-01
【公开号】CN104808794
【申请号】CN201510200486
【发明人】张弛
【申请人】北京旷视科技有限公司, 北京小孔科技有限公司
【公开日】2015年7月29日
【申请日】2015年4月24日

完整全部详细技术资料下载

当前第2页1 2