一种唇语输入方法和系统的制作方法

文档序号:8487465阅读:663来源:国知局
一种唇语输入方法和系统的制作方法
【技术领域】
[0001]本发明属于信息输入技术领域,具体涉及一种唇语输入方法和系统。
【背景技术】
[0002]信息输入是用户与个人电脑、移动设备等电子终端进行交互所不可缺少的一部分。随着移动设备的普及,越来越多的人开始在移动设备上输入文字。目前一般的输入法,因为移动设备屏幕较小,使用不便。而更加自然的语音输入法,由于需要发出声音,在公共场合使用则容易暴露隐私和打扰他人。
[0003]具体来说,以移动设备为例,当前的信息输入方式主要有键盘输入,手写输入和语音输入等。这些输入法都存在各自的局限性。例如键盘输入需要用户在键盘上(或触摸屏)上进行点击,输入速度较慢。手写输入法要求用户在屏幕上进行文字拼写,在笔画较复杂的情况下输入较慢,且用户必须一手拿设备另一手进行拼写,使用不方便。而且这两种输入方式,盲人都无法使用。相比前两种,语音输入的方式较为方便,用户通过对麦克风说话,设备自动把录入的声音转换成文字。但是,语音输入也存在若干问题,例如容易受到环境噪音的影响,容易暴露隐私,容易打扰他人等。
[0004]由此可见,现有的信息输入方法具有使用不方便的技术问题,因此,有必要提出一种新的输入方法。

【发明内容】

[0005]为了解决现有输入方法的上述技术问题,本发明提供一种唇语输入方法和系统,其可以通过捕捉用户的嘴唇动作来判断用户的想要表达的与嘴唇动作相对应的语言信息(例如:说话内容或唇语内容),从而实现信息的输入。
[0006]为实现上述目的,本发明采用的技术方案如下:
[0007]一种唇语输入方法,包括如下步骤:
[0008]步骤SlOO:通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;
[0009]步骤S200:对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;
[0010]步骤S300:将所述语言信息输入待输入装置。
[0011 ] 示例性地,步骤S200包括:
[0012]步骤S201:确定所述视频中的每帧图像中嘴唇的位置,并提取嘴唇上的关键点;
[0013]步骤S202:跟踪每帧图像之间所述关键点的位置变化,得到每帧图像中所述关键点的特征向量;
[0014]步骤S203:基于所述特征向量,通过事先确定的语言模型识别出与用户的口型对应的语言信息。
[0015]示例性地,所述步骤S201基于级联回归的方法,利用事先训练好的线性模型实现。
[0016]示例性地,所述步骤S203基于回馈式深度人工神经网络的方法实现,所述语言模型为训练好的神经元网络。
[0017]示例性地,所述神经元网络的结构包括:输入层,接受特征向量序列;卷积层,对输入向量进行平滑和提取特征;反馈层,通过联系之前和之后的输入特征,对当前输入特征进行提取;全连接层,对特征进行进一步抽象;输出层,输出最终的判断结果。
[0018]示例性地,所述步骤S200包括:
[0019]对所述视频中的用户的嘴唇动作进行分析以识别出与用户的口型对应的初步语言信息;
[0020]自动对所述初步语言信息的合理性进行判断并对不合理的内容进行修正以得到与用户的口型对应的语言信息。
[0021]示例性地,在所述步骤S300中,在将所述语言信息输入待输入装置之前、同时或之后,显示所述语言信息对应的文字内容。
[0022]一种唇语输入系统,包括视频采集模块、唇语识别模块和输入模块;其中,所述视频采集模块用于采集捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;所述唇语识别模块用于对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;所述输入模块用于将所述语言信息输入到待输入装置。
[0023]示例性地,所述唇语识别模块执行如下操作:
[0024]确定所述视频中的每帧图像中嘴唇的位置,并提取嘴唇上的关键点;
[0025]跟踪每帧图像之间所述关键点的位置变化,得到每帧图像中所述关键点的特征向量;
[0026]基于所述特征向量,通过事先确定的语言模型识别出与用户的口型对应的语言信息。
[0027]示例性地,还包括唇语识别自动修正模块,用于对唇语识别模块识别出的语言信息的合理性进行判断以及对不合理的内容进行修正。
[0028]示例性地,还包括唇语识别人工修正模块,用于对唇语识别模块识别出的语言信息对应的文字进行显示以及人工修正。
[0029]与现有技术相比,本发明的有益效果如下:
[0030]本发明通过捕捉嘴唇的动作来判断用户想要表达的语言信息,可以发出或不发出声音,只需对待输入装置(例如移动设备等)的视频采集模块(例如摄像头)做出说话时嘴唇的运动就可以输入相应的语言信息,具有输入方便的特点。并且,在公共场合使用时,可以通过不发出声音的方式进行输入,从而避免暴露隐私以及打扰他人等问题,并且相对于语音输入法而言不易受外界噪声干扰。
【附图说明】
[0031]图1是本发明的唇语输入方法的步骤流程图。
[0032]图2是本发明的唇语输入系统的模块组成图。
[0033]图3是包含唇语识别修正模块的唇语输入系统的模块组成图。
【具体实施方式】
[0034]为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
[0035]本发明中的一个实施例提出了一种基于唇语的新型输入方法。如图1所示,该方法包括如下步骤:
[0036]步骤SlOO:通过视频采集模块捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;
[0037]步骤S200:对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;
[0038]步骤S300:将所述语言信息输入待输入装置。
[0039]在一个示例中,步骤S200包括如下步骤:
[0040]步骤S201:确定所述视频中的每帧图像中嘴唇的位置,并提取嘴唇上的关键点;
[0041]步骤S202:跟踪每帧图像之间所述关键点的位置变化,得到每帧图像中所述关键点的特征向量;
[0042]步骤S203:基于所述特征向量,通过事先确定的语言模型识别出与用户的口型对应的语言信息。
[0043]示例性地,步骤S201基于级联回归的方法,利用事先训练好的线性模型实现。
[0044]示例性地,步骤S203基于回馈式深度人工神经网络的方法实现,所述语言模型为训练好的神经元网络。
[0045]其中,所述神经元网络的结构可以包括:输入层,接受特征向量序列;卷积层,对输入向量进行平滑和提取特征;反馈层,通过联系之前和之后的输入特征,对当前输入特征进行提取;全连接层,对特征进行进一步抽象;输出层,输出最终的判断结果。
[0046]在一个具体示例中,步骤S200包括:
[0047]对所述视频中的用户的嘴唇动作进行分析以识别出与用户的口型对应的初步语言信息;
[0048]自动对所述初步语言信息的合理性进行判断并对不合理的内容进行修正以得到与用户的口型对应的语言信息。
[0049]在一个具体示例中,在步骤S300中,在将所述语言信息输入待输入装置之前、同时或之后,在显示装置上显示语言信息对应的文字内容。该显示装置可以为待输入装置的一部分,也可以为与待输入装置可通讯地相连的其他独立装置。在显示装置上显示语言信息对应的文字内容主要有如下用途:a.用于显示信息供用户或其他人参考;b.用于供用户对唇语识别模块识别出的语言信息对应的文字内容的准确性进行判断,在不准确时通过人工操作进行修改。
[0050]具体地,在一个实际应用中,本实施例的方法可以包括如下步骤:
[0051]1.面对摄像头,说出要输入的内容,或者做出要输入内容的口型(即与要输入内容的发音相对应的口型),但是不必发出声音。
[0052]2.摄像头捕捉到用户嘴唇的动作,并把它送入后台程序进行分析。
[0053]3.程序分析用户嘴唇的动作,并根据该动作,判断用户说话内容。
[0054]4.程序把这些内容发送到合适位置如输入框中。
[0055]与上述方法实施例相对应,本发明的另一个实施例提供一种唇语输入系统,该系统如图2所示,包括视频采集模块,唇语识别模块和输入模块。其中,视频采集模块用于采集捕捉用户做出与待输入内容的发音相对应的口型时的嘴唇动作的视频;唇语识别模块用于对所述视频中的用户的嘴唇动作进行分析,识别出与用户的口型对应的语言信息;输入模块用于将所述语言信息输入到待输入装置。这些模块可以由软件实现,可以由硬件实现,可以由固件实现,也可以由它们的任意可行的组合来实现。
[0056]在视频采集模块,通过基于可见光的彩色或灰度摄像机,例如网络摄像头、手机的前置摄像头等,采集得到嘴唇动作的视频。
[0057]在唇语识别模块,主要执行如下操作:
[0058]步骤Al,进行唇部进行定位,找出每帧视频中嘴唇的位置,并且提取出嘴唇上的关键点。随后通过跟踪每帧之间唇部关键点位置的变化,得到每帧图像中所述关键点的特征向量(即动作信息和各种关键特征)。
[0059]步骤A2,根据特征向量来识别用户想要表达的与嘴唇动作相对应的语言信息(即,可能进行的发音)。其中,可以通过事先确定的语言模型进行识别。
[0060]具体地,步骤Al可以通过如下方式实现:
[0061]在视频采集模块,定位一个图片
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1