一种提高唇语识别率的方法和移动终端的制作方法

文档序号:10471453阅读:298来源:国知局
一种提高唇语识别率的方法和移动终端的制作方法
【专利摘要】本发明实施例提供了一种提高唇语识别率的方法和移动终端,该方法应用移动终端,具体为首先获取当前环境光线的光强度,然后对光强度与以预设的光强度阈值进行比较,当光强度低于该光强度阈值时,提高显示屏的亮度,以增加对唇部的照明,并通过移动终端的前置摄像头获取用户的唇部图像,最后对获得的唇部图像进行识别,得到与唇部图像匹配的信息,由于本方法能够在当前环境光线的光强度低于光强度阈值、即环境光线不足时增加对唇部的照明,使移动终端获得的唇部图像更加清楚,从而能够使在环境光线不足时唇语识别率较低的问题得到解决。
【专利说明】
一种提高唇语识别率的方法和移动终端
技术领域
[0001]本发明涉及移动通信技术领域,特别是涉及一种提高唇语识别率的方法和移动终端。
【背景技术】
[0002]手机、具有通话功能的平板电脑等移动终端在实际通话中,有时候会因为本地的噪声或其他原因造成与其通信的第二通信终端难以听清通话内容。这种情况有可能是本地所接收的声音过于嘈杂,使本地所发送的语音部分或全部淹没在噪声中,第二通信终端的用户无法听清;也有可能是本地用户不方便大声讲话,从而导致用户的输入的声音过小而造成第二通信终端的通话质量欠佳,进而影响用户的通话体验。
[0003]目前出现了利用摄像头,通过拍摄用户的唇语图像;将拍摄的唇语图像与标准唇语内容进行比较识别获得识读唇语内容的技术,这种技术可以应用在环境声音过于嘈杂或者不方便语音通信的场景。但是,这种技术需要在光线条件较好的情况下才能实现,光线环境不好会造成识别率低的问题。

【发明内容】

[0004]本发明实施例提供一种应用于移动终端的唇语识别方法,以解决环境光线不足造成的识别率较低的问题。
[0005]并且,本发明还提供一种移动终端,以保证上述方法的实施。
[0006]有鉴于此,本发明公开了一种提高唇语识别率的方法,应用于移动终端,包括:
[0007]获取当前环境光线的光强度;
[0008]当所述光强度低于一预设的光强度阈值时,提高显示屏的亮度;
[0009]通过所述移动终端的前置摄像头获取用户的唇部图像;
[0010]对所述唇部图像进行识别,得到与所述唇部图像匹配的信息。
[0011]另外,本发明还提供了一种移动终端,包括显示屏,所述移动终端还包括:
[0012]光强检测模块,用于获取当前环境光线的光强度;
[0013]亮度控制模块,用于当所述光强检测模块获取的光强度低于一预设的光强度阈值时,提尚显不屏的壳度;
[0014]图像获取模块,用于通过所述移动终端的前置摄像头获取用户的唇部图像;
[0015]信息识别模块,用于对所述图像获取模块获取的唇部图像进行识别,得到与所述唇部图像匹配的信息。
[0016]从上述技术方案可以看出,本发明提供了一种提高唇语识别率的方法和移动终端,该方法应用移动终端,具体为首先获取当前环境光线的光强度,然后对光强度与以预设的光强度阈值进行比较,当光强度低于该光强度阈值时,提高显示屏的亮度,以增加对唇部的照明,并通过移动终端的前置摄像头获取用户的唇部图像,最后对获得的唇部图像进行识别,得到与唇部图像匹配的信息,由于本方法能够在当前环境光线的光强度低于光强度阈值、即环境光线不足时增加对唇部的照明,使移动终端获得的唇部图像更加清楚,从而能够使在环境光线不足时唇语识别率较低的问题得到解决。
【附图说明】
[0017]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本发明提供的一种提高唇语识别率的方法实施例的流程图;
[0019]图2为本发明提供的另一种提高唇语识别率的方法实施例的流程图;
[0020]图3为本发明提供的又一种提高唇语识别率的方法实施例的流程图;
[0021 ]图4为本发明提供的又一种提高唇语识别率的方法实施例的流程图;
[0022]图5为本发明提供的一种移动终端实施例的结构框图;
[0023]图6为本发明提供的另一种移动终端实施例的结构框图;
[0024]图7为本发明提供的又一种移动终端实施例的结构框图;
[0025]图8为本发明提供的又一种移动终端实施例的结构框图;
[0026]图9为本发明又一个实施例的移动终端的结构框图。
【具体实施方式】
[0027]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028]所谓唇语识别,是指通过观察说话者的口型变化,“读出”或“部分读出”其所表达的内容。唇语识别技术源于听力弱者或听力障碍者学习、了解正常人的表达的一种技巧。听力弱者会从视觉中得到更多的暗示,有的甚至已经达到完美听觉的程度。
[0029]即便正常人也会利用视觉信息来提高语音感知。在噪音环境下,我们可以通过观察说话者的嘴部运动的特征来“猜测”其所说的内容,从而弥补听觉信号的不足。因此通过研究唇语识别技术的目的就是利用视觉信道信息来补充听觉信道的信息,进而提高计算机、手机、机器人等智能设备的理解能力。
[0030]一般来说,完整的唇语识别系统包括唇动检测、唇动定位与特征提取和唇动识别。其中。唇动检测的目的是从给定的图像或视频中找到人脸、嘴和所关心的唇部区域;唇动定位与特征提取是从序列图像中定位唇、提取适合唇读的有效特征;唇读识别即采用相应的方法和步骤对提取的特征量进行唇读识别。
[0031]唇动检测时从给定的图像中找到唇的大致位置,这是进行唇读的钳体调节,首先找到人脸,当前人脸检测技术已经相对成熟,主要包括肤色模型、特征脸和模板模型等技术。在找到人脸后,就可以大致确定嘴的范围。主要有以下几种方法:一种是根据人脸的生理结构确定,由于眼睛通孔与周围面部相比灰度较低,相对容易定位,因此通常限定为瞳孔,然后根据人脸的位置即眼睛和嘴的位置关系确定唇的大致位置;另一种方法是根据唇的灰度信息或颜色信息确定唇的位置;另外,还可以根据运动信息检测唇。
[0032]唇动定位与特征提取主要有以下几种方法。可变模板和Snake方法;主成分分析和光流分析法,相对比较成熟。
[0033]唇读识别经历了与语音识别大致相同,主要经历了以下的发展阶段。
[0034]1、模板匹配,早期唇读识别最简单的方法是将从静态图像中提取的特征和存入的模板进行比较,忽略特征随时间变化的事实。这种方法简单,但是只能对简单的原元素进行分类,对词句级的识别无能为力,所以对语音识别的贡献不大。后来人们逐渐采用动态特征,其基本的思想是:在训练阶段,将词汇表中的每个词的特征矢量序列作为模板存入模板库中,在识别阶段,将输入唇读的特征矢量序列与模板库中的每一个模板进行相似度比较,将相似度最高的词作为识别结果输出。
[0035]2、隐马尔可夫模型(hidden markov model,简称HMM),这是目前唇读识别研究的主要技术,HMM的思想是:认为唇读信号在极短的时间内时线性的,用线性模型参数进行标识,再将许多线性模型在时间上串接起来组成一条马尔可夫链,HMM用马尔可夫链来模拟信号的统计特征的变化,而这种变化时间接地通过观察序列来描述的,因此HMM过程是一个双重的随机过程,这与人的语言唇动过程是相吻合的。
[0036]3、时延神经网络(Time Delayed Neural Network,简称TDNN)方法,时延神经网络中大量神经元并向分布计算,自适应学习以及对人的认知系统的模仿能力等都使它极适宜解决类似与唇读识别这一类课题。它是一种延迟神经网络,采用多层结构,输入层是一个随时间变化的时序窗,它通HMM—样非常适合于识别序列特征。
[0037]另外,TDNN与HMM结合也是唇读识别值得探讨的一个重要途径。
[0038]实施例一
[0039]图1为本发明提供的一种提高唇语识别率的方法实施例的流程图。
[0040]如图1所示,本实施例提供的提高唇语识别率的方法应用于移动终端,用于在用户通过该移动终端与其他通信终端进行通信时,对用户的唇部动作进行识别,当然的,该移动终端设置有显示屏。提高唇语识别率的方法具体包括如下步骤:
[0041 ] SlOl:获取当前环境光线的光强度。
[0042]当该移动终端对用户的唇部动作进行识别时,启用光线传感器对当前环境光线的光强度进行检测。
[0043]S102:当光强度低于预设的光强度阈值时,提高显示屏的亮度。
[0044]在获取到当前环境光线的光强度后,将该光强度与以预设的光强度阈值进行比较,当通过比较判定光强度低于光强度阈值时,提高显示屏的亮度以增强对用户的唇部的照明。
[0045]该光强度阈值根据经验和具体的试验进行选取,以满足移动终端的前置摄像头所获得的唇部图像能够满足语音识别为标准。
[0046]S103:通过移动终端的前置摄像头获取用户的唇部图像。
[0047]利用移动终端的前置摄像头获取用户的唇部图像。该唇部图像是一种动态图像,不仅有唇部的静态特征,更主要的是反映唇部的运动过程,该运动过程与用户的发声紧密关联。
[0048]本步骤的具体执行过程为:首先接收前置摄像头获取的唇部图像,然后在显示屏上利用一个预设的唇部识别区域显示该唇部图像。
[0049]为了以一个预设的唇部识别区域显示该唇部图像,首先在显示屏上显示一个唇部识别区域,一般可以以一个预设的窗体作为该唇部识别区域。该唇部识别区域可以用线框实现。用户在通过前置摄像头获取唇部图像的预览图像时,会尽可能将唇部移动到该线框中,这样让用户可以实时调整位置,尽可能将唇部靠近移动终端,以获得较高的识别率。然后为了使该唇部识别区域更为显眼,在该唇语识别区域以外的区域设置一个图层,并将该图层的颜色以一个预设色值进行设置,从而使唇语识别区域与其他区域做一个显著的区分。图层优选为纯白色。由于纯白色的背景可以尽量多地将光线投射到唇部,让唇部获得的光线更多,更容易识别。
[0050]另外,本步骤中还对唇部图像是否满足预设图像质量进行判断,当唇部图像不能满足唇语识别的要求、即不能满足预设图像质量时输出提示信息,用以提示用户将移动终端与自己的距离做出调整,从而使图像质量得到改善。
[0051]S104:对唇部图像进行识别,得到与唇部图像相匹配的信息。
[0052]在得到能够满足语音识别条件的唇部图像后,对该唇部图像进行识别,得到与唇部图像相匹配的信息。通过识别,可以获得用户的唇语说表达的含义。得到含义后,可以通过文字、语音等信息输出。
[0053]从上述技术方案可以看出,本申请提供了一种提高唇语识别率的方法,该方法应用移动终端,具体为获取当前环境光线的光强度,对光强度与以预设的光强度阈值进行比较,当光强度低于该光强度阈值时,提高显示屏的亮度,以增加对唇部的照明,并通过移动终端的前置摄像头获取用户的唇部图像,对获得的唇部图像进行识别,得到与唇部图像匹配的信息。本实施例并不对获取环境光线的光强度和获取用户的唇部图像的先后顺序进行限定。也可以是打开前置摄像头,在预览界面的时候就获取当前环境光线的光强度,然后根据光强度调整显示屏的亮度,令显示屏的光线补给至唇部,提高唇部的识别率。由于本方法能够在当前环境光线的光强度低于光强度阈值、即环境光线不足时增加对唇部的照明,使移动终端获得的唇部图像更加清楚,从而能够使在环境光线不足时唇语识别率较低的问题得到解决。
[0054]实施例二
[0055]图2为本发明提供的另一种提高唇语识别率的方法实施例的流程图。
[0056]如图2所示,本实施例提供的提高唇语识别率的方法应用于移动终端,具体是在移动终端与其他通信终端进行通信时对唇语识别率进行改善,具体步骤为:
[0057]S201:判定当前条件是否满足预设的启动条件。
[0058]当用户通过移动终端与其他通信终端进行通话时,对当前条件是否满足预设的启动条件进行判断,当满足该启动条件时开始执行下一步骤,否则继续判断。
[0059]鉴于当前移动终端所具有的强大的功能,上述通话可以是与另一移动终端进行通话,还可以是通过微信、qq或网络电话软件与其他通信终端、如计算机或平板电脑进行通信联系。
[0060]该预设的启动条件为用户输入的唇语识别开启指令,例如点击显示屏上预置的虚拟按键,或者是语音开启唇语识别指令,或者当移动终端当前所处的环境内的环境噪声达到预设噪声阈值,还可以是其他通信终端在呼入的语音中包含了相应关键字、关键词或者关键句子,例如当对方抱怨“你那里怎么噪声这么大”,或者“我听不清楚”,则可以将“噪声这么大”或者“听不清楚”均可以作为启动条件。
[0061 ] S202:获取当前环境光线的光强度。
[0062]在当前条件满足预设的启动条件时,启用光线传感器对当前环境光线的光强度进行检测。
[0063]S203:当光强度低于预设的光强度阈值时,提高显示屏的亮度。
[0064]在获取到当前环境光线的光强度后,将该光强度与以预设的光强度阈值进行比较,当通过比较判定光强度低于光强度阈值时,提高显示屏的亮度以增强对用户的唇部的照明。
[0065]该光强度阈值根据经验和具体的试验进行选取,以满足移动终端的前置摄像头所获得的唇部图像能够满足语音识别为标准。
[0066]S204:通过移动终端的前置摄像头获取用户的唇部图像。
[0067]利用移动终端的前置摄像头获取用户的唇部图像。该唇部图像是一种动态图像,不仅有唇部的静态特征,更主要的是反映唇部的运动过程,该运动过程与用户的发声紧密关联。
[0068]本步骤的具体执行过程为:首先接收前置摄像头获取的唇部图像,然后在显示屏上利用一个预设的唇部识别区域显示该唇部图像。
[0069]为了以一个预设的唇部识别区域显示该唇部图像,首先在显示屏上显示一个唇部识别区域,一般可以以一个预设的窗体作为该唇部识别区域。该唇部识别区域可以用线框实现。用户在通过前置摄像头获取唇部图像的预览图像时,会尽可能将唇部移动到该线框中,这样让用户可以实时调整位置,尽可能将唇部靠近移动终端,以获得较高的识别率。然后为了使该唇部识别区域更为显眼,在该唇语识别区域以外的区域设置一个图层,并将该图层的颜色以一个预设色值进行设置,从而使唇语识别区域与其他区域做一个显著的区分。图层优选为纯白色。由于纯白色的背景可以尽量多地将光线投射到唇部,让唇部获得的光线更多,更容易识别。
[0070]另外,本步骤中还对唇部图像是否满足预设图像质量进行判断,当唇部图像不能满足唇语识别的要求、即不能满足预设图像质量时输出提示信息,用以提示用户将移动终端与自己的距离做出调整,从而使图像质量得到改善。
[0071]S205:对唇部图像进行识别,得到与唇部图像相匹配的信息。
[0072]在得到能够满足语音识别条件的唇部图像后,对该唇部图像进行识别,得到与唇部图像相匹配的信息。通过识别,可以获得用户的唇语说表达的含义。
[0073]S206:将对唇部图像进行识别得到的信息转换为语音信号。
[0074]已经获取唇部图像说代表的含义后,可以从移动终端的音频字库中提取相关的音频数据,进行拼接组合形成语音信号。
[0075]S207:将语音信号发送至其他通信终端。
[0076]即将最终识别得到的语音信号发送到与该移动终端进行通话的其他通信终端,从而使其他通信终端的用户能够在该移动终端在无法直接获得良好的语音信号的时候,也能够取得良好的通信效果。
[0077]实施例三
[0078]图3为本发明提供的又一种提高唇语识别率的方法实施例的流程图。
[0079]如图3所示,本实施例提供的提高唇语识别率的方法应用于移动终端,具体是在移动终端与其他通信终端进行通信时对唇语识别率进行改善,具体步骤为:
[0080]S301:判定当前条件是否满足预设的启动条件。
[0081]当用户通过移动终端与其他通信终端进行通话时,对当前条件是否满足预设的启动条件进行判断,当满足该启动条件时开始执行下一步骤,否则继续判断。
[0082]鉴于当前移动终端所具有的强大的功能,上述通话可以是与另一移动终端进行通话,还可以是通过微信、qq或网络电话软件与其他通信终端、如计算机或平板电脑进行通信联系。
[0083]该预设的启动条件为用户输入的唇语识别开启指令,例如点击显示屏上预置的虚拟按键,或者是语音开启唇语识别指令,或者当移动终端当前所处的环境内的环境噪声达到预设噪声阈值,还可以是其他通信终端在呼入的语音中包含了相应关键字、关键词或者关键句子,例如当对方抱怨“你那里怎么噪声这么大”,或者“我听不清楚”,则可以将“噪声这么大”或者“听不清楚”均可以作为启动条件。
[0084]S302:获取当前环境光线的光强度。
[0085]在当前条件满足预设的启动条件时,启用光线传感器对当前环境光线的光强度进行检测。
[0086]S303:当光强度低于预设的光强度阈值时,提高显示屏的亮度。
[0087]在获取到当前环境光线的光强度后,将该光强度与以预设的光强度阈值进行比较,当通过比较判定光强度低于光强度阈值时,提高显示屏的亮度以增强对用户的唇部的照明。
[0088]该光强度阈值根据经验和具体的试验进行选取,以满足移动终端的前置摄像头所获得的唇部图像能够满足语音识别为标准。
[0089]S304:通过移动终端的前置摄像头获取用户的唇部图像。
[0090]利用移动终端的前置摄像头获取用户的唇部图像。该唇部图像是一种动态图像,不仅有唇部的静态特征,更主要的是反映唇部的运动过程,该运动过程与用户的发声紧密关联。
[0091]本步骤的具体执行过程为:首先接收前置摄像头获取的唇部图像,然后在显示屏上利用一个预设的唇部识别区域显示该唇部图像。
[0092]为了以一个预设的唇部识别区域显示该唇部图像,首先在显示屏上显示一个唇部识别区域,一般可以以一个预设的窗体作为该唇部识别区域。该唇部识别区域可以用线框实现。用户在通过前置摄像头获取唇部图像的预览图像时,会尽可能将唇部移动到该线框中,这样让用户可以实时调整位置,尽可能将唇部靠近移动终端,以获得较高的识别率。然后为了使该唇部识别区域更为显眼,在该唇语识别区域以外的区域设置一个图层,并将该图层的颜色以一个预设色值进行设置,从而使唇语识别区域与其他区域做一个显著的区分。图层优选为纯白色。由于纯白色的背景可以尽量多地将光线投射到唇部,让唇部获得的光线更多,更容易识别。
[0093]另外,本步骤中还对唇部图像是否满足预设图像质量进行判断,当唇部图像不能满足唇语识别的要求、即不能满足预设图像质量时输出提示信息,用以提示用户将移动终端与自己的距离做出调整,从而使图像质量得到改善。
[0094]S305:对唇部图像进行识别,得到与唇部图像相匹配的信息。
[0095]在得到能够满足语音识别条件的唇部图像后,对该唇部图像进行识别,得到与唇部图像相匹配的信息。
[0096]S306:将对唇部图像进行识别得到的信息转换为语音信号。
[0097]已经获取唇部图像说代表的含义后,可以从移动终端的音频字库中提取相关的音频数据,进行拼接组合形成语音信号。
[0098]S307:将语音信号发送至其他通信终端。
[0099]即将最终识别得到的语音信号发送到与该移动终端进行通话的其他通信终端,从而使其他通信终端的用户能够在该移动终端在无法直接获得良好的语音信号的时候,也能够取得良好的通信效果。
[0100]S308:拦截当前环境输入至移动终端的音频信号。
[0101]即在进行唇语识别的时候,将移动终端的音频接收设备、例如麦克风接收到的当前环境内的所有声音产生的音频信号予以拦截,以避免当前环境的声音对发送至其他通信终端的语音信号造成干扰。S308可以在开启唇语识别后就拦截环境音频;也可以在将唇语转换为语音信号后再拦截,避免转换不成功。本步骤并不作执行顺序的唯一限定,所有合理调整各步骤的执行顺序都应当纳入本发明的保护范围之内。
[0102]实施例四
[0103]图4为本发明提供的又一种提高唇语识别率的方法实施例的流程图。
[0104]如图4所示,本实施例提供的提高唇语识别率的方法应用于移动终端,具体是在移动终端与其他通信终端进行通信时对唇语识别率进行改善,具体步骤为:
[0105]S401:判定当前条件是否满足预设的启动条件。
[0106]当用户通过移动终端与其他通信终端进行通话时,对当前条件是否满足预设的启动条件进行判断,当满足该启动条件时开始执行下一步骤,否则继续判断。
[0107]鉴于当前移动终端所具有的强大的功能,上述通话可以是与另一移动终端进行通话,还可以是通过微信、qq或网络电话软件与其他通信终端、如计算机或平板电脑进行通信联系。
[0108]该预设的启动条件为用户输入的唇语识别开启指令,例如点击显示屏上预置的虚拟按键,或者是语音开启唇语识别指令,或者当移动终端当前所处的环境内的环境噪声达到预设噪声阈值,还可以是其他通信终端在呼入的语音中包含了相应关键字、关键词或者关键句子,例如当对方抱怨“你那里怎么噪声这么大”,或者“我听不清楚”,则可以将“噪声这么大”或者“听不清楚”均可以作为启动条件。
[0109]S402:获取当前环境光线的光强度。
[0110]在当前条件满足预设的启动条件时,启用光线传感器对当前环境光线的光强度进行检测。
[0111]S403:当光强度低于预设的光强度阈值时,提高显示屏的亮度。
[0112]在获取到当前环境光线的光强度后,将该光强度与以预设的光强度阈值进行比较,当通过比较判定光强度低于光强度阈值时,提高显示屏的亮度以增强对用户的唇部的照明。
[0113]该光强度阈值根据经验和具体的试验进行选取,以满足移动终端的前置摄像头所获得的唇部图像能够满足语音识别为标准。
[0114]S404:通过移动终端的前置摄像头获取用户的唇部图像。
[0115]利用移动终端的前置摄像头获取用户的唇部图像。该唇部图像是一种动态图像,不仅有唇部的静态特征,更主要的是反映唇部的运动过程,该运动过程与用户的发声紧密关联。
[0116]本步骤的具体执行过程为:首先接收前置摄像头获取的唇部图像,然后在显示屏上利用一个预设的唇部识别区域显示该唇部图像。
[0117]为了以一个预设的唇部识别区域显示该唇部图像,首先在显示屏上显示一个唇部识别区域,一般可以以一个预设的窗体作为该唇部识别区域。该唇部识别区域可以用线框实现。用户在通过前置摄像头获取唇部图像的预览图像时,会尽可能将唇部移动到该线框中,这样让用户可以实时调整位置,尽可能将唇部靠近移动终端,以获得较高的识别率。然后为了使该唇部识别区域更为显眼,在该唇语识别区域以外的区域设置一个图层,并将该图层的颜色以一个预设色值进行设置,从而使唇语识别区域与其他区域做一个显著的区分。图层优选为纯白色。由于纯白色的背景可以尽量多地将光线投射到唇部,让唇部获得的光线更多,更容易识别。
[0118]另外,本步骤中还对唇部图像是否满足预设图像质量进行判断,当唇部图像不能满足唇语识别的要求、即不能满足预设图像质量时输出提示信息,用以提示用户将移动终端与自己的距离做出调整,从而使图像质量得到改善。
[0119]S405:对唇部图像进行识别,得到与唇部图像相匹配的信息。
[0120]在得到能够满足语音识别条件的唇部图像后,对该唇部图像进行识别,得到与唇部图像相匹配的信息。通过识别,可以获得用户的唇语说表达的含义。
[0121]S406:将对唇部图像进行识别得到的信息转换为语音信号。
[0122]已经获取唇部图像说代表的含义后,可以从移动终端的音频字库中提取相关的音频数据,进行拼接组合形成语音信号。
[0123]S407:将语音信号发送至其他通信终端。
[0124]即将最终识别得到的语音信号发送到与该移动终端进行通话的其他通信终端,从而使其他通信终端的用户能够在该移动终端在无法直接获得良好的语音信号的时候,也能够取得良好的通信效果。
[0125]S408:拦截当前环境输入至移动终端的音频信号。
[0126]即在进行唇语识别的时候,将移动终端的音频接收设备、例如麦克风接收到的当前环境内的所有声音产生的音频信号予以拦截,以避免当前环境的声音对发送至其他通信终端的语音信号造成干扰。
[0127]S409:对唇语识别得到的信息进行文字识别,得到与该信息匹配的文字。
[0128]已经获取唇部图像说代表的含义后,可以从移动终端的文字库中提取字符,进行拼接组合后得到文字。
[0129]S410:利用显示屏显示识别得到的与信息相匹配的文字。
[0130]通过显示与信息相匹配的文字,能够使用户直观判断唇语识别的效果,并能够根据识别效果采取相应的措施,例如当识别效果较差时可以调整图像质量以获得识别效果的改善。
[0131]本实施例的S409和S410顺序执行,当S409并不限定在S408之后,可与S405同步执行。本实施例除了S401-S410的执行顺序外,合理地调整部分步骤的执行顺序都应当纳入本发明的保护范围之内。
[0132]实施例五
[0133]图5为本发明提供的一种移动终端实施例的结构框图。
[0134]如图5所示,本实施例提供的移动终端设置有显示屏,除此之外,还包括光强检测模块10、亮度控制模块20、图像获取模块30和信息识别模块40。
[0135]光强检测模块10用于用于该移动终端对用户的唇部动作进行识别时,利用光强传感器对当前环境光线进行检测,得到反映该当前环境光线的光强度。
[0136]亮度控制模块20用于在光强检测模块10获取到当前环境光线的光强度后,将该光强度与以预设的光强度阈值进行比较,当通过比较判定光强度低于光强度阈值时,提高显示屏的亮度以增强显示屏投射到用户的唇部的照明。
[0137]该光强度阈值根据经验和具体的试验进行选取,以满足移动终端的前置摄像头所获得的唇部图像能够满足语音识别为标准。
[0138]图像获取模块30用于利用移动终端的前置摄像头获取用户的唇部图像。该唇部图像是一种动态图像,不仅有唇部的静态特征,更主要的是反映唇部的运动过程,该运动过程与用户的发声紧密关联。
[0139]具体的,该图像获取模块包括图像接收单元31和显示控制单元32。图像接收单元用于接收前置摄像头获取的唇部图像,显示控制单元32则用于在显示屏上利用一个预设的唇部识别区域显示该唇部图像。
[0140]显示控制单元32包括显示子单元321、图层设置子单元322和色值设置子单元323,显示子单元321用于控制移动终端的显示屏显示一个唇部识别区域,一般可以以一个预设的窗体作为该唇部识别区域。该唇部识别区域可以用线框实现。用户在通过前置摄像头获取唇部图像的预览图像时,会尽可能将唇部移动到该线框中,这样让用户可以实时调整位置,尽可能将唇部靠近移动终端,以获得较高的识别率。图层设置子单元322用于为了使该唇部识别区域更为显眼,在该唇语识别区域以外的区域设置一个图层;色值设置子单元323用于将该图层的颜色以一个预设色值进行设置,从而使唇语识别区域与其他区域做一个显著的区分。图层优选为纯白色。由于纯白色的背景可以尽量多地将光线投射到唇部,让唇部获得的光线更多,更容易识别。
[0141]另外,图像获取模块30还包括图像质量判断单元33和提示信息显示单元34,图像质量判断单元33用于对唇部图像是否满足预设图像质量进行判断;提示信息显示单元34用于当图像质量判断单元33判定唇部图像不能满足唇语识别的要求、即不能满足预设图像质量时输出提示信息,提示用户将移动终端与自己的距离做出调整,从而使图像质量得到改口 ο
[0142]信息识别模块40用于对唇部图像进行识别,得到与唇部图像相匹配的信息。
[0143]即在图像获取模块30得到能够满足语音识别条件的唇部图像后,对该唇部图像进行识别,得到与唇部图像相匹配的信息。
[0144]从上述技术方案可以看出,本申请提供了一种移动终端,该移动终端设置有显示屏,具体为首先获取当前环境光线的光强度,然后对光强度与以预设的光强度阈值进行比较,当光强度低于该光强度阈值时,提高显示屏的亮度,以增加对唇部的照明,并通过移动终端的前置摄像头获取用户的唇部图像,最后对获得的唇部图像进行识别,得到与唇部图像匹配的信息,由于本方法能够在当前环境光线的光强度低于光强度阈值、即环境光线不足时增加对唇部的照明,使移动终端获得的唇部图像更加清楚,从而能够使在环境光线不足时唇语识别率较低的问题得到解决。
[0145]实施例六
[0146]图6为本发明提供的另一种移动终端实施例的结构框图。
[0147]如图6所示,本实施例提供的移动终端是在上一实施例的基础上增设了启动控制模块100、语音转换模块50和语音发送模块60
[0148]启动控制模块100用于判断当前条件是否满足预设的启动条件。
[0149]当用户通过移动终端与其他通信终端进行通话时,启动控制模块110对当前条件是否满足预设的启动条件进行判断,当满足该启动条件时开始输出相应的启动指令以启动光强检测模块10开始获取当前环境光线的光强度。
[0150]鉴于当前移动终端所具有的强大的功能,上述通话可以是与另一移动终端进行通话,还可以是通过微信、qq或网络电话软件与其他通信终端、如计算机或平板电脑进行通信联系。
[0151]该预设的启动条件为用户输入的唇语识别开启指令,例如点击显示屏上预置的虚拟按键,或者是语音开启唇语识别指令,或者当移动终端当前所处的环境内的环境噪声达到预设噪声阈值,还可以是其他通信终端在呼入的语音中包含了相应关键字、关键词或者关键句子,例如当对方抱怨“你那里怎么噪声这么大”,或者“我听不清楚”,则可以将“噪声这么大”或者“听不清楚”均可以作为启动条件。
[0152]语音转换模块50用于将信息识别模块40对唇部图像进行识别得到的信息进行转换,得到与该信息相匹配的语音信号。
[0153]语音发送模块60用于语音转换模块50得到的语音信号发送至其他通信终端。
[0154]即将最终识别得到的语音信号发送到与该移动终端进行通话的其他通信终端,从而使其他通信终端的用户能够在该移动终端在无法直接获得良好的语音信号的时候,也能够取得良好的通信效果。
[0155]实施例七
[0156]图7为本发明提供的又一种移动终端实施例的结构框图。
[0157]如图7所示,本实施例提供的移动终端是在上一实施例的基础上增设了音频拦截模块70
[0158]音频拦截模块70用于拦截当前环境输入至移动终端的音频信号。
[0159]即在移动终端进行唇语识别的同时,将移动终端的音频接收设备、例如麦克风接收到的当前环境内的所有声音产生的音频信号予以拦截,以避免当前环境的声音对发送至其他通信终端的语音信号造成干扰。
[0160]实施例八
[0161]图8为本发明提供的又一种移动终端实施例的结构框图。
[0162]如图8所示,本实施例提供的移动终端是在上一实施例的基础上增设了文字识别模块80和文字显示控制模块90。
[0163]文字识别模块80用于对信息识别模块40得到的信息进行文字识别,得到与该信息匹配的文字。
[0164]文字显示控制模块90用于利用显示屏显示文字识别模块80识别得到的与信息相匹配的文字。
[0165]通过利用显示屏显示与信息识别模块40输出的信息相匹配的文字,能够使用户直观判断唇语识别的效果,并能够根据识别效果采取相应的措施,例如当识别效果较差时可以调整图像质量以获得识别效果的改善。
[0166]对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0167]本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0168]图9是本发明又一个实施例的移动终端的框图。图9所示的移动终端900包括:至少一个处理器901、存储器902、至少一个网络接口 904和其他用户接口 903。移动终端900中的各个组件通过总线系统905耦合在一起。可理解,总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统905。
[0169]其中,用户接口 903可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
[0170]可以理解,本发明实施例中的存储器902可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory, ROM)、可编程只读存储器(ProgrammabI eROM,PROM)、可擦除可编程只读存储器(ErasablePR0M,EPR0M)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory’RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(3七&〖化!^1,31^10、动态随机存取存储器(0711&1^^^1,01^10、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchl inkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的系统和方法的存储器902旨在包括但不限于这些和任意其它适合类型的存储器。
[0171 ]在一些实施方式中,存储器902存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统9021和应用程序9022。
[0172]其中,操作系统9021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序9022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序9022中。
[0173]在本发明实施例中,通过调用存储器902存储的程序或指令,具体的,可以是应用程序9022中存储的程序或指令,处理器901用于获取当前环境光线的光强度;当所述光强度低于一预设的光强度阈值时,发出提高显示屏的亮度的指令;并通过所述移动终端的前置摄像头获取用户的唇部图像;对所述唇部图像进行识别,得到与所述唇部图像匹配的信息。
[0174]上述本发明实施例揭示的方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(Applicat1nSpecific IntegratedCircuit ,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成上述方法的步骤。
[0175]可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Applicat1nSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice ,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
[0176]对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0177]可选地,处理器901通过所述前置摄像头获取唇部图像后,将所述唇部图像发送到显示屏上,使显示屏上的一预设的唇部识别区域显示所述唇部图像。
[0178]可选地,处理器901还用于在所述唇部识别区域以外的显示区域设置一图层,并将该图层设置一预设的颜色,令显示屏显示该显示区域以增强发射到人脸的光线。
[0179]可选地,处理器901还用于在唇部图像不满意预设图像质量时,输出提示,以促使用户调整输入,例如提示用户尽可能靠近移动终端,以获取尽可能清晰的唇部图像和利用显示屏的光线补充环境光线的不足,提高识别率。
[0180]可选地,作为另一实施例,处理器901将匹配获取的信息转换为语音信号,并通过总线系统905传输到网络接口 904,让网络接口 904发送到其他通信终端。
[0181]可选地,作为另一实施例,处理器901还在开启唇部识别功能后,拦截当前环境输入至所述移动终端的音频信号,以防止环境音频对通话的影响。
[0182]可选地,作为又一实施例,处理器901对所述信息进行文字识别,得到与所述信息相匹配的文字,将匹配的文字通过总线系统905发送到用户接口 903,并通过用户接口 903显示该文字。
[0183]移动终端900能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。本实施例可以当前环境光线的光强度低于光强度阈值、即环境光线不足时增加对唇部的照明,使移动终端获得的唇部图像更加清楚,从而能够使在环境光线不足时唇语识别率较低的问题得到解决。
[0184]本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0185]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0186]在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0187]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0188]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0189]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0190]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
【主权项】
1.一种提高唇语识别率的方法,应用于移动终端,其特征在于,包括: 获取当前环境光线的光强度; 当所述光强度低于一预设的光强度阈值时,提高显示屏的亮度; 通过所述移动终端的前置摄像头获取用户的唇部图像; 对所述唇部图像进行识别,得到与所述唇部图像匹配的信息。2.如权利要求1所述的提高唇语识别率的方法,其特征在于,所述获取当前环境光线的光强度的步骤之前,还包括: 当用户在与其他通信终端进行通信,且当前条件满足预设的启动条件时,开始执行获取当前环境光线的光强度步骤; 所述启动条件包括: 接收到用户输入的唇语识别开启指令; 或,所述移动终端的环境噪声达到预设噪声阈值; 或,所述移动终端接收到所述其他通信终端的语音中包含预设关键词。3.如权利要求2所述的提高唇语识别率的方法,其特征在于,所述对所述唇部图像进行识别,得到与所述唇部图像匹配的信息的步骤之后,还包括: 转换所述信息为语音信号; 发送所述语音信号至其他通信终端。4.如权利要求3所述的提高唇语识别率的方法,其特征在于,所述发送所述语音信号至所述其他通信终端的步骤之前,还包括: 拦截当前环境输入至所述移动终端的音频信号。5.如权利要求3或4所述的提高唇语识别率的方法,其特征在于,所述发送所述语音信号至其他通信终端之前,还包括: 对所述信息进行文字识别,得到与所述信息相匹配的文字; 利用所述显示屏显示所述文字。6.如权利要求1所述的提高唇语识别率的方法,其特征在于,所述通过所述移动终端的前置摄像头获取用户的唇部图像,包括: 通过所述前置摄像头获取唇部图像; 利用显示屏上一预设的唇部识别区域显示所述唇部图像。7.如权利要求6所述的提高唇语识别率的方法,其特征在于,所述利用显示屏上一预设的唇部识别区域显示所述唇部图像,包括: 在所述显示屏上显示所述唇部识别区域; 在所述唇部识别区域以外的显示区域设置一图层; 以预设色值设置所述图层的颜色。8.如权利要求6所述的提高唇语识别率的方法,其特征在于,所述利用一预设的唇部识别区域显示所述唇部图像之后,还包括: 判断所述唇部图像是否满足预设图像质量; 当所述唇部图像不满足预设图像质量时,输出提示信息。9.一种移动终端,包括显示屏,其特征在于,所述移动终端还包括: 光强检测模块,用于获取当前环境光线的光强度; 亮度控制模块,用于当所述光强检测模块获取的光强度低于一预设的光强度阈值时,提尚显不屏的壳度; 图像获取模块,用于通过所述移动终端的前置摄像头获取用户的唇部图像; 信息识别模块,用于对所述图像获取模块获取的唇部图像进行识别,得到与所述唇部图像匹配的信息。10.如权利要求9所述的移动终端,其特征在于,还包括: 启动控制模块,用于当用户在与其他通信终端进行通信,且当前条件满足预设的启动条件时,控制所述光强检测模块开始检测当前环境光线的光强度; 所述启动条件包括: 接收到用户输入的唇语识别开启指令; 或,所述移动终端的环境噪声达到预设噪声阈值; 或,所述移动终端接收到所述通信终端的语音中包含预设关键词。11.如权利要求10所述的移动终端,其特征在于,还包括: 语音转换模块,用于转换所述信息识别模块得到的信息为语音信号; 语音发送模块,用于发送所述语音转换模块转换的语音信号至所述其他通信终端。12.如权利要求11所述的移动终端,其特征在于,还包括: 音频拦截模块,用于拦截当前环境输入至所述移动终端的音频信号。13.如权利要求11或12所述的移动终端,其特征在于,还包括: 文字识别模块,用于对所述信息识别模块得到的信息进行文字识别,得到与所述信息相匹配的文字; 文字显示控制模块,用于利用所述显示屏显示所述文字。14.如权利要求9所述的移动终端,其特征在于,所述图像获取模块包括: 图像接收单元,用于接收所述前置摄像头获取的唇部图像; 显示控制单元,用于利用显示屏上一预设的唇部识别区域显示所述唇部图像。15.如权利要求14所述的移动终端,其特征在于,所述显示控制单元包括: 显示子单元,用于在所述显示屏上显示所述唇部识别区域; 图层设置子单元,用于在所述唇部识别区域以外的显示区域设置一图层; 色值设置子单元,用于以预设色值设置所述图层的颜色。16.如权利要求14所述的移动终端,其特征在于,所述图像获取模块还包括: 图像质量判断单元,用于判断所述唇部图像是否满足预设图像质量; 提示信息显示单元,用于当所述图像质量判断单元判定所述唇部图像不满足预设图像质量时,输出提示信息。
【文档编号】G06K9/00GK105825167SQ201610066409
【公开日】2016年8月3日
【申请日】2016年1月29日
【发明人】张恒莉
【申请人】维沃移动通信有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1