信息的识别方法、装置及终端的制作方法

文档序号：6369587阅读：103来源：国知局

专利名称：信息的识别方法、装置及终端的制作方法
技术领域：
本发明涉及信息技术领域，尤其涉及一种信息的识别方法、装置及終端。
背景技术：
目前，随着语音输入技术的发展，很多手机終端都可以通过语音实现文字输入。语音输入是ー种简便、易用的输入方法，终端将操作者的语音识别为汉字，实现了输入。然而，用户必须在比较安静的环境下进行语音输入，而且声音必须清晰，否则无法被终端正确识别，可能导致输入一些错误的文字，降低了语音输入的准确率。另外，如果用户无法发出声音，也无法使用语音输入来实现输入，降低了语音输入操作的易用性。

发明内容
本发明实施例提供了一种信息的识别方法、装置及終端，可以实现終端将用户面部的动作识别为文本或符号信息，提供了一种新文本或符号信息的输入方法。一方面，本发明实施例提供了一种信息的识别方法，所述方法包括終端采集视频数据，在所述视频数据中提取图像帧；将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每ー个分区的特征值；根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化
信息；根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息；显示所述检索文本和/或符号信息。另ー方面，本发明实施例提供了一种信息的识别装置，所述装置包括采集单元，用于采集视频数据，在所述视频数据中提取图像帧；提取单元，用于将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每ー个分区的特征值；计算单元，用于根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息；查询单元，用于根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息；显示单元，用于显示所述检索文本和/或符号信息。又一方面，本发明实施例还提供了ー种终端，包括上述的信息识别装置。本发明实施例中，終端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的文本或符号信息，提高了終端设备输入信息的便捷性。

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的ー些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图I为本发明实施例提供的一种信息的识别方法流程图；图2为本发明实施例提供的一种信息的识别装置示意图。
具体实施例方式以下描述中，为了说明而不是为了限定，提出了诸如图像分区及图像分区的特征值的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。本发明实施例提供的信息的识别方法、装置及終端在实际应用时，作为ー种新的信息的识别方法可应用于用户需要在終端上输入文本或符号信息的场景。用户在终端中输入信息的方法有多种，语音输入、键盘输入、手写板输入等。本发明实施例提供了一种新的信息的识别方法，即面部动作图像输入方法。此输入方法可以与语音输入方法结合使用，也可以单独使用，終端通过对用户面部动作图像进行分析，可以将用户的面部动作识别为用户想要输入的文本或符号信息。本发明实施例针对现有技术的缺陷，提供了一种信息的识别方法、装置及終端。终端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，在本地数据库或网络服务器中查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的输入文本或符号信息，提高了終端设备输入信息的便捷性。图I为本发明实施例提供的一种信息的输入方法流程图。该实施例的执行主体是終端，其中详细描述了终端将用户的面部动作识别为文本或符号信息，并将文本或符号信息输入终端的方法。如图I所示，本实施例包括以下步骤步骤101，終端采集视频数据，在所述视频数据中提取图像帧。在终端设备中输入文本或符号信息之前，首先根据接收到的用户的操作指令，将终端置为信息输入状态，如在想要输入短信内容、备忘录内容、通讯录内容时，会首先执行新建信息的操作指令，終端接收到该操作指令后，打开文字或符号输入功能；然后通过键盘上的按键或按钮开启通过面部动作输入文本或符号信息的功能。开启通过面部动作输入文本或符号信息的功能后，終端通过摄像头拍摄用户面部动作，在用户说话的过程中，用户的上下嘴唇、眼神、牙齿和舌头都会有相应的动作，終端捕捉用户的面部动作后，将动作作为视频数据存储在内部存储部件中。在采集的视频数据中提取多个图像帧，用以终端通过后面的技术方案对连续的图像帧进行分析，以获得用户所说的文字或符号。步骤102，终端将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每ー个分区的特征值。每ー个图像帧中都包括人脸区域，終端首先识别图像帧中的人脸区域，然后将人脸区域划分为多个分区，如可以划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。然后提取各个分区的特征值，如嘴唇分区的特征值可以为上下嘴唇之间的距离、嘴角上扬的幅度等，牙齿分区的特征值可以为露出的牙齿的数量，舌头分区的特征值可以为露出的舌头的面积或部位等等。对人脸区域进行分区划分后，为了便于提取并保存每个分区的特征值，可以给每个分区设置ー个标识信息，该标识信息可以为各个分区的名称，如“眼睛”分区，也可以用数字来作为每个分区的标识信息，如“ I号”分区为眼睛分区的标识信息。终端提取出每ー个图像帧中的每个分区的特征值后，将各个分区的特征值按照分区标识信息存储在存储部件中，即ー个分区在多个图像帧中的特征值存储在ー个分区标识信息下，在存储特征值时还要存储该特征值对应的图像帧在视频中的时间帧信息。步骤103，終端根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息。終端在提取并保存各个分区的多个特征值后，计算相同的分区在不同的图像帧中的特征值的变化信息。終端可以将同一个分区在连续的图像帧中的多个特征值，如其中每两个特征值的差值作为变化信息；也可以计算连续的图像帧中的多个特征值，如其中每两个特征值的变化率，即计算每两个特征值的变化量与时间差值的比值作为变化信息。步骤104，終端根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。为了实现本发明的技术方案，在实际应用中，终端数据库中保存了的变化信息与检索文本和/或符号信息的映射关系，終端可以在开启视频输入法时，从该数据库中检索出与分区标识信息对应的分区的多个特征值和所述多个特征值对应的文本和/或符号信息。当然，終端也中也可以不保存该数据库，在需要获取与分区标识信息对应的分区的多个特征值和所述多个特征值对应的文本和/或符号信息时，終端可以自动从网络服务器的数据库中获取。根据分区在各个图像帧中的特征值以及特征值的变化信息，可以查询出对应的检索文本或符号信息。该数据库中存储了特征值及特征值变化信息与检索文本和/或符号的对应关系。例如，当用户吐舌头时，根据用户舌头的特征值及特征值的变化信息，可以在数据库中检索出“可爱表情”符号，即识别该面部动作为ー个“可爱表情”的符号；或者当用户说出“你好”两个字时，根据用户嘴唇的特征值为及特征值的变化信息，可以在数据库中检索出“你好”两个文字。当然，对于相同的面部动作及动作变化，在数据库中可以对应多个信息，如对于ー个面部动作计算出的特征值及特征值的变化信息，可以在数据库中检索出“等级” “登记” “登机” “登基”等多组信息，此时可将所有分组信息都检索出来作为检索文本和/或符号信息。步骤105，终端显示所述检索文本和/或符号信息。
终端在数据库中检索出多组信息后，还将显示从数据库中检索到的检索文本和/或符号信息输出并显示，并接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。如步骤104中所述，終端在数据库中检索出“等级” “登记” “登机” “登基”等多组信息后，检索文本和/或符号信息后，終端可以将该多组信息作为检索文本和/或符号信息显示出来，用户可以在多组信息中选择自己真正要输入的信息，此时，終端接收到选择指令后，将选择的信息作为输入文本和/或符号信息，并将该信息复制到指定位置，至此即可将输入文本和/或符号信息输入到指定的位置。需要说明的是，本发明实施例提供的技术方案可以单独使用，也可以与语音输入技术方案结合使用，以快速确定用户要输入的信息。本发明实施例中，終端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，在数据库中查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的文本或符号信息，提高了終端设备输入信息的便捷性。相应地，本发明实施例还提供了一种信息的识别装置。图2为本发明实施例提供的一种信息的识别装置示意图。该实施例详细描述了终端将用户的面部动作识别为文本或符号信息，并将文本或符号信息输入终端的各个功能模块。如图2所示，本实施例包括以下单元采集单元201，用于采集视频数据，在所述视频数据中提取图像帧。在终端设备中输入文本或符号信息之前，首先根据接收到的用户的操作指令，将终端置为信息输入状态，如在想要输入短信内容、备忘录内容、通讯录内容时，会首先执行新建信息的操作指令，終端接收到该操作指令后，打开文字或符号输入功能；然后通过键盘上的按键或按钮开启通过面部动作输入文本或符号信息的功能。开启通过面部动作输入文本或符号信息的功能后，終端通过摄像头拍摄用户面部动作，在用户说话的过程中，用户的上下嘴唇、眼神、牙齿和舌头都会有相应的动作，終端捕捉用户的面部动作后，将动作作为视频数据存储在内部存储部件中。在采集的视频数据中提取多个图像帧，用以对这几个图像帧进行分析，获得用户所说的文字或符号。提取单元202，用于将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每ー个分区的特征值。提取单元202具体用于识别所述图像帧中的人脸区域；将所述图像帧中的所述人脸区域划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。每ー个图像帧中都包括人脸区域，終端首先识别图像帧中的人脸区域，然后将人脸区域划分为多个分区，如可以划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。然后提取各个分区的特征值，如嘴唇分区的特征值可以为上下嘴唇之间的距离、嘴角上扬的幅度等，牙齿分区的特征值可以为露出的牙齿的数量，舌头分区的特征值可以为露出的舌头的面积或部位等等。终端提取出每ー个图像帧中的每个分区的特征值后，将各个分区的特征值按照分区标识信息存储在存储部件中，即ー个分区在多个图像帧中的特征值存储在ー个分区标识信息下，在存储特征值时还要存储该特征值对应的图像帧在视频中的时间帧信息。计算单元203，用于根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息。计算单元203具体用于根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化量；或根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化率。終端在提取并保存各个分区的多个特征值后，计算相同的分区在不同的图像帧中的特征值的变化信息。終端可以将同一个分区在连续的图像帧中的多个特征值，如其中每两个特征值的差值作为变化信息；也可以计算连续的图像帧中的多个特征值，如其中每两个特征值的变化率，即计算每两个特征值的变化量与时间差值的比值作为变化信息。查询单元204，用于根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。根据分区在各个图像帧中的特征值以及特征值的变化信息，在数据库中可以查询出对应的检索文本或符号信息。该数据库中存储了特征值及特征值变化信息与检索文本和/或符号的对应关系。例如，当用户吐舌头时，根据用户舌头的特征值及特征值的变化信息，可以在数据库中检索出“可爱表情”符号，即识别该面部动作为ー个“可爱表情”的符号；或者当用户说出“你好”两个字时，根据用户嘴唇的特征值为及特征值的变化信息，可以在数据库中检索出“你好”两个文字。当然，对于相同的面部动作及动作变化，在数据库中可以对应多个信息，如对于ー个面部动作计算出的特征值及特征值的变化信息，可以在数据库中检索出“等级” “登记” “登机” “登基”等多组信息，此时可将所有分组信息都检索出来作为检索文本和/或符号信息。显示单元205，用于显示所述检索文本和/或符号信息。当然，終端在数据库中检索出多组信息后，还将显示从数据库中检索到的检索文本和/或符号信息，并接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。如查询单元204在数据库中检索出“等级” “登记” “登机” “登基”等多组信息后，检索文本和/或符号信息后，终端将该多组信息当做检索文本和/或符号信息显示出来，用户可以在多组信息中选择并单击自己真正要输入的信息，此时，終端接收到单击处理指令后，将该信息作为输入文本和/或符号信息，并将该信息复制到指定位置，至此即可将输入文本和/或符号信息输入到指定的位置。优选地，本发明实施例还包括设置单元206，用于接收用户的操作指令，将本地终端置为信息输入状态。在用户想要输入信息时，首先将终端置为信息输入状态，如在想要输入短信内容时，会首先执行新建信息的操作指令，終端接收到该操作指令后，打开文字或符号输入功倉^:。
优选地，本发明实施例还包括处理单元207，用于接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。在将输入文本和/或符号信息复制到指定位置之前，終端还将显示从数据库中检索到的检索文本和/或符号信息，并接收用户的处理指令，根据用户的处理指令，从检索到的检索文本和/或符号信息中选择要输入的输入文本和/或符号信息。进ー步的，本发明实施例还提供了ー种终端，所述终端包括上述信息识别装置。本发明实施例中，終端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，在数据库中查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的文本或符号信息，提高了終端设备输入信息的便捷性。专业人员应该还可以进ー步意识到，结合本文中所公开的实施例描述的各示例的単元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互換性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。以上所述的具体实施方式
，对本发明的目的、技术方案和有益效果进行了进ー步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式
而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种信息的识别方法，其特征在于，所述方法包括采集视频数据，在所述视频数据中提取图像帧；将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每ー个分区的特征值；根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息；根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息；显示所述检索文本和/或符号信息。
2.如权利要求I所述的信息的识别方法，其特征在于，所述采集视频，在所述视频中提取多帧图像之前还包括接收用户的操作指令，将终端置为信息输入状态。
3.如权利要求I或2所述的信息的识别方法，其特征在于，所述查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息具体为在本地数据库或网络服务器中查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。
4.如权利要求1-3任一项所述的信息的识别方法，其特征在于，所述显示所述检索文本和/或符号信息之后还包括接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。
5.如权利要求1-4任一项所述的信息的识别方法，其特征在于，所述将所述图像帧划分多个分区具体为识别所述图像帧中的人脸区域；将所述图像帧中的所述人脸区域划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。
6.如权利要求1-5任一项所述的信息的识别方法，其特征在于，所述计算所述分区标识信息对应的分区的多个特征值的变化信息具体为根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化量；或根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化率。
7.一种信息的识别装置，其特征在于，所述装置包括采集单元，用于采集视频数据，在所述视频数据中提取图像帧；提取单元，用于将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每ー个分区的特征值；计算单元，用于根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息；查询单元，用于根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息；显示单元，用于显示所述检索文本和/或符号信息。
8.如权利要求7所述的信息的识别装置，其特征在于，所述装置还包括设置单元，用于接收用户的操作指令，将所述装置设置为信息输入状态。
9.如权利要求7或8所述的信息的识别装置，其特征在于，所述查询単元具体用于在本地数据库或网络服务器中查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。
10.如权利要求7-9任一项所述的信息的识别装置，其特征在于，所述装置还包括处理单元，用于接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。
11.如权利要求7-10任一项所述的信息的识别装置，其特征在于，所述提取単元具体用于识别所述图像帧中的人脸区域；将所述图像帧中的所述人脸区域划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。
12.如权利要求7-11任一项所述的信息的识别装置，其特征在于，所述计算単元具体用于根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化量；或根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化率。
13.—种终端，其特征在于，包括如权利要求7至12任一项所述的信息识别装置。
全文摘要
本发明涉及一种信息的识别方法、装置及终端。该方法包括采集视频数据，在视频数据中提取图像帧；将图像帧划分多个分区，用分区标识信息标识分区，提取并保存图像帧的每一个分区的特征值；根据分区标识信息，计算分区标识信息对应的分区的多个特征值的变化信息；根据分区标识信息，在数据库中查询分区标识信息对应的分区的多个特征值和多个特征值的变化信息对应的检索文本和/或符号信息；将检索文本和/或符号信息输出。本发明提供了一种新的信息识别方法，实现了终端将用户面部的动作识别为文本或符号信息，并将文本或符号信息输入到指定的输入位置。
文档编号G06F3/01GK102693008SQ20121014867
公开日2012年9月26日申请日期2012年5月14日优先权日2012年5月14日
发明者刘春林申请人:华为终端有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘春林
技术所有人：华为终端有限公司
我是此专利的发明人

上一篇：一种运行hdmi显示初始化代码的方法
上一篇：一种基于分布式密文存储的全文检索方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。