信息处理方法、信息处理系统和信息处理装置的制造方法_4

文档序号：8905456阅读：来源：国知局

用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成单元/模块并且实现该单元/模块的规定目的。
[0070]在单元/模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的单元/模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
[0071]在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本公开的范围内。
【主权项】
1.一种信息处理方法，包括: 采集包括被摄者的唇部动作的视频；识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示所述识别信息。2.如权利要求1所述的信息处理方法，其中，所述识别信息为文本形式的信息，并且，识别所述视频以生成所述识别信息的步骤包括: 识别所述视频，以生成文本形式的初步信息；以及基于预定语言模型对所述初步信息进行修改，以生成所述识别信息。3.如权利要求1所述的信息处理方法，其中，识别所述视频的步骤包括: 对于所述视频的每一帧图像，提取所述图像中表示唇部的结构信息的关键点集；跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征；以及基于所述关键特征识别所述视频，以生成所述识别信息。4.如权利要求3所述的信息处理方法，其中，基于所述关键特征识别所述视频以生成所述识别信息的步骤包括: 基于所述关键特征，使用预先训练的神经网络来生成所述识别信息。5.如权利要求3所述的信息处理方法，其中，提取所述图像中表示唇部的结构信息的关键点集的步骤包括: 通过基于级联回归的方法、基于神经网络的方法、基于支持向量机的方法中的至少一个，提取所述关键点集。6.如权利要求4所述的信息处理方法，其中，所述神经网络预先通过以下步骤而进行训练: 获取训练视频集以及相关联的训练目标集，所述训练视频集中的每个训练视频包含唇部动作，所述训练目标集中的每个训练目标表示相关联的训练视频中的唇部动作所表达的含义；对于每个训练视频的每一帧图像，提取表示唇部的结构信息的训练关键点集；跟踪所述训练关键点集中的每一训练关键点在所述训练视频的各帧图像之间的位置的变化，以得到表示唇部动作的训练关键特征；以及将每个训练视频的所述训练关键特征作为待训练的神经网络的输入，将与每个训练视频相关联的训练目标作为所述神经网络的输出，训练所述神经网络。7.如权利要求4所述的信息处理方法，其中，所述神经网络包括输入层、卷积层、反馈层、全连接层和输出层，并且，基于所述关键特征使用预先训练的神经网络来生成所述识别信息包括: 将作为特征向量序列的所述关键特征输入所述输入层；通过所述卷积层，从所述特征向量序列提取卷积层特征；通过所述反馈层，结合所述视频的前一帧反馈层特征和后一帧反馈层特征，从所述卷积层特征提取当前帧的反馈层特征；通过所述全连接层，对所述当前帧的反馈层特征进行抽象处理，以生成所述识别信息；以及通过所述输出层输出所述识别信息。8.一种信息处理系统，包括: 视频采集单元，采集包括被摄者的唇部动作的视频；处理单元，识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示单元，显示所述识别信息。9.如权利要求8所述的信息处理系统，其中，所述识别信息为文本形式的信息，并且，所述处理单元包括: 识别单元，识别所述视频，以生成文本形式的初步信息；以及生成单元，基于预定语言模型对所述初步信息进行修改，以生成所述识别信息。10.如权利要求8所述的信息处理系统，其中，所述处理单元包括: 提取单元，对于所述视频的每一帧图像，提取所述图像中表示唇部的结构信息的关键点集；跟踪单元，跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征；以及生成单元，基于所述关键特征识别所述视频，以生成所述识别信息。11.如权利要求10所述的信息处理系统，其中，所述生成单元配置为: 基于所述关键特征，使用预先训练的神经网络来生成所述识别信息。12.如权利要求10所述的信息处理系统，其中，所述提取单元配置为: 通过基于级联回归的方法、基于神经网络的方法、基于支持向量机的方法中的至少一个，提取所述关键点集。13.如权利要求11所述的信息处理系统，还包括: 获取单元，获取训练视频集以及相关联的训练目标集，所述训练视频集中的每个训练视频包含唇部动作，所述训练目标集中的每个训练目标表示相关联的训练视频中的唇部动作所表达的含义；训练关键点提取单元，对于每个训练视频的每一帧图像，提取表示唇部的结构信息的训练关键点集；训练关键点跟踪单兀，跟踪所述训练关键点集中的每一训练关键点在所述训练视频的各帧图像之间的位置的变化，以得到表示唇部动作的训练关键特征；以及训练单元，将每个训练视频的所述训练关键特征作为待训练的神经网络的输入，将与每个训练视频相关联的训练目标作为所述神经网络的输出，训练所述神经网络。14.如权利要求11所述的信息处理系统，其中，所述神经网络包括输入层、卷积层、反馈层、全连接层和输出层，并且，所述生成单元配置为: 将作为特征向量序列的所述关键特征输入所述输入层；通过所述卷积层，从所述特征向量序列提取卷积层特征；通过所述反馈层，结合所述视频的前一帧反馈层特征和后一帧反馈层特征，从所述卷积层特征提取当前帧的反馈层特征；通过所述全连接层，对所述当前帧的反馈层特征进行抽象处理，以生成所述识别信息；以及通过所述输出层输出所述识别信息。15.一种信息处理装置，包括: 视频采集单元，采集包括被摄者的唇部动作的视频；发送单元，将所述视频发送至与所述信息处理装置可通信地连接的计算机；接收单元，从所述计算机接收与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示单元，显示所述识别信息。16.如权利要求15所述的信息处理装置，其中，所述计算机识别所述视频，以生成所述识别信息。
【专利摘要】本公开提供了一种信息处理方法、系统和装置，所述信息处理方法包括：采集包括被摄者的唇部动作的视频；识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示所述识别信息。
【IPC分类】G06K9/00
【公开号】CN104881647
【申请号】CN201510278162
【发明人】张弛
【申请人】北京旷视科技有限公司, 北京小孔科技有限公司
【公开日】2015年9月2日
【申请日】2015年5月27日

完整全部详细技术资料下载

当前第4页1 2 3 4