增强现实方法、终端设备及计算机可读存储介质与流程

文档序号：15159349发布日期：2018-08-14 09:47阅读：143来源：国知局

本发明涉及计算机视觉技术领域，特别涉及一种增强现实方法、终端设备及计算机可读存储介质。

背景技术：

随着计算机通信技术、互联网技术以及多媒体技术的发展，智能电视的配置和性能越来越好，并且为了迎合用户需求，还具备了上网功能，方便用户获得网络上的视频资源进行观看。为了使用户在观看视频资源中能够有更好的视觉效果，如在观看视频的过程中加入某些特效，进而提升用户观看体验，具备ar(增强现实，augmentedreality)功能的智能电视应运而生。

ar技术，作为一种将真实世界信息和虚拟世界信息“无缝”集成的新技术，是把原本在现实世界中一定时间、空间范围内很难体验到的实体信息，如视觉、声音、味道、触觉等信息，通过计算机等科学技术，将虚拟的信息应用到真实世界，被人类感官所感知。具体是把真实的环境和虚拟的物体实时地叠加到同一个画面或空间，使两者同时存在，从而达到超越现实的感官体验，进而提升用户观看体验。

但是，发明人发现现有技术中至少存在如下问题：现有具备ar功能的智能电视的视频观看方式基本不具备交互功能，用户在观看视频的过程中，只能被动的接收视频播放信息，不能够充分的参与到视频应用中，使得用户的个性化需求难以得到满足。

技术实现要素：

本发明的目的在于提供一种增强现实方法、终端设备及计算机可读存储介质，能够使用户参与到视频应用中，使观影过程更具互动性和趣味性。

为解决上述技术问题，本发明的实施方式提供了一种增强现实方法，在播放网络流媒体的过程中，接收用户发送的增强现实观看请求；根据增强现实观看请求，获取需要叠加的增强现实的渲染模型，并确定需要进行增强现实的对象；从网络流媒体中实时提取图像数据，确定对象在图像数据中的实时动态信息；根据对象在图像数据中的实时动态信息，在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面。

本发明的实施方式还提供了一种终端设备，至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本发明任意实施方式中涉及的增强现实方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，且计算机程序被处理器执行时能够实现本发明任意实施方式中涉及的增强现实方法。

本发明实施方式相对于现有技术而言，在播放网络流媒体的过程中，根据接收到的增强现实观看请求，确定需要进行增强现实的对象，在确定该对象在从网络流媒体中实时提取的图像数据中的实时动态信息后，根据确定的实时动态信息，在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面。利用这种方式，使得用户在观看播放的网络流媒体时，能够随时进行增强现实操作，并且能够根据个人喜好决定需要进行增强现实的对象以及需要叠加的增强现实的渲染模型，从而使得观影过程更具互动性和趣味性。

另外，需要进行增强现实的对象为人；从网络流媒体中实时提取图像数据，确定对象在图像数据中的实时动态信息，具体包括：以帧为单位从网络流媒体中实时提取图像数据；对每一帧图像数据进行人脸检测，确定对象的人脸在图像数据中的实时动态信息。在需要进行增强现实的对象为人时，通过对每一帧图像数据进行人脸检测，从而能够准确的确定对象的人脸在图像数据中的实时动态信息，使得增强现实的渲染模型能够准确的叠加在需要进行增强现实的对象上，保证增强现实的效果。

另外，对每一帧图像数据进行人脸检测，确定对象的人脸在图像数据中的实时动态信息，具体包括：根据预存的人脸检测模型，对每一帧图像数据进行人脸检测，得到图像数据中所有人脸在图像数据中的实时动态信息；其中，人脸检测模型为：基于卷积神经网络算法对人脸样本数据进行卷积神经网络训练获得；根据预存的人脸特征提取模型，对图像数据中的所有人脸进行人脸特征提取；其中，人脸特征提取模型根据人脸样本数据中的人脸特征训练获得；将提取到的人脸特征与预设的对象的人脸特征进行匹配，确定对象的人脸及对象的人脸在图像数据中的实时动态信息。

另外，在播放网络流媒体之前，增强现实方法还包括：确定人脸特征提取模型；确定人脸特征提取模型，具体包括：根据人脸样本数据中的人脸特征构建训练模型；将训练模型中尺寸为5×5的卷积核拆分为两个尺寸为3×3的卷积核；基于卷积神经网络算法，对训练模型进行训练，得到人脸特征提取模型。在确定人脸特征提取模型的过程中，通过将训练模型中尺寸为5×5的卷积核拆分为两个尺寸为3×3的卷积核，然后基于拆分后的训练模型进行训练，增加了训练模型的网络深度，使得训练出的人脸特征提取模型的提取精度能够大大提高。

另外，根据人脸样本数据中的人脸特征构建训练模型之前，增强现实方法还包括：对人脸样本数据进行归一化处理。通过对人脸样本数据进行归一化处理，加速了后续训练过程中人脸特征提取模型的收敛速度，并且在一定程度上提升了人脸特征提取模型的泛化能力。

另外，将提取到的人脸特征与预设的对象的人脸特征进行匹配，确定对象的人脸，具体包括：将提取到的人脸特征与人脸样本数据中的人脸特征进行逐一匹配，并基于余弦函数得到余弦相似度；将余弦相似度与预设的相似度阈值进行比较，若余弦相似度大于相似度阈值，确定人脸特征对应的人脸为对象的人脸。通过利用余弦相似度进行人脸匹配，确定对象的人脸，大大降低了匹配过程中计算的复杂度，从而提高了匹配速度。

另外，人脸检测模型为实时目标检测模型。该方式中，人脸检测模型为实时目标检测模型，能够更好的满足对图像数据的检测处理，并且不影响用户观看视频。

另外，在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面之后，增强现实方法还包括：获取并显示对象的身份信息，从而方便了用户获知对象的身份信息，提升了用户体验。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明第一实施方式的增强现实方法的流程图；

图2是本发明第二实施方式的增强现实方法的流程图；

图3是本发明第三实施方式的增强现实方法的流程图；

图4是本发明第四实施方式的终端设备的方框示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明各权利要求所要求保护的技术方案。

本发明的第一实施方式涉及一种增强现实方法。在本实施方式中，播放网络流媒体的可以是智能电视机、手机、平板电脑等终端设备，播放的网络流媒体可以是各种视频文件，如一部电影、一部电视剧等，增强现实方法的具体实现流程如图1所示。

在步骤101中，接收用户发送的增强现实观看请求。

在步骤102中，获取需要叠加的增强现实的渲染模型。

在步骤103中，确定需要进行增强现实的对象。

在步骤104中，从网络流媒体中实时提取图像数据，确定对象在图像数据中的实时动态信息。

在步骤105中，在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面。

通过上述流程不难发现，本实施方式中的增强现实方法，具体是在播放网络流媒体的过程中，接收用户发送的增强现实观看请求，获取需要叠加的增强现实的渲染模型，根据增强现实观看请求，确定需要进行增强现实的对象，从网络流媒体中实时提取图像数据，确定对象在图像数据中的实时动态信息，根据对象在图像数据中的实时动态信息，在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面。

其中，实时动态信息包括位置及大小等基础信息，在本发明的其他实施方式中，为了更智能的对增强现实观看请求中的对象进行渲染模型的叠加，实时动态信息中还包含对象状态这一信息，以便更准确的对渲染模型进行叠加设置，以请求对象是人脸为例，当确定了人脸的位置及大小之后，再根据人脸的实时状态，例如正脸或侧脸来进行渲染模型的叠加。

需要说明的是，在本实施方式中，需要叠加的增强现实的渲染模型为二维或三维的动态虚拟模型，如一片海洋、一只飞舞的蝴蝶等。

另外，为了方便用户使用，需要叠加的增强现实的渲染模型可以由用户进行管理，比如用户可以根据个人喜欢预先从网络上下载符合要求的渲染模型，并可以根据个人喜好删除、更新本地的渲染模型等，使得用户能够自由定制要达到的增强现实的特效。

为了便于理解，以下进行举例说明：

比如说，在使用智能电视机播放视频的过程中，如果用户需要对当前播放的视频进行增强现实，则可以通过提供的遥控设备(如遥控器)，在智能电视机的界面调出增强现实的功能菜单，同时在该菜单中选择要进行增强现实的对象以及需要叠加的增强现实的渲染模型。

另外，需要说明的是，在本实施方式中，选择需要进行增强现实的对象的具体操作，具体可以是通过遥控器上的方向键，移动界面上的箭头选中当前画面中的某一个或几个对象，比如房子、动物等。

在完成上述操作后，智能电视机会根据用户发送的增强现实观看请求中携带的信息，从本地或者网络中获取用户选择的渲染模型，以及确定需要进行增强现实的对象。

在确定需要进行增强现实的对象后，从网络流媒体中实时提取图像数据，确定该对象在图像数据中的实时动态信息，从而可以根据确定的对象在图像数据中的实时动态信息，在播放过程中，在图像数据上实时叠加获取的增强现实的渲染模型，从而得到用户想要的增强现实效果。

需要说明的是，以上仅为举例说明，并不对本发明的保护范围构成限定。在实际应用中，用户可以在观看视频的过程中，随时发起增强观看请求，增强观看请求的发起、渲染模型以及增强现实对象的选择，可以由本领域的技术人员根据终端设备的使用人群、场合进行设置，此次不做限制。

与现有技术相比，本实施方式中提供的增强现实方法，使得用户在观看播放的网络流媒体时，能够随时进行增强现实操作，并且能够根据个人喜好决定需要进行增强现实的对象以及需要叠加的增强现实的渲染模型，从而使得观影过程更具互动性和趣味性。

本发明的第二实施方式涉及一种增强现实方法。本实施方式在第一实施方式的基础上做了进一步改进，主要改进之处为：在需要进行增强现实的对象为人时，以帧为单位从网络流媒体中实时提取图像数据，并对每一帧图像数据进行人脸检测，确定对象的人脸在图像数据中的实时动态信息，其中实时动态信息包括位置及大小等基础信息，在本发明的其他实施方式中，为了更智能的对增强现实观看请求中的对象进行渲染模型的叠加，实时动态信息中还包含对象状态这一信息。本实施方式中提供的增强现实方法的具体流程如图2所示。

具体的说，在本实施方式中，包含步骤201至步骤208，其中，步骤201至步骤203分别与第一实施方式中的步骤101至步骤103大致相同，步骤208与第一实施方式中的步骤105大致相同，此处不再赘述，下面主要介绍不同之处：

在步骤204中，以帧为单位从网络流媒体中实时提取图像数据。

具体的说，本实施方式中，在确定需要进行增强现实的对象在图像数据中的实时位置时，通过以帧为单位从网络流媒体中实时提取图像数据，使得确定实时动态信息更加准确。

在步骤205中，根据预存的人脸检测模型，得到图像数据中所有人脸在图像数据中的实时动态信息。

具体的说，在本实施方式中，确定对象的人脸在图像数据中的实时动态信息的操作，需要根据预存的人脸检测模型，对每一帧图像数据进行人脸检测。

另外，从网络流媒体中提取的每一帧图像数据中，往往会存在不止一个对象，如一部电影的某一画面中会存在多个演员。为了能够准确为用户选择的对象实现显示增强的效果，在根据预存的人脸检测模型，确定用户选择的对象的人脸在图像数据中的实时动态信息时，需要先获得当前图像数据中所有人脸在图像数据中的实时动态信息，然后针对所有的人脸进行人脸特征提取，即进入步骤206的操作。

需要说明的是，本实施方式中的人脸检测模型为：基于卷积神经网络算法对人脸样本数据进行卷积神经网络训练获得。

关于卷积神经网络，本领域的技术人员可以知晓，其在机器学习中，是一种深度前馈人工神经网络，能够较为准确的识别图像中的信息。因此，通过对人脸样本数据(如预先从网络下载，或者拍摄录入的人脸图像)进行卷积神经网络训练，从而得到一个能够准确识别出图像中的人脸检测模型。

另外，值得一提的是，在本实施方式中采用的人脸检测模型具体是采用caffe(卷积神经网络框架，convolutionalarchitectureforfastfeatureembedding)搭建，然后基于卷积神经网络算法训练获得。由于caffe是一个清晰、可读性高、快速的深度学习框架，因此，基于caffe来训练获得人脸检测模型，能够大大提高运行速度，并且能够大大减小训练所得的人脸检测模型的大小，使得训练所得的人脸检测模型为实时目标检测模。

另外，为了提升人脸检测速度，本实施方式中的人脸检测模型具体是采用现有人脸数据较为丰富的人脸识别数据库对实时快速目标检测(yolo)神经网络模型进行卷积神经网络训练得到。

进一步的，为了保证训练获得的人脸检测模型能够更加精准，可以采用yolo的升级版本yolov2神经网络模型进行卷积神经网络训练得到。

为了便于理解人脸检测模型的训练，以下进行举例说明：

编写脚本将人脸样本数据集转成yolo可识别格式，配置yolo的三个主要文件myobj.data(用于存储转换为yolo可识别格式的人脸样本数据)、myobj.name(用于存储每个人脸样本数据对应的名称)、myobj.cfg(用于存储训练过程中所需的相关参数)，在yolo官网下载权值文件然后运行命令开始训练，观察avg(每次训练结果的平均值)这个值的变化，如果这个值基本不再变小，那么训练就可以停止了，此时就得到一个可以进行人脸检测的人脸检测模型。

需要说明的是，以上仅为举例说明，并不对本发明的保护范围构成限定。在实际应用中，本领域的技术人员可以根据其熟知的计算机视觉、图像处理方法训练获得本发明实施方式所需的神经网络模型，此处不做限制。

在步骤206中，根据预存的人脸特征提取模型，对图像数据中的所有人脸进行人脸特征提取。

具体的说，在进行人脸特征提取时，具体是根据预存的人脸特征提取模型，对图像数据中的所有人脸进行人脸特征提取。

另外，本实施方式中的人脸特征提取模型根据人脸样本数据中的人脸特征训练获得。

在本实施方式中，为了增加了训练模型的网络深度，使得训练出的人脸特征提取模型的提取精度能够大大提高，人脸特征提取模型具体采用以下方式训练获得，具体如下：

根据人脸样本数据中的人脸特征构建训练模型，将训练模型中尺寸为5×5的卷积核拆分为两个尺寸为3×3的卷积核，基于卷积神经网络算法，对训练模型进行训练，得到人脸特征提取模型。

需要说明的是，本实施方式中的人脸特征提取模型，也是一种卷积神经网络模型，该人脸特征提取模型主要由卷积层、池化层和全连接层构成，其中卷积层和池化层的组合可以出现多次，全连接层位于池化层后，作为整个模型的输出层。

另外，本实施方式中所说的人脸特征，具体采用人脸特征提取模型中输出层中节点的输出作为人脸特征，该人脸特征可以是由脸部的各个特征点构成的，如眼睛、鼻尖、嘴角点、眉毛以及脸部其他部件的轮廓点。

另外，需要说明的是，在实际应用中，全连接层可以有两个，如果全连接层为两个，则输出层为第二全连接层，具体的本领域的技术人员可以根据需要设置，此处不做限制。

另外，值得一提的是，为了加速后续训练过程中，人脸特征提取模型的收敛速度，并且在一定程度上提升人脸特征提取模型的泛化能力(机器学习算法对新鲜样本的适应能力)，本实施方式中使用的人脸特征提取模型，在根据人脸样本数据中的人脸特征训练进行训练之前，对人脸样本数据进行了归一化处理，从而大大缩小了训练过程中每层卷积层中卷积核以及作为输出层的全连接层中的节点数，简化了训练过程中的各种计算。

在步骤207中，对提取到的人脸特征进行人脸特征匹配操作，确定对象的人脸及对象的人脸在图像数据中的实时动态信息。

具体的说，本实施方式中，通过将提取到的人脸特征与人脸样本数据中的人脸特征进行逐一匹配，并基于余弦函数，得到余弦相似度。

进一步的，通过将余弦相似度与预设的相似度阈值进行比较，若余弦相似度大于相似度阈值，则确定人脸特征对应的人脸为对象的人脸。

另外，需要说明的是，在根据对象的人脸在图像数据中的实时动态信息，在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面中，本实施方式具体是采用opengl(开发图形库，opengraphicslibrary)的三维图形api(应用程序编程接口，applicationprogramminginterface)的子集opengles(openglforembeddedsystems)对需要叠加的增强现实的渲染模型，如二维或三维动态虚拟模型进行渲染，根据人脸关键点确定人脸朝向从而调整渲染模型的三维位置。

调整渲染模型的三维位置的操作，具体可以是：在得到人脸朝向的方位角后，以该方位角对渲染模型的位置绕y轴旋转，通过对投影矩阵旋转得到三维物体在二维平面上的坐标位置，再对贴纸进行渲染，从而得到具有立体感的增强现实的画面。

另外，为了进一步方便用户，提升用户体验，本实施方式中采用的人脸检测模型、人脸特征提取模型以及人脸样本数据等，均可以由用户根据个人喜好进行下载和删除，从而使得用户可自由定制要进行增强现实的视频文件及达到的增强现实效果。

通过上述描述不难发现，与现有技术相比，本实施方式中提供的增强现实方法，通过以帧为单位从网络流媒体中实时提取图像数据，并根据预存的人脸检测模型，对每一帧图像数据进行人脸检测，得到图像数据中所有人脸在图像数据中的实时动态信息，根据预存的人脸特征提取模型，对图像数据中的所有人脸进行人脸特征提取，最终对提取到的人脸特征进行人脸特征匹配操作，确定对象的人脸及对象的人脸在图像数据中的实时动态信息，从而在用户选择的需要进行增强现实的对象为某一个特定人时，能够精确的确定该对象的人脸及对象的人脸在图像数据中的实时动态信息，进一步提升用户体验。

另外，需要说明的是，由于本实施方式提供的增强现实方法，主要是针对智能电视机播放的视频，例如电视剧、电影等进行增强现实操作，而电视剧、电影是事先制作好的，里面的角色都是事先知道的，因此可以对电视剧、电影等视频中涉及到的演员的人脸数据进行神经网络的训练，从而得到可以识别人脸的人脸检测模型，实现对视频中人物的增强现实操作。

另外，由于每一部电视剧或者电影的主要演员固定而且人数不多，因此有针对性的进行训练，得到每一部电视剧或者电影的神经网络模型较小，运算复杂度较低，因此不会影响播放视频的流畅性。

本发明的第三实施方式涉及一种增强现实方法。本实施方式在第二实施方式的基础上做了进一步改进，具体改进之处为：在图像数据上实时叠加增强现实的渲染模型，得到增强现实的画面之后，还会进一步获取并显示对象的身份信息，具体流程如图3所示。

具体的说，在本实施方式中，包含步骤301至步骤309，其中，步骤301至步骤308分别与第二实施方式中的步骤201至步骤208大致相同，此处不再赘述，下面主要介绍不同之处：

在步骤309中，获取并显示对象的身份信息。

具体的说，本实施方式中所说的网络流媒体具体可以是一部电影或一部电视剧，因此，确定的需要进行增强现实的对象通常会是其中的一个演员。而大部分演员的信息是可以通过网络搜索到的，因而获取对象身份信息，即某个演员的身份信息的方式具体可以通过网络在线获取，比如根据提取到的演员的人脸特征，通过互联网搜索，得到该演员的身份信息，如姓名、年龄及出演过的作品等相关简介。

另外，不论是电影还是电视剧，其中的演员数量都是有限的。因此，在用户观看该影片时，可以将该影片中相关演员的身份信息缓存到终端设备本地，在用户需要对某一演员在进行增强现实，并且显示其身份信息时，根据相关人脸特征从本地获取与之对应的身份信息进行显示。

需要说明的是，以上仅为举例说明，并不对本发明的保护范围构成限定。在实际应用中，上述功能可以根据用户需要选择，比如提供给用户可以操作的界面，由用户决定是否需要在进行增强现实后，显示增强现实对象的身份信息，具体的实现方式，此处不做限制。

与现有技术相比，本实施方式中提供的增强现实方法，在得到增强现实的画面之后，通过获取并在界面上显示进行增强显示的对象的身份信息，方便了用户获知对象的身份信息，提升了用户体验。

本发明的第四实施方式涉及一种终端设备，具体结构如图4所示。

该终端设备包括一个或多个处理器401以及存储器402，图4中以一个处理器401为例。

在本实施方式中，处理器401和存储器402可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器402作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意方法实施方式中涉及的增强现实方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现本发明任意方法实施方式中涉及的增强现实方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储各种人脸样本数据以及训练好的各种模型，如卷积神经网络模型、人脸特征特权模型等。此外，存储器402可以包括高速随机存取存储器，还可以包括存储器，例如至少一个磁盘存储器件、闪存器件、或其他固态存储器件。在一些实施方式中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

在实际应用中，存储器402中可以存储至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行本发明任意方法实施方式涉及的增强现实方法，实现增强现实，未在本实施方式中详尽描述的技术细节，可参见本发明实施方式所提供的增强现实方法。

本发明的第五实施方式涉及一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，该计算机指令使计算机能够执行本发明任意方法实施方式中涉及的增强现实方法。本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分流程，是可以通过计算机程序来指令相关的硬件完成，在实际应用中存储在计算机可读存储介质中的计算机程序可包括上述任意方法实施方式的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏泽荫
技术所有人：网宿科技股份有限公司
我是此专利的发明人

上一篇：一种隧道施工自动监测系统的制作方法
上一篇：一种基于新风控制的空气质量预报系统及其方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。