视频数据采集方法、视频创作方法及相关产品与流程

文档序号:27146104发布日期:2021-10-30 01:37阅读:298来源:国知局
视频数据采集方法、视频创作方法及相关产品与流程

1.本技术涉及视频处理技术领域,具体涉及一种视频数据采集方法、视频创作方法及相关产品。


背景技术:

2.近年来,随着移动互联的高度普及,人们的娱乐需求也在不断提升,由最初的简单拍照,美颜拍照,后来的短视频,直播等各种二维形态慢慢融入新的元素。目前市面上的视频编辑或视频创作工具还处于二维处理层面,增强现实的真实感较差。


技术实现要素:

3.本技术实施例提供一种视频数据采集方法、视频创作方法及相关产品,提高视频增强现实的处理效果。
4.本技术实施例的第一方面提供了一种视频数据采集方法,包括:
5.采集原始视频的至少一帧图像的图像数据和位姿数据;
6.根据所述图像数据和所述位姿数据计算目标增强现实ar数据;所述目标ar数据包括平面数据、锚点数据、网格数据中的至少一种;所述目标ar数据用于视频增强现实创作。
7.本技术实施例在视频数据采集时,根据采集的原始视频的至少一帧图像的图像数据和位姿数据计算用于视频增强现实创作的目标ar数据,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
8.可选的,所述根据所述图像数据和所述位姿数据计算目标增强现实ar数据,包括:
9.根据所述图像数据和所述位姿数据计算初始ar数据;
10.根据所述初始ar数据的质量得分对所述初始ar数据进行过滤,保留质量得分大于设定阈值的所述目标ar数据。
11.本技术实施例可以通过初始ar数据的质量得分对初始ar数据进行过滤,使得过滤后的目标ar数据的可靠性大大增强,在可靠的目标ar数据上进行视频创作,从而降低出现视频创作的效果失真的概率。
12.可选的,所述根据所述图像数据和所述位姿数据计算增强现实目标ar数据之后,所述方法还包括:
13.利用所述目标ar数据在所述原始视频中添加三维素材,得到增强现实视频。
14.其中,可以在采集图像数据和位姿数据后,利用目标ar数据在原始视频中添加三维素材,得到增强现实视频,使得添加的加三维素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
15.可选的,所述方法还包括:
16.确定视频分类数据,所述视频分类数据包括视频语音关键词、视频文字数据和视频场景数据中的任一种;
17.所述根据所述图像数据和所述位姿数据计算目标增强现实ar数据之后,所述方法还包括:
18.对所述图像数据、所述目标ar数据和所述至少一帧图像的深度数据进行编码,或者对所述图像数据、所述目标ar数据、所述至少一帧图像的深度数据和所述视频分类数据进行编码,得到编码后的视频文件或视频流数据;
19.将所述编码后的视频文件或视频流数据上传至服务器。
20.其中,视频分类数据可以作为后续添加三维素材时的参考,避免添加的三维素材的主题与视频内容格格不入,提高视频融合效果。将编码后的视频流数据上传至服务器,服务器可以将视频流数据推送到视频播放客户端进行视频编辑和视频播放,便于后续的视频编辑和视频播放。
21.可选的,所述深度数据根据所述图像数据和所述位姿数据计算得到;或者,所述深度数据通过深度摄像头采集的初始深度信息和所述图像数据计算得到,或者所述深度数据通过双目摄像头采集的双目图像计算得到。
22.本技术实施例的第二方面提供了一种视频创作方法,包括:
23.获取视频文件或视频流数据;
24.对所述视频文件或视频流数据进行解码,得到每一帧图像的图像数据、目标增强现实ar数据和深度数据;
25.利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,将所述三维素材与所述图像数据融合处理,得到增强现实视频。
26.在视频创作时,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
27.可选的,所述目标ar数据包括平面数据和锚点数据,所述利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,包括:
28.根据所述深度数据确定每一帧图像的三维空间坐标,根据所述平面数据确定每一帧图像的可添加素材的平面,根据所述锚点数据和所述三维空间坐标确定每一帧图像中可添加素材的三维锚点坐标和素材朝向;
29.根据所述可添加素材的平面的尺寸和所述三维锚点坐标确定所述可添加素材的尺寸,根据所述可添加素材的尺寸选择三维素材;
30.按照所述素材朝向将所述三维素材添加在所述三维锚点坐标上。
31.可选的,所述目标ar数据还包括网格数据,所述目标ar数据还包括网格数据,所述将所述三维素材与所述图像数据融合处理之前,所述方法还包括:
32.根据所述网格数据和所述三维空间坐标确定每一帧图像的三维网格,根据所述三维素材与所述三维网格执行碰撞检测,得到碰撞检测结果;
33.所述将所述三维素材与所述图像数据融合处理,包括:
34.根据所述碰撞检测结果将所述三维素材与所述图像数据融合处理。
35.电子设备可以根据三维素材与三维网格执行碰撞检测,得到碰撞检测结果,碰撞检测结果可以用在后续的三维素材与图像数据融合处理中,从而避免三维素材与三维网格发生重合,避免出现三维素材嵌入三维网格的视觉感受,从而提高增强现实视频的显示效果。其中,当三维素材处于运动状态时,三维素材的三维坐标与三维网格的坐标有重合时,即可判断三维素材与三维网格接触,检测到二者发生碰撞,碰撞后可以根据三维素材的运动方向模拟三维素材碰撞后的轨迹。根据三维素材与三维网格执行碰撞检测,可以避免三维素材与三维网格发生重合,避免出现三维素材嵌入三维网格的视觉感受,从而提高增强现实视频的显示效果。
36.可选的,所述对所述视频文件或视频流数据进行解码,得到每一帧图像的图像数据、目标ar数据和深度数据之后,所述利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,将所述三维素材与所述图像数据融合处理,得到增强现实视频之前,所述方法还包括:
37.获取视频分类数据;
38.从素材库中选择与所述视频分类数据对应的所述三维素材。
39.视频分类数据可以作为添加三维素材时的参考,避免添加的三维素材的主题与视频内容格格不入,提高视频融合效果。
40.可选的,所述利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,将所述三维素材与所述图像数据融合处理,得到增强现实视频之后,所述方法还包括:
41.根据播放者的用户画像确定所述增强现实视频的虚拟场景渲染效果;
42.使用所述虚拟场景渲染效果,对所述增强现实视频进行渲染。
43.不同的用户画像可以匹配对应的渲染效果,做到千人千面的视频体验。
44.可选的,所述三维素材包括三维视频或三维图片。
45.本技术实施例的第三方面提供了一种视频数据采集装置,包括:
46.采集单元,用于采集原始视频的至少一帧图像的图像数据和位姿数据;
47.计算单元,用于根据所述图像数据和所述位姿数据计算目标增强现实ar数据;所述目标ar数据包括平面数据、锚点数据、网格数据中的至少一种;所述目标ar数据用于视频增强现实创作。
48.本技术实施例的第四方面提供了一种视频创作装置,包括:
49.获取单元,用于获取视频文件或视频流数据;
50.解码单元,用于对所述视频文件或视频流数据进行解码,得到每一帧图像的图像数据、目标增强现实ar数据和深度数据;
51.视频处理单元,用于利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,将所述三维素材与所述图像数据融合处理,得到增强现实视频。
52.本技术实施例的第五方面提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本技术实施例第一方面或第二方面中的步骤指令。
53.本技术实施例的第六方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本技术实施例第一方面或第二方中所描述的部分或全部步骤。
54.本技术实施例的第七方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本技术实施例第一方面或第二方中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
55.本技术实施例中,采集原始视频的至少一帧图像的图像数据和位姿数据;根据所述图像数据和所述位姿数据计算目标增强现实ar数据;所述目标ar数据包括平面数据、锚点数据、网格数据中的至少一种;所述目标ar数据用于视频增强现实创作。本技术实施例在视频数据采集时,根据采集的原始视频的至少一帧图像的图像数据和位姿数据计算用于视频增强现实创作的目标ar数据,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
附图说明
56.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
57.图1是本技术实施例提供的一种视频数据采集方法的流程示意图;
58.图2是本技术实施例提供的一种人脸网格的结构示意图;
59.图3是本技术实施例提供的一种网格的结构示意图;
60.图4是本技术实施例提供的另一种视频数据采集方法的流程示意图;
61.图5是本技术实施例提供的另一种视频创作的流程示意图;
62.图6为本技术实施例提供的一种视频数据采集装置的结构示意图;
63.图7为本技术实施例提供的一种视频创作装置的结构示意图;
64.图8是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
65.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
66.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
67.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相
同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
68.本技术实施例所涉及到的电子设备可以包括具有摄像头以及具有图像和视频处理能力的设备,比如,手机、平板电脑等。
69.请参阅图1,图1是本技术实施例提供的一种视频数据采集方法的流程示意图。如图1所示,该方法包括如下步骤。
70.101,电子设备采集原始视频的至少一帧图像的图像数据和位姿数据。
71.本技术实施例中,电子设备可以通过摄像头采集每一帧视频图像的图像数据,通过惯性测量单元(inertial measurement unit,imu)采集每一帧视频图像对应的位姿数据。每一帧视频图像,可以简称为每一帧图像。每一帧图像都可以包括图像数据和位姿数据。图像数据是每一帧图像的图像内容,比如,图像的像素的rgb值。位姿数据可以是imu采集的三个维度的位移和旋转的信息。imu可以测量电子设备的三轴姿态角、三轴加速度和三轴位移。在每一帧图像内,imu都可以测量与该帧视频图像对应的位姿数据。
72.102,电子设备根据图像数据和位姿数据计算目标增强现实ar数据,目标ar数据用于视频增强现实创作。
73.其中,目标ar数据包括平面数据、锚点数据、网格数据中的至少一种。
74.电子设备还可以根据图像数据和位姿数据确定每一帧图像的深度数据。其中,所述深度数据可以根据所述图像数据和所述位姿数据计算得到。可以通过一个可旋转的摄像头来测量深度数据。根据摄像头的旋转,摄像头就相当于取了两次图片,就是两个图片的一个视差,以及根据拍摄的摄像头的旋转,最终计算出的一个有效的深度。
75.本技术实施中的深度数据可以是:视频的每一帧图像中的像素点的深度信息。
76.可选的,在执行步骤102之后,还可以执行如下步骤:
77.电子设备利用所述目标ar数据在所述原始视频中添加三维素材,得到增强现实视频。
78.本技术实施例中,视频拍摄者拍摄了原始视频后,可以根据目标ar数据在原始视频中自动添加三维素材,得到增强现实视频。由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
79.在电子设备利用所述目标ar数据在所述原始视频中添加三维素材,得到增强现实视频之后,电子设备还可以播放增强现实视频。
80.可选的,所述深度数据还可以通过深度摄像头采集的初始深度信息和所述图像数据计算得到。深度摄像头可以获取每一帧图像上每个像素点的深度数据。深度数据可以精确的描述像素的深度,将每个像素点的深度转换为三维空间内精确的坐标。三维物体可以放在三维空间的任一个像素点上。
81.可选的,所述深度数据还可以通过双目摄像头采集的双目图像计算得到。具体的,两个摄像头同时取一帧图片,计算两个摄像头采集的图片的视差,以及两个摄像头之间的距离,最终计算出的一个有效的深度。
82.可选的,在计算每一帧图像上每个像素点的深度数据时,可以仅计算其中部分点的深度信息,比如,每隔三个像素或者五个像素找到一个点的深度信息,那中间的像素点的深度信息可以结合每一帧图像的rgb图像数据计算出来。
83.其中,确定每一帧图像的深度数据后,可以将每一帧图像的每个像素点的深度数据转换为三维空间内精确的坐标,即可得到每一帧图像的每个像素点在三维空间内的三维坐标。可以通过每一帧图像的每个像素点的深度数据将每一帧图像映射到三维空间。有了每一帧图像的每个像素点的在三维空间内的三维坐标后,可以便于后续计算平面数据、锚点数据、网格数据等。
84.平面数据是每一帧图像中存在的平面的物体的数据。举例来说,平面的物体可以包括图像中的桌子、墙面、地面、天花板等。平面的物体的数据可以包括平面的物体的尺寸、在图像中的坐标信息、在三维空间的三维坐标信息等。
85.锚点数据,可以是三维素材放置在每一帧图像上的位置。锚点可以设置在平面上,也可以设置在平面之上或者平面之下。比如,检测出来平面后,可以在平面的某一个位置打一个锚点,这个锚点是三维的点,以后放三维素材的时候,就可以将三维素材放在这个锚点上。将锚点设置在平面上,三维素材与平面有一种贴合感,使得插入的三维素材不会太突兀,三维素材与平面融合效果更好,三维效果更逼真。将锚点设置在平面上,会营造一种漂移的感觉。
86.锚点数据包括锚点的三维位置数据和三维法向量。锚点的三维位置数据用于表示锚点在三维空间内的坐标。锚点的三维法向量用于表示锚点的方向。法向量可以理解为放置在锚点的三维素材的朝向,比如说一个墙平面,在二维空间,在墙平面上打一点,这个点就在这里,没有三维信息。在三维空间,在墙平面上打一点,比如打在西面的墙上,法向量是朝东的,这个锚点就有一个方向信息,体现了三维立体感,使得后续添加的三维素材有更丰富的三维效果。
87.法向量和需要添加的三维素材的视觉效果有关。比如,图中有一面墙,视频创作者想在墙面上放一个三维物体,如果视频创作者想要三维物体完全和墙贴着,设置的法向量就应该是垂直于墙面的,假如视频创作者想让墙面裂开,设置的法向量就要往垂直方向偏移一些。锚点的三维位置数据决定加入的三维物体在哪里,法向量决定了这个三维物体怎么旋转。
88.网格数据,也可以称为mesh数据,类似于网格信息。请参阅图2,图2是本技术实施例提供的一种人脸网格的结构示意图。如图2,图中有很多的人脸特征点,将这些人脸特征点按照一定规律连接成三角形,人脸就相当于连成一片的信息,相当于mesh,这些连成一片的信息相当于给人脸上贴了一个面具。在三维空间里面,不考虑纹理信息(不考虑图像的rgb信息)的话,整个人或者物体都可以用mesh去描述。比如,视频创作者想要一个小球从一个不规则的物体上跑下来,就沿着图像中的mesh和这个小球做一个碰撞检测,这样就感觉小球在不规则的物体上滚动,就相当于沿着不规则物体的表层mesh在往前走。
89.图3中的平面可以相当于一个mesh,上面有很多的点。比如,一个球从平面上去滚动,其实最终就是将这个小球和底下的这一层mesh去做一个碰撞检测。球在三维空间滚动的时候,因为是三维空间,三维空间里面没有显示空间这些物理特性(在现实空间中,球在桌子上,就一定在桌子上,这是因为桌子给了球一个支撑力,所以球不会从桌子上掉下去)。
在计算机中,检测出一个平面了,就是一个网格,有一个三维小球,这个网格虽然是个平面,但是也可以理解为是个三维物体,将三维小球加入到视频中时,就给这个网格与三维小球做一个碰撞检测,碰撞检测就是网格与三维小球接触的时候,就认为不能再做进一步的移动了。这个时候就可以看到的小球在网格上运动。如果没有这个网格(mesh)的话,视频创作者或者视频编辑软件根本就不知道小球和哪个物体做碰撞检测,在三维空间里面,mesh就相当于图3的这个桌子,小球放在上面,就利用其特性,检测小球放在桌子上,小球不会从桌子上掉下去,会沿着桌子往前走。可以用三维空间里面的一些信息,来描述和现实物理对应的一些东西。因为计算机里面没有支撑力这种概念,所以视频创作者或者视频编辑软件必须要知道在三维空间内,插入的三维素材是否与图像中的某些元素重合,避免失去逼真感。插入的三维素材是否与图像中的某些元素重合,可以通过插入的三维素材是否与图像中的网格有重叠,如果有,则表明重合。
90.网格(mesh)可以是计算出来的。一般会有几种方式,比如图2的人脸的这种mesh,首先检测关键点,检测出来的是一些二维的关键点信息,根据关键点信息和人脸的信息再去映射到三维空间内,得到人脸的mesh数据。再比如,还可以利用视差,在就是运动(电子设备的摄像头运动或者被拍摄物体运动)的时候,imu测的位姿数据,因为运动形成视差,就会有深度,有深度就会知道拍摄物体(比如,墙)离我有多远,就可以深度数据计算拍摄物体的mesh数据。
91.网格数据可以分为:物体网格数据、人体网格数据、人脸网格数据。
92.如图3,会检测出图中有上面这个平面和下面这个平面,图3中的小机器人是后面放上去的,原始视频是二维的,因为小机器人是放在三维空间内,这个三维空间就是拍摄的时候这个平面的信息,所以小机器人这样放进去,就感觉小机器人是站在桌子上或站在墙上的。
93.可选的,所述目标ar数据还可以包括物体分割数据、人体表情数据、人体骨骼数据中的至少一种。
94.物体分割数据,是图像中可以被分割的对象的数据。被分割的对象,可以是人体、人脸、人体的头部等。分割数据主要用于遮挡用的,比如我们投放三广告素材的时候,三广告素材后面有一堵墙,有人从墙的前面经过的时候,使得投放的三维广告素材不对人体(比如,人体的头部、脸部)进行遮挡。
95.人脸表情数据、人体骨骼数据均可以通过人工智能算法计算得到。当视频的某一帧图像中有人脸时,可以计算该帧图像中的人脸表情数据;当视频的某一帧图像中有人体时,可以计算该帧图像中的人体骨骼数据。
96.视频编辑软件或视频创作者可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
97.在视频创作时,可以在视频中显示上述目标ar数据,辅助视频创作者进行创作。比如,视频创作者要放一个三维物体到视频中时,视频创作者可以把三维物体放在平面上去。举例来说,如果拍摄的视频有桌子,视频创作者或视频编辑软件识别到桌子后,要在桌子上去放一个三维的玩具。视频创作者或视频编辑软件把这个玩具放在三维空间内时,根据平
面数据可以知道这个平面是在三维空间内的哪个位置,所以这个时候视频创作者或视频编辑软件放进去这个玩具的时候,玩具和这个视频是融合在一起的,这个效果和二维的就完全不一样,比二维的要明显逼真,融合性更好。
98.可选的,步骤102可以包括如下步骤:
99.(11)电子设备根据所述图像数据和所述位姿数据计算初始ar数据;
100.(12)电子设备根据所述初始ar数据的质量得分对所述初始ar数据进行过滤,保留质量得分大于设定阈值的所述目标ar数据。
101.本技术实施例中,电子设备可以通过算法框架根据图像数据和位姿数据计算初始ar数据。算法框架可以包括arcore、arkit、slam等通用的算法框架。可以用来检测视频中的目标ar数据。目标ar数据可以包括平面数据、锚点数据、网格数据中的至少一种。
102.通用的算法框架计算得到的初始ar数据,可能存在一定的误差,计算得到的平面数据、锚点数据、网格数据可能并不符合后续的视频创作的需求。如果通过算法框架计算出来的平面不一定是平面,则后续的视频创作时则会出现错误,导致视频创作的效果失真。
103.本技术实施例可以通过初始ar数据的质量得分对初始ar数据进行过滤,使得过滤后的目标ar数据的可靠性大大增强,在可靠的目标ar数据上进行视频创作,从而降低出现视频创作的效果失真的概率。
104.举例来说,对于平面数据来说,通用的算法框架计算得到的n个平面后,可以计算n个平面上的像素点与计算出的平面的离散程度,根据离散程度计算平面的质量得分。离散程度可以通过第一平面上的像素点的三维坐标,计算第一平面上的像素点与计算出的第一平面的垂直距离的均值,若均值越大,则离散程度越大,质量得分越低;若均值越小,则离散程度越小,质量得分越高。比如,可以根据平面的质量得分,我们就把质量得分小于0.5以下的平面过滤掉。
105.请参阅图4,图4是本技术实施例提供的另一种视频数据采集方法的流程示意图。图4是在图1的基础上进一步优化得到的,如图4所示,该方法包括如下步骤。
106.401,电子设备采集原始视频的至少一帧图像的图像数据和位姿数据。
107.402,电子设备根据图像数据和位姿数据计算目标增强现实ar数据,目标ar数据用于视频增强现实创作。
108.其中,步骤401至402的具体实施可以参加图1所示的步骤101至102,此处不再赘述。
109.403,电子设备确定视频分类数据,视频分类数据包括视频语音关键词、视频文字数据和视频场景数据中的任一种。
110.本技术实施例中,可以在采集原始视频的过程中,采集视频语音,提取视频语音中的视频语音关键词。可以通过ocr算法提取原始视频中的视频文字数据。视频场景数据场景可以是视频内容的概述,视频场景数据可以以标签的形式存在,例如,可以给视频内容打上婚礼,宠物,风景等场景标签。
111.视频分类数据可以作为后续添加三维素材时的参考,避免添加的三维素材的主题与视频内容格格不入,提高视频融合效果。
112.具体的,电子设备可以通过电子设备的麦克风收集原始视频中的视频语音,通过语音识别算法将视频语音转换为语音文字,从语音文字中提取视频语音关键词。电子设备
可以通过ocr算法提取原始视频中的视频文字数据。电子设备可以通过识别视频内容中的对象来确定视频场景数据。如果识别出视频内容中的对象包括风景,则可以给视频内容打上“风景”的场景标签,如果识别出视频内容中的对象包括宠物,则可以给视频内容打上“宠物”的场景标签,如果识别出视频内容中的对象包括婚礼舞台,则可以给视频内容打上“婚礼”的场景标签。
113.视频场景数据可以用于后续的三维广告插入。在识别出来场景标签,可以根据场景标签在视频中自动插入相应的三维广告。提高插入的三维广告与视频内容的相关性,提高广告的投放效果,提高广告流量的订单转化率。比如,若场景标签为“风景”,可以在视频中插入运动用品的三维广告。若场景标签为“宠物”,可以在视频中插入狗粮、狗的衣服的三维广告。若场景标签为“婚礼”,可以在视频中插入钻戒、婚纱、婚礼布置相关的三维广告。三维广告可以以视频或者图片的形式存在。
114.可选的,在执行步骤403之后,还可以执行如下步骤:
115.404,电子设备对图像数据、目标ar数据和至少一帧图像的深度数据进行编码,或者对图像数据、目标ar数据、至少一帧图像的深度数据和视频分类数据进行编码,得到编码后的视频文件或视频流数据;
116.405,电子设备将编码后的视频文件或视频流数据上传至服务器。
117.本技术实施例中,可以采用h.264或者h.265、h.266等数字视频压缩格式对图像数据、目标ar数据和至少一帧图像的深度数据进行编码或者对图像数据、目标ar数据、至少一帧图像的深度数据和视频分类数据进行编码。
118.可以把所述目标ar数据、所述至少一帧图像的深度数据和所述视频分类数据存入到视频的set区域,或者通过额外的文件保存,只需要对应的帧即可。
119.视频文件可以保存在本地,也可以上传至服务器。视频流数据可以上传至服务器,支持消费端边下边播。
120.将编码后的视频流数据上传至服务器,服务器可以将视频流数据推送到视频播放客户端进行视频编辑和视频播放,便于后续的视频编辑和视频播放。
121.在视频播放客户端,可以在视频播放之前,在视频中添加三维元素。比如,三维广告、三维人物、三维视频、三维图片等。
122.请参阅图5,图5是本技术实施例提供的一种视频创作方法的流程示意图。如图5所示,该方法包括如下步骤。
123.501,电子设备获取视频文件或视频流数据。
124.本技术实施例中,电子设备可以从服务器下载视频文件,或者在线下载视频流数据。
125.502,电子设备对视频文件或视频流数据进行解码,得到每一帧图像的图像数据、目标增强现实ar数据和深度数据。
126.其中,目标ar数据可以包括平面数据、锚点数据、网格数据中的至少一种。目标ar数据可以参见上述图1至图4中的相关描述,此处不再赘述。
127.本技术实施例的解码步骤与步骤404的编码步骤相对应,此处不再赘述。
128.503,电子设备利用目标ar数据和深度数据在每一帧图像中添加三维素材,将三维素材与图像数据融合处理,得到增强现实视频。
129.确定每一帧图像的深度数据后,可以将每一帧图像的每个像素点的深度数据转换为三维空间内精确的坐标,即可得到每一帧图像的每个像素点在三维空间内的三维坐标。可以通过每一帧图像的每个像素点的深度数据将每一帧图像映射到三维空间。有了每一帧图像的每个像素点的在三维空间内的三维坐标后,可以便于计算平面数据、锚点数据、网格数据等。
130.本技术实施例在视频创作时,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。将三维素材与图像数据融合处理,三维图像与图像数据的融合性更好,这样可以避免每一帧添加的素材与图像出现不协调。
131.本技术实施例中,平面数据、锚点数据和网格数据的相关描述可以参见上述图1至图4中的相关描述,此处不再赘述。
132.图5中的电子设备与图1至图4中的电子设备可以不同,也可以相同。
133.可选的,所述目标ar数据包括平面数据和锚点数据,步骤503中,电子设备利用目标ar数据和深度数据在每一帧图像中添加三维素材可以包括如下步骤:
134.(21)电子设备根据所述深度数据确定每一帧图像的三维空间坐标,根据所述平面数据确定每一帧图像的可添加素材的平面,根据所述锚点数据和三维空间坐标确定每一帧图像中可添加素材的三维锚点坐标和素材朝向。
135.(22)电子设备根据所述可添加素材的平面的尺寸和三维锚点坐标确定可添加素材的尺寸,根据所述可添加素材的尺寸选择三维素材。
136.(23)电子设备按照所述素材朝向将所述三维素材添加在所述三维锚点坐标上。
137.本技术实施例中,电子设备可以根据平面数据确定每一帧图像的可添加素材的至少一个平面。每一帧图像中的平面一般都是可添加素材的,但是有些情况下,平面上并不适合添加某些素材。比如,天花板的平面上不适合添加站在天花板上的三维人物,墙面的平面不适合添加装有水的水杯等。
138.锚点数据可以包括锚点的三维位置数据和三维法向量。锚点的三维位置数据用于表示锚点在三维空间内的坐标。锚点的三维法向量用于表示锚点的方向。
139.电子设备可以根据锚点的三维位置数据和每一帧图像的三维空间坐标确定每一帧图像中可添加素材的三维锚点坐标,可以根据锚点的三维法向量确定每一帧图像中可添加素材的素材朝向。
140.本技术实施例可以根据可添加素材的平面的尺寸和三维锚点坐标确定可添加素材的尺寸。具体的,可以根据可添加素材在二维平面(比如,屏幕所在的平面)的投影尺寸来确定,如果可添加素材在二维的投影尺寸在合适范围区间,则表明可添加素材的尺寸合适;如果可添加素材在二维的投影尺寸小于合适范围区间的最小尺寸,则表明可添加素材的尺寸偏小;如果可添加素材在二维的投影尺寸小于合适范围区间的最大尺寸,则表明可添加素材的尺寸偏大。一般而言,平面的尺寸越大,可添加素材的尺寸也就越大。如果三维锚点距离屏幕侧越近,则可添加素材的尺寸越小,如果三维锚点的坐标距离屏幕侧越远,则可添加素材的尺寸越大。
141.当在很大的空间插入一个三维物体时,需要让三维物体贴近自然。如果三维物体尺寸很大,又离屏幕侧很近,会导致整个画面不和谐。如果三维物体尺寸很小,又离屏幕侧得很远,会看不清三维物体。另外,当插入物体的时候,在一个合适的尺度和方向上去插入三维物体会比较好。如果离屏幕侧远,选择大的三维物体,如果离屏幕侧近,选择小的三维物体。同样是水杯,如果离屏幕侧远,可以放一个大的水杯,水杯投影到二维的大小适中,如果离屏幕侧近,可以放一个小的水杯,水杯投影到二维的大小也适中。这样可以避免画面出现不协调,太突兀。
142.可选的,所述目标ar数据还包括网格数据,所述电子设备将所述三维素材与所述图像数据融合处理之前,还可以执行如下步骤:
143.(31)电子设备根据所述网格数据和所述三维空间坐标确定每一帧图像的三维网格;
144.(32)电子设备根据所述三维素材与所述三维网格执行碰撞检测,得到碰撞检测结果;
145.所述电子设备将所述三维素材与所述图像数据融合处理,具体可以包括如下步骤:
146.电子设备根据所述碰撞检测结果将所述三维素材与所述图像数据融合处理。
147.图像中的任何实体物体都可以用网格数据来表示,网格数据是三维数据。图像中可以有多个三维网格。电子设备可以根据网格数据确定每一帧图像的三维网格。图像中任何三维物体都可以用网格数据来表示。比如,图像中的墙、桌子、杯子、人脸等等。三维网格可以是图像中的三维物体的表面的多个点连接组成的。如果添加的三维素材与三维网格产生了重叠,则会出现三维素材嵌入三维物体的视觉感受,导致增强现实视频的效果大打折扣。比如,插入的三维素材是乒乓球,网格数据是桌子的三维网格,当插入的三维素材与桌子的三维网格产生了重叠,则会出现乒乓球嵌入桌子的视觉感受,无法呈现乒乓球在桌子上滚动或者弹起的视觉效果,导致视觉效果大打折扣。
148.电子设备可以根据三维素材与三维网格执行碰撞检测,得到碰撞检测结果。碰撞检测结果可以包括三维素材在连续的多帧图像的三维空间内可能的运动轨迹。电子设备可以根据上述碰撞检测结果确定三维素材在视频中的运动轨迹,可以避免出现融合处理后的增强现实视频中的三维素材与三维网格发生重合,避免增强现实视频中出现三维素材嵌入三维网格的视觉感受,从而提高增强现实视频的显示效果。其中,当三维素材处于运动状态时,三维素材的三维坐标与三维网格的坐标有重合时,即可判断三维素材与三维网格接触,检测到二者发生碰撞,碰撞后可以根据三维素材的运动方向模拟三维素材碰撞后的轨迹。根据三维素材与三维网格执行碰撞检测,可以避免三维素材与三维网格发生重合,避免出现三维素材嵌入三维网格的视觉感受,从而提高增强现实视频的显示效果。
149.可选的,在执行步骤502之后,执行步骤503之前,还可以执行如下步骤:
150.(41)电子设备获取视频分类数据;
151.(42)电子设备从素材库中选择与视频分类数据对应的三维素材。
152.本技术实施例中,视频分类数据包括视频语音关键词、视频文字数据和视频场景数据中的任一种。视频分类数据可以是视频内容的标签,视频内容的标签可以有一个,也可以有多个。视频分类数据可以作为添加三维素材时的参考,避免添加的三维素材的主题与
视频内容格格不入,提高视频融合效果。
153.举例来说,如果视频分类数据包括“风景”,可以在视频中插入运动用品的三维广告素材。若视频分类数据包括“宠物”,可以在视频中插入狗粮、狗的衣服的三维广告素材。若视频分类数据包括“婚礼”,可以在视频中插入钻戒、婚纱、婚礼布置相关的三维广告素材。三维广告素材可以以视频或者图片的形式存在。
154.可选的,在执行步骤503之后,还可以执行如下步骤:
155.(51)电子设备根据播放者的用户画像确定所述增强现实视频的虚拟场景渲染效果;
156.(52)电子设备使用所述虚拟场景渲染效果,对所述增强现实视频进行渲染。
157.本技术实施例中,用户画像可以包括用户的年龄、性别、肤色、兴趣、爱好等。不同的用户画像可以匹配对应的虚拟场景渲染效果。可以结合播放者的喜好,浏览数据等触发视频内部虚拟场景渲染,做到千人千面的视频体验。
158.其中,电子设备根据播放者的用户画像确定所述增强现实视频的虚拟场景渲染效果之后,电子设备还可以使用虚拟场景渲染效果对增强现实视频进行渲染,得到渲染后的增强现实视频后,播放所述渲染后的增强现实视频。
159.可选的,电子设备根据播放者的基于位置的服务(location based services,lbs)数据确定所述增强现实视频的虚拟场景渲染效果。lbs数据可以包括gps数据。
160.所述三维素材包括三维视频或三维图片。当三维素材是三维视频时,可以实现画中画的效果。三维视频可以以电视机、电影幕布的方式呈现。
161.上述主要从方法侧执行过程的角度对本技术实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
162.本技术实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
163.请参阅图6,图6为本技术实施例提供的一种视频数据采集装置的结构示意图,该视频数据采集装置600应用于电子设备,该视频数据采集装置600可以包括采集单元601和计算单元602,其中:
164.采集单元601,用于采集原始视频的至少一帧图像的图像数据和位姿数据;
165.计算单元602,用于根据所述图像数据和所述位姿数据计算目标增强现实ar数据;所述目标ar数据包括平面数据、锚点数据、网格数据中的至少一种;所述目标ar数据用于视频增强现实创作。
166.可选的,所述计算单元602根据所述图像数据和所述位姿数据计算目标增强现实
ar数据,包括:根据所述图像数据和所述位姿数据计算初始ar数据;根据所述初始ar数据的质量得分对所述初始ar数据进行过滤,保留质量得分大于设定阈值的所述目标ar数据。
167.可选的,该视频数据采集装置600还可以包括添加单元603;
168.所述添加单元603,用于在所述计算单元602根据所述图像数据和所述位姿数据计算增强现实目标ar数据之后,利用所述目标ar数据在所述原始视频中添加三维素材,得到增强现实视频。
169.可选的,该视频数据采集装置600还可以包括第一确定单元604、编码单元605和上传单元606;
170.第一确定单元604,用于确定视频分类数据,所述视频分类数据包括视频语音关键词、视频文字数据和视频场景数据中的任一种。
171.所述编码单元605,用于对所述图像数据、所述目标ar数据和所述至少一帧图像的深度数据进行编码,或者用于对所述图像数据、所述目标ar数据、所述至少一帧图像的深度数据和所述视频分类数据进行编码,得到编码后的视频文件或视频流数据;
172.所述上传单元606,用于将所述编码后的视频文件或视频流数据上传至服务器。
173.可选的,所述深度数据根据所述图像数据和所述位姿数据计算得到;或者,所述深度数据通过深度摄像头采集的初始深度信息和所述图像数据计算得到,或者所述深度数据通过双目摄像头采集的双目图像计算得到。
174.其中,本技术实施例中的采集单元601电子设备中的摄像模组和imu。计算单元602、添加单元603、第一确定单元604和测试单元603可以是电子设备的处理器,上传单元606还可以是电子设备中的通信模块。
175.本技术实施例中,在视频数据采集时,根据采集的原始视频的至少一帧图像的图像数据和位姿数据计算用于视频增强现实创作的目标ar数据,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
176.请参阅图7,图7为本技术实施例提供的一种视频创作装置的结构示意图,该视频创作装置700应用于电子设备,该视频创作装置700可以包括获取单元701、解码单元702和视频处理单元703,其中:
177.获取单元701,用于获取视频文件或视频流数据;
178.解码单元702,用于对所述视频文件或视频流数据进行解码,得到每一帧图像的图像数据、目标增强现实ar数据和深度数据;
179.视频处理单元703,用于利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,将所述三维素材与所述图像数据融合处理,得到增强现实视频。
180.可选的,所述目标ar数据包括平面数据和锚点数据,视频处理单元703利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,包括:根据所述深度数据确定每一帧图像的三维空间坐标,根据所述平面数据确定每一帧图像的可添加素材的平面,根据所述锚点数据和所述三维空间坐标确定每一帧图像中可添加素材的三维锚点坐标和素材朝向;根据所述可添加素材的平面的尺寸和所述三维锚点坐标确定所述可添加的尺寸,根
据所述可添加素材的尺寸选择三维素材;按照所述素材朝向将所述三维素材添加在所述三维锚点坐标上。
181.可选的,所述目标ar数据还包括网格数据,所述视频处理单元703,还用于将所述三维素材与所述图像数据融合处理之前,根据所述网格数据和所述三维空间坐标确定每一帧图像的三维网格,根据所述三维素材与所述三维网格执行碰撞检测,得到碰撞检测结果;
182.所述视频处理单元703将所述三维素材与所述图像数据融合处理,包括:
183.所述视频处理单元703根据所述碰撞检测结果将所述三维素材与所述图像数据融合处理。
184.可选的,该视频创作装置700还可以包括和选择单元704。
185.所述获取单元701,还用于在所述解码单元702对所述视频文件或视频流数据进行解码,得到每一帧图像的图像数据、目标ar数据和深度数据之后,获取视频分类数据;
186.所述选择单元704,用于从素材库中选择与所述视频分类数据对应的所述三维素材。
187.可选的,该视频创作装置700还可以包括第二确定单元705。
188.所述第二确定单元705,用于在所述视频处理单元703利用所述目标ar数据和所述深度数据在每一帧图像中添加三维素材,将所述三维素材与所述图像数据融合处理,得到增强现实视频之后,根据播放者的用户画像确定所述增强现实视频的虚拟场景渲染效果;使用所述虚拟场景渲染效果,对所述增强现实视频进行渲染。
189.可选的,所述三维素材包括三维视频或三维图片。
190.其中,本技术实施例中的解码单元702、视频处理单元703、选择单元704、和第二确定单元705可以是电子设备的处理器,获取单元701还可以是电子设备中的通信模块。
191.本技术实施例在视频创作时,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
192.请参阅图8,图8是本技术实施例提供的一种电子设备的结构示意图,如图8所示,该电子设备800包括处理器801和存储器802,处理器801、存储器802可以通过通信总线803相互连接。通信总线803可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。通信总线803可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器802用于存储计算机程序,计算机程序包括程序指令,处理器801被配置用于调用程序指令,上述程序包括用于执行图1、图4或图5所示的方法。
193.处理器801可以是通用中央处理器(cpu),微处理器,特定应用集成电路(application

specific integrated circuit,asic),或一个或多个用于控制以上方案程序执行的集成电路。
194.存储器802可以是只读存储器(read

only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信
息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read

only memory,eeprom)、只读光盘(compact disc read

only memory,cd

rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
195.该电子设备800还可以包括摄像模组804,摄像模组804可以包括至少一个摄像头、摄像传感器、图像处理模块等。摄像传感器可以包括imu。该电子设备800还可以包括通信模块。
196.该电子设备800还可以包括显示屏、扬声器等装置,还可以包括射频电路、天线等装置。
197.本技术实施例中,在视频数据采集时,根据采集的原始视频的至少一帧图像的图像数据和位姿数据计算用于视频增强现实创作的目标ar数据;在视频创作时,由于目标ar数据包括平面数据、锚点数据、网格数据,可以根据平面数据确定每一帧图像的可添加素材的平面,根据锚点数据确定每一帧图像中可添加素材的三维锚点坐标和素材朝向,根据网格数据确定每一帧图像的三维网格,使得添加的素材与视频中每一帧图像的结合更加逼真,从而提高视频增强现实的处理效果。
198.本技术实施例还提供一种计算机可读存储介质,其中,该计算机可读存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。
199.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
200.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
201.在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
202.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
203.另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
204.所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
205.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
206.以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1