虚拟人视频融合的方法和装置与流程

文档序号:33506724发布日期:2023-03-18 02:20阅读:76来源:国知局
虚拟人视频融合的方法和装置与流程

1.本技术涉及图像处理领域,尤其涉及一种虚拟人视频融合的方法和装置。


背景技术:

2.目前,随着科技的快速发展,虚拟人在视频领域中占比越来越高。
3.现有技术中,将背景视频和虚拟人视频共同导入导播台并进行视频合成,但是该方法下,导播台合成视频时会丢失视频场的位置信息,无法准确表达虚拟人在视频场景的相对位置信息。


技术实现要素:

4.有鉴于此,本技术提供一种虚拟人视频融合的方法和装置,旨在提高虚拟人在视频场景中位置显示的准确性。
5.为实现上述目的,本技术提供一种虚拟人视频融合的方法,所述方法包括:
6.基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息;
7.导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息;
8.基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。
9.在本技术的一种可能的实施方式中,所述对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息,包括:
10.基于open cv算法库,对所述场景视频中每一帧场景图像进行边缘提取,确定场景中的至少一个物体;
11.确定各图像中各物体的所述第一深度信息,并进行三维重建,得到当前场景。
12.在本技术的一种可能的实施方式中,所述基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,包括:
13.基于所述第一深度信息和所述第二深度信息,将虚拟人的图像与对应的场景图像进行融合,得到多张融合后的融合图像;
14.汇总各融合图像,得到虚拟人融合视频并传输至显示设备。
15.在本技术的一种可能的实施方式中,所述导入多张虚拟人的图像至所述场景视频中之前,包括:
16.构建虚拟人的三维模型;
17.获取所述三维模型的多张图像。
18.在本技术的一种可能的实施方式中,所述对所述场景视频进行处理,包括:
19.从获取的场景视频抽出多帧连续的场景图像;
20.判断各场景图像的照度是否小于预设照度;
21.若场景图像的照度小于预设照度,则标记为待处理图像;
22.对所述待处理图像进行图像增强处理,以达到预设照度。
23.在本技术的一种可能的实施方式中,所述对所述待处理图像进行图像增强处理,以达到预设照度,包括:
24.将所述待处理图像分解得到照射图像和反射图像;
25.对所述照射图像进行照度增强处理,得到目标照射图像;
26.对所述反射图像进行去噪处理,得到目标反射图像;
27.基于所述目标照射图像和所述目标反射图像,重构所述待处理图像,以达到预设照度。
28.在本技术的一种可能的实施方式中,所述基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频之后,包括:
29.构建虚拟人边缘的掩码模型;
30.基于所述掩码模型,对所述虚拟人边缘进行去噪处理。
31.示例性的,为实现上述目的,本技术还提供一种虚拟人视频融合的装置,所述虚拟人视频融合的装置包括:
32.采集模块,用于基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息;
33.导入模块,用于导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息;
34.融合模块,用于基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。
35.相比于现有技术中,将背景视频和虚拟人视频共同导入导播台并进行视频合成,但是该方法下导播台合成视频时会丢失视频场的位置信息,无法准确表达虚拟人在视频场景的相对位置信息。本技术基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息;导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息;基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。本技术将虚拟人的图像输入至场景视频,根据第一深度信息和第二深度信息进行融合,可以准确表达虚拟人在视频场景的相对位置信息。因此,本技术提高了虚拟人在视频场景中位置显示的准确性。
附图说明
36.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
37.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而
言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
38.图1是本技术虚拟人视频融合的方法第一实施例的流程示意图。
39.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
40.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
41.本技术提供一种虚拟人视频融合的方法,参照图1,图1为本技术虚拟人视频融合的方法第一实施例的流程示意图。
42.本技术实施例提供了虚拟人视频融合的方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。为了便于描述,以下省略执行主体描述虚拟人视频融合的方法的各个步骤,虚拟人视频融合的方法包括:
43.步骤s10,基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息。
44.步骤s20,导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息。
45.步骤s30,基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。
46.在本实施例中,针对的具体应用场景是:
47.虚拟人的应用场景逐渐增加,例如:在赛程讲解视频中,在室内运动视频中都会加入虚拟人,以增强活动的真实性和趣味性。现有的虚拟人视频融合的方法包括:将虚拟人视频和场景视频导出至导播台,进行视频融合。但是该方法中,导播台合成视频时会丢失视频场的位置信息,无法准确表达虚拟人在视频场景的相对位置信息,且场景视频中被遮挡部分由虚拟人视频的画面大小决定,虚拟人放置处的场景视频画面被完全遮挡,无法根据虚拟人与物体之间的位置关系进行相关部位的遮挡,其真实性低,观感较差。并且需要传输两个视频,占用较大的带宽。并且使用导播台进行虚拟人视频融合的方法经济性低。
48.本技术旨在:提高虚拟人在视频场景中位置显示的准确性。
49.具体地,在本技术中,将虚拟人图像传输至双目相机采集的具有深度信息的视频中,在双目相机中进行融合,不会丢失深度信息,可以提高虚拟人位置显示的准确性。并且可以根据虚拟人与物体之间的位置关系进行相关部位的遮挡,真实性高,提升了观感。并将融合后的视频传输至显示设备,此时仅需传输一个视频,占用的带宽小。并且仅需通过双目相机即可进行视频融合,无需增加导播台等硬件设备,提高了经济性。
50.具体的,在本技术中,对场景视频中的每一帧图像进行了图像增强处理,并对虚拟人边缘进行处理,提升了虚拟人视频的精度。
51.具体步骤如下:
52.步骤s10,基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息。
53.在本实施例中,场景视频根据待生成的虚拟人视频进行确定,例如,待生成的虚拟
人视频为虚拟人骑行山地自行车的视频,则获取骑行路程中的场景视频。待生成的虚拟人视频为滑雪比赛的展示,则获取滑雪比赛主视角的视频。
54.其中,场景视频通过双目相机采集得到,双目相机中包含两个传感器,可以分别得到两组图像的深度信息,建立三维坐标系后,可以通过已知的传感器之间的距离,来计算被检测对象的深度信息,以确定场景视频中每一点的三维坐标。
55.示例性的,对场景视频进行处理,确定场景视频包含的至少一个物体,并确定该物体的第一深度信息。例如,采集新闻发布会的场景视频,确定包含的物体有桌子、幕布、话筒等。
56.示例的,所述对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息,包括:
57.步骤s11,基于open cv算法库,对所述场景视频中每一帧场景图像进行边缘提取,确定场景中的至少一个物体。
58.在本实施例中,基于open cv算法库中的算法,对场景视频中每一帧场景图像进行边缘提取,确定每一帧场景图片中的至少一个物体。
59.步骤s12,确定各图像中各物体的所述第一深度信息,并进行三维重建,得到当前场景。
60.在本实施例中,双目相机中包含两个传感器,可以分别得到两组图像的深度信息,建立三维坐标系后,可以通过已知的传感器之间的距离,来计算被检测对象的深度信息,以确定场景视频中各物体的多个点的三维坐标。根据各物体的多个点的三维坐标进行三维重建,得到当前场景。
61.示例性的,所述对所述场景视频进行处理,包括:
62.步骤s13,从获取的场景视频抽出多帧连续的场景图像。
63.在本实施例中,场景图像为从双目视频采集的场景视频中抽取多帧连续的图像。
64.步骤s14,判断各场景图像的照度是否小于预设照度。
65.在本实施例中,预设照度根据需要进行设置,本实施例不做具体限定。例如,各第二图像的预设照度为0.5lx。
66.步骤s15,若场景图像的照度小于预设照度,则标记为待处理图像。
67.在本实施例中,待处理图像为照度小于预设照度的第二图像,将照度小于预设照度的第二图像进行标记,得到待处理图像,以在后续对待处理图像进行照度增强。
68.例如,使用f1.2的镜头,当被景物的光亮度值低到0.04lx时,摄像机输出的视频信号幅值为最大幅值的50%,即达到350mv,则称此摄像机的最低照度为0.04lx/f1.2。被摄景物的光亮度值再低,摄像要输出的视频信号的幅值就达不到350mv了,反映在屏幕上,图像灰暗,难分辨出层次的。
69.步骤s16,对所述待处理图像进行图像增强处理,以达到预设照度。
70.在本实施例中,对标记的待处理图像进行图像增强处理,得到处理后的场景图像,以达到预设照度。
71.在本实施例中,由于场景重构时需要对获取的现实场景进行特征提取、数字化并进行构建得到。其中,双目相机采集得到的场景图像受采集环境的光强度的影响,若采集环境的光强度低,则得到的场景图像的照度低,场景图像中包含的现实场景的信息存在部分
损失。若第二图像中包含的现实环境的信息损失过多,会导致在基于场景图像构建场景时,得到的场景精度低。本技术通过对低于预设照度的场景图像进行图像增强处理,以提高场景的构建精度。
72.示例性的,所述对所述待处理图像进行图像增强处理,以达到预设照度,包括:
73.步骤s161,将所述待处理图像分解得到照射图像和反射图像。
74.在本实施例中,基于retinex理论,可将初始图像分解为环境照明的照射图像和物体表面对照射光反射的反射图像。若以i(x,y)表示人眼观察或通过采集装置采集的图像信息,以l(x,y)表示环境光的照射图像,以r(x,y)表示目标物体的反射图像,则初始图像、照射图像和反射图像之间的关系可表示为i(x,y)=l(x,y)*r(x,y)。其中,照射图像与环境光相关,即,若环境光强度越强,则照射图像强度越强;环境光强度越弱,则照射图像强度越弱。反射图像与物体自身色彩属性相关,与环境光强度无关。
75.步骤s162,对所述照射图像进行照度增强处理,得到目标照射图像。
76.在本实施例中,将照射图像输入至照度模型,基于照度模型对照射图像进行照度增强,当达到目标照度时,输出目标照射图像。
77.其中,照度模型为一维卷积神经网络模型,通过具有状态标签的待训练数据输入至预设待训练模型,其中,预设待训练模型为初始的照度模型,预设待训练模型对待训练数据进行判断处理,得到照射图像的预测状态。状态标签包括:“合格”标签和“不合格”标签。达到预设照度的照射分量训练样本为“合格”,未达到预设照度的照射分量训练样本为“不合格”。
78.示例性的,预设照度根据需要进行设置,本实施例不做具体限定。
79.示例性的,照射图像训练样本的数量根据需要进行设置,本实施例不做具体限定。例如,照射图像训练样本的数量为300张。
80.在本实施例中,通过照射图像训练样本,利用一维卷积神经网络训练照度不同的照射图像,得到照射图像“合格”和“不合格”的两个状态数据模型。该照度模型包含这两个状态的数据模型。预设待训练模型为初步的训练模型,将照射图像训练样本和照射图像训练样本的状态标签输入至预设待训练模型,进行迭代训练,得到具有满足精度条件的照度模型。
81.步骤s163,对所述反射图像进行去噪处理,得到目标反射图像。
82.在本实施例中,将反射图像输入至去噪模型,基于去噪模型对反射图像进行去噪处理,当达到预设噪声时,输出目标反射图像。
83.示例性的,预设噪声根据需要进行设置,本实施例不做具体限定。
84.其中,去噪模型为一维卷积神经网络模型,其构建方法与上述构建照度模型的方法基本相同,在此不再进行赘述。
85.步骤s164,基于所述目标照射图像和所述目标反射图像,重构所述待处理图像,以达到预设照度。
86.在本实施例中,根据目标反射分量和目标照射分量重构得到目标第二图像,其清晰度高于初始第二图像。
87.步骤s20,导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息。
88.在本实施例中,虚拟人的图像多张二维图像,其中,各图像关联了虚拟人的第二深度信息,该第二深度信息用于确定虚拟人在场景中的位置。其中,虚拟人的图像为虚拟人视频中抽取的图像。
89.示例性的,所述导入多张虚拟人的图像至所述场景视频中之前,包括:
90.步骤s21,构建虚拟人的三维模型。
91.在本实施例中,通过双目相机采集人体的视频,从该视频中抽取多帧有序的图像,根据图像中人体的姿态变化,构建虚拟人的三维模型。
92.示例性的,人体的姿态包括田径赛场上的运动员处于跑步姿态,滑雪场上的滑雪运动员处于滑姿态,比赛讲解过程中讲解人员处于讲解姿态。
93.示例性的,标记各图像中人体多个部位为监测的关键点。监测的关键点为人体中的关键部位,且关键部位的确定根据人体处于的运动状态确定,例如,若人体处于跑步状态,则标记人体的头部、肩部、手腕、膝盖等关节部位作为监测的关键点;若人体处于讲解状态,则标记人员的嘴部、头部、手部为监测的关键点。通过双目相机采集的第一图像中包含了每一点的位置信息,提取每一第一图像中标记的关键点的位置信息。根据各个第一图像的拍摄时间序列,对第一图像中每一关键点的位置信息依次排序,得到每一关键点对应的位置信息矩阵,拼接每一关键点的位置信息矩阵,得到人员的姿态信息和运动轨迹信息。将每一关键点的位置信息矩阵输入至虚拟人的模板模型中,得到所述虚拟人在对应场景下的三维运动模型。
94.步骤s22,获取所述三维模型的多张图像。
95.在本实施例中,多张图像为二维图像,为人体运动过程中多帧连续的图像。
96.步骤s30,基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。
97.在本实施例中,第一深度信息为场景物体的深度信息,第二深度信息为虚拟人的深度信息,根据第一深度信息和第二深度信息在双目相机中进行融合,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示虚拟人融合视频。
98.示例性的,所述基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,包括:
99.步骤s31,基于所述第一深度信息和所述第二深度信息,将虚拟人的图像与对应的场景图像进行融合,得到多张融合后的融合图像。
100.在本实施例中,根据第一深度信息和第二深度信息,将虚拟人的图像与对应的场景图像进行融合,得到多张融合后的融合图像。
101.步骤s32,汇总各融合图像,得到虚拟人融合视频并传输至显示设备。
102.在本实施例中,将融合后的融合图像进行汇总,得到虚拟人融合视频并传输至显示设备。
103.示例性的,基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频之后,包括:
104.步骤s33,构建虚拟人边缘的掩码模型;
105.步骤s34,基于所述掩码模型,对所述虚拟人边缘进行去噪处理。
106.在本实施例中,现有的虚拟人与视频融合算法仅考虑到了图像的特征变化,导致在融合过程中会将虚拟人的图像的噪声输入至虚拟场景中。为了让虚拟人融入到虚拟场景视频时不受到噪声的污染,可以通过构建虚拟人边缘的掩码模型来抑制干扰并保留虚拟人良好的边缘信息。
107.相比于现有技术中,将背景视频和虚拟人视频共同导入导播台并进行视频合成,但是该方法下导播台合成视频时会丢失视频场的位置信息,无法准确表达虚拟人在视频场景的相对位置信息。本技术基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息;导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息;基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。本技术将虚拟人的图像输入至场景视频,根据第一深度信息和第二深度信息进行融合,可以准确表达虚拟人在视频场景的相对位置信息。因此,本技术提高了虚拟人在视频场景中位置显示的准确性。
108.示例性的,本技术还提供一种虚拟人视频融合的装置,所述虚拟人视频融合的装置包括:
109.采集模块,用于基于双目摄像机,采集场景视频,并对所述场景视频进行处理,得到场景中至少一个物体的第一深度信息;
110.导入模块,用于导入多张虚拟人的图像至所述场景视频中;各图像关联了所述虚拟人的第二深度信息;
111.融合模块,用于基于所述第一深度信息和所述第二深度信息,融合各虚拟人的图像和所述场景视频,得到虚拟人融合视频并传输至显示设备,以供所述显示设备在交互界面显示所述虚拟人融合视频。
112.示例性的,所述采集模块,包括:
113.提取子模块,用于基于open cv算法库,对所述场景视频中每一帧场景图像进行边缘提取,确定场景中的至少一个物体;
114.确定子模块,用于确定各图像中各物体的所述第一深度信息,并进行三维重建,得到当前场景。
115.示例性的,所述融合模块,包括:
116.融合子模块,用于基于所述第一深度信息和所述第二深度信息,将虚拟人的图像与对应的场景图像进行融合,得到多张融合后的融合图像;
117.汇总子模块,用于汇总各融合图像,得到虚拟人融合视频并传输至显示设备。
118.示例性的,所述虚拟人视频融合的装置,还包括:
119.构建模块,用于构建虚拟人的三维模型;
120.获取模块,用于获取所述三维模型的多张图像;
121.示例性,所述采集模块,包括:
122.抽出子模块,用于从获取的场景视频抽出多帧连续的场景图像;
123.判断子模块,用于判断各场景图像的照度是否小于预设照度;
124.标记子模块,用于若场景图像的照度小于预设照度,则标记为待处理图像;
125.增强子模块,用于对所述待处理图像进行图像增强处理,以达到预设照度。
126.示例性的,所述增强子模块,包括:
127.分解单元,用于将所述待处理图像分解得到照射图像和反射图像;
128.增强单元,用于对所述照射图像进行照度增强处理,得到目标照射图像;
129.去噪单元,用于对所述反射图像进行去噪处理,得到目标反射图像;
130.重构单元,用于基于所述目标照射图像和所述目标反射图像,重构所述待处理图像,以达到预设照度。
131.示例性的,所述虚拟人视频融合的装置,还包括:
132.构建模块,用于构建虚拟人边缘的掩码模型;
133.去噪模块,用于基于所述掩码模型,对所述虚拟人边缘进行去噪处理。
134.本技术虚拟人视频融合的装置具体实施方式与上述虚拟人视频融合的方法各实施例基本相同,在此不再赘述。
135.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
136.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
137.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本技术各个实施例所述的方法。
138.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1