一种基于实时视频流人像抠图的视频合成方法及系统与流程

文档序号:33007046发布日期:2023-01-18 05:14阅读:87来源:国知局
一种基于实时视频流人像抠图的视频合成方法及系统与流程

1.本发明涉及图像处理技术领域,具体而言,涉及一种基于实时视频流人像抠图的视频合成方法及系统。


背景技术:

2.在广电行业,实时视频人物抠像的要求,一般需要在虚拟演播室中基于绿幕为背景才可以达到比较精细的抠像效果,此外录制下来的视频,可能还存在新媒体端传播的需求,需通过专业转格式软件转换格式后才能发送到新媒体端,这样的流程也是过于复杂,对于目前移动端的快速分发,也是不利的。
3.随着人工智能技术的日渐成熟以及在各行各业的广泛应用,现有的人像分割算法已经较为成熟,但市面上的一些人像合成产品要么价格昂贵,要么就是不能满足实时性、高质量的需求,因此,急需一种基于实时视频流人像抠图的视频合成方法及系统,结合实际业务场景,兼顾视频内容质量和实时性要求。


技术实现要素:

4.为了解决上述问题,本发明的目的是提供一种基于实时视频流人像抠图的视频合成方法及系统,将人物从摄像头拍摄的视频中抠出,合成到另一个背景视频中,实现了人像提取、人像合成与自动视频生成。
5.为了实现上述技术目的,本发明提供了一种基于实时视频流人像抠图的视频合成方法,包括以下步骤:
6.构建由第一背景视频和第一背景音乐组成的素材库;
7.获取用户在素材库中选择的第一背景视频的第一用户位置,通过采集用户的第一视频信息,将视频图像在第一用户位置处与第一背景视频同步合成后播放;
8.基于用户在素材库中选择的第一背景音乐,通过提取的用户的第一音频信息,与第一背景视频同步播放。
9.优选地,在采集用户的第一视频信息的过程中,在第一背景视频中设置若干个用户位置,根据用户选择的第一用户位置,通过采集用户的第一视频信息,与第一背景视频同步合成后播放。
10.优选地,在将用户的第一视频信息与背景视频进行同步合成后播放的过程中,切换至第二背景视频,根据第一背景视频和第二背景视频的用户位置的位置关系,通过第一用户位置,生成第二用户位置,并将用户的第二视频信息和/或第一视频信息,在第二用户位置与第二背景视频进行同步合成后播放。
11.优选地,在生成第二用户位置的过程中,获取与第二背景视频的用户位置,距离最近的第一背景视频的用户位置,作为第二用户位置,其中,当存在不止一个距离最近的用户位置时,根据用户与第二用户视频的用户位置的相对位置最近距离,生成第二用户位置。
12.优选地,在将用户的第一视频信息与背景视频进行同步合成后播放的过程中,基
于第一背景视频或第二背景视频,采集用户的与第一视频信息和第二视频信息的视频角度不同的第三视频信息,与第一背景视频或第二背景视频进行同步合成后播放,其中,通过将第三视频信息与第一视频信息或第二视频信息进行同步切换的方式,在第一背景视频或第二背景视频进行同步合成后播放。
13.优选地,在采集第一音频信息的过程中,根据第一音频信息,通过获取第一背景音乐,将第一音频信息与第一背景音乐进行同步后,与第一背景视频进行同步播放。
14.优选地,在将背景音乐和用户的音频信息与背景视频进行同步播放的过程中,采集用户的第二音频信息,获取第二背景音乐,将第一背景音乐和第二背景音乐拼接后,与第二音频信息进行同步,与第一背景视频或第二背景视频进行同步播放。
15.本发明提供了一种基于实时视频流人像抠图的视频合成系统,包括:
16.素材库模块,用于构建由第一背景视频和第一背景音乐组成的素材库;
17.视频处理模块,用于获取用户在素材库中选择的第一背景视频的第一用户位置,通过采集用户的第一视频信息,将视频图像在第一用户位置处与第一背景视频同步合成后播放;
18.音频处理模块,基于用户在素材库中选择的第一背景音乐,通过提取的用户的第一音频信息,与第一背景视频同步播放。
19.本发明公开了以下技术效果:
20.本发明兼容绝大多数摄像头、麦克风且支持任意大小的视频输入,使机器替代传统绿幕抠像、人工抠图与剪辑工作为出发点,提出了一种实时视频流人像抠图并合成视频的新的技术解决方案。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明实施例所述的视频合成步骤示意图;
23.图2是本发明实施例所述的基于本发明的视频合成方法形成的交互式的线下活动打卡装置结构示意图;
24.图3是本发明实施例所述的打卡装置的结构设计图;
25.图4是本发明实施例所述的视频合成流程示意图。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所
有其他实施例,都属于本技术保护的范围。
27.如图1-4所示,本发明提供了一种基于实时视频流人像抠图的视频合成方法,包括以下步骤:
28.构建由第一背景视频和第一背景音乐组成的素材库;
29.获取用户在素材库中选择的第一背景视频的第一用户位置,通过采集用户的第一视频信息,将视频图像在第一用户位置处与第一背景视频同步合成后播放;
30.基于用户在素材库中选择的第一背景音乐,通过提取的用户的第一音频信息,与第一背景视频同步播放。
31.本发明提到的同步合成的意思是将用户视频与背景视频同步后进行合成,使得播放帧频保持一致,或根据用户视频的帧频,调整背景视频的帧频,进而避免合成后的画面失真。
32.进一步优选地,本发明在采集用户的第一视频信息的过程中,本发明在第一背景视频中设置若干个用户位置,根据用户选择的第一用户位置,通过采集用户的第一视频信息,与第一背景视频同步合成后播放。
33.进一步优选地,本发明在将用户的第一视频信息与背景视频进行同步合成后播放的过程中,本发明在背景视频切换的过程中,将第一背景视频切换至第二背景视频,根据第一背景视频和第二背景视频的用户位置的位置关系,通过第一用户位置,生成第二用户位置,并将用户的第二视频信息和/或第一视频信息,在第二用户位置与第二背景视频进行同步合成后播放。
34.进一步优选地,本发明在生成第二用户位置的过程中,本发明通过获取与第二背景视频的用户位置,距离最近的第一背景视频的用户位置,作为第二用户位置,其中,当存在不止一个距离最近的用户位置时,根据用户与第二用户视频的用户位置的相对位置最近距离,生成第二用户位置。
35.进一步优选地,本发明在将用户的第一视频信息与背景视频进行同步合成后播放的过程中,基于第一背景视频或第二背景视频,本发明通过采集用户的与第一视频信息和第二视频信息的视频角度不同的第三视频信息,与第一背景视频或第二背景视频进行同步合成后播放,其中,通过将第三视频信息与第一视频信息或第二视频信息进行同步切换的方式,在第一背景视频或第二背景视频进行同步合成后播放。
36.进一步优选地,本发明在采集第一音频信息的过程中,本发明根据第一音频信息,通过获取第一背景音乐,将第一音频信息与第一背景音乐进行同步后,与第一背景视频进行同步播放。
37.进一步优选地,本发明在将背景音乐和用户的音频信息与背景视频进行同步播放的过程中,本发明通过采集用户的第二音频信息,获取第二背景音乐,将第一背景音乐和第二背景音乐拼接后,与第二音频信息进行同步,与第一背景视频或第二背景视频进行同步播放。
38.本发明提供了一种基于实时视频流人像抠图的视频合成系统,包括:
39.素材库模块,用于构建由第一背景视频和第一背景音乐组成的素材库;
40.视频处理模块,用于获取用户在素材库中选择的第一背景视频的第一用户位置,通过采集用户的第一视频信息,将视频图像在第一用户位置处与第一背景视频同步合成后
播放;
41.音频处理模块,基于用户在素材库中选择的第一背景音乐,通过提取的用户的第一音频信息,与第一背景视频同步播放。
42.实施例1:如图1所示,本发明提到的视频合成方法的具体操作过程如下:
43.步骤1:用户打开触摸大屏上的网页,正对摄像头,在大屏前找到合适的位置站好;
44.步骤2:通过麦克风和摄像头,开始采集人物的视音频流;
45.步骤3:视频流经过视频预处理模块,提取出每一个视频帧,进行编号,存入待处理队列中;
46.步骤4:待合成队列的视频帧将由多进程通过人像分割算法进行人像区域提取,获得人像区域矩阵;
47.步骤5:通过步骤4的编号,可以找到对应的背景视频帧,由多进程将人像区域矩阵和背景图像的矩阵进行计算合成,得到人像合成帧,将其存入完成队列;
48.步骤6:由于步骤5是采用了多进程的方式处理,因此获取到的帧序是乱序的,通过编号对获取到的帧重新排序并推入播放队列;
49.步骤7:前端网页播放器调用播放队列中的视频帧和音频流进行播放;
50.步骤8:步骤2-7是一个持续循环的过程,用户在大屏前,可以实时看到自己的人像和背景视频合成,这样可以找到合适的位置站好,然后可以点击大屏(触摸屏)的开始录制按钮,会出现倒计时,倒计时结束后开始录制;
51.步骤9:录制时,视频流处理过程仍然跟步骤2-7一致,用户录制完成后,视频生成模块会将播放队列中的视频帧,按照用户开始录制的时间点进行打包生成视频文件;
52.步骤10:录制时,音频处理模块会将背景视频中的音频流和麦克风的音频流保存,写入到一个音频文件中,待用户录制完成后,形成完整的音频文件;
53.步骤11:将步骤9的视频文件和步骤10的音频文件进行最终的合并,生成最终的视频;
54.步骤12:最终的视频生成完后,大屏上会有二维码显示,用户可以扫码保存到手机。
55.本发明是在人像分割算法的基础上,结合自身在视频领域的积累,运用前端开发技术在连有摄像头和麦克风的设备上实现实时人像数据和声音数据的采集,同时利用人像分割算法以及视音频处理技术,实现从摄像头拍摄的视频中将人像抠出并与预先准备好的背景视频自动合成,达到实时合成的效果,基于以上方案自主研发了一款交互式的线下打卡装置,如图2所示,服务于线下,提升线下活动与展会的吸引力与影响力。
56.整体方案如图3所示,视频预处理模块提供了背景选择,用户站在大屏前面,点击大屏上的视频背景切换,则可以切换不同的视频背景,有些背景自带第一背景音乐。此时摄像头和麦克风一直在进行实时的视音频采集,视频处理模块和音频处理模块开始传输视频流和音频流,其中摄像头录制的人物视频流会经过视频处理模块提取出视频帧后,进行一系列流程处理,如图4所示。
57.提取出每一个视频帧后,进行编号,存入待处理队列中,待处理队列的视频帧将由人像提取模块,使用多进程进行人像区域提取,获得人像区域矩阵;然后,经由人像合成模块,通过之前的编号,找到对应的背景视频帧,使用多进程将人像区域矩阵和背景图像的矩
阵进行计算合成,得到人像合成帧,将其存入完成队列;由于前述步骤是采用了多进程的方式处理,因此获取到的帧序是乱序的,通过编号对获取到的帧重新排序并推入播放队列;前端网页播放器调用播放队列中的视频帧和音频流进行播放,在画面中就可以看到实时的人像和背景视频合成的结果;
58.上述流程是不断循环的,用户在大屏前,就可以实时看到自己的人像和背景视频合成的结果,这样可以找到合适的位置站好,然后可以点击大屏(触摸屏)的开始录制按钮,会出现倒计时,倒计时结束后开始录制;录制时,视频流的处理仍是上述流程,视频生成模块会将播放队列中的视频帧,按照用户开始录制的时间点进行打包生成视频文件;同时,在用户按下录制按钮的时间点,音频处理模块会将背景视频中的音频流和麦克风的音频流保存,写入到一个音频文件中,待用户录制完成后,形成完整的音频文件;然后,视频生成模块,会将视频文件和音频文件进行合并,生成最终的视频;最终的视频生成完后,会自动存入用户视频库中,大屏上会有二维码显示,用户可以扫码保存到手机。
59.本发明将人物从摄像头拍摄的视频中抠出,合成到另一个背景视频中,实现了人像提取、人像合成与自动视频生成。本发明兼容绝大多数摄像头、麦克风且支持任意大小的视频输入,使机器替代传统绿幕抠像、人工抠图与剪辑工作为出发点,创新设计了一种实时视频流人像抠图并合成视频的解决方案。
60.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
61.在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
62.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1