视频合成方法、装置、设备和存储介质与流程

文档序号：30983201发布日期：2022-08-03 01:03阅读：80来源：国知局

1.本公开涉及计算机技术领域，尤其涉及一种视频合成方法、装置、设备和存储介质。

背景技术：

2.随着互联网技术的发展，各资源共享平台提供了诸多视频相关的功能。例如，将用户的真实摄像头画面与特定主题场景下的虚拟场景内容进行视频融合，生成合成视频，以供用户后期消费。
3.目前的视频合成方案，主要有人工编辑方式和服务端自动合成方式。其中，人工编辑方式大致是人工使用视频编辑软件对用户的真实摄像头画面和虚拟场景内容进行合成编辑。服务端自动合成方式大致是用户终端获取用户的真实摄像头画面和虚拟场景内容，并将两者发送至服务端进行自动合成处理。
4.但是，人工编辑方式耗时耗力，无法满足批量视频合成处理的需求；服务端自动合成方式对网络和用户终端性能的要求均较高，容易造成合成视频画面卡顿的现象。

技术实现要素：

5.为了解决上述技术问题，本公开提供了一种视频合成方法、装置、设备和存储介质。
6.第一方面，本公开提供了一种视频合成方法，应用于服务端，该方法包括：接收用户视频流；其中，所述用户视频流为通过用户终端的摄像头拍摄所得的视频流；利用独立于用户视角相机的目标视角相机，对目标虚拟场景进行录制，生成目标视角下的场景视频流；其中，所述目标虚拟场景为所述用户终端中显示的主题虚拟空间对应的虚拟场景；融合所述用户视频流和所述场景视频流，生成合成视频流。
7.第二方面，本公开提供了一种视频合成装置，配置于服务端，该装置包括：用户视频流接收模块，用于接收用户视频流；其中，所述用户视频流为通过用户终端的摄像头拍摄所得的视频流；场景视频流生成模块，用于利用独立于用户视角相机的目标视角相机，对目标虚拟场景进行录制，生成目标视角下的场景视频流；其中，所述目标虚拟场景为所述用户终端中显示的主题虚拟空间对应的虚拟场景；第一合成视频流生成模块，用于融合所述用户视频流和所述场景视频流，生成合成视频流。
8.第三方面，本公开提供了一种的电子设备，该电子设备包括：处理器；以及存储程序的存储器，
其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行本公开任意实施例所说明的视频合成方法。第四方面，本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开任意实施例所说明的视频合成方法。
9.本公开实施例中提供的一个或多个技术方案，能够接收通过用户终端的摄像头拍摄所得的用户视频流，以及利用独立于用户视角相机的目标视角相机，对用户终端中显示的主题虚拟空间对应的目标虚拟场景进行录制，生成目标视角下的场景视频流；并且融合所述用户视频流和所述场景视频流，生成合成视频流；一方面，实现了在服务端中自动生成合成视频流，避免了人工合成视频存在的费时费力的问题；另一方面，通过服务端录制场景视频流，避免了在用户终端录制场景视频流并上传至服务端的过程中因设备性能和网络等原因而造成的合成视频卡顿的问题，既降低了对用户终端的设备性能和网络的要求，又解决了场景视频流上传慢和丢帧等问题，提高了视频合成的效率以及合成视频流的流畅性；又一方面，通过对目标虚拟场景进行录制而得到场景视频流，提高了合成视频流与目标虚拟场景的内容一致性。
附图说明
10.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
11.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
12.图1是本公开实施例提供的一种视频合成方法的流程图；图2是本公开实施例提供的一种用户视频流的显示示意图；图3是本公开实施例提供的一种合成视频流的显示示意图；图4是本公开实施例提供的另一种视频合成方法的流程图；图5是本公开实施例提供的又一种视频合成方法的流程图；图6是本公开实施例提供的一种视频合成装置的结构示意图；图7是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
13.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
14.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
15.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
16.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
17.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
18.本公开实施例提供的视频合成方法，主要适用于将用户终端的摄像头采集的用户视频流与虚拟场景对应的场景视频流进行视频合成的情况。在一些实施例中，该视频合成方法可适用于在短视频的主题场景下，将用户的真实摄像头画面与特效音视频内容进行融合，生成合成特效视频。在另一些实施例中，该视频合成方法可适用于在教育主题、游戏主题或直播间主题下，将用户的真实摄像头画面无缝融合到对应主题的虚拟场景中，生成相应主题下的合成视频（如包含用户画面的回放视频）。
19.本公开实施例提供的视频合成方法可以由视频合成装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在服务端对应的电子设备中，例如可以是笔记本电脑、台式电脑、服务器或服务器集群等。
20.图1是本公开实施例提供的一种视频合成方法的流程图。参见图1，该视频合成方法具体包括：s110、接收用户视频流。
21.其中，用户视频流为通过用户终端的摄像头拍摄所得的视频流。
22.具体地，根据上述说明，本公开实施例中的视频合成是将用户终端的摄像头采集的真实画面与虚拟场景对应的场景画面进行融合。所以，服务端会接收用户终端发送的用户视频流。
23.在一些实施例中，s110包括：通过实时通信传输协议，从用户终端接收用户视频流。
24.具体地，相关技术中，用户视频流根据传输控制协议（transmission control protocol, tcp），从用户终端传输至服务端。但是，因用户视频流的数据量相对较大，且tcp传输协议需要进行三次握手，容易造成传输延迟甚至丢帧的问题。所以，本实施例中采用实时通信传输协议（real-time communications，rtc）进行用户视频流的传输。这是因为rtc传输协议中携带有冗余字段，其可用于精准判断是否存在丢包，且其链路上的udp传输为单向传输，无需进行三次握手，使得该传输协议对网络的要求较低，从而使得用户视频流的传输具有极强的抗弱网性，进而降低用户视频流传输的网络延迟，一定程度上避免丢帧问题。
25.s120、利用独立于用户视角相机的目标视角相机，对目标虚拟场景进行录制，生成目标视角下的场景视频流。
26.其中，用户视角相机是用户通过用户终端观看目标虚拟场景时的观看视角对应的、渲染引擎中的虚拟相机。目标视角是合成视频流所需的观看视角，例如可以是用户之外的旁观者所在的视角。目标视角相机是目标视角对应的、渲染引擎中的虚拟相机。目标虚拟场景为用户终端中显示的主题虚拟空间对应的虚拟场景。主题虚拟空间是应用场景对应的
网络空间。示例性地，主题虚拟空间包括线上直播间、虚拟游戏房间或虚拟教育空间。场景视频流是对目标虚拟场景进行录制而生成的视频流。
27.具体地，相关技术中是通过用户终端来录制场景视频流的，这样就需要用户终端来上传场景视频流，从而会存在上述场景视频流上传延迟和丢帧的问题，进而导致视频卡顿。所以，本公开实施例中直接在用户终端对应的服务端中开启一个目标视角相机，并利用该目标视角相机，沿着目标视角，对服务端中运行的目标虚拟场景进行录制，生成目标视角下的场景视频流。
28.例如，对于应用程序主体运行在云端的应用场景（如云游戏、云直播、云课堂等等），在云端对应的服务端中原本就运行有与用户终端同步的目标虚拟场景，此时，可直接在云端对应的服务端中开启目标视角相机对目标虚拟场景进行录制，得到场景视频流。
29.再如，对于应用程序主体运行在用户终端的应用场景（如普通游戏、线上教育等等），因服务端中并未运行应用程序的主体部分，故服务端中可能并未运行目标虚拟场景，此时，需要在用户终端对应的服务端中开启一个服务，以运行目标虚拟场景，并在该服务中启动一个目标视角相机。当服务端接收到场景录制的指令时，服务端开始利用目标视角相机对目标虚拟场景进行录制，得到场景视频流。
30.需要说明的是，为了避免录制场景视频流对用户正常使用应用场景对应的应用程序功能的影响，服务端可以采用后端处理的方式对目标虚拟场景进行录制和渲染，即场景视频流的生成过程独立于应用场景对应的应用程序主体的运行过程。至于该生成场景视频流的过程的执行主体，其可以是应用程序主体的执行服务端中开辟的独立线程，也可以是重新启动的一个服务端。
31.参见图2，以线上教育中的线上演讲应用场景为例，用户终端中显示用户视角相机渲染所得的三维虚拟讲堂场景的视频流，并且会在左上角的位置处显示用户终端的摄像头采集的真实用户画面。服务端在响应用户终端的显示请求之外，还可以从目标视角对目标虚拟场景进行录制，如图3所示。图3中，服务端以观众视角对应的目标视角相机对三维虚拟讲堂场景进行录制，生成观众视角下的场景视频流。
32.s130、融合用户视频流和场景视频流，生成合成视频流。
33.具体地，服务端中将用户视频流嵌入场景视频流中的某个位置，以生成包含用户真实画面和虚拟场景画面的合成视频流。
34.在一些实施例中，目标虚拟场景中包括预置视图。该预置视图是指预先在目标虚拟场景中设置的视图层，其用于承载用户视频流。该预置视图的位置是可以自定义设置的；也可以根据目标虚拟场景中包含的各虚拟物体的类型和/或空间位置来确定预置视图的位置。例如，对于上述三维虚拟讲堂场景的示例，该目标虚拟场景中包含用于播放演讲相关信息的虚拟屏幕，那么可在该虚拟屏幕的位置处设置预置视图。再如，可以在目标虚拟场景中的虚拟物体较少的空闲区域处设置预置视图。
35.相应地，s130包括：将用户视频流融合至场景视频流中的预置视图处，生成合成视频流。
36.具体地，服务端可以将用户视频流输入预置视图，以将该用户视频流嵌入场景视频流中，所得结果便为合成视频流。如图3中，将虚拟屏幕设置为预置视图，那么服务端将用户视频流嵌入三维虚拟讲堂场景中的虚拟屏幕处，生成观众视角的线上演讲回放视频。
37.本公开实施例提供的上述视频合成方法，能够接收通过用户终端的摄像头拍摄所得的用户视频流，以及利用独立于用户视角相机的目标视角相机，对用户终端中显示的主题虚拟空间对应的目标虚拟场景进行录制，生成目标视角下的场景视频流；并且融合用户视频流和场景视频流，生成合成视频流；一方面，实现了在服务端中自动生成合成视频流，避免了人工合成视频存在的费时费力的问题；另一方面，通过服务端录制场景视频流，避免了在用户终端录制场景视频流并上传至服务端的过程中因设备性能和网络等原因而造成的合成视频卡顿的问题，既降低了对用户终端的设备性能和网络的要求，又解决了场景视频流上传慢和丢帧等问题，提高了视频合成的效率以及合成视频流的流畅性；又一方面，通过对目标虚拟场景进行录制而得到场景视频流，提高了合成视频流与目标虚拟场景的内容一致性。
38.图4是本公开实施例提供的另一种视频合成方法的流程图。其增加了根据用户操作指令来生成包含虚拟对象动作响应的相关步骤。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图4，该视频合成方法包括：s410、接收用户视频流。
39.s420、接收用户操作指令。
40.其中，用户操作指令是用户通过操纵用户终端在主题虚拟空间中产生的操作指令，其用于控制用户对应的虚拟人物在主题虚拟空间中的执行动作，例如移动、跳跃等。
41.具体地，在应用程序运行过程中，用户会通过操作用户终端来执行一些对主题虚拟空间中的虚拟对象进行控制的操作，用户终端会将用户的操作转换为对应的用户操作指令，并根据该用户操作指令来触发应用程序控制虚拟对象执行相应的动作响应（即虚拟对象动作响应）。
42.基于上述说明可知，服务端录制场景视频流的过程与应用程序响应用户操作指令的过程之间是相互独立的。那么，为了使得录制的场景视频流与用户所观看到的应用程序的运行结果一致，服务端可以拉取该用户操作指令，以便在目标虚拟场景中恢复相同的虚拟对象动作响应。
43.在一些实施例中，服务端可以在录制场景视频流的过程与运行应用程序以响应用户操作指令的过程之间建立通信连接，以便将应用程序中生成的用户操作指令传输至录制场景视频流的过程。
44.例如，对于应用程序主体运行在云端的应用场景，服务端可以在分别运行上述两个过程的服务或线程等主体之间建立通信连接，以将应用程序生成的用户操作指令传输至录制场景视频流的过程。
45.又如，对于应用程序主体运行在用户终端的应用场景，可以在用户终端和运行目标虚拟场景的服务端之间建立通信连接，以将用户终端中生成的用户操作指令发送至服务端。
46.在另一些实施例中，服务端创建虚拟用户，并将虚拟用户关联至主题虚拟空间，且从主题虚拟空间中共享用户操作指令。
47.具体地，为了提高用户操作指令的获取效率和同步性，服务端可以创建一个新的虚拟用户，并将该虚拟用户关联至用户终端对应的主题虚拟空间，例如将该虚拟用户以旁观者身份加入虚拟游戏房间。这样，用户终端对应的虚拟用户和该新的虚拟用户便处于同
一个主题虚拟空间。所以，服务端可以实时地从主题虚拟空间中共享得到用户操作指令。
48.s430、在目标虚拟场景中执行用户操作指令对应的虚拟对象动作响应。
49.具体地，服务端在录制场景视频流的过程中，根据获得的用户操作指令，在目标虚拟场景中执行对应的虚拟对象动作响应，以便该目标虚拟场景中呈现与应用程序相同的虚拟对象动作响应。
50.s440、利用目标视角相机，对目标虚拟场景进行录制，生成包含虚拟对象动作响应的场景视频流。
51.具体地，服务端利用目标视角相机，对执行了虚拟对象动作响应的目标虚拟场景进行录制，可得到包含虚拟对象动作响应的、目标视角下的场景视频流。
52.s450、融合用户视频流和场景视频流，生成合成视频流。
53.本公开实施例提供的上述视频合成方法，通过在目标虚拟场景中执行用户终端生成的用户操作指令对应的虚拟对象动作响应，使得目标虚拟场景中也包含虚拟对象动作响应，并利用目标视角相机对目标虚拟场景进行录制，生成包含虚拟对象动作响应的场景视频流；进一步提高了场景视频流与用户所观看到的应用程序的运行结果之间的一致性，从而进一步提高合成视频流与目标虚拟场景的内容一致性。
54.在一些实施例中，用户视频流中携带第一时间戳，且用户操作指令中携带第二时间戳。这里的第一时间戳和第二时间戳均是产生用户操作指令的时刻（也称为指令时间戳），但是第一时间戳是记录在用户视频流中的指令时间戳，第二时间戳是记录在用户操作指令中的指令时间戳。这是因为用户视频流和用户操作指令的数据量不同，使得用户操作指令先于用户视频流到达服务端。如果信息到达服务端后便被响应，会使得目标虚拟场景中恢复的虚拟对象动作响应与用户视频流不匹配，导致合成视频流中的内容混乱。所以，本实施例中，用户视频流和用户操作指令中均携带指令时间戳，以便后续根据时间戳进行虚拟对象动作响应的执行。
55.相应地，在s420之后，该视频合成方法还包括：缓存用户操作指令。基于上述说明，用户操作指令到达服务端后，不能直接进行响应，所以，服务端会先缓存该用户操作指令。
56.相应地，s430包括：从各用户操作指令中筛选出第二时间戳小于或等于第一时间戳的目标操作指令；在目标虚拟场景中执行目标操作指令对应的虚拟对象动作响应。
57.具体地，服务端在接收到用户视频流之后，便提取其中的第一时间戳。然后，从缓存空间中获得各用户操作指令的第二时间戳，并将第一时间戳与各第二时间戳进行比较，筛选出小于或等于第一时间戳的至少一个第二时间戳。再然后，服务端将筛选出的各第二时间戳对应的用户操作指令作为目标操作指令，并在目标虚拟场景中执行目标操作指令对应的虚拟对象动作响应，以在目标虚拟场景中恢复用户视频流及其之前时刻的虚拟对象动作响应。这样，不仅可确保后续录制的场景视频流与用户观看到的运行结果中包含相同的虚拟对象动作响应，更进一步确保场景视频流中的虚拟对象动作响应与用户观看到的运行结果中的虚拟对象动作响应之间的时间一致性，从而进一步提高场景视频流和用户视频流之间的同步性。
58.图5是本公开实施例提供的又一种视频合成方法的流程图。该视频合成方法增加了根据视频模板来生成合成视频流的相关步骤。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图5，该视频合成方法包括：
s510、接收用户视频流。
59.具体地，服务端可根据应用需求（如视频合成速度、视频合成精度等）来继续执行s520~s530，或者执行s540~s550。
60.s520、利用独立于用户视角相机的目标视角相机，对目标虚拟场景进行录制，生成目标视角下的场景视频流。
61.s530、融合用户视频流和场景视频流，生成合成视频流。
62.s540、基于模板筛选条件，从各预设视频模板中确定与目标虚拟场景对应的目标视频模板。
63.其中，模板筛选条件是预先设置的、对各预设视频模板进行筛选的维度。预设视频模板是预先设置的视频模板，其中包含可以融合外部视频的空白部分以及不可变化的视频部分，并且不可变化的视频部分中可以包含预设的人物形象、预设的特效组件等等。本公开实施例中，模板筛选条件包括用户视频流的视频时长、用户信息、用户操作指令和播放音频中的至少一个。用户信息是与用户相关的信息，例如该用户信息包括用户情绪和/或用户年龄，且用户信息用于匹配预设视频模板中的人物形象。用户操作指令用于匹配预设视频模板中的录制视角。播放音频用于匹配预设视频模板中的特效组件。
64.具体地，服务端中预先存储了多个预设视频模板。在接收到用户视频流之后，服务端可以根据模板筛选条件，从多个预设视频模板中筛选出适配的预设视频模板，作为目标视频模板。
65.例如，模板筛选条件中包含了用户视频流的视频时长，那么可以根据该视频时长匹配预设视频模板中的空白部分的时长，以确保筛选出的目标视频模板中可融合入该用户视频流。
66.再如，模板筛选条件中包含了用户信息，那么服务端可以根据用户信息中的用户情绪和/或用户年龄，从各预设视频模板中筛选出视频风格与用户情绪相适配的目标视频模板，和/或，从各预设视频模板中筛选出与视频中的人物形象与用户年龄相适配的目标视频模板。
67.又如，模板筛选条件中包含了用户操作指令，那么服务端可以根据该用户操作指令对应的用户视角来确定录制视角，并从各预设视频模板中筛选出与录制视角一致的目标视频模板。比如，对于上述三维虚拟讲堂场景的示例，搜集录制过程的用户操作指令，当用户操作指令为用户走到特定区域时，切换到该特定区域对应的录制视角，并切换选择该录制视角对应的预设视频模板，完成视频中的转场。
68.又如，模板筛选条件中包含了播放音频，那么服务端根据该播放音频的音频停顿位置和停顿时长等音频特性，选择具有相同或相似的音频特性的目标视频模板，并且可以在该目标视频模板的相应位置处加入诸如礼花、掌声等特效组件，以优化目标视频模板。
69.s550、融合用户视频流和目标视频模板，生成合成视频流。
70.具体地，将用户视频流添加至目标视频模板的空白部分，或者将用户视频流嵌入目标视频模板的某一位置处，生成合成视频流。
71.在一些实施例中，s550可通过以下步骤a和/或步骤b来实现。
72.步骤a、将用户视频流融合至目标视频模板中的绿幕位置处，生成合成视频流。
73.具体地，目标视频模板中预先设置了绿幕位置。那么服务端可将该用户视频流嵌
入目标视频模板中的绿幕位置处，生成合成视频流。
74.步骤b、基于目标视频模板中的至少一个预设时间点，确定目标视频模板中的视频合成位置，并将用户视频流融合至目标视频模板中的视频合成位置处，生成合成视频流。
75.具体地，目标视频模板中可预置至少一个预设时间点，例如片头时间点、片中时间点和片尾时间点，并且每个预设时间点可对应设置一个用于嵌入视频流的位置（即视频合成位置），例如，片头时间点对应左上角的视频合成位置、片中时间点对应中间的视频合成位置、片尾时间点对应右下角的视频合成位置。服务端在各个时段中，将用户视频流嵌入到相应预设时间点对应的视频合成位置处，生成合成视频流。
76.本公开实施例提供的上述视频合成方法，根据模板筛选条件从各预设视频模板中确定与目标虚拟场景对应的目标视频模板，并融合用户视频流和目标视频模板，生成合成视频流；实现了通过预置的视频模板来合成用户真实画面和虚拟场景画面，降低了服务端的资源消耗，进一步提高了合成视频流的生成效率。
77.图6是本公开实施例提供的一种视频合成装置的结构示意图。该视频合成装置配置于服务端中。参见图6，该视频合成装置600具体包括：用户视频流接收模块610，用于接收用户视频流；其中，用户视频流为通过用户终端的摄像头拍摄所得的视频流；场景视频流生成模块620，用于利用独立于用户视角相机的目标视角相机，对目标虚拟场景进行录制，生成目标视角下的场景视频流；其中，目标虚拟场景为用户终端中显示的主题虚拟空间对应的虚拟场景；第一合成视频流生成模块630，用于融合用户视频流和场景视频流，生成合成视频流。
78.本公开实施例提供的上述视频合成装置，能够接收通过用户终端的摄像头拍摄所得的用户视频流，以及利用独立于用户视角相机的目标视角相机，对用户终端中显示的主题虚拟空间对应的目标虚拟场景进行录制，生成目标视角下的场景视频流；并且融合用户视频流和场景视频流，生成合成视频流；一方面，实现了在服务端中自动生成合成视频流，避免了人工合成视频存在的费时费力的问题；另一方面，通过服务端录制场景视频流，避免了在用户终端录制场景视频流并上传至服务端的过程中因设备性能和网络等原因而造成的合成视频卡顿的问题，既降低了对用户终端的设备性能和网络的要求，又解决了场景视频流上传慢和丢帧等问题，提高了视频合成的效率以及合成视频流的流畅性；又一方面，通过对目标虚拟场景进行录制而得到场景视频流，提高了合成视频流与目标虚拟场景的内容一致性。
79.在一些实施例中，视频合成装置600还包括用户操作指令接收模块，用于：在融合用户视频流和场景视频流，生成合成视频流之前，接收用户操作指令；相应地，场景视频流生成模块620包括：动作响应执行子模块，用于在目标虚拟场景中执行用户操作指令对应的虚拟对象动作响应；场景视频流生成子模块，用于利用目标视角相机，对目标虚拟场景进行录制，生成包含虚拟对象动作响应的场景视频流。
80.在一些实施例中，用户视频流中携带第一时间戳，且用户操作指令中携带第二时
间戳；相应地，视频合成装置600还包括用户操作指令缓存模块，用于：在接收用户操作指令之后，缓存用户操作指令；相应地，动作响应执行子模块具体用于：从各用户操作指令中筛选出第二时间戳小于或等于第一时间戳的目标操作指令；在目标虚拟场景中执行目标操作指令对应的虚拟对象动作响应。
81.在一些实施例中，用户操作指令接收模块具体用于：创建虚拟用户，并将虚拟用户关联至主题虚拟空间；从主题虚拟空间中共享用户操作指令。
82.在一些实施例中，目标虚拟场景中包括预置视图；相应地，第一合成视频流生成模块630具体用于：将用户视频流融合至场景视频流中的预置视图处，生成合成视频流。
83.在一些实施例中，视频合成装置600还包括：目标视频模板确定模块，用于在接收用户视频流之后，基于模板筛选条件，从各预设视频模板中确定与目标虚拟场景对应的目标视频模板；其中，模板筛选条件包括用户视频流的视频时长、用户信息、用户操作指令和播放音频中的至少一个，用户信息包括用户情绪和/或用户年龄，且用户信息用于匹配预设视频模板中的人物形象；用户操作指令用于匹配预设视频模板中的录制视角；播放音频用于匹配预设视频模板中的特效组件；第二合成视频流生成模块，用于融合用户视频流和目标视频模板，生成合成视频流。
84.进一步地，第二合成视频流生成模块具体用于：将用户视频流融合至目标视频模板中的绿幕位置处，生成合成视频流；和/或，基于目标视频模板中的至少一个预设时间点，确定目标视频模板中的视频合成位置，并将用户视频流融合至目标视频模板中的视频合成位置处，生成合成视频流。
85.在一些实施例中，用户视频流接收模块610具体用于：通过实时通信传输协议，从用户终端接收用户视频流。
86.在一些实施例中，主题虚拟空间包括线上直播间、虚拟游戏房间或虚拟教育空间。
87.本公开实施例所提供的视频合成装置可执行本公开任意实施例所提供的视频合成方法，具备执行方法相应的功能模块和有益效果。
88.值得注意的是，上述视频合成装置的实施例中，所包括的各个模块和子模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能模块/子模块的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。
89.本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行本公开任意实施例所说明的视频合成方法。
90.本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，计算机程序在被计算机的处理器执行时用于使计算机执行本公开任意实施例所
说明的视频合成方法。
91.本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被计算机的处理器执行时用于使计算机执行本公开任意实施例所说明的视频合成方法。
92.参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
93.如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器（rom）702中的计算机程序或者从存储单元708加载到随机访问存储器（ram）703中的计算机程序，来执行各种适当的动作和处理。在ram 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出（i/o）接口705也连接至总线704。
94.电子设备700中的多个部件连接至i/o接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
95.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（cpu）、图形处理单元（gpu）、各种专用的人工智能（ai）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（dsp）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，本公开任意实施例所说明的视频合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元707。在一些实施例中，计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行本公开任意实施例所说明的视频合成方法。
96.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
97.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd-rom）、光学储存设备、磁储存设备、或上述内容的任何合适组合。
98.如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
99.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，crt（阴极射线管）或者lcd（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。
100.可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（lan）、广域网（wan）和互联网。
101.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢炜航
技术所有人：北京新唐思创教育科技有限公司
我是此专利的发明人

上一篇：一种用于脱水污泥的圆盘式破桥装置的制作方法
上一篇：一种可注射缓释微胶囊及其制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。