远程培训视频的生成方法、装置、设备及存储介质与流程

文档序号：21007256发布日期：2020-06-05 23:14阅读：255来源：国知局

本发明涉及人工智能技术领域，尤其涉及一种远程培训视频的生成方法、装置、设备及计算机可读存储介质。

背景技术：

多媒体(multimedia)是多种媒体的综合，一般包括文本、声音和图像等多种媒体形式。多媒体是现代信息化的体现，也是社会发展的趋势，尤其是在教育领域中，多媒体教育也属于现代信息化的一个部分，大力促进多媒体教育已成为教育发展的潮流，同时也弥补了传统教学中的不足，可以实现不同地域之间的同时授课。

为了解决传统教育方式存在地域限制的问题，在现有技术中，通过利用互联网实现多媒体技术的远程授课，但是在目前的远程授课等培训中，讲师需要将课件(ppt/或其他文档)、电脑桌面向学生共享，但上课学生看电脑的时候看不到教师的表情、动作、肢体语言，因此会遗漏老师的肢体表达信息，除此之外，其互动性及趣味性也较差。

技术实现要素：

本发明的主要目的在于提供一种远程培训视频的生成方法、装置、设备及计算机可读存储介质，旨在解决现有的远程培训视频的展示过于单一，缺乏互动性和趣味性的技术问题。

为实现上述目的，本发明提供了一种远程培训视频的生成方法，应用于远程培训平台，所述远程培训视频的生成方法包括以下步骤：

获取培训过程中的视频流，其中，所述视频流包括：讲师授课时的授课视频和/或学员参训时的听课互动视频；

通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面，其中，所述独立画面包括所述讲师授课的独立人像画面、独立授课课件画面和独立学员画面中的一种或多种；

提取所述独立画面中的元素内容，以及所述元素内容位于画面中的位置信息；

根据所述位置信息构建虚拟讲堂的画面框架，所述画面框架为用于容纳所述独立画面的画面布局；

将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频。

可选地，在所述获取培训过程中的视频流的步骤之后，还包括：

检测所述视频流中的授课视频是否为混合视频，其中，所述混合视频包括所述讲师的人像视频和授课课件视频；

若所述授课视频为混合视频，则利用人像提取算法提取所述人脸视频中讲师的独立人像画面，以及利用字符检测算法提取所述授课课件视频中讲师当前使用的课件信息，得到所述独立授课课件画面；

若所述授课视频为非混合视频，则执行通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤。

可选地，所述通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤包括：

若所述视频流为所述讲师的授课视频时，根据预设的景深公式，计算所述授课视频中各画面的景深的深度值；

根据所述深度值识别所述授课视频中画面的前景区域和后景区域，其中，所述前景区域中包括人像画面；

利用图像抠图算法，将对所述前景区域从所述授课视频中提取出来，得到前景视频画面，以及将所述后景区域从所述授课视频中提取出来，得到所述独立授课课件画面；

根据预设的人像识别算法，识别所述前景区域中的人像画面，并将所述人像画面从所述前景区域中提取出来，形成所述独立人像画面。

可选地，所述通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤包括：

若所述视频流为所述学员的听课互动视频时，利用人脸识别技术，识别所述听课互动视频中是否存在满足课堂互动姿势的学员，其中，所述课堂互动姿势包括站立和举手；

若存在，则通过摄像头对所述学员进行人体扫描处理，得到所述学员的人像轮廓，并根据预设的景深公式计算所述人像轮廓在所述听课互动视频中的景深值；

以所述景深值作为画面切割临界点，将所述听课互动视频中位于所述临界点上的所有画面切割出来，形成所述独立学员画面。

可选地，所述提取所述独立人像画面、独立授课课件画面和/或独立学员画面中的元素内容，以及所述元素内容位于画面中的位置信息的步骤包括：

根据所述独立画面的长度和宽度创建画布，并选择所述画布中任意一角点作为坐标原点，建立二维坐标系；

基于所述二维坐标系，计算所述讲师的人像或者所述学员的人像位于所述独立画面中的坐标信息，以及计算授课课件的授课内容位于所述独立画面中的坐标信息；

根据所述坐标信息，将所述人像和课件内容从所述独立画面中提取出来。

可选地，所述根据所述位置信息构建虚拟讲堂的画面框架的步骤包括：

以所述独立授课课件画面作为ai讲堂的背景画布，并在所述背景画布上构建坐标系；

根据所述坐标信息，在所述背景画布上勾画与所述人像形状形同的人像填充区域，得到所述画面框架；

所述将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频的步骤包括：

将提取到的所述人像填充到对应的所述人像填充区域中，并通过边界插值背景融合算法，将所述人像与所述背景画布融合，得到所述培训视频。

可选地，所述景深计算公式为：

其中，δ容许弥散圆直径，f镜头焦距，f镜头的拍摄光圈值，l对焦距离。

为了解决上述的问题，本发明还提供了一种远程培训视频的生成装置，所述远程培训视频的生成装置包括：

采集模块，用于获取培训过程中的视频流，其中，所述视频流包括：讲师授课时的授课视频和/或学员参训时的听课互动视频；

分割模块，用于通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面，其中，所述独立画面包括所述讲师授课的独立人像画面、独立授课课件画面和独立学员画面中的一种或多种；

提取模块，用于提取所述独立画面中的元素内容，以及所述元素内容位于画面中的位置信息；

合成模块，用于根据所述位置信息构建虚拟讲堂的画面框架，所述画面框架为用于容纳所述独立画面的画面布局；将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频。

可选地，所述远程培训视频的生成装置还包括检测模块，用于检测所述视频流中的授课视频是否为混合视频，其中，所述混合视频包括所述讲师的人像视频和授课课件视频；

若所述授课视频为混合视频，则所述分割模块利用人像提取算法提取所述人脸视频中讲师的独立人像画面，以及利用字符检测算法提取所述授课课件视频中讲师当前使用的课件信息，得到所述独立授课课件画面；

若所述授课视频为非混合视频，则控制所述分割模块执行通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤。

可选地，所述分割模块包括第一计算单元、识别单元和第一切割单元，其中：

所述第一计算单元用于根据预设的景深公式，计算所述授课视频中各画面的景深的深度值；

所述识别单元用于根据所述深度值识别所述授课视频中画面的前景区域和后景区域，其中，所述前景区域中包括人像画面；

所述第一切割单元用于利用图像抠图算法，将对所述前景区域从所述授课视频中提取出来，得到前景视频画面，以及将所述后景区域从所述授课视频中提取出来，得到所述独立授课课件画面；以及根据预设的人像识别算法，识别所述前景区域中的人像画面，并将所述人像画面从所述前景区域中提取出来，形成所述独立人像画面。

可选地，所述分割模块包括人脸识别单元、第二计算单元和第二切割单元，其中：

所述人脸识别单元用于利用人脸识别技术，识别所述听课互动视频中是否存在满足课堂互动姿势的学员，其中，所述课堂互动姿势包括站立和举手；

若存在，则所述第二计算单元通过摄像头对所述学员进行人体扫描处理，得到所述学员的人像轮廓，并根据预设的景深公式计算所述人像轮廓在所述听课互动视频中的景深值；

所述第二切割单元用于以所述景深值作为画面切割临界点，将所述听课互动视频中位于所述临界点上的所有画面切割出来，形成所述独立学员画面。

可选地，所述提取模块用于根据所述独立画面的长度和宽度创建画布，并选择所述画布中任意一角点作为坐标原点，建立二维坐标系；基于所述二维坐标系，计算所述讲师的人像或者所述学员的人像位于所述独立画面中的坐标信息，以及计算授课课件的授课内容位于所述独立画面中的坐标信息；根据所述坐标信息，将所述人像和课件内容从所述独立画面中提取出来。

可选地，所述合成模块用于以所述独立授课课件画面作为ai讲堂的背景画布，并在所述背景画布上构建坐标系；根据所述坐标信息，在所述背景画布上勾画与所述人像形状形同的人像填充区域，得到所述画面框架；所述将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频的步骤包括：将提取到的所述人像填充到对应的所述人像填充区域中，并通过边界插值背景融合算法，将所述人像与所述背景画布融合，得到所述培训视频。

可选地，所述景深计算公式为：

其中，δ容许弥散圆直径，f镜头焦距，f镜头的拍摄光圈值，l对焦距离。

此外，为实现上述目的，本发明还提供了一种培训设备，培训设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的远程培训视频的生成程序，所述远程培训视频的生成程序被所述处理器执行时实现如上任一项所述的远程培训视频的生成方法的步骤。

此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有远程培训视频的生成程序，所述远程培训视频的生成程序被所述处理器执行时实现如上任一项所述的远程培训视频的生成方法的步骤。

本发明通过提供一种远程培训视频的生成方法，主要是通过实时采集讲师的授课视频和学生的参训视频，基于图像分割模型进行视频的分割，提取单独的画面，并从画面中提取元素内容和其位于原画面中的位置信息，根据位置信息构建合成视频的画面框架，基于画面框架将视频流合成新的培训视频，以得到ai讲堂视频，这样的视频可以使得双方都能实时观察授课和听课的状态，以及提高的互动性，能快速准确地传达培训的内容。

附图说明

图1为本发明实施例方案涉及的远程培训平台的运行环境的结构示意图；

图2为本发明提供的远程培训视频的生成方法一实施例的流程示意图；

图3为本发明提供的远程培训视频的生成方法另一实施例的流程示意图；

图4为本发明提供的元素内容提取的流程示意图；

图5为本发明提供的课堂的画面布局的流程示意图；

图6为本发明提供的远程培训视频的生成方法又一实施例的流程示意图；

图7为本发明提供的远程培训视频的生成装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种远程培训平台，参照图1，图1为本发明实施例方案涉及的远程培训平台的运行环境的结构示意图。

如图1所示，该远程培训平台包括：处理器101，例如cpu，通信总线102、用户接口103，网络接口104，存储器105。其中，通信总线102用于实现这些组件之间的连接通信。用户接口103可以包括显示屏(display)、输入单元比如键盘(keyboard)，网络接口104可选地可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器105可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器105可选地还可以是独立于前述处理器101的存储装置。

本领域技术人员可以理解，图1中示出的远程培训平台的硬件结构并不构成对本发明中的远程培训视频的生成装置和培训设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器105中可以包括操作系统、网络通信程序模块、用户接口程序模块以及用于实现远程培训视频的生成程序。其中，操作系统是调度远程培训平台中各模块之间的通信以及执行存储器中存储的远程培训视频的生成程序，以实现对培训视频的合成，而这里的合成是包括讲师的人像、授课课件和讲师与学生之间的互动画面的合成，这样可以大大提高的培训视频的实时性，以及趣味性，同时还实现了远程授课的现场感受。

在图1所示的远程培训平台的硬件结构中，网络接口104主要用于接入网络；用户接口103主要用于监控讲师端的实时授课画面和学生端的实时听课画面，通过用户接口103的监控获取两端的画面，然后控制处理器101调用存储器105中存储的远程培训视频的生成程序对监控到的画面进行实时的合成，并更新给双方，以实现双方可以实时观察对方的画面，并且还能体现授课画面的整体性和现场感受，增强了授课画面的趣味性，具体实现如以下提供的远程培训视频的生成方法的各实施例的操作。

基于上述远程培训平台的硬件结构，提出本发明远程培训视频的生成方法的各个实施例，当然这里列举的远程培训平台只是用于执行本发明实施例提供的远程培训视频的生成方法的一种实现设备，在实际应用中，其实现设备也可以是一种培训机器人，该培训机器人可以是ap或者vr设备，通过执行该方法来实现远程授课，从而增强培训视频画面的现场体验感，同时还可以实现双方互动的培训画面的体现。

参照图2，图2为本发明实施例提供的远程培训视频的生成方法的流程图。该方法实质上就是实现远程培训的ai讲堂，具体是通过获取讲师在培训过程中的授课样本集、学员在培训过程中的听课互动样本集以及授课课件样本集，根据所述授课样本集、听课互动样本集、授课课件样本集结合图像分割模型以及视频合成模型构建虚拟ai讲堂。

在培训过程中，通过人脸识别确定参训的具体人员，然后采集讲师在授课过程中的视频流，采集学员在参训过程中的视频流，采集课件播放的视频流，所述视频流包括所述讲师授课过程中的授课样本集、所述学员参训过程中的听课互动样本集，将所述视频流上传至所述图像分割模型中进行图像分割处理，获得讲师授课独立样本、学员听课互动独立样本、课件样本，根据所述讲师授课独立样本、学员听课互动独立样本、课件样本输入视频合成模型生成远程培训ai讲堂，从而解决教育的地域性限制，同时还能实现授课者和备授课者之间的互动体验，该远程培训视频的生成方法具体包括以下步骤：

步骤s210，获取培训过程中的视频流，其中，所述视频流包括：讲师授课时的授课视频和/或学员参训时的听课互动视频；

在该步骤中，这里的视频流应当理解为是对分别从讲师端和学员端产生的视频数据的统称，而该视频流中可以只包括其中一端的视频数据，也可以是包括两端的视频数据，具体可以是通过互联网实时采集，也可以是从远程培训的中转平台的数据库中读取，若是分别从两端采集时，则首先需要通过互联网或者登陆专用的培训账号建立两端的通信连接，而该连接可以连接到中间控制平台，也可以是两端相互连接。

若是连接到中间控制平台时，则本实施例中的方法应当应用在中间控制平台上，最后合成视频后，将合成的视频实时同步到两端上进行播放显示；若是两端相互连接时，则选择讲师端作为主操作端，即是本实施例提供的方法应用在讲师端的培训设备上，讲师端的培训设备监控学员端上的视频流，将学员端的视频流分割提取关键信息合成到讲师的视频流中，并同步给学员端进行播放。

在实际应用中，采用深度摄像头采集远程培训过程中讲师授课的视频，提取视频中每一帧的颜色和深度信息，并对人像所在的区域进行标注，得到对应的标签，通过颜色和深度信息训练卷积神经网络，三维世界中人像存在颜色和空间上的连续性，可用此卷积神经网络预测该视频帧中可能是人像的区域，并进行分割获取授课讲师原图的视频帧。

步骤s220，通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面，其中所述独立画面包括所述讲师授课的独立人像画面、独立授课课件画面和独立学员画面；

在实际应用中，这里的图像分割模型具体可以是以下几种算法中任意一种的分割模型，分别是阈值的分割算法、边缘的分割算法、区域的分割算法、聚类分析的图像分割算法和人工神经网络的分割算法，基于这些算法进行图像分割的训练，得到最终的模型。

在本实施例中，优选的选择人工神经网络的分割算法，其基本思想是通过训练多层感知来得到线性决策函数，然后用决策函数对像素进行分类来达到分割的目的，用人工神经网络的方法分割图像，需要大量的训练数据。神经网络存在巨量的连接，容易引入空间信息，从而进一步的解决了图像中的噪声和不均匀问题。在实际应用中，至于该选择何种网络结构来作为图像分割模型，具体根据远程培训的实际需求来选择。

步骤s230，提取所述独立人像画面、独立授课课件画面和/或独立学员画面中的元素内容，以及所述元素内容位于画面中的位置信息；

在本实施例中，当获取到的视频流是讲师端的视频流时，则对所述视频流中的讲师授课画面和课件画面进行分割分离，具体是通过人像识别算法和文字识别算法来进行识别区分出人像区域和课件区域，基于该区分后，将两个区域中的视频画面提取出来，当然也可以通过视频的抠图技术将画面中的人像抠取出来，并填充课件区域的背景颜色，从而实现授课画面和课件画面的分离。

在实际应用中，对于这两种画面的分割，还可以通过区域标注的方式来提取分割，即是先识别出来，然后对区域采用不同标识进行跟踪性的描边，并对该区域的移动情况进行实时监控跟踪，同时计算出所述区域的位置信息，该位置信息是针对于画面的覆盖区域来说的。

步骤s240，根据所述位置信息构建虚拟讲堂的画面框架，所述画面框架为用于同时容纳所述独立人像画面、独立授课课件画面和独立学员画面的画面布局；

在该步骤中，这里的画面框架指的是空白的背景画面，其中根据不同元素内容的位置信息进行了固定的游走的区域，或者是建立了区域与画面中人像的连接关系，该区域会跟随着画面上的人像进行移动。

在实际应用中，该画面框架中与授课课件画面对应的区域是固定设置，基于该固定区域，建立讲师人像区域和学员人像区域于固定的区域的运动关系，同时还建立运动区域与视频画面的关联，以得到最终的画面框架。

步骤s250，将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频。

在该步骤中，在添加元素内容时，还可以通过预先设置画面框架中每个位置填充固定类型的元素的方式来自动填充，即是先构建位置与元素之间的对应关系，通过对应的识别技术监控对应的画面即可获取到对应的元素内容，将该元素内容映射到画面框架中对应的区域上，从而同时可以看到双方的任何动作及信息的培训视频画面。

在实际应用中，对于人像的映射，其可以是只映射其移动关系，不需要映射实际的人像画面，映射的画面可以是系统预设的小人形象，当然为了提高互动性和趣味性，可以是直接映射真人形象。

在本实施例中，对于讲师端的视频流会存在两种情况，即是授课画面和课件画面可以分开录制获取，也可以是分开录制获取，若讲师侧是使用投影授课时，有可能是讲师和课件一起被录制采集，当讲师只使用电脑授课时，一般不会同时录制两者的视频画面，而是分开录制。

在实际应用中，对于讲师的授课视频一般会分为两部分进行获取，一部分是讲师的讲课视频，另一部分是课件视频，而对于这两种情况，在摄像头录制时会存在id的不同，所以为了便于视频的合成，在本实施例中，在获取到视频流之后，还需要对视频流进行检测，具体过程如下：

检测所述视频流中的授课视频是否为混合视频，其中，所述混合视频包括所述讲师的人像视频和授课课件视频；

若所述授课视频不是混合视频，则执行通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤。

在实际应用中，对于检测所述授课视频是否为混合视频具体可以通过检测所述授课视频的捕捉轨道是否为单轨道，若是，则确定所述授课视频不是混合视频，进一步的，还可以是通过检测授课视频中的视频源来确定，当检测到不属于混合视频时，即是说视频流中只从一个视频源采集到的视频，则跳转至步骤s220进行画面的分割处理，当然在分割处理之前还可以检测一下视频流中是否存在人像画面，若存在，则执行步骤s220，反之直接跳转至步骤s230。

若检测到属于混合视频时，即是视频流中存在两个以上视频源采集到的视频素材时，通过不同的提取算法对视频流进行画面的提取处理，具体处理过程如图3所示。

对于混合视频流的采集，具体是可以通过以下方式进行提取画面：

s301，将第一源视频和第二源视频以帧为单位分别存储到第一视频帧队列和第二视频帧队列中；

s302，从第一视频帧队列中提取一帧第一源视频的图像，对所述图像进行处理，将感兴趣的运动目标提取出来，获取前景图像；

s303，从第二视频帧队列中提取一帧第二源视频的图像，将获取的前景图像和从第二视频帧队列中提取的一帧第二源视频的图像分别存储为不同的画面；

s304，重复步骤s302～s303，直至将第一视频帧队列和第二视频帧队列中的图像全部处理完毕，最后将提取到的图像合成新的画面集合，然后将从学员端提取到的画面在合成在画面集合中。

在本实施例中，为了减少远程培训平台的数据处理，具体可以在分割授课视频时，将讲师端的视频和学员端的视频分开处理，优选的可以单独放置在对应的录制设备上处理，对于讲师端的处理具体为：

若所述视频流为所述讲师的授课视频时，所述通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤包括：

根据预设的景深公式，计算所述授课视频中各画面的景深的深度值；

根据所述深度值识别所述授课视频中画面的前景区域和后景区域，其中，所述前景区域中包括人像画面；

根据预设的人像识别算法，识别所述前景区域中的人像画面，并将所述人像画面从所述前景区域中提取出来，形成所述独立人像画面。

在本实施例中，若所述视频流为所述学员的听课互动视频时，所述通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面的步骤包括：

利用人脸识别技术，识别所述听课互动视频中是否存在满足课堂互动姿势的学员，其中，所述课堂互动姿势包括站立和举手；

以所述景深值作为画面切割临界点，将所述听课互动视频中位于所述临界点上的所有画面切割出来，形成所述独立学员画面。

在本实施例中，得到景深计算公式如下：

其中，δl景深，δ容许弥散圆直径，f镜头焦距，f镜头的拍摄光圈值，l对焦距离，δl1前景深。

在实际应用中，一般从学员端采集到的视频流都是只有学员的人像视频，所以只需要进行人像的提取即可，当然也不排除同时采集到授课课件的画面，对于这种情况，也是采用人脸识别技术从视频流中提取出人像的画面即可，而课件的不需要提取，在合成视频时使用讲师端的授课课件画面即可，这样可以减少合成视频的信息的错误概率。

在本实施例中，对学员存在互动时，还需要记录学员的互动信息，即是说还需要通过动作的跟踪提取学员的各种动作信息和提问的信息。

基于上述的计算公式计算出视频流中的各个景深后，基于景深来提取其中的所述讲师授课的独立人像画面、独立授课课件画面和独立学员画面，而在实际应用中，所述独立人像画面和独立授课课件画面一般是基于讲师端的视频流中获取到，也即是说将讲师的人像所在的景深为前景区域，从前景区域中获取讲师的人像画面，而景深值相对加大的为后景区域，从其中提取出课件信息。

为了提高培训视频的质量，在本实施例中，在提取到的对应的画面之后，还通过抠图和文字提取技术，从对应的画面中提取出授课和听课的重要信息，基于重要信息构建一个新的视频画面，即是提取所述独立人像画面、独立授课课件画面和/或独立学员画面中的元素内容，以及所述元素内容位于画面中的位置信息。

在实际应用中，该提取步骤具体实现过程如图4所示：

步骤s401，根据所述独立画面的长度和宽度创建画布，并选择所述画布中任意一角点作为坐标原点，建立二维坐标系；

步骤s402，基于所述二维坐标系，计算所述讲师的人像或者所述学员的人像位于所述独立画面中的坐标信息，以及计算授课课件的授课内容位于所述独立画面中的坐标信息；

步骤s403，根据所述坐标信息，将所述人像和课件内容从所述独立画面中提取出来。

在实际应用中，在创建二维坐标系时，通常是以画面的显示设备来极性构建，而对显示尺寸不同的，可以根据分辨率进行转换，以得到相对应的位置信息。

在本实施例中，对于元素的提取，还可以是根据颜色来进行区分提取，例如，识别背景颜色，将背景颜色中的所有元素提取出来作为课件信息，将非背景颜色的元素提取出来作为人像元素，当然对于人像元素的提取也可以通过判断是否在移动，若移动则认为是人像元素，然后进行轮廓的描绘提取。

进一步的，基于提取的元素构建新的培训视频画面之前，还需要构建课堂的画面布局，具体的构建步骤如图5所示：

步骤s501，以所述独立授课课件画面作为ai讲堂的背景画布，并在所述背景画布上构建坐标系；

步骤s502，根据所述坐标信息，在所述背景画布上勾画与所述人像形状形同的人像填充区域，得到所述画面框架；

基于该构建的画面框架，将提取到的元素对应填充到对应的位置中即可，具体的所述将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频的步骤包括：

将提取到的所述人像填充到对应的所述人像填充区域中，并通过边界插值背景融合算法，将所述人像与所述背景画布融合，得到所述培训视频。

在实际应用中，在对提取到的元素合成培训视频的过程中，可以才有视频合成模型来实现，具体的，该视频合成模型在将画面框架中的元素合成一个完整的视频后，还包括对填充后的培训视频进行润色处理，也即是说通过去燥，羽化等处理将画面框架中的边缘相互融合，从而实现视频素材的无缝连接。

综上所述，通过本实施例提供的方法生成培训视频，可以提升远程培训场景的学员参与感以及讲师学员的互动效果，最终协助学校、机构等在远程培训、授课等环节提升培训效果及学员学习成绩。

下面以讲师端的授课视频为例，详细说明本发明提供培训视频的生成方法的实现，如图6所示。

步骤s601，采用深度摄像头采集远程培训过程中讲师授课的视频；

其中，这里的视频是包括讲师的人像和课件信息，优选的，这里的课件信息可以是直接从培训设备上读取即可，当然，也可以是采用深度摄像头从培训视频的投影屏中录制获得。

步骤s602，提取视频中每一帧的颜色和深度信息，并对人像所在的区域进行标注，得到对应的标签；

在本实施例中，在提取视频帧时，具体可以通过颜色和深度信息训练卷积神经网络，基于训练后的神经网络提取视频中的颜色和深度信息，并且还建立颜色、深度信息以及标签之间的三维空间中的连续性，进一步的，还可以是加上与讲师人像的空间上的连续性，可用此卷积神经网络预测该视频帧中可能是人像的区域，并进行分割获取授课讲师原图的视频帧。

步骤s603，将获取的授课讲师和设置的背景图进行叠加，对边界进行插值去噪获取生成的视频帧；

步骤s604，根据视频帧的时间序列进行组合，得到ai讲堂。

发明基于图像分割和视频合成的远程培训ai讲堂通过图像分割的方式提取讲师授课视频和学员互动等行为视频，然后通过实时在线视频生成的方式结合课件视频，生成ai讲堂，能够极大地提升远程培训场景的学员参与感以及讲师学员的互动效果，最终协助学校、机构等在远程培训、授课等环节提升培训效果及学员学习成绩。

在本实施例中，若同时也存在学员的互动视频时，其还可以将学员的实时听课视频信息增加到合成的ai课堂视频中，其实现过程：

首先，在培训过程中通过人脸识别确定参训的具体人员，采集讲师在授课过程中的视频流，采集学员在参训过程中的视频流，采集课件播放的视频流，所述视频流包括所述讲师授课过程中的授课样本集、所述学员参训过程中的听课互动样本集；

然后，将所述视频流上传至所述图像分割模型中进行图像分割处理，获得讲师授课独立样本、学员听课互动独立样本、课件样本；

根据所述讲师授课独立样本、学员听课互动独立样本、课件样本输入视频合成模型生成远程培训ai讲堂。

这时，在视频合成模型合成视频的过程中，还需要对讲师授课独立样本、学员听课互动独立样本、课件样本与从讲师端或者到的讲师授课独立样本、课件样本进行比较去重，将不相同的视频帧合成到视频中，从而保证视频的简洁和准确性，还是视频的实时性。

综上，本发明基于图像分割和视频合成的远程培训ai讲堂使用图像分割模型以及视频合成模型对学员参训过程以及讲师授课过程进行分析处理，生成远程培训ai讲堂，可以提升远程培训场景的学员参与感以及讲师学员的互动效果，最终协助学校、机构等在远程培训、授课等环节提升培训效果。

为了解决上述的问题，本发明实施例还提供了一种远程培训视频的生成装置，如图7所示，所述远程培训视频的生成装置包括：

采集模块71，用于获取培训过程中的视频流，其中，所述视频流包括：讲师授课时的授课视频和/或学员参训时的听课互动视频；

分割模块72，用于通过预设的图像分割模型，对所述视频流进行分割处理，得到独立画面，其中所述独立画面包括所述讲师授课的独立人像画面、独立授课课件画面和独立学员画面；

提取模块73，用于提取所述独立人像画面、独立授课课件画面和/或独立学员画面中的元素内容，以及所述元素内容位于画面中的位置信息；

合成模块74，用于根据所述位置信息构建虚拟讲堂的画面框架，所述画面框架为用于同时容纳所述独立授课画面、独立授课课件画面和独立学员画面的画面布局；将所述元素内容添加至所述画面框架的对应位置上，得到ai讲堂的培训视频。

基于本装置的执行功能和功能对应的执行流程与上述本发明实施例的远程培训视频的生成方法实施例说明内容相同的，因此本实施例对远程培训视频的生成装置的实施例内容不做过多赘述。

此外，本发明实施例还提供了一种培训设备，所述培训设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的远程培训视频的生成程序，所述远程培训视频的生成程序被所述处理器执行时所实现的方法可参照本发明远程培训视频的生成方法的各个实施例，因此不再过多赘述。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有远程培训视频的生成程序，所述远程培训视频的生成程序被处理器执行时所实现的方法可参照本发明远程培训视频的生成方法的各个实施例，因此不再过多赘述。

在本发明实施例提供的方法和装置，主要是使用图像分割模型以及视频合成模型对学员参训过程以及讲师授课过程进行分析处理，生成远程培训ai讲堂，从而提升远程培训场景的学员参与感以及讲师学员的互动效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是采用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧光礼
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

上一篇：高强度钢板及其制造方法与流程
上一篇：一种改性再生PE纳米复合材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。