视频处理方法、装置和电子设备与流程

文档序号：19605624发布日期：2020-01-03 13:30阅读：220来源：国知局

本申请涉及视频技术领域，并且更具体地，涉及一种视频处理方法、装置和电子设备。

背景技术：

目前，随着信息技术的发展，学生的教学形式包括在线的直播课、录播课以及传统的面授课等多种形式，其中，面授课能营造更好的学习氛围，学生的注意力更容易集中且与老师有更直接的互动，使学生具有更好的学习效果。但对于家长而言，却无法参与大部分的面授课，即使面授课的课堂教室安装有摄像头，也只能拍摄全体学生，此外，由于摄像头的成本原因，大部分摄像头易受环境光影响，拍摄的视频图像质量较差，无法清晰的向每一位家长呈现每一位学生的课堂表现，因而家长不能针对性的掌握学生的学习进程、态度以及实际收效，难以有针对性的对学习效果进行查漏补缺以及根据学生兴趣调整课程策略。

因此，如何具有针对性的向家长呈现质量更好的学生视频图像，是一项亟待解决的技术问题。

技术实现要素：

本申请实施例提供了一种视频处理方法、装置和电子设备，能够对包括多个人体目标的视频进行处理，得到针对多个人体目标中任意一个人体目标的剧情视频片段，能够有针对性的对人体目标进行观察，提升视频观看者的感官体验。

第一方面，提供了一种视频处理的方法，包括：获取第一视频，该第一视频中包括多个人体目标；根据该第一视频的至少一帧图像确定该多个人体目标中第一目标的检测区域；对该第一视频中的该第一目标的检测区域进行人体行为特征检测，以获取该第一视频中该第一目标的第一剧情视频片段。

根据本申请实施例的视频处理的方法，可以从包括多个人体目标的第一视频中提取出任意一个目标，例如第一目标的行为特征剧情视频片段，该剧情视频片段中仅包括第一目标，且能够体现第一目标的行为特征，能够有针对性的对该第一目标进行观察，解决了现有的第一视频不能针对性的体现其中每个人体目标的问题，可以提升视频观看者的感官体验。

结合第一方面，在第一方面的第一种实现方式中，该方法还包括：获取第二视频，该第二视频中包括第二目标；

根据该第一剧情视频片段的时段，获取相同时段内，该第二视频中的第二剧情视频片段；其中，该第一剧情视频片段和/或该第二剧情视频片段用于合成该第一目标的剧情视频。

根据本申请实施例的视频处理的方法，获取到的第一剧情视频片段和第二剧情视频片段分别为对应于第一目标的行为特征的剧情视频片段以及在相同时段内第二目标对于第一目标行为特征反应的剧情视频片段。将该第一剧情视频片段和第二剧情视频片段合并处理后形成第一目标的剧情视频，可以更好的呈现第一目标的表现，以及第二目标对于第一目标表现的反馈，进一步提升视频观看者的感官体验。

结合第一方面及其上述实现方式，在第一方面的第二种实现方式中，该根据该第一视频的至少一帧图像确定该多个人体目标中第一目标的检测区域，包括：采用目标检测算法和/或人脸检测算法对该至少一帧图像进行检测，得到该至少一帧图像中的该第一目标的人体位置坐标，根据该人体位置坐标确定该第一目标的检测区域。

结合上述第一方面的第二种实现方式，在第一方面的第三种实现方式中，该目标检测算法包括进一步提升的基于候选区域的卷积神经网络faster-rcnn；和/或，该人脸检测算法包括多任务卷积神经网络mtcnn。

结合上述第一方面的第二种实现方式或者第三种实现方式，在第一方面的第四种实现方式中，该根据该人体位置坐标确定该第一目标的检测区域，包括：根据该人体位置坐标和第一参考坐标确定该第一目标的检测区域；其中，该第一参考坐标为对应于第一目标的第一参考物体的坐标。

结合上述第一方面的第四种实现方式，在第一方面的第五种实现方式中，该根据该人体位置坐标和参考坐标确定该第一目标的检测区域，包括：获取参考图像，该参考图像包括对应于该多个人体目标的多个参考物体，其中，该第一目标对应于该多个参考物体中的第一参考物体；采用目标检测算法对该参考图像进行检测，以确定该第一参考物体的该第一参考坐标；根据该人体位置坐标和该第一参考坐标确定该第一目标的检测区域。

结合上述第一方面的第五种实现方式，在第一方面的第六种实现方式中，该目标检测算法为基于迁移学习得到的单步多框检测ssd算法。

通过结合参考图像的检测以及第一视频中检测区域的检测，除了可以修正第一视频中人体目标的人体位置坐标以外，还可以由参考图像中多个参考物体的坐标对应多个人体目标，换言之，可以通过第一参考物体的坐标位置确认该第一参考物体对应的第一目标的信息，不需要额外采集第一目标的其它信息，提高视频处理的效率。

结合第一方面及其上述实现方式，在第一方面的第七种实现方式中，该对该第一视频中的该第一目标的检测区域进行人体行为特征检测，以获取该第一视频中该第一目标的第一剧情视频片段，包括：对该第一视频的该第一目标的检测区域进行人脸表情检测和/或人体姿态检测，以获取该第一目标的第一剧情视频片段，其中，该第一剧情视频片段包括目标表情和/或目标姿态。

结合上述第一方面的第七种实现方式，在第一方面的第八种实现方式中，该目标表情包括笑，和/或，目标姿态包括举手、起立。

结合上述第一方面的第七种实现方式或者第八种实现方式，在第一方面的第九种实现方式中，该对该第一视频的该第一目标的检测区域进行人脸表情检测，包括：对该第一视频的该第一目标的检测区域进行人脸表情特征提取以及人脸表情识别。

结合上述第一方面的第九种实现方式，在第一方面的第十种实现方式中，该人脸表情特征提取包括方向梯度直方图hog特征提取，该人脸表情识别包括支持向量机svm分类以进行人脸表情识别。

结合上述第一方面的第七种实现方式至第十种实现方式中的任意一种实现方式，在第一方面的第十一种实现方式中，该对该第一视频的该第一目标的检测区域进行人体姿态检测，包括：采用人体姿态检测算法对第一视频进行人体骨骼关键点的检测。

结合上述第一方面的第十一种实现方式，在第一方面的第十二种实现方式中，该人体姿态检测算法包括：openpose人体姿态检测算法。

结合第一方面及其上述实现方式，在第一方面的第十三种实现方式中，该方法还包括：对获取的n个第一剧情视频片段设定权重，其中n为大于1的正整数；根据该n个第一剧情视频片段的权重，从该n个剧情视频片段中选择m个第一剧情视频片段，其中，1≤m≤n，m为正整数；该m个第一剧情视频片段用于形成该第一目标的剧情视频。

结合上述第一方面的第十三种实现方式，在第一方面的第十四种实现方式中，该权重包括：置信度权重w1、语义权重w2、均衡权重w3以及附加权重w4；其中，该权重w的计算方式为：w＝w1+w2×w3+w4。

结合上述第一方面的第十三种实现方式或者第十四种实现方式，在第一方面的第十五种实现方式中，该m个第一剧情视频片段为该n个第一剧情视频片段中权重最大的m个视频片段。

根据本申请实施例中的视频处理的方法，从n个第一剧情视频片段中选择m个第一剧情视频片段，再基于m个第一剧情视频片段生成第一目标的剧情视频，可以根据最终第一目标的剧情视频的时长调整m的数量，能够更加灵活的生成第一目标的不同时长的剧情视频。

结合第一方面及其上述实现方式，在第一方面的第十六种实现方式中，该第一视频为包括多个学生的课堂视频，该第一目标为一个学生；该第二视频为老师的课堂视频，该第二目标为老师。

结合第一方面及其上述实现方式，在第一方面的第十七种实现方式中，该方法还包括：对剧情视频片段进行人脸检测，以确定该剧情视频片段的优化处理方式，其中，该剧情视频片段包括第一剧情视频片段和第二剧情视频片段；根据该优化处理方式对该剧情视频片段进行优化处理以得到该第一目标的优化视频片段，该优化视频片段用于形成该第一目标的剧情视频。

根据本申请实施例中的视频处理的方法，根据人脸检测确定剧情视频片段的优化处理方式，能够更好的针对视频中的人脸区域进行视频图像优化，形成更优、更具有观看效果的视频。

结合上述第一方面的第十七种实现方式，在第一方面的第十八种实现方式中，该对该剧情视频片段进行优化处理，包括：采用着色器模块对该剧情视频片段进行图像优化处理；其中，该着色器模块包括多个处理模块，一个处理模块用于进行一种图像优化处理。

结合上述第一方面的第十八种实现方式，在第一方面的第十九种实现方式中，该着色器模块还包括显示模块，该显示模块用于实时显示该第一目标的剧情视频。

结合上述第一方面的第十七种实现方式或者第十八种实现方式，在第一方面的第二十种实现方式中，该多个处理模块的数量在第一阈值内，基于池维护方式对该多个处理模块进行维护。

结合上述第一方面的第十七种实现方式至第二十种实现方式中的任意一种实现方式，在第一方面的第二十一种实现方式中，该优化处理包括图像变换，该对该剧情视频片段进行人脸检测，以确定该剧情视频片段的优化处理方式，包括：对该剧情视频片段中的特征区域进行人脸精检测，以确定该剧情视频片段中多帧特定帧图像的图像变换方式；其中，该特征区域包括人脸区域；

该根据该优化处理方式对该剧情视频片段进行优化处理以得到该第一目标的优化视频片段，包括：根据该图像变换方式对该多帧特定帧图像进行图像变换以模拟镜头运动，形成该第一目标的镜头优化视频片段；

结合上述第一方面的第二十一种实现方式，在第一方面的第二十二种实现方式中，该人脸精检测包括多任务卷积神经网络mtcnn算法。

其中，该第一目标的镜头优化视频片段用于形成该第一目标的优化视频片段。

根据本申请实施例的视频处理的方法，能够基于固定的摄像设备拍摄的视频，针对不同的目标，处理得到包括多种镜头语言的视频，降低成本的同时，提高用户体验。

结合上述第一方面的第二十一种实现方式或者第二十二种实现方式，在第一方面的第二十三种实现方式中，该多帧特定帧图像为以特定帧速率选择的图像，其中，该特定帧频率小于该剧情视频片段的平均帧速率。

结合上述第一方面的第二十三种实现方式，在第一方面的第二十四种实现方式中，该第一剧情视频片段中的特征区域为预设区域，该第二剧情视频中的特征区域为通过人脸粗检测确定的区域。

结合上述第一方面的第二十四种实现方式，在第一方面的第二十五种实现方式中，该人脸粗检测的方法包括哈尔haar特征提取以及自适应提升adaboot算法。

结合上述第一方面的第二十四种实现方式或者第二十五种实现方式，在第一方面的第二十六种实现方式中，该人脸粗检测的粗检测速率小于该剧情视频片段的平均帧速率，且大于该特定帧速率。

结合上述第一方面的第二十四种实现方式至第二十六种实现方式中任意一种实现方式，在第一方面的第二十七种实现方式中，该对该剧情视频片段中的特征区域进行人脸精检测，包括：在多个检测周期内，对该剧情视频片段中的特征区域进行人脸精检测，其中，该检测周期为该人脸粗检测的检测周期。

结合上述第一方面的第二十七种实现方式，在第一方面的第二十八种实现方式中，该在多个检测周期内，对该剧情视频片段中的特征区域进行人脸精检测，以确定该剧情视频片段中多帧特定帧图像的图像变换方式，包括：在多个检测周期的每个检测周期内，采用人脸检测算法对该剧情视频片段中的特征区域进行人脸精检测得到人脸数量累加值和人脸坐标累加值；基于该人脸数量累加值与该帧速率的比值，确定每个检测周期内该特定帧图像的缩放比例；基于该人脸坐标累加值与该人脸数量累加值的比值，确定每个检测周期内该特定帧图像的移动距离。

结合上述第一方面的第二十八种实现方式，在第一方面的第二十九种实现方式中，该根据该图像变换方式对该多帧特定帧图像进行图像变换以得到该第一目标的镜头优化视频片段，包括：根据该多帧特定帧图像的缩放比例和该多帧特定帧图像的移动距离，对该多帧特定帧图像进行图像变换以得到该第一目标的镜头优化视频片段。

结合上述第一方面的第二十一种实现方式至第二十九种实现方式中的任一种实现方式，在第一方面的第三十种实现方式中，该第一目标的镜头优化视频片段中每一帧图像的运动轨迹采用缓动函数进行拟合。

结合上述第一方面的第三十种实现方式，在第一方面的第三十一种实现方式中，该缓动函数为正弦曲线easeinoutsine缓动函数。

结合上述第一方面的第三十种实现方式或者第三十一种实现方式，在第一方面的第三十二种实现方式中，该缓动函数的缓动时长根据该特定帧速率确定。

结合上述第一方面的第二十一种实现方式至第三十二种实现方式中的任一种实现方式，在第一方面的第三十三种实现方式中，该优化处理还包括人脸图像处理，该方法还包括：对该镜头优化视频片段进行人脸图像处理以凸显人脸，形成该第一目标的优化视频片段。

结合上述第一方面的第三十三种实现方式，在第一方面的第三十四种实现方式中，该人脸图像处理包括超分辨率重建，该对该镜头优化视频片段进行人脸图像处理，包括：对该镜头优化视频片段中的人脸区域进行超分辨率重建得到多张超分辨率人脸区域图像，其中，该人脸区域为基于该人脸精检测得到的人脸区域。

结合上述第一方面的第三十四种实现方式，在第一方面的第三十五种实现方式中，该超分辨率重建的算法包括生成对抗网络gan中的pix2pix模型算法。

结合上述第一方面的第三十四种实现方式或者第三十五种实现方式，在第一方面的第三十六种实现方式中，该人脸图像处理还包括图像模糊处理，该对该镜头优化视频片段进行人脸图像处理，包括：对该镜头优化视频片段进行图像模糊处理得到多张背景图像；将该多张超分辨率人脸图像与该多张背景图像进行像素混合形成该第一目标的人脸优化视频片段；该第一目标的人脸优化视频片段用于形成该第一目标的优化视频片段。

结合上述第一方面的第三十六种实现方式，在第一方面的第三十七种实现方式中，该图像模糊处理包括图像均值滤波，该像素混合包括像素透明混合。

结合上述第一方面的第三十六种实现方式或者第三十七种实现方式，在第一方面的第三十八种实现方式中，该人脸图像处理还包括灯光贴图，该方法还包括：根据该人脸优化视频片段中的人脸区域生成多张灯光图；将该多张灯光图与该人脸优化视频片段进行像素混合形成该第一目标的优化视频片段。

结合上述第一方面的第三十八种实现方式，在第一方面的第三十九种实现方式中，该多张灯光图的中心与该人脸区域的中心重合，该多张灯光图与该人脸区域大小相关。

结合上述第一方面的第三十八种实现方式或者第三十九种实现方式，在第一方面的第四十种实现方式中，该多张灯光图中每张灯光图的运动轨迹采用缓动函数进行拟合。

结合上述第一方面的第四十种实现方式，在第一方面的第四十一种实现方式中，该多张灯光图的缓动函数的缓动时长大于该镜头优化视频片段中每一帧图像的缓动函数的缓动时长。

根据本申请实施例的视频处理方法，通过基于人脸检测得到的人脸区域，进行背景虚化和人脸超分辨率重建实现镜头模糊处理，且通过灯光贴图使模拟的聚光灯效果能够跟随人脸，两种方式均能凸显镜头视频片段中的第一目标的脸部区域，提高视频质量和用户感观体验。

结合上述第一方面的第二十三种实现方式至第四十一种实现方式中的任意一种实现方式，在第一方面的第四十二种实现方式中，该优化处理还包括三维处理，该方法还包括：对获取的多个该优化视频片段进行三维处理凸显三维效果，形成该第一目标的初始剧情视频，该初始剧情视频用于形成该第一目标的剧情视频。

结合上述第一方面的第四十二种实现方式，在第一方面的第四十三种实现方式中，该三维处理包括：三维变换、三维渲染以及像素混合，该对该多个优化视频片段进行三维处理，包括：将多个优化视频片段的多帧图像映射至三维模型以进行三维变换；对该三维模型进行三维渲染，形成多张渲染图像；基于该多张渲染图像进行像素混合，形成该第一目标的初始剧情视频。

结合上述第一方面的第四十三种实现方式，在第一方面的第四十四种实现方式中，该基于该多张渲染图像进行像素混合，包括：对该多张渲染图像中相邻的图像进行像素透明混合以形成转场特效，和/或，将多张特效图与该多张渲染图像进行像素混合以形成合成特效。

根据本申请实施例的视频处理方法，通过获取第一目标的多个优化视频片段，并通过三维处理实现多个优化视频片段中的图像帧的三维效果，且加入特效效果，使三维处理后的视频呈现更加丰富的视觉效果，提高视觉的可观赏性。

结合第一方面的第四十二种实现方式至第四十四种实现方式中任意一种实现方式，在第一方面的第四十五种实现方式中，该方法还包括：对多张虚拟道具图像进行三维处理，以形成多张虚拟渲染图像；将该多张虚拟渲染图像与该初始剧情视频中的多帧图像进行像素混合以增强现实，形成该第一目标的剧情视频。

结合上述第一方面的第四十五种实现方式，在第一方面的第四十六种实现方式中，该对该多张虚拟道具图像进行三维处理，包括：根据相机参数以及多个特征坐标点，对该多张虚拟道具图像进行三维处理；其中，该多个特征坐标点为采用多任务卷积神经网络mtcnn对该多个镜头优化视频片段进行人脸检测得到的多个特征点坐标，该相机参数为优化pnp问题计算得到的参数。

结合上述第一方面的第四十六种实现方式，在第一方面的第四十七种实现方式中，该mtcnn用于输出68个特征点坐标，该mtcnn为基于迁移训练得到神经网络模型。

第二方面，提供了一种视频处理的装置，包括用于执行上述第一方面以及第一方面的各实现方式的方法中的各步骤的单元。

第三方面，提供了一种电子设备，包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得电子设备执行第一方面及第一方面的任一种可能实现方式中的方法。

可选地，该处理器用于接收摄像头拍摄的视频。

第四方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备的处理器运行时，使得电子设备执行第一方面或第一方面的任一种可能的实现方式中的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序，所述程序使得电子设备执行第一方面或第一方面的任一种可能的实现方式中的方法。

附图说明

图1是能够执行本申请实施例的视频处理方法的电子设备的一例的逻辑结构图。

图2是根据本申请实施例的一种视频处理方法的示意性流程图。

图3是根据本申请实施例的另一视频处理方法的示意性流程图。

图4是根据本申请实施例的另一视频处理方法的示意性流程图。

图5是根据本申请实施例的第一目标的检测区域示意图。

图6是根据本申请实施例的另一视频处理方法的示意性流程图。

图7是根据本申请实施例的另一视频处理方法的示意性流程图。

图8是根据本申请实施例的第一优化剧情视频片段以及第二优化剧情视频片段的形成的第一目标的剧情视频的示意性图。

图9是根据本申请实施例的另一视频处理方法的示意性流程图。

图10是根据本申请实施例的优化处理中图像变换的示意图。

图11是根据本申请实施例的另一视频处理方法的示意性流程图。

图12是根据本申请实施例的另一视频处理方法的示意性流程图。

图13是根据本申请实施例的优化处理中灯光贴图的示意图。

图14是根据本申请实施例的另一视频处理方法的示意性流程图。

图15是根据本申请实施例的优化处理中三维变换的示意图。

图16是根据本申请实施例的另一视频处理方法的示意性流程图。

图17是根据本申请实施例的优化处理中增强现实的示意图。

图18是根据本申请实施例的一种视频处理装置的示意性框图。

图19是根据本申请实施例的另一视频处理装置的示意性框图。

图20是根据本申请实施例的另一视频处理装置的示意性框图。

图21是根据本申请实施例的另一视频处理装置的示意性框图。

图22是根据本申请实施例的另一视频处理装置的示意性框图。

图23是根据本申请实施例的另一视频处理装置的示意性框图。

图24是根据本申请实施例的另一视频处理装置的示意性框图。

图25是根据本申请实施例的电子设备的示意性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

应理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此并不限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。本申请所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。

首先，介绍能够执行本申请实施例提供的视频处理方法的电子设备的逻辑结构。

如图1所示，该电子设备的硬件层包括中央处理器(centralprocessingunit，cpu)和/或图形处理器(graphicsprocessingunit，gpu)等。

可选地，还可以电子设备的硬件层还可以包括存储器、输入/输出设备、内存、内存控制器、网络接口等。

其中，输入设备可以包括传感器，例如可以为视觉传感器(相机、摄像头、红外传感器等)，用于产生待处理的视频数据。

此外，输入设备还可以包括用于检测用户操作的装置，并生成用于指示该用户操作的用户操作信息，作为示例而非限定，该输入设备可包括键盘、鼠标、触控屏等。

输出设备可以用于呈现用户界面、图像或视频等可视化信息，作为示例而非限定，该输出设备可包括显示设备如液晶显示器(liquidcrystaldisplay，lcd)、阴极射线管(cathoderaytube)显示器、全息成像(holographic)显示器或投影(projector)等。

在硬件层之上可运行有操作系统(如windows、linux、android等)以及一些应用程序。核心库是操作系统的核心部分，包括输入/输出服务、核心服务、图形设备接口以及实现cpu、gpu图形处理的图形引擎(graphicsengine)等。图形引擎可包括2d引擎、3d引擎、合成器(composition)、帧缓冲区(framebuffer)等。除此之外，该电子设备还包括驱动层、框架层和应用层。驱动层可包括cpu驱动、gpu驱动、显示控制器驱动等。框架层可包括图形服务(graphicservice)、系统服务(systemservice)、网页服务(webservice)和用户服务(customerservice)等；图形服务中，可包括如微件(widget)、画布(canvas)、视图(views)、渲染脚本(renderscript)等。应用层可包括桌面(launcher)、媒体播放器(mediaplayer)、浏览器(browser)等。

以图1为例，本申请实施例提供的视频处理的方法，应用于电子设备，该电子设备的硬件层可包括处理器(例如，cpu和/或gpu)、显示控制器(displaycontroller)、内存、内存控制器、输入设备(或者说，用户操作检测设备)、显示设备等硬件。核心库层(kernellibrary)可包括输入/输出服务(input/outputservice，i/oservice)、核心服务(kernelservice)及图形引擎(graphicengine)。

图2示出了由服务器(电子设备的一例)执行的本申请实施例的视频处理方法100的示意性流程图。

如图2所示，视频处理方法100包括：

s110：获取第一视频，该第一视频中包括多个人体目标。

作为示例而非限定，服务器接收的第一视频可以为摄像头拍摄得到的视频，该摄像头可以为固定设置的普通监控摄像头，对其视场范围内的场景进行拍摄形成彩色视频或者红外视频。应理解，该摄像头可以为任意种类的摄像头，本申请实施例不作具体限定。

在一种可能的场景中，摄像头固定安装于教学教室中，可以对教室中的全体学生拍摄形成包含有全体学生的第一视频，其中，第一视频中的多个人体目标即为教室中的全体学生。

可选地，第一视频可以为特定时段下，例如在上课时段拍摄得到的包括全体学生的第一视频，该第一视频中包括该时段下所有学生的课堂活动表现。

应理解，在本申请实施例中，第一视频可以为包括多个人体目标的任意视频，例如，可以为在任意人类活动场所中获取到的视频，本申请实施例对第一视频中的场景、人物均不做具体限定。

还应理解，在本申请实施例中，第一视频的时长、帧频等具体参数本申请实施例也均不作具体限定。

获取第一视频之后，该第一视频中包括多帧图像，对多帧图像中至少一帧图像进行检测，确定第一视频的多个人体目标中第一目标的检测区域，其中，第一目标的检测区域中完全包括第一目标。

在本申请实施例中，以多个人体目标中的第一目标进行举例说明，应理解，第一目标为多个人体目标中的任意一个人体目标，多个人体目标中的每个人体目标的视频处理方法均可以参考第一目标的视频处理方法。

s120：根据第一视频的至少一帧图像确定多个人体目标中第一目标的检测区域。

该至少一帧图像为包括第一目标的图像，可选地，可以采用任意一种检测人体的方法对至少一帧图像进行检测得到包括第一目标的检测区域。

其中，检测人体的方法包括但不限于：人体形态检测、人脸检测或者人体其它特征检测的检测算法等等，本申请实施例不做具体限定。

s130：对第一视频中的第一目标的检测区域进行人体行为特征检测，以获取第一视频中第一目标的第一剧情视频片段。

确定第一目标的检测区域后，对第一视频中的第一目标的检测区域进行人体行为特征检测，具体地，对第一视频中的多帧图像中的第一目标的检测区域进行人体行为特征检测。其中，人体行为特征包括但不限于表情、姿态、动作，语音等等，根据人体行为特征检测结果，获取第一视频中第一目标的剧情视频片段，该剧情视频片段中能够体现第一目标的人体行为特征。

在一种可能的实施方式中，可以对第一视频的第一时段内的多帧图像中的检测区域进行人体行为特征检测，获取实时的第一段剧情视频片段，然后对第一视频的第二时段内的多帧图像中的检测区域进行人体行为特征检测，获取实时的第二段剧情视频片段。

在另一种可能的实施方式中，还可以对第一视频中每一帧图像中的检测区域进行人体行为特征检测，同时获取到一段或者多段第一目标的剧情视频片段。

通过本申请实施例的方案，可以从包括多个人体目标的第一视频中提取出任意一个目标，例如第一目标的行为特征剧情视频片段，该剧情视频片段中仅包括第一目标，且能够体现第一目标的行为特征，能够有针对性的对该第一目标进行观察，解决了现有的第一视频不能针对性的体现其中每个人体目标的问题，可以提升视频观看者的感官体验。

例如，第一视频为教室中的监控摄像头拍摄的包括多个学生的视频，第一目标为学生a，通过上述视频处理方法100，可以获取仅包括学生a的行为特征视频片段，该一个或者多个行为特征的剧情视频片段可以针对性的推送给学生a的家长，或者实时的呈现给辅导教师，能够使家长或者教师更加便于观察学生的a的表现。

可选地，图3示出了根据本申请实施例的另一种视频处理方法100的示意性流程图。

如图3所示，视频处理方法100还包括：

s140：获取第二视频，第二视频中包括第二目标。

在本申请实施例中，第二视频同样可以为摄像头拍摄得到的视频，第二视频中包括第二目标，该第二目标不同于第一视频中的多个人体目标。其中，拍摄第二视频的摄像头同样可以为任意种类的摄像头，本申请实施例对此不做限定。

可选地，拍摄第二视频的摄像头与拍摄第一视频的摄像头为位于不同位置的摄像头，对同一场景进行不同的角度的拍摄。

在一种可能的场景中，拍摄第一视频的第一摄像头和拍摄第二视频的第二摄像头均固定安装于教学教室中，其中第一摄像头安装于教室的讲台侧，主要用于拍摄教室中学生的正面，第二摄像头安装于教室讲台的对侧，主要用于拍摄老师的正面。

具体地，第二视频的拍摄时段和第一视频的拍摄时段至少部分重叠，换言之，在拍摄第一视频的同时，也拍摄了第二视频中的至少部分。

优选地，第一视频和第二视频为同一时段拍摄的视频，第一视频和第二视频的时长相等。

或者，第二视频的时长大于第一视频的时长，拍摄第一视频的时段在拍摄第二视频的时段内。

应理解，在本申请实施例中，可以在获取第一视频的同时获取第二视频，也可以在获取第一视频后，根据第一视频的时间段，获取相同时间段内的第二视频，本申请实施例对获取第一视频和第二视频的顺序不做具体限定。

s150：根据第一剧情视频片段的时段，获取相同时段内，第二视频中的第二剧情视频片段。

s160：根据第一剧情视频片段和/或第二剧情视频片段合成第一目标的剧情视频。

获取第二视频后，根据步骤s130中获取到的第一剧情视频片段，在第二视频中截取与第一剧情视频片段时间段相同的第二剧情视频片段，该第二剧情视频片段的数量与第一剧情视频片段的数量相同。

例如，当获取到第一目标的n个第一剧情视频片段时，将n个第一剧情视频片段中的第i个第一剧情视频片段时刻记录为(ti,start，ti,end)，其中，1≤i≤n，n为正整数。n个第一剧情视频片段记为{frag1,1,frag1,2,frag1,3,…,frag1,i,…,frag1,n}。根据该n个第一剧情视频片段中每个第一剧情视频片段的记录时刻，获取n个第二剧情视频片段，记为{frag2,1,frag2,2,frag2,3,…,frag2,i,…,frag2,n}，其中，第i个第二剧情视频片段的时刻同样为(ti,start，ti,end)。

因此，例如，当第一目标和第二目标分别为学生a和教室中的老师时，获取到的第一剧情视频片段和第二剧情视频片段分别为对应于学生a行为特征的剧情视频片段以及在相同时段内老师对于学生a行为特征反应的剧情视频片段。将该第一剧情视频片段和第二剧情视频片段合并处理后形成第一目标的剧情视频，可以更好的向学生a的家长呈现学生a的表现，以及老师对于学生a表现的反馈。

具体地，下面结合图4至图7详细说明如何根据第一视频，获取第一视频中第一目标的第一剧情视频片段。

图4示出了本申请实施例的视频处理方法200的示意性流程图。

如图4所示，视频处理方法200包括：

s210：获取第一视频，第一视频中包括多个人体目标。

s220：采用目标检测算法和/或人脸检测算法对第一视频中的图像进行检测，得到图像中的第一目标的人体位置坐标，根据人体位置坐标确定第一目标的检测区域。

s230：对第一视频的第一目标的检测区域进行人脸表情检测和/或人体姿态检测，以获取第一目标的第一剧情视频片段。

具体地，步骤s210可以与上述步骤s110相同，此处不再赘述。

对于步骤s220，可以仅进行目标检测或者仅进行人脸检测得到第一目标的人体位置坐标以及检测区域。可选地，人体位置坐标可以为检测区域的中心坐标，基于人体位置坐标可以确定对应的检测区域，该检测区域可以为以人体位置坐标为中心，在一定阈值范围内的帧图像的图像区域。

在一种可能的实施方式中，通过目标检测得到第一目标的人体位置坐标以及检测区域。具体地，在第一视频中选取任至少一帧图像进行目标检测(objectdetection)，例如，采用目标检测算法对一帧或多帧图像进行人体形态检测，以检测出一帧或多帧图像中的包括第一目标的所有人体目标的人体位置目标，换言之，通过该方法，可以找到图像中所有人体目标，而排除其它非人体目标，例如环境中的物体等等。

可选地，目标检测算法包括但不限于：基于候选区域的卷积神经网络(regionconvolutionalneuralnetworks，rcnn)，提升的基于候选区域的卷积神经网络(fast-rcnn)，进一步提升的基于候选区域的卷积神经网络(faster-rcnn)，空间金字塔池化网络(spatialpyramidpoolingnet，spp-net)，单步多框检测(singleshotmultiboxdetector，ssd)等目标检测算法。本申请对目标检测算法不做具体限定。

优选地，在本申请实施例中，采用进一步提升的基于候选区域的卷积神经网络fasterrcnn目标检测算法对第一视频中至少一帧图像检测得到第一目标的人体位置坐标和第一目标的检测区域。

具体地，fasterrcnn包括卷积网络层(convolutionalnetwork)，候选区域网络层(regionproposalnetwork，rpn)，特征区域池化层(regionsofinterestpooling，roipooling)层以及分类回归层。其中，卷积层用于提取图片的特征，输入为整张图片，对图片进行特征提取，输出为提取出的特征称为特征图(featuremaps)。rpn层用于推荐候选区域，输入为特征图，输出为检测目标的多个候选区域，roipooling层用于将不同大小的特征图转换为大小相同的特征图输出，该不同大小的特征图为多个不同大小的候选区域中的特征图。分类和回归层的输出是最终目的，输出候选区域所属的类别，确定候选区域中是否包括人体目标，以及候选区域在图像中的精确位置。

优选地，可以在cpu中采用fasterrcnn检测得到第一目标的人体位置坐标和检测区域。

在另一种可能的实施方式中，通过人脸检测得到第一目标的人体位置坐标以及检测区域。具体地，在第一视频中选取任至少一帧图像进行人脸检测。例如，采用人脸检测(facedetection)算法对一帧或多帧图像进行人脸检测，以检测出一帧或多帧图像中包括第一目标的所有目标的人脸位置坐标以及人脸区域，通过人脸位置坐标以及人脸区域确定所有目标的人体位置坐标以及检测区域。换言之，通过该方法，可以更为准确的找到正面人脸呈现在图像上的人体目标。

可选地，人脸检测算法包括但不限于：多任务卷积神经网络(multi-taskconvolutionalneuralnetwork，mtcnn)，尺度不变人脸检测器(singleshotscale-invariantfacedetector，s3fd)，双分支人脸检测器(dualshotfacedetector，dsfd)等检测算法。本申请对人脸检测算法不做具体限定。

优选地，在本申请实施例中，采用多任务卷积神经网络mtcnn进行人脸检测，可以检测出人脸上的多个特征点(landmark)，该多个特征点也称为人脸关键点或者人脸关键特征点，为位于人脸关键位置的坐标点集。例如，该多个特征为位于人脸上五官以及人脸轮廓上的多个点的坐标点集。

具体地，多任务卷积神经网络mtcnn包括人脸区域的区域建议网络(proposalnetwork，p-net)、人脸区域的区域可信网络(refinenetwork，r-net)、和人脸特征点输出网络(outputnetwork，o-net)三层网络结构。将第一视频中的一帧或者多帧图像输入至mtcnn网络中，通过p-net生成大量的候选人脸目标区域框，然后使用r-net对这些人脸目标区域框进行精选和边框回归，排除大部分不精确的候选人脸目标区域框，输出可信度高的人脸区域，o-net对r-net输出的可信度高的人脸区域再次进行人脸判别、人脸区域边框回归和人脸特征定位，得到更为精确的人脸区域、中心位置坐标以及人脸区域上关键位置的坐标点。

优选地，可以在cpu中采用多任务卷积神经网络mtcnn进行人脸检测以检测得到第一目标的人体位置坐标和检测区域。

对于步骤s220，还可以结合目标检测和人脸检测得到第一目标的人体位置坐标以及检测区域。

具体地，人体检测得到人体目标区域，人脸检测得到人脸目标区域。若人体目标区域中没有人脸目标区域，则判定该人体目标区域为无效人体目标区域，相对应的，包含有人脸目标区域的人体目标区域为有效人体目标区域，获取所有的有效人体目标区域及其中心坐标，作为对应目标的检测区域及其人体位置坐标。结合目标检测以及人脸检测能够确认得到更加准确的多个目标的人体位置坐标以及检测区域。

图5示出了一帧图像中第一目标的检测区域示意图，该帧图像为教室中多个学生上课的示意性帧图像。

如图5所示，图中第一目标为多个学生中的学生a。在一帧图像中，对图像中包括第一目标的所有目标(所有学生)进行目标检测和/或人脸检测，得到包括学生a的所有目标的人体目标区域和人脸目标区域，根据人体目标区域和人脸目标区域确认所有目标的人体位置坐标以及检测区域。更精确地，通过人脸检测还可以得到所有目标的人脸区域、人脸中心坐标以及人脸上的特征点。

通过上述目标检测和/或人脸检测，可以得到教室中w个学生中第i个学生的中心坐标为(x’i，student，y’i，student)，其中w为大于1的正整数，1≤i≤w，i为正整数。

可选地，在根据目标检测算法和/或人脸检测算法对至少一帧图像进行检测得到多个目标的人体位置坐标和检测区域后，还可以获取一帧或多帧的参考图像，通过参考图像对包括第一目标的多个目标的人体位置坐标进行修正。

图6示出了本申请实施例的另一种视频处理方法200的示意性流程图。

如图6所示，视频处理方法200包括：

s210：获取第一视频，第一视频中包括多个人体目标。

s221：采用目标检测算法和/或人脸检测算法对第一视频中的图像进行检测，得到图像中的第一目标的人体位置坐标。

s222：获取参考图像，采用目标检测算法对参考图像进行检测，以确定第一参考目标的第一参考坐标。

s223：根据第一目标的人体位置坐标和第一参考坐标确定第一目标的检测区域。

s230：对第一视频的第一目标的检测区域进行人脸表情检测和/或人体姿态检测，以获取第一目标的第一剧情视频片段。

具体地，参考图像中不包括人体目标。例如，该参考图像为拍摄第一视频的摄像头在特定时段拍摄的视频中的一帧或多帧图像，对该帧图像进行人脸检测，若没有检测到人脸图像，则该图像可以作为参考图像。

对该图像中的多个参考物体进行检测，得到多个参考物体在图像中的位置坐标作为参考坐标。

例如，在教室中，该多个参考物体可以为多张课桌或者多张课椅，该多个参考物体与上述多个目标(学生)一一对应。

根据多个参考物体的位置坐标，对多个目标的人体位置坐标进行修正得到修正后的多个目标的人体位置坐标及检测区域。例如，多个参考物体中第一参考物体与多个目标中的第一目标对应，将第一参考物体与第一目标的位置坐标加权计算平均值得到修正后的第一目标的位置坐标。

例如，当参考图像为拍摄无学生上课时的空教室的图像时，可以根据物体检测得到参考图像中w张课桌及其位置坐标，其中，w张课桌中第i张课桌的位置坐标为(xi，desk，yi，desk)，该第i张课桌对应上述w个学生中的第i个学生，换言之，第i个学生在上课时位于第i张课桌的位置。将第i张课桌的位置坐标(xi，desk，yi，desk)与第i个学生的位置坐标(x’i，student，y’i，student)进行加权平均计算，得到修正后的第i个学生的人体位置坐标(xi，student，yi，student)。

可选地，可以采用多种物体检测方法对图像中的多个参考物体进行检测，多种物体检测方法同样可以采用上述目标检测算法中的任意一种，本申请实施例对此不做限定。

优选地，在本申请实施例中，基于迁移学习，得到检测多个参考物体的单步多框检测ssd模型，采用该ssd模型算法对多个参考物体进行检测。

例如，多个参考物体为多张课桌时，可以对现有的通用物体的ssd检测模型进行迁移学习训练，得到检测课桌的ssd模型。

采用迁移学习训练检测参考物体的ssd模型，可以简化模型训练时间，提高模型的稳定性和可泛化性。

需要说明的是，通过结合参考图像的检测以及第一视频中图像的检测，除了可以修正第一视频中人体目标的人体位置坐标以外，还可以由参考图像中多个参考物体的坐标对应多个人体目标，换言之，通过参考物体的坐标位置确认该参考物体对应的人体目标的信息。例如，学生a上课时固定位于第一张课桌的位置，通过第一张课桌的位置坐标检测以及对应的第一目标的位置坐标检测，可以判断得到第一目标即学生a，直接可以将获取的第一目标的剧情视频片段呈现给学生a的家长，而不需要额外采集学生a的其它信息，提高视频处理的效率。

如图4和图6中所示，在确定第一目标的检测区域之后，对于步骤s230，对第一视频的第一目标的检测区域进行人脸表情检测和/或人体姿态检测，以获取第一目标的第一剧情视频片段。

其中，第一剧情片段中包括目标表情和/或目标姿态，换言之，对第一视频的第一目标的检测区域进行人脸表情检测和/或人体姿态检测，检测得到包括目标表情和/或目标姿态的第一剧情视频片段。

首先，说明对第一视频的第一目标的检测区域进行人脸表情检测的过程。

可选地，目标表情可以包括多种目标表情，包括但不限于：笑、疑惑、惊讶等等。对多种目标表情进行检测，得到包括不同目标表情的多个第一目标的第一剧情视频片段。

以第一目标为学生a，目标表情为笑举例进行说明，根据学生a的人体坐标位置，获取学生a的检测区域，在第一视频中，学生a的检测区域不变，对第一视频中的学生a的检测区域检测是否存在笑脸，将存在笑脸的视频片段截取，得到一个或多个学生a笑脸的第一剧情视频片段，在该第一剧情视频片段中只包括学生a，而不包括其它学生。

具体地，人脸表情检测的方法包括人脸表情特征提取以及人脸表情识别。其中，人脸表情特征提取的方法包括但不限于：哈尔(haar)特征提取，局部二值模式(localbinarypattern，lbp)特征提取，方向梯度直方图(histogramoforientedgradient，hog)特征提取等等。人脸表情识别的方法包括但不限于：bayes分类算法，神经网络分类算法，支持向量机(supportvectormachine，svm)分类算法，自适应提升算法(adaptiveboosting，adaboost)，隐马尔可夫模型(hiddenmarkovmode，hmm)等等。本申请对人脸表情检测的方法不做具体的限定。

优选地，在本申请实施例中，结合方向梯度直方图hog特征提取以及支持向量机svm分类，用于得到表情检测的检测结果。

具体地，方向梯度直方图hog特征可以就很好的用于表征局部目标的表象和形状，即提取出图像的边缘或梯度变化大的区域，人脸处于不同表情下，图像边缘特征不同，因此提取出的hog特征向量也不同。基于不同表情的hog特征向量进行svm分类，可以确定得到人脸上不同的表情。

优选地，可以在cpu中进行方向梯度直方图hog特征提取以及支持向量机svm分类。

然后，说明对第一视频的第一目标的检测区域进行人体姿态检测的过程。

可选地，目标姿态可以为多种人体姿态，包括但不限于起立、举手、举手及起立等等。对多种目标姿态进行检测，得到包括不同目标姿态的多个第一目标的第一剧情视频片段。

以第一目标为学生a，目标姿态为举手及起立进行举例说明，在第一视频中，对学生a的检测区域检测学生a的上肢是否上伸展，以检测到学生a是否举手，此外，还对学生a的检测区域检测学生a的上半身关节点的位置是否升高，以检测学生a是否起立，将满足上肢伸展以及上半身关节点位置升高的视频片段截取，得到多个学生a举手以及起立的第一剧情视频片段。

具体地，人体姿态检测的方法包括多种人体姿态检测算法和模型，例如：densepose，openpose，realtimemulti-personposeestimation，alphapose，humanbodyposeestimation，或者deeppose等等。

优选地，在本申请实施例中，采用openpose人体姿态检测算法对第一视频进行人体骨骼关键点的检测，从而检测得到第一目标的不同的目标姿态的第一剧情视频片段。

优选地，在gpu中运行openpose人体姿态检测算法用于得到目标姿态的检测结果。

可选地，在本申请实施例中，可以对第一视频中的全部帧图像的第一目标的检测区域中进行检测，得到n个第一目标的第一剧情视频片段，其中，n为正整数。然后基于该n个第一目标的第一剧情视频片段进行优化处理(下文将进行详细说明)，得到第一目标的剧情视频。

可选地，还可以对第一视频中的第一部分帧图像的第一目标的检测区域中进行检测，得到第1个第一目标的第一剧情视频片段，然后基于该第1个第一目标的第一剧情视频片段进行优化处理，处理完成后，再对第一视频中的第二部分帧图像的第一目标的检测区域中进行检测，得到第2个第一目标的第一剧情视频片段，再对该第2个第一目标的第一剧情视频片段进行优化处理，按照此方式依次进行，直至对第一视频中的全部帧图像完成检测，得到全部的处理后的剧情视频。

若经过上述对第一目标的检测区域进行人脸表情检测和/或人体姿态检测后，得到第一目标的n个包括目标表情和/或目标姿态的第一剧情视频片段。则可以在n个第一剧情视频片段中选择m个第一剧情视频片段用于形成第一目标的剧情视频，其中，1≤m≤n，m为正整数。

图7示出了本申请实施例的另一种视频处理方法200的示意性流程图。

如图7所示，视频处理方法200还包括：

s240：对获取的n个第一目标的第一剧情视频片段设定权重。

s250：根据n个第一剧情视频片段的权重，从n个剧情视频片段中选择m个第一剧情视频片段，用于形成第一目标的剧情视频。

具体地，对n个第一剧情视频片段中的每个第一剧情视频片段设置权重值，在n个第一剧情视频片段中选择m个第一剧情视频片段，其中，m个第一剧情视频片段的权重为n个第一剧情视频片段中权重由高至低的m个第一剧情视频片段。

可选地，n个第一剧情视频片段中的第i个第一剧情视频片段的权重值可以包括：置信度权重wi,confidence，、语义权重wi,semantic、均衡权重wi,balance以及附加权重wi,additional。

可选地，n个第一剧情视频片段中的第i个第一剧情视频片段的权重值wi的计算公式为：

wi＝wi,confidence+wi,semantic×wi,balance+wi,additional。

具体地，置信度权重为人体姿态检测或者人脸表情检测过程中，第一剧情视频片段对应的置信度权重值。

可选地，通过人体表情检测得到的第一剧情视频片段，其置信度为第一剧情视频片段中多帧图像的人体表情检测置信度的平均值。同样的，通过人体姿态检测得到的第一剧情视频片段，其置信度为第一剧情视频片段中多帧图像的人体姿态检测置信度的平均值。

具体地，语义权重为根据不同的第一剧情视频片段设置的预设权重值，例如，第一剧情视频片段为包括目标表情的视频片段时，该第一剧情视频片段的语义权重为第一权重值，或者，第一剧情视频片段为包括目标姿态的视频片段时，该第一剧情视频片段的语义权重为第二权重值。

可选地，上述第二权重值大于第一权重值。且当目标表情包括多种目标表情时，包括不同目标表情的第一剧情视频片段的语义权重值不同，同样的，当目标姿态包括多种目标姿态时，包括不同目标姿态的第一剧情视频片段的语义权重值也不同。

例如，在第一视频为多个学生在学生上课的课堂视频时，包括学生目标表情的第一剧情视频片段的第一权重值小于包括学生目标姿态的第一剧情视频片段的第二权重值。具体地，包括举手的第一剧情视频片段的权重值小于包括起立的第一剧情视频片段，包括举手与起立的第一剧情视频片段的权重值小于仅包括举手或仅包括起立的第一剧情视频片段的权重值。更为具体地，包括举手与起立的多个第一剧情视频片段中，举手与起立之间的时间间隔越短，第一剧情视频片段的权重值越大。

具体地，均衡权重为修正语义权重的修正参数，用于与语义权重相乘计算得到修正后的语义权重。

可选地，当n个第一剧情视频片段中包括目标姿态的第一剧情视频片段的数量大于预设阈值时，设置包括目标表情的第一剧情视频片段的均衡权重为第一均衡权重，设置包括目标姿态的第一剧情视频片段的均衡权重为第二均衡权重。

当n个第一剧情视频片段中包括目标姿态的第一剧情视频片段的数量小于等于预设阈值时，设置包括目标表情的第一剧情视频片段的均衡权重为第三均衡权重，设置包括目标姿态的第一剧情视频片段的均衡权重为第四均衡权重。

其中，第一均衡权重小于第三均衡权重，和/或，第二均衡权重大于第四均衡权重。

具体地，附加权重为根据第一剧情视频片段中除人脸表情和人体姿态以外的特征，设置的预设权重值。具体地，在人脸表情检测的过程中，判断眼睛是否睁开和/或嘴巴是否张开，根据判断结果设置第一剧情视频片段的附加权重。

可选地，当眼睛睁开以及嘴巴张开时，设置第一剧情视频片段的附加权重为第一附加权重，当嘴巴闭上和/或眼睛闭上时，设置第一剧情视频片段的附加权重为第二附加权重。

根据权重值，在n个第一剧情视频片段中选择m个第一剧情视频片段后，该m个第一剧情视频片段用于形成第一目标的剧情视频。

采用本申请实施例中从n个第一剧情视频片段中选择m个第一剧情视频片段，再基于m个第一剧情视频片段生成第一目标的剧情视频，可以根据最终第一目标的剧情视频的时长调整m的数量，能够更加灵活的生成第一目标的不同时长的剧情视频。

可选地，第一剧情视频片段可以直接用于形成第一目标的剧情视频，也可以对第一剧情视频片段进行优化处理，得到优化后的第一优化视频片段，该第一优化视频片段用于合成得到第一目标的剧情视频。

此外，第一剧情视频片段还对应第二视频中的第二剧情视频片段。第一剧情视频片段和第二剧情视频片段可以直接用于形成第一目标的剧情视频。也可以对第一剧情视频片段以及第二剧情视频片段进行优化处理，得到优化后的第一优化视频片段以及第二优化视频片段。该第一优化剧情视频片段以及第二剧情视频片段用于形成第一目标的剧情视频。

例如，图8示出了一种第一优化剧情视频片段以及第二优化剧情视频片段的形成的第一目标的剧情视频的示意性图，如图8所示，第一优化剧情视频片段中包括第一目标(学生)的剧情视频片段，其中，仅包括第一目标，而不包括其它目标学生，第二优化剧情视频片段中包括第二目标(老师)的剧情视频片段。

应理解，上述第一剧情视频片段和第二剧情视频片段的数量可以为n个，也可以为1个或者m个，本申请实施例对此不做限定。

在本申请实施例中，第一剧情视频片段和第二剧情视频片段的优化处理过程基本相同，为方便描述，在下文优化处理的过程中，若未做详细区分，则第一剧情视频片段和第二剧情视频片段均简称为剧情视频片段。

下面，以1个剧情视频片段为例，进行详细说明优化处理的过程。应理解，多个剧情视频片段的优化处理过程均可以参照该剧情视频优化处理过程，此处不再赘述。

图像变换

具体地，优化处理处理可以包括图像变换以生成镜头语言。

具体地，镜头语言可以包括：平移、缩放、旋转、变换等，可以使视频呈现不同的图像效果，通过镜头语言的变换，可以在同一镜头中呈现不同的景别，不同的角度，不同的图像拼接效果等等，提升观众的观看感受。

传统方式中，通过物体镜头的变换生成不同的镜头语言，例如，调整镜头的焦距，使画面拉近或者拉远，拍摄远景景别或者近景景别；移动镜头，从而拍摄不同方向，不同角度的画面等等。

采用该方式生成镜头语言通常需要高品质、可移动的镜头设备，还需要额外的辅助，因此实现起来较为复杂且成本高，不适用于学生上课等常规场景。且课堂教室中通常配备的固定的摄像头也无法生成不同的镜头语言。

因此，本申请实施例提出一种根据图像自动生成镜头语言的方法，能够基于固定的摄像设备拍摄的视频，针对不同的目标，处理得到包括多种镜头语言的视频，降低成本的同时，提高用户体验。

图9示出了本申请实施例的另一种视频处理方法300的示意性流程图。

如图9所示，视频处理方法300包括：

s311：对第一剧情视频片段中设置预设特征区域。

s312：对第二剧情视频片段进行人脸粗检测，根据人脸粗检测的结果确定特征区域。

s320：对剧情视频片段中的特征区域进行人脸精检测，以确定剧情视频片段中多帧特定帧图像的图像变换方式。

s330：根据图像变换方式对多帧特定帧图像进行图像变换以模拟镜头语言，形成第一目标的镜头优化视频片段。

具体地，对于第一剧情视频片段，该特征区域(regionsofinterest，roi)包括第一目标的人脸区域，第一剧情视频片段中的每一帧图像均包括该特征区域。

可选地，由于第一目标为学生等相对位置固定的角色，包括第一目标的人脸的特征区域位置相对固定，因此，第一剧情视频片段中的特征区域为根据第一目标的人脸区域设置的预设区域，第一剧情视频片段中每一帧图像的特征区域相同。

例如，剧情视频片段为仅包括学生a的视频片段，则在剧情视频片段中确定学生a的人脸区域为特征区域，且剧情视频片段中每一帧图像中的特征区域相同。

可选地，基于视频处理方法100或者视频处理方法200得到的第一剧情视频片段，可以根据第一剧情视频片段中第一目标的人体位置坐标或者人脸坐标确定第一目标的特征区域，该特征区域包括第一目标的人脸区域。

对于第二剧情视频片段，该特征区域包括第二目标的人脸区域。若第二目标为老师等实时移动的人物角色，则包括第一目标的人脸的特征区域位置不固定，因此，需要对第二剧情视频片段进行检测，以确定包括第二目标人脸区域的特征区域。

具体地，对第二剧情片段进行人脸粗检测，得到第二剧情视频片段中的特征区域。

其中，采用粗检测速率frepre对第二剧情视频片段进行人脸粗检测。该粗检测速率frepre的计算公式为：其中，为剧情视频片段的平均帧速率，a为大于1的预设数值，粗检测速率frepre对应的粗检测周期为tpre＝1/frepre。

可选地，a＝10。

可选地，平均帧速率可以由剧情视频片段的第5帧至第25帧计算得到，以避免从初始帧开始计算得到不稳定的平均帧速率。应理解，此处仅以第5帧至第25帧的计算方式作为说明，本申请实施例对平均帧速率的计算方式不做具体限定。

可选地，可以采用任意一种上述人脸检测算法对第二剧情视频片段进行人脸粗检测。

优选地，在本申请实施例中，采用哈尔haar特征提取以及自适应提升adaboot算法进行人脸粗检测。采用该方法进行人脸检测的速度快，能够提升视频处理的性能。

在一个粗检测周期内，对第二剧情视频片段中每一帧图像进行人脸粗检测，得到每一帧图像中人脸位置坐标，并计算得到在该粗检测周期内，人脸平均位置坐标根据人正常行走的经验步速，确定在一个粗检测周期内人脸活动的范围，即特征区域的宽高值(w0，h0)，根据该范围值(w0，h0)以及人脸平均位置坐标得到一个粗检测周期内的特征区域roi0。

根据上述方法，可以得到第二剧情视频中，多个粗检测周期内的多个特征区域。不同的粗检测周期对应的特征区域可能相同也可能不同。

镜头语言生成

确定第一剧情视频片段以及第二剧情视频片段中的特征区域后，在步骤s320中，对剧情视频片段(包括第一剧情视频片段和第二剧情视频片段)中的特征区域进行人脸精检测，以确定剧情视频片段中多帧特定帧图像的图像变换方式生成镜头语言。

具体地，采用特定帧速率对剧情视频片段中的特征区域进行人脸检测，以确定剧情视频片段中多帧特定帧图像的图像变换方式。

具体地，该特定帧速率frefinal的计算公式为：其中，为剧情视频片段的平均帧速率，b为大于1的预设数值，特定帧速率frefinal对应的特定帧周期为tfinal＝1/frefinal。

在本申请实施例中，b＜a，即特征帧速率frefinal大于粗检测速率frepre，且小于平均帧速率

可选地，b＝2.5。

具体地，采用特定帧速率对剧情视频片段中的多个特定帧图像帧中的特征区域进行人脸检测，得到第一检测周期内多个特征区域中的人脸数量之和∑facedetected以及多个特征区域中每个特征区域中人脸区域的中心坐标之和(∑x，∑y)。

其中，第一检测周期大于1/frefinal。可选地，第一检测周期为人脸粗检测的粗检测周期tpre。

例如，平均帧速率a＝10，b＝2.5时，此时，特定帧速率frefinal＝24fps，即1s中剧情视频片段包括60帧图像，而只对其中24帧特定帧图像中的特征区域进行人脸检测。当粗检测周期为1/6s时，每个检测周期内，对4帧特定帧图像中的特征区域进行人脸检测。确定4个特征区域中人脸的数量之和以及人脸区域的中心坐标之和。

在本申请实施例中，对人脸检测的方法不做限定。例如，可以采用mtcnn算法进行人脸检测，通过使用包围框回归(bondingboxregression)以及非极大值抑制(non-maximumsuppression，nms)得到多个特征区域中的人脸区域、中心坐标以及特征点。

然后，根据第一检测周期内多个特征区域中的人脸数量之和∑facedetected以及多个特征区域中每个特征区域中人脸区域的中心坐标之和(∑x，∑y)，确定第一检测周期内的镜头语言。例如，确定特征区域的缩放的比例以及特征区域移动的距离，从而对第一检测周期内的特定帧图像进行缩放和移动，从而模拟镜头的推拉(zoomin/out)以及移、跟、升、降等动作。

具体地，特征区域roi的缩放比例scaling的计算公式如下：

其中，scalingmax为预设的缩放比例最大值，例如100％、80％或者其它任意数值，本申请实施例不做限定。scaling则为在一个第一检测周期内，特定帧图像的缩放比例。

具体地，特征区域roi移动后的中心坐标(xmoving，ymoving)的计算公式如下：

其中，xdefault和ydefault为预设的目标位置坐标，例如该坐标为图像帧的中心坐标等等，本申请实施例不做限定。

移动前特征区域的中心坐标为(xoriginal，yoriginal)，移动后特征区域的中心坐标为(xmoving，ymoving)，根据该移动前后的中心坐标值，确定在一个第一检测周期内，特定帧图像的移动距离为(△x，△y)，其中，△x＝xmoving-xoriginal，△y＝ymoving-yoriginal。

因此，可以根据上述方法，确定一个第一检测周期内剧情视频片段中的特定帧图像的缩放比例scaling以及移动距离(△x，△y)。

可选地，该特定帧图像可以为第一检测周期内任意一帧图像或者为第一检测周期内多帧图像平均处理后得到的图像。

应理解，在本申请实施例中，需要采用多个第一检测周期对剧情视频片段进行完整的检测并生成对应检测周期内的镜头语言。每一个第一检测周期的检测方法均可以采用上述方法进行检测确定特定帧图像的缩放比例以及特征区域的移动后的位置坐标。且，不同时段的第一检测周期内，特定帧图像的缩放比例以及特征区域移动后的位置坐标可能不同。

图像变换

对于步骤s330，根据生成的镜头语言，确定剧情视频片段的图像变换方式(包括缩放比例以及移动距离)后，对剧情视频片段中的多帧特定帧图像进行图像变换，例如缩放和移动。

具体地，对剧情视频片段中多帧特定帧图像进行缩放及移动后，裁剪得到第一目标的镜头优化视频片段，其中，镜头优化视频片段中的每一帧图像大小相等。即，在裁剪后的镜头优化视频片段中，呈现为不同缩放比例以及区域移动变换的视频图像，以模拟显示不同的镜头语言。

例如，如图10示出了几种图像变换的示意图。图10中的(a)至图10中的(b)示出了移动变换后的视频图像示意图，学生人脸由图10中的(a)中位于图像的上半部分移动到图10中的(b)中的图像中心。图10中的(c)至图10中的(d)示出了缩放变换后的视频图像示意图，学生人脸在图像中比例放大，视频图像主要凸显学生脸部表情。

可选地，以纹理uv坐标变换的方式对剧情视频片段中的多个特定帧图像进行图像变换，例如进行缩放以及移动。

其中，纹理uv坐标是指图像在二维平面上的坐标。水平方向是u，垂直方向是v，一个纹理uv坐标可以定位至一帧图像中的任意一个像素，像素中可以包含颜色等信息。

具体地，可以通过对剧情视频片段中的特定帧图像进行纹理uv坐标变换并裁剪以形成一帧镜头优化图像，例如，对纹理uv坐标进行缩放以及移动，从而实现图像的缩放以及移动，并将缩放和移动后的图像设置于二维(twodimension，2d)显示模型中，当图像的尺寸大于二维显示模型时，对位于二维显示模型外的图像进行裁剪。

例如，二维显示模型为四边形或者圆形时，特定帧图像设置在四边形或者圆形区域中，特定帧图像中的特征区域中心即为四边形显示模型或者圆形显示模型的中心，将位于四边形或者圆形区域外的特定帧图像进行裁剪，以形成四边形或者圆形的优化图像。

同样的，基于该方法，对剧情视频片段中的多个特定帧图像进行纹理uv坐标变换，形成多个镜头优化图像，该多个镜头优化图像组合形成二维显示模型内的镜头优化视频片段。

可选地，在本申请实施例中，可以在图像处理器(gpu)的帧缓存(framebuffer)中利用着色器(shader)程序进行纹理uv坐标变换，采用该方法进行纹理uv坐标变换能够利用gpu适合矩阵计算的优势，同时对多个视频进行坐标变换且保持实时性，能够大大提高视频处理的性能。

具体地，利用shader程序进行纹理uv坐标变换的过程中，可以实时的将镜头优化视频片段显示在电子设备(例如，服务器)的显示设备上，或者将镜头优化视频片段存储于电子设备的内存中。

该shader程序包括指针模块fboactive，显示模块fbodisplay，以及变换模块fboimgtransform(处理模块的一例)。当指针模块fboactive指向显示模块fbodisplay时，将fboactive中的内容显示在现实设备上，当指针模块fboactive指向变换模块fboimgtransform时，将指针模块fboactive中的内容进行纹理uv坐标变换，变换完成后，将fboactive中的内容复制到内存中。

具体地，首先，将显示模块fbodisplay中的内容存储于帧缓存的存储模块中，然后将指针模块fboactive由指向fbodisplay变换到指向fboimgtransform，将剧情视频片段中的特定帧图像块复制到fboactive中，进行纹理uv坐标变换。变换完成后fboactive中得到镜头优化图像，将该镜头优化图像复制到电子设备的内存中，然后再将fboactive恢复指向fbodisplay，从而将镜头优化图像显示于电子设备的现实设备中。

在本申请实施例中，shader程序中包括多个变换模块fboimgtransform以及一个显示模块fbodisplay，其中，一个变换模块fboimgtransform对应于一种变换操作，例如，不同缩放模式，移动模式，或者还可以包括其它三维变换模式等等。多个变换模块fboimgtransform的数量为第一预设值，可以通过池(pooling)维护方式对第一预设数量的变换模块进行维护，通过指定池中的不同的变换模块进行不同的变换操作，而不需要在每进行一次变换操作时，都进行fboimgtransform的创建与销毁，造成资源的额外开销。

镜头平滑

由于在镜头语言生成对过程中，基于人脸粗检测速率freqpre得到特征区域，且基于特定帧速率freqfinal得到镜头优化视频片段，该人脸粗检测速率以及特定帧速率小于剧情视频片段的平均帧速率，因此，镜头语言不是针对剧情视频片段中的每一帧图像进行生成的，不同时段内的镜头语言不同，即图像缩放比例以及移动距离不同，造成镜头切换的不平滑，会引起图像缩放、移动以及裁剪后形成的镜头优化视频片段的视觉效果不连贯，影响用户体验。

因此，在本申请实施例中，在对剧情视频片段进行图像变换，形成镜头优化视频片段后，采用缓动函数对镜头优化视频片段进行平滑处理。

如图9所示，视频处理方法300还包括：

s340：采用缓动函数对第一目标的镜头优化视频片段中每一帧图像的运动轨迹进行拟合。

由于在平常的生活中，物体在运动的过程中，总是时而加速，时而减速。因此我们的大脑习惯了这种物体的这种自然的运动方式。所以在视频处理中通过缓动函数的方式让视频中的物体呈现这种自然的运动方式，会提升用户体验。

在本申请实施例中，缓动函数(easingfunction)包括但不限于：匀速运动函数(liner)，二次方的缓动函数(quadratic)，三次方的缓动函数(cubic)，正弦曲线的缓动函数(sinusoidal)，指数曲线的缓动函数(exponential)，圆形曲线的缓动(circular)，指数衰减的反弹缓动(bounce)等等。其中，每种缓动函数都分三个缓动方式，分别是：从0开始加速的缓动(easein)；减速到0的缓动(easeout)；以及前半段从0开始加速，后半段减速到0的缓动(easeinout)。本申请实施例对具体的缓动函数不做任何限定。

优选地，采用easeinoutsine缓动函数对镜头优化视频片段中的每一帧镜头优化图像进行平滑处理，即按照正弦曲线的缓动方式，先加速处理每一帧镜头优化图像的移动速度，然后再减速处理每一帧镜头优化图像的移动速度。

具体地，easeinoutsine缓动函数的计算公式为：easeinoutsine(t)＝-1/2*(cos(π*t)-1)，其中，t为时间，easeinoutsine(t)可以为镜头优化视频片段中每一帧镜头优化图像随时间的运动速度的变化。

具体地，采用缓动函数对每一帧镜头优化图像的移动进行平滑处理后，每一帧镜头优化图像的移动时长记为缓动时长tease，该缓动时长tease的计算公式为：

其中，frefinal为特定帧速率，α为预设的第一修正系数。

可选地，镜头优化视频片段中每一帧镜头优化图像的缓动时长tease可以相同，也可以不同。

采用缓动函数对镜头优化视频片段中的每一帧镜头优化图像进行平滑处理，避免由于镜头语言变换造成镜头优化视频片段中镜头变化带来的不连贯，提高用户的感观体验。

可选地，可以在cpu中运行程序代码，直接调用缓动函数，进行镜头优化视频片段的平滑处理。

可选地，还可以在cpu中，基于委托机制(delegate)调用缓动函数。具体地，将一个或多个缓动函数注册在一个委托中，通过调用该委托，得到一个或多个缓动函数的运行结果。基于委托机制调用缓动函数，可以解耦函数的调用和实现，使用更加方便。

可选地，优化处理还包括人脸图像处理。

可选地，通过上述视频处理方法300处理得到镜头优化视频片段后，再对镜头优化视频片段进行人脸图像处理，进一步优化后凸显视频片段中的人脸区域，以获得第一目标的优化视频片段。

可选地，人脸图像处理包括人脸重建和镜头模糊处理。

人脸重建和镜头模糊处理

为了凸显第一优化视频中的第一目标，可以将第一优化视频中除第一目标以外的背景进行虚化，即得到浅景深(depthoffield，dof)的效果。

目前普通的摄像头无法获取拍摄目标的深度信息，也无法直接拍摄得到浅景深效果，因此，普通的摄像头拍摄的图像和视频不能凸出显示图像和视频中的目标，用户感观体验不佳。

因此，在本申请实施例中，通过基于人脸检测得到的人脸区域，进行背景虚化和人脸超分辨率重建，实现镜头模糊处理，以凸显镜头视频片段中的第一目标的脸部区域，提高视频质量和用户体验。

图11示出了本申请实施例的另一种视频处理方法400的示意性流程图。

如图11所示，视频处理方法400包括：

s410：确定镜头优化视频片段中的人脸区域。

可选地，基于上述步骤s320，采用特定帧速率frefinal对剧情视频片段进行人脸精检测，检测得到多帧特定帧图像的人脸区域。

进一步的，在对剧情视频片段中多帧特定帧图像进行缩放、移动和剪切形成镜头优化视频片段时，多帧特定帧图像中的人脸区域对应的进行缩放、移动形成，因此可以确定镜头优化视频片段中多帧镜头优化图像的人脸区域。

s420：将镜头优化视频片段中的人脸区域作为前景图像imgfg，进行超分辨率(super-resolution，sr)重建，形成多张超分辨率人脸区域图像imgsr。

具体地，超分辨率重建的方法包括但不限于：稀疏编码方法(sparsecoding)，基于邻域快速回归法(anchoredneighborhoodregressionmethod)，贝叶斯方法(bayes)，变换自样本方法(self-exemplars)，深度学习方法(deeplearningmethod)，损失函数上改进方法(perceptuallossandgan)等等，本申请实施例对此不做限定。

优选地，在本申请实施例中，采用生成对抗网络(generativeadversarialnetworks，gan)中的pix2pix模型算法进行前景图像imgfg的超分辨率重建。

具体地，pix2pix模型算法中包括一个生成网络g(generateor)和一个判别网络d(discriminator)。首先将前景图像imgfg输入至生成网络g中，生成网络g基于前景图像imgfg生成输出图像g(imgfg)，将输出图像g(imgfg)与前景图像imgfg一起输入至判别网络d中，对输出图像g(imgfg)进行判断是否为真假，若为真，则输出重建后的超分辨率人脸区域图像imgsr。

采用pix2pix模型算法对人脸区域的前景图像进行超分辨率重建，首先可以降低迁移训练时对输入图像分辨率的要求，进而减少输入数据集获取的难度，其次可以优化超分辨率重建的性能。

s430：将镜头优化视频片段中多帧图像进行模糊处理(bluring)得到多张背景图像imgbg。

可选地，模糊处理的方法包括但不限于：均值滤波(blur)、高斯滤波(gaussianblur)、中值滤波(medianblur)或者双边滤波(bilateralfilter)等等。

优选地，在本申请实施例中，采用均值滤波的方法对镜头优化视频片段中多帧镜头优化图像进行模糊处理。具体地，对每一帧镜头优化图像中的rgb通道每个通道的数据进行卷积计算，例如，每一帧镜头优化图像的r通道数据为与图像帧大小相同的矩阵，其中每一个值对应于图像中每个像素值的红色分量。每一帧镜头优化图像包括r、g、b三个颜色分量的矩阵，对该三个颜色分量的矩阵分别进行均值滤波的卷积计算，得到每一帧镜头优化图像均值滤波后的模糊背景图像imgbg。

可选地，每一帧镜头优化图像的大小相同，卷积核的大小(kernelsize)可以为每一帧镜头优化图像的0.03倍。

s440：将多张超分辨率人脸区域图像imgbsr与多张背景图像imgbg进行像素混合形成第一目标的人脸优化视频片段。

首先，将多张超分辨率人脸区域图像imgsr进行模糊处理得到模糊超分辨率人脸区域图像imgbsr。

具体地，将超分辨率人脸区域图像imgsr的alpha通道的数据进行模糊处理得到模糊超分辨率人脸区域图像imgbsr，alpha通道为表示像素透明程度的数据，alpha值越大，则图像的透明效果越弱。超分辨率图像imgsr的alpha通道的数据为与超分辨率图像imgsr大小相同的矩阵，其中每一个值对应于一帧优化图像中每个像素值的透明程度分量。

可选地，采用均值滤波方法，对超分辨率图像imgsr的alpha通道的数据进行卷积计算。可选地，卷积核的大小可以为超分辨率图像imgsr的0.03倍。

然后，将多张超分辨率人脸区域图像imgbsr与多张背景图像imgbg进行像素混合得到多张人脸优化图像imgrb，该多张人脸优化图像用于形成第一目标的人脸优化视频片段。

具体地，通过透明混合(alphablending，αblending)进行像素混合，通过alphablending得到的人脸优化图像imgrb中的像素值的计算公式为：

imgrb.rgb＝imgbsr.rgb+imgbg.rgb*(1-imgbsr.alpha)，

其中，imgrb.rgb为人脸优化图像imgrb中每个像素对应的rgb分量，imgbsr.rgb为模糊超分辨率人脸区域图像imgbsr中每个像素对应的rgb分量，imgbg.rgb为背景图像imgbg中每个像素对应的rgb分量，imgbsr.alpha为模糊超分辨率人脸区域图像imgbsr中每个像素对应的alpha分量。

通过上述公式计算得到人脸优化图像imgrb中每个像素的rgb分量，从而得到将镜头优化视频片段中每一帧图像对应的人脸优化图像imgrb，生成第一目标的人脸优化视频片段。

可选地，在本申请实施例中，可以在gpu的帧缓存(framebuffer)中利用shader程序进行alphablending。

可选地，可以通过一个变换模块fboimgtransform实施上述alphablending的混合过程。

可选地，人脸图像处理还包括灯光贴图。

可选地，通过上述视频处理方法400处理得到人脸优化视频片段后，再对人脸优化视频片段进行灯光贴图处理，进一步优化后凸显视频片段中的人脸区域，以获得第一目标的优化视频片段。

聚光灯效果生成

在本申请实施例中，通过引入灯光贴图，并通过缓动函数对灯光贴图的移动进行控制，使得模拟的聚光灯效果能够实时跟随第一目标的人脸区域，进一步提高用户的感观体验。

图12示出了本申请实施例的另一种视频处理方法500的示意性流程图。

如图12所示，视频处理方法500包括：

s510：根据人脸优化视频片段中的人脸区域生成多张灯光图(lightmap)。

具体地，该多张灯光贴图为多张亮度明暗变化的图像，其可以模拟灯光效果及灯光带来的阴影明暗变化，例如，灯光贴图可以为模拟聚光灯效果形成的光斑。

可选地，基于人脸优化视频片段中的人脸区域，生成多张灯光贴图，该多张灯光贴图的大小与镜头优化视频片段中的人脸区域的大小相关。

例如，人脸优化视频片段中包括学生a的人脸区域，灯光贴图中的光斑大小大于等于学生a的人脸区域，换言之，学生a的人脸区域可以完全位于灯光贴图的光斑中。

s520：对多张灯光贴图进行图像变换。

可选地，采用纹理uv坐标变换的方式对多张灯光贴图进行移动变换，其中，移动频率等于帧速率frefinal。每张灯光贴图的中心点坐标与人脸优化视频片段中的一帧图像中人脸区域的中心坐标相同，人脸优化视频片段中的每一帧图像对应一张灯光贴图，且对应的灯光贴图的中心坐标与当前优化图像的人脸区域的中心坐标相同。

可选地，采用缓动函数对多张灯光贴图的运动进行缓动控制。

可选地，灯光贴图的缓动函数与镜头平滑过程(步骤s340)中，镜头优化视频片段中多帧镜头优化图像的缓动函数相同，例如，灯光贴图的缓动函数同样采用easeinoutsine缓动函数对灯光贴图的移动进行缓动控制，该缓动函数的缓动时长为t’ease，该缓动时长t’ease的计算公式为：

其中，frefinal为特定帧速率，α’为预设的第二修正系数，该第二修正系数α’略大于镜头优化视频片段中每一帧镜头优化图像的第一修正系数α。例如，α<α’≤α+10。

s530：将多张灯光贴图与人脸优化视频片段进行像素混合，形成第一目标的优化视频片段。

具体地，第一目标的优化视频片段中的每一帧图像包括灯光贴图的图像信息以及人脸优化图像的图像信息。

具体地，灯光贴图的像素信息用于表征优化图像中的像素明度信息，优化视频中的优化图像帧在灯光贴图的明处明度大，在灯光贴图的暗处明度小。

如图13所示，图13中的(a)为一张灯光贴图的示意图，图13中的(b)为一张人脸优化图像的示意图，将图13中的(a)与图13中的(b)进行像素混合得到如图13中的(c)所示的优化图像，在图13中的(c)中，灯光亮处的人脸图像明度大，灯光暗处人脸图像的明度小，呈现暗淡效果。在优化图像中人脸区域更为凸显。

可选地，在本申请实施例中，可以在gpu的帧缓存(framebuffer)中利用shader程序进行灯光贴图的图像变换。

可选地，可以通过变换模块fboimgtransform实施上述灯光贴图的图像变换过程。

应理解，在本申请实施例中，可以同时进行视频处理方法400和视频处理方法500，也可以先进行视频处理方法400，再进行视频处理方法500，或者先进行视频处理方法500，再进行视频处理方法400，本申请实施例对其实施顺序不做具体限定。详细的过程可以参考上述描述，此处不再赘述。

三维效果生成

可选地，优化处理还可以包括三维处理。

通过获取第一目标的多个优化视频片段，并通过三维处理实现多个优化视频片段中的图像帧的三维效果，并加入特效效果，使三维处理后的视频呈现更加丰富的视觉效果，提高视觉的可观赏性。

图14示出了本申请实施例的另一种视频处理方法600的示意性流程图。

如图14所示，视频处理方法600包括：

s610：获取第一目标的多个优化视频片段。

优选地，该多个优化视频片段可以为上述n个或者m个剧情视频片段经过优化处理后得到的n个或者m个优化视频片段。该n个或者m个剧情视频片段中的每个剧情视频片段均可以按照上述视频处理方法300和/或视频处理方法400和/或视频处理方法500进行优化处理得到n个或者m个优化视频片段。

应理解，该多个优化视频片段也可以为不经过优化处理的上述n个或者m个剧情视频片段，本申请实施例对此不做限定。

还应理解，上述剧情视频片段可以仅为第一视频中的第一剧情视频片段，也可以为第一视频中的第一剧情视频片段以及第二视频中的第二剧情视频片段，本申请实施例对此不做限定。

s620：将多个优化视频片段的多帧图像映射至三位模型以进行三维变换。

具体地，以一帧图像的三维变换为例进行举例说明。将一帧图像作为纹理贴图映射至三维模型上，三维模型的顶点对应于图像的uv坐标，包含有图像中的像素信息。对三维模型的顶点坐标进行变换，以实现图像帧的三维变换效果。例如，在纵深方向上变换、在三维空间上翻转等等。

如图15所示，图中示出了一种在纵深方向实现变换的三维效果图像，通过改变三维模型纵深方向的顶点坐标，实现图像跟随三维模型在纵深方向上变换，通过该效果的加入，能够更加丰富观看者的视觉感官。

应理解，在本申请实施例中，可以通过三维变换的实现任意一种三维效果，本申请实施例具体的三维变换方式和三维效果不做具体限定。

s630：对该三维模型进行三维渲染，形成多张渲染图像。

具体地，对三维模型进行三维变换后，将三位模型的顶点坐标转换为屏幕坐标以及计算每个顶点的深度值、着色等信息。

然后，进行光栅化处理，根据屏幕空间的二维顶点数据，在屏幕上操作每个像素点绘制图形，该图像为三维渲染后形成的渲染图像。

s640：基于多张渲染图像进行像素混合，形成该第一目标的初始剧情视频。

可选地，像素混合的方式包括多种方式，用于将渲染图像中的像素与其它图像像素值进行混合，以实现不同的图像效果。

例如，可以采用像素透明混合alphablending的方式对相邻的两张或者多张渲染图像进行像素混合，以实现淡入/淡出，叠化等转场特效。

还例如，可以将特效图与渲染图进行像素混合，形成包括有特效以及渲染图像信息的图像，实现更为丰富的特效效果。

像素混合后将多个优化视频片段进行合成，合成后的初始剧情视频中的图像帧具有三维效果以及特效效果，呈现良好的视觉感官。

可选地，在本申请实施例中，可以在gpu的帧缓存(framebuffer)中利用shader程序进行上述三维处理的过程。

可选地，可以通过变换模块fboimgtransform实施上述三维处理的图像变换过程。

现实增强

可选地，优化处理处理还可以包括现实增强处理。

通过获取第一目标的初始剧情视频，通过三维处理实现初始剧情视频中图像帧的三维效果，并加入特效效果，使现实增强处理后的视频加入了更多的互动观赏元素，提高视觉的可观赏性。

图16示出了本申请实施例的另一种视频处理方法700的示意性流程图。

如图16所示，视频处理方法700包括：

s710：对多张虚拟道具进行三维处理，以形成多张虚拟渲染图像。

具体地，该虚拟道具为基于增强现实(augmentedreality，ar)技术实时渲染后者离线渲染出来的虚拟道具/表情包等等，可以实时叠加到人脸的某个特定部位上，例如，当学生回答问题时，在头顶叠加一个灯泡或者学生回答完毕后，叠加鼓掌或者在头顶上叠加皇冠道具等等。

可选地，该多张虚拟图像道具可以为多张支持alpha通道的道具图像，多张虚拟图像可以形成动态纹理。

可选地，该多张虚拟图像道具还可以为将alpha通道与rgb通道在上下或者左右方向进行像素叠加的多张图像，多张图像组合也可以形成动态纹理。

具体地，根据相机参数以及多个特征坐标点对多张虚拟道具进行三维处理，其中，相机参数为优化(perspective-n-point，pnp)问题进行相机标定(calibration)得到的相机内外参数，可选地，在本申请实施例中，采用非线形最小二乘算法(levenbergmarquardt)算法优化pnp问题得到相机内外参数。

多个特征坐标点为采用mtcnn对多个镜头优化视频片段或者多个人脸优化视频片段或者多个优化视频片段，或者初始剧情视频中的图像帧进行人脸检测得到的特征点。

在本申请实施例中，该mtcnn为基于迁移训练得到的mtcnn模型，其可以用于输出68个特征坐标点，能够更加精确的得到人脸五官位置坐标点。

s720：将多张虚拟渲染图像与该初始剧情视频中的多帧图像进行像素混合以增强现实，形成该第一目标的剧情视频。

图17中示出了一张进行增强现实处理后的图像，如图中所示，虚拟道具图像叠加显示在学生的头顶上，该虚拟道具图像的位置跟随学生的人脸位置，且可以根据学生的表现进行调整和改变，进一步提高观看者的感官感受。

上文结合图2至图17，详细描述了本申请的一种视频处理的方法实施例，下文结合图18至图24，详细描述本申请的视频处理的装置实施例，应理解，装置实施例与方法实施例相互对应，类似的描述可以参照方法实施例。

图18是根据本申请实施例的视频处理装置10的示意性框图。可选地，该视频处理的装置10可以对应于视频处理方法100。

如图18所示，该视频处理装置10包括：获取单元11和处理单元12；

该获取单元11用于获取第一视频，该第一视频中包括多个人体目标；

该处理单元12用于根据该第一视频的至少一帧图像确定该多个人体目标中第一目标的检测区域；

并且对该第一视频中的该第一目标的检测区域进行人体行为特征检测，以获取该第一视频中该第一目标的第一剧情视频片段。

可选地，该视频处理装置10可以为图1中电子设备1或者为电子设备1中的处理器，例如包括cpu和/或gpu，该获取单元11和处理单元21可以为电子设备1中处理器的组成单元。

可选地，该获取单元11还用于：获取第二视频，该第二视频中包括第二目标；

该处理单元还用于：根据该第一剧情视频片段的时段，获取相同时段内，该第二视频中的第二剧情视频片段；

其中，该第一剧情视频片段和/或该第二剧情视频片段用于合成该第一目标的剧情视频。

图19是根据本申请实施例的视频处理装置20的示意性框图。可选地，该视频处理装置20可以对应于视频处理方法200。

如图19所示，该视频处理装置20包括：获取单元21和处理单元22；

可选地，该获取单元21可以与图18中的获取单元11相同。该处理单元22可以与图18中的处理单元12相同。

可选地，该处理单元22用于：采用目标检测算法和/或人脸检测算法对该至少一帧图像进行检测，得到该至少一帧图像中的该第一目标的人体位置坐标，根据该人体位置坐标确定该第一目标的检测区域。

可选地，该处理单元22用于：根据该人体位置坐标和第一参考坐标确定该第一目标的检测区域；

其中，该第一参考坐标为对应于第一目标的第一参考物体的坐标。

可选地，该获取单元21还用于：获取参考图像，该参考图像包括对应于该多个人体目标的多个参考物体，其中，该第一目标对应于该多个参考物体中的第一参考物体；

该处理单元22用于：采用目标检测算法对该参考图像进行检测，以确定该第一参考物体的该第一参考坐标；

根据该人体位置坐标和该第一参考坐标确定该第一目标的检测区域。

可选地，该处理单元22用于：对该第一视频的该第一目标的检测区域进行人脸表情检测和/或人体姿态检测，以获取该第一目标的第一剧情视频片段，其中，该第一剧情视频片段包括目标表情和/或目标姿态。

可选地，该目标表情包括笑，和/或，目标姿态包括举手、起立。

可选地，该处理单元22还用于：对获取的n个第一剧情视频片段设定权重，其中n为大于1的正整数；

并根据该n个第一剧情视频片段的权重，从该n个剧情视频片段中选择m个第一剧情视频片段，其中，1≤m≤n，m为正整数；

该m个第一剧情视频片段用于形成该第一目标的剧情视频。

可选地，该权重包括：置信度权重w1、语义权重w2、均衡权重w3以及附加权重w4；

其中，该权重w的计算方式为：w＝w1+w2×w3+w4。

可选地，该m个第一剧情视频片段为该n个第一剧情视频片段中权重最大的m个视频片段。

可选地，该第一视频为包括多个学生的课堂视频，该第一目标为一个学生；

该第二视频为老师的课堂视频，该第二目标为老师。

图20是根据本申请实施例的视频处理装置30的示意性框图。可选地，该视频处理装置30可以对应于视频处理方法300。

如图20所示，该视频处理装置30包括：获取单元31和处理单元32；

可选地，该获取单元31可以与图18中的获取单元11相同。该处理单元32可以与图18中的处理单元12相同。

可选地，该处理单元32用于：对剧情视频片段进行人脸检测，以确定该剧情视频片段的优化处理方式，其中，该剧情视频片段包括第一剧情视频片段和第二剧情视频片段；

根据该优化处理方式对该剧情视频片段进行优化处理以得到该第一目标的优化视频片段，该优化视频片段用于形成该第一目标的剧情视频。

可选地，该处理单元32包括着色器模块(shader)，该着色器模块用于：对该剧情视频片段进行图像优化处理；

其中，该着色器模块包括多个处理模块，一个处理模块用于进行一种图像优化处理。

可选地，该着色器模块还包括显示模块，该显示模块用于：实时显示该第一目标的剧情视频。

可选地，该多个处理模块的数量在第一阈值内，基于池维护方式对该多个处理模块进行维护。

可选地，该优化处理包括图像变换，该处理单元32用于：

对该剧情视频片段中的特征区域进行人脸精检测，以确定该剧情视频片段中多帧特定帧图像的图像变换方式；其中，该特征区域包括人脸区域；

并根据该图像变换方式对该多帧特定帧图像进行图像变换以模拟镜头运动，形成该第一目标的镜头优化视频片段；

其中，该第一目标的镜头优化视频片段用于形成该第一目标的优化视频片段。

可选地，该多帧特定帧图像为以特定帧速率选择的图像，其中，该特定帧频率小于该剧情视频片段的平均帧速率。

可选地，该第一剧情视频片段中的特征区域为预设区域，该第二剧情视频中的特征区域为通过人脸粗检测确定的区域。

可选地，该人脸粗检测的粗检测速率小于该剧情视频片段的平均帧速率，且大于该特定帧速率。

可选地，该处理单元32用于：在多个检测周期内，对该剧情视频片段中的特征区域进行人脸精检测，其中，该检测周期为该人脸粗检测的检测周期。

可选地，该处理单元32用于：在多个检测周期的每个检测周期内，采用人脸检测算法对该剧情视频片段中的特征区域进行人脸精检测得到人脸数量累加值和人脸坐标累加值；

基于该人脸数量累加值与该帧速率的比值，确定每个检测周期内该特定帧图像的缩放比例；

基于该人脸坐标累加值与该人脸数量累加值的比值，确定每个检测周期内该特定帧图像的移动距离。

可选地，该处理单元32用于：根据该多帧特定帧图像的缩放比例和该多帧特定帧图像的移动距离，对该多帧特定帧图像进行图像变换以得到该第一目标的镜头优化视频片段。

可选地，该第一目标的镜头优化视频片段中每一帧图像的运动轨迹采用缓动函数进行拟合。

可选地，该缓动函数的缓动时长根据该特定帧速率确定。

图21是根据本申请实施例的视频处理装置40的示意性框图。可选地，该视频处理装置40可以对应于视频处理方法400。

如图21所示，该视频处理装置40包括：获取单元41和处理单元42；

可选地，该获取单元41可以与图18中的获取单元11相同。该处理单元42可以与图18中的处理单元12相同。

可选地，该优化处理还包括人脸图像处理，该处理单元42用于：

对该镜头优化视频片段进行人脸图像处理以凸显人脸，形成该第一目标的优化视频片段。

可选地，该人脸图像处理包括超分辨率重建，该处理单元42用于：

对该镜头优化视频片段中的人脸区域进行超分辨率重建得到多张超分辨率人脸区域图像，其中，该人脸区域为基于该人脸精检测得到的人脸区域。

可选地，该人脸图像处理还包括图像模糊处理，该处理单元42用于：

对该镜头优化视频片段进行图像模糊处理得到多张背景图像；

将该多张超分辨率人脸图像与该多张背景图像进行像素混合形成该第一目标的人脸优化视频片段；

该第一目标的人脸优化视频片段用于形成该第一目标的优化视频片段。

可选地，该图像模糊处理包括图像均值滤波，该像素混合包括像素透明混合。

图22是根据本申请实施例的视频处理装置50的示意性框图。可选地，该视频处理装置50可以对应于视频处理方法500。

如图22所示，该视频处理装置50包括：获取单元51和处理单元52；

可选地，该获取单元51可以与图18中的获取单元11相同。该处理单元52可以与图18中的处理单元12相同。

可选地，该人脸图像处理还包括灯光贴图，该处理单元52用于：

根据该人脸优化视频片段中的人脸区域生成多张灯光图；

将该多张灯光图与该人脸优化视频片段进行像素混合形成该第一目标的优化视频片段。

可选地，该多张灯光图的中心与该人脸区域的中心重合，该多张灯光图与该人脸区域大小相关。

可选地，该多张灯光图中每张灯光图的运动轨迹采用缓动函数进行拟合。

可选地，该多张灯光图的缓动函数的缓动时长大于该镜头优化视频片段中每一帧图像的缓动函数的缓动时长。

图23是根据本申请实施例的视频处理装置60的示意性框图。可选地，该视频处理装置60可以对应于视频处理方法600。

如图23所示，该视频处理装置60包括：获取单元61和处理单元62；

可选地，该获取单元61可以与图18中的获取单元11相同。该处理单元62可以与图18中的处理单元12相同。

该优化处理还包括三维处理，该处理单元62还用于：

对获取的多个该优化视频片段进行三维处理凸显三维效果，形成该第一目标的初始剧情视频，该初始剧情视频用于形成该第一目标的剧情视频。

可选地，该三维处理包括：三维变换、三维渲染以及像素混合，该处理单元用于：

将多个优化视频片段的多帧图像映射至三维模型以进行三维变换；

对该三维模型进行三维渲染，形成多张渲染图像；

基于该多张渲染图像进行像素混合，形成该第一目标的初始剧情视频。

可选地，该处理单元62用于：

对该多张渲染图像中相邻的图像进行像素透明混合以形成转场特效，和/或，将多张特效图与该多张渲染图像进行像素混合以形成合成特效。

图24是根据本申请实施例的视频处理装置70的示意性框图。可选地，该视频处理装置70可以对应于视频处理方法700。

如图24所示，该视频处理装置70包括：获取单元71和处理单元72；

可选地，该获取单元71可以与图18中的获取单元11相同。该处理单元72可以与图18中的处理单元12相同。

可选地，该处理单元72用于：对多张虚拟道具图像进行三维处理，以形成多张虚拟渲染图像；

将该多张虚拟渲染图像与该初始剧情视频中的多帧图像进行像素混合以增强现实，形成该第一目标的剧情视频。

可选地，该处理单元72用于：根据相机参数以及多个特征坐标点，对该多张虚拟道具图像进行三维处理；

其中，该多个特征坐标点为采用多任务卷积神经网络mtcnn对该多个镜头优化视频片段进行人脸检测得到的多个特征点坐标，该相机参数为优化pnp问题计算得到的参数。

可选地，该mtcnn用于输出68个特征点坐标，该mtcnn为基于迁移训练得到神经网络模型。

图25示出了本申请实施例的电子设备1的示意性框图。

如图25所示，该电子设备1可以包括处理器10，进一步的可以包括存储器20。

应理解，该存储器20用于存储计算机可执行指令。

存储器20可以是各种种类的存储器，例如可以包括高速随机存取存储器(randomaccessmemory，ram)，还可以包括非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器，本申请实施例对此并不限定。

处理器10用于访问该存储器20，并执行该计算机可执行指令，以进行上述本申请实施例的视频处理的方法中的操作。处理器10可以包括微处理器，现场可编程门阵列(fieldprogrammablegatearray，fpga)，中央处理器(centralprocessingunit，cpu)，图形处理器(graphicsprocessingunit，gpu)等，本申请实施例对此并不限定。

本申请实施例的视频处理的装置可对应于本申请实施例的视频处理的方法100至视频处理的方法700中任意一种视频处理方法的执行主体，并且视频处理的装置中的各个模块的上述和其它操作和/或功能分别为了实现前述各个方法的相应流程，为了简洁，在此不再赘述。

可选地，该电子设备还可以包括摄像头，该摄像头用于拍摄视频并发送处理器10。

本申请实施例还提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得，该计算机执行上述方法实施例的方法。

本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digitalvideodisc，dvd))、或者半导体介质(例如固态硬盘(solidstatedisk，ssd))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张俊;瞿炜;丁钰莹
技术所有人：新东方教育科技集团有限公司
我是此专利的发明人

上一篇：一种废旧胸片的处理及利用其制作皮影的方法与流程
上一篇：一种复合陶瓷及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。