图像中的剪辑对象确定方法、视频剪辑方法及相关装置与流程

文档序号：30959551发布日期：2022-07-30 12:09阅读：83来源：国知局

1.本技术涉及图像处理技术领域，具体地涉及一种图像中的剪辑对象确定方法、视频剪辑方法及相关装置。

背景技术：

2.人体姿态是计算机视觉领域中的重要研究方向之一，被广泛应用于人体活动分析、人机交互以及视频剪辑等方面。例如，在实现视频自动剪辑时，视频或图像中姿态特别的人体往往是值得关注的目标，包含这些目标的片段或图像是视频剪辑时所需的原料。因此常常需要对图像中人体姿态的类别进行判定。
3.现有技术中，在进行图像中人体姿态的类型判定时，需要先进行人体姿态估计。根据人体姿态的估计结果，确定图像中人体姿态的类型。其中，人体姿态估计是指对于给定的一幅图像或一段视频，通过计算机算法定位人体关键点，从而得到图像或视频中人体是否处于空翻、张手、迈腿等特别的姿态。目前，人体姿态估计是通过计算机算法定位人体关键点，其中关键点包含有肩部、肘部、腕部、膝盖、脚踝等关节处，需处理器计算的参数较多，对其计算能力要求较高。尤其是图像或视频中包含有多个人体时，处理器需要计算大量的数据，效率较低。从而导致对图像中人体姿态的类别进行判定时，计算成本较高。

技术实现要素：

4.有鉴于此，本技术提供一种图像中的剪辑对象确定方法、视频剪辑方法及相关装置，以利于解决现有技术中对图像中人体姿态的类别判定时计算成本高的问题。
5.第一方面，本技术实施例提供了一种图像中的剪辑对象确定方法，包括：
6.获取包含有至少一目标对象的待测图像；所述目标对象是所述待测图像中待确定姿态类别的对象；
7.将所述待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别；
8.将所述待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
9.优选地，在所述将所述待测图像输入至预先训练好的姿态估计模型之前，还包括：
10.获取多个目标样本图像；其中，每个所述目标样本图像中均包含有至少一目标对象；
11.获取每个目标样本图像中各目标对象的至少一个标注信息；所述目标对象的标注信息用于标注出所述目标对象的姿态类别；
12.根据所述多个目标样本图像及每个目标样本图像中各目标对象的至少一个标注信息，进行预设神经网络模型的训练，得到姿态估计模型。
13.优选地，获取多个目标样本图像包括：
14.采集多个样本图像；
15.在所述多个样本图像中，将包含有至少一目标对象的样本图像确定为目标样本图
像。
16.优选地，在所述目标对象为人体时，所述目标姿态类别对应的姿态包括：至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态。
17.优选地，所述第一预设角度包括45度，所述第二预设角度包括45度。
18.第二方面，本技术实施例提供了视频剪辑方法，包括：
19.获取待剪辑视频的包含有至少一目标对象的至少一视频帧；所述目标对象是所述至少一视频帧中待确定姿态类别的对象；
20.将所述至少一视频帧输入至预先训练好的姿态估计模型，得到所述至少一视频帧中各目标对象的姿态类别；
21.将所述至少一视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象；
22.根据各视频帧中的剪辑对象生成目标视频。
23.第三方面，本技术实施例提供了一种图像中的剪辑对象确定装置，包括：
24.获取单元，用于获取包含有至少一目标对象的待测图像；所述目标对象是所述待测图像中待确定姿态类别的对象；
25.处理单元，用于将所述待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别；
26.确定单元，还用于将所述待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
27.第四方面，本技术实施例提供了一种图像中的剪辑对象确定装置，包括：
28.图像采集单元，用于采集图像；
29.获取单元，用于获取包含有至少一目标对象的待测图像；所述目标对象是所述待测图像中待确定姿态类别的对象；
30.处理单元，用于将所述待测图像输入至预先训练好的姿态估计模型，得到待测图像中目标对象的姿态类别；
31.确定单元，还用于将所述待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
32.优选地，所述图像采集单元包括图像采集传感器。
33.第五方面，本技术实施例提供了一种视频剪辑装置，包括：
34.获取单元，用于获取待剪辑视频的包含有至少一目标对象的至少一视频帧；所述目标对象是所述至少一视频帧中待确定姿态类别的对象；
35.处理单元，用于将所述至少一目标视频帧输入至预先训练好的姿态估计模型，得到所述至少一目标视频帧中各目标对象的姿态类别；
36.确定单元，用于将所述至少一目标视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象；
37.生成单元，用于根据各视频帧中的剪辑对象生成目标视频。
38.第六方面，本技术实施例提供了一种视频剪辑装置，包括：
39.图像采集单元，用于采集图像；
40.获取单元，用于获取待剪辑视频的包含有至少一目标对象的至少一视频帧；所述
目标对象是所述至少一视频帧中待确定姿态类别的对象；
41.处理单元，用于将所述至少一目标视频帧输入至预先训练好的姿态估计模型，得到所述至少一目标视频帧中各目标对象的姿态类别；
42.确定单元，用于将所述至少一目标视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象；
43.生成单元，用于根据各视频帧中的剪辑对象生成目标视。
44.优选地，所述图像采集单元包括图像采集传感器。
45.第七方面，本技术实施例提供了一种电子设备，所述电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述电子设备执行上述第一方面任一项或第二方面所述的方法。
46.第八方面，本技术实施例提供了一种图像采集设备，所述图像采集设备包括用于采集图像的图像采集传感器，用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述图像采集设备执行上述第一方面任一项或第二方面所述的方法。
47.第九方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行第一方面任一项或第二方面所述的方法。
48.采用本技术实施例所提供的方案，在获取了包含有至少一个目标对象的待测图像后，可以将待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别。将待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。这样一来，可以直接通过姿态估计模型确定出待测图像中各目标对象的姿态类别，无需对待测图像中各目标对象进行关键点的计算，大大降低了计算成本，并且降低了处理器的计算能力的要求，从而更容易实现。
附图说明
49.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
50.图1为本技术实施例提供的一种电子设备的结构示意图；
51.图2为本技术实施例提供的一种图像中的剪辑对象确定方法的流程示意图；
52.图3a为本技术实施例提供的一种图像中的剪辑对象确定方法的场景示意图；
53.图3b为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
54.图3c为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
55.图4a为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
56.图4b为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
57.图4c为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
58.图5a为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
59.图5b为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
60.图5c为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
61.图5d为本技术实施例提供的另一种图像中的剪辑对象确定方法的场景示意图；
62.图6为本技术实施例提供的另一种图像中的剪辑对象确定方法的流程示意图；
63.图7为本技术实施例提供的一种视频剪辑方法的流程示意图；
64.图8为本技术实施例提供的一种图像中的剪辑对象确定装置的结构示意图；
65.图9为本技术实施例提供的另一种图像中的剪辑对象确定装置的结构示意图；
66.图10为本技术实施例提供的一种视频剪辑装置的结构示意图；
67.图11为本技术实施例提供的另一种视频剪辑装置的结构示意图；
68.图12为本技术实施例提供的另一种电子设备的结构示意图；
69.图13为本技术实施例提供的一种图像采集设备的结构示意图。
具体实施方式
70.为了更好的理解本技术的技术方案，下面结合附图对本技术实施例进行详细描述。
71.应当明确，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
72.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
73.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
74.在对本技术实施例进行具体介绍之前，首先对本技术实施例应用或可能应用的术语进行解释。
75.人体姿态估计是指对于给定的一幅图像或一段视频，通过计算机算法定位人体关键点。
76.相关技术中，人体姿态是计算机视觉领域中的重要研究方向之一，被广泛应用于人体活动分析、人机交互以及视频剪辑等方面。例如，在实现视频自动剪辑时，视频或图像中姿态特别的人体往往是值得关注的目标，包含这些目标的片段或图像是视频剪辑时所需的原料。因此常常需要对图像中人体姿态的类别进行判定。
77.一些技术中，在进行图像中人体姿态的类型判定时，需要先进行人体姿态估计。根据人体姿态的估计结果，确定图像中人体姿态的类型。其中，人体姿态估计是指对于给定的一幅图像或一段视频，通过计算机算法定位人体关键点，从而得到图像或视频中人体是否处于空翻、张手、迈腿等特别的姿态。目前，人体姿态估计是通过计算机算法定位人体关键点，其中关键点包含有肩部、肘部、腕部、膝盖、脚踝等关节处，需处理器计算的参数较多，对其计算能力要求较高。尤其是图像或视频中包含有多个人体时，处理器需要计算大量的数据，效率较低。从而导致对图像中人体姿态的类别进行判定时，计算成本较高。
78.针对上述问题，本技术实施例提供了一种图像中的剪辑对象确定方法、视频剪辑
方法、装置、介质及设备，在获取了包含有至少一个目标对象的待测图像后，可以将待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别。将待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。这样一来，可以直接通过姿态估计模型确定出待测图像中各目标对象的姿态类别，无需对待测图像中各目标对象进行关键点的计算，大大降低了计算成本，并且降低了处理器的计算能力的要求，从而更容易实现。以下进行详细说明。
79.参见图1，为本技术实施例提供的一种电子设备示意图。在图1中以手机100为例对电子设备进行示例性说明，图1中示出了手机100的前视图和后视图。为了提供拍摄功能，手机100上通常配置摄像头。例如，在本技术实施例的手机100的前侧配置有两个前置摄像头111、112，在手机100的后侧面配置有四个后置摄像头121、122、123、124。
80.可理解，图1所示仅为一种示例性说明，并不应当将其作为本技术保护范围的限制。例如，不同的手机，其摄像头的配置数量和配置位置可能不同。另外，本技术实施例涉及的电子设备除了手机以外，还可以为相机、平板电脑、个人计算机(personal computer，pc)、个人数字助理(personal digital assistant，pda)、智能手表、上网本、可穿戴电子设备、增强现实技术(augmented reality，ar)设备、虚拟现实(virtual reality，vr)设备、车载设备、智能汽车、智能音响、机器人、智能眼镜、智能电视等。
81.需要指出的是，在一些可能的实现方式中，电子设备也可能称为终端设备、用户设备(user equipment，ue)等，本技术实施例对此不作限制。
82.参见图2，为本技术实施例提供的一种图像处理方法的流程示意图，该方法应用于图1所示的电子设备中。如图2所示，所述方法包括：
83.步骤s201、获取包含有至少一目标对象的待测图像。
84.其中，至少一个目标对象是待测图像中待确定姿态类别的对象。即为，目标对象是进行姿态类别确定的对象。作为一种可能的实现方式，至少一个目标对象可以是人体、动物等，还可以是其他可以显示出姿态的对象，本技术对此不作限制。
85.在本技术实施例中，电子设备可以通过直接或间接的方式得到包含有至少一个目标对象的待测图像。
86.作为一种可能的实现方式，电子设备可以将接收到的图像采集设备传输过来的，包含有至少一个目标对象的图像作为待测图像。
87.作为一种可能的实现方式中，电子设备可以将接收到的图像采集设备传输过来的包含有至少一个目标对象的图像经过图像预处理后，将预处理后的图像作为待测图像。其中，预处理是根据实际需求预先设置的需对图像进行的处理，可以包括对图像进行裁剪或者归一化等处理。
88.作为一种可能的实现方式，图像采集设备可以为全景相机，全景相机采集到全景图像后，传输至电子设备。电子设备可以将包含有至少一个目标对象的全景图像确定为待测图像。
89.作为一种可能的实现方式，电子设备通过在全景视频中抽帧获取全景图像，可以将包含有至少一个目标对象的全景图像直接确定为待测图像。或者将包含有至少一个目标对象的全景图像经预处理，将预处理后的图像确定为待测图像。
90.步骤s202、将待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目
标对象的姿态类别。
91.在本技术实施例中，电子设备在获取了包含有至少一个目标对象待测图像后，可以将待测图像直接输入至预先训练好的姿态估计模型，该姿态估计模型可以估计出输入的图像中各个目标对象的姿态类型。电子设备将待测图像输入至姿态估计模型后，姿态估计模型对待测图像中各目标对象的姿态类型进行估计处理，输出待测图像中各目标对象的姿态类别。电子设备可以从姿态估计模型的输出结果中得到待测图像中各目标对象的姿态类别。
92.作为一种可能的实现方式，姿态类别是指姿态所需的类型，包括普通类别及特殊类别。其中，普通类别与特殊类别的划分规则依据对象的不同而不同。例如，在对象为人体时，若对象的姿态满足至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种情况，则可以确定该对象的姿态类型为特殊类别。例如，人体处于手臂张开的姿态，如图3a所示，假设第一预设角度为45度，则图3a所示的人体处于手臂张开的姿态时，手臂与躯干间的夹角超过45度，则可以确定人体的姿态类别为特殊姿态类别。或者，人体处于踢腿的姿态，如图3b所示，假设第二预设角度为45度，则图3b所示的人体处于踢腿的姿态时，两腿间的夹角超过45度，则可以确定人体的姿态类别为特殊姿态类别。或者，人体处于空翻的姿态，如图3c所示，假设第一距离阈值为15厘米，图3c所示的人体处于空翻的姿态时，脚部与地面间的距离超过15厘米，则可以确定人体的姿态类别为特殊姿态类别。
93.当然，上述满足至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态还可以是其他的人体姿态，本技术对此不作限制。在人体的姿态满足至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态时，则可以确定该人体的姿态类别为特殊类别。
94.在本技术实施例中，目标对象的姿态类别若不属于特殊类别则就属于普通类别。例如，假设第一预设角度为45度，人体的姿态中手臂与躯干间的夹角不超过45度时，如图4a所示，则人体的姿态类别为普通类别。假设第二预设角度为45度，人体处于正常站立姿态时，两腿间的夹角不超过45度，如图4b所示，则人体的姿态类别为普通类别。人体处于坐立的姿态时，两腿间的夹角不超过45，手臂与躯干间的夹角不超过45，且脚部位于地面上，如图4c所示，则人体的姿态类别为普通类别。
95.在目标对象为动物，且为哺乳类陆地动物时，若目标对象的姿态满足目标对象具有四支腿时其支撑腿的数量小于3，至少一支腿与躯干间的夹角大于第三预设角度，至少一支腿与地面的距离超过第二距离阈值中的至少一种情况，则该目标对象的姿态类别为特殊类别。目标对象的姿态类别若不属于特殊类别则就属于普通类别。例如，目标对象为小狗，若小狗处于站立的姿态，小狗的支撑腿的数为2支，此时，小狗支撑腿的数量小于3，如图5a所示，此时，可以确定小狗的姿态的类别为特殊类别。或者，小狗处于跳跃姿态，此时当小狗的四肢腿与地面的距离超过第二距离阈值，例如5厘米，如图5b所示，则可以确定小狗的跳跃姿态的类别为特殊类型。或者，小猫处于拉伸前两只腿的姿态，假设第三预设角度为90度，此时，若小猫前两只腿与躯干间的夹角超过90度，如图5c所示，则确定小猫的拉伸两只腿的姿态的类别为特殊类别。若小狗处于行走的姿态，且通过四支腿支撑在地面上，且小狗
的四支腿与躯干间的夹角不超过90度，如图5d所示，则可以确定小狗的行走姿态的类别为普通类别。
96.需要说明的是，上述说明中仅以目标对象为小狗为例进行说明，还可以是其他动物例如猫，虎，牛等，本技术对此不作限制。
97.在目标对象为动物，且为禽类动物时，若目标对象的姿态满足支撑腿的数量小于其自身具有的腿的数量，至少一只翅膀处于张开状态中的至少一种情况，则该目标对象的姿态类别为特殊类别。目标对象的姿态类别若不属于特殊类别则就属于普通类别。
98.需要说明的是，姿态估计模型是预先利用包含有目标对象的图像及已知该图像的姿态类别进行训练得到的。训练好的姿态估计模型可以输出图像中目标对象的姿态类别。
99.步骤s203、将待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
100.在本技术实施例中，当电子设备需要在待测图像的各个目标对象中将姿态类别为特殊姿态类别的目标对象查找出时，可以将特殊类别确定为目标姿态类别。此时，在将待测图像输入至姿态估计模型，姿态估计模型输出待测图像中各目标对象的姿态类别。电子设备可以检测姿态估计模型输出的待测图像中各目标对象的姿态类别是否为目标姿态类别，例如是否为特殊姿态类别，如果是目标姿态类别，则可以确定该目标对象确定为剪辑对象。
101.作为一种可能的实现方式，如果目标姿态类别为特殊类别，在所述目标对象为人体时，则目标姿态类别对应的姿态包括：至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态。
102.即为，姿态估计模型可以检测待测图像中的目标对象的姿态是否包含有至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态，如果包含有至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态，则可以确定待测图像的目标对象的姿态类别为特殊类型，此时姿态估计模型输出待测对象的姿态类别为特殊类别。
103.作为一种可能的实现方式，第一预设角度为45度，第二预设角度为45度。
104.参见图6，为本技术实施例提供的一种图像处理方法的流程示意图，该方法应用于图1所示的电子设备中。本实施例与上述图2所述的实施例间的区别为增加了姿态估计模型的训练过程。如图6所示，所述方法包括：
105.步骤s601、获取多个目标样本图像。
106.其中，每个目标样本图像中均包含有至少一个目标对象。
107.在本技术实施例中，由于需要通过姿态估计模型来确定待测图像中各个目标对象的姿态类别。因此，需要预先训练姿态估计模型。在训练姿态估计模型前，需要先获取训练数据，此时，电子设备可以从存储有大量图像或视频的存储设备中获取多个包含有至少一个目标对象的目标样本图像。
108.作为一种可能的实现方式，获取多个目标样本图像包括：采集多个样本图像；在多个样本图像中，将包含有至少一个目标对象的样本图像确定为目标样本图像。
109.在本技术实施例中，电子设备可以从存储有图像或视频的存储介质中采集样本图
像。电子设备检测采集的样本图像中是否包含有至少一个目标对象。在检测出样本图像中包含有至少一个目标对象时，可以将该样本图像确定为目标样本图像。在检测出样本图像中未包含有至少一个目标对象时，则该样本图像不能用于姿态估计模型的训练，可以直接丢弃。
110.作为一种可能的实现方式，电子设备在采集了样本图像后，可以检测样本图像中是否包含至少一个有目标对象，例如，可以检测样本图像中除背景部分之外的其他对象的轮廓，轮廓的宽高比，轮廓的面积等，检测出其他对象是否为至少一个目标对象。
111.作为一种可能的实现方式，在目标对象为人体时，在采集到样本图像后，可以通过人体检测算法，例如yolov3算法，进行采样图像的检测，从而确定采用图像中是否包含有人体。
112.需要说明的是，人体检测算法还可以是其他算法，本技术对此不作限制。
113.步骤s602、获取每个目标样本图像中各目标对象的至少一个标注信息。
114.其中，目标对象的标注信息用于标注出目标对象的姿态类别。
115.在本技术实施例中，在进行姿态估计模型训练之前，需要先将目标样本图像中各目标对象的姿态类型进行标注，然后在根据具有了各目标对象的姿态类型的目标样本图像进行姿态估计模型的训练。因此，电子设备在获取了多个目标样本图像后，还需获取每个目标样本图像中各个目标对象的至少一个标注信息。
116.作为一种可能的实现方式，多个目标样本图像中各个目标对象的至少一个标注信息可以有至少一个用户进行设置。即为，针对每个目标样本图像，通过至少一个用户设置该目标样本图像中各目标对象的姿态类别。即为设置该目标样本图像中各目标对象的姿态属于普通类别还是特殊类别，从而可以得到该目标样本图像中各目标对象的至少一个标注信息。
117.作为一种可能的实现方式，可以预先设置属于特殊类别的姿态的规则，这样用户可以根据该规则来判断目标样本图像中的各目标对象的姿态类别。例如，在目标对象为人体时，可以将属于特殊类别的姿态的规则设置为：目标对象的姿态属于至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态时，可以确定该目标对象的姿态类别为特殊类别，否则为普通类别。这样，至少一个用户可以根据上述规则，来判断每个目标样本图像中各目标对象的姿态类别。
118.需要说明的是，尽管设定了属于特殊类别的姿态的规则，但是不同用户对目标样本图像中各目标对象的姿态类别的判断依然存在差别。为了降低用户设置目标样本图像中各目标对象的标注信息时的主观性偏差，提高姿态估计模型的可靠性，可以针对同一个目标样本图像通过多个用户对其内的各目标对象的姿态类别进行判断，从而可以针对同一个目标样本图像中的各目标对象可以得到至少一个标注信息。
119.步骤s603、根据多个目标样本图像及每个目标样本图像中各目标对象的至少一个标注信息，进行预设神经网络模型的训练，得到姿态估计模型。
120.在本技术实施例中，电子设备在获取多个目标样本图像，并针对多个目标样本图像中每个目标样本图像，获取了每个目标样本图像中各目标对象的至少一个标注信息。电子设备可以根据多个目标样本图像及每个目标样本图像中各目标对象的至少一个标注信
息，进行预设神经网络模型的训练，从而得到姿态估计模型。
121.作为一种可能实现方式，在选择神经网络来构建姿态估计模型时，需要考虑图像抽象含义、图像底层纹理细节的处理方式、处理时间、处理效率及存储空间等因素，选择适当深度的神经网络。在电子设备分配给模型的计算资源较为充足，则预设神经网络模型可以采用残差模型(restnet)，例如restnet10，也可以采用vision transformer(视觉转换器)等较大的模型，以实现更好的分类性能。当然，如果电子设备分配给模型的计算资源相对紧缺，则预设神经网络模型可以考虑选择mobilenet(移动模型)、shufflenet(混洗模型)等轻量级模型进行训练，以降低模型的计算成本。
122.电子设备在进行预设神经网络模型的训练时，可以将目标样本图像输入至预设神经网络模型，预设神经网络模型输出目标样本图像的各目标对象的姿态类型。根据预设神经网络模型输出的目标样本图像的各目标对象的姿态类型及该目标样本图像中各目标对象的至少一条标注信息构建损失函数，并根据损失函数调整预设神经网络模型的相关参数，以便减小调整后的预设神经网络模型输出的目标样本图像中各目标对象的姿态类型与该目标样本图像中各目标对象的至少一条标注信息间的差异。通过上述过程，可以根据多个目标样本图像及每个目标样本图像中各目标对象的至少一个标注信息进行预设神经网络模型的训练，从而得到姿态估计模型。
123.需要说明的是，损失函数可以是交叉熵损失函数，或者均方误差损失函数等，本技术对此不作限制。
124.步骤s604、获取包含有至少一目标对象的待测图像。
125.其中，目标对象是待测图像中待确定姿态类别的对象。
126.具体的可参考步骤s201在此不再赘述。
127.步骤s605、将待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别。
128.具体的可参考步骤s202在此不再赘述。
129.步骤s606、将待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
130.具体的可参考步骤s203在此不再赘述。
131.参见图7，为本技术实施例提供的一种视频剪辑方法的流程示意图，该方法应用于图1所示的电子设备中。如图7所示，所述方法包括：
132.步骤s701、获取待剪辑视频的包含有至少一目标对象的至少一视频帧。
133.其中，目标对象是至少一视频帧中待确定姿态类别的对象。
134.在本技术实施例中，电子设备可以通过直接或间接的方式获取待剪辑视频。
135.作为一种可能的实现方式，电子设备可以将接收到的图像采集设备传输过来的视频作为待剪辑视频。此时，电子设备可以将待剪辑视频进行拆帧处理，得到多个视频帧。在多个视频帧中将包含有至少一个目标对象的视频帧查找出，从而可以得到待剪辑视频中的包含有至少一个目标对象的至少一视频帧。
136.作为一种可能的实现方式中，电子设备可以将接收到的图像采集设备传输过来的，经过图像预处理后，将预处理后的视频作为待剪辑视频。其中，预处理是根据实际需求预先设置的需对视频进行的处理，可以包括对视频进行裁剪或者归一化等处理。此时，电子
设备可以将待剪辑视频进行拆帧处理，得到多个视频帧。在多个视频帧中将包含有至少一个目标对象的视频帧查找出，从而可以得到待剪辑视频中的包含有至少一个目标对象的至少一视频帧。
137.作为一种可能的实现方式，图像采集设备可以为全景相机，全景相机采集到全景视频后，传输至电子设备。电子设备可以将采集到的全景视频确定为待剪辑视频。此时，电子设备可以将待剪辑视频进行拆帧处理，得到多个视频帧。在多个视频帧中将包含有至少一个目标对象的视频帧查找出，从而可以得到待剪辑视频中的包含有至少一个目标对象的至少一视频帧。
138.作为一种可能的实现方式，电子设备通过在全景视频中抽帧形成待剪辑视频。电子设备可以将待剪辑视频进行拆帧处理，得到多个视频帧。在多个视频帧中将包含有至少一个目标对象的视频帧查找出，从而可以得到待剪辑视频中的包含有至少一个目标对象的至少一视频帧。例如，电子设备从图像采集设备中接收视频，例如，该待视频的时长为2秒且每秒包含25帧的视频帧，则合计有50个视频帧，可以将接收的视频作为待剪辑视频，此时待剪辑视频中包含有50个视频帧，电子设备可以从50个视频帧确定出包含有至少一个目标对象的至少一视频帧。或者从接收的视频中进行抽帧处理，将抽取的视频帧形成的视频确定为待剪辑视频。例如，在上述50个视频帧中随机抽取多个视频帧，或者每间隔一段时间(如200毫秒)抽取一个视频帧，或者每间隔若干帧后抽取一个视频帧(如间隔20帧，即抽取第1帧，第21帧，第41帧)，将抽取后的视频帧形成待剪辑视频。此时待剪辑视频中包含的视频帧小于50个视频帧。电子设备可以从待剪辑视频包含的多个视频帧中确定出包含有至少一个目标对象的至少一视频帧。
139.步骤s702、将至少一视频帧输入至预先训练好的姿态估计模型，得到至少一视频帧中各目标对象的姿态类别。
140.在本技术实施例中，电子设备在获取了待剪辑视频中包含有至少一个目标对象的至少一视频后，则可以将至少一帧视频输入至预先训练好的姿态估计模型中，得到该至少一视频中各目标对象的姿态类别。具体的实现方式可以参考步骤s202，在此不再赘述。通过上述方式可以确定出至少一视频帧中各目标对象的姿态类别。
141.步骤s703、将至少一视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象。
142.在本技术实施例中，需要在待剪辑视频中将目标姿态类别的目标对象剪辑出，因此，可以确定至少一视频帧中各目标对象的姿态类别后，可以检测每个目标对象的姿态类别是否为目标姿态类别，若是则可以将该目标对象确定为剪辑对象。若不是可以确定该目标对象不是剪辑对象。从而可以在至少一视频中将姿态类别为目标姿态类别的目标对象确定出剪辑对象，可以得到至少一剪辑对象。具体实现方式可参考步骤s203在此不再赘述。
143.步骤704、根据各视频帧中的剪辑对象生成目标视频。
144.在本技术实施例中，电子设备获取了各视频帧中的剪辑对象后，由于每个剪辑对象的姿态并不是普通类型的姿态，往往是用户需要关注的目标，或者是该视频的主要拍摄内容，因此，可以根据各视频帧中的剪辑对象，按照各视频帧的帧顺序，生成目标视频，完成待剪辑视频的自动剪辑。
145.这样在本技术实施例中，在需要进行自动视频剪辑时，在待剪辑的视频中获取包
含有至少一目标对象的至少一视频帧，将至少一视频帧输入至预先训练好的姿态估计模型，经姿态估计模型的处理得到至少一视频帧中各目标对象的姿态类别。将至少一视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象。可以根据各视频帧中的剪辑对象生成目标视频。这样一来，在实现自动视频剪辑时，可以直接通过姿态估计模型确定出至少一视频帧中各目标对象的姿态类别，无需对至少一视频帧各目标对象进行关键点的计算，大大降低了计算成本，并且降低了处理器的计算能力的要求，从而更容易实现。并且可以减少视频剪辑所需时间，提高了剪辑效率。
146.参见图8，为本技术实施例提供的一种图像中的剪辑对象确定装置的结构示意图。如图8所示，所述图像中的剪辑对象确定装置包括：
147.获取单元801，用于获取包含有至少一目标对象的待测图像。
148.其中，目标对象是待测图像中待确定姿态类别的对象。
149.处理单元802，用于将待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别。
150.确定单元803，用于将待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
151.作为一种可能的实现方式，获取单元801，还用于获取多个目标样本图像。其中，每个目标样本图像中均包含有至少一个目标对象。
152.具体的，获取单元801，具体用于采集多个样本图像。在多个样本图像中，将包含有至少图个目标对象的样本图像确定为目标样本图像。
153.获取单元801，还用于获取每个目标样本图像中各目标对象的至少一个标注信息。
154.其中，目标对象的标注信息用于标注出目标对象的姿态类别。
155.处理单元802，还用于根据多个目标样本图像及每个目标样本图像中各目标对象的至少一个标注信息，进行预设神经网络模型的训练，得到姿态估计模型。
156.作为一种可能的实现方式，在目标对象为人体时，目标姿态类别对应的姿态包括：至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态。
157.作为一种可能的实现方式，第一预设角度包括45度，第二预设角度包括45度。
158.参见图9，为本技术实施例提供的一种图像中的剪辑对象确定装置的结构示意图。如图9所示，所述图像中的剪辑对象确定装置包括：
159.图像采集单元901，用于采集图像。
160.作为一种可能的实现方式，上述图像采集单元901包括图像采集传感器。
161.获取单元902，用于获取包含有至少一目标对象的待测图像。
162.其中，目标对象是待测图像中待确定姿态类别的对象。
163.处理单元903，用于将待测图像输入至预先训练好的姿态估计模型，得到待测图像中各目标对象的姿态类别。
164.确定单元904，用于将待测图像中的姿态类别为目标姿态类别的目标对象确定为剪辑对象。
165.作为一种可能的实现方式，获取单元902，还用于获取多个目标样本图像。其中，每个目标样本图像中均包含有至少一个目标对象。
166.具体的，获取单元902，具体用于采集多个样本图像。在多个样本图像中，将包含有至少图个目标对象的样本图像确定为目标样本图像。
167.获取单元902，还用于获取每个目标样本图像中各目标对象的至少一个标注信息。
168.其中，目标对象的标注信息用于标注出目标对象的姿态类别。
169.处理单元903，还用于根据多个目标样本图像及每个目标样本图像中各目标对象的至少一个标注信息，进行预设神经网络模型的训练，得到姿态估计模型。
170.作为一种可能的实现方式，在目标对象为人体时，目标姿态类别对应的姿态包括：至少一个手臂与躯干间的夹角超过第一预设角度，两腿的夹角超过第二预设角度，至少一个脚部与地面间距离超过第一距离阈值中的至少一种姿态。
171.作为一种可能的实现方式，第一预设角度包括45度，第二预设角度包括45度。
172.参见图10，为本技术实施例提供的一种视频剪辑装置的结构示意图。如图10所示，所述视频剪辑装置包括：
173.获取单元1001，用于获取待剪辑视频的包含有至少一目标对象的至少一视频帧。
174.其中，目标对象是至少一视频帧中待确定姿态类别的对象。
175.处理单元1002，用于将至少一目标视频帧输入至预先训练好的姿态估计模型，得到至少一目标视频帧中各目标对象的姿态类别。
176.确定单元1003，用于将至少一目标视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象。
177.生成单元1004，用于根据各视频帧中的剪辑对象生成目标视频。
178.参见图11，为本技术实施例提供的一种视频剪辑装置的结构示意图。如图11所示，所述视频剪辑装置包括：
179.图像采集单元1101，用于采集图像。
180.作为一种可能的实现方式，上述图像采集单元1101包括图像采集传感器。
181.获取单元1102，用于获取待剪辑视频的包含有至少一目标对象的至少一视频帧。
182.其中，目标对象是至少一视频帧中待确定姿态类别的对象。
183.处理单元1103，用于将至少一目标视频帧输入至预先训练好的姿态估计模型，得到至少一目标视频帧中各目标对象的姿态类别。
184.确定单元11104，用于将至少一目标视频帧中姿态类别为目标姿态类别的目标对象确定为剪辑对象。
185.生成单元1105，用于根据各视频帧中的剪辑对象生成目标视频。
186.与上述实施例相对应，本技术还提供了一种电子设备。图12为本发明实施例提供的一种电子设备的结构示意图，所述电子设备1200可以包括：处理器1201、存储器1202及通信单元1203。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明实施例的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
187.其中，所述通信单元1203，用于建立通信信道，从而使所述存储设备可以与其它设备进行通信。接收其他设备发是的用户数据或者向其他设备发送用户数据。
188.所述处理器1201，为存储设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1202内的软件程序和/或模块，以及调用存储
在存储器内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit，ic)组成，例如可以由单颗封装的ic所组成，也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说，处理器1201可以仅包括中央处理器(central processing unit，cpu)。在本发明实施方式中，cpu可以是单运算核心，也可以包括多运算核心。
189.所述存储器1202，用于存储处理器1201的执行指令，存储器1202可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
190.当存储器1202中的执行指令由处理器1201执行时，使得电子设备1200能够执行图6或图7所示实施例中的部分或全部步骤。
191.与上述实施例相对应，本技术还提供了一种图像采集设备。图13为本发明实施例提供的一种图像采集设备的结构示意图，所述图像采集设备1300可以包括：处理器1301、存储器1302、通信单元1303及图像采集传感器1304。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明实施例的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
192.其中，所述通信单元1303，用于建立通信信道，从而使所述存储设备可以与其它设备进行通信。接收其他设备发是的用户数据或者向其他设备发送用户数据。
193.图像采集传感器1304，用于采集图像。
194.所述处理器1301，为存储设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1302内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit，ic)组成，例如可以由单颗封装的ic所组成，也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说，处理器1301可以仅包括中央处理器(central processing unit，cpu)。在本发明实施方式中，cpu可以是单运算核心，也可以包括多运算核心。
195.所述存储器1302，用于存储处理器1301的执行指令，存储器1302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
196.当存储器1302中的执行指令由处理器1301执行时，使得图像采集设备1300能够执行图6或图7所示实施例中的部分或全部步骤。
197.具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的图像中的剪辑对象确定方法或视频剪辑方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
198.本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者
说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
199.本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例和终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈勃霖龙良曲
技术所有人：影石创新科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。