一种基于强化学习的选帧决策方法及装置与流程

文档序号:36238208发布日期:2023-12-01 21:24阅读:24来源:国知局
一种基于强化学习的选帧决策方法及装置与流程

本技术涉及图像处理,尤其涉及一种基于强化学习的选帧决策方法及装置。


背景技术:

1、目前,大多数电子设备都具备视频录制(也可称为录像)功能,用户可以使用录像功能来记录生活。然而在一些情况下,由于录像得到的视频较长可能会导致用户没有耐心观看视频。

2、为了能让用户快速浏览录制的视频的精彩瞬间,相关技术中,通常是等到视频录制结束后,通过编写好的代码逻辑,来决策出这段视频对应的若干张精彩帧图像,以使得用户能够通过查看该若干张精彩帧图像,来获取到该段视频对应的精彩瞬间。

3、然而,采用上述方式来决策视频的精彩帧图像至少存在以下问题:实时性较差,也就是说,用户在录像结束后需要等待较长的时间,才能看到该段视频对应的若干张精彩帧图像,会使得用户的体验较差。


技术实现思路

1、本技术提供一种基于强化学习的选帧决策方法及装置,可以动态地、实时标记视频对应的精彩帧,提高视频中精彩帧标记的效率,优化用户的录像体验。

2、第一方面,本技术提供一种基于强化学习的选帧决策方法,可应用在电子设备或实现电子设备功能的组件(比如芯片系统),包括:在拍摄视频的过程中获取视频对应的候选精彩帧,其中,候选精彩帧包括n张图像帧,n为正整数;根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新视频对应的候选精彩帧。

3、基于本技术提供的方法,在拍摄预设视频的过程中,可以根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新预设视频对应的候选精彩帧。从而可以在视频拍摄过程中实现动态地、实时决策视频对应的精彩帧,提高决策视频对应的精彩帧的效率。并且预设的选帧决策模型可以根据电子设备缓存的当前视频帧(也即拍摄到的最后一个图像帧)以及若干张候选精彩帧来实时地进行标记,无需缓存更多的帧。或者预设的选帧决策模型还可以根据电子设备缓存的当前视频帧、当前视频帧的前x帧(例如,前2帧)以及若干张候选精彩帧在拍摄过程中实时地进行标记,其中,x为正整数。

4、由此可见,采用本技术实施例提供的在拍摄的同时实时确定候选精彩帧的方式,可以几乎不受电子设备缓存限制的影响,并可以保证输入数据完整性。

5、在第一方面的一种可能的实施方式中,n张图像帧包括视频中的图像帧。基于此,候选精彩帧可以包括预设视频中的图像帧,可以对拍摄到的最后一个图像帧执行以下操作:根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新预设视频对应的候选精彩帧。从而可以实现动态地、实时基于视频的每一帧的构图信息决策视频对应的精彩帧,提高决策视频对应的精彩帧的效率。并且由于预设的选帧决策模型可以根据电子设备缓存的当前视频帧以及若干张候选精彩帧来实时地进行标记。由此可见,采用本技术实施例提供的在拍摄的同时实时确定候选精彩帧的方式,可以几乎不受电子设备缓存限制的影响,并可以保证输入数据完整性。

6、在第一方面的另一种可能的实施方式中,在更新视频对应的候选精彩帧之后,方法还包括:在视频拍摄结束后,根据更新后的候选精彩帧对应的收益,更新预设的选帧决策模型的网络参数。

7、基于本技术提供的方法,在预设视频拍摄结束后,可以基于候选精彩帧对应的收益来更新预设的选帧决策模型的网络参数。从而可以基于客观因素,即决策出的候选精彩帧对应的收益,来更新预设的选帧决策模型的网络参数。进而提高了预设的选帧决策模型决策的可靠性。

8、在第一方面的另一种可能的实施方式中,根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新视频对应的候选精彩帧,包括:根据预设的选帧决策模型的预设策略,基于当前帧的构图信息、候选精彩帧的构图信息更新视频对应的候选精彩帧;其中,预设策略用于指示当前状态信息与预设动作之间的映射关系,当前状态信息包括当前帧的构图信息和候选精彩帧的构图信息,预设策略随着预设的选帧决策模型的网络参数的改变而改变。

9、基于本技术提供的方法,预设的选帧决策模型可以将基于预设视频的每一帧的构图信息决策得到的候选精彩帧,确定为视频对应的精彩帧。由此可见,本技术实施例中电子设备可以调用的预设的选帧决策模型的输入数据包括视频的每一帧数据,从而保证了输入数据的完整性,进而可以提高输出精彩帧的可靠性。

10、在第一方面的另一种可能的实施方式中,更新视频对应的候选精彩帧,包括以下预设动作中的任意一种:根据预设策略,将候选精彩帧包括的第m帧替换为当前帧或者保持候选精彩帧不变,其中,m为小于或者等于n的正整数。

11、基于本技术提供的方法,预测策略可以指示当前状态信息和以下任意一种动作的映射关系,即根据预设策略将候选精彩帧包括的第m帧替换为当前帧或者保持候选精彩帧不变。

12、在第一方面的另一种可能的实施方式中,构图信息包括以下信息中的一个或多个:清晰度、对比度、主体人物个数、非主体人物个数、主体人物的运动情况、非主体人物的运动情况、主体人物的人脸分数、非主体人物的人脸分数、对称性。

13、基于本技术提供的方法,可以基于当前帧的构图信息和候选精彩帧的构图信息更新预设视频对应的候选精彩帧。其中,构图信息可以包括以下信息中的一个或多个:清晰度、对比度、主体人物个数、非主体人物个数、主体人物的运动情况、非主体人物的运动情况、主体人物的人脸分数、非主体人物的人脸分数、对称性。从而可以实现动态地、实时基于视频的每一帧的构图信息决策视频对应的精彩帧,提高决策视频对应的精彩帧的效率。

14、在第一方面的另一种可能的实施方式中,候选精彩帧对应的收益可以基于以下表达式计算得到:

15、

16、其中,ai为第i张候选精彩帧的得分,aj为第j张候选精彩帧的得分,sij为第i张候选精彩帧和第j张候选精彩帧的相似度,i与j均为小于或者等于n的正整数,候选精彩帧的得分是根据预设规则得到的。

17、相关技术中,通过某段代码的比较逻辑来选择若干张精彩的图片的方式存在以下问题:由于比较逻辑可能较单一,因而可能会选择出相似重复的精彩图片,从而造成选择结果的同质化。基于本技术实施例提供的方法,可以避免得到相似重复的精彩帧图像。

18、在第一方面的另一种可能的实施方式中,在拍摄视频之前,方法还包括:初始化预设的选帧决策模型的网络参数。

19、基于本技术实施例提供的方法,在训练预设的选帧决策模型的开始阶段可以初始化预设的选帧决策模型的网络参数,从而可以通过设置预设的选帧决策模型的网络参数对预设的选帧决策模型的性能进行调解,使得预设的选帧决策模型可以适应后续训练的处理流程,保证预设的选帧决策模型决策候选精彩帧的处理效果。

20、在第一方面的另一种可能的实施方式中,根据候选精彩帧对应的收益,更新预设的选帧决策模型的网络参数包括:将预设的选帧决策模型的网络参数与学习率乘以预设导数的和,作为更新后的预设的选帧决策模型的网络参数,其中,预设导数为收益对网络参数的导数。

21、基于本技术实施例提供的方法,由于决策逻辑不依赖于个人的审美偏好,因而预设的选帧决策模型决策结果相对客观。

22、在第一方面的另一种可能的实施方式中,在更新选帧决策模型的网络参数后,方法还包括:若更新预设的选帧决策模型的网络参数的次数大于预设次数,确定预设的选帧决策模型训练完成。

23、基于本技术实施例提供的方法,当预设的选帧决策模型的网络参数的迭代次数大于预设次数时,可以确定预设的选帧决策模型训练完成。从而可以得到基于收益数据,迭代过至少预设次数的预设的选帧决策模型。

24、在第一方面的另一种可能的实施方式中,在视频拍摄结束后,方法还包括:在第一界面上显示视频对应的候选精彩帧;或,响应于用户播放视频的操作,显示视频的播放界面,其中,播放界面包括一个或多个标记,标记与候选精彩帧相对应。

25、基于本技术实施例提供的方法,在预设视频拍摄结束后,可以显示预设视频对应的候选精彩帧,或者在预设视频的播放界面上显示与候选精彩帧相对应的标记。从而丰富了预设视频对应的候选精彩帧的展示方式。

26、在第一方面的另一种可能的实施方式中,响应于用户对一个或多个标记中第一标记的操作,跳转至第一标记处播放视频内容。

27、基于本技术实施例提供的方法,可以响应于用户选择第一标记的操作,而跳转至播放第一标记处的视频内容。从而可以呈现给用户与候选精彩帧相对应的标记出的帧图像。

28、在第一方面的另一种可能的实施方式中,响应于用户对一个或多个标记中第一标记的位置调整操作,对应改变第一标记的插入位置。

29、基于本技术实施例提供的方法,可以响应于用户对第一标记的位置的调整操作,从而改变预设视频中第一标记的插入位置,进而可以提高候选精彩帧相对应的标记的位置的灵活性。

30、在第一方面的另一种可能的实施方式中,响应于用户对一个或多个标记中第一标记的删除操作,删除第一标记。

31、基于本技术实施例提供的方法,可以响应于用户对第一标记的删除操作,从而删除掉与某个候选精彩帧相对应的第一标记,即可以基于用户的喜好调整预设视频对应的候选精彩帧。

32、第二方面,本技术提供一种电子设备,该电子设备包括:无线通信模块、存储器和一个或多个处理器。该无线通信模块、存储器与处理器耦合。其中,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当该计算机指令被处理器执行时,使得电子设备执行如第一方面及其任一种可能的实施方式的方法。

33、在第二方面的一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备还执行如下步骤:在拍摄视频的过程中获取视频对应的候选精彩帧,其中,候选精彩帧包括n张图像帧,n为正整数;根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新视频对应的候选精彩帧。

34、在第二方面的一种可能的实施方式中,n张图像帧包括视频中的图像帧。

35、在第二方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备执行如下步骤:根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新预设视频对应的候选精彩帧,包括:根据预设的选帧决策模型的预设策略,基于当前帧的构图信息、候选精彩帧的构图信息更新预设视频对应的候选精彩帧;其中,预设策略用于指示当前状态信息与预设动作之间的映射关系,当前状态信息包括当前帧的构图信息和候选精彩帧的构图信息,预设策略随着预设的选帧决策模型的网络参数的改变而改变。

36、在第二方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备还执行如下步骤:更新视频对应的候选精彩帧,包括以下预设动作中的任意一种:根据预设策略,将候选精彩帧包括的第m帧替换为当前帧或者保持候选精彩帧不变,其中,m为小于或者等于n的正整数。

37、在第二方面的另一种可能的实施方式中,构图信息包括以下信息中的一个或多个:清晰度、对比度、主体人物个数、非主体人物个数、主体人物的运动情况、非主体人物的运动情况、主体人物的人脸分数、非主体人物的人脸分数、对称性。

38、在第二方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备还执行如下步骤:在视频拍摄结束后,方法还包括:在第一界面上显示视频对应的候选精彩帧;或,响应于用户播放视频的操作,显示视频的播放界面,其中,播放界面包括一个或多个标记,标记与候选精彩帧相对应。

39、在第二方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备还执行如下步骤:响应于用户对一个或多个标记中第一标记的操作,跳转至第一标记处播放视频内容。

40、在第二方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备还执行如下步骤:响应于用户对一个或多个标记中第一标记的位置调整操作,对应改变第一标记的插入位置。

41、在第二方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得电子设备还执行如下步骤:响应于用户对一个或多个标记中第一标记的删除操作,删除第一标记。

42、第三方面,本技术提供一种服务器,该服务器包括:无线通信模块、存储器和一个或多个处理器。该无线通信模块、存储器与处理器耦合。其中,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当该计算机指令被处理器执行时,使得电子设备执行如第一方面及其任一种可能的实施方式的方法。

43、在第三方面的一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器执行如下步骤:在拍摄视频的过程中获取视频对应的候选精彩帧,其中,候选精彩帧包括n张图像帧,n为正整数;根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新视频对应的候选精彩帧。

44、在第三方面的一种可能的实施方式中,n张图像帧包括视频中的图像帧。

45、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:在更新预设视频对应的候选精彩帧之后,方法还包括:在更新视频对应的候选精彩帧之后,方法还包括:在视频拍摄结束后,根据更新后的候选精彩帧对应的收益,更新预设的选帧决策模型的网络参数。

46、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:根据预设的选帧决策模型,基于当前帧的构图信息和候选精彩帧的构图信息更新视频对应的候选精彩帧,包括:根据预设的选帧决策模型的预设策略,基于当前帧的构图信息、候选精彩帧的构图信息更新视频对应的候选精彩帧;其中,预设策略用于指示当前状态信息与预设动作之间的映射关系,当前状态信息包括当前帧的构图信息和候选精彩帧的构图信息,预设策略随着预设的选帧决策模型的网络参数的改变而改变。

47、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:更新视频对应的候选精彩帧,包括以下预设动作中的任意一种:根据预设策略,将候选精彩帧包括的第m帧替换为当前帧或者保持候选精彩帧不变,其中,m为小于或者等于n的正整数。

48、在第三方面的另一种可能的实施方式中,构图信息包括以下信息中的一个或多个:清晰度、对比度、主体人物个数、非主体人物个数、主体人物的运动情况、非主体人物的运动情况、主体人物的人脸分数、非主体人物的人脸分数、对称性。

49、在第三方面的另一种可能的实施方式中,候选精彩帧对应的收益可以基于以下表达式计算得到:

50、

51、其中,ai为第i张候选精彩帧的得分,aj为第j张候选精彩帧的得分,sij为第i张候选精彩帧和第j张候选精彩帧的相似度,i与j均为小于或者等于n的正整数,候选精彩帧的得分是根据预设规则得到的。

52、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:在拍摄预设视频之前,方法还包括:初始化预设的选帧决策模型的网络参数。

53、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:根据候选精彩帧对应的收益,更新预设的选帧决策模型的网络参数包括:将预设的选帧决策模型的网络参数与学习率乘以预设导数的和,作为更新后的预设的选帧决策模型的网络参数,其中,预设导数为收益对网络参数的导数。

54、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:在更新选帧决策模型的网络参数后,方法还包括:若更新预设的选帧决策模型的网络参数的次数大于预设次数,确定预设的选帧决策模型训练完成。

55、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:在第一界面上显示视频对应的候选精彩帧;或,响应于用户播放视频的操作,显示视频的播放界面,其中,播放界面包括一个或多个标记,标记与候选精彩帧相对应。

56、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:响应于用户对一个或多个标记中第一标记的操作,跳转至第一标记处播放视频内容。

57、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:响应于用户对一个或多个标记中第一标记的位置调整操作,对应改变第一标记的插入位置。

58、在第三方面的另一种可能的实施方式中,当上述计算机指令被处理器执行时,使得服务器还执行如下步骤:响应于用户对一个或多个标记中第一标记的删除操作,删除第一标记。

59、第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的实施方式的方法。

60、第五方面,本技术提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行如第一方面及任一种可能的实施方式的方法。该计算机可以是上述电子设备。

61、第六方面,本技术提供一种芯片系统,该芯片系统包括一个或多个接口电路和一个或多个处理器。接口电路和处理器通过线路互联。该芯片系统应用于包括通信模块和存储器的电子设备;接口电路用于从存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令。当处理器执行计算机指令时,电子设备执行如第一方面及任一种可能的实施方式的方法。

62、可以理解地,上述提供的第二方面及其任一种可能的实现方式的电子设备,第三方面及其任一种可能的实现方式的服务器,第四方面的计算机存储介质,第五方面的计算机程序产品,以及第六方面的芯片系统所能达到的有益效果,可参考第一方面及其任一种可能的实施方式中的有益效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1