本公开的示例实施例总体涉及计算机领域,特别地涉及针对视频的交互方法、装置、设备和计算机可读存储介质。
背景技术:
1、随着机器学习技术的快速发展,目前机器学习模型已具备较成熟的对文本以及静态图像的处理能力。但是在面对视频,特别是时长较长的视频时,机器学习模型的处理能力较差,通常无法满足用户的需求。
技术实现思路
1、在本公开的第一方面,提供了一种针对视频的交互方法。该方法可以包括:接收用户输入,用户输入指示对目标视频的提问。基于目标视频的内容描述信息和目标视频中的第一组视频图像,确定与用户输入对应的回复内容,其中,第一组视频图像是通过对目标视频的多个视频片段分别执行抽帧得到的。
2、在本公开的第二方面,提供了一种针对视频的交互装置。该装置可以包括:用户输入接收模块,被配置为接收用户输入,用户输入指示对目标视频的提问。回复内容确定模块,被配置为基于目标视频的内容描述信息和目标视频中的第一组视频图像,确定与用户输入对应的回复内容,其中,第一组视频图像是通过对目标视频的多个视频片段分别执行抽帧得到的。
3、在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使电子设备执行第一方面的方法。
4、在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,计算机程序被处理器执行时实现第一方面的方法。
5、应当理解,该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的描述而变得容易理解。
1.一种针对视频的交互方法,包括:
2.根据权利要求1所述的方法,其中所述目标视频的内容描述信息是通过以下方式确定的:
3.根据权利要求2所述的方法,其中所述确定所述视频片段的内容描述信息包括:
4.根据权利要求3所述的方法,其中所述第二组视频图像中的图像数量多于所述第一组视频图像中的图像数量。
5.根据权利要求3所述的方法,其中所述基于所述视频片段对应的第二组视频图像,利用第一模型确定所述视频片段的内容描述信息包括:
6.根据权利要求5所述的方法,其中对所述视频片段执行抽帧处理得到第二组视频图像包括:
7.根据权利要求3所述的方法,其中所述第一组视频图像是通过以下方式确定的:
8.根据权利要求1所述的方法,其中所述第一组视频图像中包括多个图像,并且所述确定与所述用户输入对应的回复内容包括:
9.一种针对视频的交互装置,包括:
10.一种电子设备,包括:
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至8中任一项所述的方法。