视频处理方法、可读存储介质及电子设备与流程

文档序号:37338443发布日期:2024-03-18 18:05阅读:14来源:国知局
视频处理方法、可读存储介质及电子设备与流程

本技术涉及终端,特别涉及一种视频处理方法、可读存储介质及电子设备。


背景技术:

1、电子设备可以根据视频的主题进行分类,或者基于视频的主题实现相关功能。例如,电子设备在根据用户操作对视频进行编辑、剪辑或制作视频时,可以根据视频的主题,为用户提供与该视频相匹配的视频模板。

2、视频是由多张图像画面组合而成,每一张图像画面都可以称为图像帧。目前,识别视频主题的方法一般是根据视频的各个图像帧中所包括的元素来确定视频主题。例如,电子设备在多个图像帧的画面中检测到包括“树木”的图像帧最多,则可以将视频的主题确定为“自然”。但是,仅根据视频中各帧图像中的元素的种类来确定视频的主题的精度较低。

3、例如,用户在旅游时拍摄的视频所包括的图像帧中,各个图像帧中可以包括“人物”,“美食”,“树木”等元素。如果该视频中包括“树木”的图像帧最多,电子设备会将该视频的主题确定为“自然”。而该视频实际对应的主题是“旅游”,导致视频主题识别错误。


技术实现思路

1、本技术实施例提供了一种视频处理方法、可读存储介质及电子设备。

2、第一方面,本技术实施例提供了一种视频处理方法,应用于电子设备中,该方法包括:获取待处理视频,提取待处理视频的文本信息和视觉信息;将待处理视频的文本信息和视觉信息输入第一模型中,得到待处理视频的主题。

3、可以理解,在本技术的一些实施例中,文本信息在下文中也可以被称为视频的描述文本。通过本技术的方法,即使待处理视频智能提供视觉信息,电子设备也能从待处理视频中提出待处理视频的文本信息,并根据文本信息和视觉信息等多个模态得到待处理视频的主题,有利于提高确定出的待处理视频的主题的精度。

4、在上述第一方面的一种可能的实现中,上述提取待处理视频的文本信息和视觉信息,包括:获取待处理视频的至少一个关键帧;将至少一个关键帧输入描述文本提取模型,得到关键帧的描述文本;基于至少一个关键帧的描述文本得到文本信息。

5、可以理解,在本技术的一些实施例中,如果待处理视频只有一个关键帧,则将该关键帧的描述文本作为待处理视频的文本信息。如果待处理视频有多个关键帧,则将所有关键帧的描述文本合并,作为待处理视频的文本信息。

6、在上述第一方面的一种可能的实现中,上述获取待处理视频的关键帧,包括:获取待处理视频的多个图像帧;将多个图像帧分为多个镜头组,其中,每个镜头组中的各图像帧之间的相似度超过第一相似度阈值;在每个镜头组中选择一帧图像帧作为关键帧。

7、在上述第一方面的一种可能的实现中,上述将关键帧输入描述文本提取模型,获得关键帧的描述文本,包括:描述文本提取模型包括图像编码模块,对齐模块和解码模块;图像编码模块提取关键帧的第一图像特征;对齐模块基于第一图像特征得到输出文本特征;解码模块对输出文本特征进行解码的到关键帧的描述文本。

8、可以理解,描述文本提取模型在下文中例如还可以称为标签模型,第一图像特征例如可以是指代关键帧的向量,输出文本特征例如可以是指代描述文本的向量。描述文本提取模型中的对齐模块中还包括第一参数,基于第一参数能够将第一图像特征调整成输出文本特征。在训练描述文本提取模型时,可以将包括样本图像和对应样本图像的标签文本输入描述文本提取模型,训练对齐模块的第一参数。描述文本提取模型的训练过程见下文描述。

9、基于描述文本提取模型能够根据待处理视频的关键帧获取关键帧的描述文本,并从而基于关键帧的描述文本生成待处理视频的文本信息,以此即使待处理视频只提供视觉信息,本技术也能根据待处理视频获取文本信息。

10、在上述第一方面的一种可能的实现中,视觉信息包括至少一个关键帧。

11、可以理解,在本技术的一些实施例中,视觉信息例如可以是待处理视频的关键帧,若待处理视频只有一个关键帧,则待处理视频的视觉特征为该关键帧。如果待处理视频包括多个关键帧,则视觉特征为多个关键帧。

12、在上述第一方面的一种可能的实现中,第一模型包括文本编码模块和视觉编码模块;将待处理视频的文本信息和视觉信息输入第一模型中,得到待处理视频的主题包括:利用文本编码模块对文本信息进行特征提取,得到文本信息对应的第一文本特征;利用视觉编码模块对视觉信息进行特征提取,得到视觉信息对应的视觉特征;基于第一文本特征和视觉特征确定待处理视频的主题。

13、可以理解,在本技术的实施例中,文本编码模块输出的第一文本特征例如可以是指代文本信息的向量。视觉编码模块输出的视觉特征例如可以是指代视觉信息的向量,并且第一文本特征的向量和视觉特征的向量是同一种向量,能够进行运算。

14、在上述第一方面的一种可能的实现中,基于第一文本特征和视觉特征确定待处理视频的主题,包括:基于第一文本特征以及预设的多个主题所对应的多个主题文本特征,得到对应多个主题的多个第二文本特征;将与视觉特征相似度最高的第二文本特征对应的主题,作为待处理视频的主题。

15、可以理解,在本技术的实施例中,多个主题文本特征例如可以是指代预设的多个主题的向量,多个主题特征的向量与第一文本特征的向量也是同一种向量。并且多个第二文本特征为第一文本特征与每个主题文本特征合并获得,即第二文本特征的数目与主题文本特征的数目相同。在得到视觉特征和多个第二文本特征后,即可确定视觉特征与多个第二文本的相似度,选择与视觉特征相似度最高的第二文本对应的主题作为待处理视频的主题,以此,在待处理视频只提供视觉信息时,本技术也能根据待处理视频的文本信息和视觉信息确定待处理视频的主题,从而可以提高电子设备确定出的待处理视频的主题的准确性。

16、在上述第一方面的一种可能的实现中,多个主题文本特征的获取方法包括:利用文本编码模块对多个主题进行特征提取,得到多个主题对应的多个主题文本特征。

17、可以理解,在本技术的一些实施例中,可以将电子设备预先存储的多个主题输入到第一模型中的文本编码模块中,从而获得多个主题文本特征。在本技术的另一些实施例中,电子设备中还可以直接预先存储好对应多个主题的多个主题文本特征,这样就不用再通过文本编码模块提取多个主题的特征,从而减少电子设备识别待处理视频的主题的步骤。

18、第二方面,本技术实施例提供了一种电子设备,该电子设备包括:存储器,用于存储指令;至少一个处理器,用于执行指令以使得电子设备实现上述第一方面及上述第一方面的任意一种可能实现提供的视频处理方法。

19、第三方面,本技术实施例提供了一种可读存储介质,该可读存储介质上存储有指令,指令在计算机上执行时,使计算机执行上述第一方面及上述第一方面的任意一种可能实现提供的视频处理方法。

20、第四方面,本技术实施例提供一种程序产品,该程序产品在电子设备上运行时使得电子设备实现上述第一方面及上述第一方面的任意一种可能实现提供的视频处理方法。

21、应理解,上述第二方面至第四方面的有益效果可以参考前述第一方面的描述,在此不做赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1