文本视频检索方法、装置、设备及存储介质与流程

文档序号:35980075发布日期:2023-11-09 23:18阅读:37来源:国知局
文本视频检索方法、装置、设备及存储介质与流程

所属的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一发明构思,本技术实施例中还提供了一种计算机设备,参阅图7所示,计算机设备700可以至少包括处理器701、以及存储器702。其中,存储器702存储有程序代码,当程序代码被处理器701执行时,使得处理器701执行上述任意一种文本视频检索方法的步骤。在一些可能的实施方式中,根据本技术的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本技术各种示例性实施方式的文本视频检索方法中的步骤。例如,处理器可以执行如图3b中所示的步骤。下面参照图8来描述根据本技术的这种实施方式的计算装置800。图8的计算装置800仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。如图8所示,计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。总线803表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储单元802可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)8021和/或高速缓存存储单元8022,还可以进一步包括只读存储器(rom)8023。存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025,这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。计算装置800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置800交互的设备通信,和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口805进行。并且,计算装置800还可以通过网络适配器806与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。与上述方法实施例基于同一发明构思,本技术提供的文本视频检索方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的文本视频检索方法中的步骤,例如,计算机设备可以执行如图3b中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。


背景技术:

1、视频-文本检索(video-text retrieval)是计算机视觉和语言领域的一个经典任务,要求根据文本检索视频,或根据视频检索文本。目前常用基于专家模型或基于端到端训练的文本-视频检索模型,执行文本-视频的跨模态检索任务。其中,专家模型指的是预先在不同场景(如,人脸识别、场景识别、对象识别等)下训练好的模型。

2、上述检索方法集中于挖掘文本与视频间的关系,将待检索视频的一个视觉特征分别与检索集中各个文本的文本特征进行匹配,获得描述了视频内容的文本,或者与文本描述相符的视频。

3、视频包含了丰富的实例对象及各实例对象产生的事件信息,但文本却只描述了视频的一部分信息。因此,文本与视频之间存在着多对多的映射关系。然而,采用上述检索方法获得的视觉特征,难以涵盖视频中丰富的实例对象与事件信息,引发了视频与文本间的映射模糊性的问题,导致检索准确率低。


技术实现思路

1、本技术实施例提供了一种文本视频检索方法、装置、设备及存储介质,以解决因视频内容的挖掘深度不够,所引发的检索准确率低的问题。

2、第一方面,本技术实施例提供了一种文本视频检索方法,包括:

3、分别对表征检索信息的第一对象,以及对检索集中的各第二对象进行特征提取,获得相应的第一特征集与各第二特征集;其中,当所述第一对象或所述各第二对象为视频时,采用以下方式进行特征提取:

4、对所述视频采样获得的多个采样帧图像进行分块,得到视频块组,并通过对所述视频块组进行全局特征提取,获得相应的目标视频特征集;

5、针对每个视频原型,执行以下操作:基于获得的各目标视频特征及其各自相对一个视觉原型的贡献程度,确定所述一个视觉原型的原型特征,并将所述原型特征作为一个第一特征或一个第二特征;其中,每个视觉原型表征:所述多个采样帧图像中各实例对象产生的跨帧全局事件;

6、将所述第一特征集分别与所述各第二特征集进行匹配,并将匹配成功的第二特征集所对应的第二对象,确定为与所述第一对象关联的目标检索对象。

7、第二方面,本技术实施例还提供了一种文本视频检索装置,包括:

8、特征提取单元,用于分别对表征检索信息的第一对象,以及对检索集中的各第二对象进行特征提取,获得相应的第一特征集与各第二特征集;其中,当所述第一对象或所述各第二对象为视频时,采用以下方式进行特征提取:

9、对所述视频采样获得的多个采样帧图像进行分块,得到视频块组,并通过对所述视频块组进行全局特征提取,获得相应的目标视频特征集;

10、针对每个视频原型,执行以下操作:基于获得的各目标视频特征及其各自相对一个视觉原型的贡献程度,确定所述一个视觉原型的原型特征,并将所述原型特征作为一个第一特征或一个第二特征;其中,每个视觉原型表征:所述多个采样帧图像中各实例对象产生的跨帧全局事件;

11、检索单元,用于将所述第一特征集分别与所述各第二特征集进行匹配,并将匹配成功的第二特征集所对应的第二对象,确定为与所述第一对象关联的目标检索对象。

12、可选的,所述特征提取单元用于:

13、基于所述视频块组中各视频块及其关联的时空信息,获得相应的位置特征集;

14、对所述位置特征集进行时间维度的特征提取,获得相应的时间上下文特征集;

15、对所述时间上下文特征集进行空间维度的特征提取,获得相应的空间上下文特征集,并将各空间上下文特征集作为相应的目标视频特征集。

16、可选的,所述特征提取单元用于:

17、对所述视频块组进行特征提取,获得所述各视频块各自的初始视频特征;

18、通过对各初始视频特征及相应视频块的时空信息进行位置编码,获得所述位置特征集。

19、可选的,所述文本视频检索装置还包括模型训练单元,所述文本-视频检索模型是所述模型训练单元采用循环迭代方式,分别对多个训练样本集执行以下操作得到的,其中,每次迭代包括:

20、依次读取一个训练样本集中的各个第三对象,其中,每读取一个表征样本检索信息的第三对象,执行以下操作:分别对一个第三对象,以及对样本检索集中的各第四对象进行特征提取,获得相应的第三特征集与各第四特征集,并分别对所述第三特征集与所述各第四特征集进行匹配,获得所述第三对象与所述各第四对象间的相似度;其中,当所述第三对象或所述各第四对象为样本视频时,基于各样本视频块的样本视频特征及其各自相对一个样本视觉原型的贡献程度,分别获得各样本视觉原型的原型特征,并将各视觉原型的原型特征作为一个第三特征集或一个第四特征集,其中,各样本视频块是通过对所述样本视频采样获得的多个样本帧图像分块得到的;

21、基于获得的各相似度,以及各样本视频特征各自相对全部样本视觉原型的贡献程度,确定用于调整模型参数的总损失。

22、可选的,所述模型训练单元用于:

23、针对各正样本对分别执行以下操作:基于一个正样本对的相似度、由所述一个正样本对的样本文本组成的第一样本对组,以及由所述一个正样本对的样本视频组成的第二样本对组,确定所述文本-视频检索模型的检索子损失,所述一个正样本对由相匹配的样本文本与样本视频组成;

24、以及,基于所述各样本视频特征各自相对全部样本视觉原型的贡献程度的方差,确定所述文本-视频检索模型的方差子损失;

25、基于所述检索子损失与方差子损失,确定用于调整模型参数的总损失。

26、第三方面,本技术实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种文本视频检索方法的步骤。

27、第四方面,本技术实施例还提供了一种计算机可读存储介质,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种文本视频检索方法的步骤。

28、第五方面,本技术实施例还提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行上述任意一种文本视频检索方法的步骤。

29、本技术有益效果如下:

30、本技术实施例提供了一种文本视频检索方法、装置、设备及存储介质,该方法包括:分别对表征检索信息的第一对象,以及对检索集中的各第二对象进行特征提取,获得相应的第一特征集与各第二特征集;其中,当第一对象或各第二对象为视频时,将各视觉原型的原型特征作为一个第一特征或一个第二特征,其中,每个视觉原型表征:多个采样帧图像中各实例对象产生的跨帧全局事件。

31、最后,将第一特征集分别与各第二特征集进行匹配,并将匹配成功的第二特征集所对应的第二对象,确定为第一对象关联的目标检索对象。

32、由于视频中包含了丰富的实例对象及各实例对象产生的事件信息,本技术实施例使用视觉原型表征由多个采样帧图像中的各实例对象产生的跨帧全局事件。但是,每个视频块只记录了视频中部分实例对象及其产生的事件信息,因此,每个视频块对各个视觉原型的关注重点也是不同的。本技术实施例利用每个视频块对不同视觉原型的关注度,基于各视频块的目标视频特征及各目标视频特征对同一视觉原型的贡献程度,生成能够表征视频中丰富信息的多个原型特征,以达到降低视频与文本之间的映射模糊性,提高检索准确率。

33、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1