数据处理方法、装置、设备、可读存储介质及程序产品与流程

文档序号：31669475发布日期：2022-09-28 00:37阅读：37来源：国知局

1.本技术涉及计算机技术领域，具体涉及数据处理方法、数据处理装置、计算机设备、计算机可读存储介质以及计算机程序产品。

背景技术：

2.互联网中存储了大量的视频，基于不同的业务情况，我们希望能够利用一段视频描述文本从大量视频中获取与该视频描述文本相关的视频。目前，常采用人工检测的方法获取与视频描述文本相匹配的视频。具体的，当给定视频描述文本时，通过人工检索的方式从视频数据库中确定出与视频描述文本相关的多个视频，再对确定出的多个视频进行相关度排序，最终输出视频描述文本的匹配结果。上述方法依靠人工对视频进行判断和分析，主观因素较强，效率较低，并且人工主要观察视频的全局特征，感知能力受限，无法对细粒度的图像特征进行分析，导致准确率较低。因此，如何提高视频描述文本与待检测视频的匹配结果的生成效率和准确率，是目前亟需解决的问题。

技术实现要素：

3.本技术提供了一种数据处理方法、装置、设备、可读存储介质及程序产品，可以提高视频描述文本与待检测视频的匹配结果的生成效率和准确率。
4.第一方面，本技术提供了一种数据处理方法，该方法包括：
5.获取待检测视频描述文本，将上述待检测视频描述文本输入文本编码器中进行处理，得到上述待检测视频描述文本的文本特征；
6.将待检测视频的视频图像输入第一视频编码器中进行处理，得到上述待检测视频的视频特征；
7.根据上述文本特征和上述视频特征，确定上述待检测视频描述文本和上述待检测视频的匹配结果；
8.其中，上述文本编码器和上述第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，上述文本编码器用于获取样本视频的视频描述文本的参考文本特征；上述第二视频编码器用于获取上述样本视频的采样图像序列的第一区域特征集；上述第一视频编码器用于获取上述采样图像序列的掩码图像序列的全局特征和第二区域特征集；上述全局特征和上述参考文本特征用于确定全局损失，上述第一区域特征集和上述第二区域特征集用于确定局部损失，上述文本编码器的网络参数是根据上述全局损失调整得到，上述第一视频编码器的网络参数是根据上述局部损失调整得到。
9.第二方面，本技术提供了一种数据处理装置，该装置包括：
10.获取模块，用于获取待检测视频描述文本，将上述待检测视频描述文本输入文本编码器中进行处理，得到上述待检测视频描述文本的文本特征；
11.处理模块，用于将待检测视频的视频图像输入第一视频编码器中进行处理，得到上述待检测视频的视频特征；
12.匹配模块，用于根据上述文本特征和上述视频特征，确定上述待检测视频描述文本和上述待检测视频的匹配结果。
13.其中，上述文本编码器和上述第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，上述文本编码器用于获取样本视频的视频描述文本的参考文本特征；上述第二视频编码器用于获取上述样本视频的采样图像序列的第一区域特征集；上述第一视频编码器用于获取上述采样图像序列的掩码图像序列的全局特征和第二区域特征集；上述全局特征和上述参考文本特征用于确定全局损失，上述第一区域特征集和上述第二区域特征集用于确定局部损失，上述文本编码器的网络参数是根据上述全局损失调整得到，上述第一视频编码器的网络参数是根据上述局部损失调整得到。
14.第三方面，本技术提供了一种计算机设备，包括：处理器、存储装置和通信接口，上述处理器、上述通信接口和上述存储装置相互连接，其中，上述存储装置存储有可执行程序代码，上述处理器用于调用上述可执行程序代码，用以实现上述的数据处理方法。
15.第四方面，本技术提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，上述程序指令被处理器执行，用以实现如上述的数据处理方法。
16.第五方面，本技术提供了一种计算机程序产品，上述计算机程序产品包括计算机程序或计算机指令，上述计算机程序或计算机指令被处理器执行，用以实现上述的数据处理方法。
17.本技术通过文本编码器获取待检测视频描述文本的文本特征，通过第一视频编码器获取待检测视频的视频特征；再根据文本特征和视频特征，确定待检测视频描述文本和待检测视频的匹配结果，通过上述双编码器的结构自动化的获取文本特征和视频特征并进行特征匹配，相比于人工检索方式，提高了视频描述文本与待检测视频的匹配结果的生成效率。
18.上述方法采用还原掩码图像的方法进行模型预训练。具体来说，在结合第二视频编码器对文本编码器和第一视频编码器进行联合训练的过程中，利用第二视频编码器提取样本视频的采样图像序列的第一区域特征集，利用第一视频编码器提取该采样图像序列对应的掩码图像序列的第二区域特征集，基于第一区域特征集和第二区域特征集确定局部损失。
19.通过局部损失可以对第一视频编码器的网络参数进行优化，这样可以使得优化后的第一视频编码器以第二视频编码器提取的特征作为重构目标，并构建被掩码的区域的预测特征。通过最小化第一视频编码的预测特征与重构目标的差异，可以对第一视频编码器施加细粒度的监督，以提高第一视频编码器提取细粒度特征的能力。
20.利用文本编码器提取视频描述文本的参考文本特征，利用第一视频编码器提取掩码图像序列的全局特征，基于参考文本特征和全局特征确定全局损失。通过全局损失可以对文本编码器的网络参数进行优化，以提高文本编码器获取与第一视频编码器提取的视频特征对齐的文本特征的能力。
21.基于该全局损失对文本编码器的网络参数进行优化，基于该局部损失对第一视频编码器的网络参数进行优化，可以提高文本编码器和第一视频编码器的处理效果，采用通过此训练方式得到的模型进行视频描述文本和待检测视频的匹配操作，可以提高匹配结果
的准确性。
附图说明
22.为了更清楚地说明本技术实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
23.图1是本技术一个示例性实施例提供的一种数据处理系统的架构示意图；
24.图2是本技术一个示例性实施例提供的一种数据处理方法的流程示意图；
25.图3是本技术一个示例性实施例提供的一种数据处理系统的处理流程示意图；
26.图4是本技术一个示例性实施例提供的另一种数据处理方法的流程示意图；
27.图5是本技术一个示例性实施例提供的一种数据处理系统的预训练流程示意图；
28.图6是本技术一个示例性实施例提供的一种数据处理装置的示意框图；
29.图7是本技术一个示例性实施例提供的一种计算机设备的示意框图。
具体实施方式
30.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
31.需要说明的是，本技术实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
32.本发明实施例可应用于云计算、云物联、人工智能、智慧平台、应用软件、车载、文本视频检索等领域或场景，下面将对几个典型应用领域或场景进行介绍。
33.云计算(cloud computing)指it基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是it和软件、互联网相关，也可是其他服务。云计算是网格计算(grid computing)、分布式计算(distributedcomputing)、并行计算(parallel computing)、效用计算(utility computing)、网络存储(network storage technologies)、虚拟化(virtualization)、负载均衡(load balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。本技术可以将视频描述文本、待检测视频的匹配结果等数据存储于云服务器上，当需要使用上述不同数据时，可以在云服务器上直接获取，极大地提高了数据获取速度。
34.云物联(cloud iot)旨在将传统物联网中传感设备感知的信息和接受的指令连入互联网中，真正实现网络化，并通过云计算技术实现海量数据存储和运算，由于物联网的特性是物与物相连接，实时感知各个“物体”当前的运行状态，在这个过程中会产生大量的数据信息，如何将这些信息汇总,如何在海量信息中筛取有用信息为后续发展做决策支持,这
的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。具体来说，本技术提出的方法利用计算机视觉技术分别对采样图像和掩码图像进行图像特征提取，再根据提取的图像特征计算区域特征集，从而确定局部损失。
40.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、3d游戏等。随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
41.互联网中存储了大量的视频，基于不同的业务情况，我们希望能够利用一段文本描述从大量视频中获取与该文本描述相关的视频。目前，常采用人工检测的方法获取与文本描述相匹配的视频。具体的，当给定文本描述时，通过人工检索的方式从待检测视频集合中确定出与文本描述相关的多个视频，再对确定出的多个视频进行相关度排序，最终输出文本描述的视频匹配结果。上述方法主要依靠人眼去判断和分析，主观因素较强，效率较低，并且人眼主要观察视频的全局特征，感知能力受限，无法对细粒度的图像特征进行分析，导致准确率较低。
42.基于此，本技术首先提出一种文本视频检索方法。当给定一段文本描述后，通过文本视频检索模型首先提取文本描述的语义特征，然后从数据库里通过对比特征相似度来检索出与文字内容匹配的视频。用于文本视频检索的文本视频检索模型的预训练采用“双编码器”的结构来实现高效检索，其中两个单独的编码器分别提取全局的视频特征和文本特征，并且通过对比学习来优化两个编码器。
43.在上述文本视频检索方法中，本技术还提供两种模型预训练方法。
44.第一种方法是采用两个独立的编码器来分别编码文本特征和视频特征，并将它们投射到同一个特征空间，该类方法通过对比学习来区分成对和不成对的文本视频数据。但是，该方法忽略了文本和视频详细的局部特征，也忽略了文本和特征之间的对齐。
45.第二种方法通过联结视频和文本作为一个联合编码器的输入，来实现跨模态的特征融合，该类方法采用一个二分类器来预测视频和文本是否对齐。但是，该方法在检索时每个文本视频对都必须输入到模型中，导致检索效率低。上述两种方法的双编码器架构对全局视频和文本特征的粗粒度对齐阻碍了模型捕获详细的局部特征，从而限制了文本视频检索性能的进一步提升。
46.本技术将视觉掩码建模(masked vision modeling，mvm)引入模型的预训练，通过随机掩码(即遮盖)图像里一定比例的图像块，训练模型重建这些被掩码的图像块，以此促进模型对局部视觉特征的学习。基于上述方法，本技术提出了一种结合双编码器结构和视觉掩码建模的方法进行文本视频检索，在保证高检索效率的同时，实现视频特征和文本特征细粒度的对齐。
47.具体的，本技术提出的方法通过随机掩码视频里一定比例的视频块，训练模型通过对可见的视频块进行空间和时间维度的推理，重建出与文本语义对齐的被掩码的视频块。为了构建具有注入了文本语义的掩码视频重建目标，使用第二视频编码器(例如快照视频编码器snapshot video encoder)来为被遮盖的视频块生成重建目标，并利用第一视频编码器(例如视频编码器video encoder)的参数来更新第二视频编码器的参数。这样，第二编码器聚合了训练中的第一视频编码器的知识，使得它获取的重构目标逐渐和文本语义对齐。
48.通过第二视频编码器获取重构目标来执行视觉掩码建模，可以迭代地优化训练中的第一视频编码器，使其能够捕获与局部文本特征对齐的视频特征，从而进一步增强第二视频编码器。上述方法成功地将视觉掩码建模用于视频文本预训练，且无需额外的预训练阶段来提供重构目标。
49.具体来说，在“双编码器”架构的基础上，通过使用一个额外的第二视频编码器来提供视觉掩码建模的重构目标，且这个第二视频编码器仅仅用于预训练，保证了双编码器在检索中的高效率。在每次训练迭代中，通过在空间维度和时间维度上随机掩码高比例的视频块，被掩码的掩码视频送到第一视频编码器来执行去噪和自动编码的过程，而原始视频被送到第二视频编码器来获取重构目标。直观上来说，给定高比例掩码的视频，第一视频编码器被训练通过重构目标来推理并恢复出被掩码的掩码视频，这不仅增强了对局部视觉特征的判别性，也提高了细粒度的视频与视频描述文本的对齐。
50.综上所述，上述方法具备以下三个优点。
51.第一点是，通过使用双编码器结构来将视觉掩码建模应用于视频文本预训练中，并发挥双编码器结构与视觉掩码建模结合后，在细粒度视频特征理解和视频文本局部语义对齐上的优势。
52.第二点是，利用第二视频编码器为视觉掩码建模提供重构目标，通过视觉掩码建模迭代优化的第一视频编码器可以反向增强第二视频编码器。
53.第三点是，基于上述方法在多个文本视频检索数据集上进行相关测试，与现有的方法相比，取得了更好的结果。本技术还进一步评估了零样本的动作识别(这一任务可以视为视频到文本的检索)，本技术提出的方法也取得了更好的结果。
54.可以理解的是，在本技术的具体实施方式中，涉及到待检测视频、视频描述文本等相关的数据，当本技术以上实施例运用到具体产品或技术中时，相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
55.本技术将具体通过如下实施例进行说明:
56.请参阅图1，图1是本技术一个示例性实施例提供的一种数据处理系统的架构示意图。如图1所示，该数据处理系统具体可以包括终端设备101和服务器102。其中，终端设备101和服务器102之间通过网络连接，比如，通过局域网、广域网、移动互联网等连接。操作对象在终端设备101的浏览器或者客户端应用上进行诸如数据输入等操作。服务器102可以响应于该操作，为操作对象提供各种数据处理的服务。
57.具体的，服务器102可以获取待检测视频描述文本(该获取待检测视频描述文本可以是终端设备101通过操作对象的数据输入操作获取到的数据)；服务器102将待检测视频描述文本输入文本编码器中进行处理，得到待检测视频描述文本的文本特征，并将待检测
视频(其中，待检测视频可以是操作对象在终端设备101上进行数据输入操作时指定的，也可以是存在于服务器102中的视频数据库)的视频图像输入第一视频编码器中进行处理，得到待检测视频的视频特征；服务器102根据文本特征和视频特征，确定待检测视频描述文本和待检测视频的匹配结果；服务器102最终将匹配结果发送给终端设备101，并由终端设备101展示该匹配结果。
58.终端设备101也称为终端(terminal)、用户设备(user equipment,ue)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,pc)、车载终端、智能语音交互设备、可穿戴设备或者其他智能装置等，但并不局限于此。
59.服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
60.可以理解的是，本技术实施例描述的系统的架构示意图是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定。例如，本技术实施例所提供的数据处理方法除了可以由服务器102执行，还可以由不同于服务器102且能够与终端设备101和/或服务器102通信的其他服务器或服务器集群执行。本领域普通技术人员可知，图1中的终端设备和服务器的数目仅仅是示意性的。根据业务实现需要，可以配置具有任意数目的终端设备和服务器。并且，随着系统架构的演变和新业务场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。在后续实施例中，将以终端设备指代上述终端设备101，以服务器指代上述服务器102，后续实施例中将不再赘述。
61.请参阅图2，图2是本技术一个示例性实施例提供的一种数据处理方法的流程示意图，以该方法应用于文本视频检索系统(该文本视频检索系统可配置在图1的服务器102或终端设备101中)为例进行说明，该方法可包括以下步骤：
62.s201、获取待检测视频描述文本，将待检测视频描述文本输入文本编码器中进行处理，得到待检测视频描述文本的文本特征。
63.本技术实施例中，待检测视频描述文本为需要进行文本视频检索任务的目标文本(也即是确定待检测视频描述文本和待检测视频之间的匹配结果)。文本编码器可以提取文本的文本特征，通过文本编码器对待检测视频描述文本进行处理，得到待检测视频描述文本的文本特征。其中，待检测视频描述文本的文本特征用于与后续步骤确定出的待检测视频的视频特征计算相似度，从而确定待检测视频描述文本与待检测视频的匹配结果。
64.s202、将待检测视频的视频图像输入第一视频编码器中进行处理，得到待检测视频的视频特征。
65.本技术实施例中，待检测视频为需要进行文本视频检索任务的目标视频。第一视频编码器可以提取图像的图像特征，通过第一视频编码器对待检测视频的视频图像进行处理，得到能够表征待检测视频的视频特征。
66.在一实施例中，待检测视频的视频图像是从待检测视频中提取的，待检测视频的视频图像可以是将待检测视频进行逐帧提取后得到的全部图像帧，也可以是按照一定的采
样规则(例如间隔采样等)，对待检测视频进行采样操作后得到的一部分图像帧。由于视频通常在相邻帧(或相近帧)的同一位置呈现出相似的视觉内容，这使得通过逐帧采样方法获取到的多个图像帧的图像特征相似，从而导致使用该图像数据得到的匹配结果准确度较低。通过设置采样规则进行采样，可以在保证后续处理效果的前提下减少采样图像数据量，提高待检测视频的采样效率和对采样图像进行处理的效率，并且提高使用该图像数据得到的匹配结果的准确性。
67.在一实施例中，可以采用间隔采样(间隔采样视为在采集多个视频图像时，需要设定间隔帧数进行采集，该设定间隔帧数可大可小，并不限定其最大阈值或最小阈值)的方法获取待检测视频的视频图像，并且该设定间隔帧数可以是固定的值，也可以是不固定的值。具体的，文本视频检索系统可以通过设置采集图像帧的设定间隔帧数(例如设定间隔帧数为1帧，即每间隔1帧图像后进行采样，此时可以保证采集到的任意两个视频图像不为相邻帧图像；又如设定间隔帧数为100帧，也即是每间隔100帧图像后进行采样)进行间隔采样。根据该思想处理完待检测视频的所有图像帧，并将采集的图像帧作为待检测视频的视频图像输入。
68.在一实施例中，由于在同一待检测视频中，任意两个视频图像的间隔越大，图像的相关性越小。为了提高掩码图像推理的难度以达到更优的模型处理效果，可以采用间隔采样的特殊情况，即稀疏采样(稀疏采样视为在连续采集的两个视频图像需要达到较大的间隔阈值，即限定最小阈值。间隔阈值应该根据具体业务情况而定)来获取待检测视频的视频图像。具体的，文本视频检索系统可以通过设置采集图像帧的间隔阈值(例如间隔阈值为15帧，那么可以每间隔20帧图像后，进行采样)进行稀疏采样；也可以通过设置采集图像帧的随机间隔范围(例如间隔阈值为15帧，那么可以在[20,40]的范围内确定一个目标间隔值，也即是在采集完一帧后，随机从[20,40]中确定目标间隔值(例如25)，再采集与上一帧间隔目标间隔值之后的图像帧(即与上一帧间隔25帧的图像帧)进行稀疏采样，根据该思想处理完待检测视频的所有图像帧，并将采集的图像帧作为待检测视频的视频图像输入)。
[0069]
s203、根据文本特征和视频特征，确定待检测视频描述文本和待检测视频的匹配结果；其中，文本编码器和第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，文本编码器用于获取样本视频的视频描述文本的参考文本特征；第二视频编码器用于获取样本视频的采样图像序列的第一区域特征集；第一视频编码器用于获取采样图像序列的掩码图像序列的全局特征和第二区域特征集；全局特征和参考文本特征用于确定全局损失，第一区域特征集和第二区域特征集用于确定局部损失，文本编码器的网络参数是根据全局损失调整得到，第一视频编码器的网络参数是根据局部损失调整得到。
[0070]
本技术实施例中，文本特征可以表征待检测视频描述文本的特征信息，视频特征可以表征待检测视频的特征信息，通过对文本特征和视频特征进行相似度计算，文本视频检索系统可以确定待检测视频描述文本和待检测视频的匹配结果。匹配结果可以是以匹配得分的形式呈现(例如，匹配程度越高，匹配得分越高；匹配程度越低，匹配得分越低)；匹配结果也可以是以二分类的形式呈现(例如，二分类结果包括匹配和不匹配)。
[0071]
在一实施例中，文本视频检索系统可以通过对文本特征和视频特征进行点积计算来确定文本特征和视频特征的相似度。一般来说，相似度越高，则表示待检测视频描述文本和待检测视频的匹配度越高；相似度越低，则表示待检测视频描述文本和待检测视频的匹
配度越低。通过使用独立的双编码器结构获取文本特征和视频特征，并通过点积计算相似度进而确定匹配结果，从而提高了视频描述文本与待检测视频的匹配结果的生成效率。
[0072]
本技术实施例中，文本编码器和第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，文本编码器用于获取样本视频的视频描述文本的参考文本特征；第二视频编码器用于获取样本视频的采样图像序列的第一区域特征集；第一视频编码器用于获取采样图像序列的掩码图像序列的全局特征和第二区域特征集；全局特征和参考文本特征用于确定全局损失，第一区域特征集和第二区域特征集用于确定局部损失，文本编码器的网络参数是根据全局损失调整得到，第一视频编码器的网络参数是根据局部损失调整得到。
[0073]
在一实施例中，文本编码器的网络参数也可以是根据全局损失和局部损失联合调整得到；第一视频编码器的网络参数也可以是根据全局损失和局部损失联合调整得到。
[0074]
具体而言，一组训练数据可以包括样本视频(包括采样图像序列，以及对采样图像序进行掩码处理后的掩码图像序列)和视频描述文本。文本编码器获取的视频描述文本的参考文本特征可以表征视频描述文本的特征信息；第一视频编码器获取的掩码图像序列的第二区域特征集可以表征掩码图像序列的局部特征信息；第二视频编码器获取的采样图像序列的第一区域特征集可以表征采样图像序列的局部特征信息。
[0075]
通过第一区域特征集和第二区域特征集确定局部损失(第二视频编码器的作用可以理解为，通过生成第一区域特征集，为视觉掩码建模提供重构目标；第一视频编码器的作用可以理解为，通过生成第二区域特征集，构建被掩码的区域)。通过最小化预测第一区域特征集和第二区域特征集中互相匹配的各组特征对之间的距离，对第一视频编码器施加细粒度的监督，用以提高第一视频编码器的处理效果，从而提高了视频描述文本与待检测视频的匹配结果的准确率。
[0076]
在一实施例中，文本视频检索系统可以采用对比学习的方法来最大化待检测视频的视频特征和匹配的视频描述文本的文本特征之间的相似度，并且最小化待检测视频的视频特征和不匹配的视频描述文本的文本特征之间的相似度，从而提高第一视频编码器和文本编码器的处理效果。
[0077]
其中，上述文本编码器、第一视频编码器与第二视频编码器联合训练的具体过程，将在后续实施例中介绍，本实施例不再赘述。
[0078]
在一实施例中，待检测视频包含于视频数据库中，视频数据库包括多个视频，在上述确定待检测视频描述文本和待检测视频的匹配结果之后，还可以包括以下步骤：根据所述多个视频中各个视频与所述待检测视频描述文本的匹配结果，从所述视频数据库中确定与所述待检测视频描述文本相匹配的匹配视频。
[0079]
其中，视频数据库包括多个视频，多个视频中的每个视频可根据步骤s201-s203的步骤，确定出对应的匹配结果；再从多个视频对应的多个匹配中确定与待检测视频描述文本相匹配的匹配视频。例如，当匹配结果以匹配得分的形式呈现，那么文本视频检索系统可以将满足匹配得分阈值的匹配结果所对应的视频作为与所述待检测视频描述文本相匹配的匹配视频；当匹配结果以二分类的形式呈现，那么文本视频检索系统可以将匹配结果为“匹配”的匹配结果所对应的视频作为与所述待检测视频描述文本相匹配的匹配视频)。
[0080]
请参阅图3，图3是本技术一个示例性实施例提供的一种数据处理系统(即文本视
频检索系统)的处理流程示意图。图中包括文本编码器和第一视频编码器，文本视频检索系统将待检测视频描述文本(例如“两艘小船在山前的湖中飘着”)输入文本编码器，得到待检测视频描述文本的文本特征；文本视频检索系统同时将待检测视频的视频图像(该视频图像可以是文本视频检索系统对待检测视频进行采样后得到的，也可以是由文本视频检索系统直接获取的视频图像)输入第一视频编码器，得到待检测视频的视频特征；文本视频检索系统通过对文本特征和视频特征进行相似度比较，从而得到待检测视频描述文本和待检测视频的匹配结果。
[0081]
本技术的有益效果在于：本技术通过文本编码器获取待检测视频描述文本的文本特征，通过第一视频编码器获取待检测视频的视频特征；再根据文本特征和视频特征，通过计算文本特征和视频特征的点积确定相似度，进而确定待检测视频描述文本和待检测视频的匹配结果，通过上述双编码器的结构自动化的获取文本特征和视频特征并进行特征匹配，相比于人工检索方式，提高了视频描述文本与待检测视频的匹配结果的生成效率。
[0082]
上述方法采用还原视觉掩码的方法进行模型预训练，具体来说，在结合第二视频编码器对文本编码器和第一视频编码器进行联合训练的过程中，文本编码器获取的参考文本特征可以表征视频描述文本的特征信息；第一视频编码器获取的全局特征和第二区域特征集可以分别表征掩码图像序列的全局特征信息和局部特征信息；第二视频编码器获取的第一区域特征集可以表征采样图像序列的局部特征。利用第二视频编码器提取样本视频的采样图像序列的第一区域特征集，利用第一视频编码器提取该采样图像序列对应的掩码图像序列的第二区域特征集，基于第一区域特征集和第二区域特征集确定局部损失。
[0083]
通过局部损失可以对第一视频编码器的网络参数进行优化，这样可以使得优化后的第一视频编码器以第二视频编码器提取的特征作为重构目标，并构建被掩码区域的预测特征。通过最小化第一视频编码的预测特征与重构目标的差异，可以对第一视频编码器施加细粒度的监督，以提高第一视频编码器获取细粒度特征的能力。
[0084]
利用文本编码器提取视频描述文本的参考文本特征，利用第一视频编码器提取掩码图像序列的全局特征，基于参考文本特征和全局特征确定全局损失。通过全局损失可以对文本编码器的网络参数进行优化，以提高文本编码器获取与第一视频编码器提取的视频特征对齐的文本特征的能力。
[0085]
基于该全局损失对文本编码器的网络参数进行优化，基于该局部损失对第一视频编码器的网络参数进行优化，可以提高文本编码器和第一视频编码器的处理效果，采用通过此训练方式得到的模型进行视频描述文本和待检测视频的匹配操作，可以提高匹配结果的准确性。
[0086]
本技术可以通过对比学习的方法来最大化待检测视频的视频特征和匹配的视频描述文本的文本特征之间的相似度，并且最小化待检测视频的视频特征和不匹配的视频描述文本的文本特征之间的相似度，从而提高第一视频编码器和文本编码器的处理效果。采用通过此训练方式得到的模型进行视频描述文本和待检测视频的匹配操作，可以提高匹配结果的准确性。
[0087]
本技术可应用于文本视频检索任务，通过计算视频数据库中每个视频与待检测视频描述文本的匹配结果，再根据多个匹配结果确定与待检测视频描述文本相匹配的匹配视频，并进行结果输出。本技术还提出通过设置采样规则(如间隔采样等)进行采样，从而生成
采样图像序列，可以在保证后续处理效果的前提下减少采样图像数据量，提高待检测视频的采样效率和对采样图像进行处理的效率，并且提高使用该图像数据得到的匹配结果的准确性。
[0088]
请参阅图4，图4是本技术一个示例性实施例提供的一种数据处理方法的流程示意图，以该方法应用于文本视频检索系统(该文本视频检索系统可配置在图1中的服务器102或终端设备101中)为例进行说明，该方法可包括以下步骤：
[0089]
s401、获取样本视频的视频描述文本和采样图像序列，并获取采样图像序列对应的掩码图像序列。
[0090]
本技术实施例中，一组训练数据可以包括样本视频(包括采样图像序列，以及对采样图像序进行掩码处理后的掩码图像序列)和视频描述文本，该视频描述文本与样本视频的展示内容相匹配。采样图像序列是从样本视频中提取的，作为第二视频编码器的输入数据。掩码图像序列是由采样图像序列处理得到的，作为第一视频编码器的输入数据。
[0091]
在一实施例中，上述获取样本视频的采样图像序列的过程，可以根据以下步骤实现：对样本视频进行间隔采样处理，得到采样图像序列，采样图像序列中的任意两个采样图像不相邻。
[0092]
其中，采样图像序列携带图像序列，该图像序列是指采样图像中，每帧图像按照在样本视频中所出现的先后顺序进行排列的。例如，文本视频检索系统可以分别对样本视频的第2帧、第5帧、第8帧图像进行采样，从而生成采样图像序列。那么第2帧图像的序列为1，第5帧图像的序列为2，第8帧图像的序列为3。
[0093]
在一实施例中，文本视频检索系统可以利用一个样本视频以及该样本视频的视频描述文本产生多组训练数据(即利用1个样本视频以及该样本视频的视频描述文本，进行多次训练)，通过在采集采样图像序列的过程中设置不同的采集方法，得到一个样本视频对应的多组采样图像序列；在对采样图像序列进行掩码处理的过程中通过掩码不同图像区域，生成一组采样图像序列对应的多个掩码图像序列。
[0094]
示例性的，样本视频包括10帧，在采集第一组训练数据时，采集1、4、7帧图像作为一组，采集2、5、8帧图像作为一组，采集3、6、9帧图像作为一组；根据得到的三组图像生成三组采样图像序列，再对三组采样图像序列进行掩码处理，得到三组掩码图像序列，这样就得到了三组训练数据。在掩码处理过程中，针对每一组采样图像序列，可以通过掩码不同图像区域，生成多个掩码图像序列(例如分别掩码左上角区域、左下角区域、右上角区域和右下区域生成四组掩码图像序列)。
[0095]
通过上述方法，可以通过少量的样本视频及其视频描述文本，生成大量的训练数据进行模型的预训练，减少数据量，提高训练效率。需要说明的是，上述选择每组训练数据采集的帧数，以及掩码的区域只是示例性的，还可通过随机生成每组训练数据采集的帧数，以及掩码的区域的方法获取多组训练数据。具体训练数据的生成方法应根据实际业务情况进行选择，本技术不对其进行限定。
[0096]
在一实施例中，文本视频检索系统可以通过设置采集图像帧的间隔阈值(例如20，也即是每间隔20帧图像后，进行采样)；文本视频检索系统也可以通过设置采集图像帧的随机间隔范围(例如[20,40]，也即是在采集完一帧后，随机从[20,40]中确定目标间隔值(例如25)，再采集与上一帧间隔目标间隔值之后的图像帧(即与上一帧间隔25帧的图像帧)，根
据该思想处理完待检测视频的所有图像帧，并将采集的图像帧作为待检测视频的视频图像输入)。通过上述方法，可以保证采样图像序列中的多帧图像的图像特征具有一定差异性，提高图像特征提取的效果。
[0097]
在一实施例中，上述获取采样图像序列对应的掩码图像序列，可以根据以下步骤实现：对采样图像序列中的各个采样图像进行掩码处理，得到掩码图像序列，各个采样图像中被掩码处理的图像区域相匹配。
[0098]
由于视频通常在相邻帧(时空相邻块)或相近帧的同一位置呈现出相似的视觉内容，这使得文本视频检索系统通过逐帧采样方法获取到的多个图像帧的图像特征相似，通过对时空相邻快插值可以轻松恢复被遮盖的掩码区域，从而导致使用该图像数据得到的匹配结果准确度较低。
[0099]
为了使视觉掩码建模这一任务更加具有挑战性来提高数据处理模型对空间维度和时间维度的理解，本技术采用管状遮盖策略来沿着空间维度和时间维度对样本视频进行掩码(也即是对经过间隔采样后得到的采样图像序列中各个采样图像的同一位置进行掩码处理，而不是独立地掩码每个采样图像的内容)。通过上述方法抑制了第一视频编码器通过对相邻帧的视觉内容插值来重构被掩码的视频内容(即掩码区域)，而是需要在空间维度和时间维度上对可见的视频内容进行视觉推理，提高了模型的处理效果，同时也提高了匹配结果的准确性。并且，通过间隔采样方法，可以在保证处理效果的前提下减少采样图像数据量，提高待检测视频的采样效率和对采样图像的处理效率。
[0100]
s402、将样本视频的视频描述文本输入初始文本编码器中进行特征提取，得到参考文本特征。
[0101]
其中，步骤s402的具体实施方式参见前述实施例中步骤s201的相关描述，本实施例不再赘述。
[0102]
s403、将采样图像序列输入初始第二视频编码器中进行特征提取，得到第一区域特征集，以及将掩码图像序列输入初始第一视频编码器中进行特征提取，得到全局特征和第二区域特征集。
[0103]
本技术实施例中，初始第一视频编码器和初始第二视频编码器为进行预训练之前的初始化模型。第二视频编码器(以及初始第二视频编码器)可以对图像进行特征提取处理，从而得到图像的特征信息。第二视频编码器与第一视频编码器的结构相同，用于对本技术中不同类型的图像(即采样图像序列和掩码图像序列)进行处理。
[0104]
在一实施例中，上述将掩码图像序列输入初始第一视频编码器中进行特征提取，得到第二区域特征集的过程，可以根据以下步骤实现：
[0105]
(1)、将掩码图像序列输入初始第一视频编码器中进行处理，针对掩码图像序列中的目标掩码图像，对目标掩码图像进行区域划分处理，并提取各个划分图像区域的区域特征；其中，目标掩码图像中包含掩码区域的第一图像区域的区域特征，是根据参考掩码图像中的非掩码部分以及目标掩码图像中的非掩码部分预测得到的预测特征，且预测特征趋近于由初始第二视频编码器对采样图像序列中与第一图像区域相匹配的第二图像区域提取的特征；目标掩码图像为掩码图像序列中的任一掩码图像，参考掩码图像为掩码图像序列中除目标掩码图像之外的掩码图像。
[0106]
本技术实施例中，目标掩码图像为掩码图像序列中的任一掩码图像，文本视频检
索系统通过对目标掩码图像进行区域划分处理，并提取各个划分图像区域的区域特征。第一图像区域的区域特征，是根据参考掩码图像中的非掩码部分以及目标掩码图像中的非掩码部分预测得到的预测特征，参考掩码图像为掩码图像序列中除目标掩码图像之外的掩码图像。也即是说，文本视频检索系统获取目标掩码图像的掩码区域，是通过目标掩码图像的非掩码区域，以及参考掩码图像的非掩码区域推理而来，通过在空间维度和时间维度上对可见的视频内容进行视觉推理，加强数据处理模型对空间维度和时间维度的理解，从而提高了模型的处理效果，同时也提高了匹配结果的准确度。
[0107]
在一实施例中，在推理目标掩码图像的掩码区域时，文本视频检索系统可以基于多个参考掩码图像进行推理，从而提高掩码区域推理的准确性。同时，还可以对多个参考掩码图像进行权重划分，例如，将掩码图像序列中与目标掩码图像较近的参考掩码图像的权重设置较大；将掩码图像序列中与目标掩码图像较远的参考掩码图像的权重设置较小；或者在满足距离阈值时，忽略该距离较远的参考掩码图像，从而有针对性的选择用于进行掩码区域推理的数据，进一步提高掩码区域推理的准确性。
[0108]
在一实施例中，第一图像区域为需要进行图像还原的区域，第一图像区域可以是掩码区域，也可以是包括掩码区域的区域(也即是除了包含掩码区域，还包含未被掩码的部分区域)，还可以是整个采样图像。上述方法提高了本技术数据选择，以及区域划分的灵活性。
[0109]
(2)、根据针对掩码图像序列中各个掩码图像提取的区域特征，得到第二区域特征集。
[0110]
本技术实施例中，掩码图像序列中包括多个掩码图像，针对每个掩码图像，文本视频检索系统可以采用步骤s403中(1)的方法得到每个掩码图像的多个区域特征，再将多个掩码图像的多个区域特征按照时间维度和空间维度进行合并，作为第二区域特征集。
[0111]
示例性的，掩码图像序列中包括m个掩码图像，文本视频检索系统对每个掩码图像进行区域划分处理，得到n个划分图像区域，并提取n个划分图像区域对应的n个区域特征，那么第二区域特征集包含有m*n个区域特征。第二区域特征集中的各个区域特征按照掩码图像序列中各个掩码图像的序列，以及每个区域特征在掩码图像的位置进行排列。同理，采样图像序列采用相同方法进行区域划分和排列，本实施例不再赘述。
[0112]
在一实施例中，上述将掩码图像序列输入初始第一视频编码器中进行特征提取，得到全局特征的过程，可以通过以下几种方法实现。
[0113]
第一种方式是，将掩码图像序列中包括的m个掩码图像输入第一视频编码器中进行处理，得到m个掩码图像对应的m个待融合全局特征；然后对m个待融合全局特征进行特征融合处理，得到掩码图像序列的全局特征。
[0114]
第二种方式是，将掩码图像序列中包括的m个掩码图像进行图像合并处理，得到一个合并掩码图像，然后将合并掩码图像输入第一视频编码器中进行处理，得到掩码图像序列的全局特征。
[0115]
第三种方式是，将掩码图像序列输入初始第一视频编码器中进行特征提取，得到第二区域特征集，然后对第二区域特征集进行融合处理，得到掩码图像序列的全局特征。通过上述多种方法获取掩码图像序列的全局特征，可以提高数据处理的灵活性。
[0116]
s404、根据全局特征和参考文本特征确定全局损失，以及根据第一区域特征集和
第二区域特征集确定局部损失。
[0117]
本技术实施例中，全局特征可以表征样本视频的采样图像序列的特征信息；参考文本特征可以表征视频描述文本的特征信息；第一区域特征集可以表征采样图像序列的局部特征；第二区域特征集可以表征掩码图像序列的局部特征。文本视频检索系统通过第一区域特征集和第二区域特征集可以确定局部损失(第二视频编码器的作用可以理解为，通过生成第一区域特征集，为视觉掩码建模提供重构目标；第一视频编码器的作用可以理解为，通过生成第二区域特征集，构建被掩码的区域)。
[0118]
文本视频检索系统通过最小化预测第一区域特征集和第二区域特征集中互相匹配的各组特征对之间的距离(也即是最小化局部损失)，可以对第一视频编码器施加细粒度的监督，用以提高第一视频编码器的处理效果，从而提高了视频描述文本与待检测视频的匹配结果的准确率。
[0119]
在一实施例中，第一区域特征集由初始第二编码器针对采样图像序列中各个采样图像提取的区域特征构成，每一个区域特征对应采样图像的一个划分图像区域。
[0120]
其中，初始第二编码器根据采样图像序列确定第一区域特征集的过程，请参见步骤s403中将掩码图像序列输入初始第一视频编码器中进行特征提取，得到全局特征和第二区域特征集的相关描述，本实施例不再赘述。
[0121]
上述根据全局特征和参考文本特征确定全局损失，以及根据第一区域特征集和第二区域特征集确定局部损失，可以根据以下步骤实现。
[0122]
(1)、将全局特征和参考文本特征进行匹配处理，根据匹配处理后的全局特征和匹配处理后的参考文本特征，确定全局损失。
[0123]
本技术实施例中，全局特征是图像维度的特征，参考文本特征是文本维度的特征，为了能够在同一特征维度下对齐全局特征和参考文本特征，文本视频检索系统需要对全局特征和参考文本特征进行匹配处理，从而提高全局损失的准确性和有效性。
[0124]
在一实施例中，文本视频检索系统可以对全局特征和参考文本特征进行多模态特征对齐处理，并根据多模态特征对齐处理后全局特征和参考文本特征确定全局损失。多模态特征对齐处理可以将全局特征和参考文本特征投射到同一个特征空间，该方法可以使用对比学习来区分成对和不成对的文本视频数据。除此之外，还可以联结样本视频和视频描述文本作为一个联合编码器的输入，来实现跨模态的特征融合，再用一个二分类器来预测样本视频和视频描述文本是否对齐。
[0125]
(2)、针对第一区域特征集中的任一区域特征，从第二区域特征集中确定与任一区域特征相匹配的匹配区域特征。
[0126]
本技术实施例中，匹配区域特征是从第二区域特征集中确定的，上述任一区域特征是从第一区域特征集中确定的，上述任一区域特征与匹配区域特征是在空间维度和时间维度相对应的(也即是在采样图像序列和掩码图像序列中同一序列且同一图像区域的所对应的特征)。
[0127]
(3)、确定任一区域特征和匹配区域特征之间的差异参数，并根据差异参数确定局部损失。
[0128]
本技术实施例中，针对第一区域特征集和第二区域特征集，可以得到对应不同划分图像区域的多个差异参数(也即是多组任一区域特征和匹配区域特征之间的差异参数)，
每个差异参数都可以表征采样图像序列和掩码图像序列中相匹配的划分图像区域的特征差异，用以进行局部损失的计算。其中，上述局部损失既可以指代对应多组任一区域特征和匹配区域特征的多个局部损失的集合，也可以指代任一组任一区域特征和匹配区域特征的局部损失。
[0129]
s405、根据全局损失调整初始文本编码器的网络参数，根据调整后的文本编码器确定训练后的文本编码器；以及根据局部损失调整初始第一视频编码器的网络参数，根据调整后的第一视频编码器确定训练后的第一视频编码器。
[0130]
在一实施例中，上述根据全局损失调整初始文本编码器的网络参数，以及根据局部损失调整初始第一视频编码器的网络参数的过程可以通过以下方式实现：针对一组样本视频和视频描述文本而言，文本视频检索系统通过全局损失调整初始文本编码器的网络参数，通过局部损失调整初始第一视频编码器的网络参数，以使得第一视频编码器能够捕获跟视频描述文本的文本特征对齐的局部视觉语义(即第二区域特征集)。在此过程中，针对对应多组任一区域特征和匹配区域特征的多个局部损失，分别利用各个局部损失迭代的调整初始第一视频编码器的网络参数(也可以调整初始文本编码器的网络参数)。
[0131]
在一实施例中，文本编码器的网络参数也可以是根据全局损失和局部损失联合调整得到；第一视频编码器的网络参数也可以是根据全局损失和局部损失联合调整得到。
[0132]
针对多组样本视频和视频描述文本而言，可以基于上述方法迭代优化初始文本编码器和初始第一视频编码器的网络参数，最后根据调整后的文本编码器和调整后的第一视频编码器确定训练后的文本编码器和训练后的第一视频编码器。
[0133]
在一实施例中，基于上述方法还可以执行以下步骤实现。
[0134]
(1)、在第一视频编码器的网络参数调整后，根据第一视频编码器的调整后的网络参数更新第二视频编码器的网络参数，得到调整后的第二视频编码器。
[0135]
(2)、结合调整后的第二视频编码器，对调整后的文本编码器和调整后的第一视频编码器再次进行联合训练，以得到训练后的文本编码器和训练后的第一视频编码器；其中，调整后的第二视频编码器针对样本视频的采样图像获取的特征，趋近于调整后的文本编码器针对样本视频的视频描述文本获取的文本特征。
[0136]
本技术实施例中，文本编码器、第一视频编码器和第二视频编码器可以进行联合训练，由于第一视频编码器和第二视频编码器具有相同的结构，根据第一视频编码器的调整后的网络参数更新(例如参数同步，参数调整等)第二视频编码器的网络参数之后，可以使第二视频编码器聚合第一视频编码器的知识，从而让第二视频编码器获取的针对样本视频的采样图像获取的特征(包括样本视频的全局特征和局部特征)，趋近于调整后的文本编码器针对样本视频的视频描述文本获取的文本特征(也即是第二视频编码器获取到的掩码图像的重构目标逐渐与参考文本特征对齐)，提高了模型处理的准确性，从而得到更准确的视频描述文本与待检测视频的匹配结果。
[0137]
在一实施例中，可以通过以下方式对第二视频编码器进行参数更新：在一个训练周期内(即利用同一组样本视频和视频描述文本)，固定第二视频编码器的网络参数，那么在第k个训练周期时，第二视频编码器的网络参数的更新公式如下。
[0138]
{θs}k＝λ{θs}
k-1
+(1-λ){θv}
k-1
[0139]
其中,{θs}k为第二视频编码器在第k个训练周期结束时的网络参数，{θs}
k-1
为第二
视频编码器在第k-1个训练周期结束时的网络参数，{θv}
k-1
为第一视频编码器在第k-1个训练周期结束时的网络参数，λ为常数。
[0140]
通过上述方法对第二视频编码器的网络参数的进行更新，使得第二视频编码器的优化过程更加平滑，从而让第二视频编码器获取到的掩码图像的重构目标逐渐与参考文本特征对齐，以此得到更准确的视频描述文本与待检测视频的匹配结果。
[0141]
s406、获取待检测视频描述文本，将待检测视频描述文本输入文本编码器中进行处理，得到待检测视频描述文本的文本特征。
[0142]
s407、将待检测视频的视频图像输入第一视频编码器中进行处理，得到待检测视频的视频特征。
[0143]
s408、根据文本特征和视频特征，确定待检测视频描述文本和待检测视频的匹配结果。
[0144]
其中，步骤s406～s408的具体实施方式参见前述实施例中步骤s201～s203的相关描述，本实施例不再赘述。
[0145]
请参阅图5，图5是本技术一个示例性实施例提供的一种数据处理系统(即文本视频检索系统)的预训练流程示意图，在预训练过程中，除了文本编码器和第一视频编码器，还包括第二视频编码器，文本视频检索系统将样本视频的视频描述文本(例如“两艘小船在山前的湖中飘着”)输入文本编码器，得到视频描述文本的参考文本特征；文本视频检索系统将样本视频的采样图像序列(该采样图像序列可以是文本视频检索系统对样本视频进行采样后得到的，也可以是由文本视频检索系统直接获取的采样图像序列)输入第二视频编码器，得到采样图像序列的第一区域特征集。
[0146]
文本视频检索系统同时将样本视频的掩码图像序列(该掩码图像序列可以是文本视频检索系统对样本视频的采样图像序列进行掩码处理后得到的，也可以是由文本视频检索系统直接获取的掩码图像序列)输入第一视频编码器，得到掩码图像序列的第二区域特征集和掩码图像序列的全局特征。
[0147]
根据第一区域特征集和第二区域特征集确定局部损失(同时通过第一区域特征集对第二区域特征集进行监督)，根据参考文本特征和全局特征确定全局损失(也即是对参考文本特征和全局特征进行相似度对比)；文本视频检索系统再根据局部损失和全局损失对文本编码器、第一视频编码器和第二视频编码器进行联合训练，最终得到训练后的模型。
[0148]
基于上述文本视频检索和预训练方法，本技术在四个检索数据集上进行了相关测试。
[0149]
测试方法包括零样本和训练集微调两种方法(零样本方法是指，针对每个数据集采用相同的模型参数进行测试任务，也即是不进行模型网络参数的更新；训练集微调方法是指针对每个数据集，对模型参数进行更新，将参数更新后的模型运用于后续测试任务)，具体测试结果如下表。
[0150]
表1a
[0151][0152][0153]
表1b
[0154]
方法年限视觉输入预训练数据集数量r@1r@5r@10medractbert2020resnet-3dhowto100m120m16.342.856.910.0univl2020s3dhowto100m110m21.249.663.16.0mmt2020s3dhowto100m120m26.657.169.64.0hero2021slowfasttv,howto100m120m16.843.457.7-noiseest2021resnext-101howto100m110m17.441.653.68.0clipbert2021raw videoscoco,visgenome5.6m22.046.859.96.0avlnet2021resnext-101howto100m120m27.155.666.64.0vlm2021s3dhowto100m120m28.155.567.44.0taco2021i3d,s3dhowto100m120m28.457.871.24.0supportset2021r(2+1)d-34howto100m120m30.158.569.33.0videoclip2021s3dhowto100m110m30.955.466.8-frozen2021raw videoscc3m,webvid-2m5.5m31.059.570.53.0ours2022raw videoscc3m,webvid-2m5.5m37.763.673.83.0
[0155]
表1a和表1b展示了在msr-vtt数据集上的文本到视频的检索结果，采用零样本方法的测试结果为表1a，采用训练集微调方法的测试结果为表1b。表格中包括多个指标，包括方法、年限、视觉输入、预训练数据集、数量、r@1、r@5、r@10和medr。其中，“视觉输入”指标用于指示获取视频特征的特征网络，该指标下的“raw videos”表示直接使用原始视频进行训练，而无需通过特征网络预先提取视频特征后进行训练；“数量”指标用于指示预训练的视频文本对数；r@k(例如r@1、r@5和r@10)可以理解为真实结果存在于前k个预测结果中的准确率；medr可以理解为真实结果在多个预测结果中的第r个，较高的r@k和较低的medr表示更好的结果。
[0156]
从表中可以看出，ours方法(即本技术提出的方法)具有较高的r@k以及较低的medr，取得了比其他方法更好的处理结果。
[0157]
表2a
[0158]
方法r@1r@5r@10medrnoiseest13.735.747.712.0supportset21.446.257.76.0frozen33.764.776.33.0ours44.476.287.02.0
[0159]
表2b
[0160]
方法r@1r@5r@10medrnoiseest20.349.063.36.0supportset28.460.072.94.0frozen45.679.888.22.0ours53.983.590.21.0
[0161]
表2a和表2b展示了在msvd数据集上的文本到视频的检索结果，采用零样本方法的测试结果为表2a，采用训练集微调方法的测试结果为表2b。表格中包括多个指标，包括r@1、r@5、r@10和medr。其中，r@k(例如r@1、r@5和r@10)可以理解为真实结果存在于前k个预测结果中的准确率；medr可以理解为真实结果在多个预测结果中的第r个，较高的r@k和较低的medr表示更好的结果。
[0162]
从表中可以看出，ours方法(即本技术提出的方法)具有较高的r@k以及较低的medr，取得了比其他方法更好的处理结果。
[0163]
表3a
[0164]
方法r@1r@5r@10medravlnet1.45.99.4273.5noiseest4.211.617.1119.0frozen9.322.030.151.0ours11.124.730.650.7
[0165]
表3b
[0166]
方法r@1r@5r@10medrnoiseest6.419.828.439.0mmt12.929.940.119.3frozen15.030.839.820.0ours17.835.644.115.5
[0167]
表3a和表3b展示了在msr-vtt数据集上的文本到视频的检索结果，采用零样本方法的测试结果为表3a，采用训练集微调方法的测试结果为表3b。表格中包括多个指标，包括r@1、r@5、r@10和medr。其中，r@k(例如r@1、r@5和r@10)可以理解为真实结果存在于前k个预测结果中的准确率；medr可以理解为真实结果在多个预测结果中的第r个，较高的r@k和较低的medr表示更好的结果。
[0168]
从表中可以看出，ours方法(即本技术提出的方法)具有较高的r@k以及较低的medr，取得了比其他方法更好的处理结果。
[0169]
表4a
[0170]
方法r@1r@5r@10medrvideoclip16.640.9
‑‑
frozen21.146.056.27.0ours27.250.363.65.0
[0171]
表4b
[0172]
方法r@1r@5r@10medrhero2.1-11.4-ce16.141.182.78.3clipbert20.448.060.86.0frozen31.059.872.43.0ours36.663.974.03.0
[0173]
表4a和表4b展示了在didemo数据集上的文本到视频的检索结果，采用零样本方法的测试结果为表4a，采用训练集微调方法的测试结果为表4b。表格中包括多个指标，包括r@1、r@5、r@10和medr。其中，r@k(例如r@1、r@5和r@10)可以理解为真实结果存在于前k个预测结果中的准确率；medr可以理解为真实结果在多个预测结果中的第r个，较高的r@k和较低的medr表示更好的结果。
[0174]
从表中可以看出，ours方法(即本技术提出的方法)具有较高的r@k以及较低的medr，取得了比其他方法更好的处理结果。
[0175]
表5
[0176][0177]
表5展示了在hmdb51和ucf101数据集上的零样本动作识别结果(零样本的动作识别这一任务可以视为视频到文本的检索)，本技术将top1作为测评指标(top1可以理解为真实结果预测结果中的第一个的准确率)。s1、s2和s3表示不同的测试划分集，mean表示在三个测试划分集上的平均结果。
[0178]
从表中可以看出，ours方法(即本技术提出的方法)具有较高的mean，取得了比其他方法更好的处理结果。
[0179]
本技术的有益效果在于：本技术提出利用一个样本视频以及该样本视频的视频描述文本产生多组训练数据，通过在采集采样图像序列的过程中设置不同的采集方法，得到一个样本视频对应的多组采样图像序列；在对采样图像序列进行掩码处理的过程中通过掩
码不同图像区域，生成一组采样图像序列对应的多个掩码图像序列。通过上述方法，可以通过少量的样本视频及其视频描述文本，生成大量的训练数据进行模型的预训练，减少数据量，提高训练效率。
[0180]
本技术还提出，通过设置采集图像帧的间隔阈值，或者设置采集图像帧的随机间隔范围，保证采样图像序列中的多帧图像的图像特征具有一定差异性，以此提高图像特征提取的效果。
[0181]
本技术还提出，在获取采样图像序列和掩码图像序列时，对经过间隔采样得到的采样图像序列中各个采样图像的同一位置进行掩码处理，得到掩码图像序列。通过上述方法抑制了第一视频编码器通过对相邻帧的视觉内容插值来重构掩码区域，使其需要在空间维度和时间维度上对可见的视频内容进行视觉推理，加强数据处理模型对空间维度和时间维度的理解从而提高了模型的处理效果，同时也间接提高了匹配结果的准确性。并且，通过间隔采样方法，可以在保证处理效果的前提下减少采样图像数据量，提高待检测视频的采样效率和对采样图像进行处理的效率。
[0182]
本技术还提出，在推理目标掩码图像的掩码区域时，可以基于多个参考掩码图像进行推理，并且可以对多个参考掩码图像进行权重划分，例如，将掩码图像序列中与目标掩码图像较近的参考掩码图像的权重设置较大；将掩码图像序列中与目标掩码图像较远的参考掩码图像的权重设置较小；或者在满足距离阈值时，忽略该距离较远的参考掩码图像，从而有针对性的选择用于进行掩码区域推理的数据，提高掩码区域推理的准确性。
[0183]
本技术还提出多种获取掩码图像序列的全局特征的方法，第一种是将掩码图像序列中每个掩码图像对应的全局特征进行特征融合，得到掩码图像序列的全局特征；第二种是将掩码图像序列中包括的多个掩码图像进行图像合并，再根据合并后的掩码图像确定掩码图像序列的全局特征；第三种是对得到的第二区域特征集进行处理，得到掩码图像序列的全局特征。通过上述多种方法提高了数据处理的灵活性。
[0184]
本技术还提出，全局特征是图像维度的特征，参考文本特征是文本维度的特征，通过对全局特征和参考文本特征进行匹配处理，使得将全局特征和参考文本特征在同一特征维度下对齐，从而提高全局损失的准确性和有效性。
[0185]
本技术还提出，针对对应多组区域特征和匹配区域特征的多个局部损失，分别利用各个局部损失迭代的调整初始第一视频编码器和初始文本编码器的网络参数。在第一视频编码器的网络参数调整后，可以根据第一视频编码器的调整后的网络参数更新第二视频编码器的网络参数，使得第二视频编码器聚合第一视频编码器的知识，从而让第二视频编码器获取的视频特征趋近于文本编码器获取的文本特征(也即是第二视频编码器获取到的掩码图像的重构目标逐渐与参考文本特征对齐)，提高了模型处理的准确性；再结合调整后的第二视频编码器对调整后的文本编码器和调整后的第一视频编码器再次进行联合训练，以得到训练后的文本编码器和训练后的第一视频编码器，通过联合训练以及参数更新方法，能够得到更准确的视频描述文本与待检测视频的匹配结果。
[0186]
本技术还提高了一种具体的网络参数更新方法，使得第二视频编码器的优化过程更加平滑，从而让第二视频编码器获取到的掩码图像的重构目标逐渐与参考文本特征对齐。
[0187]
请参阅图6，图6是本技术实施例提供的一种数据处理装置的示意框图。其中，数据
处理装置具体可以包括：
[0188]
获取模块601，用于获取待检测视频描述文本，将上述待检测视频描述文本输入文本编码器中进行处理，得到上述待检测视频描述文本的文本特征；
[0189]
处理模块602，用于将待检测视频的视频图像输入第一视频编码器中进行处理，得到上述待检测视频的视频特征；
[0190]
匹配模块603，用于根据上述文本特征和上述视频特征，确定上述待检测视频描述文本和上述待检测视频的匹配结果；
[0191]
其中，上述文本编码器和上述第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，上述文本编码器用于获取样本视频的视频描述文本的参考文本特征；上述第二视频编码器用于获取上述样本视频的采样图像序列的第一区域特征集；上述第一视频编码器用于获取上述采样图像序列的掩码图像序列的全局特征和第二区域特征集；上述全局特征和上述参考文本特征用于确定全局损失，上述第一区域特征集和上述第二区域特征集用于确定局部损失，上述文本编码器的网络参数是根据上述全局损失调整得到，上述第一视频编码器的网络参数是根据上述局部损失调整得到。
[0192]
可选的，上述获取模块601还用于：
[0193]
获取上述样本视频的视频描述文本和采样图像序列，并获取上述采样图像序列对应的掩码图像序列；
[0194]
上述处理模块602，还用于：
[0195]
将上述样本视频的视频描述文本输入初始文本编码器中进行特征提取，得到上述参考文本特征；
[0196]
将上述采样图像序列输入初始第二视频编码器中进行特征提取，得到上述第一区域特征集，以及将上述掩码图像序列输入初始第一视频编码器中进行特征提取，得到上述全局特征和上述第二区域特征集；
[0197]
根据上述全局特征和上述参考文本特征确定上述全局损失，以及根据上述第一区域特征集和上述第二区域特征集确定上述局部损失；
[0198]
根据上述全局损失调整上述初始文本编码器的网络参数，根据调整后的文本编码器确定训练后的文本编码器；以及根据上述局部损失调整上述初始第一视频编码器的网络参数，根据调整后的第一视频编码器确定训练后的第一视频编码器。
[0199]
可选的，上述处理模块602，在用于获取上述样本视频的采样图像序列时，具体用于：
[0200]
对上述样本视频进行间隔采样处理，得到采样图像序列；上述采样图像序列中的任意两个采样图像不相邻；
[0201]
上述获取上述采样图像序列对应的掩码图像序列，包括：
[0202]
对上述采样图像序列中的各个采样图像进行掩码处理，得到上述掩码图像序列；上述各个采样图像中被掩码处理的图像区域相匹配。
[0203]
可选的，上述处理模块602，在用于将上述掩码图像序列输入初始第一视频编码器中进行特征提取，得到上述第二区域特征集时，具体用于：
[0204]
将上述掩码图像序列输入初始第一视频编码器中进行处理，针对上述掩码图像序列中的目标掩码图像，对上述目标掩码图像进行区域划分处理，并提取各个划分图像区域
memory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，ssd)等；上述存储装置702还可以包括上述种类的存储器的组合。
[0220]
上述处理器701可以是中央处理器(central processing unit，cpu)。在一个实施例中，上述处理器701还可以是图形处理器(graphics processing unit，gpu)。上述处理器701也可以是由cpu和gpu的组合。在一个实施例中，上述存储装置702用于存储程序指令，上述处理器701可以调用上述程序指令，执行如下操作：
[0221]
获取待检测视频描述文本，将上述待检测视频描述文本输入文本编码器中进行处理，得到上述待检测视频描述文本的文本特征；
[0222]
将待检测视频的视频图像输入第一视频编码器中进行处理，得到上述待检测视频的视频特征；
[0223]
根据上述文本特征和上述视频特征，确定上述待检测视频描述文本和上述待检测视频的匹配结果；
[0224]
其中，上述文本编码器和上述第一视频编码器是结合第二视频编码器联合训练得到；在联合训练过程中，上述文本编码器用于获取样本视频的视频描述文本的参考文本特征；上述第二视频编码器用于获取上述样本视频的采样图像序列的第一区域特征集；上述第一视频编码器用于获取上述采样图像序列的掩码图像序列的全局特征和第二区域特征集；上述全局特征和上述参考文本特征用于确定全局损失，上述第一区域特征集和上述第二区域特征集用于确定局部损失，上述文本编码器的网络参数是根据上述全局损失调整得到，上述第一视频编码器的网络参数是根据上述局部损失调整得到。
[0225]
可选的，上述处理器701还用于：
[0226]
获取上述样本视频的视频描述文本和采样图像序列，并获取上述采样图像序列对应的掩码图像序列；
[0227]
将上述样本视频的视频描述文本输入初始文本编码器中进行特征提取，得到上述参考文本特征；
[0228]
将上述采样图像序列输入初始第二视频编码器中进行特征提取，得到上述第一区域特征集，以及将上述掩码图像序列输入初始第一视频编码器中进行特征提取，得到上述全局特征和上述第二区域特征集；
[0229]
根据上述全局特征和上述参考文本特征确定上述全局损失，以及根据上述第一区域特征集和上述第二区域特征集确定上述局部损失；
[0230]
根据上述全局损失调整上述初始文本编码器的网络参数，根据调整后的文本编码器确定训练后的文本编码器；以及根据上述局部损失调整上述初始第一视频编码器的网络参数，根据调整后的第一视频编码器确定训练后的第一视频编码器。
[0231]
可选的，上述处理器701，在用于获取上述样本视频的采样图像序列时，具体用于：
[0232]
对上述样本视频进行间隔采样处理，得到采样图像序列；上述采样图像序列中的任意两个采样图像不相邻；
[0233]
上述获取上述采样图像序列对应的掩码图像序列，包括：
[0234]
对上述采样图像序列中的各个采样图像进行掩码处理，得到上述掩码图像序列；上述各个采样图像中被掩码处理的图像区域相匹配。
[0235]
可选的，上述处理器701，在用于将上述掩码图像序列输入初始第一视频编码器中
进行特征提取，得到上述第二区域特征集时，具体用于：
[0236]
将上述掩码图像序列输入初始第一视频编码器中进行处理，针对上述掩码图像序列中的目标掩码图像，对上述目标掩码图像进行区域划分处理，并提取各个划分图像区域的区域特征；
[0237]
其中，上述目标掩码图像中包含掩码区域的第一图像区域的区域特征，是根据参考掩码图像中的非掩码部分以及上述目标掩码图像中的非掩码部分预测得到的预测特征，且上述预测特征趋近于由上述初始第二视频编码器对上述采样图像序列中与上述第一图像区域相匹配的第二图像区域提取的特征；上述目标掩码图像为上述掩码图像序列中的任一掩码图像，上述参考掩码图像为上述掩码图像序列中除上述目标掩码图像之外的掩码图像；
[0238]
根据针对上述掩码图像序列中各个掩码图像提取的区域特征，得到上述第二区域特征集。
[0239]
可选的，上述第一区域特征集由上述初始第二编码器针对上述采样图像序列中各个采样图像提取的区域特征构成，每一个区域特征对应采样图像的一个划分图像区域，上述处理器701，在用于根据上述全局特征和上述参考文本特征确定上述全局损失，以及根据上述第一区域特征集和上述第二区域特征集确定上述局部损失时，具体用于：
[0240]
将上述全局特征和上述参考文本特征进行匹配处理，根据匹配处理后的全局特征和匹配处理后的参考文本特征，确定全局损失；
[0241]
针对上述第一区域特征集中的任一区域特征，从上述第二区域特征集中确定与上述任一区域特征相匹配的匹配区域特征；
[0242]
确定上述任一区域特征和上述匹配区域特征之间的差异参数，并根据上述差异参数确定上述局部损失。
[0243]
可选的，上述处理器701，在用于根据调整后的文本编码器和第一视频编码器确定训练后的文本编码器和第一视频编码器时，具体用于：
[0244]
在上述第一视频编码器的网络参数调整后，根据上述第一视频编码器的调整后的网络参数更新上述第二视频编码器的网络参数，得到调整后的第二视频编码器；
[0245]
结合上述调整后的第二视频编码器，对调整后的文本编码器和调整后的第一视频编码器再次进行联合训练，以得到训练后的文本编码器和训练后的第一视频编码器；
[0246]
其中，上述调整后的第二视频编码器针对样本视频的采样图像获取的特征，趋近于调整后的文本编码器针对样本视频的视频描述文本获取的文本特征。
[0247]
可选的，上述待检测视频包含于视频数据库中，上述视频数据库包括多个视频，上述处理器701，还用于：
[0248]
根据上述多个视频中各个视频与上述待检测视频描述文本的匹配结果，从上述视频数据库中确定与上述待检测视频描述文本相匹配的匹配视频。
[0249]
具体实现中，本技术实施例中所描述的处理器701、存储装置702以及通信接口703可执行本技术实施例图2或图4提供的数据处理方法的相关实施例中所描述的实现方式，也可执行本技术实施例图6提供的数据处理装置的相关实施例中所描述的实现方式，在此不再赘述。
[0250]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以
通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0251]
此外，这里需要指出的是：本技术实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图2、图4所对应实施例中的方法，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本技术方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0252]
根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图2、图4所对应实施例中的方法，因此，这里将不再进行赘述。
[0253]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0254]
以上所揭露的仅为本技术的部分实施例而已，当然不能以此来限定本技术之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本技术权利要求所作的等同变化，仍属于发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：葛玉莹葛艺潇单瀛
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种从钨钼废渣中回收多种金属的方法与流程
上一篇：一种汽车后角窗结构及汽车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。