视频表征方法及装置与流程

文档序号:31051574发布日期:2022-08-06 07:33阅读:104来源:国知局
视频表征方法及装置与流程

1.本技术涉及计算机技术领域,特别涉及一种视频表征方法及装置。


背景技术:

2.随着数字技术及互联网技术的发展,视频形式的信息内容服务受到大众喜爱,互联网中的视频量激增。因此,视频表征学习变得更加重要。
3.相关技术中,通过大量的标注类别数据训练视频表征模型进行视频表征学习,使得标注类别数据相同或相近的视频,其对应的视频表征数据之间的特征距离也是相近的。上述视频表征模型完成训练后可输出视频表征数据,以对输入视频进行特征表示,并应用于下游视频分类任务中。
4.然而,相关技术中的视频表征学习依赖标注类别数据,视频表征也仅与标注类别数据相关,视频表征的准确性较低。


技术实现要素:

5.本技术实施例提供了一种视频表征方法及装置,能够提升视频表征的准确性。
6.根据本技术实施例的一个方面,提供了一种视频表征方法,所述方法包括:
7.获取待处理视频片段;
8.将所述待处理视频片段输入目标视频表征模型,得到所述待处理视频片段对应的第一视频表征数据;
9.其中,所述目标视频表征模型是基于训练样本以及距离衰减损失信息进行训练得到的机器学习模型,所述距离衰减损失信息基于所述训练样本中的视频片段之间对应的时序距离信息和相似度信息确定,所述相似度信息基于所述视频片段对应的视频表征数据确定,所述距离衰减损失信息用于调整所述时序距离信息与所述相似度信息之间的负相关程度。
10.根据本技术实施例的一个方面,提供了一种视频表征装置,所述装置包括:
11.视频获取模块,用于获取待处理视频片段;
12.视频表征模块,用于将所述待处理视频片段输入目标视频表征模型,得到所述待处理视频片段对应的第一视频表征数据;
13.其中,所述目标视频表征模型是基于训练样本以及距离衰减损失信息进行训练得到的机器学习模型,所述距离衰减损失信息基于所述训练样本中的视频片段之间对应的时序距离信息和相似度信息确定,所述相似度信息基于所述视频片段对应的视频表征数据确定,所述距离衰减损失信息用于调整所述时序距离信息与所述相似度信息之间的负相关程度。
14.根据本技术实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现
上述视频表征方法。
15.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频表征方法。
16.根据本技术实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述视频表征方法。
17.本技术实施例提供的技术方案可以带来如下有益效果:
18.通过训练样本中的视频片段对应的视频表征数据,可以确定视频片段之间的相似度信息,并在相似度信息的基础上引入视频片段之间的时序距离信息来确定距离衰减损失信息,从而在模型训练过程中可以根据距离衰减损失信息调整时序距离信息与相似度信息之间的负相关程度,使得视频表征模型学习到不同视频片段在时间维度上的距离与其相似度之间的相关性,从而能够输出更加准确的视频表征数据对待处理视频进行特征表示,有效提升了视频表征的准确性。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本技术一个实施例提供的应用程序运行环境的示意图;
21.图2是本技术一个实施例提供的视频表征方法的流程图;
22.图3是本技术一个实施例提供的相似视频确定方法的流程图;
23.图4是本技术一个实施例提供的视频片段定位方法的流程图;
24.图5是本技术一个实施例提供的视频表征模型训练的流程图一;
25.图6是本技术一个实施例提供的视频表征模型训练的流程图二;
26.图7是本技术一个实施例提供的视频表征模型训练的流程图三;
27.图8是本技术一个实施例提供的视频表征模型训练的流程图四;
28.图9示例性示出了一种视频表征模型的训练流程示意图一;
29.图10示例性示出了一种视频表征模型的训练流程示意图二;
30.图11是本技术一个实施例提供的视频表征装置的框图;
31.图12是本技术一个实施例提供的计算机设备的结构框图。
具体实施方式
32.本技术实施例提供的视频表征方法涉及人工智能技术,下面对此进行简要说明,以便于本领域技术人员理解。
33.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
34.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
35.计算机视觉技术(computer vision,cv):计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr(optical character recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d(3-dimension,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
36.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
37.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
38.请参考图1,其示出了本技术一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
39.终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、飞行器等电子设备。终端10中可以安装应用程序的客户端。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
40.在本技术实施例中,上述应用程序可以是任何能够提供视频内容服务的应用程序。典型地,该应用程序为视频类应用程序。当然,除了视频类应用程序之外,其它类型的应用程序中也可以提供视频内容服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(virtual reality,vr)类应用程序、增强现实(augmented reality,ar)类应用程序等,本技术实施例对此不作限定。另外,对于不同的应用程序来说,其推送的视频也会有所不同,且相应的功能也会有所不同,这都可以根据实际需求预先进行配置,本技术实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
41.服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理
服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
42.可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
43.请参考图2,其示出了本技术一个实施例提供的视频表征方法的流程图。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或者服务器20。该方法可以包括以下几个步骤(210~220)。
44.步骤210,获取待处理视频片段。
45.可选地,上述待处理视频片段包括视频剪辑(clip)。在一些可能的应用场景中,上述待处理视频片段为视频检索任务中用于查询的视频片段(query)。
46.步骤220,将待处理视频片段输入目标视频表征模型,得到待处理视频片段对应的第一视频表征数据。
47.其中,目标视频表征模型是基于训练样本以及距离衰减损失信息进行训练得到的机器学习模型,距离衰减损失信息基于训练样本中的视频片段之间对应的时序距离信息和相似度信息确定,相似度信息基于视频片段对应的视频表征数据确定,距离衰减损失信息用于调整时序距离信息与相似度信息之间的负相关程度。
48.在一种可能的实施方式中,上述目标视频表征模型可以是视频特征提取网络模型,包括但不限于卷积神经网络模型(convolutional neural networks,cnn)、三维卷积网络模型(3-dimensioncnn,c3d)、三维深度残差网络模型(3-dimensiondeep residual network,r3d)、二维卷积与一维卷积复合的卷积网络模型(r(2+1)d)、可分离三维卷积神经网络模型(separable 3d cnn,s3d)。
49.可选地,上述目标视频表征模型用于确定视频对应的视频表征数据,以对视频进行特征表示。上述视频表征数据包括但不限于视频对应的视频表征向量、概率分布数据等,本技术实施例对此不作限定。上述第一视频表征数据是指上述待处理视频片段对应的视频表征数据。
50.对于上述视频表征模型的详细说明可参见下文中视频表征模型训练方法实施例中的介绍内容。
51.在示例性实施例中,上述训练样本包括目标视频片段以及目标视频片段关联的样本视频片段。上述目标视频表征模型的训练过程包括下文中视频表征模型训练方法实施例对应的内容。
52.在示例性实施例中,如图3所示,上述方法还可以包括如下步骤(230~260),图3示出了本技术一个实施例提供的相似视频确定方法的流程图。
53.步骤230,获取至少两个视频片段。
54.可选地,上述至少两个视频片段是已有视频中的视频片段。上述已有视频包括服务器视频库中的已有视频、互联网中的视频,本技术实施例对此不作限定。
55.步骤240,将至少两个视频片段输入目标视频表征模型,得到至少两个视频片段对
应的第二视频表征数据。
56.可选地,将上述至少两个视频片段分别输入至上述目标视频表征模型,目标视频表征模型对上述至少两个视频片段分别进行视频特征提取处理,得到上述至少两个视频片段各自对应的视频表征数据,如视频表征向量、概率分布数据等。
57.可选地,上述第二视频表征数据包括至少两个视频片段对应的视频表征数据。
58.步骤250,基于第一视频表征数据与第二视频表征数据,确定待处理视频片段与至少两个视频片段之间的视频相似度。
59.在一种可能的实施方式中,上述第一视频表征数据包括待处理视频对应的视频表征向量,上述第一视频表征数据包括上述至少两个视频片段各自对应的视频表征向量。分别计算上述待处理视频对应的视频表征向量与至少两个视频片段中各个视频片段对应的视频表征向量之间的向量相似度,基于上述向量相似度可以确定上述视频相似度。上述视频相似度用于表征不同视频之间的相似程度。可选地,上述视频相似度与上述向量相似度呈正相关。
60.在一个示例中,视频片段1对应的视频表征向量记为u,视频片段2对应的视频表征向量记为v,上述向量相似度可以记为sim(u,v)。可选地,在该示例性中,上述sim(u,v)=u
t
v/(||u||2||v||2)。上述向量相似度可以作为上述视频相似度。
61.需要说明的是,向量相似度也可以根据其他计算方式计算,比如确定两个视频表征向量之间的余弦距离、欧式距离等,并按照一定的映射关系,可以在上述余弦距离或者欧式距离之上确定视频相似度。
62.步骤260,将视频相似度大于或等于相似度阈值的视频片段确定为待处理视频片段对应的相似视频片段。
63.在前述步骤中,确定了待处理视频与至少两个视频片段之间的视频相似度,因此可以根据相似度阈值判断至少两个视频片段中与待处理视频相似的视频片段。
64.可选地,判断各个视频相似度是否大于或等于相似度阈值。若是,则确定该视频相似度对应的视频片段是待处理视频片段对应的相似视频片段。
65.可选地,上述相似度阈值可以是预设的阈值。上述相似度阈值可以根据实景情况进行设定,本技术实施例对此不作限定。
66.在示例性实施例中,如图4所示,上述方法还可以包括如下步骤270,图4示出了本技术一个实施例提供的视频片段定位方法的流程图。
67.步骤270,基于相似视频片段,确定待处理视频片段对应的片段定位信息。
68.可选地,获取上述相似视频片段的元信息。上述元信息包括相似视频片段的对应的源视频标识、相似视频片段在源视频中的位置信息等属性信息。可选地,上述位置信息包括上述相似视频片段在源视频中对应的起始帧号和结束帧号,或者是起始时刻或结束时刻。
69.可选地,基于上述元信息,可以确定上述待处理视频片段的片段定位信息。上述片段定位信息包括上述待处理视频片段对应的源视频信息和位置信息。
70.在一种可能的实施方式中,将上述相似视频片段对应的元信息中的源视频标识和位置信息,确定为上述片段定位信息。
71.在一些与应用场景中,上述相似视频片段与上述待处理视频片段是同一视频片
段,也可以是不同但相似的视频片段。
72.综上所述,本技术实施例提供的技术方案,通过训练样本中的视频片段对应的视频表征数据,可以确定视频片段之间的相似度信息,并在相似度信息的基础上引入视频片段之间的时序距离信息来确定距离衰减损失信息,从而在模型训练过程中可以根据距离衰减损失信息调整时序距离信息与相似度信息之间的负相关程度,使得视频表征模型学习到不同视频片段在时间维度上的距离与其相似度之间的相关性,从而能够输出更加准确的视频表征数据对待处理视频进行特征表示,有效提升了视频表征的准确性。
73.另外,由于上述目标视频表征模型能够输出更加精确的视频表征数据,因此可以基于上述目标视频表征进行判断相似视频,以及进行对精度要求更高的视频片段定位,提升了相似视频判断的准确性,以及视频片段的定位精度。
74.请参考图5,其示出了本技术一个实施例提供的视频表征模型训练方法的流程图一。该方法可应用于计算机设备中,所述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10或者服务器20。该方法可以包括以下几个步骤(501~550)。
75.步骤510,基于目标视频片段与样本视频片段,确定时序距离信息。
76.可选地,上述时序距离信息用于表征目标视频片段与样本视频片段之间的位置距离关系。
77.在示例性实施例中,上述训练样本包括目标视频片段以及目标视频片段关联的样本视频片段。可选地,上述目标视频片段(anchor)可以是训练样本中的任一视频片段。
78.可选地,上述样本视频片段包括第一视频片段、第二视频片段以及第三视频片段。其中,第一视频片段是指目标视频中与目标视频片段不同的视频片段;第二视频片段是指与目标视频不同的第一样本视频中的视频片段;第三视频片段是指与目标视频采用不同增强方式的第二样本视频中的视频片段。
79.上述目标视频是指上述目标视频片段所在的视频片段,上述第一样本视频是与上述目标视频不同的样本视频,上述第二样本视频是与上述目标视频对应的源视频相同但增强方式不同的视频。上述增强方式对应不同的数据增强处理过程。
80.在示例性实施例中,如图6所示,上述训练样本的获取过程可以包括如下步骤(560~580),图6示出了本技术一个实施例提供的视频表征模型训练方法的流程图二。
81.步骤560,获取至少两个样本视频。
82.可选地,从样本视频数据集中获取上述至少两个样本视频。上述样本视频数据集包括但不限于ucf101、hmdb51。
83.ucf101是一个现实动作视频的动作识别数据集,收集自youtube,提供了来自101个动作类别的13320个视频。其中,ucf101中的样本视频包括5大类动作:人与物体交互,单纯的肢体动作,人与人交互,演奏乐器,体育运动
84.hmdb51是一个动作识别数据集。hmdb51中的51个动作类别可以被分为如下5个大类:常见的面部动作、复杂的面部动作、常见的肢体动作、复杂的肢体动作、多人交互肢体动作。
85.步骤570,确定随机采样间隔。
86.本实施例从空间和时间维度进行应用数据扩充。在时间维度上,考虑到代表两个
片段之间帧数的随机步幅对片段间相似度的影响,本实施例在保证所有视频片段(剪辑)都有足够帧的情况下,确定随机采样间隔,以使采样的各个视频片段对应的起始位置是随机的。
87.随机采样间隔也可以称为随机步幅,是一种视频片段的数据增强方式,表示在采样的过程中,为了保持样本的丰富性,片段和片段之间有一个随机间隔。可选地,随机步幅[0,5]表示该间隔的取值区间为[0,5]。
[0088]
步骤580,根据随机采样间隔对至少两个样本视频进行视频片段采样处理,得到训练样本。
[0089]
在一种可能的实施方式中,从每个样本视频中以随机步幅[0,5]提取四个16帧剪辑(即视频片段),得到训练样本。
[0090]
可选地,在上述训练样本中的视频片段输入视频表征模型(编码器)之前,对其进行数据增强处理,得到增强后的视频片段。
[0091]
可选地,上述数据增强处理包括但不限于:在空间维度上对应的随机裁剪、调整大小、水平翻转、高斯模糊、颜色抖动等数据增强处理方式。通过不同的数据增强处理方式,可以使视频表征模型能够专注于学习视频中各像素位置的时间演变,而不是颜色变化等信息。
[0092]
可选地,本实施例为一个视频保留相同的超参数组。换句话说,来自同一视频的剪辑共享一组增强超参数。超参数组中的增强超参数用于确定目标视频对应的增强方式。根据上述增强超参数,可以确定上述增强超参数对应的目标数据增强方式,从而可以执行与目标数据增强方式对应的数据增强处理吗,得到上述增强后的视频片段。
[0093]
通过上述随机间隔进行采样,可以提升样本视频片段的丰富性,提升样本视频片段之间时序距离的多样性,从而可以帮助提升模型进行视频表征的准确性。
[0094]
在示例性实施例中,上述样本视频片段包括目标视频片段对应的正样本。相应的,如图6所示,上述步骤510的实施过程可以包括如下步骤(511~513)。
[0095]
步骤511,确定目标视频片段与正样本之间的片段距离。
[0096]
可选地,确定目标视频片段与第一正样本之间的第一片段距离。比如,确定目标视频片段与第一视频片段之间的片段距离,即上述第一片段距离。
[0097]
可选地,确定目标视频片段与第二正样本之间的第二片段距离。比如,确定目标视频片段与第三视频片段之间的片段距离,即上述第二片段距离。
[0098]
上述片段距离包括但不限于视频片段之间的间隔时长、间隔帧数,本技术实施例对此不作限定,可根据具体的应用场景进行选择。
[0099]
步骤512,确定目标视频片段对应的整体视频长度。
[0100]
可选地,根据目标视频片段,确定上述目标视频片段所在的目标视频;获取上述目标视频的整体视频长度,上述目标视频的整体视频长度可作为上述目标视频片段对应的整体视频长度。上述整体视频长度包括上述目标视频的总时长、总帧数。
[0101]
步骤513,基于片段距离与整体视频长度,确定温度指标数据。
[0102]
其中,时序距离信息包括温度指标数据,温度指标数据与片段距离呈负相关。
[0103]
在一种可能的实施方式(实施方式1)中,正样本包括第一正样本,第一正样本包括目标视频中与目标视频片段不同的第一视频片段,片段距离包括目标视频片段与第一视频
片段之间的第一片段距离。
[0104]
相应的,在上述实施方式1中,如图7所示,上述步骤513的实施过程可以包括如下步骤513a,图7示出了本技术一个实施例提供的视频表征模型训练方法的流程图三。
[0105]
步骤513a,基于第一片段距离与整体视频长度,确定第一温度指标数据。
[0106]
其中,温度指标数据包括第一温度指标数据,第一温度指标数据用于调整目标视频片段与第一视频片段之间的相似程度。
[0107]
可选地,上述第一温度指标数据可以是第一衰减温度系数。可选地,上述第一衰减温度系数可根据下述公式(1)确定。
[0108][0109]
其中,l表示目标视频片段与正样本之间的片段距离,l表示目标视频片段所在的目标视频的整体视频长度,τ表示温度系数,τ
i,j
表示上述第一衰减温度系数。可选地,上述温度系数τ为常数,可根据具体应用场景选择确定。
[0110]
可选地,时序距离(即片段距离)越小,第一衰减温度系数越大,时序距离(即片段距离)越大,第一衰减温度系数越小,第一衰减温度系数随片段距离的增大而衰减,即第一衰减温度系数与片段距离呈负相关。
[0111]
在另一种可能的实施方式(实施方式2)中,在上述实施方式1的基础上,正样本还包括第二正样本,第二正样本包括与目标视频采用不同增强方式的第二样本视频中的第三视频片段,片段距离包括目标视频片段与第三视频片段之间的第二片段距离。
[0112]
相应的,在上述实施方式2中,如图8所示,上述步骤513的实施过程还可以包括如下步骤(513b~513c),图8示出了本技术一个实施例提供的视频表征模型训练方法的流程图四。
[0113]
步骤513b,获取约束指标数据。
[0114]
可选地,上述约束指标数据是约束系数,上述约束指标数据可以根据实际应用场景确定。可选地,上述约束系数可以是小于1的常数。可选地,上述预设指标数据用于约束下述第二温度指标数据的衰减量和衰减速率。
[0115]
步骤513c,基于约束指标数据、第二片段距离与整体视频长度,确定第二温度指标数据。
[0116]
其中,温度指标数据包括第二温度指标数据,第二温度指标数据用于约束目标视频片段与第一视频片段之间的相似程度。
[0117]
可选地,上述第二温度指标数据可以是第二衰减温度系数。可选地,上述第二衰减温度系数可根据下述公式(2)确定。
[0118][0119]
其中,l表示目标视频片段与正样本之间的片段距离,l表示目标视频片段所在的目标视频的整体视频长度,ρ表示约束系数,τ表示温度系数,τ

i,j
表示上述第二衰减温度系数。可选地,上述温度系数τ、约束系数ρ为常数,可根据具体应用场景选择确定。
[0120]
步骤520,将目标视频片段与样本视频片段输入待训练的视频表征模型,得到目标视频片段对应的第三视频表征数据,以及样本视频片段对应的第四视频表征数据。
[0121]
上述第三视频表征数据是指上述目标视频片段对应的视频表征数据,包括但不限
于目标视频片段对应的视频表征向量、概率分布数据。可选地,将上述目标视频片段输入待训练的视频表征模型进行视频特征提取处理,得到上述目标视频片段对应的视频表征向量(也可以输出概率分布数据)。
[0122]
上述第四视频表征数据是指上述样本视频片段对应的视频表征数据,包括但不限于样本视频片段对应的视频表征向量、概率分布数据。可选地,将上述样本视频片段输入待训练的视频表征模型进行视频特征提取处理,得到上述样本视频片段对应的视频表征向量(也可以输出概率分布数据)。
[0123]
可选地,上述样本视频片段包括但不限于第一视频片段、第二视频片段以及第三视频片段。相应的,将第一视频片段、第二视频片段以及第三视频片段输入上述视频表征模型进行视频特征提取处理,得到第一视频片段对应的视频表征向量、第二视频片段对应的视频表征向量以及第三视频片段对应的视频表征向量。
[0124]
步骤530,基于第三视频表征数据与第四视频表征数据,确定相似度信息。
[0125]
可选地,上述相似度信息包括上述目标视频片段与第一视频片段之间的第一相似度、目标视频片段与第二视频片段之间的第二相似度以及目标视频片段与第三视频片段之间的第三相似度。
[0126]
可选地,基于上述目标视频片段与第一视频片段各自对应的视频表征向量,确定上述第一相似度;基于上述目标视频片段与第二视频片段各自对应的视频表征向量,确定上述第二相似度;基于上述目标视频片段与第三视频片段各自对应的视频表征向量,确定上述第三相似度。
[0127]
步骤540,基于时序距离信息与相似度信息,确定距离衰减损失信息。
[0128]
在上述实施方式1中,样本视频片段还包括第一正样本对应的第一负样本,第一负样本包括与目标视频不同的第一样本视频中的第二视频片段,相似度信息包括目标视频片段与第一视频片段之间的第一相似度,以及目标视频片段与第二视频片段之间的第二相似度。
[0129]
相应的,在上述实施方式1中,如图7所示,上述步骤540的实施过程可以包括如下步骤541。
[0130]
步骤541,基于第一温度指标数据、第一相似度以及第二相似度,确定外部衰减对比损失数据。
[0131]
其中,距离衰减损失信息包括外部衰减对比损失数据,外部衰减对比损失数据用于调整第一片段距离与第一相似度之间的负相关程度。
[0132]
上述外部衰减对比损失数据与上述第一温度指标数据(第一衰减温度系数)、第一相似度以及第二相似度之间的映射关系可由外部衰减对比损失(external decaying contrastive loss,exdnce)函数确定。
[0133]
可选地,外部衰减对比损失函数如下述公式(3)所示。
[0134][0135]
其中,zi表示目标视频片段对应的视频表征数据,zj表示上述第一视频片段(第一正样本)对应的视频表征数据,zn表示上述第二视频片段(第一负样本)对应的视频表征数据,sim(zi,zj)表示上述第一相似度,sim(zi,zn)表示上述第二相似度,τ
i,j
表示上述第一衰
减温度系数,τ表示上述温度系数,n表示批大小,k表示视频片段的序号,表示上述外部衰减对比损失数据。
[0136]
可选地,任意两个视频片段u与v之间的相似度为sim(u,v)。
[0137]
可选地,sim(u,v)=u
t
v/(||u||2||v||2)。
[0138]
由于上述第一衰减温度系数与片段距离呈负相关,因此时序距离越长,第一衰减温度系数越小,外部衰减对比损失相对降低,意味着受关注程度越小,从而会使得调整第一片段距离与第二相似度之间的负相关程度的调整程度降低,即目标视频片段与第一负样本之间的相似度改变越小,模型不会拉近目标视频片段与第一负样本之间的特征表示距离。另一方面,时序距离越小,第一衰减温度系数越大,外部衰减对比损失相对增大,意味着受关注程度越大,从而会使得模型加深对第一片段距离与第一相似度之间的负相关程度的正向调整程度,即目标视频片段与第一负样本之间的相似度改变增大,模型会将目标视频片段与第一负样本之间的特征表示距离拉近。这样,第一片段距离与第一相似度之间的负相关程度会被加深,保证了第一正样本与目标视频片段之间的相似度具有时序上的关系,提升了视频表征的精确度。
[0139]
在一些可能的实施方式中,基于目标视频片段与正样本之间的相似度以及目标视频片段与负样本之间的相似度,确定对比损失数据来训练视频表征模型。但是这样并不会考虑到同一视频中不同片段之间的差异,会导致目标视频片段与正样本的特征表示无差别接近,通过此种方式训练出的视频表征模型输出的视频表征数据适用于视频分类任务,很难适用于类似视频片段定位等细粒度的下游任务。
[0140]
而在上述实施方式1中,将与视频片段之间的片段距离关联的第一温度指标数据引入损失函数,再结合上述第一相似度和第二相似度确定外部衰减对比损失数据,通过该方式确定的外部衰减对比损失数据对视频表征模型进行训练,即可调整第一片段距离与第一相似度之间的负相关程度,使得目标视频中的目标视频片段与目标视频中的其他视频片段之间的相似度跟随其间的时序距离相关联,呈现时序距离越近相似度越高的变化。通过在损失函数中引入随片段间时序距离衰减的衰减温度系数,可以在模型训练过程中使视频表征模型学习到同一视频中不同片段之间的差异,提升视频表征的准确性,提升视频表征模型输出的视频表征数据的精确性,更加适用于类似视频片段定位等细粒度的下游任务。
[0141]
在一个示例中,如图9所示,其示例性示出了一种视频表征模型的训练流程示意图一。图9中示出的两个剪辑序列(序列91和序列92)是输入视频表征模型93的示例。其中,序列91包括片段a1、片段a2、片段a3以及片段a4;序列92包括片段b1、片段b2、片段b3以及片段b4。a和b表示它们来自不同的视频。其中,片段a1、片段a2、片段a3以及片段a4来自于视频a;片段b1、片段b2、片段b3以及片段b4来自于视频b。字母之后的剪辑序列号(1/2/3/4)表示视频片段在时间轴上的相对位置。
[0142]
示例性地,片段a1可作为上述目标视频片段(anchor)。根据上述外部衰减对比损失函数,将与目标视频片段处于同一视频的不同视频片段作为正样本,将与上述目标视频片段处于不同视频的视频片段作为负样本。图9中,片段a2、片段a3以及片段a4是片段a1对应的正样本,片段b1、片段b2、片段b3以及片段b4是片段a1对应的负样本。
[0143]
片段a1与其他视频片段之间的连线表示其间的相关程度调整关系。上述连线具有两种类型,一种是表示吸引关系的实线,另一种是表示排斥关系的虚线。连线的粗细表明不
同的吸引强度或排斥程度。连线越粗,吸引强度或排斥程度越大。
[0144]
上述图9中的连线关系基于外部衰减对比损失确定,上述吸引强度基于上述第一衰减温度系数确定,上述动态的第一衰减温度系数作用于第一正样本。通过图9的示例可以看出,外部衰减对比损失旨在增加来自同一视频的视频片段之间的相对相似性,并区分来自不同视频的视频片段。
[0145]
可选地,在图9中,随着片段a1分别与片段a2、片段a3以及片段a4之间的片段距离增加,片段a1分别与片段a2、片段a3以及片段a4之间的吸引强度依次递减,即片段a1与片段a2之间的吸引强度大于片段a1与片段a3之间的吸引强度,片段a1与片段a3之间的吸引强度大于片段a1与片段a4之间的吸引强度。
[0146]
在另一种可能的实施方式2中,在上述实施方式1的基础上,样本视频片段还包括第二正样本对应的第二负样本,第二负样本包括第一视频片段,相似度信息还包括目标视频片段与第三视频片段之间的第三相似度。
[0147]
相应的,在上述实施方式2中,如图8所示,上述步骤540的实施过程还可以包括如下步骤(542~543)。
[0148]
步骤542,基于第二温度指标数据、第一相似度以及第三相似度,确定内部衰减对比损失数据。
[0149]
内部衰减对比损失数据用于正则化外部衰减对比损失数据。
[0150]
上述内部衰减对比损失数据与上述第二温度指标数据、第一相似度以及第三相似度之间的映射关系可以根据内部衰减对比损失(internal decaying contrastive loss,indnce)函数确定。
[0151]
可选地,上述内部衰减对比损失函数如下述公式(4)所示。
[0152][0153]
其中,zi表示目标视频片段对应的视频表征数据,z
p
表示上述第三视频片段(第二正样本)对应的视频表征数据,zj表示上述第一视频片段(第二负样本)对应的视频表征数据,sim(zi,z
p
)表示上述第三相似度,sim(zi,zj)表示上述第一相似度,τ

i,j
表示上述第二衰减温度系数,τ表示上述温度系数,n表示批大小,k表示视频片段的序号,表示上述内部衰减对比损失数据。
[0154]
在一个示例中,如图10所示,其示例性示出了一种视频表征模型的训练流程示意图二。图10中示出的两个剪辑序列(序列91和序列94)是输入视频表征模型93的示例。其中,序列91包括片段a1、片段a2、片段a3以及片段a4;序列94包括片段a1'、片段a2'、片段a3'以及片段a4'。a和b表示它们来自不同的视频。其中,片段a1、片段a2、片段a3以及片段a4来自于视频a;片段a1'、片段a2'、片段a3'以及片段a4'来自于视频b。视频a与视频b对应的原视频相同,增强方式不同,即视频a与视频b是同一原视频经过不同数据增强处理后得到的不同增强方式的视频。可选地,片段a1与片段a1'仅是增强方式不同,视频内容相同,其他片段也类似。字母之后的剪辑序列号(1/2/3/4)表示视频片段在时间轴上的相对位置。
[0155]
示例性地,片段a1可作为上述目标视频片段(anchor)。根据上述内部衰减对比损失函数,将与目标视频片段处于同一目标视频的不同视频片段作为负样本,将与目标视频采用不同增强方式的视频中的视频片段作为负样本。相应的,在图10中,片段a2、片段a3以
及片段a4是片段a1对应的负样本,片段a1'、片段a2'、片段a3'以及片段a4'是片段a1对应的正样本。
[0156]
片段a1与其他视频片段之间的连线表示其间的相关程度调整关系。上述连线具有两种类型,一种是表示吸引关系的实线,另一种是表示排斥关系的虚线。连线的粗细表明不同的吸引强度或排斥程度。连线越粗,吸引强度或排斥程度越大。上述图10中的连线关系基于外部衰减对比损失确定,上述排斥强度基于上述第二衰减温度系数确定,上述动态的第二衰减温度系数作用于第二负样本。内部衰减对比损失作为上述外部衰减对比损失的正则化。旨在约束来自同一视频的不同视频片段之间的相对相似性的上界。
[0157]
可选地,在图10中,对于负样本一侧,随着片段a1分别与片段a2、片段a3以及片段a4之间的片段距离增加,片段a1分别与片段a2、片段a3以及片段a4之间的排斥程度也相应递增,即片段a1与片段a4之间的排斥程度大于片段a1与片段a3之间的排斥程度,片段a1与片段a3之间的排斥程度大于片段a1与片段a2之间的排斥程度。另一方面,对于正样本一侧,片段a1与片段a1'之间的片段距离小于片段a1与片段a2'之间的片段距离,因此片段a1与片段a1'之间的吸引强度高于片段a1与片段a2'之间的吸引强度;随着片段a1分别与片段a3'、片段a4'之间的片段距离增加,片段a1分别与片段a3'、片段a4'之间变成排斥关系,片段a1分别与片段a3'、片段a4'之间的排斥程度也相应递增,即片段a1与片段a3'之间的排斥程度小于片段a1与片段a4'之间的排斥程度。
[0158]
步骤543,对外部衰减对比损失数据和内部衰减对比损失数据进行融合处理,得到距离衰减对比损失数据。
[0159]
距离衰减对比损失数据用于表征距离衰减损失信息。
[0160]
可选地,距离衰减对比损失(decaying contrastive learning of visual representation,dclr)函数如下述公式(5)所示。
[0161][0162]
其中,l
dclr
表示距离衰减对比损失数据,表示上述外部衰减对比损失数据,表示上述内部衰减对比损失数据,e表示取期望。
[0163]
步骤550,根据模型损失信息对待训练的视频表征模型进行模型训练,得到目标视频表征模型。
[0164]
在一种可能的实施方式中,如上述实施方式1,基于上述外部衰减对比损失数据,对上述待训练的视频表征模型进行参数调整处理,得到调整后的视频表征模型;再将上述目标视频片段与样本视频片段输入调整后的视频表征模型,重新确定外部衰减对比损失数据;在外部衰减对比损失数据处于第一预设区间的情况下,保存当前的模型参数,得到上述目标视频表征模型。
[0165]
在另一种可能的实施方式中,如上述实施方式2,基于上述距离衰减对比损失数据,对上述待训练的视频表征模型进行参数调整处理,得到调整后的视频表征模型;再将上述目标视频片段与样本视频片段输入调整后的视频表征模型,重新确定距离衰减对比损失数据;在距离衰减对比损失数据处于第二预设区间的情况下,保存当前的模型参数,得到上述目标视频表征模型。
[0166]
可选地,上述第一预设区间与上述第二预设区间可根据实际场景进行确定,本申
请实施例对此不作限定。
[0167]
在一种可能的实施方式中,得到上述目标视频表征模型之后,对上述目标视频表征模型进行测试,得到测试结果。可选地,测试结果包括视频检索精度。可选地,将查询视频片段以及预设视频库中的视频片段分别输入至上述目标视频表征模型,目标视频表征模型输出各个视频片段的视频表征数据,基于各个视频片段的视频表征数据,可以进行视频检索,得到与查询视频片段对应的检索结果,检索结果包括检索出的视频片段。分别获取上述查询视频片段对应的索引信息,以及检索出的视频片段对应的索引信息,基于上述两种索引信息可以确定视频检索精度(也可理解为视频片段的定位精度)。可选地,索引信息包括但不限于视频片段对应的源视频标识、视频片段在源视频中的片段位置信息。可选地,上述片段位置信息包括片段次序标识。索引信息用于表征视频片段在源视频中的时序信息。比如,索引信息11可以指示视频片段11是视频1中的第1个视频片段。
[0168]
可选地,视频检索精度可以记为la。可选地,la可由如下公式(6)确定。
[0169][0170]
其中,i表示查询视频片段q的索引,j表示检索视频片段r的索引,lq表示查询视频片段q所在源视频的整体视频长度,lr表示检索视频片段r所在源视频的整体视频长度。可见,通过上述视频检索精度可以判断查询视频片段q与检索视频片段r之间的距离远近,查询视频片段q与检索视频片段r之间的距离与视频检索精度la呈负相关。上述视频检索精度越高,则可说明目标视频表征模型输出的视频表征数据越准确。综上所述,本技术实施例提供的技术方案,通过训练样本中的视频片段对应的视频表征数据,可以确定视频片段之间的相似度信息,并在相似度信息的基础上引入视频片段之间的时序距离信息来确定距离衰减损失信息,从而在模型训练过程中可以根据距离衰减损失信息调整时序距离信息与相似度信息之间的负相关程度,使得视频表征模型学习到不同视频片段在时间维度上的距离与其相似度之间的相关性,从而能够输出更加准确的视频表征数据对待处理视频进行特征表示,有效提升了视频表征的准确性。
[0171]
另外,本技术实施例根据知识蒸馏中温度参数产生的软概率分布设计了衰减策略,在对比损失中引入随时序距离动态变化的可变温度系数,从而确定两种衰减对比损失,并制定不同的正负样本规则来对视频表征模型进行训练,使得视频表征模型学习视频表征在时间维度上的逐渐演化。其中一种衰减对比损失是外部衰减损失,用于加深目标视频片段与正样本之间的时序距离与其相似度之间的负相关程度,并降低目标视频片段与负样本之间的相似性;另一种衰减对比损失是内部衰减损失,上述外部衰减损失对应的正样本在内部衰减损失中被调整为负样本,从而实现对外部衰减损失的正则化,约束目标视频片段与正样本之间相似性的上界,进一步提升了视频表征的精确度。通过沿时序距离衰减的对比学习策略,不仅可以使同一视频中的不同片段具有很好的相似性,还可以使与待检索的视频片段时序距离越近的视频片段具有越高的相似性,更能满足视频检索定位的下游任务。
[0172]
下面结合一些具体的实验数据对本技术实施例提供的视频表征方法的应用效果进行说明。请参考下表1,其示例性示出了本技术实施例选取r3d、c3d、r(2+1)d三个常见的视频特征提取网络模型,在ucf101和hmdb51这两个主流数据集上进行实验得到的结果数
据,以及相关技术对应实验结果数据。
[0173]
其中,数据集括号包含总的视频持续时间(d表示天);r@k表示为了某个目标,在所有测试集里,找前k个最相似的样本,如果k中命中一个,即成功(r@1、r@5、r@10、r@20均是类似的解释)。
[0174]
表1
[0175][0176]
[0177]
通过上表数据可知,相比于一些相关技术,如上表所示的sts、csj、speednet(视频物体速度预测网络)、memdpc(memory-augmented dense predictive coding,记忆增强密集预测编码)、pace pred(速度预测)、var.psp(pyramid scene parsing network,锥形场景解析网络)、temptrans、rspnet(relative speed perception,相对速度感知)、tclr(temporal contrastive learning for video representation,视频表示的对比学习),应用本技术实施例中基于距离衰减对比损失训练的视频表征模型得到的增益效果如下:
[0178]
本技术实施例基于r(2+1)d网络结构在ucf101上预训练的前提下,在ucf101的测试集上的最近邻视频检索r@1、r@5、r@10都取得了当前最好的效果,在相同的实验条件和网络结构下相比于tclr训练方法分别提高了1.4%、2.1%、0.4%;本技术实施例基于r3d网络结构在ucf101上预训练的前提下,在hmdb51的最近邻视频检索r@5取得了当前最好的效果,在相同的实验条件和网络结构下相比于tclr提高了1.3%;在c3d的网络结构中和相同的实验条件下,本技术实施例在最近邻视频检索r@1、r@5、r@10和r@20的结果都超过了其他方法(同等条件下的对比方法包括:memdpc、pace pred、rspnet)。
[0179]
上述表1中的最后一组数据列出了tclr和dclr(本技术)中r@k的定位精度的结果。可见,相比于tclr,应用本技术实施例中基于距离衰减对比损失训练的视频表征模型进行视频片段定位的定位精度取得了较大提升。
[0180]
下述为本技术装置实施例,可用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
[0181]
请参考图11,其示出了本技术一个实施例提供的视频表征装置的框图。该装置具有实现上述视频表征方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1100可以包括:视频获取模块1110、视频表征模块1120。
[0182]
视频获取模块1110,用于获取待处理视频片段。
[0183]
视频表征模块1120,用于将所述待处理视频片段输入目标视频表征模型,得到所述待处理视频片段对应的第一视频表征数据。
[0184]
其中,所述目标视频表征模型是基于训练样本以及距离衰减损失信息进行训练得到的机器学习模型,所述距离衰减损失信息基于所述训练样本中的视频片段之间对应的时序距离信息和相似度信息确定,所述相似度信息基于所述视频片段对应的视频表征数据确定,所述距离衰减损失信息用于调整所述时序距离信息与所述相似度信息之间的负相关程度。
[0185]
在示例性实施例中,所述装置1100还包括:相似度确定模块、相似视频确定模块。
[0186]
视频获取模块1110,还用于获取至少两个视频片段。
[0187]
视频表征模块1120,还用于将所述至少两个视频片段输入所述目标视频表征模型,得到所述至少两个视频片段对应的第二视频表征数据。
[0188]
相似度确定模块,用于基于所述第一视频表征数据与所述第二视频表征数据,确定所述待处理视频片段与所述至少两个视频片段之间的视频相似度。
[0189]
相似视频确定模块,用于将所述视频相似度大于或等于相似度阈值的视频片段确定为所述待处理视频片段对应的相似视频片段。
[0190]
在示例性实施例中,所述装置1100还包括:视频片段定位模块。
[0191]
视频片段定位模块,用于基于所述相似视频片段,确定所述待处理视频片段对应的片段定位信息。
[0192]
在示例性实施例中,所述训练样本包括目标视频片段以及所述目标视频片段关联的样本视频片段,所述装置1100还包括模型训练模块,所述模型训练模块包括:时序距离确定单元、视频片段表征单元、相似度确定单元、损失信息确定单元、模型训练单元。
[0193]
时序距离确定单元,用于基于所述目标视频片段与所述样本视频片段,确定所述时序距离信息。
[0194]
视频片段表征单元,用于将所述目标视频片段与所述样本视频片段输入待训练的视频表征模型,得到所述目标视频片段对应的第三视频表征数据,以及所述样本视频片段对应的第四视频表征数据。
[0195]
相似度确定单元,用于基于所述第三视频表征数据与所述第四视频表征数据,确定所述相似度信息。
[0196]
损失信息确定单元,用于基于所述时序距离信息与所述相似度信息,确定所述距离衰减损失信息。
[0197]
模型训练单元,用于根据所述模型损失信息对所述待训练的视频表征模型进行模型训练,得到所述目标视频表征模型。
[0198]
在示例性实施例中,所述样本视频片段包括所述目标视频片段对应的正样本,所述时序距离确定单元包括:片段距离确定子单元、视频长度确定子单元、温度指标确定子单元。
[0199]
片段距离确定子单元,用于确定所述目标视频片段与所述正样本之间的片段距离。
[0200]
视频长度确定子单元,用于确定所述目标视频片段对应的整体视频长度。
[0201]
温度指标确定子单元,用于基于所述片段距离与所述整体视频长度,确定温度指标数据,所述时序距离信息包括所述温度指标数据,所述温度指标数据与所述片段距离呈负相关。
[0202]
在示例性实施例中,所述正样本包括第一正样本,所述第一正样本包括目标视频中与所述目标视频片段不同的第一视频片段,所述片段距离包括所述目标视频片段与所述第一视频片段之间的第一片段距离。
[0203]
所述温度指标确定子单元具体用于基于所述第一片段距离与所述整体视频长度,确定第一温度指标数据。
[0204]
其中,所述温度指标数据包括所述第一温度指标数据,所述第一温度指标数据用于调整所述目标视频片段与所述第一视频片段之间的相似程度。
[0205]
在示例性实施例中,所述样本视频片段还包括所述第一正样本对应的第一负样本,所述第一负样本包括与所述目标视频不同的第一样本视频中的第二视频片段,所述相似度信息包括所述目标视频片段与所述第一视频片段之间的第一相似度,以及所述目标视频片段与所述第二视频片段之间的第二相似度。
[0206]
所述损失信息确定单元包括:外部衰减损失确定子单元。
[0207]
外部衰减损失确定子单元,用于基于所述第一温度指标数据、所述第一相似度以及所述第二相似度,确定外部衰减对比损失数据。
[0208]
其中,所述距离衰减损失信息包括所述外部衰减对比损失数据,所述外部衰减对比损失数据用于调整所述第一片段距离与所述第一相似度之间的负相关程度。
[0209]
在示例性实施例中,所述正样本还包括第二正样本,所述第二正样本包括与所述目标视频采用不同增强方式的第二样本视频中的第三视频片段,所述片段距离包括所述目标视频片段与所述第三视频片段之间的第二片段距离。
[0210]
所述温度指标确定子单元具体还用于:
[0211]
获取约束指标数据;基于所述约束指标数据、所述第二片段距离与所述整体视频长度,确定第二温度指标数据。
[0212]
其中,所述温度指标数据包括所述第二温度指标数据,所述第二温度指标数据用于约束所述目标视频片段与所述第一视频片段之间的相似程度。
[0213]
在示例性实施例中,所述样本视频片段还包括所述第二正样本对应的第二负样本,所述第二负样本包括所述第一视频片段,所述相似度信息还包括所述目标视频片段与所述第三视频片段之间的第三相似度;所述损失信息确定单元还包括:内部衰减损失确定子单元、对比损失数据融合子单元。
[0214]
内部衰减损失确定子单元,用于基于所述第二温度指标数据、所述第一相似度以及所述第三相似度,确定内部衰减对比损失数据,所述内部衰减对比损失数据用于正则化所述外部衰减对比损失数据。
[0215]
对比损失数据融合子单元,用于对所述外部衰减对比损失数据和所述内部衰减对比损失数据进行融合处理,得到距离衰减对比损失数据,所述距离衰减对比损失数据用于表征所述距离衰减损失信息。
[0216]
在示例性实施例中,所述模型训练模块还包括:样本视频获取单元、采样间隔确定单元、视频片段采样单元。
[0217]
样本视频获取单元,用于获取至少两个样本视频。
[0218]
采样间隔确定单元,用于确定随机采样间隔。
[0219]
视频片段采样单元,用于根据所述随机采样间隔对所述至少两个样本视频进行视频片段采样处理,得到所述训练样本。
[0220]
综上所述,本技术实施例提供的技术方案,通过训练样本中的视频片段对应的视频表征数据,可以确定视频片段之间的相似度信息,并在相似度信息的基础上引入视频片段之间的时序距离信息来确定距离衰减损失信息,从而在模型训练过程中可以根据距离衰减损失信息调整时序距离信息与相似度信息之间的负相关程度,使得视频表征模型学习到不同视频片段在时间维度上的距离与其相似度之间的相关性,从而能够输出更加准确的视频表征数据对待处理视频进行特征表示,有效提升了视频表征的准确性。
[0221]
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0222]
请参考图12,其示出了本技术一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述视频表征方法。具体来讲:
[0223]
计算机设备1200包括中央处理单元(central processing unit,cpu)1201、包括随机存取存储器(random access memory,ram)1202和只读存储器(read only memory,rom)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o(input/output)系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
[0224]
基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
[0225]
大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,大容量存储设备1207可以包括诸如硬盘或者cd-rom(compact disc read-only memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
[0226]
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasable programmable read only memory,可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,cd-rom、dvd(digital video disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
[0227]
根据本技术的各种实施例,计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
[0228]
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述视频表征方法。
[0229]
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述视频表征方法。
[0230]
可选地,该计算机可读存储介质可以包括:rom(read only memory,只读存储器)、ram(random access memory,随机存取记忆体)、ssd(solid state drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括reram(resistance random access memory,电阻式随机存取记忆体)和dram(dynamic random access memory,动态随机存取存储器)。
[0231]
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序
产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述视频表征方法。
[0232]
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本技术实施例对此不作限定。
[0233]
另外,在本技术的具体实施方式中,涉及到用户信息等相关的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0234]
以上所述仅为本技术的示例性实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1