一种视频定位方法、装置及电子设备与流程

文档序号:18633679发布日期:2019-09-11 21:57阅读:218来源:国知局
一种视频定位方法、装置及电子设备与流程

本发明涉及人工智能(ai,artificialintelligence)领域中的计算机视觉技术,尤其涉及一种视频定位方法、装置及电子设备。



背景技术:

计算机视觉技术是ai技术领域中的一个分支,其目的是利用机器根据先验的知识进行学习,从而具有对视频、图像等媒体信息进行分类和判断的逻辑能力。

视频定位技术是计算机视觉技术的典型应用,对于给定的语句,视频定位技术能够从视频中找到与语句在语义上相关的视频片段。例如,对于语句“我想去游泳”,视频定位技术能够从视频中找到包括游泳场景的视频片段。再例如,视频定位技术可以应用到在线视频的观看、编辑等应用场景中,帮助用户在视频中快速定位感兴趣的视频片段,以进行观看或相应的编辑操作。

随着视频数量的快速增长,视频定位技术能够在各种应用场景中提升对于视频的处理效率,因此具有越来越重要的应用价值,然而相关技术缺乏有效的视频定位的技术方案。



技术实现要素:

本发明实施例提供一种视频定位方法、装置及电子设备,能够快速和高精度地定位与输入的语句的语义相关的目标视频片段。

本发明实施例的技术方案是这样实现的:

本发明实施例提供一种视频定位方法,包括:

获取视频以及语句;

分别对所述视频和所述语句进行特征提取,得到对应的视频片段特征和词特征;

将所述视频片段特征和所述词特征进行融合,得到融合特征;

通过时序卷积神经网络将所述融合特征基于时序逐层聚合和关联,得到多层时序卷积特征图;

对所述多层时序卷积特征图中每层特征图进行语义调制,得到调制后的特征图,以及

对所述调制后的特征图进行时序卷积操作,得到与所述语句的语义相关的目标视频片段。

本发明实施例还提供一种视频定位装置,包括:

获取单元,用于获取视频以及语句;

特征提取单元,用于分别对所述视频和所述语句进行特征提取,得到对应的视频片段特征和词特征;

特征融合单元,用于将所述视频片段特征和所述词特征进行融合,得到融合特征;

聚合关联单元,用于通过时序卷积神经网络将所述融合特征基于时序逐层聚合和关联,得到多层时序卷积特征图;

语义调制单元,用于对所述多层时序卷积特征图中每层特征图进行语义调制,得到调制后的特征图;

时序卷积单元,用于对所述调制后的特征图进行时序卷积操作,得到与所述语句的语义相关的目标视频片段。

上述方案中,所述特征融合单元,具体用于:

将所述词特征进行特征整合得到语句特征,所述语句特征中包括所述语句的上下文信息;

将所述语句特征中对应所述语句中各个词的词特征进行平均化处理,得到所述语句中各个词的平均特征;

将各个所述视频片段特征分别与所述语句中各个词的平均特征进行融合,得到融合特征。

上述方案中,所述特征融合单元,具体用于:

通过激活函数,分别将所述语句中各个词的平均特征与各个所述视频片段特征进行拼接,得到对应的子特征;

将得到的所有子特征进行融合,形成对应所述视频和语句的融合特征。

上述方案中,所述语义调制单元,包括:

生成单元,用于基于所述多层时序卷积特征图中每层特征图所包含的特征单元、以及所述语句,生成调制参数;

归一化调制单元,用于基于所述调制参数,对所述多层时序卷积特征图中每层特征图所包含的特征单元进行归一化调制,得到更新后的特征单元;

所述生成单元,还用于基于所述更新后的特征单元,形成调制后的特征图。

上述方案中,所述生成单元,具体用于:

基于所述多层时序卷积特征图中每层特征图所包含的特征单元,为各个所述词特征分配对应的注意力权重;

基于所述注意力权重,对各个所述词特征进行加权求和处理,得到对应的注意力加权语句特征;

将所述注意力加权语句特征输入至所述时序卷积神经网络中的两个全连接网络,通过所述两个全连接网络分别对所述注意力加权语句特征进行连接处理,得到所述两个全连接网络各自输出的调制参数。

上述方案中,所述时序卷积单元,具体用于:

对所述调制后的特征图中的每层特征图进行时序卷积操作,得到候选的视频片段、以及对应所述候选的视频片段与所述目标视频片段的时间重叠分数;

基于所述时间重叠分数的降序排序,将排序在前的设定数量的候选的视频片段确定为所述目标视频片段。

上述方案中,视频定位装置还包括:

损失函数构建单元,用于构建时间重叠损失函数和时序位置预测损失函数;基于所述时间重叠损失函数和所述时序位置预测损失函数,构建所述时序卷积神经网络的联合损失函数;

训练单元,用于基于所述联合损失函数更新所述时序卷积神经网络,以使所述联合损失函数收敛。

上述方案中,所述损失函数构建单元,具体用于:

确定候选的视频片段与真实的目标视频片段的时间重叠率;

基于所述时间重叠率和时间重叠分数,构建所述时间重叠损失函数,所述时间重叠分数对应所述候选的视频片段与预测的所述目标视频片段;

确定所述真实的目标视频片段的中心位置和长度;

基于预测的所述目标视频片段与所述真实的目标视频片段对应的中心位置的差异、以及对应的长度的差异,构建所述时序位置预测损失函数。

本发明实施例还提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的视频定位方法。

本发明实施例还提供一种存储介质,存储有可执行指令,所述可执行指令被执行时,用于实现本发明实施例提供的视频定位方法。

应用本发明上述实施例具有以下有益效果:

应用本发明实施例提供的视频定位方法,通过将基于语义的调制机制与分层的时序卷积神经网络相结合的方式,使得根据整个语句进行视频定位的方式能够联合优化,高效执行;基于语句信息和多层时序卷积特征图信息,对各层特征图进行语义调制,使得与语句的语义相关的目标视频片段在时序上的关联和聚合更为紧密,增强目标视频片段的时序位置预测的准确性。如此,本发明实施例能够根据给定的语句,快速和高精度地定位与语句的语义相关的目标视频片段,从而提升用户观看视频的效率和浏览体验。

附图说明

图1为本发明实施例提供的视频定位系统10的一个可选的应用场景示意图;

图2a为本发明实施例提供的电子设备的一个可选的结构示意图;

图2b为本发明实施例提供的视频定位装置30的一个可选的结构示意图;

图3为本发明实施例提供的视频定位方法的一个可选的实现流程示意图;

图4为本发明实施例提供的基础的时序卷积神经网络的一个可选的结构示意图;

图5为本发明实施例提供的视频时序位置预测的示意图;

图6为本发明实施例提供的视频定位方法的另一个可选的实现流程示意图;

图7为本发明实施例提供的视频定位方法的一个可选的原理结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且本发明实施例所记载的各技术方案之间,可以在不冲突的情况下相互结合。

除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。本发明中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前,先对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。

1)多模态,每一种信息的来源或者形式,都可以称为一种模态,例如,信息的媒介,包括语音、视频、文字等,每一种媒介形式都可称为一种模态,则两种或两种以上的媒介形式的总和,可称为多模态。

2)卷积神经网络(cnn,convolutionalneuralnetwork),是一种直接从图像底层的像素特征开始,逐层对图像进行特征提取的前馈神经网络,是编码器最常用的实现模型,负责将图像编码成向量。

3)时序卷积神经网络(scnn,sequentialconvolutionalneuralnetwork),是一种在cnn的基础上,对时序信号进行分类预测的网络模型。

4)三维卷积(c3d,convolutional3d)神经网络(即卷积核的维度为三维),是基于二维卷积(即卷积核的维度为二维)神经网络不能很好的捕获视频时序上的信息而提出的,是一种对时空特征进行学习的网络模型,以捕获视频时序上的特征信息。

5)glove模型,是一种用于获取词向量表示的无监督学习算法的模型,即可用于将语句中的词进行向量化表示,使得各个向量间尽可能多的蕴含语义和语法的信息输入。

视频定位技术具有十分广泛的应用场景,例如,可以应用于在线视频的业务场景中,帮助观众在视频中定位感兴趣的内容,能够满足用户对视频观看的个性化需求,为实际应用中各类视频网站和应用的视频定位需求提供了强有力的技术支持;再例如,可以应用在视频后期加工制作的场景中,帮助视频编辑人员找到需要编辑的视频片段,不再依赖于人工快进或后退的传统方式,显著提升视频编辑的效率。

下面分析相关技术提供的关于视频定位的方案。

在相关技术的一些方案中,采用基于多模态匹配的句子定位方法,首先,利用滑动窗口的方式多次遍历视频内容,以获取多种长度的候选的视频片段;然后,将句子信息与每一个候选的视频片段进行多模态融合匹配,获得匹配得分;最后,将匹配得分最高的视频片段确定为时序定位结果,即将匹配得分最高的视频片段确定为目标视频片段。可见,上述这种视频定位的方式由于需利用滑动窗口的方式多次遍历视频内容,才可以获取到不同长度的候选的视频片段,因此,该方式的时间复杂度高、计算代价大,导致定位效率降低;且由于该视频定位的方式是先获取候选的视频片段,再进行多模态匹配,导致定位方式不能联合优化,进而影响定位精度。

在相关技术的另一些方案中,采用基于端到端时序聚合的句子定位方法,首先,将视频平均切分成若干个视频片段单元;然后,将句子信息与每一个视频片段单元进行融合得到融合特征,在融合特征的基础上,通过长短时神经网络或者卷积神经网络,将视频片段单元在时序上逐渐聚合,获得对应于不同视频内容的聚合特征,并基于这些聚合特征预测目标视频片段。可见,上述这种视频定位的方式虽然能够实现联合优化,但只考虑了句子与视频内容的匹配关系,忽略了句子信息对聚合和关联视频内容的重要指导作用,进而也会影响视频定位的准确性。

可见,对于如何快速和高精度地定位与输入的语句的语义相关的目标视频片段,相关技术缺乏有效解决方案。

为至少解决相关技术的上述技术问题,本发明实施例提供的视频定位方法、装置及电子设备,能够根据给定的语句,快速和高精度地定位与语句的语义相关的目标视频片段,从而提升用户观看视频的效率和浏览体验。

下面将参考附图对本发明实施例的视频定位系统的示例性应用进行说明。图1为本发明实施例提供的视频定位系统10的一个可选的应用场景示意图,参见图1,本发明实施例提供的电子设备100(图1中示例性示出了电子设备100-1和电子设备100-2)可以是智能手机、平板电脑、笔记本电脑、便携式多媒体播放器、车载终端(例如车载导航终端)等各种类型的移动终端,也可以是数字电视机、台式计算机等各种类型的固定终端(与上述的移动终端统称为终端设备,且该终端设备具有能够播放视频的功能),终端设备可以根据用户输入的语句预测与语句的语义相关的目标视频片段。在实际应用时,终端设备还可以根据用户需求,对自身预测到的目标视频片段进行播放。

当然,图1仅仅是示例性地,本发明实施例提供的电子设备也可以是通过各种无线通信方式,或者有线通信方式与终端设备连接,对视频定位进行控制的控制设备,例如可以是服务器300。以视频为在线播放的视频,且电子设备为服务器为例,服务器300在获取到视频以及语句(用户通过终端设备输入语句,由终端设备将语句发送给服务器)之后,基于对获取到的语句和视频的分析处理,得到与语句的语义相关的目标视频片段,并将预测到的目标视频片段发送给终端设备进行播放。其中,服务器与终端设备通过网络200连接,网络200可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。

在一些实施例中,电子设备100(例如服务器),用于在获取到视频以及用户输入的语句之后,先分别对视频和语句进行特征提取,得到对应的视频片段特征和词特征,然后,将视频片段特征和词特征进行融合,得到融合特征;接下来,通过时序卷积神经网络将融合特征基于时序逐层聚合和关联,得到多层时序卷积特征图,以及对多层时序卷积特征图中每层特征图进行语义调制,得到调制后的特征图;最后,对调制后的特征图进行时序卷积操作,以预测得到与语句的语义相关的目标视频片段。当然,服务器还可将预测得到的目标视频片段发送给终端设备,以通过终端设备中的图形界面110(图1中示例性示出了图形界面110-1和图形界面110-2)对预测到的目标视频片段进行显示和播放。

现在将参考附图描述实现本发明实施例的电子设备,图2a为本发明实施例提供的电子设备的一个可选的结构示意图,可以理解,图2a仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2a示出的部分结构或全部结构,不应对本发明实施例的功能和使用范围带来任何限制。

参见图2a,本发明实施例提供的电子设备20包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2a中将各种总线都标为总线系统205。

其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括:用于在电子设备20上操作的任何可执行指令,如计算机程序,包括可执行程序和操作系统,实现本发明实施例的视频定位方法的程序可以包含在可执行指令中。

处理器201可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,本发明实施例提供的视频定位方法的各步骤可以通过处理器201中的硬件的集成逻辑电路完成。上述的集成逻辑电路可以是通用处理器、数字信号处理器(dsp,digitalsignalprocessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器201可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。

本发明实施例提供的视频定位方法的各步骤可以通过软件模块完成,软件模块可以位于存储介质中,存储介质位于存储器202中,处理器201执行存储器202中的软件模块,结合其硬件完成本发明实施例提供的视频定位方法的步骤。

例如,作为软件模块的示例,存储器202中可以包括本发明实施例提供的视频定位装置30,其包括一系列的软件模块,例如获取单元31、特征提取单元32、特征融合单元33、聚合关联单元34、语义调制单元35和时序卷积单元36,参见图2b所示的本发明实施例提供的视频定位装置30的一个可选的结构示意图,将在下文说明上述各个单元的功能。

至此,已经按照其功能描述了本发明实施例提供的电子设备的结构,以及视频定位系统的示例性应用场景。接下来对本发明实施例提供的视频定位方法的实现进行说明。

参见图3,图3为本发明实施例提供的视频定位方法的一个可选的实现流程示意图,本发明实施例中的视频定位方法可以应用于智能手机、平板电脑、数字电视机、台式计算机等各种类型的终端设备中,即终端设备可以通过执行本发明实施例的视频定位方法来预测与语句的语义相关的目标视频片段;本发明实施例中的视频定位方法也可以应用于服务器,由服务器进行视频定位,以得到与语句的语义相关的目标视频片段,此时的终端设备处于受控模式,即接收服务器发送的目标视频片段并进行播放。下面以由服务器执行本发明实施例的视频定位方法为例说明图3示出的步骤。

步骤301:获取视频以及语句。

这里,对于服务器获取的视频来说,可以是云端数据库中的视频,也可以是来自于终端设备的视频,比如终端设备中在线播放的视频,即由终端设备将在线播放的视频上传至服务器,本发明实施例在此对视频的来源不做限定。其中,服务器获取的视频通常可由一个或多个视频片段组合而成,当获取的视频是由多个视频片段组合而成时,这多个视频片段的长度可以相同,也可以不同。

对于服务器获取的语句来说,可以先由用户通过终端设备的客户端输入语句,然后再由终端设备将所输入的语句上传至服务器。其中,服务器获取的语句通常可由一个词或者句法上有关联的一组词而构成。

步骤302:分别对所述视频和所述语句进行特征提取,得到对应的视频片段特征和词特征。

在本发明实施例中,可采用基于深度神经网络的方法对视频和语句进行特征提取,具体地,可将c3d神经网络作为视频编码器,对视频进行特征提取,以得到视频中对应的各个视频片段特征,由于c3d神经网络可实现对时空特征的学习,因此,利用c3d神经网络进行特征提取得到的视频片段特征,为视频时序上的视频片段特征;可将glove模型作为语句编码器,对服务器获取的语句进行特征提取,以得到语句中对应的各个词特征。

需要指出的是,在实际应用中,服务器提取出的各个视频片段特征,以及语句中的各个词特征通常可以以特征向量的形式进行表示。

步骤303:将所述视频片段特征和所述词特征进行融合,得到融合特征。

在一些实施例中,服务器可通过如下方式将视频片段特征和词特征进行融合,得到融合特征:将词特征进行特征整合得到语句特征,语句特征中包括语句的上下文信息;将语句特征中对应语句中各个词的词特征进行平均化处理,得到语句中各个词的平均特征;将各个视频片段特征分别与语句中各个词的平均特征进行融合,得到融合特征。

在一些实施例中,就服务器将各个视频片段特征分别与语句中各个词的平均特征进行融合,得到融合特征来说,可以采用以下方式实现:通过激活函数,分别将语句中各个词的平均特征与各个视频片段特征进行拼接,得到对应的子特征;然后,将得到的所有子特征进行融合,形成对应视频和语句的融合特征。

具体来说,对于将词特征进行特征整合得到语句特征而言,实际上是将语句的上下文信息整合到词特征中,以得到包含词特征和语句的上下文信息的语句特征。示例性地,可以利用双向门控循环神经网络(bi-gru,bidirectionalgatedrecurrentunit)对提取到的词特征进行特征整合,得到包括语句的上下文信息的语句特征。服务器可将每个视频片段特征,以及语句中各个词的平均特征输入至一个全连接网络中,利用全连接操作将每个视频片段特征分别与语句中各个词的平均特征进行连接(即拼接),得到对应视频和语句的多模态的融合特征。

下面以获取的视频包含t个视频片段,获取的语句包含n个词语为例,对上述的特征融合过程进行说明。

假设对获取到的视频和语句进行特征提取后,得到的视频片段特征和词特征均以特征向量的形式进行表示,即获得视频片段特征序列和词特征序列,例如,通过特征提取操作得到的视频片段特征序列为v=[v1,…,vt],词特征序列为w=[w1,…,wn],在此基础上,将语句的上下文信息整合到词特征序列w中,得到包括语句的上下文信息的语句特征,也即得到语句特征序列s=[s1,…,sn],然后,对语句特征序列s中对应语句的各个词的词特征s1,…,sn进行平均化处理,得到语句中各个词的平均特征示例性地,可通过如下公式计算语句中各个词的平均特征:在得到语句中各个词的平均特征之后,将与视频片段特征序列v中的每个视频片段特征vt输入至一个全连接网络中,利用全连接操作将与vt进行拼接,得到对应的子特征ft,最后,将得到的所有子特征进行融合,形成对应视频和语句的多模态的融合特征f。

示例性地,可通过如下公式(1)计算基于与vt的拼接得到的子特征ft:

其中,ft表示多模态的融合特征中的任意子特征;relu表示非线性激活函数(rectifiedlinearunit),也可称为线性整流函数;wf和bf分别表示全连接网络的模型在训练过程中学习的参数;||表示将与vt进行拼接,对于上述公式(1)中未尽的参数含义,可以参考上文而理解。

在本发明实施例中,将所有的子特征如f1,…,ft进行融合,形成多模态的融合特征f:其中,f1表示基于与v1的拼接得到的子特征;ft表示基于与vt的拼接得到的子特征。

步骤304:通过时序卷积神经网络将所述融合特征基于时序逐层聚合和关联,得到多层时序卷积特征图。

步骤305:对所述多层时序卷积特征图中每层特征图进行语义调制,得到调制后的特征图。

在本发明实施例中的时序卷积神经网络具有多层结构,将上述得到的多模态的融合特征输入至多层的时序卷积神经网络中,可以使得多模态的融合特征基于时序逐层聚合和关联,得到对应于视频中不同尺度的视频片段的多层时序卷积特征图。

在本发明实施例中,结合上述步骤304和步骤305,通过将基于语义的调制机制与基础的分层的时序卷积神经网络相结合的方式,可以得到两者耦合而成的基于语义调制的时序卷积神经网络。下面对基础的分层的时序卷积神经网络进行说明。

参见图4,图4为本发明实施例提供的基础的时序卷积神经网络的一个可选的结构示意图,作为示例,本发明实施例中的基础的时序卷积神经网络可以包括输入层、若干个中间层(也可称为卷积层,这里仅示例出了3个卷积层,例如卷积层1至卷积层3)以及输出层,其中,输入层用于接收上述得到的多模态的融合特征f=[f1,…,ft],卷积层主要用于对多模态的融合特征f=[f1,…,ft]进行卷积操作,假设定义基础的时序卷积操作为conv(θk,θs,dh),其中,θk为卷积核大小,θs为步幅大小,dh为滤波器数量,也即隐层维度,同时,本发明实施例中统一使用relu作为时序卷积的激活函数,则多模态的融合特征将通过每个卷积层进行基础卷积操作,即每一次基础卷积操作将使得输入的多模态的融合特征f=[f1,…,ft]的时间维度减半,同时相对于输入的多模态的融合特征而言,输出的特征图的感受野将增大一倍。这样,通过叠加多层基础时序卷积操作,可以得到多层时序卷积特征图,并通过输出层进行输出。其中,多层时序卷积特征图中每层特征图所包含的特征单元,分别与视频中不同尺度的视频片段相对应。

这里,为了后续表达的简洁,定义多层时序卷积特征图中的第k层特征图为其中,tk=tk-1/2用于表示第k层特征图的时间维度,用于表示第k层特征图中的第i个特征单元。需要说明的是,由于多层时序卷积特征图中覆盖了视频中不同位置不同尺度的视频片段,因此,本发明实施例可以满足语句所描述的视频片段的位置和长度多样化的需求。

为了使得与语句的语义相关的目标视频片段,能够在时序卷积的过程中更为紧密的结合在一起,本发明实施例提出了基于语义的调制机制,也即在本发明实施例中,服务器通过基于语义的调制机制,对多层时序卷积特征图中每层特征图所包含的特征单元进行语义调制,以得到调制后的特征图。下面对通过基于语义的调制机制得到调制后的特征图的过程进行详细说明。

在一些实施例中,服务器可通过如下方式对多层时序卷积特征图中每层特征图进行语义调制,得到调制后的特征图:基于多层时序卷积特征图中每层特征图所包含的特征单元以及语句,生成调制参数;基于调制参数,对多层时序卷积特征图中每层特征图所包含的特征单元进行归一化调制,得到更新后的特征单元;基于更新后的特征单元,形成调制后的特征图。

在一些实施例中,就基于多层时序卷积特征图中每层特征图所包含的特征单元以及语句,生成调制参数来说,具体可以采用以下方式实现:基于多层时序卷积特征图中每层特征图所包含的特征单元,为各个词特征分配对应的注意力权重;基于注意力权重,对各个词特征进行加权求和处理,得到对应的注意力加权语句特征;将注意力加权语句特征输入至时序卷积神经网络中的两个全连接网络,通过两个全连接网络分别对注意力加权语句特征进行连接处理,得到两个全连接网络各自输出的调制参数。

需要指出的是,对于将注意力加权语句特征输入至两个全连接网络中而言,可以是同时输入,也可以是两次的输入具有一定的时间差,即非同时输入。

下面对生成调制参数的过程进行说明。假设对获取到的语句进行特征提取得到的词特征序列为w=[w1,…,wn],在此基础上,将语句的上下文信息整合到词特征序列w中,得到语句特征序列s=[s1,…,sn],以语句特征序列s=[s1,…,sn]和一个通过时序卷积操作得到的多层时序卷积特征图a={ai}(为了方便描述,此处省略了多层时序卷积特征图的层数k)为例进行说明。

具体来说,针对上述给出的多层时序卷积特征图a={ai}中的每一个特征单元ai,可通过如下公式(2)计算为语句特征序列s中的每个词特征分配的注意力权重:

其中,用于表示为每个词特征分配的注意力权重;sn用于表示语句特征序列s中的第n个词特征;wt,ws,wa和b均为时序卷积神经网络的模型在训练过程中学习的参数;tanh为双曲正弦激活函数,softmax为归一化指数函数,对于上述公式(2)中未尽的参数含义,可以参考上文而理解。

在获得为语句特征序列s中的各个词特征分配对应的注意力权重之后,可通过如下公式(3)计算对应的注意力加权语句特征:

其中,ci用于表示注意力加权语句特征,对于上述公式(3)中未尽的参数含义,可以参考上文而理解。

之后,将得到的注意力加权语句特征ci同时输入至时序卷积神经网络中的两个全连接网络中,可通过如下公式(4)和(5)计算各个全连接网络分别输出的调制参数:

其中,用于表示其中的一个全连接网络输出的调制参数;用于表示另一个全连接网络输出的调制参数;wγβγβ均为对应的全连接网络的模型在训练过程中学习的参数。对于上述公式(4)和(5)中未尽的参数含义,可以参考上文而理解。

在本发明实施例中,在获得调制参数之后,基于调制参数对多层时序卷积特征图中每层特征图所包含的特征单元,例如对前述的该层特征图中的特征单元ai进行归一化调制,即将ai进行更新,以更新为新的特征单元基于更新后的特征单元可形成调制后的特征图。

示例性地,可通过如下公式(6)计算更新后的特征单元

其中,μ(a)用于表示该层特征图中包含的特征单元的均值;σ(a)用于表示该层特征图中包含的特征单元的标准差;对于上述公式(6)中未尽的参数含义,可以参考上文而理解。

需要说明的是,本发明实施例在基于生成的调制参数,对多层时序卷积特征图中每层特征图所包含的特征单元进行归一化调制的进程中,各特征单元能够在语句语义信息的指导下在特征空间内进行放缩和移动,使得特征单元对应的视频片段与语句的语义的关联性更强。

步骤306:对所述调制后的特征图进行时序卷积操作,得到与所述语句的语义相关的目标视频片段。

在一些实施例中,服务器可通过如下方式对调制后的特征图进行时序卷积操作,得到与语句的语义相关的目标视频片段:对调制后的特征图中的每层特征图进行时序卷积操作,得到候选的视频片段、以及对应候选的视频片段与目标视频片段的时间重叠分数;基于时间重叠分数的降序排序,将排序在前的设定数量的候选的视频片段确定为目标视频片段。

本发明实施例中候选的视频片段可为不同尺度的视频片段,针对调制后的特征图中的每层特征图所包含的特征单元,分别配置对应的时间缩放比率r,r∈r={0.25,0.5,0.75,1.0},基于时间缩放比率,对调制后的特征图中的每层特征图进行时序卷积操作,得到候选的视频片段。

参见图5,图5为本发明实施例提供的视频时序位置预测的示意图,对于时间维度为tk的调制后的特征图,假设将获取到的整个视频长度视作1,那么,调制后的特征图中的各个特征单元对应到视频片段中的长度为1/tk,基于配置的时间缩放比率,缩放因子r将长度为1/tk的视频片段进行缩放,以得到长度为r/tk的视频片段。特别地,对于时间维度为tk的调制后的特征图中的第i个特征单元而言,其将对应|r|个不同长度的视频片段,且这些视频片段的中心都位于(i+0.5)/tk,那么,对于整个调制后的特征图而言,整个调制后的特征图将包含tk×|r|个不同长度、不同位置的视频片段,且这些视频片段都是用于时序位置预测的候选的视频片段,可以以的形式表示,其中,k用于表示时序卷积神经网络的层数。

这里,每一个候选的视频片段都对应一组预测向量p=(pover,δc,δw),其中,pover用于表示对应候选的视频片段与目标视频片段的时间重叠分数,pover越大,则表明该候选的视频片段越接近目标视频片段;δc用于表示候选的视频片段与目标视频片段的中心偏移量;δw用于表示候选的视频片段与目标视频片段的长度偏移量。在实际应用中,对候选的视频片段与目标视频片段的时间重叠分数pover进行降序排序,得到排序结果;基于排序结果从预测到的所有候选的视频片段中进行筛选,即将排序在前的设定数量的候选的视频片段确定为目标视频片段。

下面继续说明获得的过程。假设某一候选的视频片段的中心位置为μc,长度为μw,该候选的视频片段所对应的预测向量为p=(pover,δc,δw),则可通过如下公式(7)计算由该候选的视频片段预测的目标视频片段的中心位置

可通过如下公式(8)计算由该候选的视频片段预测的目标视频片段的长度

其中,上述公式(7)中的αc,以及公式(8)中的αw用于表示使位置预测更为稳定的系数,通常可取值为0.1,对于上述公式(7)和(8)中未尽的参数含义,可以参考上文而理解。

因此,对于一个时间维度为tk的调制后的特征图而言,将对应一组预测的候选的视频片段收集时序卷积神经网络中的所有特征图的预测结果,则可以得到用于时序位置预测的所有的候选的视频片段

在一些实施例中,视频定位方法还可以包括:构建时间重叠损失函数和时序位置预测损失函数;基于时间重叠损失函数和时序位置预测损失函数,构建时序卷积神经网络的联合损失函数;基于联合损失函数更新时序卷积神经网络,以使联合损失函数收敛。

这里,就构建时间重叠损失函数来说,可以采用以下方式实现:确定候选的视频片段与真实的目标视频片段的时间重叠率;基于时间重叠率和时间重叠分数,构建时间重叠损失函数,所述时间重叠分数对应候选的视频片段与预测的目标视频片段。就构建时序位置预测损失函数来说,可以采用以下方式实现:确定真实的目标视频片段的中心位置和长度;基于预测的目标视频片段与真实的目标视频片段对应的中心位置的差异、以及对应的长度的差异,构建时序位置预测损失函数。

下面示例地对上述的联合损失函数的构建过程进行说明。

本发明实施例中的联合损失函数包括两部分,分别为时间重叠损失函数和时序位置预测损失函数;也就是说,本发明实施例中的联合损失函数,是将时间重叠损失函数和时序位置预测损失函数进行联合,以共同来优化实现本发明实施例的视频定位方法。

示例性地,可通过如下公式(9)来确定联合损失函数:

l=αlover+βlloc(9)

其中,l用于表示更新时序卷积神经网络的模型的联合损失函数;lover用于表示时间重叠损失函数;lloc用于表示时序位置预测损失函数;α和β分别用于表示平衡两项损失函数lover和lloc的系数,α通常可取值为100,β通常可取值为10。

下面继续对时间重叠损失函数和时序位置预测损失函数的确定进行说明。

示例性地,可通过如下公式(10)来确定时间重叠损失函数lover:

其中,用于表示候选的视频片段与真实的目标视频片段的时间重叠率,可根据以下公式(11)计算

大于0.5时,则表明该候选的视频片段为正例,反之为反例;用于表示候选的视频片段与预测的目标视频片段的时间重叠分数。

示例性地,可通过如下公式(12)来确定时序位置预测损失函数lloc:

其中,用于表示真实的目标视频片段的中心位置;用于表示真实的目标视频片段的长度,对于上述公式(12)中未尽的参数含义,其与上述公式中相同参数的含义相同,因此可以参考上文而理解。

采用本发明实施例提供的技术方案,能够有效的捕捉视频与语句之间的语义关联性,并通过将基于语义的调制机制与分层的时序卷积神经网络进行耦合,使得本发明实施例的视频定位方式能够联合优化,且基于语句信息和多层时序卷积特征图信息,对各层特征图进行语义调制,使得与语句的语义相关的目标视频片段在时序上的关联和聚合更为紧密,增强目标视频片段的时序位置预测的准确性,从而能够快速和高精度地定位与语句的语义相关的目标视频片段,进而提升用户观看视频的效率和浏览体验。另外,本发明实施例还可以与视频搜索技术相结合,能够根据给定的语句,提高视频搜索的效率。

接下来以视频为终端设备中在线播放的视频,以输入的语句为语句a为例,对本发明实施例提供的视频定位方法的实现进行说明。

参见图6,图6为本发明实施例提供的视频定位方法的另一个可选的实现流程示意图,本发明实施例中的视频定位方法可以应用于智能手机、平板电脑、数字电视机、台式计算机等各种类型的终端设备中,即终端设备可以通过执行本发明实施例的视频定位方法来预测与语句的语义相关的目标视频片段;本发明实施例中的视频定位方法也可以应用于服务器,由服务器进行视频定位,以得到与语句的语义相关的目标视频片段,此时的终端设备处于受控模式,即接收服务器发送的目标视频片段并进行播放。下面以由服务器执行本发明实施例的视频定位方法为例说明图6示出的步骤。对于下文各步骤的说明中未尽的细节,可以参考上文而理解。

步骤601:获取在线播放的视频以及语句a。

步骤602:分别对在线播放的视频以及语句a进行特征提取,得到对应的视频片段特征和词特征。

在本发明实施例中,可利用c3d神经网络对在线播放的视频进行特征提取,以得到在线播放的视频中的各个视频片段特征,这里的视频片段特征为时序上的视频片段特征;可利用glove模型对语句a进行特征提取,以得到语句a中对应的各个词特征。

步骤603:将视频片段特征和词特征进行融合,得到多模态的融合特征。

在本发明实施例中,可将语句a的上下文信息整合到词特征中,以得到语句特征,然后,将语句特征中对应语句a中各个词的词特征进行平均化处理,得到语句a中各个词的平均特征;最后,将各个视频片段特征分别与语句a中各个词的平均特征进行融合,得到多模态的融合特征。其中,可通过bi-gru对提取到的词特征进行特征整合,得到包括语句a的上下文信息的语句特征。

这里,对于服务器将各个视频片段特征分别与语句a中各个词的平均特征进行融合,得到多模态的融合特征来说,具体可以采用以下方式实现:将语句a中各个词的平均特征与各个视频片段特征输入至一个全连接网络中,利用全连接操作将语句中各个词的平均特征与各个视频片段特征进行拼接,得到对应的子特征;然后,将得到的所有子特征进行融合,形成对应视频和语句的多模态的融合特征。

步骤604:通过时序卷积神经网络将多模态的融合特征基于时序逐层聚合和关联,得到多层时序卷积特征图。

步骤605:基于多层时序卷积特征图中每层特征图所包含的特征单元、以及语句a,生成调制参数。

步骤606:基于调制参数,对多层时序卷积特征图中每层特征图所包含的特征单元进行归一化调制,得到更新后的特征单元,基于更新后的特征单元形成调制后的特征图。

在一些实施例中,就上述步骤605中基于多层时序卷积特征图中每层特征图所包含的特征单元、以及语句a,生成调制参数来说,可以采用以下方式实现:基于多层时序卷积特征图中每层特征图所包含的特征单元,为各个词特征分配对应的注意力权重;基于注意力权重,对各个词特征进行加权求和处理,得到对应的注意力加权语句特征;将注意力加权语句特征输入至时序卷积神经网络中的两个全连接网络,通过两个全连接网络分别对注意力加权语句特征进行连接处理,得到两个全连接网络各自输出的调制参数。

步骤607:对调制后的特征图中的每层特征图进行时序卷积操作,得到候选的视频片段、以及对应候选的视频片段与目标视频片段的时间重叠分数。

步骤608:基于时间重叠分数的降序排序,将排序在前的设定数量的候选的视频片段确定为目标视频片段,目标视频片段为与语句a的语义相关的视频片段。

在一些实施例中,视频定位方法还可以包括:构建时间重叠损失函数和时序位置预测损失函数;基于时间重叠损失函数和时序位置预测损失函数,构建时序卷积神经网络的联合损失函数;基于联合损失函数更新时序卷积神经网络,以使联合损失函数收敛。

在本发明实施例中,就构建时间重叠损失函数来说,可以采用以下方式实现:确定候选的视频片段与真实的目标视频片段的时间重叠率;基于时间重叠率和时间重叠分数,构建时间重叠损失函数,所述时间重叠分数对应候选的视频片段与预测的目标视频片段。就构建时序位置预测损失函数来说,可以采用以下方式实现:确定真实的目标视频片段的中心位置和长度;基于预测的目标视频片段与真实的目标视频片段对应的中心位置的差异、以及对应的长度的差异,构建时序位置预测损失函数。

参见图7,图7为本发明实施例提供的视频定位方法的一个可选的原理结构示意图,假设给定一个包含t个视频片段的视频,以及一个包含n个词语的语句,利用c3d神经网络对获取到的视频进行特征提取,得到对应的视频片段特征序列v=[v1,…,vt],利用glove模型对语句进行特征提取,得到对应的词特征序列w=[w1,…,wn];通过双向gru即bi-gru,将语句的上下文信息整合到词特征序列w中,以得到语句特征序列s=[s1,…,sn],进而对s中对应语句的各个词的词特征s1,…,sn进行平均化处理,得到语句中各个词的平均特征将语句中各个词的平均特征与视频片段特征序列v中的每个视频片段特征进行全连接,得到多模态的融合特征f。然后,将多模态的融合特征f通过基于语义调制的时序卷积神经网络,得到调制后的特征图,具体地,先将多模态的融合特征f基于时序逐层聚合和关联,得到多层时序卷积特征图,再基于语义的调制机制,对多层时序卷积特征图中的每层特征图进行语义调制,得到调制后的特征图,该调制后的特征图是由更新后的特征单元而形成的,即对多层时序卷积特征图中的特征单元ai进行归一化调制,以更新为特征单元最后,对调制后的特征图进行时序卷积操作,以预测到与给定的语句的语义相关的目标视频片段。其中,对于基于语义的调制机制,对多层时序卷积特征图中的每层特征图进行语义调制的具体实现可以参考上文而理解。

采用本发明实施例提供的技术方案,能够有效的捕捉视频与语句之间的语义关联性,并通过将基于语义的调制机制与分层的时序卷积神经网络进行耦合,使得本发明实施例的视频定位方式能够联合优化,且基于语句信息和多层时序卷积特征图信息,对各层特征图进行语义调制,使得与语句的语义相关的目标视频片段在时序上的关联和聚合更为紧密,增强目标视频片段的时序位置预测的准确性,从而能够快速和高精度地定位与语句的语义相关的目标视频片段,进而提升用户观看视频的效率和浏览体验。另外,本发明实施例还可以与视频搜索技术相结合,能够根据给定的语句,加速视频搜索的效率。

接下来对本发明实施例提供的视频定位装置30的软件实现进行说明。以上述电子设备20中的存储器202所包括的软件模块为例说明,对于下文关于模块的功能说明中未尽的细节,可以参考上文而理解。

获取单元31,用于获取视频以及语句;特征提取单元32,用于分别对所述视频和所述语句进行特征提取,得到对应的视频片段特征和词特征;特征融合单元33,用于将所述视频片段特征和所述词特征进行融合,得到融合特征;聚合关联单元34,用于通过时序卷积神经网络将所述融合特征基于时序逐层聚合和关联,得到多层时序卷积特征图;语义调制单元35,用于对所述多层时序卷积特征图中每层特征图进行语义调制,得到调制后的特征图;时序卷积单元36,用于对所述调制后的特征图进行时序卷积操作,得到与所述语句的语义相关的目标视频片段。

在一些实施例中,就特征融合单元将所述视频片段特征和所述词特征进行融合,得到融合特征来说,可以采用以下方式实现:将所述词特征进行特征整合得到语句特征,所述语句特征中包括所述语句的上下文信息;将所述语句特征中对应所述语句中各个词的词特征进行平均化处理,得到所述语句中各个词的平均特征;将各个所述视频片段特征分别与所述语句中各个词的平均特征进行融合,得到融合特征。

在一些实施例中,就特征融合单元将各个所述视频片段特征分别与所述语句中各个词的平均特征进行融合,得到融合特征来说,可以采用以下方式实现:通过激活函数,分别将所述语句中各个词的平均特征与各个所述视频片段特征进行拼接,得到对应的子特征;将得到的所有子特征进行融合,形成对应所述视频和语句的融合特征。

在一些实施例中,语义调制单元,包括:

生成单元,用于基于所述多层时序卷积特征图中每层特征图所包含的特征单元、以及所述语句,生成调制参数;

归一化调制单元,用于基于所述调制参数,对所述多层时序卷积特征图中每层特征图所包含的特征单元进行归一化调制,得到更新后的特征单元;

所述生成单元,还用于基于所述更新后的特征单元,形成调制后的特征图。

在一些实施例中,就生成单元基于所述多层时序卷积特征图中每层特征图所包含的特征单元、以及所述语句,生成调制参数来说,可以采用以下方式实现:基于所述多层时序卷积特征图中每层特征图所包含的特征单元,为各个所述词特征分配对应的注意力权重;基于所述注意力权重,对各个所述词特征进行加权求和处理,得到对应的注意力加权语句特征;将所述注意力加权语句特征输入至所述时序卷积神经网络中的两个全连接网络,通过所述两个全连接网络分别对所述注意力加权语句特征进行连接处理,得到所述两个全连接网络各自输出的调制参数。

在一些实施例中,就时序卷积单元对所述调制后的特征图进行时序卷积操作,得到与所述语句的语义相关的目标视频片段来说,可以采用以下方式实现:对所述调制后的特征图中的每层特征图进行时序卷积操作,得到候选的视频片段、以及对应所述候选的视频片段与所述目标视频片段的时间重叠分数;基于所述时间重叠分数的降序排序,将排序在前的设定数量的候选的视频片段确定为所述目标视频片段。

在一些实施例中,视频定位装置还包括:

损失函数构建单元,用于构建时间重叠损失函数和时序位置预测损失函数;基于所述时间重叠损失函数和所述时序位置预测损失函数,构建所述时序卷积神经网络的联合损失函数;

训练单元,用于基于所述联合损失函数更新所述时序卷积神经网络,以使所述联合损失函数收敛。

在一些实施例中,就损失函数构建单元构建时间重叠损失函数来说,可以采用以下方式实现:确定候选的视频片段与真实的目标视频片段的时间重叠率;基于所述时间重叠率和时间重叠分数,构建所述时间重叠损失函数,所述时间重叠分数对应所述候选的视频片段与预测的所述目标视频片段。

在一些实施例中,就损失函数构建单元构建时序位置预测损失函数来说,可以采用以下方式实现:确定所述真实的目标视频片段的中心位置和长度;基于预测的所述目标视频片段与所述真实的目标视频片段对应的中心位置的差异、以及对应的长度的差异,构建所述时序位置预测损失函数。

本发明实施例还提供了一种存储介质,存储有可执行指令,所述可执行指令被执行时,用于实现本发明实施例提供的上述视频定位方法。其中,存储介质具体可为计算机可读存储介质,例如可以是磁性随机存取存储器(fram,ferromagneticrandomaccessmemory)、只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory)、可擦除可编程只读存储器(eprom,erasableprogrammableread-onlymemory)、电可擦除可编程只读存储器(eeprom,electricallyerasableprogrammableread-onlymemory)、快闪存储器(flashmemory)、磁表面存储器、光盘或只读光盘(cd-rom,compactdiscread-onlymemory)等存储器。

综上所述,本发明实施例的技术方案具有以下有益效果:

1、通过将基于语义的调制机制与分层的时序卷积神经网络相结合的方式,使得根据整个语句进行视频定位的方式能够联合优化,高效执行;

2、基于语句信息和多层时序卷积特征图信息,对各层特征图进行语义调制,使得与语句的语义相关的目标视频片段在时序上的关联和聚合更为紧密,增强目标视频片段的时序位置预测的准确性;

3、根据给定的语句,能够快速和高精度地定位与语句的语义相关的目标视频片段,从而提升用户观看视频的效率和浏览体验,还可以与视频搜索技术相结合,根据给定的语句能够提高视频搜索的效率。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1