基于注意力回归的视频时序句子定位方法及装置与流程

文档序号：15636936发布日期：2018-10-12 21:35阅读：267来源：国知局

本发明涉及计算机视觉技术领域，特别涉及一种基于注意力回归的视频时序句子定位方法及装置。

背景技术：

现有技术中，视频时序句子定位方法主要为：构建视频与句子之间的统一表征空间，在视频中进行扫描产生若干待选定位视频段，将句子与待选定位视频段投影到统一表征空间进行比较并定位；在视频中进行扫描产生若干待选定位视频段，将待选定位视频段的视觉特征与句子的文本特征融合产生多模态特征。在多模态特征的基础上进行时序回归，产生待选定位视频段与预测定位视频段之间的时间偏差值，并将待选定位视频段移动到预测位置。

现有技术中采用的方法具有如下缺陷：在视频中进行扫描产生待选定位视频段这一做法计算成本较高，无法适应长视频的处理，因而以上视频时序句子定位方法的可扩展性不强；将待选定位视频段从全局视频中分离出来独立处理，阻隔了特定视频内容与视频上下文信息的交互，而视频上下文信息对句子的定位至关重要。因此，以上视频时序句子定位方法的准确率不高；以上方法都直接采用一般的长短时记忆网络提取句子特征，忽略了句子中对于时序定位的关键信息，因此它们对句子信息的挖掘还不够充分。

技术实现要素：

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种提升句子定位速度、定位准确性和定位鲁棒性的目的基于注意力回归的视频时序句子定位方法。

本发明的另一个目的在于提出一种基于注意力回归的视频时序句子定位装置。

为达到上述目的，本发明一方面实施例提出了一种基于注意力回归的视频时序句子定位方法，包括以下步骤：根据三维卷积神经网络和glove词向量机制，并在此基础上利用双向长短时记忆网络对视频片段和句子进行编码，以表征视频片段内容和句子内容；根据视频片段内容和句子内容通过多模态注意力机制建立视频与句子之间的对称关联，以获取视频和句子的注意力权值向量与注意力加权特征；根据视频和句子的注意力权值向量或注意力加权特征，通过基于注意力权重的回归机制或基于注意力加权特征的回归机制输出得到视频时序句子的定位结果。

本发明实施例的基于注意力回归的视频时序句子定位方法，通过表征视频片段内容和句子内容保持二者的上下文信息，并结合多模态注意力机制建立视频与句子之间的联系，进一步根据获取的视频和句子的注意力权值向量与注意力加权特征，回归出视频时序句子的定位结果，以达到提升句子定位速度、定位准确性和定位鲁棒性的目的。

另外，根据本发明上述实施例的基于注意力回归的视频时序句子定位方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据三维卷积神经网络和glove词向量机制，并在此基础上利用双向长短时记忆网络对视频片段和句子进行编码，以表征视频片段内容和句子内容，进一步包括：表征所述视频片段内容的和融合全局视频句子的上下文信息，并采用glove词向量和双向长短时记忆网络根据句子的上下文信息表征句子的每个单词。

进一步地，在本发明的一个实施例中，所述多模态注意力机制包括：根据句子特征指导生成所述视频注意力权值向量与所述注意力加权视频特征，以获取与句子语义关联紧密的关键视频内容；根据所述视频片段内容指导生成句子注意力权值向量与注意力加权句子特征，以获取句子中关于时序定位的关键线索。

进一步地，在本发明的一个实施例中，所述根据所述视频和句子的注意力权值向量或注意力加权特征，通过基于注意力权重的回归机制或基于注意力加权特征的回归机制输出得到视频时序句子的定位结果，进一步包括：基于所述注意力权重的回归以所述视频注意力权值向量作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置；基于所述注意力加权特征的回归则先融合所述注意力加权视频特征和所述注意力加权句子特征，获得多模态注意力加权特征，再以多模态注意力加权特征作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置。

进一步地，在本发明的一个实施例中，所述的基于注意力回归的视频时序句子定位方法还包括：根据注意力回归损失函数和注意力校准损失函数通过反向传播算法迭代地训练模型参数，以得到所述基于注意力回归的视频时序句子定位方法的模型。

为达到上述目的，本发明另一方面实施例提出了一种基于注意力回归的视频时序句子定位装置，包括：表征模块，用于根据三维卷积神经网络和glove词向量机制，进一步通过双向长短时记忆网络对视频片段和句子内容进行编码，以表征视频片段和句子内容；获取模块，用于根据所述视频片段内容和句子内容通过多模态注意力机制建立视频与句子之间的对称关联，以获取视频和句子的注意力权值向量与注意力加权特征；定位模块，用于根据所述视频和句子的注意力权值向量或注意力加权特征，通过基于注意力权重的回归机制或基于注意力加权特征的回归机制输出得到视频时序句子的定位结果。

本发明实施例的基于注意力回归的视频时序句子定位装置，通过表征视频片段内容和句子内容保持二者的上下文信息，并结合多模态注意力机制建立视频与句子之间的联系，进一步根据获取的视频和句子的注意力权值向量与注意力加权特征，回归出视频时序句子的定位结果，以达到提升句子定位速度、定位准确性和定位鲁棒性的目的。

另外，根据本发明上述实施例的基于注意力回归的视频时序句子定位装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述表征模块还用于：表征所述视频片段内容的和融合全局视频句子的上下文信息，并采用glove词向量和双向长短时记忆网络根据句子的上下文信息表征句子的每个单词。

进一步地，在本发明的一个实施例中，所述获取模块还用于：根据句子特征指导生成所述视频注意力权值向量与所述注意力加权视频特征，以获取与句子语义关联紧密的关键视频内容；根据所述视频片段内容生成句子注意力权值向量与注意力加权句子特征，以获取句子中关于时序定位的关键线索。

进一步地，在本发明的一个实施例中，所述定位模块还用于：基于所述注意力权重的回归以所述视频注意力权值向量作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置；基于所述注意力加权特征的回归则先融合所述注意力加权视频特征和所述注意力加权句子特征，获得多模态注意力加权特征，再以多模态注意力加权特征作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置。

进一步地，在本发明的一个实施例中，所述的基于注意力回归的视频时序句子定位装置还包括训练模块，用于：根据注意力回归损失函数和注意力校准损失函数通过反向传播算法迭代地训练模型参数，以得到所述基于注意力回归的视频时序句子定位方法的模型。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于注意力回归的视频时序句子定位方法的流程图；

图2为根据本发明一个实施例的基于注意力回归的视频时序句子定位装置的模型结构示意图；和

图3为根据本发明实施例的基于注意力回归的视频时序句子定位装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于注意力回归的视频时序句子定位方法及装置，首先将参照附图描述根据本发明实施例提出的基于注意力回归的视频时序句子定位方法。

图1为根据本发明实施例的基于注意力回归的视频时序句子定位方法的流程图，如图1所示，该基于注意力回归的视频时序句子定位方法包括以下步骤：

在步骤s101中，根据三维卷积神经网络和glove词向量机制，并在此基础上利用双向长短时记忆网络对视频片段和句子进行编码，以表征视频片段内容和句子内容。

可以理解的是，在表征视频片段内容的同时，融合全局视频的上下文信息，并采用glove词向量和双向长短时记忆网络根据句子的上下文信息表征句子的每个单词，这样可以使获得的视频片段内容和句子内容更加全面且具有鲁棒性。

在步骤s102中，根据视频片段内容和句子内容通过多模态注意力机制建立视频与句子之间的对称关联，以获取视频和句子的注意力权值向量与注意力加权特征。

可以理解的是，多模态注意力机制包括：根据句子特征指导生成视频注意力权值向量与注意力加权视频特征，以获取与句子语义关联紧密的关键视频内容；根据视频片段内容生成句子注意力权值向量与注意力加权句子特征，以获取句子中关于时序定位的关键线索。

在步骤s103中，根据视频和句子的注意力权值向量或注意力加权特征，通过基于注意力权重的回归机制或基于注意力加权特征的回归机制输出得到视频时序句子的定位结果。

可以理解的是，位置回归网络包含两种回归策略，包括基于注意力权重的回归和基于注意力加权特征的回归。其中，基于注意力权重的回归以视频注意力权值向量作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置；基于注意力加权特征的回归则先融合注意力加权视频特征和注意力加权句子特征，获得多模态注意力加权特征，再以多模态注意力加权特征作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置。

如图2所示，在本发明的一个实施例中，基于注意力回归的视频时序句子定位方法的模型分为三个模块，包括：融合上下文信息的特征编码，多模态注意力机制以及基于注意力的位置回归网络，其训练步骤为：

将训练集表示为其中vi表示训练集中的第i个视频，视频的时长为τi，si为描述视频vi内容的一个句子，si所描述的内容在视频中的起始和终止时间坐标分别为和k为训练集样本个数；

将每个视频平均分为m个视频片段，每个句子也表征为单词的序列；将句子的起始和终止时间坐标按视频时长进行归一化，作为位置回归网络的预测目标，也即句子坐标的真实值：

本方案设计了两项损失函数来指导整体模型的学习过程：即注意力回归损失函数，和注意力校准损失函数；通过将视频和句子输入到基于注意力回归的视频时序句子定位模型中，输出句子坐标的预测值注意力回归损失函数定义为句子坐标的预测值与句子坐标的真实值之间的平滑l1距离r(t)(smoothl1distance)：注意力校准损失函数则限制位于句子的真实位置时间窗口内的视频片段，其注意力权重尽可能大：若视频vi的第j个视频片段在时间窗口内，则mi,j＝1，否则mi,＝0；

联合注意力回归损失函数和注意力校准损失函数共同指导模型的学习，通过经典的反向传播算法迭代地训练模型参数。

可以理解的是，基于注意力回归的视频时序句子定位方法的模型以一种端到端的框架联合优化训练，减少了冗余计算成本并提高了句子的定位准确率。基于本方案可以解决视频时序句子定位问题，更好的服务于各类网络视频应用，适用于基于句子的视频内容快速定位，视频检索，视频摘要等场景。

其次参照附图描述根据本发明实施例提出的基于注意力回归的视频时序句子定位装置。

图3为根据本发明实施例的基于注意力回归的视频时序句子定位装置的结构示意图，如图3所示，该基于注意力回归的视频时序句子定位装置10包括：表征模块100，用于根据三维卷积神经网络和glove词向量机制，进一步通过双向长短时记忆网络对视频片段和句子内容进行编码，以表征视频片段和句子内容；获取模块200，用于根据视频片段内容和句子内容通过多模态注意力机制建立视频与句子之间的对称关联，以获取视频和句子的注意力权值向量与注意力加权特征；定位模块300，用于根据视频和句子的注意力权值向量或注意力加权特征，通过基于注意力权重的回归机制或基于注意力加权特征的回归机制输出得到视频时序句子的定位结果。

进一步地，在本发明的一个实施例中，表征模块100还用于：表征视频片段内容的和融合全局视频句子的上下文信息，并采用glove词向量和双向长短时记忆网络根据句子的上下文信息表征句子的每个单词。

进一步地，在本发明的一个实施例中，获取模块200还用于：根据句子特征指导生成视频注意力权值向量与注意力加权视频特征，以获取与句子语义关联紧密的关键视频内容；根据视频片段内容生成句子注意力权值向量与注意力加权句子特征，以获取句子中关于时序定位的关键线索。

进一步地，在本发明的一个实施例中，定位模块300还用于：基于注意力权重的回归以视频注意力权值向量作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置；基于注意力加权特征的回归则先融合注意力加权视频特征和注意力加权句子特征，获得多模态注意力加权特征，再以多模态注意力加权特征作为输入，利用多层全连接操作回归句子所指示的视频内容在全局视频中的相对位置。

进一步地，在本发明的一个实施例中，该基于注意力回归的视频时序句子定位装置10还包括训练模块，用于：根据注意力回归损失函数和注意力校准损失函数通过反向传播算法迭代地训练模型参数，以得到基于注意力回归的视频时序句子定位方法的模型。

需要说明的是，前述对基于注意力回归的视频时序句子定位方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱文武;袁艺天
技术所有人：清华大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。