一种基于深度学习和文本总结的视频描述方法

文档序号：9524529阅读：582来源：国知局

一种基于深度学习和文本总结的视频描述方法
【技术领域】
[0001] 本发明设及视频描述领域，尤其设及一种基于深度学习和文本总结的视频描述方法。
【背景技术】
[0002] 使用自然语言对一个视频进行描述，无论是对该视频的理解还是在Web检索该视频都是极其重要的。同时，视频的语言描述也是多媒体和计算机视觉领域中重点研究的课题。所谓视频描述，是指对给定的视频，通过观察它所包含的内容，即获得视频特征，并根据运些内容，生成相应的句子。当人们看到一个视频时，特别是一些动作类别的视频，在观看完视频后会对该视频有一定程度的了解，并可W通过语言去讲述视频中所发生的事情。例如：使用"一个人正在骑摩托"运样的句子对视频进行描述。然而，面对大量的视频，采用人工的方式对视频进行逐一的描述需要大量的时间，人力和财力。使用计算机技术对视频特征进行分析，并与自然语言处理的方法进行结合，生成对视频的描述是非常有必要的。一方面，通过视频描述的方法，人们可W从语义的角度更加精确的去理解视频。另一方面，在视频检索领域，当用户输入一段文字性的描述来检索出相应的视频运件事情是非常困难的并且具有一定的挑战。
[0003] 在过去的几年中已经涌现出了各种各样的视频描述方法，比如：通过对视频特征进行分析，可W识别视频中存在的物体，W及物体之间所具有的动作关系。然后采用固定的语言模板：主语+动词+宾语，从所识别物体中确定主语、宾语W及将物体之间的动作关系作为谓语，采用运样的方式生成句子对视频的描述。
[0004] 但是运样的方法存在一定的局限性，例如：使用语言模板生成句子容易导致生成的句子句式相对固定，句式过于单一，缺乏人类自然语言表达的色彩。同时，识别视频中的物体和动作等均需要使用不同的特征，造成步骤相对繁琐，并需要大量的时间对视频特征进行训练。不仅如此，识别的准确率直接影响生成句子的好坏，运种分步式的方法需要在每个步骤保证较高的正确性，实现有一定的困难。

【发明内容】

[0005] 本发明提供了一种基于深度学习和文本总结的视频描述方法，本发明通过自然语言描述一段视频中正在发生的事件W及与事件相关的物体属性，从而达到对视频内容进行描述和总结的目的，详见下文描述：
[0006] -种基于深度学习和文本总结的视频描述方法，其特征在于，所述视频描述方法包括W下步骤：
[0007] 从互联网下载视频，并对每个视频进行描述，形成 < 视频，描述〉对，构成文本描述训练集；
[0008] 通过现有的图像数据集按照图像分类任务训练卷积神经网络模型；
[0009] 对视频提取视频帖序列，并利用卷积神经网络模型提取卷积神经网络特征，构成< 视频帖序列，文本描述序列〉对作为递归神经网络模型的输入，训练得到递归神经网络模型；
[0010] 通过训练得到的递归神经网络模型对待描述视频的视频帖序列进行描述，得到描述序列；
[0011] 通过基于图的词汇中屯、度作为文本总结的显著性的方法，对描述序列进行排序，输出视频的最终描述结果。
[0012] 所述从互联网下载视频，并对每个视频进行描述，形成 < 视频，描述〉对，构成文本描述训练集具体为：
[0013] 通过现有的视频集合、W及每个视频对应的句子描述组成 < 视频，描述〉对，构成文本描述训练集。
[0014] 所述对视频提取视频帖序列，并利用卷积神经网络模型提取卷积神经网络特征，构成 < 视频帖序列，文本描述序列〉对作为递归神经网络模型的输入，训练得到递归神经网络模型的步骤具体为：
[0015] 使用训练卷积神经网络模型后的参数，提取图像的卷积神经网络特征，W及图像对应的句子描述进行建模，获取目标函数；
[0016] 构造递归神经网络；对于非线性函数通过长短时间记忆网络进行建模；
[0017] 使用梯度下降的方式优化目标函数，并得到训练后的长短时间记忆网络参数。
[0018] 所述通过训练得到的递归神经网络模型对待描述视频的视频帖序列进行描述，得到描述序列的步骤具体为：
[0019] 利用训练好的模型参数并使用卷积神经网络模型提取每个图像的卷积神经网络特征，得到图像特征；
[0020] 将图像特征作为输入并利用训练得到的模型参数得到句子描述，从而得到视频对应的句子描述。
[0021] 本发明提供的技术方案的有益效果是：每一个视频由一个帖序列构成，使用卷积神经网络提取视频每一帖的底层特征，采用本方法能够有效避免传统的使用深度学习提取视频特征引入过多的噪点，降低后期生成句子的准确性。使用训练好的循环神经网络将每一帖图片转化成句子，从而生成一个句子的集合。并使用自动文本总结的方法通过计算句子之间的中屯、度并从句子的集合只中筛选出质量高，具有代表性的句子作为视频的描述，采用本方法能够产生更好的视频描述效果和准确性W及句子的多样性。同时，采用基于深度和文本总结的方法可W有效地推广到视频检索的应用当中，但本方法仅限于对视频内容的英文描述。
【附图说明】
[0022] 图1为一种基于深度学习和文本总结的视频描述方法的流程图；
[0023] 图2本发明所使用的卷积神经网络模型（CNN)示意图；
[0024] 其中，Cov表示卷积核；ReLU表示公式为max(0,X);化〇1表示化oling操作；LRN 为局部相应归一化操作；Softmax为目标函数。
[00巧]图3本发明所使用的递归神经网络示意图；
[0026] 其中，t表示t状态下的输入；ht1表示上一状态的隐态；i为i吨utgate;f为 forgetgate;〇为ou1:putgate;c为cell吼为经过一个LSTM单元后的输出。
[0027] 图4 (a)为LexRank剪枝后连接图；
[002引其中，S=怯1，…，Si。}为经过递归神经网络（RNN)生成的10个句子，采用图模式将运10个句子表示为10个节点；节点与节点之间的相似度通过直线来表示并构成全连接图，连线的粗细表示相似度的大小。
[0029] 图4化）为LexRank初始全连接图；
[0030] 通过设置阔值，将节点与节点之间相似度较小的连线去除，剩余的节点与节点之间的连线即句子之间的相似度较高。
[0031] 图5为部分视频帖经过描述后所产生的句子的示意图。
[0032] 其中，每帖图像下面为采用本发明中所用的CNN-R順模型后所生成的句子，其箭头指向部分为经过LexRank方法后对视频文本描述的总结作为该视频的文本描述。
【具体实施方式】
[0033] 为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。
[0034] 基于【背景技术】中存在的问题，化及在图像中使用深度学习的方法对图像进行描述效果取得显著的提升后，人们从中受到启发，并在视频中运用深度学习的方法，其生成的视频描述的多样性和正确性有了一定的提高。
[0035] 为此，本发明实施例提出了一种基于深度学习和文本总结的视频描述方法，首先，本方法通过卷积神经网络框架对视频的每一帖的视觉特征进行提取。然后，将每一个视频特征作为输入到循环神经网络框架中，采用运种框架可W对每一个视觉特征，即视频的每一帖生成一句描述。运样，就得到了一个句子的集合，为了得到最具有表现性并且高质量的句子作为该视频的描述，本方法采用文本总结的方法，通过计算句子之间的相似度对所有句子进行排序，从而避免了一些错误句子和低质量的句子作为视频的最终描述。采用自动文本总结的方法不仅可W得到一个具有代表性的句子，并且具有一定的正确性和可靠性，从而提高了视频描述的准确性。同时，本方法也克服了视频检索所面临的一些技术上的困难。
[0036] 实施例1
[0037] -种基于深度学习和文本总结的视频描述方法，参见图1，该方法包括W下步骤：
[0038] 101 :从互联网下载视频，并对每个视频进行描述（英文描述），形成 < 视频，描述〉对，构成文本描述训练集，其中每个视频对应多句描述，从而构成一个文本描述序列；
[003引102 :利用现有的图像数据集，按照图像分类任务训练卷积神经网络（CNN)模型； [0040] 例如：1111日旨6化1:。
[00川 103 :对视频提取视频帖序列，并利用卷积神经网络（CNN)模型提取C順特征，构成 <视频帖序列，文本描述序列〉对作为递归神经网络（RNN)模型的输入，训练得到递归神经网络巧順）模型；
[0042] 104 :利用训练得到的模型对待描述视频的视频帖序列进行描述，得到描述序列；
[0043] 105 :利用基于图的词汇中屯、度作为文本总结的显著性化exRank)的方法对描述序列的合理性进行排序，选择最合理描述作为对该视频的最终描述。
[0044] 综上所述，本发明实施例通过步骤101-步骤105实现了通过自然语言描述一段视频中正在发生的事件W及与事件相关的物体属性，从而达到对

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李广;马书博;韩亚洪;
技术所有人：天津大学;
我是此专利的发明人

上一篇：一种人脸识别的方法和装置的制造方法
上一篇：可调节用户情绪的人机交互系统、方法及设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。