基于文本‑图像匹配的多模态自动文摘方法与流程

文档序号：11627750阅读：231来源：国知局

本发明属于自然语言处理和图像处理技术领域，涉及一种基于文本-图像匹配的多模态自动文摘方法。

背景技术：

随着网络时代到来，多媒体信息包括文本、图像或视频等随处可见，中、英文双语在媒体信息中也应用广泛，有效地分析中、英文多媒体信息，获取其中的重要信息，并以文本的形式呈现给用户，可以帮助用户快速、便捷地理解多媒体信息的主体信息。处理多媒体信息的过程中涉及从多媒体信息中获取多模态数据，然后生成文本摘要。目前对于文本、图像和视频等多媒体信息输入来说，尽管输入的文本、图像和视频与某一信息事件相关，但是图像或视频不能找到与其语义完全对应的文本，就导致在自动文摘过程中图像或视频的重要信息被缺漏或者出现偏差，导致自动文摘无法满足信息的全面性与准确性，因此，如何寻找一种多模态自动文摘的方法，将图像或视频信息与文本信息进行匹配，进而为图像或视频信息找到语义对应的文本，然后处理文本信息输出文本摘要是一个亟待解决的技术问题。

技术实现要素：

(一)要解决的技术问题

本发明提供了一种基于文本-图像匹配的多模态自动文摘方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本发明的一个方面，提供了一种基于文本-图像匹配的多模态自动文摘方法，包括：对多模态信息中的文本信息中的句子进行重要性打分；对多模态信息中的视频信息通过镜头边界切割，提取视频的关键帧；对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本；以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度，以及惩罚冗余项，生成文本摘要。

优选地，上述文本-图像匹配模型的训练过程包括：计算数据集中的句子的词向量的平均值，得到句子的句向量；对数据集中的图像进行编码，对其进行矢量量化，得到图像向量；通过两个多层感知器分别对句向量和图像向量进行编码，生成文本-图像联合空间的特征表达；以及通过最大间隔优化方法优化两个多层感知器的模型参数，优化目标使其满足：对于匹配的句子和图像，匹配得分尽量高，对于不匹配的句子和图像，匹配得分尽量低，完成文本-图像匹配模型的训练。

优选地，数据集选用flickr30k数据集；和/或对数据集中的图像进行编码从而得到图像矢量利用vgg模型实现，通过提取vgg模型的第十九个隐层的特征向量作为图像向量。

优选地，通过文本-图像匹配模型为关键帧找到语义对应的文本包括：通过语义角色标注，获取文本中的句子的谓词论元结构，并提取句子的论元arg0、arg1和谓词，将动作的施事arg0、谓词与动作的影响arg1连接为一个句子，作为上述句子的简化句子；计算简化句子的词向量的平均值，得到简化句子的句向量；对视频的关键帧进行编码，对其进行矢量量化，得到关键帧向量；通过文本-图像匹配模型的两个多层感知器分别对简化句子的句向量和关键帧向量进行编码，生成文本-图像联合空间的特征表达；计算文本-图像联合空间的简化句子的特征表达和关键帧的特征表达之间的余弦相似度，作为简化句子与关键帧的匹配度；以及利用训练好的文本-图像匹配模型，计算数据集中文本-图像匹配对的平均匹配度得分，作为文本-图像匹配度阈值，将上述得到的简化句子与关键帧的匹配度和文本-图像匹配度阈值进行比较，当简化句子与关键帧的匹配度大于文本-图像匹配度阈值时，则将简化句子的来源句作为关键帧语义对应的文本，视为关键帧和简化句子的来源句语义相关。

优选地，对视频的关键帧进行编码从而得到关键帧向量利用vgg模型实现，通过提取vgg模型的第十九个隐层的特征向量作为关键帧向量。

优选地，文本-图像联合空间的特征表达如下式所示：

x＝w2·f(w1·vs+bs)(2)

y＝v2·f(v1·vi+bi)(3)

其中，x和y分别为句子和图像在文本-图像联合空间的特征表达；w1、w2、v1和v2表示权重矩阵，由随机初始化获得；f(·)表示激活函数，为sigmoid函数；vs表示句向量；vi表示图像向量；bs和bi表示偏置项。

优选地，优化目标的目标函数表达式如下式所示：

∑i，j，kmax(0，1-s(xi，yi)+s(xi，yk))+λ∑i，j，kmax(0，1-s(xi，yi)+s(xk，yi))(4)

其中，s(xi，yi)表示句子-图像匹配正例(xi，yi)的余弦相似度；(xi，yk)和(xk，yi)表示负采样出来的句子-图像匹配负例，即不匹配的句子和图像。

优选地，上述根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度，以及惩罚冗余项，生成文本摘要包括：定义抽取用于生成摘要的句子的目标函数；定义长度约束；利用贪心算法，选取最大化目标函数且满足长度约束的句子集合；以及按照输入的不同文档中句子的出现顺序，将选入摘要中的句子排序，作为输出摘要。

优选地，上述目标函数表达式为：

其中，s表示摘要集合，u(ci)表示摘要s中的句子ci的重要性得分；m为所有关键帧集合；i为所有图片集合；v(mj)表示关键帧mj的权重，该权重等于关键帧mj所在镜头的时长与视频总时长的比值；当关键帧mj和句子ci语义相关时，bij为1，否则，bij为0；v(mk)表示图片mk的权重v(mk)，该权重等于所有视频关键帧的权重的平均值；当图片mk和句子ci语义相关时，bik为1，否则，bik为0；λ是对冗余性的惩罚因子，通过开发集调节其大小；sim(ci，cj)表示ci和cj间的余弦相似度；

上述图片mk的权重v(mk)的计算公式如下：

其中，|m|为关键帧总数；和/或，所述贪心算法的实施过程包括：对于每一个还未选为摘要的句子l，计算选该句子给目标函数f带来的得分增益，其表达式如下式所示：

其中，cl为句子l的长度；

以及选取满足得分增益最高的句子作为选入摘要，如此循环进行，直至摘要长度达到预定的长度限制；

和/或，按照输入的不同文档中句子的出现顺序，将选入摘要中的句子排序，包括：对于那些出现在不同文档中的选入摘要中的句子，按照原文档的日期先后排序；对于那些出现在相同原文档中的选入摘要中的句子，按照其出现在原文档中的先后排序。

优选地，上述对文本中的句子进行重要性打分包括：计算文本中的句子的词向量的平均值，得到句子的句向量；根据文本中的句子的句向量计算句子的相似度；任选来自于文本的两个句子，计算各自的句向量的余弦相似度，直至所有文本的任意两句均计算完相似度为止；以及根据句子的相似度利用pagerank算法计算句子的重要性得分；pagerank算法采用下述公式进行迭代递归，直到得分稳定为止：

其中，u(ci)为ci的重要性得分；u(cj)为cj的重要性得分；ci和cj为任意两个句子；μ为平滑因子；mij为ci与cj的相似度；n为句子总数；

和/或，所述通过镜头边界切割，提取视频的关键帧包括：计算视频内每一帧的rbg直方图特征；计算视频内相邻两帧的rbg直方图特征的变化值，当该变化值大于某一阈值时，在该两帧的镜头边界处，将视频切割为两个不同的镜头；以及对于视频内的每一个镜头，取每个镜头最中间的一帧作为该视频的关键帧。

(三)有益效果

从上述技术方案可以看出，本发明提供的基于文本-图像匹配的多模态自动文摘方法，具有以下有益效果：通过训练文本-图像匹配模型，将图像或视频中的信息利用文本-图像匹配模型找到对应语义的文本，实现了同时处理文本、图像和视频信息进行文本摘要，使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。

附图说明

图1为根据本发明实施例基于文本-图像匹配的多模态自动文摘方法的流程图。

图2为根据本发明实施例图1所示流程中对文本中的句子进行重要性打分的流程图。

图3为根据本发明实施例图1所示流程中提取视频的关键帧的流程图。

图4为根据本发明实施例图1所示流程中训练文本-图像匹配模型的流程图。

图5为根据本发明实施例图1所示流程中通过文本-图像匹配模型为关键帧找到语义对应的文本的流程图。

图6为根据本发明实施例图1所示流程中生成文本摘要的流程图。

图7为根据本发明实施例图6所示流程中实施贪心算法的算法流程图。

具体实施方式

本发明提供了一种基于文本-图像匹配的多模态自动文摘方法，通过训练文本-图像匹配模型，将图像或视频中的信息利用文本-图像匹配模型找到对应语义的文本，实现了同时处理文本、图像和视频信息，使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步详细说明。

在本发明的第一个实施例中，提供了一种基于文本-图像匹配的多模态自动文摘方法。图1为根据本发明实施例基于文本-图像匹配的多模态自动文摘方法的流程图，如图1所示，基于文本-图像匹配的多模态自动文摘方法包括如下步骤：

步骤s102：对多模态信息中的文本信息中的句子进行重要性打分；

图2为根据本发明实施例图1所示流程中对文本中的句子进行重要性打分的流程图，由图2所示，上述步骤s102可分为如下子步骤：

子步骤s102a：计算文本中的句子的词向量的平均值，得到句子的句向量；

其中，利用word2vec工具在大规模中、英文单语语料上训练300维的词向量；对于每一个句子，将组成该句子的词的向量相加，取平均，作为该句子的句向量；

子步骤s102b：根据文本中的句子的句向量计算句子的相似度；

任选来自于文本的两个句子，计算各自的句向量的余弦相似度，直至所有文本的任意两句均计算完相似度为止；

子步骤s102c：根据句子的相似度利用pagerank算法计算句子的重要性得分；

其中，利用pagerank算法进行重要性得分计算；

pagerank算法通过迭代递归计算来更新每个句子的重要性得分，直到得分稳定为止。具体的计算公式如下：

其中，u(ci)为ci的重要性得分；u(cj)为cj的重要性得分；ci和cj为任意两个句子；μ为平滑因子；mij为ci与cj的相似度；n为句子总数。

利用上述公式(1)，进行迭代，分别计算每一个u(ci)和u(cj)的值，计算u(cj)时上述公式中的u(cj)和u(ci)交换，直到u(ci)和u(cj)稳定。

步骤s104：对多模态信息中的视频信息通过镜头边界切割，提取视频的关键帧；

图3为根据本发明实施例图1所示流程中提取视频的关键帧的流程图，如图3所示，上述步骤s104可分为如下子步骤：

子步骤s104a：计算视频内每一帧的rbg直方图特征；

子步骤s104b：计算视频内相邻两帧的rbg直方图特征的变化值，当该变化值大于某一阈值时，在该两帧的镜头边界处，将视频切割为两个不同的镜头；

其中所述阈值由视频镜头切割数据集trecvid测试得到，测试网址为：http：//www-nlpir.nist.gov/projects/trecvid/。

子步骤s104c：对于视频内的每一个镜头，取每个镜头最中间的一帧作为该视频的关键帧。

步骤s106：对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本；

图4为根据本发明实施例图1所示流程中训练文本-图像匹配模型的流程图，如图4所示，训练文本-图像匹配模型包括如下步骤：

步骤s106a：计算flickr30k数据集中的句子的词向量的平均值，得到句子的句向量；

步骤s106b：通过vgg模型对flickr30k数据集中图像进行编码，提取vgg模型的第十九个隐层的特征向量作为图像向量；

步骤s106c：通过两个多层感知器分别对句向量和图像向量进行编码，生成文本-图像联合空间的特征表达；句子与图像的特征表达如下式所示：

x＝w2·f(w1·vs+bs)(2)

y＝v2·f(v1·vi+bi)(3)

其中，x和y分别为句子和图像在文本-图像联合空间的特征表达，均为256维；w1、w2、v1和v2表示权重矩阵，该权重矩阵是随机初始化获得的，通过文本-图片匹配模型的训练(步骤404)进行更新。分别是300×300维、256×300维、1024×4096维和256×1024维；f(·)表示激活函数，本式中为sigmoid函数；vs表示300维的句向量；vi表示4096维的图像向量；bs和bi表示偏置项，分别是300和1024维。

本实施例中w1、w2、v1和v2采用标准正态分布随机初始化，通过步骤s106d进行更新。

步骤s106d：通过最大间隔优化方法优化两个多层感知器的模型参数，优化目标使其满足：对于匹配的句子和图像，匹配得分尽量高，对于不匹配的句子和图像，匹配得分尽量低；优化目标的目标函数表达式如下式所示：

∑i，j，kmax(0，1-s(xi，yi)+s(xi，yk))+λ∑i，j，kmax(0，1-s(xi，yi)+s(xk，yi))(4)

其中，s(xi，yi)表示句子-图像匹配正例(xi，yi)的余弦相似度；(xi，yk)和(xk，yi)表示负采样出来的句子-图像匹配负例，即所述不匹配的句子和图像。

图5为根据本发明实施例图1所示流程中通过文本-图像匹配模型为关键帧找到语义对应的文本的流程图，如图5所示，上述步骤s106分为如下子步骤：

子步骤s106f：通过语义角色标注，获取文本中的句子的谓词论元结构，并提取句子的论元arg0、arg1和谓词，将动作的施事arg0、谓词与动作的影响arg1连接为一个句子，作为所述句子的简化句子；

其中，语义角色标注是一种自然语言处理领域的浅层语义分析技术，它以句子为单位，以句子中的谓词为核心，分析句子中的谓词与其相关成分之间的相互关系，进而获取句子所表达语义的浅层表示。一个谓词代表了一个事件，而与谓词相关的句子成分通常代表与事件相关的成分，上述与事件相关的成分被称为谓词的一个论元，每个论元都有一个相对于谓词的语义角色，比如施事者、受事者以及事件发生的时间、地点、方式、原因等。

命题库(propositionbank，propbank)是受到语义角色与句法信息的研究启发而建立的。命题库把语义角色分为两大类。第一类语义角色是与具体谓词直接相关的，这些角色用arg0，arg2，arg3，arg4，arg5表示，比如arg0通常表示动作的施事，arg1通常表示动作的影响等，arg2-arg5对于不同的谓语动词会有不同的语义含义；第二类语义角色是起修饰作用的辅助性角色，其角色标签都以argm开头，常见的有表示时间的角色argm-tmp，表示地理位置的角色argm-loc，表示一般性修饰成分的角色argm-adv等。

下面是一个语义角色标注的例子：

[警方]agent[正在]time[详细]adverbial[调查]pred[事故原因]patient，其中“调查”是谓词，代表了一个事件，“警方”是施事者，“事故原因”是受事者，“正在”是事件发生的时间，“详细”是事件的修饰语。由此可见，语义角色标注能够抽取出一个句子表达的事件的全部重要信息。

子步骤s106g：计算简化句子的词向量的平均值，得到简化句子的句向量；

子步骤s106h：通过vgg模型对视频关键帧进行编码，提取vgg模型的第十九个隐层的特征向量作为关键帧向量；

子步骤s106i：通过文本-图像匹配模型的两个多层感知器分别对简化句子的句向量和关键帧向量进行编码，生成文本-图像联合空间的特征表达，如公式(2)和公式(3)所示；

子步骤s106j：计算文本-图像联合空间的简化句子的特征表达和关键帧的特征表达之间的余弦相似度，作为简化句子与关键帧的匹配度；

子步骤s106k：利用训练好的文本-图像匹配模型，计算flickr30k数据集中文本-图像匹配对的平均匹配度得分，作为文本-图像匹配度阈值，将上述得到的简化句子与关键帧的匹配度和利文本-图像匹配度阈值进行比较，当简化句子与关键帧的匹配度大于文本-图像匹配度阈值时，则将简化句子的来源句作为关键帧语义对应的文本，视为关键帧和简化句子的来源句语义相关。

步骤s108：根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度，以及惩罚冗余项，生成文本摘要；

图6为根据本发明实施例图1所示流程中生成文本摘要的流程图，如图6所示，上述步骤分为如下子步骤：

子步骤s108a：定义抽取用于生成摘要的句子的目标函数；目标函数表达式如下：

其中，|m|为关键帧总数。

子步骤s108b：定义长度约束；

在本实施例的实验中，对于英文摘要，长度约束定义为300个英文单词；对于中文摘要，长度约束定义为500个汉字，包括标点在内。

子步骤s108c：利用贪心算法，选取最大化目标函数且满足长度约束的句子集合；

图7为根据本发明实施例图6所示流程中实施贪心算法的算法流程图，如图7所示，贪心算法的实施过程如下：

对于每一个还未选为摘要的句子l，计算选该句子给目标函数f带来的得分增益，其表达式如下式所示：

其中，cl为句子l的长度；

选取满足得分增益最高的句子作为选入摘要，如此循环进行，直至摘要长度达到预定的长度限制。

子步骤s108d：按照输入的不同文档中句子的出现顺序，将选入摘要中的句子排序，作为输出摘要。

其中，对于那些出现在不同文档中的选入摘要中的句子，按照原文档的日期先后排序；对于那些出现在相同原文档中的选入摘要中的句子，按照其出现在原文档中的先后排序。

根据本发明实施例，进行了中、英文多模态自动文摘实验，并且与纯文本基线系统的自动文摘结果进行对比，上述纯文本基线系统只使用原始文本生成文本摘要。

本实验数据集含有25个文档集合，每个集合对应一个2011-2016年的热门新闻话题，包含20篇原始文本，5-10段视频。

一共有九个标注者参与了数据集的标注，生成了人工摘要，作为参考摘要。对于中文集合，标注者生成一份500个字左右的中文摘要；对于英文集合，标注者生成一份300个单词左右的英文摘要。

评价标准为：通过计算生成摘要与参考摘要的内容的重合度，自动评价生成摘要的质量，本实验中，采用了使用较为广泛的rouge-1，rouge-2和rouge-su4等指标对生成摘要进行评测。

附表1给出了不同系统对于中文数据生成的摘要的rouge得分。附表2给出了不同系统对于英文文数据生成的摘要的rouge得分。

表1中文多模态自动文摘结果

表2英文多模态自动文摘结果

根据表1和表2可以看出，本发明提供的基于文本-图像匹配的多模态自动文摘方法与纯文本基线系统的自动文摘结果相比，具有更好的全面性和准确度。

综上所述，本发明提供的基于文本-图像匹配的多模态自动文摘方法能够同时处理文本、图像和视频信息进行自动文摘，尤其解决了纯文本基线系统中图像找不到对应语义文本的问题，通过训练文本-图像匹配模型，将图像或视频中的信息利用文本-图像匹配模型找到对应语义的文本，实现了同时处理文本、图像和视频信息，使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。

当然，根据实际需要，本发明提供的基于文本-图像匹配的多模态自动文摘方法，还包含其他的常用算法和步骤，由于同发明的创新之处无关，此处不再赘述。本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张家俊;李浩然;周玉;宗成庆
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。