一种多文档摘要生成的方法、装置和终端与流程

文档序号:16208653发布日期:2018-12-08 07:26阅读:140来源:国知局
一种多文档摘要生成的方法、装置和终端与流程
本发明实施例涉及数据处理领域,尤其涉及一种多文档摘要生成的方法、装置和终端。
背景技术
自动多文档摘要(multi-documentsummarization,mds)技术,以同一主题(例如,新闻事件)下的多篇候选文档作为输入,通过对多篇候选文档分析和加工,按照需要自动地生成特定长度摘要文本,以最大限度的描述新闻事件的中心思想,从而将新闻事件的重要信息快速、简洁的提取出来。现有技术中,一种摘要生成的方法为:利用深度神经网络模型训练语料集获取特征词的词向量表示;在语料集中根据预设查询词得到候选句子集合;根据特征词的词向量表示得到候选句子集合中不同候选句子之间的语义相似性,从而得到两个候选句子之间的相似度,以构建句子图模型;在构建句子图模型后计算候选句子权重,最后利用最大边缘相关算法生成文档摘要。然而,上述方法通过特征词的词向量表示来计算候选句子集合中不同候选句子的相似度,这样在特征词提取不准时会直接影响候选句子相似度的准确性,从而造成后续生成的文档摘要中的冗余信息比较多。技术实现要素:本申请提供一种多文档摘要生成的方法、装置和终端,用以解决现有技术中生成的文档摘要中的冗余信息比较多的问题。为达到上述目的,本申请采用如下技术方案:第一方面,本申请提供一种多文档摘要生成的方法,包括:获取候选句子集合,候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,级联注意力机制矩阵为预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;候选句子的重要性用于表示该候选句子所表达的含义在多篇候选文档中的重要程度;根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;根据摘要短语集合,获得多篇候选文档的摘要。本发明实施例提供一种多文档摘要生成的方法,通过利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,由于,级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,提高解码的准确率,这样重要性高的候选句子会被重点对待,在进行无监督学习模型过程中重建误差函数才会达到极值,因此,利用级联注意力机制可以将每个候选句子在预设网络模型的不同语义维度的注意力信息进行融合,从而提升每个句子重要性估计的准确性,这样在根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合时,可以减少摘要短语集合中的冗余,从而避免生成的文档摘要中的冗余信息比较多的问题。结合第一方面,在第一方面的第一种可能的实现方式中,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,包括:根据预设网络模型获取用于描述事件的m个向量;根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述事件的m个向量之间的关系、候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为多篇候选文档包括的词语的数量,重建误差函数的目的在于用输出的m个向量来重构候选句子集合中的每个候选句子,误差小,说明从候选句子集合中的每个候选句子所萃取的m个向量几乎携带该事件的重要信息,而萃取关键步骤是级联注意力机制矩阵负责重点关注哪些候选句子,从而可以将级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合,包括:过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。通过对候选句子按照预设规则过滤,并将过滤后的每个候选句子按照每个候选句子的重要性提取至少一个第一词性短语和至少一个第二词性短语重要性组成短语集合,并从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,这样可以进一步避免所选择的摘要短语集合引入冗余信息。结合第一方面至第一方面的第二种可能的实现方式中任一项,在第一方面的第三种可能的实现方式中,过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子,包括:过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性;根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。结合词语的重要性对候选句子中重要性低于预设阈值的词语进行过滤,可以进一步避免冗余词语引入每个候选句子中。结合第一方面至第一方面的第三种可能的实现方式中任一项,在第一方面的第四种可能的实现方式中,根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语之前,本发明实施例提供的方法还包括:利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性。结合第一方面至第一方面的第四种可能的实现方式中任一项,在第一方面的第五种可能的实现方式中,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性,包括:根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。结合第一方面至第一方面的第五种可能的实现方式中任一项,在第一方面的第六种可能的实现方式中,根据每个候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,包括:获取至少一个第一词性短语和至少一个第二词性短语中每个词性短语的词频;根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。结合第一方面至第一方面的第六种可能的实现方式中任一项,在第一方面的第七种可能的实现方式中,根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合,包括:将至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在整数线性规划函数取极值的情况下,确定每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重;以及根据每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语。一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择;。第二方面,本发明实施例提供一种多文档摘要生成的装置,包括:获取单元,用于获取候选句子集合,候选句子集合包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子;估计单元,用于利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与所述预设网络模型利用无监督学习模型优化重建误差函数过程中输出的级联注意力机制矩阵中的一个行向量的模对应;候选句子的重要性用于表示候选句子所表达的含义在多篇候选文档中的重要程度;选择单元,用于根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合;生成单元,用于根据摘要短语集合,获得多篇候选文档的摘要。结合第二方面,在第二方面的第一种可能的实现方式中,获取单元,还用于:根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将所述预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述所述事件的m个向量之间的关系、所述候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为所述多篇候选文档包括的词语的数量。结合第二方面或第二方面的第一种可能的实现方式中,在第二方面的第二种可能的实现方式中,本发明实施例提供的装置还包括:过滤单元,用于过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子;提取单元,用于从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合;估计单元,还用于根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性;选择单元具体用于:根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。结合第二方面至第二方面的第二种可能的实现方式中任一项,在第二方面的第三种可能的实现方式中,过滤单元具体用于:过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性;以及用于根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。结合第二方面至第二方面的第三种可能的实现方式中任一项,在第二方面的第四种可能的实现方式中,估计单元,还用于利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取多篇候选文档中包括的多个不同词语中每个词语的重要性。结合第二方面至第二方面的第四种可能的实现方式中任一项,在第二方面的第五种可能的实现方式中,估计单元,还具体用于根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。结合第二方面至第二方面的第五种可能的实现方式中任一项,在第二方面的第六种可能的实现方式中,获取单元,还用于获取至少一个第一词性短语和至少一个第二词性短语中每个词性短语的词频;估计单元还用于:根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。结合第二方面至第二方面的第六种可能的实现方式中任一项,在第二方面的第七种可能的实现方式中,获取单元具体用于,将所述至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在整数线性规划函数取极值的情况下,确定每个词性短语的候选权重以及所述各个词性短语之间的相似度的联系权重;选择单元具体用于:根据每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语,一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择;。第三方面,本发明实施例提供一种终端,该终端包括处理器、存储器、系统总线和通信接口;其中,存储器用于存储计算机执行指令,处理器与存储器通过系统总线连接,当终端运行时,处理器执行存储器存储的计算机执行指令,以使终端执行如第一方面至第一方面的第七种可能的实现方式所描述的多文档摘要生成的方法。第四方面,本发明实施例提供一种计算机可读存储介质,包括指令,当其在终端上运行时,使得终端执行如第一方面至第一方面的第七种可能的实现方式所描述的多文档摘要生成的方法。附图说明图1为本发明实施例提供的一种多文档摘要生成的装置的结构示意图一;图2为本发明实施例提供的一种多文档摘要生成的方法的流程示意图一;图3为本发明实施例提供的一种多文档摘要生成的方法的流程示意图二;图4为本发明实施例提供的一种多文档摘要生成的方法的流程示意图三;图5为本发明实施例提供的一种多文档摘要生成的方法的流程示意图四;图6为本发明实施例提供的一种多文档摘要生成的装置的结构示意图二;图7为本发明实施例提供的一种多文档摘要生成的装置的结构示意图三;图8为本发明实施例提供的一种终端的结构示意图。具体实施方式如图1所示,图1示出了本发明实施例提供的一种多文档摘要生成装置的结构示意图,该装置包括:数据处理模块101、与数据处理模块101相连的重要性估计模块102以及与重要性估计模块102相连的摘要生成模块103。其中,数据处理模块101用于将待生成摘要的关于同一个事件的多篇候选文档中每篇候选文档转换成候选句子,以获取候选句子集合d;然后对于该关于同一个事件的多篇候选文档中的所有词语,生成大小为v的词典;最后,将每个候选句子用v维的向量xj(j=1,...,n,n为候选句子集合d中最多的候选句子数量)表示,并将以v维向量表示的每个候选句子输入至重要性估计模块102中,例如,如图1所示的候选句子x1、x2、x3和x4,可以理解的是,在实际使用过程中,输入至重要性估计模块102的候选句子不仅仅局限于x1、x2、x3和x4,甚至比x1、x2、x3和x4多,本发明实施例仅是以x1、x2、x3和x4为例进行说明。重要性估计模块102中是通过级联注意力机制(cascadedattentionmechanism)和无监督学习模型建模得到的,其主要对数据处理模块101输入的n个候选句子进行迭代训练,最大迭代300轮收敛,最终输出每个候选句子的重要性,以及每个词语的重要性,其中,候选句子的重要性用于最终确定摘要短语集合,词语的重要性用于过滤掉每个候选句子中的冗余信息。其中,重要性估计模块102基于数据重建的框架,在估计候选句子重要性的过程中引用了级联注意力机制。由于预设网络模型的隐层向量和输出层向量属于不同的向量空间,代表不同的语义,因此,在不同的语义表示中引入不同的级联注意力机制计算方法,这样可以进一步提升候选句子重要性估计方法,由于最终重要性高的候选句子或者短语被提取出来以组成摘要短语集合,为后续生成多文档摘要,从而使得最终生成的多文档摘要中的冗余减少,使得生成的多文档要能够更加准确的覆盖事件所表达的主要内容。本发明实施例提供的重要性估计模块102通过对级联注意力机制进行建模,这样可以提升解码的效果,同时级联注意力机制矩阵的信息可以用来估计每个候选句子的重要性。本申请提出了级联注意力机制,旨在将不同语义维度的注意力信息进行融合,进一步提升句子重要程度估计的准确性。如图1所示,重要性估计模块102包括两个阶段,其中一个阶段为阅读(reader)阶段,也称作编码阶段,另一个阶段为回忆(recaller)阶段,也称作解码阶段。一、阅读阶段对于同一个事件中的所有候选句子集合d中每个候选句子,初始为基于词袋模型的向量模型,存在诸如稀疏、语义描述不准确、维度灾难等问题。所以阅读的过程可以先将每个句子映射到一个神经网络的隐层中,产生密集的嵌入式向量表示,然后采用编码层(encodinglayer,enclayer)中建立的基于递归神经网络(recurrentneuralnetworks,rnn)模型的编码模型,将所有的候选句子映射到新的状态,并取最后一个时刻的状态作为这个事件的全局变量cg,这时cg中反映了关于该事件的所有多篇候选文档的信息,然后进入解码阶段。编码阶段具体过程如下:首先,重要性估计模块102在编码阶段采用公式将每个候选句子映射到编码阶段的隐层,将每个候选句子以密集的嵌入式向量表示。其中,i表示输入阶段,j表示候选句子的编号(j=1,...,n,n为候选句子集合d中最多的候选句子数量),w和b分别为隐层对应的神经网络参数,h代表隐层。其次,重要性估计模块102通过编码层建立的rnn模型可以将所有以密集的嵌入式向量表示的候选句子进一步编码成一个向量,该一个向量用于成为反映多篇候选文档的全局语义向量cg。由图1可以知道,其中,rnn模型的映射逻辑如下:其中,e表示编码阶段的rnn模型,f(.)是长短期记忆网络(longshorttermmemory,lstm)模型、门递归网络(gatedrecurrentunit,gru)模型或者rnn模型。其中,表示编码阶段第t个时刻每个候选句子的状态向量,表输入阶段第t个时刻每个候选句子的嵌入式向量;表示编码阶段第t-1个时刻每个候选句子的状态向量。示例性的,如图1所示的编码层可知,候选句子x1、x2、x3和x4分别采用公式映射后得到每个候选句子的嵌入式向量表示和然后根据每个候选句子的嵌入式向量表示计算每个候选句子在编码阶段第t个时刻的状态向量,由于级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,因此,候选句子x1在t时刻的状态向量可以将输入至f(.)模型中得到,然后候选句子x2在t时刻的状态向量可以将和输入至f(.)模型中得到,其他候选句子的状态向量,可以参见候选句子x2在t时刻的状态向量本发明实施例在此不再赘述。本发明实施例以rnn模型为例,其中rnn模型将所有的句子映射到新的状态并取最后一个时刻的状态作为这个事件的全局变量cg,如图1所示,cg由和候选句子x3在t时刻的状态向量输入至f(.)模型中得到的,因此cg中反映了关于该事件的所有多篇候选文档的信息,然后进入解码阶段。二、解码阶段主要用于将编码阶段生成的全局变量cg在解码层(decodelayer,declayer)解码成能够描述该事件m个不同方面(aspect)信息的m个向量的过程。其中,解码层中建立有基于rnn模型的解码模型。其中,m要远小于多篇候选文档包括的候选句子的数目n,通过m个浓缩的向量,最大程度重建输入的n个候选句子,所以这m个输出向量要包含最重要的信息,旨在只将最重要的信息解码出来,从而能够对原始的输入进行重建。解码层中建立的解码模型也是基于rnn模型:其中,d表示解码层,o表示输出层,然后再加入一个映射:最后,输出层将隐层向量重新映射到词典维大小的能够表示事件某aspect信息的向量:示例性的,如图1所示的y1和y2。综上所述,可知通过级联注意力机制和无监督学习模型建立预设网络模型,首先通过编码层的rnn模型对源向量(也即n个候选句子)进行编码,将源向量编码到一个固定维度的中间向量然后再利用解码层的rnn模型解码翻译到目标向量,例如利用级联注意力机制建立预设网络模型,可以提升解码的效果,同时级联注意力机制矩阵中每一个行向量的模可以用来估计句子的重要性。本申请提出了级联注意力机制,旨在将不同语义维度的注意力信息进行融合,进一步提升句子重要程度估计的准确性。首先,本申请在解码阶段的隐层引入级联注意力机制,注意力计算方法如下:其中,score(.)函数用来计算目标向量和源向量的注意关系,其中,表示输入阶段的第s个候选句子。然后根据级联注意力机制矩阵,更新解码阶段的隐层向量:不仅在解码阶段的隐层引入级联注意力机制,本申请还在解码阶段的输出层也引入级联注意力机制,并且融合了解码阶段的隐层的注意力信息,具体如下:其中λa为注意力信息的权重,模型自动学习。对于score(.)函数,本申请可以采用如下三种不同的计算方法:通过对比试验结果,在解码阶段的隐层使用concat方法,在解码阶段的输出层使用dot方法可以进一步的提高候选句子重要性估计的准确性。级联注意力机制只是预设网络模型的一个组件和参数的一部分,为了求解引入注意力机制后的预设网络模型中的每个参数,本申请通过无监督学习模型求解参数。具体如下:模型的训练目标为:用m个主题方面向量y来重构初始的n个句子向量x,这是一个无监督数据重建过程,训练的目标为最小化重建误差:训练完成后,输出层的级联注意力机制矩阵对应每个句子的向量的模被用来作为句子重要性的分数。输出层输出的候选矩阵y对应的每一列的列向量的模被用来作为词语的重要性分数。其中,候选矩阵y为以m个向量为行向量以n个词语为列向量所构建的矩阵。其中,摘要生成模块103主要用于剔除多篇候选文档中的冗余信息,以获取摘要短语集合,并将摘要短语集合按照预置组合方式组合为摘要句子,获取多篇候选文档的摘要,并输出。摘要生成模块103,用于在剔除多篇候选文档中的冗余信息时主要有两个过程,其中一个过程为:粗粒度句子过滤,即根据经验规则将每个候选句子中比较明显的噪音过滤。另一个过程为:细粒度句子过滤,即将经过粗粒度句子压缩后的每个候选句子采用句法解析器解析成每个候选句子的语法树,从每个候选句子的语法树中提取出名词短语和动词短语,并根据每个候选句子的重要性,计算每个候选句子中包括的名词短语和动词短语的重要性,最终在保证语法正确的情况下,通过整数线性规划(integerlinearprogramming,ilp)模型对短语进行选择,以从每个候选句子的语法树中删掉重要性不满足预设要求的短语,并将重要性满足要求的短语保留。由于在此过程中,ilp模型不会将重要性不满足要求的短语选入摘要中,从而起到进一步在细粒度层次上过滤每个候选句子中冗余的作用。可以理解的是,在实际使用过程中图1所示的一种多文档摘要生成的装置可以包括比如图1所示更多的部件,本发明实施例对此不进行限定。如图2所示,本发明实施例提供的一种多文档摘要生成的方法,该方法由如图1所示的多文档摘要生成的装置执行,该方法包括:s101、多文档摘要生成的装置获取候选句子集合,该候选句子集合中包括关于同一个事件的多篇候选文档中每篇候选文档包括的候选句子。本发明实施例中的多篇候选文档是关于同一个事件的,本发明实施例对该事件不进行限定,在实际使用过程中所有关于同一个事件的多篇候选文档均可以作为本申请提取该多篇候选文档摘要的基础文件。该多篇候选文档可以为关于同一个事件的新闻报道,也可以时关于同一个事件的其他文章,本发明实施例对此不限定。示例性的,本发明实施例以该多篇候选文档均是关于同一个事件的新闻报道为例,例如,该事件可以为“某某地震”的新闻报道等。具体的,在实际使用过程中多篇候选文档的数量可以根据需要设置,本发明实施例对此不限定。示例性的,多篇候选文档的数量为10-20篇。可以理解的是,本发明实施例中的候选句子集合中包括的每个候选句子均以向量的形式表示。示例性的,可以将每个候选句子以n维的向量表示,其中n为多篇候选文档中包括的词语的数量。需要说明的是,在实际使用过程中,由于该多篇候选文档是关于同一个事件的,因此肯定在多篇候选文档的每篇候选文档中可能存在相同的词语,或者在同一个候选文档中存在相同的词语,因此,在计算多篇候选文档中包括的词语的数量时,需要将相同词语的数量记为1,示例性的,词语“某某地震”在多篇候选文档中出现了10次,其余词语(各不相同)的数量和为50,则该多篇候选文档中包括的词语的数量为:51。s102、多文档摘要生成的装置利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子进行训练,获得每个候选句子的重要性,一个候选句子的重要性与级联注意力机制矩阵中的一个行向量的模对应,级联注意力机制矩阵为预设网络模型利用无监督学习模型优化重建误差函数过程中输出的;候选句子的重要性用于表示候选句子所表达的含义在多篇候选文档中的重要程度。具体的,在实际使用过程中可以将候选句子集合包括的所有候选句子(以向量的形式表示)输入如图1所示的重要性估计模块,进行迭代训练,最大迭代300轮收敛。该重要性估计模块的输出中,将级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。s103、多文档摘要生成的装置根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合。s104、多文档摘要生成的装置根据摘要短语集合,获得多篇候选文档的摘要。本发明实施例提供一种多文档摘要生成的方法,利用预设网络模型中的级联注意力机制和无监督学习模型对候选句子集合中每个候选句子训练,获取候选句子集合中每个候选句子的重要性,由于,级联注意力机制目标序列在生成下一个状态时,会考虑从源序列中找到所依据的片段,提高解码的准确率,这样重要性高的候选句子会被重点对待,在进行无监督学习模型过程中重建误差函数才会达到极值,因此,利用级联注意力机制可以将每个候选句子在预设网络模型的不同语义维度的注意力信息进行融合,从而提升每个句子重要性估计的准确性,这样在根据每个候选句子的重要性,从候选句子集合中选择符合预设条件的短语作为摘要短语集合时,可以减少摘要短语集合中的冗余,从而避免生成的文档摘要中的冗余信息比较多的问题。可选的,如图3所示,本发明实施例提供的步骤s102具体可以通过如图3所示的步骤s105和s106来实现:s105、多文档摘要生成的装置根据预设网络模型获取用于描述事件的m个向量。s106、多文档摘要生成的装置根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性,获得每个候选句子的重要性,重建误差函数包括:每个候选句子与用于描述事件的m个向量之间的关系、候选矩阵以及候选矩阵对应的权重、候选矩阵为m行×n列的矩阵,其中,m和n为正整数,n为多篇候选文档包括的词语的数量。可选的,重建误差函数为对用m个向量来重构初始的n个句子向量xi,在进行无监督学习模型过程中训练目标j,在重建误差函数取值最小的情况,将预设网络模型输出的级联注意力机制矩阵中每一行的行向量的模作为一个候选句子的重要性。为了进一步的提高所选择的摘要短语集合精确,本发明实施例在步骤s103中首先对候选句子集合中的候选句子根据预设规则进行初步过滤,并在初步过滤后的候选句子基础上根据每个候选句子的重要性,选择符合预设条件的短语作为摘要短语集合。结合图2,本发明实施例中的步骤s103可以通过如图3所示的步骤s107-s110来实现:s107、多文档摘要生成的装置过滤掉每个候选句子中不符合预设规则的词语,获取过滤后的每个候选句子。可以理解的是,在执行步骤s108时,本发明实施例提供的多文档摘要生成的装置还用于将过滤后的每个候选句子采用语法解析器解析成各自对应的语法树。在步骤s107中语法解析器可以通过对多篇候选文档中的每个候选句子的语义分析,构建每个候选句子后语法树以将每个候选句子分解为多个短语,分解出各个短语称为语法树的分支。本发明实施例中的语法解析器可以是多文档摘要生成的装置的内部设备,即多文档摘要生成的装置本身包括:语法解析器,当然,该语法解析器还可以是多文档摘要生成的装置的外部设备,例如,多文档摘要生成的装置还可以通过网络请求的语法解析器以获取每个候选句子的语法树,本发明实施例对此不进行限定。在语法解析器将过滤后的每个候选句子解析成语法树之后,多文档摘要生成的装置可以根据每个候选句子的语法树中包括的全部短语,获取每个候选句子的短语集合,该每个候选句子的短语集合中包括名词词性短语、动词词性短语、数次词性短语、形容词性短语等等,具体是哪种词性的短语具体需要结合每个候选句子的所包括的短语而定,本发明实施例对此不进行限定。在获取每个候选句子的短语集合后,多文档摘要生成的装置可以从每个候选句子的短语集合中获取至少一个第一词性短语和至少一个第二词性短语。需要说明的是,在实际使用过程中还可以采用其他的解析工具将每个候选句子解析成语法树,以获取每个候选句子的短语集合。可选的,本发明实施例中的预设规则可以根据经验、或者实际需求来设定,本发明实施例对此不限定。可以理解的是,多文档摘要生成的装置通过预设规则过滤掉候选句子集合中每个候选句子中不符合预设规则的词语是指将过滤掉每个候选句子中的明显噪音,例如,“某某报刊报道说…”“某某电视台报道说…”“…他说”等。可选的,结合图2,图3,如图4所示,本发明实施例中的步骤s107具体可以通过步骤s107a和步骤s107b来实现:s107a、多文档摘要生成的装置过滤掉每个候选句子中的噪音,得到每个候选句子对应的候选词语集合,每个候选句子中包括多个词语,多个词语中每个词语对应一个重要性。可以理解的是,本发明实施例中多文档摘要生成的装置根据经验规则过滤掉每个候选句子中的噪音。s107b、多文档摘要生成的装置根据每个词语的重要性,过滤掉每个候选句子对应的候选词语集合中重要性低于预设阈值的词语,获取过滤后的每个候选句子。本发明实施例对预设阈值不进行限定,在实际使用过程中可以根据需要设置,不过为了尽量避免最终组成摘要的摘要短语集合中引入噪音,在设置时可以将预设阈值设置的比较大。s108、多文档摘要生成的装置从过滤后的每个候选句子的语法树中提取至少一个第一词性短语和至少一个第二词性短语组成短语集合。示例性的,如图5所示,图5示出了一个候选句子的语法树结构,在图5中可以看出一个候选句子解析成语法树后包括:名词短语(nounphrase,np)和动词短语(verbphrase,vp)。如图5所示,np为“anarmedman”,vp为“walkedintoanamishschool”。可以理解的是,一个名词短语包括:冠词(article)、形容词(jj)以及名词(noun,nn),例如不定冠词(theindefinitearticle),如图5所示的“an”;名词如图5所示的“man”。如图5所示,一个候选句子的语法树中vp和vp之间还可以由连接词(connective,cc)连接,例如,连接词为图5中的“and”。动词短语(verbphrase,vp),具体的动词短语的类型本发明实施例在此不再赘述,可以时动词加介词(preposition,pp)构成,例如,也可以是动词加名词短语构成,例如图5中的“walkedintoanamishschool”,图5中的nns表示名词复数。具体的,如图5所示,将一个候选句子解析成语法树后,所得到的动词短语还包括:“senttheboysoutside”“tiedupandshotthegirls”“killingthreeofthem”。s109、多文档摘要生成的装置根据每个候选句子各自的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性,至少一个第一词性短语和至少一个第二词性短语属于短语集合。可选的,步骤s109具体可以通过步骤s109a和步骤s109b来实现:s109a、多文档摘要生成的装置获取至少一个第一词性短语和至少一个第二词性短语每个词性的短语在多篇候选文档中的词频。其中,本发明实施例中的“词频”是指某一个词语在多篇候选文档包括的每篇候选文档中出现的频率之和。s109b、多文档摘要生成的装置根据每个词性短语的词频,以及每个词性的短语所在的候选句子的重要性,计算从每个候选句子中提取的至少一个第一词性短语和至少一个第二词性短语重要性。其中,在计算短语的重要性时,短语继承其所在候选句子的重要性,即候选句子的注意力attention值,可以通过以下公式确定每个词性短语的重要性。其中,i表示短语的编号,si表示编号为i的短语的重要性,ai表示表示编号为i的短语所在的候选句子的重要性,tf(t)表示词频,topic表示关于该同一个事件的多篇候选文档中所有的词语,pi表示表示编号为i的短语。其中,一个候选句子的重要性用于衡量该候选句子所代表的信息或者内容在表达其所在的候选文档语义中所体现的重要程度。短语重要性用于衡量短语所代表的概念或者信息在其表达文献语义中体现的重要程度。可选的是,本发明实施例中的第一词性短语可以为名词词性短语(简称:名词短语),第二词性短语可以为动词词性短语(简称:动词短语)。当然,本申请还可以包括其他词性的短语,例如形容词短语,数词短语等等,具体依多篇候选文档中含有的短语而定,此处不做限定。可以理解的是,在自然语言处理中,名词短语实际上包含代词,代词被认为是名词的一种。名词短语(nounphrase,np)选取:每个候选句子的主语由名词短语构成,选取此类名词短语,作为生成新句子的候选主语。例如,如图5所示,图5中可以选择“anarmedman”作为名词短语。动词短语(verbphrase,vp)选取:句子的动宾结构由动词短语构成,选取此类动词短语,作为生成新句子的候选动宾解构。例如,如图5所示,图5中选取“walkedintoanamishschoolsenttheboysoutsideandtiedupandshotthegirlskillingthreeofthem”,“walkedintoanamishschool”,“senttheboysoutside”,and“tiedupandshotthegirls,killingthreeofthem”。s110、多文档摘要生成的装置根据每个候选句子对应的至少一个第一词性短语和至少一个第二词性短语重要性,从短语集合选取满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。可选的,步骤s110具体可以通过以下方式实现:s110a、多文档摘要生成的装置将至少一个第一词性短语和至少一个第二词性短语中每个词性短语的重要性、各个词性短语之间的相似度输入整数线性规划函数中,在整数线性规划函数取极值的情况下,确定每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重;一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语。s110b、多文档摘要生成的装置根据每个词性短语的候选权重以及各个词性短语之间的相似度的联系权重,确定满足预设条件的词性短语。可以理解的是,预设条件中包括了对短语结合中各个短语特征和各个短语之间相似度的约束,不符合预设条件的短语都会被剔除掉,直至保留满足预设条件的第一词性短语和第二词性短语作为摘要短语集合。其中,词性短语的候选权重为1表示该词性短语在整数线性规划函数取极值的情况下,为满足预设条件的词性短语,词性短语的候选权重为0表示该词性短语在整数线性规划函数取极值的情况下,为不满足预设条件的词性短语。两个短语之间的相似度用于表示短语在多篇候选文档中的冗余度,预设条件通过对特征和各个短语之间相似度的约束可以对短语的重要性和冗余度筛选。可选的,步骤s110具体可以通过以下方式实现:将至少一个第一词性短语和至少一个第二词性短语以及各自对应的重要性参数值输入到整数线性规划函数max{∑iαisi-∑i<jαij(si+sj)rij}中,以优化整数线性规划函数,在保证目标函数的值最大的情况下,尽量避免选择相似的短语进入摘要中。通过求解该优化问题,将符合条件的至少一个第一词性短语和至少一个第二词性短语保留下来,组成摘要短语集合,以生成最后的多文档摘要。其中,pi表示编号为i的短语,pj表示编号为j的短语,si表示短语pi的重要性参数值,sj表示短语pj的重要性参数值,rij表示短语pi和短语pj的相似度,αij表示短语pi和短语pj相似度的权重,αi表示编号为i的短语的权重。一个词性短语的候选权重用于确定该一个词性短语是否为满足预设条件的词性短语;联系权重用于确定相似的短语是否同时被选择。短语之间的相似度用于衡量短语之间语义相似的程度。可以理解的是,上述只是整数线性规划函数的一个实例,在实际使用过程中还可以采用其他各种形式的整数线性规划函数,以得到各个词性短语的权重或联系权重。其中,计算两个短语之间的相似性可以为:计算动词短语之间的两两相似度、名词短语之间的两两相似度,可以通过余弦相似度(cosinesimilarity)或者指数函数(jaccardindex)来实现。目标函数定义:最大化选中的短语重要度之和,同时最小化选中短语之间的冗余重要度之和部分为选中的名词和动词短语权重之和如果同时选中的名词短语对或者动词短语对存在冗余,则进行惩罚目标函数形式:可选的,在步骤s107之前,本发明实施例提供的方法还包括:s111、多文档摘要生成的装置根据每个候选句子、用于描述事件的m个向量以及候选矩阵,在进行无监督学习模型过程中优化重建误差函数,在重建误差函数取值最小的情况下,将候选矩阵中每一列的列向量的模作为一个词语的重要性,获得每个词语的重要性。可选的,步骤s111具体可以通过以下方式实现:根据公式其中,候选矩阵y的作用为使得输出向量y尽量稀疏。可选的,本发明实施例中的步骤s104可以通过以下方式实现:将摘要短语集合按照预置组合方式组合,获得多篇候选文档的摘要。需要说明的是,本发明实施例中的预置组合方式可以是现有组合方式,也可以是其他组合方式,本发明实施例对此不进行限定。示例性的,步骤s104可以通过步骤s112-s113具体实现:s112、多文档摘要生成的装置按照摘要短语集合中每个词性短语在多篇候选文档的每个候选句子中的顺序,对摘要短语集合中包括的多个词性短语排序,得到摘要句子。s113、多文档摘要生成的装置将摘要句子按照多篇候选文档中动词词性短语出现的最早顺序进行排练,得到多篇候选文档的摘要。可选的,在步骤s113之前还包括:s114、多文档摘要生成的装置对包括多个动词词性短语的摘要句子,在该摘要句子的多个动词短语之间添加连词。多文档摘要有标准的英文验证数据集,例如,duc2007数据集和tac2011数据集。下面将对本发明实施例提供的一种多文档摘要生成的方法应用于duc2007数据集和tac2011数据集中以确定所提取的多文档摘要的效果予以说明:本技术首先在duc2007和tac2011上进行了效果验证试验。其中duc2007有45个主题,每个主题20篇新闻,4个人工标注摘要,摘要字数限制为250字。tac2011有44个主题,每个主题有10篇新闻,4个人工标注,摘要字数限制100字。评测指标为覆盖度(rouge)的f-测度(measure)。为了评价本发明实施例提取的多文档摘要的精度,评测结果如表1和表2所示,表1示出了应用本发明实施例提供的方法在duc2007数据集的摘要结果,表2示出了应用本发明实施例提供的方法在tac2011数据集的摘要结果:表1采用本发明实施例提供的方法在duc2007数据集生成的摘要结果表2采用本发明实施例提供的方法在tac2011生成的摘要结果系统(system)r-1r-2r-3random0.3030.0450.090lead0.3150.0710.103pkutm0.3960.1130.148abs-phrase0.3930.1170.148ra-mds0.4000.1170.151ours0.400*0.121*0.153*表1和表2展示了本技术分别在duc2007数据集和tac2011数据集生成的摘要结果的对比,并且与其他最好的无监督多文档摘要模型进行比较,结果表明本申请提供的多文档摘要的生成的方法在各项指标都取得了最好的结果,提升了多文本摘要的效果。其中,duc2007数据集有45个主题,每个主题20篇新闻,4个人工标注摘要,摘要字数限制为250字。tac2011有44个主题,每个主题有10篇新闻,4个人工标注,摘要字数限制100字。评测指标为rouge的f-measure。如之前所述,本本申请提供的多文档摘要的生成的方法能够估计多篇候选文档中包括的词语的重要性。为了验证估计的词语的重要性的效果,从tac2011数据集中选择了4个主题,分别是“finlandshooting”,“heartdisease”,“hivinfectionafrica”和“petfoodrecal”。每个主题从输出向量中选择词典维对应值最大的前10个词,如下表3所示:表3采用本申请提供的方法在tac2011数据集的4个主题中所估计的词语的重要性从表3可以看出,每个主题的前10个词语,已经可以准确地反映出每个主题的主要内容,因此可知道本发明实施例提供的方法对词语重要性预估效果较好。在该实验设计中,本申请从tac2011数据集中选择了几个典型的主题(例如,主题“vtechshooting”,主题“oilspillsouthkorea”,具体的每个主题所涉及的文章内容可以从tac2011数据集中获取,本发明实施例在此不再赘述),针对所选择的典型的主题采用本发明实施例提供的方法生成的多文档摘要,以及人工标注生成的多文档摘要进行对比,如表4和表5:表4:主题“vtechshooting”表5:主题“oilspillsouthkorea”对比表4和表5的内容可以知道,采用本申请提供的方法生成的多文档摘要在应用于相同的主题时,其生成的多文档摘要的内容和人工标注生成的多文档摘要的内容基本一致,能够覆盖原主题的中心思想,并且句子规整,也符合正确的语法规则。上述主要从多文档摘要生成的装置的角度对本申请提供的方案进行了介绍。可以理解的是,多文档摘要生成的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的多文档摘要生成的装置及方法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。本发明实施例可以根据上述方法示例对多文档摘要生成的装置等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在采用对应各个功能划分各个功能模块的情况下,图6示出了上述实施例中所涉及的多文档摘要生成的装置的一种可能的结构示意图,如图6所示,包括:获取单元601、估计单元602、选择单元603以及生成单元604,其中,获取单元601用于支持多文档摘要生成的装置执行上述实施例中的步骤s101、s105,估计单元602用于支持多文档摘要生成的装置执行上述实施例中的步骤s102、s106、s109(具体的,例如s109a和步骤s109b)、s111,选择单元603用于支持多文档摘要生成的装置执行上述实施例中的步骤s103以及s110(s110a、s110b),生成单元604用于支持多文档摘要生成的装置执行上述实施例中的步骤s104(具体的可以为:s112、s113以及s114),当然还可以包括过滤单元605用于支持多文档摘要生成的装置执行上述实施例中的步骤s107(具体的,例如,s107a和s107b),提取单元606用于支持多文档摘要生成的装置执行上述实施例中的步骤s108。可以理解的是,本发明实施例中的生成单元604即为如图1所示的多文档摘要生成的装置中的摘要生成模块103,获取单元601、估计单元602、选择单元603以及生成单元604即为图1所示的多文档摘要生成的装置中的重要性估计模块102。在采用集成的单元的情况下,图7示出了上述实施例中所涉及的多文档摘要生成的装置的一种可能的逻辑结构示意图。多文档摘要生成的装置包括:处理模块512和通信模块513。处理模块512用于对多文档摘要生成的装置的动作进行控制管理,例如,处理模块512用于执行上述实施例中的步骤s101、s105,s102、s106、s109(具体的,例如s109a和步骤s109b)、s111,s103以及s110(s110a、s110b),步骤s104(具体的可以为:s112、s113以及s114),步骤s107(具体的,例如,s107a和s107b),步骤s108。和/或用于本文所描述的技术的其他过程。通信模块513用于支持多文档摘要生成的装置与其他设备的通信。多文档摘要生成的装置还可以包括存储模块511,用于存储多文档摘要生成的装置的程序代码和数据。其中,处理模块512可以是处理器或控制器,例如可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信模块513可以是通信接口等。存储模块511可以是存储器。当处理模块512为处理器,通信模块513为通信接口,存储模块511为存储器时,本发明实施例所涉及的多文档摘要生成的装置可以为图8所示的终端。图8提出了本发明实施例提供的一种终端的结构示意图,如图8可知,终端包括:处理器301、通信接口302、存储器304以及总线303。其中,通信接口302、处理器301以及存储器304通过总线303相互连接;总线303可以是pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器304用于存储终端的程序代码和数据。通信接口302用于支持终端与其他设备通信,处理器301用于支持终端执行存储器304中存储的程序代码和数据以实现本发明实施例提供的多文档摘要生成的方法。一方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机可读存储介质在终端上运行时,使得多文档摘要生成的装置执行上述实施例中的步骤s101、s105,s102、s106、s109(具体的,例如s109a和步骤s109b)、s111,s103以及s110(s110a、s110b),步骤s104(具体的可以为:s112、s113以及s114),步骤s107(具体的,例如,s107a和s107b),步骤s108。通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1