一种摘要获取的方法、装置、设备及计算机可读存储介质与流程

文档序号:17723436发布日期:2019-05-22 02:20阅读:163来源:国知局
一种摘要获取的方法、装置、设备及计算机可读存储介质与流程

本申请涉及互联网技术领域,具体涉及一种摘要获取的方法、装置、设备及计算机可读存储介质。



背景技术:

随着信息时代的飞速发展,互联网中累积了大量的文本信息。然而人们的兴趣点通常只是其中极少的部分。如何迅速有效地从海量信息中找到这些兴趣点是亟待解决的问题。信息检索技术的出现缓解了这个问题带来的压力。但成千上万的检索结果与人们的实际需求还相差甚远。传统的信息检索技术在面对信息过载时并不能达到很好的效果,而自动摘要技术可以在一定程度上起到辅助作用。

首先,信息检索过程中可以使用优质的摘要代替原文进行检索,极大提高了检索的效率;其次,在检索结果的可视化中利用优质摘要,用户不需要对大量的原始检索结果进行浏览便能轻松取舍,不但能提高需求信息的命中率,用户负担也大大降低。因此自动摘要技术逐渐成为当前信息检索领域的研究热点之一。

自动摘要技术的目的是在保留原文核心内容的前提下,对原始文本进行信息压缩表示。摘要准确全面地反映了某一文章的核心内容,而自动摘要技术则用于自动地从文档中提取摘要。目前的自动摘要技术所提取的摘要的准确度不高,这一问题亟待解决。



技术实现要素:

为解决摘要获取的准确度,本申请实施例提供一种摘要获取的方法,可以提高所获取摘要的准确度。本申请实施例还提供了相应的装置、设备及计算机可读存储介质。

本申请第一方面提供一种摘要获取的方法,包括:

获取待获取摘要的目标文档;

划分出所述目标文档中的每个句子,以及所述每个句子中的词语;

基于长短时记忆lstm模型构建的分类器分别确定所述每个句子为摘要句的概率,所述lstm模型构建的分类器包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述目标文档的向量,所述每个句子为摘要句的概率依据所述目标文档的向量以及所述每个句子的向量确定;

将所述每个句子中概率满足摘要句条件的句子确定为所述目标文档的摘要句,所述摘要句组成所述目标文档的摘要。

本申请第二方面提供一种用于摘要提取的分类器的训练方法,包括:

获取用于训练分类器的文档;

划分出所述文档中的每个句子,以及所述每个句子中的词语;

向长短时记忆lstm模型中输入所述每个句子,以得到所述文档的向量表达式,所述lstm模型包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述文档的向量,所述文档的向量表达式中包括所述lstm模型中的参数;

使用所述文档的向量表达式做最小化代价函数处理,以确定所述lstm模型中的参数,得到用于摘要提取的分类器。

本申请第三方面提供一种摘要获取的装置,包括:

获取程序模块,用于获取待获取摘要的目标文档;

预处理程序模块,用于划分出所述获取程序模块获取的目标文档中的每个句子,以及所述每个句子中的词语;

第一确定程序模块,用于基于长短时记忆lstm模型构建的分类器分别确定所述预处理程序模块划分出的每个句子为摘要句的概率,所述lstm模型构建的分类器包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述目标文档的向量,所述每个句子为摘要句的概率依据所述目标文档的向量以及所述每个句子的向量确定;

第二确定程序模块,用于将所述第一确定程序模块确定出的所述每个句子中概率满足摘要句条件的句子确定为所述目标文档的摘要句,所述摘要句组成所述目标文档的摘要。

本申请第四方面提供一种用于摘要提取的分类器的训练装置,包括:

获取程序模块,用于获取用于训练分类器的文档;

预处理程序模块,用于划分出所述获取程序模块获取的文档中的每个句子,以及所述每个句子中的词语;

输入程序模块,用于向长短时记忆lstm模型中输入所述预处理程序模块划分出的每个句子,以得到所述文档的向量表达式,所述lstm模型包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述文档的向量,所述文档的向量表达式中包括所述lstm模型中的参数;

处理程序模块,用于使用所述lstm模型得到的文档的向量表达式做最小化代价函数处理,以确定所述lstm模型中的参数,得到用于摘要提取的分类器。

本申请第五方面提供一种计算机设备,所述计算机设备包括:输入/输出(i/o)接口、处理器和存储器,所述存储器中存储有上述第一方面所述的摘要获取的指令;

所述i/o接口用于获取待获取摘要的目标文档;

所述处理器用于执行存储器中存储的摘要获取的指令,执行如上述第一方面所述的摘要获取的方法的步骤。

本申请第六方面提供一种计算机设备,所述计算机设备包括:输入/输出(i/o)接口、处理器和存储器,所述存储器中存储有上述第二方面所述的用于摘要提取的分类器的训练指令;

所述i/o接口用于获取用于训练分类器的文档;

所述处理器用于执行存储器中存储的用于摘要提取的分类器的训练指令,执行上述第二方面所述的用于摘要提取的分类器的训练方法的步骤。

本申请第七方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有摘要获取的指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。

本申请第八方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有用于摘要提取的分类器的训练的指令,当其在计算机上运行时,使得计算机执行上述第二方面所述的训练方法。

本申请实施例采用基于长短时记忆lstm模型构建的分类器确定每个句子是否是摘要句的概率,该lstm模型中使用了词语级别的lstm层来确定句子的向量,使用句子级别的lstm层来确定目标文档的向量,利用目标文档的向量和每个句子的向量来确定每个句子是否是摘要句的概率,这样的摘要获取方式可以提高摘要获取的准确度,从而提高自动提取的目标文档的摘要的质量。

附图说明

图1是本申请实施例中lstm模型结构的一示意图;

图2是本申请实施例中lstm模型结构的另一示意图;

图3是本申请实施例中lstm模型结构的另一示意图;

图4是本申请实施例中用于摘要提取的分类器的训练方法的一实施例示意图;

图5是本申请实施例中摘要获取的方法的一实施例示意图;

图6是本申请实施例中摘要获取的装置的一实施例示意图;

图7是本申请实施例中摘要获取的装置的另一实施例示意图;

图8是本申请实施例中用于摘要提取的分类器的训练装置的一实施例示意图;

图9是本申请实施例中计算机设备的一实施例示意图;

图10是本申请实施例中计算机设备的虚拟化的一实施例示意图。

具体实施方式

下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

本申请实施例提供一种摘要获取的方法,可以提高所获取摘要的准确度。本申请实施例还提供了用于摘要提取的分类器的训练方法、以及相应的装置、设备及计算机可读存储介质。以下分别进行详细说明。

本申请实施例所提供的用于摘要提取的分类器基于长短时记忆(longshort-termmemory,lstm)模型训练得到,本申请实施例中的lstm模型包括词语级别的lstm层和句子级别的lstm层。一篇文档会包含多个句子,一个句子又会包括多个词语,文档的标题也属于一个句子。因此,在对文档进行摘要提取的过程中需要先分析句子中的词语,再分析文档中的句子。进而再预测每个句子成为摘要句的概率。用于摘要提取的分类器在训练过程中就是要通过多个文档对lstm模型进行训练,从而确定lstm模型中的参数,进而训练出分类器。词向量是词语级别的lstm层的输入,词向量可以是从大规模语料预训练得到的,也可以根据任务语料在训练模型的时候得到。

lstm模型的结构示意图可以参阅图1至图3进行理解。

图1为本申请实施例所提供的lstm模型的一结构示意图。

如图1所示,lstm模型包括词语级别的lstm层和句子级别的lstm层,而且词语级别的lstm层和句子级别的lstm层都是双向的lstm。双向的lstm指的是无论是词语级别的lstm层,还是句子级别的lstm层都包括顺序的lstm和逆序的lstm。以词语级别的lstm层为例,针对每个句子中所包含的词语,顺序的lstm指的是从第一个词语开始到最后一个词语为止的顺序,逆序的lstm指的是从最后一个词语开始到第一个词语为止的顺序。同样,针对句子级别的lstm层,顺序的lstm指的是从第一个句子开始到最后一个句子为止的顺序,逆序的lstm指的是从最后一个句子开始到第一个句子为止的顺序。

图1中,标题复用文档中句子的双向lstm计算求得,即复用文档中句子级别lstm的参数。

图2中,标题用单独的双向lstm计算求得,即不复用文档中句子级别lstm的参数,单独训练额外的lstm用于表示标题向量。

图3中,标题向量表示还可以由句子级别的lstm产生,即复用词语级别的lstm和句子级别的lstm的参数,像文档中的句子一样,经过两层双向lstm求得。

图1至图3中关于文档中句子以及句子中词语的处理过程都是相同的,只是针对标题的处理方式略有差异。

关于对句子中的词语以及文档中的句子的处理过程在用于摘要提取的分类器的训练阶段可以参阅图4进行理解。

如图4所示,本申请实施例中用于摘要提取的分类器的训练方法的一实施例包括:

101、获取用于训练分类器的文档。

用于训练分类器的文档可以是预先确定好摘要的样本文档,也可以是没有预先确定好摘要的文档,而是通过深度学习自动学习出这些文档的摘要。

102、划分出所述文档中的每个句子,以及所述每个句子中的词语。

步骤102划分的过程可以是:

根据所述文档中句子之间的边界分隔符,划分出所述文档中的各个句子;

对所述各个句子进行词语划分,将所述各个句子划分为词语集合;

去除所述词语集合中不参与语义分析的词语,以得到用于训练分类器的所述每个句子,以及所述每个句子中的参与语义分析的词语。

也就是说,对文档预划分的过程即将原始文档经过处理得到结构化的表示。一般包括:句子边界识别、分词、去除停用词等。

句子边界识别:文档中通常利用标点符号来识别句子的边界,如句号、叹号、问号等,再考虑标点上下文信息制订一些规则进行句子边界识别。

分词:英文中词与词之间有边界,而中文中没有,为了让计算机更好的理解中文句子,需要对原文档进行分词处理。

去除停用词:去除对句子理解不参与语义分析的词,例如“的”、“了”等词。

103、向长短时记忆lstm模型中输入所述每个句子,以得到所述文档的向量表达式,所述lstm模型包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述文档的向量,所述文档的向量表达式中包括所述lstm模型中的参数。

所述文档的向量可以为所述每个句子的向量的平均向量,所述文档的向量还可以是依据每个句子的向量利用例如加权等其他方法计算得到。

lstm模型的结构可以参阅图1至图3进行理解。利用lstm构建句子分类器。在lstm单元中,设计了专门的记忆单元(memorycell)用于储存历史信息。历史信息的更新和使用分别受三个门的控制——输入门(inputgate)、遗忘门(forgetgate)和输出门(outputgate)。输入门it、遗忘门ft、输出门ot、t时刻lstm记忆单元ct和候选记忆单元以及lstm单元的输出ht如公式(1)-公式(6)所示。

it=σ(wxixt+whiht-1+wcict-1)(2)

ft=σ(wxjxt+whjht-1+wcjct-1)(3)

ot=σ(wxoxt+whoht-1+wcjct-1(5)

ht=ot⊙tanh(ct)(6)

其中,wxc、whc、wxi、whi、wci、wxf、whf、wcf、wxo、、who、wcf分别都是lstm单元的参数,ht是第t时刻lstm单元的输出,xt是第t时刻lstm单元的输入,ht-1是第t-1时刻lstm单元的输出,⊙表示逐点乘积。

其中,在词语级别的lstm层输入xt是第t时刻输入的句子中词语的词向量,ht是第t时刻输出的句子向量。

其中,在句子级别的lstm层输入xt是第t时刻输入的句子的词向量,ht是第t时刻输出的文档向量。

图1至图3中,词语级别的lstm层,针对每个句子,例如句子1,基于当前句子1中的词语的词向量和前一时刻隐含层状态,来顺序计算每个词语的隐含层状态表示。前一时刻隐含层状态即前一时刻的输出。若当前时刻为t时刻,则前一时刻为t-1时刻。依据t时刻输入句子的词向量和t-1时刻的输出ht-1即可计算出t时刻的输出ht。若是顺序lstm,则从句子1中的第一个词语计算到句子1中的最后一个词语,若是逆序lstm,则从句子1中的最后一个词语计算到句子1中的第一个词语。

针对句子级别的lstm层,它的输入是所有时刻词语级别双向lstm隐含层拼接向量的平均向量。句子级别的lstm层的每个隐含层状态表示文档中的每个句子的向量表示。而整个文档的向量表示d即所有句子级别双向lstm隐含层拼接向量的平均向量,如下述公式(7)所示:

其中,分别是第j个句子的句子级别的lstm层的前向和后向隐含层状态,nd是文档中句子的数量,“[]”表示向量拼接。

对于某些带有标题的文档,例如新闻来说,标题能够简洁明了地表示文档内容,对于摘要提取有帮助。在lstm模型中,可以将标题看作一个句子,因此标题的向量表示t即标题中所有词语的词语级别双向lstm隐含层拼接向量的平均向量,如公式(8)所示。

其中,分别是标题中第j个词语的词语级别lstm的前向和后向隐含层状态,nt是标题中词语的数量。在计算标题向量时,复用词语级别lstm的参数。

104、使用所述文档的向量表达式做最小化代价函数处理,以确定所述lstm模型中的参数,得到用于摘要提取的分类器。

对于句子分类,每个句子都要经过分类层来判断当前句子是否是摘要句。分类层的输出是当前句子是摘要句的概率,如下公式(9)所示。

其中,yj是1或0,表示文档的第j个句子是否是摘要句,hj表示第j时刻句子级别双向lstm的隐含层拼接向量,wc,ws,wtd,wst,wap,wrp表示各个特征的权重,wc,ws,wtd,wst,wap是各个特征的参数表示,表示句子绝对位置向量,表示句子的相对位置,σ是sigmod函数。也就是说,当前句子是摘要句的概率是由各个特征加权求得。

在公式(9)中,wchj表示文档中第j个句子的内容信息,句子内容越丰富,被选为摘要句的可能性越大;表示句子与文档的相似度,相似度越大,说明当前句子越能代表文档,被选为摘要句的可能性越大;ttwtdd表示标题与文档的相似度,表示句子与标题的相似度,一般来说,标题能够很好地概括文档内容,因此与标题越相似的句子越可能作为摘要句,但为了防止标题与文档内容不符,因此标题与文档的相似度越大,被选为摘要句的可能性越大。

在训练过程中,最小化代价函数的条件下,求解各个参数w和b,代价函数是标注分类结果与预测分类结果的交叉熵,如下公式(10)所示:

其中,yjd表示句子是否是摘要句。在预测过程中,模型会预测出每个句子序列是摘要句的概率p(yj),可以利用这个0-1之间的概率值来提取摘要。

若各个句子的概率可以确定,则可以确定出各个特征的参数wc,ws,wtd,wst,wap。

上述实施例描述了用于摘要提取的分类器的训练过程,该分类器训练好后,就可以使用该分类器对目标文档进行摘要提取。

使用分类器提取目标文档的摘要的过程可以参阅图5进行理解。

如图5所示,本申请实施例提供的摘要获取的方法的一实施例包括:

201、获取待获取摘要的目标文档。

本申请实施例中的目标文档为要提取摘要的文档。

202、划分出所述目标文档中的每个句子,以及所述每个句子中的词语。

对目标文档的划分过程可以是:

根据所述目标文档中句子之间的边界分隔符,划分出所述目标文档中的各个句子;

对所述各个句子进行词语划分,将所述各个句子划分为词语集合;

去除所述词语集合中不参与语义分析的词语,以得到用于确定概率的所述每个句子,以及所述每个句子中的参与语义分析的词语。

不参与语义分析的词语指的是没有含义的词语,如:“了”、“等”词语等。

203、基于长短时记忆lstm模型构建的分类器分别确定所述每个句子为摘要句的概率,所述lstm模型构建的分类器包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述目标文档的向量,所述每个句子为摘要句的概率依据所述目标文档的向量以及所述每个句子的向量确定。

所述目标文档的向量可以为所述每个句子的向量的平均向量,所述目标文档的向量还可以是依据每个句子的向量利用例如加权等其他方法计算得到。

前述实施例已经描述了分类器的训练过程,本申请实施例中对分类器的使用过程也可以参阅前述训练过程进行理解,针对目标文档中的每个句子,可以通过词语级别的lstm层确定出每个句子的向量,进而句子级别的lstm层确定出目标文档的向量,所述目标文档的向量为所述每个句子的向量的平均向量。在所述目标文档的向量以及所述每个句子的向量确定后,就可以确定每个句子为摘要句的概率。

204、将所述每个句子中概率满足摘要句条件的句子确定为所述目标文档的摘要句,所述摘要句组成所述目标文档的摘要。

最终摘要生成的复杂度取决于用户的不同需求,从原文中抽取出摘要句后,还可以对这些摘要句稍作润色及修改得到最终的摘要。

可选地,所述目标文档的向量为所述每个句子的拼接向量的平均向量,所述拼接向量包括所述每个句子的前向向量和后向向量;

所述每个句子中包括所述目标文档的标题,所述标题的向量为所述标题中每个词语的拼接向量的平均向量,所述标题中每个词语的拼接向量包括所述标题中每个词语的前向向量和后向向量。

可选地,所述基于长短时记忆lstm模型构建的分类器分别确定所述每个句子为摘要句的概率,可以包括:

根据所述目标文档的向量和所述每个句子的向量,确定第一相似度,所述第一相似度为所述每个句子与所述目标文档的相似度;

根据所述目标文档的向量和所述标题的向量确定第二相似度,所述第二相似度为所述标题与所述目标文档的相似度;

根据所述标题的向量和所述每个句子的向量确定第三相似度,所述第三相似度为所述每个句子与所述标题的相似度。

根据所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率。

可选地,所述方法还可以包括:

确定所述每个句子的句子内容的丰富程度,以及所述每个句子在所述目标文档中的位置;

所述根据所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率,可以包括:

根据所述每个句子的句子内容的丰富程度、所述每个句子在所述目标文档中的位置以及所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率。

本申请实施例中,确定每个句子的概率的过程可以参阅上述公式9进行理解,当然,不限于上述公式9一种形式,还可以使用公式9的变形,在公式9中增加或减少一些特征,也可以用于确定每个句子的概率。

每个句子的概率确定后,就可以确定这个句子是否为摘要句,若这个句子的概率为1,则可以确定这个句子为摘要句,若这个句子的概率为0,则可以确定这个句子不是摘要句,也可以是设置一概率阈值,若概率阈值为0.8,若概率大于0.8,则确定这个句子为摘要句,若概率小于0.8,则确定这个句子不是摘要句。当然,概率阈值可以根据需求设定,不限定于该处举例的具体数值。

本本申请实施例中通过lstm模型构建一个分类器,对于文档中的每个句子,预测其成为摘要句的概率。此外,标题能够简洁明了地表示文档内容,对于摘要的自动提取有很大的帮助,因此,本申请中将标题信息融入到用于摘要提取的分类器中,在考虑了标题与句子相似度的同时,还考虑了标题与文档的相似度信息,从而提高了摘要的质量。通过大规模语料预训练的词向量和上下文信息的利用能够更为充分地从语义的角度对句子和文档进行建模。该方法和装置可以减少了人为设计特征造成的不完备性,并能够很好地利用文本的语义信息以及标题信息,从而提高了所提取摘要的准确性。

以上描述了用于摘要提取的分类器的训练过程和使用分类器对目标文档中摘要的提取过程,下面结合附图介绍本申请实施例中的摘要获取的装置30和用于摘要提取的分类器的训练装置40。

参阅图6,本申请实施例提供的摘要获取的装置30的一实施例包括:

获取程序模块301,用于获取待获取摘要的目标文档;

预处理程序模块302,用于划分出所述获取程序模块301获取的目标文档中的每个句子,以及所述每个句子中的词语;

第一确定程序模块303,用于基于长短时记忆lstm模型构建的分类器分别确定所述预处理程序模块302划分出的每个句子为摘要句的概率,所述lstm模型构建的分类器包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述目标文档的向量,,所述每个句子为摘要句的概率依据所述目标文档的向量以及所述每个句子的向量确定;

第二确定程序模块304,用于将所述第一确定程序模块303确定出的所述每个句子中概率满足摘要句条件的句子确定为所述目标文档的摘要句,所述摘要句组成所述目标文档的摘要。

本申请实施例提供的摘要提取的装置30使用基于长短时记忆lstm模型构建的分类器确定每个句子是否是摘要句的概率,该lstm模型中使用了词语级别的lstm层来确定句子的向量,使用句子级别的lstm层来确定目标文档的向量,利用目标文档的向量和每个句子的向量来确定每个句子是否是摘要句的概率,这样的摘要获取方式可以提高摘要获取的准确度,从而提高自动提取的目标文档的摘要的质量。

可选地,所述目标文档的向量为所述每个句子的拼接向量的平均向量,所述拼接向量包括所述每个句子的前向向量和后向向量;

所述每个句子中包括所述目标文档的标题,所述标题的向量为所述标题中每个词语的拼接向量的平均向量,所述标题中每个词语的拼接向量包括所述标题中每个词语的前向向量和后向向量。

可选地,所述第一确定程序模块303用于:

根据所述目标文档的向量和所述每个句子的向量,确定第一相似度,所述第一相似度为所述每个句子与所述目标文档的相似度;

根据所述目标文档的向量和所述标题的向量确定第二相似度,所述第二相似度为所述标题与所述目标文档的相似度;

根据所述标题的向量和所述每个句子的向量确定第三相似度,所述第三相似度为所述每个句子与所述标题的相似度。

根据所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率。

本申请实施例中,在预测摘要句时,还考虑了标题与文档的相似性,句子与文档的相似性,以及句子与标题的相似性,从而进一步提高了所提取的摘要的质量。

可选地,参阅图7,本申请实施例提供的摘要获取的装置30的另一实施例中,所述装置30还包括第三确定程序模块305,

所述第三确定程序模块305,用于确定所述每个句子的句子内容的丰富程度,以及所述每个句子在所述目标文档中的位置;

所述第一确定程序模块303,用于根据所述每个句子的句子内容的丰富程度、所述每个句子在所述目标文档中的位置以及所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率。

参阅图8,本申请实施例提供的用于摘要提取的分类器的训练装置40的一实施例包括:

获取程序模块401,用于获取用于训练分类器的文档;

预处理程序模块402,用于对所述获取程序模块401获取的文档进行预处理,以划分出所述文档中的每个句子;

输入程序模块403,用于向长短时记忆lstm模型404中输入所述预处理程序模块划分出的每个句子,以得到所述文档的向量表达式,所述lstm模型包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述目标文档的向量,所述目标文档的向量为所述每个句子的向量的平均向量,所述文档的向量表达式中包括所述lstm模型中的参数;

处理程序模块405,用于使用所述lstm模型404得到的文档的向量表达式做最小化代价函数处理,以确定所述lstm模型中的参数,得到用于摘要提取的分类器。

可选地,所述预处理程序模块402用于:

根据所述文档中句子之间的边界分隔符,划分出所述文档中的各个句子;

对所述各个句子进行词语划分,将所述各个句子划分为词语集合;

去除所述词语集合中不参与语义分析的词语,以得到用于训练分类器的所述每个句子,以及所述每个句子中的参与语义分析的词语。

图9是本发明实施例提供的计算机设备50的结构示意图。所述计算机设备50包括处理器510、存储器550和输入输出(i/o)接口530,存储器550可以包括只读存储器和随机存取存储器,并向处理器510提供操作指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(nvram)。

在一些实施方式中,存储器550存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:

在本发明实施例中,在摘要获取的过程中,通过调用存储器550存储的操作指令(该操作指令可存储在操作系统中),

通过i/o接口530获取待获取摘要的目标文档;

划分出所述目标文档中的每个句子,以及所述每个句子中的词语;

基于长短时记忆lstm模型构建的分类器分别确定所述每个句子为摘要句的概率,所述lstm模型构建的分类器包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述目标文档的向量,所述每个句子为摘要句的概率依据所述目标文档的向量以及所述每个句子的向量确定;

将所述每个句子中概率满足摘要句条件的句子,确定为所述目标文档的摘要句,所述摘要句组成所述目标文档的摘要。

本申请实施例使用基于长短时记忆lstm模型构建的分类器确定每个句子是否是摘要句的概率,该lstm模型中使用了词语级别的lstm层来确定句子的向量,使用句子级别的lstm层来确定目标文档的向量,利用目标文档的向量和每个句子的向量来确定每个句子是否是摘要句的概率,这样的摘要获取方式可以提高摘要获取的准确度,从而提高自动提取的目标文档的摘要的质量。

处理器510控制计算机设备50的操作,处理器510还可以称为cpu(centralprocessingunit,中央处理单元)。存储器550可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(nvram)。具体的应用中计算机设备50的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统520。

上述本发明实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器550,处理器510读取存储器550中的信息,结合其硬件完成上述方法的步骤。

可选地,所述目标文档的向量为所述每个句子的拼接向量的平均向量,所述拼接向量包括所述每个句子的前向向量和后向向量;

所述每个句子中包括所述目标文档的标题,所述标题的向量为所述标题中每个词语的拼接向量的平均向量,所述标题中每个词语的拼接向量包括所述标题中每个词语的前向向量和后向向量。

可选地,处理器510用于:

根据所述目标文档的向量和所述每个句子的向量,确定第一相似度,所述第一相似度为所述每个句子与所述目标文档的相似度;

根据所述目标文档的向量和所述标题的向量确定第二相似度,所述第二相似度为所述标题与所述目标文档的相似度;

根据所述标题的向量和所述每个句子的向量确定第三相似度,所述第三相似度为所述每个句子与所述标题的相似度;

根据所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率。

可选地,处理器510还用于:

确定所述每个句子的句子内容的丰富程度,以及所述每个句子在所述目标文档中的位置后,根据所述每个句子的句子内容的丰富程度、所述每个句子在所述目标文档中的位置以及所述第一相似度、所述第二相似度和所述第三相似度确定所述每个句子为摘要句的概率。

可选地,处理器510用于:

根据所述目标文档中句子之间的边界分隔符,划分出所述目标文档中的各个句子;

对所述各个句子进行词语划分,将所述各个句子划分为词语集合;

去除所述词语集合中不参与语义分析的词语,以得到用于确定概率的所述每个句子,以及所述每个句子中的参与语义分析的词语。

在用于摘要提取的分类器的训练过程中,该计算机设备50中的设备执行如下过程:

i/o接口530用于获取用于训练分类器的文档;

处理器510用于:

划分出所述文档中的每个句子,以及所述每个句子中的词语;

向长短时记忆lstm模型中输入所述每个句子,以得到所述文档的向量表达式,所述lstm模型包括词语级别的lstm层和句子级别的lstm层,所述词语级别的lstm层用于根据所述每个句子中的词语确定所述每个句子的向量,所述句子级别的lstm层用于根据所述每个句子的向量确定所述文档的向量,所述文档的向量表达式中包括所述lstm模型中的参数;

使用所述文档的向量表达式做最小化代价函数处理,以确定所述lstm模型中的参数,得到用于摘要提取的分类器。

可选地,处理器510用于:

根据所述文档中句子之间的边界分隔符,划分出所述文档中的各个句子;

对所述各个句子进行词语划分,将所述各个句子划分为词语集合;

去除所述词语集合中不参与语义分析的词语,以得到用于训练分类器的所述每个句子,以及所述每个句子中的参与语义分析的词语。

上对计算机设备50的描述可以参阅图1至图5部分的描述进行理解,本处不再重复赘述。

以上计算机设备还可以是虚拟化的系统,该计算机设备在虚拟化场景下的表现形式如图10所示,该虚拟化场景下的计算机设备包括硬件层和运行在硬件层之上的虚拟机监控器(vmm)1001,以及多个虚拟机1002。可以选择一个或者多个虚拟机作为主控节点,以及多个虚拟机作为工作节点。

具体的,虚拟机1002:通过虚拟机软件在公共硬件资源上模拟出的一台或者多台虚拟的计算机,而这些虚拟机就像真正的计算机那样进行工作,虚拟机上可以安装操作系统和应用程序,虚拟机还可访问网络资源。对于在虚拟机中运行的应用程序而言,虚拟机就像是在真正的计算机中进行工作。

硬件层:虚拟化环境运行的硬件平台,可以由一个或多个物理主机的硬件资源抽象得到的。其中,硬件层可包括多种硬件,例如包括处理器1004(例如cpu)和存储器1005,还可以包括网卡1003(例如rdma网卡)、高速/低速输入/输出(i/o,input/output)设备,及具有特定处理功能的其它设备。

另外,该虚拟化场景下的分布式系统还可以包括宿主机(host):作为管理层,用以完成硬件资源的管理、分配;为虚拟机呈现虚拟硬件平台;实现虚拟机的调度和隔离。其中,host可能是虚拟机监控器(vmm);此外,有时vmm和1个特权虚拟机配合,两者结合组成host。其中,虚拟硬件平台对其上运行的各个虚拟机提供各种硬件资源,如提供虚拟处理器(如vcpu)、虚拟内存、虚拟磁盘、虚拟网卡等等。其中,该虚拟磁盘可对应host的一个文件或者一个逻辑块设备。虚拟机运行在host为其准备的虚拟硬件平台上,host上运行一个或多个虚拟机。

特权虚拟机:一种特殊的虚拟机,亦可称为驱动域,例如这种特殊的虚拟机在xenhypervisor平台上被称作dom0,在该虚拟机中安装了例如网卡、scsi磁盘等真实物理设备的驱动程序,能检测和直接访问这些真实物理设备。其他虚拟机利用hypervisor提供的相应机制通过特权虚拟机访问真实物理设备。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。

以上对本申请实施例所提供的摘要获取的方法、用于摘要提取的分类器的训练方法、装置、设备以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1