本发明属于自然语言处理领域,涉及中文文本摘要算法,具体涉及一种基于语义相关度模型的中文文本摘要获取方法。
背景技术:
现有中文文本摘要算法包括基于序列到序列模型的文本摘要算法,该算法基于深度学习技术,在训练阶段让算法预测的摘要与标准答案尽可能接近,经过一段时间后的训练,该算法可以对中文的文本进行自动摘要。但是,由于训练阶段的目标函数是交叉熵函数,因此,上述方法会导致最后训练得到的模型在字面上与标准摘要相近,但是在语义上与标准摘要可能相差很远。采用现有方法从中文文本摘要中产生的摘要与原文本语义相关度较低,生成摘要的准确度不高,质量不佳。
技术实现要素:
为了克服上述现有技术的不足,本发明提供一种基于语义相关度模型的中文文本摘要获取方法,得到的摘要的语义表达更为准确,能够解决中文文本摘要中产生的摘要与原文本语义相关度较低的问题。
本发明提供的技术方案是:
一种基于语义相关度模型的中文文本摘要获取方法,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化上述相关度,由此生成完整的摘要;包括如下步骤:
a.设计文本编码器,利用深度神经网络将原文本进行压缩,得到原文本的编码向量vs,即原文本经文本编码器进行压缩后得到的信息;
b.设计摘要解码生成器,在第一个时刻输入原文本的编码向量vs和起始的句子开始的标识符,利用深度神经网络循环地在每一时刻输入上一个时刻预测得到的字或者标识符,经过网络结构输出当前时刻预测的字,经过一定的循环次数得到若干个连续的字,即为一段完整的摘要;解码生成器还同时生成上述完整摘要的解码向量vt,生成向量的过程与步骤a相同;
c.构建语义相关度模型,语义相关度模型为余弦相似函数,表示为式1:
其中,vs为文本编码器生成的编码向量,vt为摘要解码生成器生成的向量,符号‖·‖代表向量的二范数。余弦相似函数输入文本编码器和摘要解码生成器输出的语义解码向量,输出两个向量之间的相关度,作为原文本和生成摘要之间相关性的度量;
d.在训练语义相关度模型时,需要最大化步骤c得到的相关度。模型的训练使用亚当(adam)优化算法。在训练过程中,先随机选取训练数据中的若干个样本,对这些样本依照语义相关度模型计算目标函数,目标函数表示为式2:
其中,
e.经过一定轮数的训练后,在开发数据集上能达到最好效果时停止训练,此时解码生成器即可生成完整的摘要。
作为一种优选方案,所述步骤a的实现方法为使用深度神经网络中的循环神经网络,在开始时刻输入原文本中的一个字到循环神经网络,将这个字压缩成一个向量,然后将压缩后得到的向量传入下一时刻;下一时刻循环神经网络输入上一时刻的压缩向量和原文本的下一个字,将二者压缩成新的向量传入下一时刻;在压缩完所有文本后得到的编码向量,即是文本编码器压缩后的信息;
作为一种优选方案,所述步骤b的实现方法采用深度神经网络中的长短时记忆网络。长短时记忆网络在第一个时刻输入一个开始的标识符,然后在接下来的每一时刻输入上一时刻预测的字,经过网络结构输出当前时刻预测的字,经过一定时刻后输出结束的标识符,摘要解码生成器即可生成一段完整的摘要。
作为一种优选方案,所述步骤c的实现方式为:构建的语义相关度模型是一个余弦相似函数,余弦相似函数的输入是文本编码器和摘要解码生成器输出的语义编码向量vs和vt,输出是两个向量之间的相关度cos(vs,vt),作为原文本和生成摘要之间相关性的度量。最后在训练模型的时候最大化这个相关度的分数。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于语义相关度模型的中文文本摘要获取方法,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化上述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。
附图说明
图1是本发明提供的摘要获取方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于语义相关度模型的中文文本摘要获取方法,图1是方法的流程框图,通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化上述相关度,由此生成完整的摘要。
以下实施例以生成一段短新闻文本的摘要为例,新闻文本如下:
“仔细一算,上海的互联网公司不乏成功案例,但最终成为bat一类巨头的几乎没有,这也能解释为何纳税百强的榜单中鲜少互联网公司的身影。有一类是被并购,比如:易趣、土豆网、pps、pptv、一号店等;有一类是数年偏安于细分市场。”采用本发明方法,可按以下步骤实施:
a.设计文本编码器,利用深度神经网络将原文本进行压缩,得到编码向量,即是文本编码器压缩后的信息;具体方式为使用深度神经网络中的长短时记忆网络模型,将上述新闻文本的每个字依次输入网络,在输入最后一个字时得到它的隐藏层向量,作为输入文本的编码向量vs。
b.设计摘要解码生成器,利用深度神经网络在每一时刻输入上一时刻预测得到的字,经过网络结构输出当前时刻预测的字,经过一定的时刻得到一段完整的摘要;具体方式为先使用深度神经网络中的长短时记忆网络模型,输入文本编码器生成的编码向量,然后生成摘要的第一个字“上”,把第一个字“上”输入到长短时记忆网络模型中,得到第二个字“海”,依次类推直到生成一个代表句子结束的标识符,这样就能得到一段生成的摘要文本“上海鲜少互联网巨头的身影”。此外,长短时记忆网络模型还能输出这段摘要文本“上海鲜少互联网巨头的身影”的解码向量vt。
c.构建语义相关度模型,语义相关度模型为余弦相似函数,余弦相似函数输入文本编码器和摘要解码生成器输出的语义解码向量,输出两个向量之间的相似度,作为原文本和生成摘要之间相关性的度量;具体方式为:将文本编码器输出的向量vs和摘要解码生成器输出的向量vt输入如下的余弦相似函数,得到一个相关度:
d.在训练语义相关度模型时,最大化步骤c得到的相关度。具体是将相关度加入以下目标函数中:
计算得到目标函数的梯度,然后用adam算法依照梯度对参数θ进行更新,即可使目标函数最大化。
e.摘要解码生成器生成的摘要即为本方法所需生成的摘要。
本发明具体实施中,文本编码器所用的循环神经网络的参数为词向量维度400,隐藏层维度1000,输入词表的大小为4000;摘要解码生成器的参数与文本编码器一致,即词向量维度400,隐藏层维度1000,生成词表大小为4000,语义相关度函数的权重系数为0.0001。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。