一种基于词向量的文档摘要自动提取方法

文档序号:8512587阅读:258来源:国知局
一种基于词向量的文档摘要自动提取方法
【技术领域】
[0001] 本发明涉及计算机信息检索及文本挖掘领域,尤其是一种基于词向量的文档摘要 自动提取方法。
【背景技术】
[0002] 文本摘要技术是文本挖掘研宄领域重要的一部分,该技术能够找出文档或文档集 中最重要的信息并用简洁连贯的短文进行表示。随着科技进步和网络技术的发展,网络上 存在海量的可利用信息,面对大量的数据,该研宄可以辅助用户快速理解所需信息,节约用 户阅读时间,提高工作效率。
[0003] 目前文本摘要技术主要为抽取型摘要,即从原文中抽取最重要的句子组成摘要, 其生成过程包含三步:句子表示,句子计分,以及摘要生成。具体来讲,该方法首先采用多种 形式表示句子,如包含特征词的词频、TF*IDF、主题词等组成句子向量。一旦句子的表示形 式确定,则利用常用的排序方法如BM25,或者PageRank等计算句子得分,以表示该句子的 重要性,最后利用去冗余方法将得分较高的句子加入到摘要中。到目前为止,文本摘要技术 已经有50多年的研宄历史。随着信息检索技术的快速发展,文本摘要技术也日益成熟。从 最初基于词频、TF*IDF的方法,到引入机器学习,和基于图型表示的方法,文本摘要的性能 均有很大的提升。
[0004] 基于词频、TF*IDF统计的方法认为句子中包含高频词或TF*IDF值高的词越多,则 该句子就越重要,因此有较高的概率加入到最终生成的摘要中。具体地,该方法首先对候选 的语料集进行预处理,包括去停用词、词干化等,随后统计语料中特征词的词频或TF*IDF; 对候选文档集中的每条句子,计算句子的重要性,最简单实用的一种做法是取句子中特征 词概率的平均值,即将句子中特征词的概率取和并除以句子长度;最后对句子排序,选取得 分最高的句子加入到生成的摘要中。该类方法因其计算方便,易于实现等优点常被作为对 比方法广泛应用,但该方法偏向于高频词,生成的摘要往往只涵盖候选集中的部分主题,缺 少语义理解等,因此摘要性能并不显著。
[0005] 近些年,随着机器学习方法的不断推广和改进,越来越多的研宄者开始将机器学 习方法加入到实验中,文本摘要领域也不例外。一种做法是采用监督学习方法,将文本摘要 问题看作为二元分类问题,即每一个候选摘要句可以加入或不能加入到最终的摘要中。在 训练集中,利用逻辑斯蒂回归,朴素贝叶斯或SVM等分类模型对训练集进行训练,得到最优 的权重向量,并对测试集进行分类预测;一种做法是采用多种特征如句子位置、词频、线索 词等表示句子,利用排序学习算法在训练集进行训练,得到最优的特征权重向量,用于在测 试集对候选句子进行计算得分;一种做法是将文本摘要问题看作为聚类问题,即对候选文 档集中的句子进行聚类,采用前文所述的统计方法,或者排序方法等对每个聚类中的句子 进行排序,选取每个聚类中的前η个句子组成摘要。利用机器学习进行自动生成文本摘要 的方法还有很多,并不限于以上所述。虽然当前文本摘要领域仍有越来越多机器学习方法 的改进,但是在通用的多文档新闻摘要领域中,机器学习方法的摘要性能并不优于非监督 方法,该方法更适用于特殊领域或特定类型的摘要中。同时机器学习往往为监督学习模型, 需要标注数据,而该步通常由人工标注实现,非常耗时,且具有主观性,因此机器学习方法 仍然需要进一步的完善。
[0006] 基于图形表示的文本摘要技术由于非监督特性,全局考虑,不需要领域知识和语 法语义分析,以及良好的摘要性能等多个优点,因此受到很多研宄者的关注。该方法将句子 作为图中结点,句子间相似性作为连接结点的边的权重,利用PageRank,HITS等方法迭代 计算结点权重,最终将权重较大的句子加入摘要。句子相似矩阵中的值表示从某条句子到 其他句子的跳转概率,因此对结点权重的计算非常重要,但是传统的图方法在计算句子间 相似性时,多是利用句子中包含特征词的共现性得到,忽略了句子间的语义相似性,降低了 结点权重计算的准确性,影响摘要的性能。

【发明内容】

[0007] 本发明的目的是提供一种能有效避免传统的基于词共现方法计算句子相似性带 来的误差,为用户提取准确且可读性较高的文档摘要的基于词向量的文档摘要自动提取方 法。
[0008] 本发明解决现有技术问题所采用的技术方案:一种基于词向量的文档摘要自动提 取方法,包括以下步骤:
[0009] S1、利用深度神经网络模型训练语料获取特征词的词向量表示:从数据库文档中 采集语料集并对该语料集进行预处理,所述预处理包括对语料集中的语料进行分句处理, 并逐句对照停用词表去除停用词、特殊字符及标点符号,得到训练特征语料集;设置训练参 数,以训练特征语料集为训练数据,利用深度神经网络模型进行训练,以将训练特征语料集 中的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出,得到特征词的 词向量表示形式;
[0010] S2、构建句子图模型:
[0011] 包括以下步骤:
[0012] al、预处理:根据预设查询词在步骤Sl采集到的语料集中进行检索,将检索到的 文档作为候选文档集,对所述候选文档集进行分句处理并去除候选文档集中重复的句子, 得到摘要的候选句子集合;
[0013] a2、构建模型:将候选句子集合中的每条句子作为图模型的结点并赋予平均初始 权重:
【主权项】
1. 一种基于词向量的文档摘要自动提取方法,其特征在于,包括以下步骤: 51、 利用深度神经网络模型训练语料获取特征词的词向量表示:从数据库文档中采集 语料集并对该语料集进行预处理,所述预处理包括对语料集中的语料进行分句处理,并逐 句对照停用词表去除停用词、特殊字符及标点符号,得到训练特征语料集;设置训练参数, 以训练特征语料集为训练数据,利用深度神经网络模型进行训练,以将训练特征语料集中 的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出,得到特征词的词 向量表示形式; 52、 构建句子图模型: 包括以下步骤: al、预处理:根据预设查询词在步骤Sl采集到的语料集中进行检索,将检索到的文档 作为候选文档集,对所述候选文档集进行分句处理并去除候选文档集中重复的句子,得到 摘要的候选句子集合; a2、构建模型:将候选句子集合中的每条句子作为图模型的结点并赋予平均初始权 重:
其中Si为候选句子集S中的任意句子,N为句子总数;利用步骤Sl得到的特征词的词 向量,通过计算句子间语义相似性作为图中边的权重,构成句子图模型; 对候选句子集合中任意两条句子SJP 分别包含特征词的词向量和g,则句子Si J - i J 和Sj间的语义相似性Similarity (S i, Sj)公式为:
其中,对于句子Si*的特征词向量,Simm(h,Sj)表示在句子S j中和&属于相同词性 的所有特征词的词向量与t的最大相似度值;IsiI和|Sj分别表示的长度; 特征词的词向量之间的相似性由如下公式获得:
其中,g和?是两个特征词心和12经过步骤Sl的深度神经网络模型训练得到对应的 特征词向量。 53、 计算句子权重:对步骤S2得到的图模型,根据步骤S2中的平均初始权重及句子间 语义相似性利用如下公式迭代更新每个结点的权重,直至收敛:
其中,d为阻尼系数,取值范围为0-1,Connection(Si)为与句子Si相似度大于O的句 子集合,I IConnection(Si) I I则为该集合中句子总数; S4、利用最大边缘相关算法生成摘要:利用最大边缘相关算法选择权重最大且无冗余 的句子组成摘要,具体步骤为: bl)、建立空的摘要句子集合;将图模型中各结点所对应的句子作为初始的候选摘要句 子集合; b2)、对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列,将排序后的 各结点所对应的句子作为候选摘要句子序列; b3)、按照候选摘要句子序列,将排列在第一位的句子转移至摘要句子集合中,对候选 摘要句子集合中的剩余句子利用如下公式更新它们的权重: Weight (Sj) = Weight (Sj) - ω X Similarity (Si, Sj-) 其中,i乒j,ω为惩罚因子,Similarity (Si, Sj)为步骤S2中得到的句子语义相似性; b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度。
2. 根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,当 所要更新权重的句子与摘要句子集合中的句子有相似性时,惩罚因子ω为1.0。
3. 根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,所 述深度神经网络模型为Skip-gram模型,利用层次softmax方法训练Skip-gram模型。
4. 根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,步 骤S3中的阻尼系数d为0. 85。
5. 根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,预 设的摘要长度为150个单词。
【专利摘要】一种基于词向量的文档摘要自动提取方法,包括以下步骤:S1、利用深度神经网络模型训练语料获取特征词的词向量表示;S2、构建句子图模型;S3、计算句子权重;S4、利用最大边缘相关算法生成摘要。本发明通过采集语料集并对该语料集进行预处理,得到训练特征语料集;并利用深度神经网络模型对所构建的训练特征语料集进行训练,用于得到特征词的词向量;语料集中根据预设查询词得到候选文档集合及候选句子集合,再根据特征词的词向量得到句子间的语义相似性,从而得到两个句子之间的语义联系,避免了传统基于词共现计算方法在同义不同词情况下出现的计算误差问题,从而提高相似性计算的准确性和摘要性能。
【IPC分类】G06F17-30
【公开号】CN104834735
【申请号】CN201510254719
【发明人】林鸿飞, 郝辉辉
【申请人】大连理工大学
【公开日】2015年8月12日
【申请日】2015年5月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1