文档摘要的生成方法及装置制造方法

文档序号:6634925阅读:113来源:国知局
文档摘要的生成方法及装置制造方法
【专利摘要】本发明提供了一种文档摘要的生成方法及装置,其中,该方法包括:获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,其中,预设特征包括摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;对摘要候选句进行压缩处理;以及对压缩处理后的摘要候选句进行后处理,以生成文档的摘要。本发明实施例提供的文档摘要的生成方法及装置,生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
【专利说明】文档摘要的生成方法及装置

【技术领域】
[0001] 本发明设及计算机【技术领域】,尤其设及一种文档摘要的生成方法及装置。

【背景技术】
[0002] 随着互联网技术的迅速发展,越来越多的用户越倾向于通过互联网查看新闻信 息,目前用户通过移动终端例如手机查看互联网上提供的新闻信息是一种常用方式。然而 随着科技的飞速发展,每天在互联网上更新的新闻量非常庞大,类别多样,形式变化多端, 人们要在有限的时间内阅读该么多的新闻内容,了解其要点信息是非常困难的事情,并且 对于内容量大的新闻,由于移动终端例如手机的屏幕有限,往往手机的首屏中无法展现新 闻的全部内容,用户查看不方便,并且用户阅读大量新闻内容后容易忘记前部分新闻内容 核屯、内容,用户查看新闻的用户体验差。
[0003] 为了方便用户阅读新闻信息,了解新闻的核屯、内容,现有的展现新闻方式主要是 在页面上显示新闻文档对应的标题和对应的一句话摘要或者小于100字的短摘要,移动终 端例如智能手机中的新闻客户端上所显示的新闻信息如图1所示。用户通过查看图1中的 标题和对应的摘要即可获得新闻的核屯、内容,当用户对查看的新闻信息感兴趣后,可通过 点击对应的新闻标题查看详细新闻。
[0004] 现有的生成新闻摘要的方式主要有两种方式,第一种方式为人工编辑新闻摘要, 编辑人员人工对新闻文档中的内容和结构进行分析,W获得对应新闻文档的摘要,然而,通 过人工编辑摘要的方式耗时耗力,新闻摘要更新效率。第二种方式为通过自动摘要系统自 动生成摘要,现有的自动摘要系统可根据用户输入的文档,对文档中的段落进行抽取,然而 现有的自动生成方式仅能对从段落中抽取到的句子进行简单提取,无法直接生成精炼、准 确的新闻摘要。


【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明第 一方面实施例在于提出一种文档摘要的生成方法,该方法生成的摘要精炼、准确,并且摘要 中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提 高文档生成摘要的效率。
[0006] 本发明的第二方面实施例在于提出一种文档摘要的生成装置。
[0007] 为了实现上述目的,本发明第一方面实施例的文档摘要的生成方法,包括;获得文 档,并使用预设特征对所述文档进行处理,W获得摘要候选句,其中,所述预设特征包括摘 要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种 或几种;对所述摘要候选句进行压缩处理;W及对压缩处理后的摘要候选句进行后处理, W生成所述文档的摘要。
[000引根据本发明实施例的文档摘要的生成方法,获得文档,并使用预设特征对文档进 行处理,W获得摘要候选句,W及对摘要候选句进行压缩处理,并对压缩处理后的摘要候选 句进行后处理,w生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗 余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成 摘要的效率。
[0009] 为了实现上述目的,本发明第二方面实施例的文档摘要的生成装置,包括;获得模 块,用于获得文档,并使用预设特征对所述文档进行处理,W获得摘要候选句,其中,所述预 设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子 标题中的一种或几种;压缩处理,用于对所述摘要候选句进行压缩处理;W及生成模块,用 于对压缩处理后的摘要候选句进行后处理,W生成所述文档的摘要。
[0010] 根据本发明实施例的文档摘要的生成装置,通过获得模块获得文档,并使用预设 特征对文档进行处理,W获得摘要候选句,并通过压缩模块对摘要候选句进行压缩处理,W 及通过生成模块对压缩处理后的摘要候选句进行后处理,W生成文档的摘要,该实施例生 成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降 低文档的摘要的生成时间,提高文档生成摘要的效率。

【专利附图】

【附图说明】
[0011] 图1是一个包含新闻信息的页面的示意图。
[0012] 图2是根据本发明一个实施例的文档摘要的生成方法的流程图。
[0013] 图3是根据本发明一个实施例的摘要文章的示意图。
[0014] 图4是根据本发明一个实施例的压缩摘要候选句的流程图。
[0015] 图5是根据本发明一个实施例的文档摘要的生成装置的结构示意图。

【具体实施方式】
[0016] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0017] 下面参考附图描述本发明实施例的文档摘要的生成方法及装置。
[0018] 图2是根据本发明一个实施例的文档摘要的生成方法的流程图,如图2所示,该文 档摘要的生成方法包括:
[0019] S201,获得文档,并使用预设特征对文档进行处理,W获得摘要候选句。
[0020] 其中,除了使用文本处理的通用特征外,本实施例还针对摘要特点引入预设特征, 并使用预设特征对文档进行处理,需要说明的是,上述预设特征为本发明提出的特有特征。 该预设特征可W包括但不限于摘要关键词、数词、与文档中包含的标题的距离在预定范围 内的句子和子标题中的一种或几种。
[0021] 在该实施例中,获得待生成摘要的文档后,可先对该文档进行预处理,并在预处理 后,使用现有的通用特征例如句子位置信息、段落信息、肥R等特征对预处理后的文档进行 特征提取的同时,还使用预设特征(例如摘要关键词、数词、与文档中包含的标题的距离在 预定范围内的句子和子标题等)对预处理后的文档进行特征提取,然后获得所提取特征的 权重,并根据权重计算预处理后的文档中每个句子的分数,W及按照分数由高到低的顺序 对句子进行排序,根据排序结果获得摘要候选句。
[0022] 具体地,可基于摘要生成系统中预先保存的词典W及规则词表对W标题和正文形 式输入的文档进行预处理,通过预处理可将文档中无效信息去除,例如,可过滤数据中的图 标题、报头等无效信息。
[0023] 在对文档进行预处理后,可基于预设特征对文档进行特征提取,W提取出满足预 设特征的句子,针对不同的特征所对应的特征提取方式不同。下面分别对使用摘要关键词、 数词、与文档中包含的标题的距离在预定范围内的句子(即标题附近的句子)或者子标题 等预设特征对文档进行特征提取的过程进行介绍。
[0024] (1)摘要关键词
[0025] 对于摘要关键词特征,在提取文档中包含关键词的句子的过程中,可根据摘要生 成系统中预先保存的摘要关键词表对文档进行处理,具体地,可判断文档中的每个句子中 是否包含摘要关键词表中的词语,若文档中的句子中包含摘要关键词表中的词语,则提取 对应的句子。其中,所提取出的句子可W成为摘要候选句。
[0026] 其中,摘要关键词表中保存了一些可W高度概括文档的中屯、内容的摘要关键词, 摘要关键词是指经常出现在摘要中的词语,该些词语可从真实的人工编辑摘要中获得。通 过摘要关键词可W准确定位出文档的摘要候选句。摘要关键词表如表1所示,并且表1中 仅是摘要关键词表中的部分内容。
[0027] 表1摘要关键词表 [002引

【权利要求】
1. 一种文档摘要的生成方法,其特征在于,包括: 获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设 特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标 题中的一种或几种; 对所述摘要候选句进行压缩处理;以及 对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
2. 根据权利要求1所述的方法,其特征在于,所述使用预设特征对所述文档进行处理, 以获得摘要候选句,包括: 对所述文档进行预处理,使用所述预设特征对预处理后的文档进行特征提取; 获得所提取特征的权重,并根据所述权重计算所述预处理后的文档中每个句子的分 数;以及 按照分数由高到低的顺序对所述句子进行排序,根据排序结果获得所述摘要候选句。
3. 根据权利要求1所述的方法,其特征在于,所述对所述摘要候选句进行压缩处理,包 括: 以子句为单位对所述摘要候选句进行压缩处理。
4. 根据权利要求1所述的方法,其特征在于,所述对压缩处理后的摘要候选句进行后 处理,以生成所述文档的摘要,包括: 对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要。
5. 根据权利要求3所述的方法,其特征在于,所述以子句为单位对所述摘要候选句进 行压缩处理,包括: 确定子句区分标识符,根据所述子句区分标识符将所述摘要候选句拆分成子句集合; 基于预设识别特征将所述子句集合划分为可压缩子句集合和不可压缩子句集合;以及 基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行 压缩。
6. 根据权利要求4所述的方法,其特征在于,所述对压缩处理后的摘要候选句进行去 冗余和重排序处理,以生成所述文档的摘要,包括: 针对压缩处理后的每个摘要候选句,计算当前摘要候选句与所述标题的第一相似度, 若所述第一相似度大于第一预设阈值,则删除所述当前摘要候选句,若所述第一相似度小 于等于所述第一预设阈值,则保留所述当前摘要候选句; 计算任意两个保留的摘要候选句之间的第二相似度,若所述第二相似度大于第二预设 阈值,则删除参与计算的一个摘要候选句,若所述第二相似度小于等于所述第二预设阈值, 则保留参与计算的两个摘要候选句;以及 按照所保留的摘要候选句在所述文档中出现的顺序依次连接所保留的摘要候选句,生 成所述文档的摘要。
7. -种文档摘要的生成装置,其特征在于,包括: 获得模块,用于获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句, 其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内 的句子和子标题中的一种或几种; 压缩处理,用于对所述摘要候选句进行压缩处理;以及 生成模块,用于对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
8. 根据权利要求7所述的装置,其特征在于,所述获得模块,具体用于: 对所述文档进行预处理,使用所述预设特征对预处理后的文档进行特征提取;获得所 提取特征的权重,并根据所述权重计算所述预处理后的文档中每个句子的分数;以及按照 分数由高到低的顺序对所述句子进行排序,根据排序结果获得所述摘要候选句。
9. 根据权利要求8所述的装置,其特征在于,所述压缩模块,具体用于: 以子句为单位对所述摘要候选句进行压缩处理。
10. 根据权利要求7所述的装置,其特征在于,所述生成模块,具体用于: 对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要。
11. 根据权利要求9所述的装置,其特征在于,所述压缩模块,具体用于: 确定子句区分标识符,根据所述子句区分标识符将所述摘要候选句拆分成子句集合; 基于预设识别特征将所述子句集合划分为可压缩子句集合和不可压缩子句集合;以及基于 预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。
12. 根据权利要求10所述的装置,其特征在于,所述生成模块,具体用于: 针对压缩处理后的每个摘要候选句,计算当前摘要候选句与所述标题的第一相似度, 若所述第一相似度大于第一预设阈值,则删除所述当前摘要候选句,若所述第一相似度小 于等于所述第一预设阈值,则保留所述当前摘要候选句; 计算任意两个保留的摘要候选句之间的第二相似度,若所述第二相似度大于第二预设 阈值,则删除参与计算的一个摘要候选句,若所述第二相似度小于等于所述第二预设阈值, 则保留参与计算的两个摘要候选句;以及 按照所保留的摘要候选句在所述文档中出现的顺序依次连接所保留的摘要候选句,生 成所述文档的摘要。
【文档编号】G06F17/27GK104503958SQ201410665760
【公开日】2015年4月8日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】朱少杰, 吕雅娟, 肖欣延, 付波 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1