一种基于时间知识抽取的文本摘要自动生成方法及系统的制作方法

文档序号:10687042阅读:334来源:国知局
一种基于时间知识抽取的文本摘要自动生成方法及系统的制作方法
【专利摘要】本发明公开了一种基于时间知识抽取的文本摘要自动生成方法及系统,该方法包括从文本中分别抽取种子事实、候选事实及指示所述候选事实所属关系的模式;利用每个模式与种子事实在文本中的共现频率对抽取的模式进行过滤;以候选事实和过滤后的模式作为节点来构建图结构;其中,图结构的边包括候选事实与过滤后的模式之间的连接线以及相似的过滤后的模式之间的连接线;从候选事实中筛选出种子事实,根据标签传递算法以及筛选出的种子事实来对图结构中剩余候选事实进行标注;将标注的候选事实均按照时序进行排序,再套用语言描述模板自动转换成自然语言描述的文字,最终生成文本摘要。本发明提高了摘要的连贯性。
【专利说明】
一种基于时间知识抽取的文本摘要自动生成方法及系统
技术领域
[0001] 本发明属于文本摘要自动生成技术领域,尤其涉及一种基于时间知识抽取的文本 摘要自动生成方法及系统。
【背景技术】
[0002] 现有的文本自动摘要技术基本都是采用从文本中抽取句子,并没有真正对内容进 行总结形成摘要。在摘要长度有限制的情况下,仅仅是简单的抽取句子,很难对内容进行全 面覆盖。因此需要在理解内容的情况下对内容进行抽象总结。
[0003] 近几年大规模文本的语义信息抽取技术越来越成熟。尤其是开放式的信息抽取工 具越来越多,可以从文本中抽取出语义三元组。虽然这些语义三元组可以简明扼要的概括 文本的内容,但是对终端用户来说其可读性并不是很理想。

【发明内容】

[0004] 为了解决现有技术的缺点,本发明提供一种基于时间知识抽取的文本摘要自动生 成方法及系统。本发明通过学习人类总结摘要的方式,先消化整篇文章,然后获取关键信 息,整合和重新组织成简明的摘要,可以较明显地提高摘要的连贯性。
[0005] 为实现上述目的,本发明采用以下技术方案:
[0006] -种基于时间知识抽取的文本摘要自动生成方法,包括:
[0007] 从文本中分别抽取种子事实、候选事实及指示所述候选事实所属关系的模式;
[0008] 利用每个模式与种子事实在文本中的共现频率对抽取的模式进行过滤;以候选事 实和过滤后的模式作为节点来构建图结构;其中,图结构的边包括候选事实与过滤后的模 式之间的连接线以及相似的过滤后的模式之间的连接线;
[0009] 从候选事实中筛选出种子事实,根据标签传递算法以及筛选出的种子事实来对图 结构中剩余候选事实进行标注;
[0010] 将标注的候选事实均按照时序进行排序,再套用语言描述模板自动转换成自然语 言描述的文字,最终生成文本摘要。
[0011] 本发明从文本中分别抽取种子事实、候选事实及指示所述候选事实所属关系的模 式,首先消化整篇文本来获取关键信息;然后利用模式与种子事实在文本中的共现频率对 抽取的模式进行过滤,滤除非关键信息,提高文本摘要内容的简洁性和准确性;以候选事实 和过滤后的模式作为节点来构建图结构,并从候选事实中筛选出种子事实,根据标签传递 算法以及筛选出的种子事实来对图结构中剩余候选事实进行标注,得到准确的候选事实; 最终将标注的候选事实均按照时序进行排序,再套用语言描述模板自动转换成自然语言描 述的文字,最终生成文本摘要。
[0012] 所述候选事实包括时间事实和基本事实,所述时间事实包括事件事实和状态事实 两种类型;所述状态事实包括开始事件、过程中事件和结束事件。
[0013] 利用每个模式与种子事实在文本中的共现频率对抽取的模式进行过滤的过程包 括:
[0014] 归一化每个模式与种子事实在文本中的共现频率,得到抽取的所有模式的权重;
[0015] 滤除低于预设模式权重最小阈值的模式,得到过滤后的模式。
[0016] 将标注的候选事实均按照时序进行排序,该方法还包括对时间事实进行整合,其 具体过程为:
[0017] 将标签传递算法标注为准确的时间事实以柱状图表示,其中,柱状图的横坐标为 时间,纵坐标为时间事实在相应时间段内的频率;
[0018] 找出柱状图的最早和最晚的时间点,将所有事件事实对应的柱状图按照出现的所 有时间点进行分割,使得所有柱状图的柱子具有同样的时间段;
[0019] 再将开始事件对应的柱状图从第一个柱子开始进行累加的同时,减去同时间段的 结束事件的柱子直到最后一个时间点,同时累加上相应的过程中事件的柱状图,最后得到 合成的柱状图,时间事实整合完毕。
[0020] 时间事实进行整合之后,该方法还包括:针对合成的柱状图,给定一个最高可信度 的阈值,抽取高可信时间区间,得到事件事实最可能发生的时间区间。
[0021] -种基于时间知识抽取的文本摘要自动生成系统,包括:
[0022]抽取模块,其用于从文本中分别抽取种子事实、候选事实及指示所述候选事实所 属关系的模式;
[0023] 图结构建立模块,其用于利用每个模式与种子事实在文本中的共现频率对抽取的 模式进行过滤;以候选事实和过滤后的模式作为节点来构建图结构;其中,图结构的边包括 候选事实与过滤后的模式之间的连接线以及相似的过滤后的模式之间的连接线;
[0024] 标注模块,其用于从候选事实中筛选出种子事实,根据标签传递算法以及筛选出 的种子事实来对图结构中剩余候选事实进行标注;
[0025] 转换模块,其用于将标注的候选事实均按照时序进行排序,再套用语言描述模板 自动转换成自然语言描述的文字,最终生成文本摘要。
[0026] 所述候选事实包括时间事实和基本事实,所述时间事实包括事件事实和状态事实 两种类型;所述状态事实包括开始事件、过程中事件和结束事件。
[0027] 图结构建立模块还包括模式过滤模块,所述模式过滤模块用于归一化每个模式与 种子事实在文本中的共现频率,得到抽取的所有模式的权重;滤除低于预设模式权重最小 阈值的模式,得到过滤后的模式。
[0028]该系统还包括证据汇总模块,其用于对时间事实进行整合;所述证据汇总模块包 括:
[0029] 时间事实表示模块,其用于将时间事实以柱状图表示,其中,柱状图的横坐标为时 间,纵坐标为时间事实在相应时间段内出现的频率;
[0030] 事实分割模块,其用于找出柱状图的最早和最晚的时间点,将所有事件事实对应 的柱状图按照出现的所有时间点进行分割,使得所有柱状图的柱子具有同样的时间段;
[0031] 合成模块,其用于将开始事件对应的柱状图从第一个柱子开始进行累加的同时, 减去同时间段的结束事件的柱子直到最后一个时间点,同时累加上相应的过程中事件的柱 状图,最后得到合成的柱状图,时间事实整合完毕。
[0032] 该系统还包括:高可信时间区间抽取模块,其用于给定一个最高可信度的阈值,从 整合完毕的时间事实中抽取高可信时间区间,得到事件事实最可能发生的时间区间。
[0033] 下面针对本发明中的名词进行下列解释:
[0034] 种子事实:确定的事实,用于满足扩充相应关系的事实。比如,可以在信息框和表 格中抽取出人的出生死亡、子女配偶、获奖和工作信息,这些信息都可以作为种子事实,而 且可以用于从文本中扩充相应的事实。
[0035] 事实指的是事情的真实情况,包括事物、事件和事态,即客观存在的一切物体与现 象。
[0036] 候选事实:从文档中至少包含两个实体的句子中的实体对。
[0037] 其中,实体是客观世界中存在的且可互相区分的事物。实体可以是人,也可以是物 体实物,也可以是抽象概念。
[0038] 时间事实:带有时间属性的事实。比如:(贝克汉姆,效力于,皇家马德里)@[2003, 2007]〇
[0039] 基本事实:无时间属性的事实。比如:贝克汉姆,效力于,皇家马德里。
[0040] 事件事实:是指在一个时间点上有效的时间事实。比如,奥巴马于2009年11月18日 访问中国。
[0041 ]状态事实:是指在一个时间段内有效的时间事实。比如,马拉多纳从1982年7月到 1984年6月效力于巴塞罗那队。
[0042]模式:文本每一句中相距在预设间隔词之内的实体对之间的文本。模式作为识别 事实所属关系的标识。
[0043]相似模式:指的是模式中重复文本的概率达到预设概率值得两个模式,互相称之 为相似模式。
[0044] 语言描述模板:即设定的一些规则,将排好序的一组事实组织成顺畅的语句。
[0045] 本发明的有益效果为:
[0046]常用的传统的抽取式摘要生成方法会导致生成的摘要不连贯。本发明通过学习人 类总结摘要的方式,先消化整篇文章,然后获取关键信息,整合和重新组织成简明的摘要。 可以较明显地提高摘要的连贯性。并且在给定文本长度的条件下,能够精炼地展示更多的 fg息。
【附图说明】
[0047]图1为文本摘要自动生成算法流程。
[0048]图2为合成柱状图的过程。
[0049]图3为关系时序拓扑图。
[0050] 图4为基于时间知识抽取的文本摘要自动生成系统结构示意图。
【具体实施方式】
[0051] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述。本发明以给定一篇维基百科人物传记为例:
[0052] 图1是本发明的一种基于时间知识抽取的文本摘要自动生成方法流程示意图,如 图1所示,该方法包括以下步骤:
[0053] 步骤1:从文本中分别抽取种子事实、候选事实及指示所述候选事实所属关系的模 式。
[0054] 其中,步骤1:从文本的结构化/半结构化数据中抽取种子事实,且从文本中抽取候 选事实及其所属关系的模式;
[0055] 在步骤1中按照规则从结构化/半结构化数据(如,维基百科的信息框和表格)中抽 取出种子事实。规则即根据网页内容编写的正则表达式来抓取相应的内容。根据维基百科 的标示,种子事实即被认为是准确的部分事实,接下来用于满足大量扩充相应关系的事实。 比如,可以在信息框和表格中抽取出人的出生死亡、子女配偶、获奖和工作等信息。这些信 息都可以作为种子事实。这些事实可以用于从文本中扩充相应的事实。
[0056] 步骤1的从文本中抽取候选事实及其所属关系的模式的过程中,从文档中至少包 含两个实体的句子中抽取候选事实(实体对),如果存在时间表达,同时把时间属性也抽取 出来。这个关系未知的实体对即为候选事实。这一步也把候选事实的模式在句子中抽取出 来作为下一步模式分析使用。进一步讲,对文本进行实体消岐处理之后,将每一句中相距在 预设间隔词之内的实体对以及他们之间的文本(即模式)抽取出来为下一步模式分析使用。
[0057] 本发明中的结构化数据指的是:简单来说就是数据库;
[0058]半结构化数据:这类信息通常无法直接知道其内容,数据库也只能将它保存在一 个BLOB字段中。如:维基百科的信息框和表格。
[0059]排好序的事实只需要对应相应关系的语言描述模板,将前后实体替换到语言描述 模板的ARG1和ARG2,语言描述模板如表1所示。连续的具有重复关系的一些事实需省略重复 部分来表达。如,贝克汉姆效力于曼联、皇家马德里(2003-2007)和洛杉矶银河队。
[0060]表1语言描述模板
[0062] 模式作为识别事实所属关系的标识,通过种子事实和抽取的候选事实,计算每个 模式的权重。权重计算是将抽取的模式与种子事实在文档中的共现频率进行归一化处理。 抽取的模式与种子事实在文档中共现率越高,权重越高。权重低于一定阈值的模式被过滤 掉。
[0063] 步骤2:利用每个模式与种子事实在文本中的共现频率对抽取的模式进行过滤;以 候选事实和过滤后的模式作为节点来构建图结构;其中,图结构的边包括候选事实与过滤 后的模式之间的连接线以及相似的过滤后的模式之间的连接线。
[0064] 凡是候选事实和过滤后的模式在文档中共现过,图结构中就会加一条相应的边, 权重为共现率。相似的模式之间也会加一条边,权重为相似度。
[0065] 步骤3:从候选事实中筛选出种子事实,根据标签传递算法以及筛选出的种子事实 来对图结构中剩余候选事实进行标注。
[0066]由于种子事实的关系已经确定,因此种子事实在图中的节点上标签已经给定。标 签即为已知的关系。按照标签传递的算法,会把标签传递到其他没有标签的节点上。最终未 被标记的实体对节点被标记上标签(关系),该实体对就代表了满足某类关系。
[0067]标签传递的目标函数如下:
[0069] ¥料代表了种子事实的标签(为确定的1)为候选事实的标签(为未知0),L为拉 普拉斯矩阵,记录了图的信息,Si代表了种子事实的可信度,m和y2控制了三块各自对目标 函数的影响比重。目标中最后一项是正则化项。算法根据目标函数解优化,会将种子事实根 据图的结构将值向未知的候选事实传递。当算法收敛后,候选事实的相应标签会赋值。值大 于某一阈值的候选事实会标注上该标签。
[0070] 步骤4:将标注的候选事实均按照时序进行排序,再套用语言描述模板自动转换成 自然语言描述的文字,最终生成文本摘要。
[0071 ]本发明的该方法将时间事实按照时序进行排序之前,该方法还包括对时间事实进 行整合。其中,时间事实包括事件和状态两种类型。事件是指在一个时间点上有效的时间事 实。比如,奥巴马于2009年11月18日访问中国。状态是指在一个时间段内有效的时间事实。 比如,马拉多纳从1982年7月到1984年6月效力于巴塞罗那队。针对这两种不同的时间事实, 采用不同的策略进行整合。
[0072]对时间事实进行整合的具体过程为:
[0073]①状态事实被分割为开始、过程中和结束事件。一个完整的状态事实很难直接获 取到,于是我们按照一个状态的开始、过程中和结束事件分别进行抽取和整合。
[0074] ②将多个事件观测到的不同时间信息整合成一个柱状图。如图2所示,左边的3个 柱状图分别对应着开始、过程中和结束事件。将抓取到的开始、过程中和结束事件的各个观 测到的时间信息按照频率数据分别整合成3个柱状图。
[0075] ③针对状态事实,如图2所示,将开始、过程中和结束事件共同整合成一个柱状图。 首先找出3个柱状图中最早和最晚的时间点[t b,te]。其中,tb是最早的时间点,是最晚的 时间点。例如:过程中事件的柱状图中的最早和最晚的时间点[02,04]。
[0076] 将所有事件对应的柱状图按照出现的所有时间点进行分割,使得所有柱状图的柱 子具有同样的时间段。将开始事件对应的柱状图从第一个柱子开始进行累加的同 时减去同时间段的结束事件的柱子直到最后一个时间点。其中,^在最早的时间点 ~最晚的时间点之间。
[0077] 在此过程中出现的小于0的柱子清零,并且针对过程中事件fduring[ti]对应的柱子 按照ftW -(l-a-fcU^td) ? (1-fttd))进行计算。具体算法如下
[0079] ④针对合成的柱状图,抽取高可信时间区间。给定一个最高可信度的阈值,例如最 高可信度的阈值为90%:
[0080] 给定一个最高可信度的阈值,先对上一步合成的柱状图进行水平方向的过滤,从 下向上,按照连续时间将柱状图从小到大排序。从最小的柱状图开始过滤。如果剩余的可信 度还未达到要求再进行垂直方向的过滤。同样是从小到大对柱状图进行排序。最终剩下的 柱状图所覆盖的时间范围是符合高可信度要求的时间范围。代表该事件最后最可能发生的 时间区间。
[0081 ]其中,将标注的候选事实按照时序进行排序的具体过程为:
[0082] ①将时间事实和无时间属性的基本事实共同排序。通过统计数据分析,将符合某 关系的时间事实按照时序两两进行排序,构造如图3所示的关系时序图。通过拓扑排序将各 关系进行排序。如图3中,将"从高中毕业"、"从大学毕业"、"嫁/娶"、"获奖"以及"效力于倶 乐部"这些信息按照时间排序。
[0083] ②将从结构化和半结构化数据中抽取出来的事实,以及文本中抽取出来的事实, 按照关系的拓扑先排好序。满足某关系的时间事实再按照时间信息的先后进行排序。对于 无时间信息的基本事实,在时间事实排好序之后,加在最后面。
[0084] 最后,将排好序的时间事实和基本事实套用语言描述模板自动转换成自然语言描 述的文字,生成文本摘要。
[0085] 常用的传统的抽取式摘要生成方法会导致生成的摘要不连贯。本发明通过学习人 类总结摘要的方式,先消化整篇文章,然后获取关键信息,整合和重新组织成简明的摘要。 可以较明显地提高摘要的连贯性。在给定文本长度的条件下,能够更加精炼得展示更多的 fg息。
[0086] 图4为本发明的基于时间知识抽取的文本摘要自动生成系统结构示意图,如图所 示的基于时间知识抽取的文本摘要自动生成系统,包括:
[0087] 抽取模块,其用于从文本中分别抽取种子事实、候选事实及指示所述候选事实所 属关系的模式;
[0088] 图结构建立模块,其用于利用每个模式与种子事实在文本中的共现频率对抽取的 模式进行过滤;以候选事实和过滤后的模式作为节点来构建图结构;其中,图结构的边包括 候选事实与过滤后的模式之间的连接线以及相似的过滤后的模式之间的连接线;
[0089] 标注模块,其用于从候选事实中筛选出种子事实,根据标签传递算法以及筛选出 的种子事实来对图结构中剩余候选事实进行标注;
[0090] 转换模块,其用于将标注的候选事实均按照时序进行排序,再套用语言描述模板 自动转换成自然语言描述的文字,最终生成文本摘要。
[0091] 所述候选事实包括时间事实和基本事实,所述时间事实包括事件事实和状态事实 两种类型;所述状态事实包括开始事件、过程中事件和结束事件。
[0092] 图结构建立模块还包括模式过滤模块,所述模式过滤模块用于归一化每个模式与 种子事实在文本中的共现频率,得到抽取的所有模式的权重;滤除低于预设模式权重最小 阈值的模式,得到过滤后的模式。
[0093]该系统还包括证据汇总模块,其用于对时间事实进行整合;所述证据汇总模块包 括:
[0094] 时间事实表示模块,其用于将时间事实以柱状图表示,其中,柱状图的横坐标为时 间,纵坐标为时间事实在相应时间段内的频率;
[0095] 事实分割模块,其用于找出柱状图的最早和最晚的时间点,将所有事件事实对应 的柱状图按照出现的所有时间点进行分割,使得所有柱状图的柱子具有同样的时间段;
[0096] 合成模块,其用于将开始事件对应的柱状图从第一个柱子开始进行累加的同时, 减去同时间段的结束事件的柱子直到最后一个时间点,同时累加上相应过程中事件的柱状 图,最后得到合成的柱状图,时间事实整合完毕。
[0097] 该系统还包括:高可信时间区间抽取模块,其用于给定一个最高可信度的阈值,从 整合完毕的时间事实中抽取高可信时间区间,得到事件事实最可能发生的时间区间。
[0098] 本发明通过学习人类总结摘要的方式,从文本中分别抽取种子事实、候选事实及 指示所述候选事实所属关系的模式,首先消化整篇文本来获取关键信息;然后利用模式与 种子事实在文本中的共现频率对抽取的模式进行过滤,通过预设模式权重阈值,这样可以 滤除非关键信息,提高文本摘要内容的简洁性和准确性;以候选事实和过滤后的模式作为 节点来构建图结构,并从候选事实中筛选出种子事实,根据标签传递算法以及筛选出的种 子事实来对图结构中剩余候选事实进行标注;最终将标注的候选事实均按照时序进行排 序,再套用语言描述模板自动转换成自然语言描述的文字,最终生成文本摘要。
[0099]常用的传统的抽取式摘要生成方法会导致生成的摘要不连贯。本发明通过学习人 类总结摘要的方式,先消化整篇文章,然后获取关键信息,整合和重新组织成简明的摘要。 可以较明显地提高摘要的连贯性。并且在给定文本长度的条件下,能够精炼地展示更多的 fg息。
[0100]上述虽然结合附图对本发明的【具体实施方式】进行了描述,但并非对本发明保护范 围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不 需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
【主权项】
1. 一种基于时间知识抽取的文本摘要自动生成方法,其特征在于,包括: 从文本中分别抽取种子事实、候选事实及指示所述候选事实所属关系的模式; 利用每个模式与种子事实在文本中的共现频率对抽取的模式进行过滤;以候选事实和 过滤后的模式作为节点来构建图结构;其中,图结构的边包括候选事实与过滤后的模式之 间的连接线以及相似的过滤后的模式之间的连接线; 从候选事实中筛选出种子事实,根据标签传递算法以及筛选出的种子事实来对图结构 中剩余候选事实进行标注; 将标注的候选事实均按照时序进行排序,再套用语言描述模板自动转换成自然语言描 述的文字,最终生成文本摘要。2. 如权利要求1所述的一种基于时间知识抽取的文本摘要自动生成方法,其特征在于, 所述候选事实包括时间事实和基本事实,所述时间事实包括事件事实和状态事实两种类 型;所述状态事实包括开始事件、过程中事件和结束事件。3. 如权利要求1所述的一种基于时间知识抽取的文本摘要自动生成方法,其特征在于, 利用每个模式与种子事实在文本中的共现频率对抽取的模式进行过滤的过程包括: 归一化每个模式与种子事实在文本中的共现频率,得到抽取的所有模式的权重; 滤除低于预设模式权重最小阈值的模式,得到过滤后的模式。4. 如权利要求2所述的一种基于时间知识抽取的文本摘要自动生成方法,其特征在于, 将标注的候选事实均按照时序进行排序,该方法还包括对时间事实进行整合,其具体过程 为: 将时间事实以柱状图表示,其中,柱状图的横坐标为时间,纵坐标为时间事实在相应时 间段内的频率; 找出柱状图的最早和最晚的时间点,将所有事件事实对应的柱状图按照出现的所有时 间点进行分割,使得所有柱状图的柱子具有同样的时间段; 再将开始事件对应的柱状图从第一个柱子开始进行累加的同时,减去同时间段的结束 事件的柱子直到最后一个时间点,同时累加上相应过程中事件的柱状图,最后得到合成的 柱状图,时间事实整合完毕。5. 如权利要求4所述的一种基于时间知识抽取的文本摘要自动生成方法,其特征在于, 时间事实进行整合之后,该方法还包括:针对合成的柱状图,给定一个最高可信度的阈值, 抽取高可信时间区间,得到事件事实最可能发生的时间区间。6. -种基于时间知识抽取的文本摘要自动生成系统,其特征在于,包括: 抽取模块,其用于从文本中分别抽取种子事实、候选事实及指示所述候选事实所属关 系的模式; 图结构建立模块,其用于利用每个模式与种子事实在文本中的共现频率对抽取的模式 进行过滤;以候选事实和过滤后的模式作为节点来构建图结构;其中,图结构的边包括候选 事实与过滤后的模式之间的连接线以及相似的过滤后的模式之间的连接线; 标注模块,其用于从候选事实中筛选出种子事实,根据标签传递算法以及筛选出的种 子事实来对图结构中剩余候选事实进行标注; 转换模块,其用于将标注的候选事实均按照时序进行排序,再套用语言描述模板自动 转换成自然语言描述的文字,最终生成文本摘要。7. 如权利要求6所述的一种基于时间知识抽取的文本摘要自动生成系统,其特征在于, 所述候选事实包括时间事实和基本事实,所述时间事实包括事件事实和状态事实两种类 型;所述状态事实包括开始事件、过程中事件和结束事件。8. 如权利要求6所述的一种基于时间知识抽取的文本摘要自动生成系统,其特征在于, 图结构建立模块还包括模式过滤模块,所述模式过滤模块用于归一化每个模式与种子事实 在文本中的共现频率,得到抽取的所有模式的权重;滤除低于预设模式权重最小阈值的模 式,得到过滤后的模式。9. 如权利要求8所述的一种基于时间知识抽取的文本摘要自动生成系统,其特征在于, 该系统还包括证据汇总模块,其用于对时间事实进行整合;所述证据汇总模块包括: 时间事实表示模块,其用于将标签传递算法标注过的时间事实以柱状图表示,其中,柱 状图的横坐标为时间,纵坐标为时间事实在相应时间段内的频率; 事实分割模块,其用于找出柱状图的最早和最晚的时间点,将所有事件事实对应的柱 状图按照出现的所有时间点进行分割,使得所有柱状图的柱子具有同样的时间段; 合成模块,其用于将开始事件对应的柱状图从第一个柱子开始进行累加的同时,减去 同时间段的结束事件的柱子直到最后一个时间点,同时累加上相应过程中事件的柱状图, 最后得到合成的柱状图,时间事实整合完毕。10. 如权利要求9所述的一种基于时间知识抽取的文本摘要自动生成系统,其特征在 于,该系统还包括:高可信时间区间抽取模块,其用于给定一个最高可信度的阈值,从整合 完毕的时间事实中抽取高可信时间区间,得到事件事实最可能发生的时间区间。
【文档编号】G06F17/27GK106055542SQ201610682096
【公开日】2016年10月26日
【申请日】2016年8月17日
【发明人】王雅芳, 任昭春
【申请人】山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1