一种基于云模型的中文面向查询的多文档自动文摘方法

文档序号:6349522阅读:273来源:国知局
专利名称:一种基于云模型的中文面向查询的多文档自动文摘方法
技术领域
本发明涉及信息处理技术领域,确切的说涉及一种基于云模型的面向查询的多文档自动文摘方法。
背景技术
随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。面向查询的多文档自动文摘与信息检索、自动问答等技术既有联系又有区别。信息检索的主要任务是找出满足特定检索条件的文档,用户则需要从返回的大量包含各种冗余信息的文档列表中努力寻找所需要的信息。自动问答的主要任务则是找出符合特定问题的答案,目前还仅限于一些特定领域、特定类型的问题,而且提供的答案有时由于过于简略而难以理解。开放域的问答系统的研究还面临着实质性的困难,效果也差强人意。面向查询的多文档自动文摘综合了多文档自动文摘、信息检索和自动问答等现有技术上的优点, 又在一定程度上避免了其不足。它在用户个性化信息的推荐定制、海量信息获取、数字图书馆、商业情报分析、电子政务以及移动计算等领域都具有重要的研究意义和广阔的应用前

ο根据摘要方式的不同,可以将面向查询的多文档自动文摘分为信息抽取式和摘录式,其主要的区别在于前者抽取句子中有用的信息,经过重写组合成摘要;后者通过一定的方法选取最重要的句子构成摘要。目前,摘录式摘要是研究的主流方向。根据研究对象的不同,可以将面向查询的多文档自动文摘的研究分为针对特定领域的文摘和针对开放领域的文摘。针对开放领域的文摘系统虽然可读性一般来说不如前者,但适应范围广,可移植性强,是目前的主流方向。本发明所述方法是摘录式的、针对开放域的。云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见,本发明所述方法是云模型在自然语言处理的一种典型应用,可以被拓展到自然语言处理的其他领域。面向查询的多文档自动文摘系统一般由文本内部表示、文本分析、文摘提取和生成三个阶段构成。文本内部表示阶段将输入文本转化为内部表示形式。文本分析部分对文本进行不同层次的分析从而确定每个文本基本单元(语句、段落或章节等)的重要性。文摘提取和生成部分通过对文摘抽取单元的排序来生成内容连贯、反映原文主题的文摘。目前,各文摘系统的差异主要体现在后两个阶段。在文本分析阶段,基于抽取的方法主要有基于高频词的方法,基于图的方法,基于主题的方法,以及基于语义的方法等。这些现有方法基本可以概括为找到文摘单元的某种随机分布,利用统计、图方法或者更复杂的语言模型来解析这些分布,并据此对文摘单元的重要性进行评价。经过文本分析阶段,选取最重要的句子可以直接生成文摘,但由于只是简单引用和堆砌,其组成的摘要冗余度高、连贯性与可读性较差,很难被阅读者理解。文摘提取和生成部分在前一阶段的基础上,对挑选出来的句子进行调整和修饰, 目前的主要技术手段包括去冗余、句子修剪、句子排序。其中去冗余一般采取MMR方法,在选取文摘句的过程中不仅考虑句子的重要度,也考虑句子和已选择文摘句的相关度,选取那些重要但和已选择文摘句不相关的句子作为文摘句。句子修剪通过去掉句子中的一些有效信息很少或者没有有效信息的内容,用相对简略并合乎语法的形式表达一个句子的核心内容,可以有效提高文摘的有效信息含量,在有限的空间中表达更多的内容。近年来利用手机上网也已经逐渐成为一种获取信息资源的主流方式,,而手机平台与计算机平台一个最显著的差别在于屏幕大小的差别,短小精简的摘要将会帮助手机用户更快的获得他们需求的咨询,句子修剪技术也因而极有可能受到更多的关注。目前,对于中文句子修剪的研究还极其少见。句子排序将文摘中的句子重新排序,从而使得经过排序后的文摘更加连贯,容易被阅读者理解,也是自动文摘的关键技术之一。目前,句子排序的方法主要有三种,即时间次序、多数次序、概率次序的方法。其中,时间次序方法根据原文档出版或发布日期的顺序进行排序,其局限性在于获取真实时间信息往往非常困难,同时该方法没有考虑主题因素。 多数次序的基本思想是根据文摘句所属主题的顺序决定文摘句的顺序,而主题的顺序则由主题中大部分句子的位置决定。多数次序的局限性在于只有各主题在文档中的相对位置比较稳定时,多数次序法生成摘要的可读性才较好,在相对位置变化频繁时,文摘结构容易变得混乱。概率次序的思路是将文摘句分解为特征,在训练语料中学习这些特征的先后顺序,再利用特征的顺序决定文摘句的次序,其局限性在于对于训练语料的依赖,人工选择的训练语料的质量对于句子排序影响很大。武汉大学的刘德喜提出了一种多文档文摘句子排序的混合模型,利用线性组合集成位置关系、时间关系、依赖关系、话题关系。北京理工大学的蒋效宇提出了一种将局部主题间的内聚度与多数次序结合的句子排序方法。华中师范大学的马亮提出了一种基于单一模板融合的文摘句排序策略,根据文档的文摘代表性选择模板,利用模板来为文摘句排序,从而保证文摘句逻辑上的连贯性。哈尔滨工业大学的徐永东等人提出基于文本时间信息处理的句子排序方法,提出了中文文本时间信息抽取、语义计算以及时序推理算法,提取时间信息。发明人于2011年在期刊上公布了一种基于云模型的面向查询的多文档自动文摘方法,已公布的方法局限于英文语料,且仅限于所述第二阶段,即文本分析阶段的创新。

发明内容
为解决上述技术问题,本发明提供了一种基于云模型的中文面向查询的多文档自动文摘方法,采用了云模型这一不确定性研究领域的最新研究成果作为理论指导,在构建系统的各个环节中灵活运用云的思想和方法,充分地考虑生成文摘过程中的不确定性因素,并利用这些不确定性因素改善系统的性能,对于给定中文文档集合和查询条件,该系统可以全自动地生成指定长度的满足查询需求、简洁、连贯的自动摘要。此方法适合中文语料,生成的摘要与人工摘要有较高的契合度,并且具有较强的可读性,从而减少用户查找信息所用的时间。为实现上述目的,本发明提供了一种基于云模型的中文面向查询的多文档自动文摘方法,包括以下步骤
1)对查询和多文档集合进行句子切分、分词、去停用词,将查询和文档表示成向量;
权利要求
1.一种基于云模型的中文面向查询的多文档自动文摘方法,其特征在于包括如下步骤1)对查询和多文档集合进行句子切分、分词、去停用词,将查询和文档表示成向量;2)利用云模型对得到的向量进行处理,通过建立中文语料库、修改英文自动文摘评测工具ROUGE的源代码以实现中文文摘自动评测、参数训练,找出与查询相关的句子,并计算句子在文档集合中的重要度,综合考虑两方面的因素,给句子打分;3)去冗余,生成初始文摘。
2.根据权利要求1所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述步骤3)之后还包括一个句子修剪步骤,即制定句子修剪规则对初始文摘句进行句子修剪,产生多候选句,利用多维云选取修剪句替换原始文摘句,生成精炼文摘。
3.根据权利要求2所述的基于云模型的中文面向查询的多文档自动文摘方法,最后还包括一个句子排序步骤,即对文档集合进行聚类,找出包含一个或多个文摘句的子主题,将文档集合中的所有文档看成是模板,多个模板的集合构成了云,即云模板,利用云模板依次对子主题以及子主题内部的文摘句进行排序,最终生成所需摘要。
4.根据权利要求2所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述的句子修剪规则为10条基于依存分析的人工规则。
5.根据权利要求2所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述的利用多维云选取修剪句替换原始文摘句具体是指将词语在文档集合间的分布、在所有句子间的分布、与所有查询词之间的相关度三方面分别看成云滴,分别通过逆向云发生器得到三种云的数字特征以得到词语多维云,通过综合云运算得到词语单维云,词语单维云组成句子多维云,计算候选句重要度得分,再与候选句长度一起计算候选句的信息密度,用信息密度最高的候选句替换原始文摘句。
6.根据权利要求5所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述的计算候选句重要度得分是指,通过计算句子多维云与原句多维云的相似度,从而得到候选句的重要度得分,计算句子多维云与原句多维云相似度的方法为其中,Cl和C2为两个多维云,Exlk, Ex2k, Enlk, En2k, Helk、He2k分别为概念Cl和C2所拥有的第k个属性值的数学期望、熵、超熵;Vk为属性k的权重,其大小为0 1。
7.根据权利要求5所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述的计算候选句信息密度的方法为其中C、0分别表示候选句和原句,函数Length计算的是句子长度,以字为单位。
8.根据权利要求3所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述利用云模板依次对子主题进行排序具体是指由主题所包含的各个文摘句的单维云构成主题相对位置多维云,用综合云计算得到主题相对位置单维云,通过期望Ex得到主题相对位置得分,以此对主题进行排序。
9.根据权利要求3所述的基于云模型的中文面向查询的多文档自动文摘方法,其特征在于所述利用云模板依次对子主题内部的文摘句进行排序具体是指在所有文档中找出哪个句子与前一步中得到的文摘句最为相似,作为该文摘句在该文档中的相对位置,将每个相对位置看成云滴,进行逆向云计算,得到句子相对位置云的数字特征,与主题内部句子一起通过期望h得到句子相对位置得分,以此对主题内部句子进行排序。
全文摘要
本发明公开了一种基于云模型的中文面向查询的多文档自动文摘方法,包括以下步骤对查询和多文档集合进行句子切分、分词、去停用词,将查询和文档表示成向量;利用云模型对得到的向量进行处理,通过建立中文语料库、修改英文自动文摘评测工具ROUGE的源代码以实现中文文摘自动评测、参数训练,找出与查询相关的句子,并计算句子在文档集合中的重要度,综合考虑两方面的因素,给句子打分;去冗余,生成初始文摘。本发明的技术可以实现对于给定查询,通过搜索引擎自动获取相关文档集合,进而自动生成用户需要的摘要。可以直接返回用户需要的重要内容,避免用户耗费大量的时间从网页中寻找需要的结果。本发明是目前所知首个适合于生成中文面向查询的多文档自动文摘的完整系统,在中英文大规模语料上进行的实验表明该系统具有良好的性能。
文档编号G06F17/30GK102411621SQ20111037375
公开日2012年4月11日 申请日期2011年11月22日 优先权日2011年11月22日
发明者何婷婷, 李芳 , 胡珀, 赵军民, 陈劲光 申请人:华中师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1