利用文档聚类的多文档概括的制作方法

文档序号:6578865阅读:157来源:国知局

专利名称::利用文档聚类的多文档概括的制作方法利用文档聚类的多文档概括本申请要求于2008年5月28日提交的临时申请序号61/056,595的优先权,其内容结合于此以供参考。
技术领域
本申请涉及用于生成多文档概要(summaiy)的系统和方法。技术背景多文档概括(multi-documentsummarization)^il过在保持原始文档主要特征的同时减少文档大小以产生一般或集中于主题的概要的过程。由于导致数据超载(overload)问题的一个原因是许多文档共享相同或相似的主题,所以近年来自动多文档概括获得了很大关注。互连网上文档爆炸式的增加已促进了对概括应用的需求。例如,WEB搜索中提供信息片段(informativesnippet)的生成能够帮助用户进一步探索片段,以及在问/答系统中,经常需要基于问题的概要来提供问题中所提问的信息。另一个例子是在新闻服务中用于新闻组的短概要,其能够促进用户更好地理解新闻组中的新闻文章。文档概括可以是一般的或者是查询相关的。一般的多文档概括应当反映文档的一般内容而没有任何额外信息。查询相关的多文档概括应当集中于给定査询中所表示的信息上,即概要必须侧重于给定査询。所述系统能够处理一般的和查询相关的多文档概括。多文档概括的主要问题如下首先,包含在不同文档中的信息经常彼此交迭,因此在识别并删除冗余时必须找到一种有效的方式对文档进行融合。另一个问题在于,识别文档之间重要的区别并覆盖尽可能多的问题的信息内容。目前的多文档概括方法通常集中在词i敔巨阵(termmatrix)的句子上,或者对其执行矩阵因子分解或者对其进行句子相似性分析,并且将句子分组形成聚类(duster)。接着,可通过从每个句子聚类中提取代表性句子建立概要。现有这些方法的问题在于它们忽视/句子的上下文关联,并且在句子形成聚类和提取期间认为它们是彼此独立的。然而,同一文档或同文档聚类中的句子的确存在相互的影响,这种影响能够被用作附加知识以帮助概括。因此,给定文档的集合,通过文档聚类发现文档中隐藏的主题能够在概括期间有助于句子上下文的分析。表l示出了一个简单的示例,用于证明^A在文档聚类中的隐藏主题的有用性。合成的数据集包含四篇非常短的文章,其中每篇仅包含两个句子(共8个句子)。任务是为这些文章生成两个句子的一般概要。<table>tableseeoriginaldocumentpage5</column></row><table>在表l示意性示例中,D,表示第/个文档,并且s是第乂个句子。直接考虑数据,A和D/谈论苹果产品的良好设计,而D3和Dj步及高的价格。高质量的概要应该包括苹果产品的上述两个特邻:。然而,如果仅基于句子的相似性将这八个句子聚类成两组,则&、&、&和&相同并且应该被分在个聚类中。并且其余句子为讨论苹果的产品的另一组。如果概要被限制为两个句子的长度,则所述概要仅能覆盖苹果产品的一个特征,或者是良好的设计,或者是高的价格。因此该概要并不全面。
发明内容在一个方面,公开了系统和方法,所述系统和方法用于通过生成作为文档聚类混合体(mixture)的文档模型概括多文档,每个文档又具有句子混合体,其中所述模型同时表示概括信息和文档聚类结构;并且确定用于评估模型和优化模型的损失函数。在另一方面,一种用于概括文档的方法包括接收用于文档的文档语言模型;从文档中提取候选句子,并且接收用于每个候选句子的句子语言模型;根据所括二者的多文档概括系统是基于语言模型的,其肯,同时聚类和概括多个文档。该模型将聚娄概括问题转换为对给定文档和模型重构词语之间的Kullback-Leibler散度(diveiBence)进行最小化。最小f^ii禾驴生^^合定聚类(隐含主题)下句子的概率(probabilityofsentencesgivenclusters(hiddentopics))的矩阵。iM^h聚类中具有高概率的句子形要。所述模型显示出与文档聚类的隐含主题相关的附加知识能够影响/帮助句子的聚类和提取。tte实施例的优点可能包括以下中的一个或多个系统在将文档聚类为给定大小的目标性(tainted)概括的同时概括多个文档。系统按照针对广泛使用的DUC文档和ROUGE度量的评估,aa使用简单的词袋(bag力f-word)特征产生更高质量的概要。该系统也具有如下效果通过估计参数来获得给定聚类下句子的概率,其就选^ti要句子的评分(score)。图1示出了示例性多文档概括系统的框架结构。图2示出了用于概括多个文档的示例性过程。图3提供了用来学习模型参数的详细框图。具体实施方式图1示出了示例性多文档概括系统的框架结构。首先,接收多个文档(io)。通过去除格式化字符和无用词(stoppingword)对文档进行预处理(20)。然后,使用一元语言模型(unigramlanguagemodel)^il过词语获得文档并且M31词语矩阵获得句子。如果任务是查询相关的概括,则通过词语矩阵所获得的句子将被投影到子空间,其中每个候选句子与该查询相关。之后,给定两个矩阵,系统针对该文档执行非负因子分解(nonnegativefactorization),并且同时将文档和句子聚类为隐含主题(30)。采用主题中具有高概率的句子形成概括(40)。图2示出了用于概括多个文档的示例性过程。在图IB中,在框101中提供许多文档作为输入。在框102中,该过程获得用于每^t入文档的语言模型。在一个实施例中,^f寺征表示文档中特定单词(词语)出现的数量。文档的特征形戯巨阵,用A表示。A的大小是该特征的数量乘以文档的数量。A中的每一列表示一个文档,A中的每一行表示一个待征(或一元语言模型中的词语)。A中的每一个条目表示给定文档中特定词语出现的数量。与框102平行,该过程在框103中从文档中提取句子。该文档被拆分成句子。仅j爐用于概要的那些句子l雌作fl魏句子。接下来,在框104中,该过程获取用于在框102中所识别出的齡{1魏句子的语言模型。该语言,魏可以与一元语言模型(也就是词袋特征)一样简单,其中每个特征表示句子中特定单词(词语)出现的数量。该特征集与用于框102中的文档的特征集相同。句子的特征形戯卧车,用B表示。B的大小是特征的数量乘以候选句子的数量。B中的每一列表示一个句子,B中的每一行表示一个特征(或一元语言模型中的词语)。B中的每一个条目表示给定句子中特定词语出现的比例。框105中,该过禾虽左用X寸来自A和B的模型参数的学习(leaming)。该框在图3中详细描述。在框106中,为在每个聚类(框206中的U)中具有高概率的句子形成概要。在框107中,生》划既要作为输出。图3更详细地示出了框105。在框201中,该过程接收来自102的文档语言模型A和来自104的句子语言模型B作为输入。在框202中,对模型BUV7,进行制定(formulate),其中U是句子聚类矩阵而V是文档聚类矩阵。矩阵U的大小是候选句子的数量乘以聚类的数量。U的条目是非负的。U中的每一列的和(sum)是1。矩阵U中的每个条目代表给定聚类下句子的概率。矩阵V的大小是文档数量乘以聚类的数量。V的条目是非负的。V中的每一行的和是1。矩阵V中的每个条冃代表给定文档下聚类的概率。因此,模型BUV『中的每一列为具有参数U和V的模型生成的对应文档的特征。损失(loss)A和BUV7'之间可以是Kullback-Leibler散度,或Frobenius矩阵范数。在框203中,该过程更新U以减少损失,并且在框204中,该过程更新V以减少损失,以下将更加详细地讨论。在框205,该过程重复框203和204直到损失收敛(convene)到预定水平。在框206中,该过程返回参数矩阵U和V作为输出。如下所述为用于图3的流程图的示意性伪代码算法1给定基(Base)情况下的非负因子分解7AlgorUhm1No,egativeFactork诚i進withgivenBasInput:A:documentsbywordsmatrix,13:woi'dsbysen^ncesmatrix;Output:U:訓t^ce-topie腿lxix;V:docu騰nMopkmatrix,beginLInitiaHzatioii:InitklizeUandVfolbwDirieWetdistritario践,withhypei'-jpanuinietero^/andf^sj^ctiveiy,2JCo.rnpjte=A4j/[B'U'VTij;■2,2AssignTJ"一BTCJ\L丄"andno隱alkeeachcohimnto1;2:3Compute=A。/[BUVT]^+ox"andn()r腦lizeeachrowtol''im川convergenceend而口接下来将详细讨论语言模型和算法。在上述算法中,对于词语的生成过程weW,给定文档c/GD,该操作包括*衫隨主题,ZET,符合多项式分布p(糾,*Mi^句子,ses,符令多项式分布p(刺,*扭隨词语,weW,符合多项式分布p(wl力。此处,文档、主题、句子和词语形成元组,("Uw)。该过程使用用于^vvk)的所观察句子的经验分布,并且使得Bw,外小)。该模型参数是(U,V),其屮u、,齡),(i)VCI力.(2)对于U和V的先验分布(priordistribution)而言,按多项式分布的共轭先验(conjugatepriorofmultinomialdistribution)获得Dirichl改分布。U.fDir(《),(3)v一ir(《).(4)信息上(informatively),伪实例(pseudoinstance)的总数是a,并且它们均匀分布在所有可能的元组上。由于《,和《,分别被看作具有("A')值和(","值的伪元组的数量—:a/(|S|x|r|),(5)《=a/(|Z)|x|r|).(6)参数估计是N个所观察文档的MAP估计(或最大似然估计),顺w,力。任务是(7>u,v=argmin其中f(U'V)=KL(A||BUVT)—lnPr(U.V)。;于表1所给示例,使用上述算法过程,输入矩阵表示如下:对于表2AT=2211111110111111011111000011110000000000、1I0000000110001111以及0.200.250.200.170.200.330.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.20、0.250.250.250.170.170.170.170.170.330.330.200,200.200.209该过程对U和V进行随机初始化并相M它们进行归一化(normalize)(在收敛(convergence)和归一tt^后<formula>formulaseeoriginaldocumentpage10</formula>根据U和V,A和A属于一个聚类而A和A属于另一组。并且&和&是被选中用于形^1要的两^U子。结果与人的感知一致。±^系纟过{柳文档聚^(寸多个文档进行概括。该系统l顿生成文档作为聚类混合体的模型,该混合体又是文档中句子的混合体。通过估计参数,该系统得出给定聚类下句子的概率,其给出了对选择概要句子的评分。实验数据说明该系统优于其他方法。图3的模型同时代表概括和聚类,并且相应的损失函数(lossflmction)用于评估该模型。该方法将概括和聚类问题转换为对给定文档和模型重构词语之间的特定损失进行最小化。这样的损失包括Kullback-Leibler散度、Frobenius矩阵范数。该最小化过程产生表示纟合定聚类下句子的概率的矩阵。采用每个聚类中具有高概率的那些句子形成概要。给定文档下词语的生成处理的模型可以表示如下參给定文档,扭隨符合多项式分布的聚类,*给定聚类,衫隨符合多项式分布的句子,给定句子,衫隨符合多项式分布的词语。本发明可以以硬件、固件或软件或者三者的结^在可编程的计算机上执行的计算机程序来实现,该计储系统、易失件和非易失性存储器和/或存储元件、辛-个输出设备。根据小例,接下来讨论支持该系统的计割L框图。W腿地,该计算机包括现。tt^地,本发明以里器、数据存-^^入设备以及至少由CPU总线耦合的处理器、随机访问存储器(RAM)、禾號存储器(,为可写的只读存储器(ROM),如闪存ROM)和输A/输出(I/O)控制器。该计算机可任淑也包括硬盘控制器,其与石鹏和CPU总线耦合。硬盘可以被用来存储应用禾號,如本发明和数据。可选地,应用禾骄可以保存在RAM或ROM上。I/O控制器借助于I/O总线耦合到I/O接口。I/O接口在通信链路上接收和錢模拟或数字形式的数据,该通信链路例如串行链路、局域网、无线链路以及并行链路。可选的,显示器、,和指示设备(鼠标)也被连接到i/o总线。可替代地,也可将^^虫连接(^^虫总线)用于I/0接口、显示器、鹏和指示设备。可通过从另一个源(如软盘、CD-ROM或另一台计飾下载辦而对可编程处理系统预编程或被编程(以及预编程)。每个计算机程序被明确地保存在机器可读存储介质上或通过通用或专用的可编程计算机可读取的设备(如程序存储器或磁盘)上,当存储介质或设备被计算机读取以执行其中所描述的程序时,该计算机程序用于配置和控制计算机的操作。本发明的系统也可以考虑包含在计算机可读存储介质中,其配置有计算机超芊,其中这样配置的存储介质使得计算机以特定的、预定义方式操作以执行在此描述的功能。此处已对本发明进行了详细描述,以便符合专利法并且为本领域技术人员提供了应用该新的原理以及构造和使用该专门部件所需的信息。然而,应当理解本发明能够通过特定地不同设备和装置来实施,并且关于设备细节和操作过程的各种修改能在不背离本发明自身范围的情况下被实现。虽然以上己经结合附图详细描述了本发明的特定实施例,但应当理解本发明并不局限于所示出的特定实施例,而是能够进行大量的重新配置、修改和替代而不背离本发明的范围。所附权利要求意在包含所有这些修改。权利要求1.一种用于概括文档的方法,包括a.生成作为文档聚类混合体的文档模型,每个文档又具有句子的混合体,其中所述模型同时表示概括信息和文档聚类结构;以及b.确定损失函数,用于评估所述模型和优化所述模型。2.如权利要求1所述的方法,包括接收用于文档的文档语言模型。3.如权利要求2戶脱的方法,其中文档语言模型包括一元语言模型。4.如权利要求1戶,的方法,包括从文档中提取fl魏句子,并且接收用于每个候选句子的句子语言模型。5.如权利要求4所述的方法,其中句子语言模型包括一元语言模型。6.如权利要求1所述的方法,包括根据文档语言模型和句子语言模型确定模型参数。7.如权利要求1所述的方法,包括基于戶腿模型为所述文档生成概要。8.如权利要求1所述的方法,包括生;^^f述文档或戶;M句子的特征矩阵。9.如权禾腰求10M的方法,包括生/^莫型BUV、其中U是句子聚类矩阵并且V是文档聚类矩阵。10.如权利要求9所述的方法,其中模型BUV'中的每一列包括由具有参数U和V的所述模Mi^生成的相应文档的特征。11.如权利要求9所述的方法,包括制定模型BUV『以对文档语言模型进微似。12.如权利要求l戶脱的方法,其中损失函数包括Kullback-Leibler散度函数或Frobenius矢巨阵范数。13.如权禾腰求l戶腿的方法,包括最小化所述损失函数。14.一种用于概括文档的方法,包括a.接收用于文档的文档语言模型;b.从所述文档中提取候选句子并且接收用于每个候选句子的句子语言模型;c.根据文档语言模型和句子语言模型确定模型参数;以及d.为戶皿文档生淑既要。15.如权利要求14所述的方法,其中文档或句子语言模型包括一元语言模型。16.如权利要求15戶脱的方法,包括生j^腿文档的特征矩阵。17.如权禾腰求15戶腿的方法,包括生^^M句子的特征矩阵。18.如权利要求14所述的方法,包括生成模型BUV、其中U是句子聚类矩阵并且V是文档聚类矩阵。19.如权利要求18所述的方法,其中模型BUV^中的每一列包括由具有参数U和V的所述模型生成的相应文档的特征。20.如权利要求18所述的方法,包括制定模型BUV^以对文档语言1tM进,測以。21.如权利要求14所述的方法,包括确定损失函数。全文摘要本发明涉及利用文档聚类的多文档概括。用于通过产生作为文档聚类的混合体的文档模型概括多文档的系统和方法,每个文档又具有句子混合体,其中所述模型同时表示概括信息和文档聚类结构;以及确定损失函数,用于评估所述模型和优化所述模型。文档编号G06F17/27GK101676897SQ200910149778公开日2010年3月24日申请日期2009年5月27日优先权日2008年5月28日发明者D·王,S·朱,Y·赤,Y·龚申请人:美国日本电气实验室公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1