一种基于簇排列的面向主题或查询的多文档摘要方法

文档序号:6557967阅读:152来源:国知局
专利名称:一种基于簇排列的面向主题或查询的多文档摘要方法
技术领域
本发明属于语言文字处理技术领域,具体涉及一种基于簇排列(manifold-ranking)的面向主题或查询的多文档摘要方法。
背景技术
多文档摘要是自然语言处理领域的一个核心问题,近年来被广泛应用于文本/Web检索等应用中。例如,Google、百度等搜索引擎都提供了新闻服务,通过采集网络上的新闻信息形成多个新闻专题,为了方便用户浏览感兴趣的新闻专题,需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。而面向主题或查询的多文档摘要则可以看作是一种特殊的多文档摘要任务,该任务生成的多文档摘要需要反映用户指定的某个主题或查询(或称为用户属性),也就是说,生成的摘要能够解释或者回答用户关注的焦点或提出的信息需求。在上述的新闻服务产品中,个性化新闻服务越来越受到重视,用户通常只关心自己感兴趣的新闻主题,根据用户定义的兴趣爱好等属性,要求新闻服务产品能够返回相关的新闻信息和面向用户属性的摘要。在一些智能问答系统中,我们也要求系统能从相关文档中生成能够回答用户提问的摘要,这种摘要也是一种典型的面向主题或查询的多文档摘要。
面向主题或查询的多文档摘要的困难之处在于第一,和普通多文档摘要的困难一样,由于不同文档中包含的信息存在很大程度的重复和冗余,因此一个好的多文档摘要方法要能有效地融合不同文档中的信息,即既要使生成的摘要保留原文档中的主要信息,又要使摘要中的信息保持一定的新颖性。第二,与普通多文档摘要不同的是,面向主题或查询的多文档摘要要求其包含的信息要与主题或查询相关,能够诠释主题和回答查询,因此在摘要过程中要充分利用用户提供的主题或查询信息。近年来,多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题,其研究进展反映在一系列关于自动文档摘要的学术会议上,包括NTCIR,DUC以及ACL,COLING和SIGIR.
概括来说,普通多文档摘要方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。
目前大部分多文档摘要方法都基于句子抽取技术,现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarization ofmultiple documents(该文作者是D.R.Radev,H.Y.Jing,M.Stys andD.Tam,发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法,该方法是目前比较流行的一种基于句子抽取的摘要方法,MEAD是利用该方法实现的一个原型摘要系统,它在赋予句子权重的过程中,综合考虑了句子级以及句子之间的特征,包括类簇中心点,句子位置,TF*IDF等。文章From Single toMulti-document SummarizationA Prototype System and its Evaluation(作者C.-Y.Lin and E.H.Hovy,发表于2002年出版的期刊Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02),)公开了一种名为NeATS的句子抽取系统,该系统是ISI开发的一个多文档摘要系统,它源于单文档摘要系统-SUMMARIST,该系统选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征,同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者H.Hardy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,发表于2003年出版的期刊Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取系统,该系统适合为大规模的文档集生成摘要,它首先通过段落聚类检测出文档集中最重要的主题,然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu,发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法,该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。
基于图结构的方法也被用来对句子的重要性进行排序。文章Summarizing Similarities and Differences Among Related Documents(作者I.Mani and E.Bloedorn,发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法,该方法利用图连接模型,根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRankprestige in multi-document textsummarization(作者G.Erkan and D.Radev,发表于2004年出版的期刊Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法,该方法首先构建句子连接矩阵,然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithmfor single and multipledocument summarization(作者R.Mihalcea and P.Tarau,发表于2005年出版的期刊Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法,该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。
面向主题或查询的多文档摘要方法通常基于普通多文档摘要方法,在摘要过程中集成主题或查询信息,使得摘要能够满足用户的特定信息需求,现有文献中也记载了多篇关于多文档摘要的方法。文章Robust genericand query-based summarization(作者H.Saggion,K.Bontcheva,andH.Cunningham,发表于2005出版的期刊Proceedings of EACL-2003)公开了一种面向主题或查询的多文档摘要方法,该方法利用基于查询的权重计算器计算每个句子和查询的相似度,然后在基于查询的摘要过程中考虑这个相似度值。文章Approaches to event-focused summarization basedon named entities and query words(作者J.Ge.,X.Huang,and L.Wu,发表于2003年出版的期刊Proceedings of the 2003 DocumentUnderstanding Workshop)公开了一种面向主题或查询的多文档摘要方法,文章CLASSY query-based multi-document summarization(作者J.M.Conroy and J.D.Schlesinger,发表于2005年出版的期刊Proceedingsof the 2005 Document Understanding Workshop)也公开了一种面向主题或查询的多文档摘要方法,这两种多文档摘要的方法探讨了主题描述中查询词和命名实体对面向事件或查询的多文档摘要的作用。文章CATS atopic-oriented multi-document summarization system at DUC 2005(作者A.Farzindar,F.Rozon,and G.Lapalme,发表于2005年出版的期刊Proceedings of the 2005 Document Understanding Workshop)公开了一种面向主题或查询的多文档摘要方法,该方法首先对文档进行主题分析,然后将得到的主题和用户提供的主题进行匹配,最后得到面向主题的多文档摘要。但是,上述方法仍然存在一些不足,这些方法未能综合考虑句子的面向主题或查询的信息丰富程度和信息新颖程度,因而不能精确地根据用户定义的兴趣爱好等属性,返回相关的新闻信息和面向用户属性的摘要。

发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种基于簇排列(manifold-ranking)的面向主题或查询的多文档摘要方法,该方法能够综合考虑句子的面向主题或查询的信息丰富程度和信息新颖程度,并且利用簇排列算法自然一体地考虑句子之间的相互关系以及用户主题或查询的信息可以实现在给定主题或查询的情况下为多个文档形成更符合用户需求的摘要。
为达到以上目的,本发明采用的技术方案是一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤(1)读入主题或查询以及文档,对主题或查询描述以及每个文档进行分句,句子集合为χ={x1,...,xp,xp+1,...,xn}Rm,其中x1到xp表示p个从主题或查询中得到的句子,xp+1到xn表示n-p个从文档中得到的句子。计算这n个句子中任意两个句子的相似度,构建句子关系图,其对应的规范化的句子相似矩阵为S;(2)采用簇排列算法迭代计算文档中每个句子的排列值,所述的排列值即初始权重值;(3)对句子进行差异性惩罚,得到每个句子的最终权重值;(4)根据每个句子的最终权重值,从文档中选择权重值大的句子形成摘要。
进一步来说,步骤(2)中所述的簇排列算法具体方法如下令fχ→R表示一个排列函数,对句子集合χ中每个句子xi,其中,1≤i≤n,赋予一个排列值fi,将f看作一个向量f=[f1,...,fn]T,同时,定义一个向量y=[y1,...,yn]T,其中对于1≤i≤p有yi=1,表示这p个句子来自用户给定的主题或查询,而对于文档中的n-p个句子均有yi=0(p+1≤i≤n),其中,T表示向量转置;根据下式迭代计算每个句子的排列值,直到收敛f(t+1)=αSf(t)+(1-α)y (1)其中f(t)表示第t次迭代得到的向量,t为正整数,S是步骤(1)得到的规范化的句子相似矩阵,α是
之间的一个参数,决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小;每一次迭代过程均基于上次迭代计算得到的排列值,利用上式计算每个句子的新的排列值,直到所有句子的前后两次迭代计算得到的排列值不再变化为止,实际计算时只要所有句子的排列值的变化小于阈值时算法即停止,通常令f(1)=y;令fi*表示算法收敛后句子xi得到的排列值。
上述算法的基本思想是相邻接的句子之间的排列值在一定程度上应该相近,因此每个句子都将自身的排列值扩散到它的相邻句子,直到这个过程达到一个全局的稳定状态为止,最后每个文档中的句子都获得了一个排列值,反映该句子的面向用户主题或查询的信息丰富程度,上述算法可以从理论上证明收敛到f*=β(I-αS)-1y (2)其中β=1-α,f*表示得到的排列值向量,I是单位矩阵;进一步,为使本发明获得更好的发明效果,步骤(1)中所述的主题或查询信息是跟特定用户有关的个性化描述,包括用户属性、用户提问、用户查询,这些描述由用户直接提供,或者从用户的行为分析得到。
再进一步,步骤(1)中将主题或查询信息分成1到5个句子,也即是p的取值范围为1到5。
进一步,为使本发明获得更好的发明效果,步骤(1)中计算句子相似度,构建句子关系图时,具体方法如下1)对用户给定的主题或查询分句,得到x1到xp这p个句子,对所有文档进行分句得到xp+1到xn这n-p个句子,对这n个句子分词,然后利用下面的余弦公式对句子集合χ={x1,...,xp,xp+1,...,xn}Rm中的任意两个句子xi和xj计算相似度值sim(xi,xj)=cos(xρi,xρj)=xρi·xρj||xρi||·||xρj||---(3)]]>其中 和 为两个句子对应的词向量表示,向量中词t对应的权重根据tft*isft公式计算,tft表示词t在句子中的频率,isft表示词t倒排句子频率,也就是1+log(N/nt),其中N是句子的总数量,nt是包含词t的句子数量;2)将每个句子当作一个顶点,如果两个句子xi和xj之间的相似度值大于阈值,那么在这两个句子之间建立一条边,边的权重为句子之间的相似度值,从而得到一个带权图G,令W表示图G对应的邻接矩阵,如果句子xi和xj之间存在边,那么Wij=sim(xi,xj),且对于所有的i,Wii=0;3)对于得到的带权图G,本发明区分其中文档内句子关系和文档间句子关系,如果两个句子属于同一文档,那么它们之间的关系为文档内句子关系;如果两个句子分属不同文档,那么它们之间的关系为文档间句子关系。为了区分这两种关系的不同重要性,本发明将得到的邻接矩阵分解为W~=λ1Wintra+λ2Winter---(4)]]>其中Wintra是仅包含表示文档内句子关系的边的邻接矩阵(表示文档间句子关系的边权值设为0),Winter则是仅包含表示文档间句子关系的边的邻接矩阵(表示文档内句子关系的边权值设为0),λ1,λ2∈
;4)对新的邻接矩阵 进行规范化得到新的相似矩阵S=D-1/2W~D-1/2,]]>其中D是对角矩阵,第(i,i)个元素等于 的第i行元素之和;令对原邻接矩阵W进行同样规范化得到的矩阵为 再进一步,为使本发明获得更好的发明效果,步骤(1)中设定两个句子xi和xj之间的相似度值大于阈值时,阈值设定为0.01。
进一步,为使本发明获得更好的发明效果,步骤(1)中区分文档内句子关系和文档间句子关系时,公式(4)中λ1设为0.3,λ2设为1。
进一步,为使本发明获得更好的发明效果,步骤(2)中公式(1)中α设定为0.6。
进一步,为使本发明获得更好的发明效果,步骤(2)中设定句子的排列值的变化小于阈值时,阈值设定为0.0001。
进一步,为使本发明获得更好的发明效果,步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下1)初始化两个集合A=φ,B={xi|i=p+1,...,n},每个句子的最终权重值初始化为其排列值,也就是说RankScore(xi)=fi*,i=p+1,...n;2)按照当前最终权重值降序排列B中的句子;3)假定xi是排名最高的句子,也就是序列中第一个句子,将xi从B移到A,并且对B中每一个和xi相邻接的句子xj(j≠i)进行如下的差异性惩罚RankScore(xj)=RankScore(xj)-ω·S^ji·fi*---(5)]]>其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强;如果ω为0,那么就没有差异性惩罚;
4)循环执行步骤2)和步骤3),直到B=φ。
再进一步,为使本发明获得更好的发明效果,步骤3)中公式(5)中所述的惩罚程度因子ω设定为8。
进一步,步骤(4)中,从文档句子xp+1到xn中选择权重值最大的2-10个句子形成摘要。
本发明的效果在于采用本发明所述的方法,能够全面考虑了句子之间的相互关系以及用户主题或查询的信息,实现了使生成的多文档摘要既能包含文档集的主要信息,又能诠释主题或回答查询,能够得到更好的面向主题或查询的多文档摘要。
本发明之所以具有上述发明效果,是因为本发明具有下述特点本发明提出了一种全新的摘要方法,该方法基于一种新的半监督学习算法-基于簇排列的算法,一体化考虑句子之间的相互关系以及用户主题或查询的信息,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证生成摘要的新颖性。该方法在基于簇排列的算法中还区别对待了文档内句子关系和文档间句子关系这两种不同的关系,赋予文档间句子关系更大的贡献权重。


图1是本发明所述方法的流程图;图2是使用本发明提出的方法改善文档检索的示意图。
具体实施例方式
下面结合附图和实施例对本发明作进一步的描述如图1所示,一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤(1)读入文档,将主题或查询信息作为句子,对每个文档及主题或查询信息分句、分词,计算句子相似度,构建句子关系图;本实施例中所述的主题包括用户属性、用户提问、用户查询等跟特定用户有关的个性化描述,这些描述是由用户直接提供,当然也可以从用户的行为分析得到;如果主题过长,可以将主题分成多个句子,最好是分成1到5个句子。由于本实施例中的主题较短,所以就将主题当作一个句子,也就是令p=1。
本实施例中计算句子相似度,构建句子关系图时,采用具体方法如下将用户给定的主题当作一个句子x1,对每个文档分句得到n-1个句子,同时得到句子集合χ={x1,X2,...,xn}Rm,其中x1表示用户给定的主题或查询,x2,...,xn表示文档中的n-1个句子;对这n个句子分词,然后利用下面的余弦公式对句子集合χ={x1,x2,...,xn}Rm中的任意两个句子xi和xj计算相似度值sim(xi,xj)=cos(xρi,xρj)=xρi·xρj||xρi||·||xρj||---(3)]]>其中 和 为两个句子对应的词向量表示,向量中词t对应的权重根据tft*isft公式计算,tft表示词t在句子中的频率,isft表示词t倒排句子频率,也就是1+log(N/nt),其中N是句子的总数量,nt是包含词t的句子数量。
将每个句子当作一个顶点,如果两个句子xi和xj之间的相似度值大于阈值,本实施例中,设定阈值为0.01;那么在这两个句子之间建立一条边,边的权重为句子之间的相似度值,从而得到一个带权图G。令W表示图G对应的邻接矩阵,如果句子xi和xj之间存在边,那么Wij=sim(xi,xj),且对于所有的i,Wij=0。
对于得到的带权图G,本发明区分其中文档内句子关系和文档间句子关系。如果两个句子属于同一文档,那么它们之间的关系为文档内句子关系;如果两个句子分属不同文档,那么它们之间的关系为文档间句子关系。为了区分这两种关系的不同重要性,本发明将得到的邻接矩阵分解为W~=λ1Wintra+λ2Winter---(4)]]>其中Wintra是仅包含表示文档内句子关系的边的邻接矩阵(表示文档间句子关系的边权值设为0),Winter则是仅包含表示文档间句子关系的边的邻接矩阵(表示文档内句子关系的边权值设为0),λ1,λ2∈
,本实施例中,设定设λ1=0.3,λ2=1,从而对文档间句子关系赋予更多重要性。
对新的邻接矩阵 进行规范化得到新的相似矩阵S=D-1/2W~D-1/2,]]>其中D是对角矩阵,第(i,i)个元素等于 的第i行元素之和;令对原邻接矩阵W进行同样规范化得到的矩阵为 (2)采用簇排列算法迭代计算文档中每个句子的排列值;本实施例中,簇排列算法具体方法如下
令fχ→R表示一个排列函数,对每个句子xi(1≤i≤n)赋予一个排列值fi.我们可以将f看作一个向量f=[f1,...,fn]T。同时,我们定义一个向量y=[y1,...,yn]T,其中y1=1反映了句子x1表示用户给定的主题或查询,而对于文档中的所有句子均有yi=0(2≤i≤n)。
根据下式迭代计算每个句子的排列值,直到收敛f(t+1)=αSf(t)+(1-α)y (1)其中f(t)表示第t次迭代得到的向量,α是
之间的一个参数,决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小,本实施例中α设定为为0.6;通常令f(1)=y,每一次迭代过程均基于上次迭代计算得到的排列值,利用上式计算每个句子的新的排列值,直到所有句子的前后两次迭代计算得到的排列值不再变化为止,实际计算时只要所有句子的排列值的变化小于阈值时算法即停止,本实施例中,阈值设定为0.0001;令fi*表示算法收敛后句子xi得到的排列值。
上述算法的基本思想是相邻接的句子之间的排列值在一定程度上应该相近,因此每个句子都将自身的排列值扩散到它的相邻句子,直到这个过程达到一个全局的稳定状态为止。最后每个文档中的句子都获得了一个排列值,反映该句子的面向用户主题或查询的信息丰富程度。
上述算法可以从理论上证明收敛到f*=β(I-αS)-1y (2)其中β=1-α。
(3)对句子进行差异性惩罚,得到每个句子的最终权重值;对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下1)初始化两个集合A=φ,B={xi|i=2,...,n},每个句子的最终权重值初始化为其排列值,也就是说RankScore(xi)=fi*,i=2,...n;2)按照当前最终权重值降序排列B中的句子;3)假定xi是排名最高的句子,也就是序列中第一个句子,将xi从B移到A,并且对B中每一个和xi相邻接的句子xj(j≠i)进行如下的差异性惩罚RankScore(xj)=RankScore(xj)-ω·S^ji·fi*---(5)]]>其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强,本实施例中,惩罚程度因子ω设定为8;如果ω为0,那么就没有差异性惩罚;
使用A的位图否则使用F的位图在F的位图中记录写(如果有)的影响A2)对向A的后续客户写上应用下面的规则如果A不可访问则对A的所有客户写都失败否则将所有客户写重定向到F并且改变F的位图以记录写的影响通过下表所示的A和F的位图管理对F的重定向客户写操作。
颗粒状态

其中1)活动1.1-如果必要,从级联中读原始数据,并且和客户数据合并。将合并的/客户数据写到F。将F的位图设置为ND。
2)活动1.2-将客户数据写到F。
3)活动1.3-从F读颗粒,以通常的方法将原始数据写到级联中。将客户数据写到F,将F的位图设置为ND。
表2在DUC2003第3个任务上评测的比较结果

表3在DUC2005唯一任务上评测的比较结果

实验结果表明,本发明的方法表现优异,在三个评价指标上都优于参评者的系统以及基准系统。
ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者C.-Y.Lin and E.H.Hovy,发表于2003年出版的期刊Proceedings of 2003 LanguageTechnology Conference(HLT-NAACL 2003))本发明所述的方法并不限于具体实施方式
中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。
权利要求
1.一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤(1)读入主题或查询以及文档,对主题或查询描述以及每个文档进行分句,句子集合为x={x1,...,xp,xp+1,...,xn}Rm,其中x1到xp表示p个从主题或查询中得到的句子,xp+1到xn表示n-p个从文档中得到的句子,计算这n个句子中任意两个句子的相似度,构建句子关系图,其对应的规范化的句子相似矩阵为S;(2)采用簇排列算法迭代计算文档中每个句子的排列值,所述的排列值即初始权重值;(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择权重值大的句子形成摘要。
2.如权利要求1所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(2)中簇排列算法具体方法如下令f:x→R表示一个排列函数,对句子集合x中每个句子xi,其中,1≤i≤n,赋予一个排列值fi,将f看作一个向量f=[f1,...,fn]T,同时,定义一个向量y=[y1,...,yn]T,其中对于1≤i≤p有yi=1,表示这p个句子来自用户给定的主题或查询,而对于文档中的n-p个句子均有yi=0(p+1≤i≤n),其中,T表示向量转置;根据下式迭代计算每个句子的排列值,直到收敛f(t+1)=αSf(t)+(1-α)y(1)其中f(t)表示第t次迭代得到的向量,t为正整数,S是步骤(1)得到的规范化的句子相似矩阵,α是
之间的一个参数,决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小;每一次迭代过程均基于上次迭代计算得到的排列值,利用上式计算每个句子的新的排列值,直到所有句子的前后两次迭代计算得到的排列值的变化小于阈值时算法即停止,通常令f(1)=y;令fi*表示算法收敛后句子xi得到的排列值;
3.如权利要求2所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(1)中所述的主题或查询信息是跟特定用户有关的个性化描述,包括用户属性、用户提问、用户查询,这些描述由用户直接提供,或者从用户的行为分析得到。
4.如权利要求3所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(1)中将主题或查询信息分成1到5个句子,也就是p取值范围为1到5。
5.如权利要求1、2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(1)中计算句子相似度,构建句子关系图时,具体方法如下1)对用户给定的主题或查询分句,得到x1到xp这p个句子,对所有文档进行分句得到xp+1到xn这n-p个句子,对这n个句子分词,然后利用下面的余弦公式对句子集合x={x1,...,xp,xp+1,...,xn}Rm中的任意两个句子xi和xj计算相似度值sim(xi,xj)=cos(xρi,xρj)=xρi·xρj||xρi||·||xρj||···(3)]]>其中 和 为两个句子对应的词向量表示,向量中词t对应的权重根据tft*isft公式计算,tft表示词t在句子中的频率,isft表示词t倒排句子频率,也就是1+log(N/nt),其中N是句子的总数量,nt是包含词t的句子数量;2)将每个句子当作一个顶点,如果两个句子xi和xj之间的相似度值大于阈值,那么在这两个句子之间建立一条边,边的权重为句子之间的相似度值,从而得到一个带权图G,令W表示图G对应的邻接矩阵,如果句子xi和xj之间存在边,那么Wij=sim(xi,xj),且对于所有的i,Wij=0;3)对于得到的带权图G,本发明区分其中文档内句子关系和文档间句子关系,如果两个句子属于同一文档,那么它们之间的关系为文档内句子关系;如果两个句子分属不同文档,那么它们之间的关系为文档间句子关系,为了区分这两种关系的不同重要性,本发明将得到的邻接矩阵分解为W~=λ1Wintra+λ2Winter···(4)]]>其中Wintra是仅包含表示文档内句子关系的边的邻接矩阵,表示文档间句子关系的边权值设为0,Winter则是仅包含表示文档间句子关系的边的邻接矩阵,表示文档内句子关系的边权值设为0,λ1,λ2∈
;4)对新的邻接矩阵 进行规范化得到新的相似矩阵S=D-1/2W~D-1/2,]]>其中D是对角矩阵,第(i,i)个元素等于 的第i行元素之和,令对原邻接矩阵W进行同样规范化得到的矩阵为
6.如权利要求5所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是设定两个句子xi和xj之间的相似度值大于阈值时,阈值设定为0.01。
7.如权利要求5所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(1)中区分文档内句子关系和文档间句子关系时,公式(4)中λ1设为0.3,λ2设为1。
8如权利要求2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(2)中公式(1)中α设定为0.6。
9.如权利要求2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(2)中设定句子的排列值的变化小于阈值时,阈值设定为0.0001。
10.如权利要求1、2、3或4所述的种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下a)初始化两个集合A=φ,B={xi|i=p+1,...,n},每个句子的最终权重值初始化为其排列值,也就是说RankScore(xi)=fi*,i=p+1,...n;b)按照当前最终权重值降序排列B中的句子;c)假定xi是排名最高的句子,也就是序列中第一个句子,将xi从B移到A,并且对B中每一个和xi相邻接的句子xj(j≠i)进行如下的差异性惩罚RankScore(xj)=RankScore(xj)-ω·S^ji·fi*···(5)]]>其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强;如果ω为0,那么就没有差异性惩罚;d)循环执行步骤2)和步骤3),直到B=φ。
11.如权利要求10所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤3)中公式(5)中所述的惩罚程度因子ω设定为8;步骤(4)中,文档句子xp+1到xn中选择权重值最大的2-10个句子形成摘要。
12.如权利要求1、2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是步骤(4)中,文档句子xp+1到xn中选择权重值最大的2-10个句子形成摘要。
全文摘要
本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。
文档编号G06F17/27GK1828609SQ20061007258
公开日2006年9月6日 申请日期2006年4月13日 优先权日2006年4月13日
发明者万小军, 杨建武, 吴於茜, 陈晓鸥, 肖建国 申请人:北大方正集团有限公司, 北京大学, 北京北大方正技术研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1