一种基于句子关系图的多文档摘要方法

文档序号:6557966阅读:113来源:国知局
专利名称:一种基于句子关系图的多文档摘要方法
技术领域
本发明属于语言文字处理及信息检索技术领域,具体涉及一种基于句子关系图的多文档摘要方法。
背景技术
多文档摘要是自然语言处理领域的一个核心问题,近年来被广泛应用于文本/网站(Web)内容检索等应用中。例如,Google、百度等搜索引擎都提供了新闻服务,通过采集网络上的新闻信息形成多个新闻专题,为了方便用户浏览感兴趣的新闻专题,需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。
多文档摘要的困难在于不同文档中包含的信息存在很大程度的重复和冗余,因此一个好的多文档摘要方法要能有效地融合不同文档中的有效信息,即既要使生成的文档摘要保留原文档中的主要信息,又要使文档摘要中的信息保持一定的新颖性。近年来,多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题,其研究进展反映在一系列关于自动文档摘要的学术会议上,包括NTCIR,DUC以及ACL,COLING和SIGIR.
概括来说,多文档摘要的方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。
目前大部分多文档摘要的方法都是基于句子抽取技术,现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarizationof multiple documents(该文作者是D.R.Radev,H.Y.Jing,M.Stysand D.Tam,发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法,该方法是目前比较流行的一种基于句子抽取的摘要方法,MEAD是利用该方法实现的一个原型摘要系统,它在赋予句子权重的过程中,综合考虑了句子级以及句子之间的特征,包括类簇中心点,句子位置,TF*IDF等。文章From Single toMulti-document SummarizationAPrototype System and its Evaluation(作者C.-Y.Lin and E.H.Hovy,发表于2002年出版的期刊Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02),)公开了一种名为NeATS的句子抽取系统,该系统是ISI开发的一个多文档摘要系统,它源于单文档摘要系统-SUMMARIST,该系统选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征,同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者H.Hardy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,发表于2003年出版的期刊Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取系统,该系统适合为大规模的文档集生成摘要,它首先通过段落聚类检测出文档集中最重要的主题,然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu,发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法,该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。
基于图结构的方法也被用来对句子的重要性进行排序,文章Summarizing Similarities and Differences Among Related Documents(作者I.Mani and E.Bloedorn,发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法,该方法利用图连接模型,根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRankprestige in multi-document textsummarization(作者G.Erkan and D.Radev,发表于2004年出版的期刊Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法,该方法首先构建句子连接矩阵,然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithm for single and multipledocument summarization(作者R.Mihalcea and P.Tarau,发表于2005年出版的期刊Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法,该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。
以上基于图结构的方法没有采用有效的措施保持摘要中句子的新颖性。同时,上述基于图结构的方法没有区分句子之间不同类型的关系,这些不同类型的关系对句子重要性的计算具有不同的贡献。最后,现有的上述方法只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间关系具有可扩散的特性。

发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种基于句子关系图的多文档摘要方法,该方法能够实现在抽取句子的过程中既能考虑句子的信息丰富程度,又能考虑其新颖程度,从而为多个文档形成更好的摘要。
为达到以上目的,本发明采用的技术方案是一种基于句子关系图的多文档摘要方法,包括以下步骤(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度(Information Richness);(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择权重值大的句子形成摘要。
进一步,为使本发明获得更好的发明效果,步骤(1)中对句子集合S构建句子关系图时,具体方法如下1)构建初始句子关系图;对S中任意两个句子si和sj利用下列余弦公式计算相似度值aff(si,sj)=cos(sρi,sρj)=sρi·sρj||sρi||·||sρj||---(1)]]>其中每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量;如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,是一个阈值afft;得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下 2)句子关系扩散;3)区分文档内句子关系和文档间句子关系。
再进一步,为使本发明获得更好的发明效果,步骤1)中阈值afft设为0.01;再进一步,为使本发明获得更好的发明效果,步骤2)中句子关系扩散时,采用如下方法,从而得到接近真实语义的句子关系图对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下M^=Σt=1∞γt-1Mt---(3)]]>其中γ(0<γ<1)是衰减因子;Mt是步骤1)得到的邻接矩阵M的t次幂矩阵,其中t为正整数。
矩阵 经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵M(=(M(i,j)n×n]]> 更进一步,为使本发明获得更好的发明效果,步骤2)中句子关系扩散时,衰减因子γ设为0.9。
更进一步,为使本发明获得更好的发明效果,步骤2)中句子关系扩散时,为加快运算速度,t设定为5。
再进一步,为使本发明获得更好的发明效果,步骤3)中区分文档内句子关系和文档间句子关系时,采用如下方法,赋予不同类型关系不同的贡献权重首先将根据(4)式得到的矩阵 进行如下分解M(=M(intra+M(Inter---(5)]]>其中 为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为0; 为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为0;两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系。
对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为M=~αM(intra+βM(Inter---(6)]]>
其中α,β是区分文档内句子关系和文档间句子关系具有不同贡献的参数,令0≤α,β≤1,如果α=β=1,那么就没有区分这两种句子关系。
类似公式(4),将矩阵 规范化到M使得每一行元素值之和为1。
更进一步,为使本发明获得更好的发明效果,步骤3)中区分文档内句子关系和文档间句子关系时,权重参数α,β分别设为0.3和1。
进一步,为使本发明获得更好的发明效果,步骤(2)中计算句子的信息丰富程度时,采用如下方法句子的信息丰富程度反映了该句子包含的主题信息的多少,在得到句子邻接矩阵M之后,利用如下的公式迭代计算每个句子si的信息丰富程度InfoRich(si)InfoRich(si)=d·Σall j≠iInfoRich(sj)·M‾j,i+(1-d)n---(7)]]>其中公式(7)等号右边的InfoRich(sj)表示经过上次迭代过程计算得到的句子sj的信息丰富程度,而公式(7)等号左边的InfoRich(si)则表示当前得到的句子si的新的信息丰富程度;d为阻尼因子,通常设为0.85,n为句子数量。
上式用矩阵形式表示为λρ=dM‾Tλρ+(1-d)neρ---(8)]]>其中 为一个n维向量,每一维表示一个句子的信息丰富程度, 是一个n维单位向量。
每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度,利用上式计算每个句子的新的信息丰富程度,直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止,或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。
上述公式(7)和(8)是基于以下四个假设来迭代计算句子的信息丰富程度(a)一个句子与越多的其他句子相邻接,这个句子包含的信息越丰富;(b)与某个句子相邻接的其他句子所包含的信息越丰富,这个句子包含的信息也越丰富;(c)一个句子与其他包含丰富信息的句子之间的连接边具有越大的权重,那么这个句子包含的信息越丰富;(d)来自不同文档的句子邻接关系比来自同一文档德句子邻接关系对计算句子的信息丰富程度更重要。
再一步,为使本发明获得更好的发明效果,所述步骤(2)中设定句子的信息丰富程度的变化小于阈值时,阈值设定为0.0001。
进一步,为使本发明获得更好的发明效果,步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下1)初始化两个集合A=φ,B={si|i=1,2,...,n},每个句子的最终权重值初始化为其信息丰富程度,也就是说ARScore(si)=InfoRich(si),i=1,2,...n;2)按照当前最终权重值降序排列B中的句子;3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj(j≠i)进行如下的差异性惩罚ARScore(sj)=ARScore(sj)-ω·M(j,i·InfoRich(si)---(9)]]>其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强,如果ω为0,那么就没有差异性惩罚。
4)循环执行步骤2)和步骤3),直到B=φ。
再一步,为使本发明获得更好的发明效果,步骤3)中公式(9)中所述的惩罚程度因子ω可以设定为7。
进一步,步骤(4)中,选择权重值最大的2-10个句子形成摘要。
本发明的效果在于采用本发明所述的方法克服了现有技术中多文档摘要的缺点,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑了句子的信息丰富程度,又考虑了其新颖程度。
本发明之所以具有上述发明效果,是因为本发明综合考虑了句子的信息丰富程度和信息新颖程度,引入了句子关系扩散以得到更接近真实语义的句子关系图,同时,在计算句子信息丰富程度时区分了文档内句子关系和文档间句子关系,赋予文档间句子关系更大的贡献权重。


图1是本发明所述方法的流程图;图2是使用本发明提出的方法改善文档检索的示意图。
具体实施例方式
下面结合实施例和附图进一步阐明本发明所述的方法如图1所示,一种基于句子关系图的多文档摘要方法,包括以下步骤(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;对句子集合S构建句子关系图时,具体方法如下1)构建初始句子关系图;对S中任意两个句子si和sj利用下列余弦公式计算相似度值aff(si,sj)=cos(sρi,sρj)=sρi·sρj||sρi||·||sρj||---(1)]]>其中每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量。
如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,是一个阈值afft,本实施例中,阈值afft设为0.01。
得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下 2)句子关系扩散;句子关系扩散时,本实施例中采用如下方法,从而得到接近真实语义的句子关系图对初始句子关系图的邻接矩阵M进行下式的关系扩散,得到的新邻接矩阵M^=Σt=1∞γt-1Mt---(3)]]>其中γ(0<γ<1)是衰减因子,本实施例中,设定γ为0.9。Mt是步骤a得到的邻接矩阵M的t次幂矩阵。
为加快运算速度,本实施例中,设定t为5。
矩阵 经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵M(=(M(i,j)n×n]]> 3)区分文档内句子关系和文档间句子关系首先将根据(4)式得到的矩阵 进行如下分解M(=M(intra+M(Inter---(5)]]>其中 为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为0。 为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为0。两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系。
对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为M~=αM(intra+βM(Inter---(6)]]>其中α,β是区分文档内句子关系和文档间句子关系具有不同贡献的参数,令0≤α,β≤1,如果α=β=1,那么就没有区分这两种句子关系。本实施例令α,β分别设为0.3和1,表明文档间句子关系比文档内句子关系更重要。
类似(4)式,将矩阵 规范化到M使得每一行元素值之和为1。
(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;计算句子的信息丰富程度时,本实施例中采用如下方法句子的信息丰富程度反映了该句子包含的主题信息的多少,在得到句子邻接矩阵M之后,利用如下的公式迭代计算每个句子si的信息丰富程度InfoRich(si)InfoRich(si)=d·Σall j≠iInfoRich(sj)·M‾j,i+(1-d)n---(7)]]>其中公式(7)等号右边的InfoRich(sj)表示经过上次迭代过程计算得到的句子sj的信息丰富程度,而公式(7)等号左边的InfoRich(si)则表示当前得到的句子si的新的信息丰富程度。d为阻尼因子,本实施例中设为0.85,n为句子数量。
上式用矩阵形式表示为λρ=dM‾Tλρ+(1-d)neρ---(8)]]>其中 为一个n维向量,每一维表示一个句子的信息丰富程度, 是一个n维单位向量。
每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度,利用上式计算每个句子的新的信息丰富程度,直到所有句子的前后两次迭代计算得到的信息丰富程度的变化小于一定阈值算法为止,本实施例中,设定阈值为0.0001。
(3)对句子进行差异性惩罚,得到每个句子的最终权重值;对句子进行差异性惩罚时,本实施例中采用贪心算法,从而得到每个句子的最终权重值,具体步骤如下1)初始化两个集合A=φ,B={si|i=1,2,...,n},每个句子的最终权重值初始化为其信息丰富程度,也就是说ARScore(si)=InfoRich(si),i=1,2,...n;2)按照当前最终权重值降序排列B中的句子;3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj(j≠i)进行如下的差异性惩罚ARScore(sj)=ARScore(sj)-ω·M(j,i·InfoRich(si)---(9)]]>其中ω>0是惩罚程度因子,本实施例中设为7。ω越大,差异性惩罚越强。如果ω为0,那么就没有差异性惩罚。
4)循环执行步骤2)和步骤3),直到B=φ。
上面差异性惩罚过程中步骤3)为关键步骤,基本思想是根据某个句子与信息最丰富的句子之间的信息冗余程度减少该句子的权重值。
(4)根据每个句子的最终权重值,选择权重值最大的若干个句子形成摘要。一般来说,选择2-10个句子形成摘要即可,本实施例中选择8个句子形成摘要。
如图2所示为使用本发明提出的方法改善文档检索的示意图。
为了验证本发明的有效性,采用文档理解大会(DUC)的评测数据和任务。本实施例中采用了DUC2002和DUC2004的多文档摘要评测任务,也就是DUC2002的第2个评测任务和DUC2004的第2个评测任务。DUC2002的多文档摘要任务提供了60个文档集,要求参评者提供100字以内长度的摘要,文档来源于TREC-9。DUC2004的多文档摘要任务提供了50个文档集,要求参评者提供665字节以内长度的摘要,文档来源为TDT-2。参评者提交的摘要将与人工摘要做对比。采用流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法,包括三个评价指标ROUGE-1,ROUGE-2和ROUGE-W,ROUGE值越大,效果越好,ROUGE-1值是最主要的评价指标。本发明所述的方法和参评者之中表现最优异的五个系统以及两个基准系统作比较,实验结果分别如表1和表2所示表1在DUC2002评测数据上的比较结果

表2在DUC2004评测数据上的比较结果

实验结果表明,本发明所述的方法表现优异,在三个评价指标上都优于参评者的系统以及基准系统。
ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者C.-Y.Lin and E.H.Hovy,发表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))本发明所述的方法并不限于具体实施方式
中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。
权利要求
1.一种基于句子关系图的多文档摘要方法,包括以下步骤(1)读入文档,对每个文档分句,并对句子集合S构建句子关系图;(2)基于步骤(1)得到的句子关系图迭代计算每个句子的信息丰富程度;(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择权重值大的句子形成摘要。
2.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(1)中对句子集合S构建句子关系图时,包括以下步骤1)构建初始句子关系图;对S中任意两个句子si和sj利用下列余弦公式计算相似度值aff(si,sj)=cos(siρ,sjρ)=siρ·sjρ||siρ||·||sjρ||···(1)]]>其中每个句子向量的每一维为句子中的一个词,词tj权重为tfij*isfj,tfij为词tj在句子si中的频率,isfj为词tj的倒排句子频率,也就是1+log(N/ni),其中N是句子集合中句子的数量,ni是包含词tj的句子的数量;如果aff(si,sj)>afft,那么在si和sj之间建立一条连接,也就是在图中si和sj之间添加一条边,上述的afft是一个阈值;得到的初始句子关系图的邻接矩阵为M=(Mi,j)n×n定义如下 2)句子关系扩散;3)区分文档内句子关系和文档间句子关系。
3.如权利要求2所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤2)中句子关系扩散时,采用如下方法,从而得到接近真实语义的句子关系图对初始句子关系图的邻接矩阵M进行关系扩散之后得到的新邻接矩阵定义如下M^=Σt=1∞γt-1Mt···(3)]]>其中γ(0<γ<1)是衰减因子;Mt是步骤1)得到的邻接矩阵M的t次幂矩阵,其中t为正整数;矩阵 经过如下规范化使得每一行元素值之和为1,得到新的邻接矩阵M(=(M(i,j)n×n]]>
4.如权利要求3所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤2)中句子关系扩散时,衰减因子γ设为0.9,t设定为5。
5.如权利要求3或4所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤3)中区分文档内句子关系和文档间句子关系时,采用如下方法,赋予不同类型关系不同的贡献权重首先将根据(4)式得到的矩阵 进行如下分解M(=M(intra+M(Inter···(5)]]>其中 为仅包含文档内句子关系的邻接矩阵,也就是令文档间句子关系对应的元素为O; 为仅包含文档间句子关系的邻接矩阵,也就是令文档内句子关系对应的元素为O;两个属于同一文档的句子之间的链接关系称为文档内句子关系,而两个分属不同文档的句子之间的链接关系称为文档间句子关系;对文档内句子关系和文档间句子关系进行区分,赋予不同的权重得到新的矩阵为M~=αM(intra+βM(Inter···(6)]]>其中α,β是区分文档内句子关系和文档间句子关系具有不同贡献的参数,令0≤α,β≤1,如果α=β=1,那么就没有区分这两种句子关系;类似公式(4),将矩阵 规范化到M使得每一行元素值之和为1。
6.如权利要求5所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤3)中区分文档内句子关系和文档间句子关系时,权重参数α,β分别设为0.3和1。
7.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(2)中计算句子的信息丰富程度时,采用如下方法在得到句子邻接矩阵M之后,利用如下的公式迭代计算每个句子si的信息丰富程度InfoRich(si)InfoRich(si)=d·Σallj≠iInfoRich(sj)·M‾j,i+(1-d)n···(7)]]>其中公式(7)等号右边的InfoRich(sj)表示经过上次迭代过程计算得到的句子sj的信息丰富程度,而公式(7)等号左边的InfoRich(si)则表示当前得到的句子si的新的信息丰富程度;d为阻尼因子;n为句子数量。上式用矩阵形式表示为λρ=dM‾Tλρ+(1-d)neρ···(8)]]>其中 为一个n维向量,每一维表示一个句子的信息丰富程度, 是一个n维单位向量;每一次迭代过程均基于上次迭代计算得到的句子信息丰富程度,利用公式(7)计算每个句子的新的信息丰富程度,直到所有句子的前后两次迭代计算得到的信息丰富程度不再变化为止,或者实际计算时所有句子的信息丰富程度的变化小于设定的阈值。
8.如权利要求7所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(2)中阻尼因子d为0.85,设定句子的信息丰富程度的变化小于阈值时,阈值设定为0.0001。
9.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,具体包括以下步骤1)初始化两个集合A=φ,B={si|i=1,2,...,n},每个句子的最终权重值初始化为其信息丰富程度,也就是说ARScore(si)=InfoRich(si),i=1,2,...n;2)按照当前最终权重值降序排列B中的句子;3)假定si是排名最高的句子,也就是序列中第一个句子,将si从B移到A,并且对B中每一个和si相邻接的句子sj(j≠i)进行如下的差异性惩罚ARScore(sj)=ARScore(sj)-ω·M(j,i·InfoRich(si)···(9)]]>其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强;4)循环执行步骤2)和步骤3),直到B=φ。
10.如权利要求9所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤3)中公式(9)中所述的惩罚程度因子ω设定为7。
11.如权利要求1所述的一种基于句子关系图的多文档摘要方法,其特征在于步骤(4)中,选择权重值最大的2-10个句子形成摘要。
全文摘要
本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。
文档编号G06F17/27GK1828608SQ20061007258
公开日2006年9月6日 申请日期2006年4月13日 优先权日2006年4月13日
发明者万小军, 杨建武, 吴於茜, 陈晓鸥 申请人:北大方正集团有限公司, 北京大学, 北京北大方正技术研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1