为文档集自动生成摘要的方法及装置的制作方法

文档序号:6614383阅读:119来源:国知局
专利名称:为文档集自动生成摘要的方法及装置的制作方法
技术领域
本发明涉及语言文字处理以及信息检索领域,特别涉及一种为文档集自动生成摘要的方法和装置。

背景技术
为文档集自动生成摘要是指计算机系统自动从一个文档集的各篇文档中,提取出该文档集的精要或要点;其目的是通过对所述文档集中的各篇文档进行压缩、提炼,为用户提供该文档集简明扼要的内容描述。随着计算机技术,以及互联网技术的不断推广应用,为文档集自动生成摘要技术已经被广泛地应用在文本/网站(Web)内容检索等方面。例如Google、百度等搜索引擎所提供的新闻服务,就是通过采集网络上的各种新闻信息,按照其主题和类型的不同,形成多个新闻专题(新闻文档集),并通过所述为文档集自动生成摘要技术为每个文档集生成摘要,以便用户能够更加方便地浏览自己感兴趣的新闻专题。
概括来说,所述为文档集自动生成摘要的方法可分为两种基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。其中,所述基于句子抽取的方法是将文档集中的每篇文档按句分割,根据每个句子在所述文档集中的重要性为其赋予不同的权重值,选择权重最大的句子形成所述文档集的摘要,该方法不需要利用深层的自然语言理解技术即可实现为文档集自动生成摘要的目的,其实现简单,便于使用;所述基于句子生成的方法需要利用深层的自然语言理解技术,对所述文档集中的每个句子进行句法、语义分析,并利用信息抽取或自然语言生成技术产生新的句子,从而为所述文档集自动生成摘要,该方法需要利用深层的自然语言理解技术才能实现为文档集自动生成摘要的目的,其实现起来比较复杂,不便使用。
由于所述基于句子抽取的方法具有实现简单,便于使用等优点,所以,目前大部分为文档集自动生成摘要的方法都是采用基于句子抽取的方法。例如文章Centroid-based summarization of multiple documents(作者是D.R.Radev,H.Y.Jing,M.Stys and D.Tam,发表于2004年出版的期刊InformationProcessing and Management)公开了一种基于中心点的句子抽取方法,该方法在给文档集中的每个句子赋予权重的过程中,综合考虑了句子级以及句子之间的特征,包括类簇中心点,句子位置,TF/IDF(关键词的频率/倒序索引排序)等,通过所述特征为每个句子赋予不同的权重值,并提取权重值较大的句子作为文档集的摘要;文章From Single to Multi-document SummarizationAPrototype System and its Evaluation(作者是C.-Y.Lin and E.H.Hovy,发表于2002年出版的期刊Proceedi ngs of the 40th Anniversary Meeting ofthe Association for Computational Linguistics(ACL-02))公开了一种名为NeATS的句子抽取系统,该系统通过考虑句子位置、词语频率、主题签名和词语类簇等特征,为文档集中的每个句子赋予不同的权重值,同时利用MMR(Modified Modified Read,改进的二维压缩编码)技术对所述句子消重,从而为所述文档集形成摘要;文章Cross-document summarization by conceptclassification(作者是H.Hardy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,发表于2003年出版的期刊Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取系统,该系统适合为大规模的文档集生成摘要,它首先通过段落聚类检测出文档集中最重要的主题,然后抽取反映重要主题的句子形成摘要;文章Topic themes for multi-document summarization(作者是S.Harabagiu and F.Lacatusu,发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法,该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。
在利用所述基于句子抽取的方法为文档集自动生成摘要时,基于图结构的方法也被用来对句子的重要性进行排序。例如文章Summarizing Similaritiesand Differences Among Related Documents(作者是I.Mani and E.Bloedorn,发表于2000年出版的期刊Information Retrieval)公开了一种名为WebSumm的方法,该方法利用图连接模型,根据与某顶点连接的其它顶点越多,该顶点越重要,这个假设来对句子的重要性进行排序,从而为文档集生成摘要;文章LexPageRankprestige in multi-document text summarization(作者是G.Erkan and D.Radev,发表于2004年出版的期刊Proceedings of the Conferenceon Empirical Methods in Natural Language Processing(EMNLP’04))公开了一种名为LexPageRank的方法,该方法首先构建句子连接矩阵,然后基于类似PageRank的算法来计算句子重要性,根据每个句子的重要性位文档集生成摘要;文章A language independent algorithm for single and multiple documentsummarization(作者是R.Mihalcea and P.Tarau,发表于2005年出版的期刊Proceedings of the Second International Joint Conference on NaturalLanguage Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法,该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。
综上所述,以上例子中所述的方法或系统,在利用所述基于句子抽取的方法为文档集自动生成摘要时,都是先计算文档集中每个句子的权重,然后选择权重较大的句子作为摘要,其不同之处仅在于为每个句子赋予权重的方法不同。
在实际互联网应用中,由于互联网内容更新较快,代表某个主题、类型的文档集也会随之不断更新,也就是说,对于每个文档集而言,不断会有新的相关文档加入到当前文档集中,尤其对于某个热门新闻话题,互联网上会出现大量跟该话题相关的文档,对所述热门新闻话题的文档集摘要更新也会非常频繁。如果采用现有的多文档摘要方法对频繁更新的文档集进行摘要,文档集每增加一篇新文档都需要重新计算文档集中所有句子的权重,其计算量非常庞大,并且不能够为所述文档集快速生成新摘要,从而导致生成摘要的效率低下的问题,无法满足大规模互联网应用(例如新闻话题检测、热点分析等)的需求。


发明内容
一方面,本发明提供一种为文档集自动生成摘要的方法,该方法能够简单、快速地为文档集自动生成摘要,提高了为文档集生成摘要的效率。
本发明采用的技术方案包括一种为文档集自动生成摘要的方法,用于在向文档集中增加新文档后,为文档集自动生成摘要,包括如下步骤 计算所述新文档中每个句子的权重; 更新所述文档集已有摘要中句子的权重; 获得新文档和文档集已有摘要的所有非重复句子的权重排序; 生成所述文档集的新摘要。
本发明所提供的为文档集自动生成摘要的方法,通过计算出所述新文档中每个句子的权重,以及更新文档集已有摘要中句子的权重,对所述新文档以及文档集已有摘要中的每个句子进行排序、筛选,从而形成文档集的新摘要;与现有技术相比,该方法只需要计算新文档和文档集已有摘要的每个句子的权重,不需要对文档集中的每篇文档的所有句子重新计算权重,即可获得所述文档集的新摘要,该方法能够简单、快速地为文档集生成摘要,大大提高了为文档集生成摘要的效率,能够适应信息更新速度不断提高的要求。
另一方面,本发明还提供一种为文档集自动生成摘要的装置,该装置能够简单、快速地为文档集自动生成摘要,提高了为文档集生成摘要的效率。
本发明采用的技术方案包括一种为文档集自动生成摘要的装置,用于在向文档集中增加新文档后,文档集自动生成摘要,其特征在于,包括 权重计算单元,计算所述新文档中每个句子的权重,以及更新所述文档集已有摘要中句子的权重; 选择排序单元,从权重计算单元中获得新文档和文档集已有摘要的所有非重复句子的权重值,并对其进行排序; 摘要生成单元,将选择排序单元中权重值大的句子,生成所述文档集的新摘要。
本发明所提供的为文档集自动生成摘要的装置,通过计算出所述新文档中每个句子的权重,以及更新文档集已有摘要中句子的权重,对所述新文档以及文档集已有摘要中的每个句子进行排序、筛选,从而形成文档集的新摘要;与现有技术相比,该装置只需要计算新文档和文档集已有摘要中的每个句子的权重,不需要对文档集中每篇文档的所有句子重新计算权重,即可获得所述文档集的新摘要,该装置能够简单、快速地为文档集生成摘要,大大提高了为文档集生成摘要的效率,能够适应信息更新速度不断提高的要求。



图1是本发明所提供的为文档集自动生成摘要的方法的流程图; 图2是本发明所提供的为文档集自动生成摘要的装置结构示意图; 图3是图2所示本发明所提供的为文档集自动生成摘要的装置中,向量计算单元的结构示意图; 图4是图2所示发明所提供的为文档集自动生成摘要的装置中,文档集特征更新单元的结构示意图; 图5是图2所示发明所提供的为文档集自动生成摘要的装置中,权重计算单元的结构示意图; 图6是图2所示发明所提供的为文档集自动生成摘要的装置中,排序单元的结构示意图。

具体实施例方式 为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题,本发明提供一种为文档集自动生成摘要的方法,下面结合附图和实施例对本发明作详细说明。
如图1所示,本发明所提供的为文档集自动生成摘要的方法,用于在向文档集中增加新文档后,为文档集自动生成摘要,包括如下步骤 步骤101,计算所述新文档的向量,以及所述新文档中每个句子的向量; 其具体的步骤为 对所述新文档dnew进行分句,得到的句子集合Snew,Snew={si|1≤i≤n},其中,正整数n为新文档dnew中包含的句子数; 当计算句子集合Snew中的每个句子si的向量

时,对所述句子si进行分词,得到所述句子si分词后的词集合wi,wi={wij|1≤j≤m},其中,正整数m为所述句子si中包含的单词数,由于向量

每一维对应所述新文档的一个词,所以向量

的每一维对应的权重的计算公式为 wijfwij×idfwij(1-1) 其中,wijfwij为词wij在所述文档集中的出现的频率,idfwij为词wij在所述文档集中的倒排文档频率,所述idfwij的计算公式可以表示为 idfwij=1+log(N/nwij)(1-2) 其中,N是文档集中所有文档的数量,nwij是其中包含词wij的文档的数量, 通过上述公式(1-1)计算出向量

的每一维对应的权重,即可得到所述向量
当计算所述新文档dnew的向量

时,对所述新文档dnew进行分词,得到所述文档dnew分词后的词集合Wnew,Wnew={wk|1≤k≤z},其中,正整数z为所述文档dnew中包含的单词数, 上述对所述新文档dnew进行分词的方法可以分为两种一种是直接对所述新文档dnew进行分词,另一种是其中,1≤i≤n,正整数n为新文档dnew中包含的句子数,wi为句子si分词后的词集合, 由于所述新文档dnew的向量

每一维也可以对应该新文档中的一个词,所以向量

每一维对应的权重计算公式为 wkfwk×idfwk(1-3) 其中,wkfwk为词wk在所述文档集中的出现的频率,idfwk为词wk在所述文档集中的倒排文档频率,所述idfwk的计算公式可以为 idfwk=1+log(N/nwk)(1-4) 其中,N是文档集中所有文档的数量,nwk是其中包含词wk的文档的数量, 通过上述公式(1-3)计算出向量

的每一维对应的权重,即可得到所述向量
步骤102,更新文档集的中心向量和文档向量列表; 该步骤具体包括 将文档集D更新为D′=D∪{dnew}; 将文档集向量列表LD更新为 以下列公式,将文档集D相应的中心向量

更新为
其中,|D′|表示文档集D′中的文档数量, 所述将文档集D相应的中心向量

更新为

还可以用如下公式表示 其中,|D|表示文档集D中的文档数量。
步骤103,计算新文档中每个句子的权重; 其具体方法为 计算句子si的内容权重wcontent(si) 其中,

为句子si的向量,

为文档集D更新后的中心向量, 从公式(1-7)中可以看出,通过求句子si的向量

与文档集的中心向量

之间的余弦值,来确定句子si的内容权重wcontent(si)的大小,即与文档集的中心向量

越相似的句子si的内容权重wcontent(si)越大,其中,所述文档集的中心向量

反应该文档集的主题,我们可以利用句子si的内容权重wcontent(si)作为句子si的权重值; 为了能够使所述句子si的权重更加准确地反应该句子si在文档集中的重要性(与主题的关联程度和在文档集中的位置等),所述计算新文档中每个句子的权重的方法还包括 记录所述新文档中每个句子的位置信息,例如每个句子的存储位置,或者与上下句之间的关系信息等; 计算句子si的位置权重wposition(si) 其中,n为所述新文档dnew的句子总数,i(1≤i≤n)是句子序号,

是所述新文档dnew所有句子中最大的内容权值; 计算句子si的综合权重值w(si) w(si)=α·wcontent(si)+β·wposition(si)(1-9) 其中,α,β为参数,0≤α,β≤1,并且有α+β=1, 通过计算句子si的综合权重值w(si),能够更加有效地为新文档中的每个句子赋予权重值。
步骤104,更新所述文档集已有摘要中句子的权重,即重新计算所述文档集已有摘要中句子的权重,其具体的方法与上述步骤103中,计算新文档中每个句子的权重相同,利用公式(1-8)计算出所述文档集已有摘要中句子的内容权重,该文档集已有摘要中句子不需要再重新计算位置权重,可以直接使用上一轮摘要生成过程中保存的位置权重值,通过公式(1-9)计算出所述文档集已有摘要中句子的综合权重,即可得到所述文档集已有摘要中句子的权重; 步骤105,将所述新文档以及文档集已有摘要中的每个句子,按权重大小排序,例如所述新文档dnew包含n个句子,所述文档集已有摘要包含k个句子,则将所述k+n个句子按照其赋予的权重值(可以为内容权重值,也可以为综合权重值,但是所述权重值的类型必须相同)从大到小排列; 步骤106,删除排序后重复的句子; 其具体的删除方法为 从上述k+n个句子组成的序列中,第二个句子开始,判断该句子si与排在其前面的每个句子sj(j<i)之间的重复度,其判断公式为 当通过公式(1-10)计算得出的句子si与sj之间的重复度大于阈值ε(0≤ε≤1)时,在本实施例中阈值ε=0.85,判断该句子si与sj为重复的句子,可以删除句子si与sj中的任意一个句子; 为了能够使所述文档集的摘要能够显示出最新更新的内容,在接收新文档的同时,可以保存所述新文档的接收时间,当出现重复的句子时,可以删除接收时间较早的句子,例如通过上述步骤106判断出句子si与sj为重复的句子,包含句子si的文档接收时间为2007年7月15日,包含句子sj的文档接收时间为2006年5月28日,则将句子sj删除。
步骤107,根据所述权重排序,选择权重值大的句子,生成所述文档集的新摘要。
通过上述步骤106将重复的句子删除后,得到由p(k<p<k+p)个句子组成的序列,该序列按照每个句子的权重值由大到小排列,为了能够得到由k个句子组成的文档集摘要,可以从所述p个句子中选择权重值较大的k个句子作为所述文档集的新摘要。
为了能够使本发明所提供的方法更加快速地为文档集自动生成摘要,在步骤101之后,还包括如下步骤 步骤108,判断新文档重复性,获得非重复文档。
其具体的判断步骤如下 当所述新文档dnew为文档集D中的第一个文档时,此新文档为非重复文档,继续步骤102; 当所述新文档dnew不是文档集D={di|1≤i≤m}(其中,正整数m为当前文档集中包含的文档数)中的第一个文档时,将该新文档与文档集D中的每篇文档di进行相似性比较,其具体的比较公式为 其中

为文档di对应的向量,直接取自文档集D对应的文档向量列表不需要重新计算; 当dnew与di之间的相似度值大于阈值θ(0≤θ≤1)时,所述新文档dnew为重复文档,不继续进行步骤102,等待重新接收新文档;当dnew与di之间的相似度值小于等于阈值θ时,所述新文档为非重复文档,继续进行步骤102; 通过步骤108判断新文档与文档集中的文档相似性可以将重复的文档直接删除,不做处理,即不对新加入的重复文档生成新摘要,能够更快捷、有效地为文档集自动生成摘要。
本发明所提供的为文档集自动生成摘要的方法,通过计算出所述新文档中每个句子的权重,以及更新文档集已有摘要中句子的权重,对所述新文档以及文档集已有摘要中的每个句子进行排序、筛选,从而形成文档集的新摘要;与现有技术相比,该方法只需要计算新文档和文档集已有摘要的每个句子的权重,不需要对文档集中的每篇文档的所有句子重新计算权重,即可获得所述文档集的新摘要,该方法能够简单、快速地为文档集生成摘要,大大提高了为文档集生成摘要的效率,能够适应信息更新速度不断提高的要求。
与上述方法相对应,本发明还提供一种为文档集自动生成摘要的装置,用于在向文档集中增加新文档后,文档集自动生成摘要,如图2所示,所述为文档集自动生成摘要的装置,包括 向量计算单元,计算所述新文档的向量,以及所述新文档中每个句子的向量; 如图3所示,所述向量计算单元,包括 分句单元,用于对所述新文档dnew进行分句,得到的句子集合Snew,Snew={si|1≤i≤n},其中,正整数n为新文档dnew中包含的句子数; 计算句子集合Snew中的每个句子si对应的向量

时, 分词单元,用于对所述句子si进行分词,得到所述句子si分词后的词集合wi,wi={wij|1≤j≤m},其中,正整数m为所述句子si中包含的单词数; 向量

每一维对应所述新文档的一个词,向量

的每一维对应的权重的计算公式可以参见公式(1-1),此处不再赘述,通过上述公式(1-1)计算出向量

的每一维对应的权重,即可得到所述向量
计算所述新文档dnew对应的向量

时, 所述分词单元,用于对所述新文档dnew进行分词,得到所述文档dnew分词后的词集合Wnew,Wnew={wk|1≤k≤z},其中,正整数z为所述文档dnew中包含的单词数; 上述对所述新文档dnew进行分词的方法可以分为两种一种是,所述分词单元直接对接收到的新文档dnew进行分词;另一种是,所述分词单元通过分句单元获得新文档中每个句子的分词,对其求并集(其中,1≤i≤n,正整数n为新文档dnew中包含的句子数,wi为句子si分词后的词集合)得到dnew分词后的词集合Wnew={wk|1≤k≤z}; 由于所述新文档dnew的向量

每一维也可以对应该新文档中的一个词,所以向量

每一维对应的权重的计算公式可以参见公式(1-3),此处不再赘述,通过公式(1-3)计算出向量

的每一维对应的权重,即可得到所述向量
文档集特征更新单元,根据向量计算单元得到的结果,更新所述文档集的中心向量和文档向量列表; 如图4所示,所述文档集特征更新单元,包括 文档集更新单元,用于将文档集D更新为D′=D∪{dnew}; 文档集向量列表更新单元,根据向量计算单元得到的所述新文档的向量,将文档集向量列表LD更新为 文档集中心向量更新单元,根据向量计算单元得到的所述新文档的向量,将文档集D相应的中心向量

更新为

,具体公式参见公式(1-5)或者(1-6),此处不再赘述。
权重计算单元,根据向量计算单元以及文档集特征更新单元得到的结果,计算所述新文档中每个句子的权重,以及更新所述文档集已有摘要中句子的权重; 如图5所示,所述权重计算单元,包括 内容权重计算单元,根据向量计算单元以及文档集特征更新单元得到的结果,计算句子si的内容权重wcontent(si),见公式(1-7); 为了能够使所述句子si的权重更加准确地反应该句子si在文档集中的重要性(与主题的关联程度和在文档集中的位置等),如图5所示,所述权重计算单元,还包括 位置信息记录单元,用于记录所述新文档中每个句子的位置信息; 位置权重计算单元,据位置信息记录单元记录的句子位置信息,以及内容权重计算单元得到的内容权重值,计算句子si的位置权重wposition(si),见公式(1-8); 综合权重计算单元,根据内容权重与位置权重计算句子si的综合权重值w(si),见公式(1-9)。
选择排序单元,从权重计算单元中获得新文档和文档集已有摘要的所有非重复句子的权重值,并对其进行排序; 如图6所示,所述选择排序单元,包括 排序单元,根据权重计算单元计算得到的权重值,将所述新文档以及文档集已有摘要中的每个句子,按权重大小排序,例如所述新文档dnew包含n个句子,所述文档集已有摘要包含k个句子,则将所述k+n个句子按照其赋予的权重值(可以为内容权重值,也可以为综合权重值,但是所述权重值的类型必须相同)从大到小排列; 筛选单元,删除排序后重复的句子; 其具体的删除方法为 从上述k+n个句子组成的序列中的第二个句子开始,判断该句子si与排在其前面的每个句子sj(j<i)之间的重复度,其判断公式参见公式(1-10) 当通过公式(1-10)计算得出的句子si与sj之间的重复度大于阈值ε(0≤ε≤1)时,在本实施例中阈值ε=0.85,判断该句子si与sj为重复的句子,可以删除句子si与sj中的任意一个句子; 为了能够使所述文档集的摘要能够显示出最新更新的内容,所述筛选单元还包括时间记录单元,记录所述新文档的接收时间,当所述筛选单元判断出存在重复的句子时,可以删除接收时间较早的句子,例如通过上述步骤判断出句子si与sj为重复的句子,句子si的接收时间为2007年7月15日,句子sj的接收时间为2006年5月28日,则将句子sj删除。
摘要生成单元,根据预先设定的文档集句子摘要数,将选择排序单元中权重值大的句子,生成所述文档集的新摘要; 通过上述筛选单元将重复的句子删除后,得到由p(k<p<k+p)个句子组成的序列,该序列按照每个句子的权重值由大到小排列,为了能够得到由k个句子组成的文档集摘要,可以从所述p个句子中选择权重值较大的k个句子作为所述文档集的新摘要。
为了能够使本发明所提供的装置更加快速地为文档集自动生成摘要,所述为文档集自动生成摘要的装置还包括判断单元,根据向量计算单元得到的结果,判断新文档重复性,获得非重复文档,当所述新文档为非重复文档时,所述判断单元才将向量计算单元得到的计算结果传送给文档集特征更新单元。
其具体的判断步骤如下 当所述新文档dnew为文档集D中的第一个文档时,此新文档为非重复文档; 当所述新文档dnew不是文档集D={di|1≤i≤m}(其中,正整数m为当前文档集中包含的文档数)中的第一个文档时,将该新文档与文档集D中的每篇文档di进行相似性比较,其具体的比较公式,见公式(1-11); 当dnew与di之间的相似度值大于阈值θ(0≤θ≤1)时,所述新文档dnew为重复文档;当dnew与di之间的相似度值小于等于阈值θ时,所述新文档为非重复文档; 通过判断单元判断新文档与文档集中的文档的相似性可以将重复的文档直接删除,不做处理,即不对新加入的重复文档生成摘要,能够更快捷、有效地为文档集自动生成摘要。
本发明所提供的为文档集自动生成摘要的装置,通过计算出所述新文档中每个句子的权重,以及更新文档集已有摘要中句子的权重,对所述新文档以及文档集已有摘要中的每个句子进行排序、筛选,从而形成文档集的新摘要;与现有技术相比,该装置只需要计算新文档和文档集已有摘要中的每个句子的权重,不需要对文档集中每篇文档的所有句子重新计算权重,即可获得所述文档集的新摘要,该装置能够简单、快速地为文档集生成摘要,大大提高了为文档集生成摘要的效率,能够适应信息更新速度不断提高的要求;在实际互联网舆情分析系统中的应用表明,本发明所述的装置在保证摘要质量的前提下,能够大大提高摘要的效率,摘要效率比现有技术所提供的方法提高50倍以上。
以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。
权利要求
1、一种为文档集自动生成摘要的方法,用于在向文档集中增加新文档后,为文档集自动生成摘要,其特征在于,包括如下步骤
计算所述新文档中每个句子的权重;
更新所述文档集已有摘要中句子的权重;
获得新文档和文档集已有摘要的所有非重复句子的权重排序;
生成所述文档集的新摘要。
2、根据权利要求1所述的为文档集自动生成摘要的方法,其特征在于,计算所述新文档中每个句子的权重的步骤之前,还包括如下步骤
计算所述新文档的向量,以及所述新文档中每个句子的向量;
更新所述文档集的中心向量和文档向量列表。
3、根据权利要求2所述的为文档集自动生成摘要的方法,其特征在于,所述步骤计算新文档的向量,以及所述新文档中每个句子的向量,包括
对所述新文档dnew进行分句,得到的句子集合Snew,Snew={si|1≤i≤n},其中,正整数n为新文档dnew中包含的句子数;
计算句子集合Snew中的每个句子si的向量
时,对所述句子si进行分词,得到所述句子si分词后的词集合wi,wi={wij|1≤j≤m},其中,正整数m为所述句子si中包含的单词数,向量
每一维对应的权重的计算公式为
wijfwij×idfwij
其中,wijfwij为词wij在所述文档集中的出现的频率,idfwij为词wij在所述文档集中的倒排文档频率;
计算所述新文档dnew的向量
时,对所述新文档dnew进行分词,得到所述文档dnew分词后的词集合Wnew,Wnew={wk|1≤k≤z},其中,正整数z为所述文档dnew中包含的单词数,向量
每一维对应的权重的计算公式为
wkfwk×idfwk
其中,wkfwk为词wk在所述文档集中的出现的频率,idfwk为词wk在所述文档集中的倒排文档频率。
4、根据权利要求2所述的为文档集自动生成摘要的方法,其特征在于,在算所述新文档的向量,以及所述新文档中每个句子的向量之后,还包括如下步骤
判断新文档重复性,获得非重复文档;
其具体的判断步骤如下
所述新文档是文档集中的第一篇文档时,则该新文档为非重复文档;
否则,计算所述新文档与文档集中每篇文档之间的相似性,当两篇文档之间的相似度值大于阈值θ(0≤θ≤1)时,所述新文档为重复文档;当两篇文档之间的相似度值小于等于阈值θ时,所述新文档为非重复文档。
5、根据权利要求4所述的为文档集自动生成摘要的方法,其特征在于,所述计算新文档dnew与文档集中每篇文档di之间的相似度值采用如下的余弦公式
其中,
为文档di相应的向量。
6、根据权利要求2所述的为文档集自动生成摘要的方法,其特征在于,所述更新文档集的中心向量和文档向量列表的步骤,具体包括如下步骤
将文档集D更新为D′=D∪{dnew};
将文档集向量列表LD更新为
以下列公式,将文档集D相应的中心向量
更新为
其中|D′|表示文档集D′中的文档数量。
7、根据权利要求1所述的为文档集自动生成摘要的方法,其特征在于,所述计算新文档中每个句子的权重,方法为
计算句子si的内容权重wcontent(si)
其中,
为句子si的向量,
为文档集D更新后的中心向量。
8、根据权利要求7所述的为文档集自动生成摘要的方法,其特征在于,所述计算新文档中每个句子的权重,还包括
记录所述新文档中每个句子的位置信息;
计算句子si的位置权重wposition(si)
其中,n为所述新文档dnew的句子总数,i(1≤i≤n)是句子序号,
是所述新文档dnew所有句子中最大的内容权值;
计算句子si的综合权重值w(si)
w(si)=α·wcontent(si)+β·Wposition(si)
其中,α,β为参数,0≤α,β≤1,并且有α+β=1。
9、根据权利要求1或7或8所述的为文档集自动生成摘要的方法,其特征在于,更新所述文档集已有摘要中句子的权重,采用与计算新文档中每个句子的权重相同的方法,其中,所述文档集已有摘要中句子的位置权重值为上一轮摘要生成过程中保存的位置权重值。
10、根据权利要求1所述的为文档集自动生成摘要的方法,其特征在于,所述获得新文档和文档集已有摘要的所有非重复句子的权重排序,包括
将所述新文档以及文档集已有摘要中的每个句子,按权重大小排序;
删除排序后重复的句子。
11、根据权利要求10所述的为文档集自动生成摘要的方法,其特征在于,所述步骤删除排序后重复的句子,具体包括如下步骤
记录所述新文档的接收时间;
从所述按权重大小排序序列中第二个句子开始,判断该句子si与排在其前面的每个句子sj(j<i)之间的重复度;
当所述重复度大于阈值ε(0≤ε≤1)时,删除接收时间早的句子。
12、根据权利要求1所述的为文档集自动生成摘要的方法,其特征在于,所述生成所述文档集的新摘要的方法为
根据所述权重排序,选择权重值大的句子,生成所述文档集的新摘要。
13、一种为文档集自动生成摘要的装置,用于在向文档集中增加新文档后,文档集自动生成摘要,其特征在于,包括
权重计算单元,计算所述新文档中每个句子的权重,以及更新所述文档集已有摘要中句子的权重;
选择排序单元,从权重计算单元中获得新文档和文档集已有摘要的所有非重复句子的权重值,并对其进行排序;
摘要生成单元,将选择排序单元中权重值大的句子,生成所述文档集的新摘要。
14、根据权利要求13所述的为文档集自动生成摘要的装置,其特征在于,还包括
向量计算单元,计算所述新文档的向量,以及所述新文档中每个句子的向量;
文档集特征更新单元,根据向量计算单元得到的结果,更新所述文档集的中心向量和文档向量列表。
15、根据权利要求14所述的为文档集自动生成摘要的装置,其特征在于,所述向量计算单元,包括
分句单元,用于对所述新文档dnew进行分句,得到的句子集合Snew,Snew={si|1≤i≤n},其中,正整数n为新文档dnew中包含的句子数;
计算句子集合Snew中的每个句子si的向量
时,
分词单元,用于对所述句子si进行分词,得到所述句子si分词后的词集合wi,wi={wij|1≤j≤m},其中,正整数m为所述句子si中包含的单词数;
向量
每一维向量的计算公式为
wijfwij×idfwij
其中,wijfwij为词wij在所述文档集中的出现的频率,idfwij为词wij在所述文档集中的倒排文档频率;
计算所述新文档dnew的向量
时,
所述分词单元,用于对所述新文档dnew进行分词,得到所述文档dnew分词后的词集合Wnew,Wnew={wk|1≤k≤z},其中,正整数z为所述文档dnew中包含的单词数;
向量
每一维向量的计算公式为
wkfwk×idfwk
其中,wkfwk为词wk在所述文档集中的出现的频率,idfwk为词wk在所述文档集中的倒排文档频率。
16、根据权利要求13所述的为文档集自动生成摘要的装置,其特征在于,还包括
判断单元,根据向量计算单元得到的结果,判断新文档重复性,获得非重复文档。
17、根据权利要求14所述的为文档集自动生成摘要的装置,其特征在于,所述文档集特征更新单元,包括
文档集更新单元,用于将文档集D更新为D′=D∪{dnew};
文档集向量列表更新单元,根据向量计算单元得到的所述新文档的向量,将文档集向量列表LD更新为
文档集中心向量更新单元,根据向量计算单元得到的所述新文档的向量,将文档集D相应的中心向量
更新为
具体公式为
其中|D′|表示文档集D′中的文档数量。
18、根据权利要求13所述的为文档集自动生成摘要的装置,其特征在于,所述权重计算单元包括
内容权重计算单元,根据向量计算单元以及文档集特征更新单元得到的结果,计算句子si的内容权重wcontent(si)
其中,
为句子si的向量,
为文档集D更新后的中心向量。
19、根据权利要求13或17或18所述的为文档集自动生成摘要的装置,其特征在于,所述权重计算单元,还包括
位置信息记录单元,用于记录所述新文档中每个句子的位置信息;
位置权重计算单元,根据位置信息记录单元记录的句子位置信息,以及内容权重计算单元得到的内容权重值,计算句子si的位置权重wposition(si)
其中,n为所述新文档dnew的句子总数,i(1≤i≤n)是句子序号,
是所述新文档dnew所有句子中最大的内容权值;
综合权重计算单元,根据内容权重与位置权重计算句子si的综合权重值w(si)
w(si)=α·wcontent(si)+β·wposition(si)
其中,α,β为参数,0≤α,β≤1,并且有α+β=1。
20、根据权利要求13所述的为文档集自动生成摘要的装置,其特征在于,所述选择排序单元,包括
排序单元,根据权重计算单元计算得到的权重值,将所述新文档以及文档集已有摘要中的每个句子,按权重大小排序;
筛选单元,删除排序后重复的句子;
所述筛选单元包括时间记录单元,记录所述新文档的接收时间。
全文摘要
本发明公开了一种为文档集自动生成摘要的方法及装置,涉及语言文字处理领域,为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题而发明;其包括如下步骤计算所述新文档中每个句子的权重;更新所述文档集已有摘要中句子的权重;获得新文档和文档集已有摘要的所有非重复句子的权重排序;生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。
文档编号G06F17/27GK101446940SQ200710187480
公开日2009年6月3日 申请日期2007年11月27日 优先权日2007年11月27日
发明者万小军, 军 余, 杨建武, 吴於茜 申请人:北京大学, 北大方正集团有限公司, 北京方正电子政务技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1