一种多文档摘要的生成方法及装置的制作方法

文档序号:6471111阅读:140来源:国知局

专利名称::一种多文档摘要的生成方法及装置的制作方法
技术领域
:本发明涉及语言文字处理
技术领域
,尤其涉及一种多文档摘要的生成方法及装置。
背景技术
:多文档摘要可以为含有多篇文档的文档集提供一种压縮的文本描述,从而解决该文档集中信息超载的问题,进而方便用户快速了解该文档集的内容。目前,也有一些多文档摘要的生成方法,但是由于多文档摘要中每个句子可能来自于不同的文档,而每个文档的写作风格不同,发表的时间不同,并且所依赖的背景知识可能也不同,因此,将这些句子进行排序构成摘要时,往往在某些词上会出现指代称谓不明,并且上下文不连贯的情况。这样的多文档摘要很可能不能帮助读者快速了解该文档集的主要内容,并且还可能引起歧义,从而造成读者阅读上的困难。经过排序生成多文档的摘要时,合理的排序方法可以显著提高多文档摘要的可读性。现有技术中,在进行排序生成多文档摘要时,可以推算出某个话题下包含的潜在有用信息,根据该有用信息确定句子之间的顺序,但是该方法局限于某些特定的领域的话题,应用范围收到了明显的限制。或者,当从每个文档中选择出几个摘要句子后,将该选择出来的句子随机进行排序,没有考虑这些句子在时间上的连续性及话题内容上的连续性,因此,生成的多文档摘要在时间上的连续性或话题上连续性较差。因此,按照现有技术中多文档摘要的生成方法,生成的多文档摘要的可读性不高,从而影响了读者的阅读。
发明内容有鉴于此,本发明实施例提供一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性不高的问题。本发明实施例提供的一种多文档摘要的生成方法,包括从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。本发明实施例提供的一种多文档摘要的生成方法,包括将每篇文档划分为多个分句;按照设置的至少一个特征,从多个分句中确定若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。本发明实施例提供的一种多文档摘要的生成装置,包括摘要句选择模块,用于从多篇文档中选择若干个摘要句;摘要句排序模块,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。本发明实施例提供的一种多文档摘要的生成装置,包括划分模块,用于将每篇文档划分为多个分句;摘要句选择模块,用于按照设置的至少一个特征,从多个分句中确定若干个摘要句;摘要句排序模块,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。本发明实施例提供了一种多文档摘要的生成方法及装置,该方法通过从多篇文档中选择出的若干个摘要句,按照摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性,将该若干个摘要句排序生成多文档摘要,因此,本发明实施例充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。图1为本发明实施例提供的一种生成多文档摘要的方法流程图;图2为本发明实施例提供的从摘要候选句中选择摘要句的具体实施过程;图3为本发明实施例提供的根据设置的至少一个特征,确定每个摘要候选句的总分值的流程图;图4为本发明实施例提供的一种多文档摘要的生成装置结构示意图;图5为本发明实施例提供的另一种多文档摘要的生成装置结构示意图。具体实施例方式本发明实施例中为了提高生成的多文档摘要的可读性,充分考虑了摘要句间的连续性或每个摘要句与该多篇文档的主题内容的连续性,如图1所示,提供了一种多文档摘要的生成方法,具体包括以下步骤S101:从多篇文档中选择若干个摘要句;选择该摘要句的方法可以是任意选择,也可以是按照一定的规则或顺序选择。S102:按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。或者,在本发明实施例中,也可以首先,将每篇文档划分为多个分句。可以按照标点符号将每篇文档划分为多个分句。然后,按照设置的至少一个特征,从多个分句中确定若干个摘要句。其中,该设置的至少一个特征包括按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由所述文档中出现频率较高的至少一个词组成;和,根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。最后,按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。下面结合说明书附图,对本发明实施例进行详细说明。在本发明实施例中,首先,需要将选定的多篇文档中的每篇文档,划分为多个分句。在将每篇文档划分为多个分句的过程中,可以根据文档中的标点符号进行划分,将两个结尾标点符号之间的内容作为一个完整的分句,并且在每个分句的结尾处包括对应的结尾标点符号,第一个分句为从文档的起始点到第一个结尾标点符号之间的内容。其中,结尾标点符号包括句号、问号、感叹号或省略号等。然后,对划分出的每个分句按照过滤规则进行过滤,选择出摘要候选句。其中过滤规则包括过滤掉不完整的分句,该不完整的分句包括由过短的词组或无标点的词串构成的分句;过滤掉非陈述语态的分句,该非陈述语态的分句包括疑问句和祈使句,例如以问号结尾的疑问句的分句;过滤掉其他不满足条件的分句,主要包括省略分句和对话分句。例如分句中包括省略号的分句,或含有冒号和双引号的分句。当然,也可以不对该每个分句按照过滤规则进行过滤,直接将划分后的分句作为摘要候选句进行后续处理。采用该过滤的方法可以减少后续处理的计算量,从而有效的提高多文档摘要的生成效率。将文档划分为分句,过滤得到满足条件的分句,即摘要候选句后,从该摘要候选句中选择出摘要句,如图2所示,从摘要句候选句中选择摘要句的具体实施过程包括S201:根据设置的至少一个特征,确定每个摘要候选句相对每个特征的重要性分值。其中,该设置的至少一个特征包括按照每个分句与摘要主题中心句的相似程度设置的特征,其中,摘要主题中心句由多文档中出现频率较高的至少一个词语组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由该文档中出现频率较高的至少一个词语组成;和,根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。S202:根据每个摘要候选句相对每个特征的重要性分值,确定每个摘要候选句的总分值。可以包括根据每个摘要候选句相对每个特征的重要性分值,以及与每个特征对应的权重系数,确定每个摘要候选句的总分值。S203:根据总分值,选择满足要求的分句作为摘要句。选择满足要求的分句作为摘要句包括选择总分值较高的N个分句作为摘要句,其中,N为不小于1的自然数,例如,N为10、15等。在本发明实施例中,将每一个分句及每一篇文档处理为一个K维向量,其中K为分句中或文档中包含的词的总数,每一维对应一个词,并且,每一维对应的权值,根据该维对应的词在该文档中出现的频率,以及该词的倒排文档频率确定。其中,如图3所示,根据设7置的至少一个特征,确定每个摘要候选句相对每个特征的重要性分值,根据该每个重要性分值确定总分值的过程包括以下步骤S301:确定每个摘要候选句与主题中心句的相似度,根据该相似度确定每个摘要候选句对应的第一重要性分值。主要包括确定每个摘要候选句对应的向量与主题中心句对应的主题中心向量的相似度。主题中心向量包括由该多篇文档中出现频率较高的L个词组成的L维向量,L为不小于l的自然数。每一维对应一个词,每一维的权值由该维对应的词在该多篇文档中出现的频率,以及该词的倒排文档频率确定。计算每个摘要候选句对应的向量与主题中心句对应的主题中心向量的相似度的方法包括,根据每个摘要候选句对应的向量和主题中心句对应的向量的余弦值确定,具体为&=C)=COS(,5)=HH在上述公式中,Si为摘要候选句s对应的第一重要性分值,sim(x,y)表示x和y的相似度,cos(x,y)表示x和y的余弦值,其中,s为摘要候选句对应的向量,c为主题中心句对应的主题中心向量。其中,在确定每个摘要候选句对应的第一重要性分值时也可以根据摘要候选句中出现的词与主题中心句内出现词的完全匹配的个数,确定每个摘要候选句对应的第一重要性分值。例如摘要候选句由5个词组成,其中有3个词在主题中心句中出现,则可以认为该摘要候选句对应的第一重要性分值为0.6。S302:确定每个摘要候选句与文档中心句的相似度,根据该相似度确定每个摘要候选句对应的第二重要性分值。主要包括根据每个摘要句对应的向量与文档中心句对应的文档中心向量的相似度。文档中心向量包括摘要候选句所在的文档中出现频率较高的M个词组成的M维向量,M为不小于1自然数。每一维对应一个词,每一维的权值由该维对应的词在此文档中出现的频率,以及该词的倒排文档频率确定。计算每个摘要候选句与其文档中心句的相似度的方法包括,根据每个摘要候选句对应的向量和文档中心句对应的文档中心向量的余弦值确定,例如摘要候选句a位于文档A中,则计算摘要候选句a对应的向量与文档A的文档中心句对应的文档中心向量的相似度,从而确定每个摘要候选句对应的第二重要性分值;摘要候选句b位于文档B中,则计算摘要候选句b对应的向量与文档B的文档中心句对应的文档中心向量的相似度,从而确定每个摘要候选句对应的第二重要性分值,具体为在上述公式中,S2为摘要候选句s对应的第二重要性分值,sim(x,y)表示x和y的相似度,cos(x,y)表示x和y的余弦值,其中,s为摘要候选句对应的向量,t为s所在的文档中文档中心句对应的文档中心向量。S303:确定每个摘要候选句位于文档中的位置,确定每个摘要候选句对应的第三重要性分值。由于在文档中,分句位置对其重要性也有可能有一定的影B向,一般文档开始的分句较文档结尾分句的重要性高。因此,可以根据每个摘要候选句位于文档中的位置,确定每个摘要候选句对应的第三重要性分值,具体包括&=丄xniax(512)x(/_/+1)在上述公式中,S3为该摘要候选句对应的第三重要性分值,max(S》为该摘要候选句所在的文档中摘要候选句对应的第二重要性值的最大值,P为该摘要候选句所在的文档中总的分句数,i为该摘要候选句为该文档中第i个分句。S304:根据摘要候选句对应的每个重要性分值,确定每个摘要候选句对应的总分值。可以对应每个特征设置一个权重系数,根据每个摘要候选句对应每个特征的重要性分值和每个特征对应的权重系数,确定每个摘要候选句对应的总分值,具体包括S函O)="x&+r2xS2+r3xS3)/其中,&^<"为摘要候选句s对应的总分值,S^S^Ss为摘要候选句s对应第一、第二、第三特征的第一、第二、第三重要性分值,巧、r2、r3分别为对应每个特征的权重系数,巧、ivr3都为0和l之间的实数,|s|为该摘要候选句的长度,具体可以为该摘要候选句包含的维数,即包含的词的个数,当然也可以为该摘要候选句中包含的字数。当然,在具体的计算过程中,也可以根据上述至少一个特征计算,相信本领域技术人员可以根据上述具体实施方式,推导出采用任意一个或两个特征计算每个候选句总分值的实施方法。在本发明实施例中,根据每个分句与主题内容关联程度,设置不同的特征,从而确定每个摘要候选句对应每个特征的重要性分值,根据该重要性分值,选择出与该多文档内容的密切相关的分句,从而可以有效的提高生成的多文档摘要的可读性。在摘要候选句中选择出组成多文档摘要的若干个摘要句后,需要按照一定的顺序将所有的摘要句进行排列,组成一段可读性较强的文档。在本发明实施例中,将选择出的若干个摘要句进行排序的方法包括按照摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性进行排序等。例如,当可以直接确定两个摘要句包含的日期时,按照日期上的先后顺序将该两个摘要句进行排序;或,当两个摘要句属于同一篇文档时,按照该文档中每个摘要句出现的先后顺序,将该属于同一篇文档的两个摘要句进行排序;或,当第一摘要句和第二摘要句来属于不同的问当时,第一摘要句属于第一文档,第二摘要句属于第二文档,在第二摘要句的第二文档中找到与第一摘要句相似度最高的第一分句,在同一篇文档中按照分句出现的先后顺序,确定第二摘要句和第一分句的先后顺序,从而确定第一摘要句和第二摘要句的先后顺序,或者比较排在第一摘要句和第二摘要句之前或之后的分句的顺序,从而确定第一摘要句和第二摘要句的先后顺序;或,根据每个摘要句与话题中心句的相似度确定的第一重要性分值,确定每个摘要句的先后顺序。其中,比较排在第一摘要句和第二摘要句之前或之后的分句的顺序,从而确定第9一摘要句和第二摘要句的先后顺序包括比较排在第一摘要句之后的任意第二分句与排在第二摘要句之前的任意第三分句,当第二分句能够排在第三分句之前时,则第一摘要句排在第二摘要句之前;或,比较排在第二摘要句之后的第三分句与排在第一摘要句之前的第二分句,当第三分句能够排在第二分句之前时,则第二摘要句排在第一摘要句之前。实施一在本发明实施例中,确定两个摘要句a、b先后顺序的方法包括确定两个摘要句包含的日期,分别为date(a)和date(b),其中,在本发明实施例中,可以将摘要句中包含的日期信息转化为032之间的数值,例如摘要句包含的日期为12号,则将该日期信息转化为12,根据该两个日期确定两个摘要句的先后顺序包括■sew""")=2dsgn(ctoe(6)—在上述公式中,scwe(a卜6)表示摘要句a和摘要句b的先后关系以及两个摘要句的先后的联系紧密程度,a卜6表示摘要句a排在摘要句b之前;当"o^(fl(—6)>0时,则wore(a卜6)表示摘要句a排在摘要句b之前的可能性大小;当"o"(a—6)<0时,则-卜6)表示摘要句a排在摘要句b之后的可能性大小;当"we(a卜6)>0,scwe(a卜c)>0,且wwe(a卜6)>—c),则表示"卜6可能性要大于^卜c的可能性,那么摘要句a、b、c的先后次序为"卜6卜c,艮卩a排在b前,b排在c前;Ad为根据时间顺序确定的^we(a卜6)对应的权值,并且Ad为大于0的实数,例如Ad为5等,当入d为l时,该两个摘要句的先后顺序为两个摘要句包含的日期差值的符号函数,sgn(x)为符号函数,具体包括1if;c>0sgn(x)='0ifx=0—1if"0当符号函数的参数X为大于O的数值时,则符号函数的取值为1;当符号函数的参数x为等与0的数值时,则符号函数的取值为0;当符号函数的参数x为小于0的数值时,则符号函数的取值为-1。实施例二在本发明实施例中,当两个摘要句a和b属于同一篇文档时,确定该两个摘要句先后顺序的方法包括根据两个摘要句位于文档中的位置,确定两个摘要句的先后顺序,包括score(a")=义p.sgn(j:o51(6)-/os(a))在上述公式中pos(x)表示摘要句x在文档中的位置,例如该摘要句x为该文档中第几个分句,Ap为根据位置顺序确定的SCO"(flf卜6)对应的权值,并且Ap为大于0的实数,例如入p为4等,当入p为1时,该两个摘要句的先后顺序为两个摘要句在文档中位置差值的符号函数。sgn(x)为符号函数。实施三当两个摘要句属于不同的文档时,例如分别为摘要句a、b,其中,摘要句a为文档A中的分句,摘要句b为文档B中的分句。则确定两个摘要句先后顺序的方法包括首先,将摘要句a与文档B中的每个分句进行相似度的比较,或将摘要句a与文档B中的每个摘要候选句进行相似度的比较,也可以理解为摘要句a中所有词,与文档B中每个分句或每个摘要候选句中所有词的匹配程度。假设文档B中有n个分句,分别为bp......,bx,bx+1,......,bn,计算摘要句a与文档B中每个分句bx的相似度sim(a,bx),其中x为位于1和n之间的整数,确定相似度最大值MaxSim=Max{sim(a,bx)},并确定该相似度最大值对应的文档B中的分句bm,其中m为位于1和n之间的整数。然后,根据在文档B中确定该分句bm与摘要句b的先后顺序,根据分句bm与摘要句b的先后顺序确定摘要句a和摘要句b的先后顺序。在本发明实施例中,判断该相似度最大值与设置的相似度阈值s的大小,其中该相似度阈值为位于0和1之间的实数,例如为0.35等。当该相似度最大值大于设置的相似度阈值s时,即判断MaxSim>s时,根据分句bm与摘要句b包含的日期,或分句bm与摘要句b在文档B中出现的先后顺序,确定分句bm与摘要句b的先后顺序"we(^卜6),根据该"ow(6m卜W的值判断摘要句a和摘要句b的先后顺序,具体包括scwe(a卜6)=sgn(6m")).(6m>~6)-义|在上述公式中A为衰减因子,其中该衰减因子为大于O的实数,例如A为0.5等,sgn(x)为符号函数。当该相似度最大值不大于设置的相似度阈值s时,从文档A中取出排在摘要a之后的任意分句c,从文档B中取出排在候选句b之前的任意分句d,当分句c排在分句d之前时,则判断摘要句a排在摘要句b之前。其中,比较分句c和分句d的先后顺序的方法,可以判断分句c与文档B中所有分句的相似度,确定分句c与文档B中所有分句的相似度最大值,确定该相似度最大值对应的文档B中的分句dt,根据文档B中分句dt与分句d的先后顺序,判断分句c和分句d的先后顺序。或者,在该相似度最大值不大于设置的相似度阈值s时,从文档A中取出排在摘要句a之前的任意、分句c,从文档B中取出排在候选句b之后的任意分句d,当分句c排在分句d之后时,则判断摘要句a排在摘要句b之后。其中,比较分句c和分句d的先后顺序的方法,可以判断分句c与文档B中所有分句的相似度,确定分句c与文档B中所有分句的相似度最大值,确定该相似度最大值对应的文档B中的分句dt,根据文档B中分句dt与分句d的先后顺序,判断分句c和分句d的先后顺序。贝U,确定摘要句a和摘要句b先后顺序的方法具体包括々^core(cd);(取出<壬意分句c和d(ceJ、de5,并JL;as(c)>、/>cw(fi0<可知score(c卜力>0)—;i,.scwe(c卜c/);(取出任意分句c和(/(ceAde及并且;as(c)<、pas(y)>pos(6),可知score(c卜d)<0)在上述公式中As为根据该方法确定的^we(fl卜6)对应的权值,其中该As为大于0的实数,例如、为3等。实施四当确定两个候选句的先后顺序时,也可以根据候选句a和候选句b对应的向量与主题中心句对应的主题中心向量c的相似度sim(a,c)=simcen(a),和sim(b,c)=simcen(b),从而确定两个候选句的先后顺序,可以包括判断两个相似度的大小,将相似度大的值对应的候选句排在较前的位置,具体包括在上述公式中,sgn(x)为符号函数,A。为根据该方法确定的scwe(a卜6)对应的权值,其中,该、为大于0的实数,例如、为2.5等。在上述实施例中,可以根据^o"(fl^6)的正负值判断分句在多文档摘要中的先后顺序,"cw("—6)的绝对值可以判断两个分句前后紧密程度,当该^w咖卜6)的值为大于0的数值时,则分句a排在分句b之前,否则分句a排在分句b之后,当kow("—6)的值为0,则分句a可以排在分句b之前,也可以排在分句b之后。当scweO、6)>0,"we(a>■c)>0,并且"oreO—c)>^we(fl—6)时,则判断分句a、b、c的先后顺序分别为a排在c前,c排在b前。下面通过具体的试验数据,对本发明实施例提供的多文档摘要的生成方法,可以提高生成的多文档摘要的可读性进行详细说明。首先,人工从互联网上选择针对某些话题的若干篇文档。在本验证过程中,选择了10个话题,针对每个话题选择了8-11个文档。然后,在选择的针对某个话题的若干篇文档中,选择8个摘要句,分别按照本发明实施例提供的生成多文档摘要的方法,或人工排序生成多文档摘要的方法,将该8个摘要分句进行排序生成一个多文档摘要。句子随机排序人工排序差异A58-3B761C45-1D624E211F871G330H14-3表1表1为根据现有技术中的随机排序和人工排序方法分别对该8个摘要句进行排序生成多文档摘要,其中AH分别代表8个摘要句,随机排序的纵行代表按照随机排序的方12法每个摘要分句的位置,人工排序的纵行为按照人工排序的方法每个摘要分句的位置,差异纵行为采用随机排序和人工排序的方法每个摘要分句所排位置的差异。在本验证过程中,采用Spearman秩相关系数来衡量,采用现有技术中的随机排序方法和人工排序方法的进行排序后生成多文档摘要,排序结果的一致性。Spearman秩相关,又称为"顺序相关检验",是分析两个指标的等级(秩次)之间是否相关的非参数分析方法。在采用Spearman秩相关系数检验过程中,一组句子的排序结果可以表示为一个向量,假设排序结果为^—X2—…卜A卜…—^",那么可以将其表示为向量Xi={Xl,x2,...,Xi...xn}。若该组句子的两组排序向量分别为&和Yi,Spearman秩相关系数P可以衡量该组句子两组排序结果的一致性,具体可以为<formula>formulaseeoriginaldocumentpage13</formula>在上述公式中n为该组句子的个数,P为位于-1和1之间的实数,当P>0时,表明两组排序结果正相关,P值越大表明两组排序结果的一致性越高,则排序结果约准确,即可读性较高,P<0时,表明两组排序结果负相关。根据表1的相关数据,对采用随机排序和人工排序方法对该8个摘要句的排序结果的一致性分析可知/3=1——=0.534"x("2-l)8x(64-l)针对本发明实施例提供的生成多文档摘要的方法,以及现有技术中的随机排序生成多文档摘要方法,分别计算该两个方法与人工排序生成多文档方法的Spearman秩相关系数,分别记为Pw和PK。表2为针对不同的话题计算的P,和P^的值。<table>tableseeoriginaldocumentpage13</column></row><table>表2从该表2中可以看出Spearman秩相关系数PN的计算结果均为正,PK的部分计算结果为正,并且,Pw的绝对值较P^的绝对值大。因此可知,本发明实施例提供的排序方法与人工排序方法的一致性程度较高,证明了本发明实施例提供的排序方法具有较高的优越性。在本发明实施例中,采用上述生成多文档摘要的方法,由于根据设置至少一个特征,确定分句对应的每个重要性分值,根据该重要性分值选择若干个摘要句,并按照设置的至少一种排序方法对所述若干个分句进行排序,从而生成可读性较强的多文档摘要。如图4所示,本发明实施例提供了一种生成多文档摘要的装置,包括摘要句选择模块40,用于从多篇文档中选择若干个摘要句;摘要句排序模块41,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。所述摘要句排序模块41包括存储单元411,用于存储按照摘要句包含的日期信息进行排序的排序规则,按照摘要句位于文档的位置信息进行排序的排序规则,和按照摘要句与摘要主题内容上的相关性进行排序的排序规则;排序单元412,用于从所述存储单元中选择至少一种排序规则,根据所述至少一种排序规则对所述若干个摘要句进行排序生成多文档摘要。所述排序单元412包括第一排序子单元4120,用于按照摘要句位于文档的位置信息进行排序,当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分句与所述第一摘要句的相似度,根据确定的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序。所述排序单元412包括第二排序子单元4121,按照摘要句与摘要主题内容上的相关性进行排序,计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其中,所述摘要主题中心句由所述多篇文档中出现频率较高的至少一个词组成。如图5所示,本发明实施例提供了一种多文档摘要的生成装置,包括划分模块50,用于将每篇文档划分为多个分句;摘要句选择模块51,用于按照设置的至少一个特征,从多个分句中确定若干个摘要句;摘要句排序模块52,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。所述装置还包括过滤模块53,用于按照设置的过滤规则将所述多个分句进行过滤,确定摘要候选句。所述摘要句选择模块51包括特征存储单元510,用于保存按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词语组成,保存按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由所述文档中出现频率较高的至少一个词语组成,保存根据每个分句位于其所在14文档中的位置信息设置的特征;选择单元511,用于从所述特征存储单元中选择至少一个特征,从多个分句中确定若干个摘要句。所述摘要句排序模块52包括存储单元520,用于存储按照摘要句包含的日期信息进行排序的排序规则,按照摘要句位于文档的位置信息进行排序的排序规则,和按照摘要句与摘要主题内容上的相关性进行排序的排序规则;排序单元521,用于从所述存储单元中选择至少一种排序规则,根据所述至少一种排序规则对所述若干个摘要句进行排序生成多文档摘要。所述排序单元521包括第一排序子单元5210,用于按照摘要句位于文档的位置信息进行排序,当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分句与所述第一摘要句的相似度,根据确定的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序。所述排序单元521包括第二排序子单元5211,用于按照摘要句与摘要主题内容上的相关性进行排序,计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词语组成。本发明实施例提供了一种多文档摘要的生成方法及装置,该方法通过从多篇文档中选择出的若干个摘要句,按照摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性,将该若干个摘要句排序生成多文档摘要,因此,本发明实施例充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求一种多文档摘要的生成方法,其特征在于,包括从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。2.如权利要求1所述的方法,其特征在于,当排序规则根据摘要句位于文档的位置信息设置时,将所述若干个摘要句进行排序包括当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分句与所述第一摘要句的相似度,根据计算的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序。3.如权利要求2所述的方法,其特征在于,所述根据计算的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序包括当所述相似度最大值大于设置的相似度阈值时,确定所述相似度最大值对应的所述第二文档中的第一分句,根据所述第二文档中的第一分句与所述第二摘要句在所述第二文档中的位置信息,将所述第一摘要句与第二摘要句进行排序;当所述相似度最大值不大于设置的相似度阈值时,确定第一文档中第一摘要句之后的任意第二分句,与第二文档中第二摘要句之前的任意第三分句的先后顺序,根据所述第二分句与第三分句的先后顺序,将所述第一摘要句与第二摘要句进行排序。4.如权利要求3所述的方法,其特征在于,所述根据所述第二分句与所述第三分句的先后顺序,将所述第一摘要句与第二摘要句进行排序包括当所述第二分句排列在所述第三分句之前时,则所述第一摘要句排列在所述第二摘要句之前。5.如权利要求1所述的方法,其特征在于,当排序规则根据摘要句与摘要主题内容上的相关性设置时,将所述若干个摘要句进行排序包括计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其中,所述摘要主题中心句由所述多篇文档中出现频率较高的至少一个词组成。6.—种多文档摘要的生成方法,其特征在于,包括将每篇文档划分为多个分句;按照设置的至少一个特征,从多个分句中确定若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。7.如权利要求6所述的方法,其特征在于,所述按照设置的至少一个特征,从多个分句中确定若干个摘要句之前所述方法还包括按照设置的过滤规则将所述多个分句进行过滤,确定摘要候选句。8.如权利要求6所述的方法,其特征在于,所述设置的至少一个特征包括按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成;按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由所述文档中出现频率较高的至少一个词组成;禾口根据每个分句位于其所在文档中的位置信息设置的特征中的一个或任意几个的组合。9.如权利要求6所述的方法,其特征在于,当排序规则根据摘要句位于文档的位置信息设置时,将所述若干个摘要句进行排序包括当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分句与所述第一摘要句的相似度,根据计算的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序。10.如权利要求9所述的方法,其特征在于,所述根据计算的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序包括当所述相似度最大值大于设置的相似度阈值时,确定所述相似度最大值对应的所述第二文档中的第一分句,根据所述第二文档中的第一分句与所述第二摘要句在所述第二文档中的位置信息,将所述第一摘要句与第二摘要句进行排序;当所述相似度最大值不大于设置的相似度阈值时,确定第一文档中第一摘要句之后的任意第二分句,与第二文档中第二摘要句之前的任意第三分句的先后顺序,根据所述第二分句与所述第三分句的先后顺序,将所述第一摘要句与第二摘要句进行排序。11.如权利要求io所述的方法,其特征在于,所述根据所述第二分句与所述第三分句的先后顺序,将所述第一摘要句与第二摘要句进行排序包括当所述第二分句排列在所述第三分句之前时,则所述第一摘要句排列在所述第二摘要句之前。12.如权利要求6所述的方法,其特征在于,当排序规则根据摘要句与摘要主题内容上的相关性设置时,将所述若干个摘要句进行排序包括计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成。13.—种多文档摘要的生成装置,其特征在于,包括摘要句选择模块,用于从多篇文档中选择若干个摘要句;摘要句排序模块,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。14.如权利要求13所述的装置,其特征在于,所述摘要句排序模块包括存储单元,用于存储按照摘要句包含的日期信息进行排序的排序规则,按照摘要句位于文档的位置信息进行排序的排序规则,和按照摘要句与摘要主题内容上的相关性进行排序的排序规则;排序单元,用于从所述存储单元中选择至少一种排序规则,根据所述至少一种排序规则对所述若干个摘要句进行排序生成多文档摘要。15.如权利要求14所述的装置,其特征在于,所述排序单元包括第一排序子单元,用于按照摘要句位于文档的位置信息进行排序,当两个摘要句属于同一篇文档时,按照两个摘要句位于所述文档中的位置信息进行排序;当第一摘要句属于第一文档,第二摘要句属于第二文档时,计算第二文档中的每个分句与所述第一摘要句的相似度,根据确定的相似度最大值与设置的相似度阈值,将所述第一摘要句与第二摘要句进行排序。16.如权利要求14所述的装置,其特征在于,所述排序单元包括第二排序子单元,用于按照摘要句与摘要主题内容上的相关性进行排序,计算摘要句与摘要主题中心句的相似度,根据所述相似度将每个摘要句进行排序,其中,所述摘要主题中心句由所述多篇文档中出现频率较高的至少一个词语组成。17.—种多文档摘要的生成装置,其特征在于,包括划分模块,用于将每篇文档划分为多个分句;摘要句选择模块,用于按照设置的至少一个特征,从多个分句中确定若干个摘要句;摘要句排序模块,用于按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。18.如权利要求17所述的装置,其特征在于,所述装置还包括过滤模块,用于按照设置的过滤规则将所述多个分句进行过滤,确定摘要候选句。19.如权利要求17所述的装置,其特征在于,所述摘要句选择模块包括特征存储单元,用于保存按照每个分句与摘要主题中心句的相似程度设置的特征,其中,所述摘要主题中心句由所述每篇文档中出现频率较高的至少一个词组成,保存按照每个分句与该分句所在的文档对应的文档中心句的相似程度设置的特征,其中,文档中心句由所述文档中出现频率较高的至少一个词组成,保存根据每个分句位于其所在文档中的位置信息设置的特征;选择单元,用于从所述特征存储单元中选择至少一个特征,从多个分句中确定若干个摘要句。20.如权利要求17所述的装置,其特征在于,所述摘要句排序模块包括存储单元,用于存储按照摘要句包含的日期信息进行排序的排序规则,按照摘要句位于文档的位置信息进行排序的排序规则,和按照摘要句与摘要主题内容上的相关性进行排序的排序规则;排序单元,用于从所述存储单元中选择至少一种排序规则,根据所述至少一种排序规则对所述若干个摘要句进行排序生成多文档摘要。全文摘要本发明公开了一种多文档摘要的生成方法及装置,用以解决现有技术中生成的多文档摘要的可读性差的问题。该方法从多篇文档中选择若干个摘要句;按照设置的至少一种排序规则将所述若干个摘要句进行排序生成多文档摘要,其中,每种排序规则根据摘要句包含的日期信息、摘要句位于文档的位置信息或摘要句与摘要主题内容上的相关性设置。如本发明提出的方案,充分考虑了摘要句间的连续性和与主题内容的相关性,从而可以有效的提高生成的多文档摘要的可读性。文档编号G06F17/30GK101739426SQ20081022610公开日2010年6月16日申请日期2008年11月13日优先权日2008年11月13日发明者万小军,杨建武,肖建国,贾候萍,黄小江申请人:北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1