修正检索式和文档检索的方法及装置的制作方法

文档序号:6574683阅读:437来源:国知局
专利名称:修正检索式和文档检索的方法及装置的制作方法
技术领域
本发明涉及信息处理技术,特别涉及信息检索的技术。
技术背景信息检索技术已经被广泛应用。已知有很多技术从不同的角度来提高信息检索系统的性能。其中,伪相关反馈(Pseudo Relevance Feedback, PRF)是一种用来提高信息检索系统的性能的技术。这种技术可以在没有 用户反馈信息的情况下,自动地利用系统的前一轮检索到的文档作为反馈 信息来修正检索式,从而提高检索性能。但是, 一轮检索的结果通常包含大量的候选文档,如何利用这些文档 会对伪相关反馈的作用产生直接的影响。已有的伪相关反馈技术局限于独 立地利用每一篇文档作为反馈,而没有考虑多篇文档之间的联系,更没有 合理的综合汇总多篇文档的内容。发明内容为了解决上述现有技术中存在的问题,本发明提供了修正检索式的方 法,文档检索的方法,修正检索式的装置,以及文档检索的装置。根据本发明的一个方面,提供了一种修正检索式的方法,包括利用 该检索式对文档集合进行检索获得多个相关的文档;根据上述检索到的多 个相关的文档,生成多个多文档文摘,其中,每个多文档文摘对应于上述 多个相关的文档中的一个文档类;以及利用上述多个多文档文摘,修正上 述检索式。根据本发明的另一个方面,提供了一种文档检索的方法,包括根据检索请求,构造检索式;利用上述修正检索式的方法,修正上述检索式; 以及利用上述修正的检索式,检索文档。根据本发明的再另一个方面,提供了一种修正检索式的装置,包括 检索单元,利用该检索式对文档集合进行检索获得多个相关的文档;多文 档文摘生疼单元,根据上述检索单元检索到的多个相关的文档,生成多个 多文档文摘,其中,每个多文档文摘对应于上述多个相关的文档中的一个 文档类;以及检索式修正单元,利用上述多个多文档文摘,修正上述检索 式,根据本发明的再另一个方面,提供了一种文档检索的装置,包括检 索式构造单元,根据检索请求,构造检索式;上述修正检索式的装置,用 于修正上述检索式;以及文档检索单元,利用上述修正的检索式,检索文 档。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更 好地了解本发明上述的特点、优点和目的。图l是根据本发明的一个实施例的检索式修正方法的流程图;图2是根据本发明的实施例的结束务降的训练过程的详细流程图;图3是根据本发明的实施例的修正检索式的详细流程图;图4是根据本发明的另一个实施例的文档检索方法的流程图;图5是根据本发明的另一个实施例的检索式修正装置的方框图;以及图6是根据本发明的另一个实施例的文档检索装置的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。 检索式修正方法图1是根据本发明的一个实施例的检索式修正方法的流程图。如图1 所示,首先,在步骤101,利用检索式对文档集合进行检索,获得多个相关的文档。在本实施例中,检索式可以是根据用户的检索请求生成的或者 由其它系统生成的,本发明对于检索式的生成方式没有限制。检索式中通 常包括一个或多个检索词,其中每个检索词还可以具有一个初始的权值。 文档集合是净皮检索的文档库,其包括大量的文档。可选地,在此步骤中,也可以进一步根据获得的多个相关的文档与检 索式的相关程度,对这些检索到的文档进行排序,得到带排序的检索结果。 这里的排序方法可以是本领域已知的或者未来的的任何方法,本发明对此 并没有限制。接着,在步骤105,判断是否满足结束条件.如果满足结束务Hs则结束检索,如果不满足结束条件,则方法进行到步骤110。在本实施例中,结束^Hf是进行检索式修正的次数,其通过训练获得,具体细节将在下面参考图2进行描述。然而,应该理解,结束条件并不限于进行检索式修正 的次数,也可以对步骤101中获得的多个相关的文档直接进行评测,如果 满足要求,则结束,如果不满足要求,则继续对检索式进行修正。接着,在步骤110,根据上述在步骤101中检索到的多个相关的文档, 生成多个多文档文摘。具体地,首先,根据检索到的多个相关文档之间的 相关程度,将多个相关的文档聚类,从而获得多个文档类,其中,每个文 档类包含一个或多个文档。接着,分别为每个文档类生成一个摘要,作为 该文档类的多文档文摘。关于多文档文摘的生成方法,已知有多种方法,例如在J. Goldstein, V. Mittal, J. Carbonell和M. Kantrowitz的文献"Multi-Document Summarization by Sentence Extraction" (In Proceedings of NAACL-ANLP 2000 Workshop: Automatic Summarization, 2000 )(下文中称为文献1)中 进行了描述,在此通过参考引入其整个内容。本发明对于生成多文档文摘 的方式没有特别的限制,只要能够根据多个文档生成反映这些文档的内容 的文摘即可。接着,在步骤115,利用在步骤110中生成的多个多文档文摘,修正 上述检索式,修正检索式的具体细节将在下面参考图3进行描述。最后,利用修正后的检索式,继续进行步骤101至步骤115,直到满 足结束条件,即得到满足检索要求的检索结果。接下来,参考图2详细描述在步骤105中结束条件的训练过程。图2 示出了根据本发明的实施例的结束条件的训练过程的详细流程图。如图2 所示,首先,在步骤201,提供多个检索式和包含已知的与多个检索式对 应的相关文档的训练文档集合,此外,该训练文档集合还包括与多个检索 式无关的不相关文档。这样的训练文档集合通常由手工准备获得,作为这 样的训练文档集合,例如有TREC Appendices, 2003。具体细节参见文本 检索^i义(Text REtrieval Conference,简称TREC),其是由美国国家标 准技术局(NIST)和国防部高级研究计划局(DARPA)组织召开的一年 一度的国际评测会汉。接着,在步骤202,对检索结果评测循环次数进行初始化,在本实施 例中,例如,将循环次数的初值设定为0。接着,在步骤203,利用由已知的多个检索式构成的检索式组对训练 文档集合进行检索,获得带排序的检索结果。这里的排序方法与上述步骤 IOI中的排序方法相同,在此不再赘述。接着,在步骤205,对于该检索式组,利用已知的与该检索式组对应 的多个相关的文档,评测在步骤203中获得的检索结果,产生一个评测值, 该评测值表示根据该检索式组进行检索的有效性.具体地,通过对根据该判断该检索式组的检索结果是否符合要求,获得一个评测值。例如,该评 测值的取值在0和1之间,如果评测值等于0,说明检索结果和与多个检 索式对应的多个相关文档完全不同,如果评测值等于1,说明检索结果和 与多个检索式对应的多个相关文档完全相同。如果在步骤205中判断检索结果达到最优,则在步骤206输出循环次 数,并在步骤207结束训练。如果在步骤205中判断检索结果没有达到最 优,则训练进行到步骤208。接着,在步骤208和209,根据检索结果,对该检索式组进行修正,修正检索式的具体细节将在下面参考图3进行描述。接着,利用修正后的检索式组,继续进行步骤202至步骤209,直到 检索结果达到最优。同时,在每次循环时,在步骤204将循环次数加1。最后,得到对于该检索式组的最佳循环次数,作为获得最佳检索结果 的循环次数。在本实施例中,虽然采用了已知多个检索式和每个检索式对应的相关 文档的训练文档集合,来训练最佳循环次数;但是同样也可以利用普通的 文档集合来训练,这时评测就需要手动进行,即人工评价获得的检索结果, 来判断该检索结果是否最优。接下来,参考图3详细描述在上述步骤115和步骤209中利用多个多 文档文摘修正检索式的过程。图3是根据本发明的实施例的修正检索式的 详细流程图。如图3所示,首先,在步骤301,根据原检索式检索到的多 个相关的文档与原检索式的相关程度,对多个相关的文档进行排序,具体 的排序方法与上述步骤101中描述的排序方法相同,在此忽略其描述.接着,在步骤302,如果检索得到的相关文档的数量太多,可以取若 干个文档作为^Jt信息,例如取排序后的前若干个文档作为反馈信息。接着,在步骤305,根据^^馈信息,生成多文档文摘。具体地,首先, 根据检索到的多个相关文档之间的相关程度,将多个相关的文档聚类,从 而获得多个文档类,例如在本实施例中获得M个文档类(如标号306所示); 其中,每个文档类包含一个或多个文档。接着,分别为每个文档类生成一 个摘要,作为该文档类的多文档文摘,例如在本实施例中对应地生成M个 多文档文摘(如标号308所示)。接着,在步骤304,分别计算每个多文档文摘中的每个句子的4又值, 具体的计算方法例如可以采用上述文献l中描述的方法,但是本发明对此没有特别的限制.接着,在步骤307,计算在306处获得的M个文档类的每一个的权值。 具体地,假设某一文档类C中含有K篇文档,第k (k=l,…,K)个文档 Dk的权值为Weight(Dk),则文档类C的权值Wdght(C)为该文档类中每个文档的权值之和Weight(C) = ZWeight(Dk)其中,每个文档的权值Weight(Dk)是前一次检索结果返回的。接着,在步骤310,计算在308处获得的M个多文档文摘的每一个中 出现的新词的初始权值,具体的计算方法例如可以采用在S. E. Robertson 和K. Sparck Jones的文献"Simple, Proven Approaches to Text Retrieval" (Technical Report Number 356, Computer Laboratory, University of Cambridge, 1994)(下文中称为文献2 )中描述的方法,在此通过参考引 入其整个内容。但是本发明对此没有特别的限制。接着,在步骤311,计算在308处获得的M个多文档文摘的每一个中 出现的新词的词频,顺便提及,对步骤304、 307、 310、 311之间的顺序关系没有任何要求, 也就是说,在进行多文档自动文摘之后,可以首先进行步骤304、 307、 310、 311中的任何一个,本发明对此并没有任何限制。接着,在步骤314,利用在步骤304中计算得到的句子的权值,在步 骤307中计算得到的文档类的权值,在步骤310中计算得到的新词的初始 权值,以及在步骤311中计算得到的新词的词频,对新词的权值进行修正。具体地,假设某一新词W的初始权值为Weight(W); W的词频为 freq(W);包含W的句子标记为Sj (…,J, J为包含W的句子个数), Sj的权值为Weight(Sj);包含W的文档类标记为Q (i-l,, I, I为包含 W的文档类个数),Ci的权值为Weight(Ci)。则修正后的W的权值weight'(w) 为Weight'(W)=『ezgA"^) * * Z『e!'g/i"S乂 ) *艺『e/g/^(C,.)w (2)应该注意,在对新词的权值进行修正时,不必须全部考虑上述四个因 素,即文档类的权值,新词的初始权值,新词的词频,以及句子的权值, 可以只考虑其中的任何一个或多个。接着,在步骤315,将权值最大的前N个新词扩充到原检索式中。此 外,也可以将每个新词的权值扩充到原检索式中。此外,在步骤302之后,在步骤303,利用反馈信息,对原检索词的 ^L值进行修正。具体的修正方法例如可以采用上述文献2中描述的方法。接着,在步骤309进行判断,如果原检索词在308.处获得的M个多文 档文摘中,则在步骤312中对原检索词的权值进行进一步修正,例如乘以 一个大于l的系数。最后,通过以上步骤,得到新的检索式,其中包括原检索词及其修正 后的权值,和新词及其修正后的权值。应该理解,在进行检索时,可以考 虑或不考虑原检索词和新词的权值,因此,在上述步骤中,可以不将新词 的权值扩充到新检索式中,或不对原检索词的权值进行修正,本发明对此 并没有任何限制。本实施例的检索式修正方法,通过进行多文档文摘,合理地综合考虑 了多个相关文档作为反馈信息,可以获得与检索要求更相关的检索词,从 而基于此方法来修正检索式可以使检索的精度获得提高。另外,根据本发明的另一个实施例,在检索式中不包含每个检索词的 ;^值。相应地,与上个实施例的不同之处在于可以省略将新词的权值扩充 到新检索式中和对已有的检索词的权值进行调整的步骤。文档检索方法在同一发明构思下,图4是根据本发明的另一个实施例的文档检索方 法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实 施例相同的部分,适当省略其说明。如图4所示,首先,在步骤401,根据检索请求,构造检索式。检索 式包括一个或多个检索词,其中每个检索词还可以具有一个初始的权值。接着,在步骤405,利用上述参考图l-3的实施例所述的修正检索式的 方法,修正在步骤401中构造的检索式,具体的修正检索式的过程与上述 相同,在此不再赘述。最后,利用在步骤405修正的检索式,检索文档集合,获得用户需要 的一个或多个文档。本实施例的文档检索方法,通过进行多文档文摘,合理地综合考虑了 多个相关文档作为反馈信息,从而可以通过获得与检索要求更相关的检索 词来修正检索式,从而基于此方法可以使检索的精度获得提高。检索式修正装置在同一发明构思下,图5是根据本发明的另一个实施例的修正检索式 的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前 面实施例相同的部分,适当省略其说明。如图5所示,本实施例的修正检索式的装置500包括检索单元501, 利用检索式对文档集合进行检索获得多个相关的文档;多文档文摘生成单 元505,根据检索单元501检索到的多个相关的文档,生成多个多文档文 摘,其中,每个多文档文摘对应于上述多个相关的文档中的一个文档类; 以及检索式修正单元510,利用上述多个多文档文摘,修正上述检索式, 检索式修正单元510的具体细节将在下面进行描述。下面将详细描述本实施例的修正检索式的装置500的各个组成部分的 结构及功能。在本实施例中,检索式可以是根据用户的检索请求生成的或者由其它 系统生成的,本发明对于检索式的生成方式没有限制。检索式中通常包括 一个或多个检索词,其中每个检索词还可以具有一个初始的权值。文档集 合是被检索的文档库,其包括大量的文档。在本实施例中,检索单元501也可以包括排序单元,其根据获得的多 个相关的文档与检索式的相关程度,对这些检索到的文档进行排序,得到 带排序的检索结果。这里的排序单元可以是本领域已知的或者未来的任何 单元,本发明对此并没有限制。此外,本实施例的修正检索式的装置500可以判断是否满足结束条件。 如果满足结束条件,则结束检索,如果不满足结束条件,则继续利用检索式修正单元510对检索式进行修正。在本实施例中,结束*是进行检索 式修正的次数,其通过训练获得,具体细节将在下面进行描述。然而,应 该理解,结束条件并不限于进行检索式修正的次数,也可以对检索单元501 获得的多个相关的文档直接进行评测,如果满足要求,则结束,如果不满 足要求,则继续对检索式进行修正。在本实施例中,多文档文摘生成单元505可以包括文档聚类单元,其 根据检索到的多个相关文档之间的相关程度,将多个相关的文档聚类,从 而获得多个文档类,其中,每个文档类包含一个或多个文档;以及摘要生 成单元,分别为每个文档类生成一个摘要,作为该文档类的多文档文摘。关于多文档文摘生成单元505,已知有多种形式,例如在文献l中进 行了描述,在此不再赘述。本发明对于多文档文摘生成单元505没有特别 的限制,只要能够根据多个文档生成反映这些文档的内容的文摘即可.接下来,详细描述本实施例的修正检索式的装置500的结束条件的训 练过程。首先,提供多个检索式和包含已知的与多个检索式对应的相关文 档的训练文档集合,此外,该训练文档集合还包括与多个检索式无关的不 相关文档。这样的训练文档集合通常由手工准备获得,作为这样的训练文 档集合,例如有TREC Appendices, 2003。具体细节参见文;^险索^i义(Text REtrieval Conference,简称TREC),其是由美国国家标准技术局(NIST) 和国防部高级研究计划局(DARPA )组织召开的一年一度的国际评测《^义。接着,对检索结果评测循环次数进行初始化,在本实施例中,例如, 将循环次数的初值设定为0。接着,上述检索单元501利用由多个检索式构成的检索式组对训练文 档集合进行检索,并利用检索单元501的排序单元获得带排序的检索结果。 这里的排序单元与上述排序单元相同,在此不再赘述。接着,对于该检索式组,利用已知的与该检索式组对应的多个相关的 文档,评测获得的检索结果,产生一个评测值,该评测值表示根据该检索 式组进行检索的有效性。具体地,通过对根据该检索式组获得的检索结果 和与该检索式组对应的多个相关文档进行比较,判断该检索式组的检索结果是否符合要求,获得一个评测值.例如,该评测值的取值在0和1之间, 如果评测值等于0,说明检索结果和与多个检索式对应的多个相关文档完全不同,如果评测值等于1,说明检索结果和与多个检索式对应的多个相 关文档完全相同。如果判断检索结果达到最优,则输出循环次数,并结束训练。如果判 断检索结果没有达到最优,则训练继续进行。接着,根据检索结果,利用上述多文档文摘生成单元505和检索式修 正单元510对该检索式组进行修正,检索式修正单元510的具体细节将在 下面进行描述。接着,根据修正后的检索式组,继续利用检索单元501进行检索、并 利用多文档文摘生成单元505和检索式修正单元510进行修正,直到检索 结果达到最优。同时,在每次循环时,将循环次数加l。最后,得到对于该检索式组的最佳循环次数,作为获得最佳检索结果 的循环次数。在本实施例中,虽然采用了已知多个检索式和每个检索式对应的相关 文档的训练文档集合,来训练最佳循环次数;但是同样也可以利用普通的 文档集合来训练,这时评测就需要手动进行,即人工评价获得的检索结果, 来判断该检索结果是否最优。接下来,详细描述上述检索式修正单元510的各个组成部分的结构和 功能以及修正检索式的过程.首先,利用上述排序单元根据原检索式检索到的多个相关的文档与原 检索式的相关程度,对多个相关的文档进行排序。接着,如果检索得到的相关文档的数量太多,可以取若干个文档作为 反馈信息,例如取排序后的前若干个文档作为^^馈信息。接着,根据反馈信息,利用上述多文档文摘生成单元505,生成多文 档文摘。具体地,首先,利用上述文档聚类单元根据检索到的多个相关文 档之间的相关程度,将多个相关的文档聚类,从而获得多个文档类,例如 在本实施例中获得M个文档类;其中,每个文档类包含一个或多个文档。接着,利用上述摘要生成单元分别为每个文档类生成一个摘要,作为该文档类的多文档文摘,例如在本实施例中对应地生成M个多文档文摘。在本实施例中,上述多文档文摘生成单元505还包括句子权值计算单 元,其用于分别计算每个多文档文摘中的每个句子的权值,具体的计算方 法例如可以采用上述文献l中描述的方法,但是本发明对此没有特别的限 制。此外,上述多文档文摘生成单元505还包括文档类权值计算单元,其 用于计算获得的M个文档类的每一个的权值。具体地,假设某一文档类C 中含有K篇文档,第k (k=l,…,K)个文档Dk的权值为Weight(Dk),则 文档类C的权值Weight(C)为该文档类中每个文档的权值之和Weight(C) = ZWeight(Dk)其中,每个文档的权值Weight(Dk)是前一次检索结果返回的。 在本实施例中,上述检索式修正单元510可以包括词权值计算单元, 其用于计算获得的M个多文档文摘的每一个中出现的新词的初始权值,具 体的计算方法例如可以采用在上述文献2中描述的方法,在此不再赘述。 但是本发明对此没有特别的限制.此外,上述检索式修正单元510还可以 包括词频计算单元,用于计算获得的M个多文档文摘的每一个中出现的新 词的词频。此外,上述词权值计算单元还可以利用计算得到的句子的权值,文档 类的权值,新词的初始权值,以及新词的词频,对新词的权值进行修正。具体地,假设某一新词W的初始权值为Weight(W); W的词频为 freq(W);包含W的句子标记为Sj (j=l,…,J, J为包含W的句子个数), Sj的权值为Weight(Sj);包含W的文档类标记为Cj (i=l,…,I, I为包含 W的文档类个数),Q的权值为Weight(Ci)。则修正后的W的权值weight'(w) 为<formula>formula see original document page 17</formula>应该注意,在对新词的权值进行修正时,不必须全部考虑上述四个因 素,即文档类的权值,新词的初始权值,新词的词频,以及句子的4又值, 可以只考虑其中的任何一个或多个。此外,上述检索式修正单元510还可以包括扩充单元,其用于将权值 最大的前N个新词扩充到原检索式中。此外,该扩充单元也可以将每个新 词的权值扩充到原检索式中。此外,上述检索式修正单元510还可以包括权值修正单元,其用于利 用反馈信息,对原检索词的权值进行修正,具体细节例如在上述文献2中 进行了描述,在此不再赘述。此外,如果原检索词在获得的M个多文档文 摘中,则对原检索词的权值进行进一步修正,例如乘以一个大于1的系数.最后,利用修正检索式的装置500,得到新的检索式,其中包括原检 索词及其修正后的权值,和新词及其修正后的权值。应该理解,在进行检 索时,可以考虑或不考虑原检索词和新词的权值,因此,在利用检索式修 正单元510对检索式进行修正时,可以不将新词的权值扩充到新检索式中, 或不对原检索词的权值进行修正,本发明对此并没有任何限制。另外,根据本发明的另一个实施例,在检索式中不包含每个检索词的 权值。相应地,与上个实施例的不同之处在于上述扩充单元可以省略将新 词的权值扩充到新检索式中,以及可以省略上述对已有的检索词的权值进 行调整的权值修正单元。本实施例的修正检索式的装置500,通过进行多文档文摘,合理地综 合考虑了多个相关文档作为反馈信息,从而可以获得与检索要求更相关的 检索词,并且利用此装置来修正检索式可以使检索的精度获得提高。本实施例的修正检索式的装置500及其各个组成部分,可以用专用的 电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。文档检索装置在同一发明构思下,图6是根据本发明的另一个实施例的文档检索装 置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。如图6所示,本实施例的文档检索装置600包括检索式构造单元601, 根据检索请求,用于构造检索式;上述修正检索式的装置500,用于修正 上述检索式;以及文档检索单元605,利用上述修正的检索式,检索文档 集合,获得用户需要的一个或多个文档。本实施例的文档检索装置600,通过进行多文档文摘,合理地综合考 虑了多个相关文档作为反馈信息,从而可以通过获得与检索要求更相关的 检索词来修正检索式,从而利用此装置可以使检索的精度获得提高本实施例的文档检索装置600及其各个组成部分,可以用专用的电路 或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。以上虽然通过一些示例性的实施例详细地描述了本发明的修正检索式 的方法,文档检索的方法,修正检索式的装置,以及文档检索的装置,但 是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和 范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明 的范围仅由所附权利要求为准。
权利要求
1. 一种修正检索式的方法,包括利用该检索式对文档集合进行检索获得多个相关的文档;根据上述检索到的多个相关的文档,生成多个多文档文摘,其中,每个多文档文摘对应于上述多个相关的文档中的一个文档类;以及利用上述多个多文档文摘,修正上述检索式。
2. 根据权利要求1所述的修正检索式的方法,其中,上述利用该检 索式对文档集合进行检索的步骤包括根据上述检索到的多个相关文档与上述检索式的相关程度,对上述多 个相关文档进行排序。
3. 根据权利要求1或2所述的修正检索式的方法,其中,上述生成 多个多文档文摘的步骤包括根据上述检索到的多个相关文档之间的相关程度,将上述多个相关的 文档聚类,从而获得多个文档类,其中,每个文档类包含至少一个文档; 以及为每个上述文档类生成一个摘要。
4. 根据权利要求3所述的修正检索式的方法,其中,上述生成多个 多文档文摘的步骤还包括计算上述摘要中的每个句子的权值。
5. 根据权利要求4所述的修正检索式的方法,其中,上述生成多个 多文档文摘的步骤还包括计算上述每个文档类的权值。
6. 根据权利要求5所述的修正检索式的方法,其中,上述利用上述 多个多文档文摘修正上述检索式的步骤,包括计算上述多个多文档文摘中出现的每个新词的权值; 将权值最大的指定个数的新词,扩充到上述检索式中。
7. 根据权利要求6所述的修正检索式的方法,其中,上述计算上述多个多文档文摘中出现的每个新词的权值的步骤,包括根据该新词的初始权值、该新词出现的词频、包含该新词的句子的权 值、包含该新词的文档类的权值或它们的组合,计算上述多个多文档文摘 中出现的新词的权值。
8. 根据权利要求1~7的任意一项所述的修正检索式的方法,还包括利用上述修正后的检索式,重复执行上述检索到修正的步骤,直到一 个预先定义的次数。
9. 根据权利要求8所述的修正检索式的方法,其中,上述预先定义 的次itA利用多个检索式和至少包含已知的与所述多个检索式对应的多个 相关文档的训练文档集合以下述方式计算得出的利用上述多个检索式,重复执行上述检索到修正的步骤,并且根据已 知的多个相关文档评价每次检索到的检索结果; 计数获得最佳检索结果的重复次数。
10. 根据权利要求1所述的修正检索式的方法,其中,上述检索式包 括至少一个检索词及该检索词的权值。
11. 根据权利要求10所述的修正检索式的方法,其中,上述利用上 述多个多文档文摘修正上述检索式的步骤,包括计算上述多个多文档文摘中出现的每个新词的权值; 将权值最大的指定个数的新词及其权值,扩充到上述检索式中。
12. 根据权利要求10所述的修正检索式的方法,其中,上述生成多 个多文档文摘的步骤包括根据上述检索到的多个相关文档,修正上述至少一个检索词的每一个 检索词的权值。
13. 根据权利要求12所述的修正检索式的方法,其中,上述修正上 述至少 一个检索词的权值的步骤包括根据上述至少一个检索词的每一个在上述多个多文档文摘中出现的情 况,修正该检索词的权值。
14. 一种文档检索的方法,包括 根据检索请求,构造检索式;利用上述权利要求1 ~ 13的任意一项所述的修正检索式的方法,修正 上述检索式;以及利用上述修正的检索式,检索文档。
15. —种修正检索式的装置,包括检索单元,利用该检索式对文档集合进行检索获得多个相关的文档; 多文档文摘生成单元,根据上述检索单元检索到的多个相关的文档,生成多个多文档文摘,其中,每个多文档文摘对应于上述多个相关的文档中的一个文档类;以及检索式修正单元,利用上述多个多文档文摘,^"正上述检索式。
16. 根据权利要求15所述的修正检索式的装置,其中,上述检索单 元包括排序单元,根据上述检索到的多个相关文档与上述检索式的相关程度, 对上述多个相关文档进行排序。
17. 根据权利要求15或16所述的修正检索式的装置,其中,上述多 文档文摘生成单元包括文档聚类单元,根据上述检索单元检索到的多个相关文档之间的相关 程度,将上述多个相关的文档聚类,从而获得多个文档类,其中,每个文 档类包含至少一个文档;以及摘要生成单元,为每个上述文档类生成一个摘要。
18. 根据权利要求17所述的修正检索式的装置,其中,上述多文档 文摘生成单元还包括句子权值计算单元,用于计算上述摘要中的每个句子的权值.
19. 根据权利要求18所述的修正检索式的装置,其中,上述多文档 文摘生成单元还包括文档类权值计算单元,用于计算上述每个文档类的权值。
20. 根据权利要求19所述的修正检索式的装置,其中,上述检索式修正单元包括词权值计算单元,用于计算上述多个多文档文摘中出现的每个新词的 权值;扩充单元,将权值最大的指定个数的新词,扩充到上述检索式中。
21. 根据权利要求20所述的修正检索式的装置,其中,上述词权值 计算单元根据该新词的初始权值、该新词出现的词频、包含该新词的句子的权值、包含该新词的文档类的权值或它们的组合,计算上述多个多文档 文摘中出现的新词的权值。
22. 才艮据权利要求15~21的任意一项所述的修正检索式的装置,其 中,所述修正检索式的装置反复利用上述多个多文档文摘修正上述检索式, 直到 一个预先定义的次数。
23. 根据权利要求22所述的修正检索式的装置,其中,上述预先定 义的次数是利用多个检索式和至少包含已知的与所述多个检索式对应的多 个相关文档的训练文档集合以下述方式计算得出的利用上述多个检索式,重复执行上述检索到修正的步骤,并且根据已 知的多个相关文档评价每次检索到的检索结果; 计数获得最佳检索结果的重复次数。
24. 根据权利要求15所述的修正检索式的装置,其中,上述检索式 包括至少一个检索词及该检索词的权值。
25. 根据权利要求24所述的修正检索式的装置,其中,上述检索式 修正单元包括词权值计算单元,用于计算上述多个多文档文摘中出现的每个新词的 权值;扩充单元,将权值最大的指定个数的新词及其权值,扩充到上述检索 式中。
26. 根据权利要求24所述的修正检索式的装置,其中,上述多文档 文摘生成单元包括权值修正单元,根据上述检索到的多个相关文档,修正上述至少一个检索词的每一个检索词的权值。
27. 根据权利要求26所述的修正检索式的装置,其中,上述权值修 正单元还根据上述至少一个检索词的每一个在上述多个多文档文摘中出现 的情况,修正该检索词的权值。
28. —种文档检索的装置,包括 检索式构造单元,根据检索请求,构造检索式;上述权利要求15 ~ 27的任意一项所述的修正检索式的装置,用于修正 上述检索式;以及文档检索单元,利用上述修正的检索式,检索文档。
全文摘要
本发明提供了修正检索式的方法,文档检索的方法,修正检索式的装置,以及文档检索的装置。根据本发明的一个方面,提供了一种修正检索式的方法,包括利用该检索式对文档集合进行检索获得多个相关的文档;根据上述检索到的多个相关的文档,生成多个多文档文摘,其中,每个多文档文摘对应于上述多个相关的文档中的一个文档类;以及利用上述多个多文档文摘,修正上述检索式。
文档编号G06F17/30GK101271462SQ20071008916
公开日2008年9月24日 申请日期2007年3月20日 优先权日2007年3月20日
发明者江 朱, 王海峰 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1