用于索引和检索文档的方法、计算机程序及数据载体的制作方法

文档序号:6624964阅读:221来源:国知局
专利名称:用于索引和检索文档的方法、计算机程序及数据载体的制作方法
技术领域
本发明涉及一种用于索引和检索文档的方法,更具体地,涉及一种以数字方式索引和检索文档的方法、其中文档指的是所有包含在文本文档、声音片段、图像拼贴等中的数据。
背景技术
已知基于文本文档的内容借助于一个或几个所谓的主题词表对它们进行索引。
由此通过软件程序对所要索引的文本文档进行文本分析,软件程序从文本文档中的一个或多个主题词表中查找所谓的核心概念。
以所发现的不同核心概念在文本文档中出现的频率和位置为基础,该文本文档接收其中包括不同的核心概念的特定索引。
为了检索被索引的文档,用户可以使用已知的电子搜索功能,由此他/她引入核心概念,然后,给出所有包含该核心概念的文档作为结果,基于所涉及的核心概念在文档中出现的频率排序或不排序。
这样的基于主题词表索引和检索文档的已知方法的缺点就是,其不允许检索以一种方式或其它方式与所引入的核心概念相关、但是其中并没有出现核心概念本身或包括在主题词表中的其同义词的文档,使得可能不将具有相关信息的那个文档提供给用户。
另一种用于索引和检索文档的已知方法是通过描述基于本体论的域,由此用户能够基于核心概念之间的关系索引文档,从而在搜索的情况下,选择应用上述关系的所有文档。
这种已知方法的缺点就是,对所要索引的文档进行的索引相对较费力,并且文档的检索可能相对用时较长,因为随着核心概念数量的增加,不同核心概念之间的关系的数目迅速变得非常大。

发明内容
本发明的目的是弥补上述以及其它缺点。
为此,本发明涉及一种用于索引和检索文档的方法,该方法包括下列操作步骤的组合通过一个或几个特定于域的主题词表标识文档中的核心概念;通过一个或几个关系寄存器标识核心概念之间的关系;以及根据所标识的核心概念以及关系索引文档。
根据本发明的这种方法的优点就是,用户可以以快速简单的方式检索文档,这是因为核心概念之间的关系的数目被限制到特定于域的主题词表中核心概念之间的关系,可以选择这个关系数目为所应用的主题词表以及关系寄存器的范围的函数,并且因为结果可能相对较小。
本发明还涉及一种计算机程序,其能够应用上述方法。
本发明还涉及一种数据载体,其具有上述计算机程序。


为了更好地解释本发明的特征,参考附图将根据本发明的、用于索引和检索文档的方法描述为不以任何方式限制的例子,其中图1示意性地表示根据本发明的用于索引文档的方法;图2表示图1的一种变体;图3示意性地表示根据本发明用于检索被索引文档的方法;图4表示当检索被索引文档时,结果表示的一个实际范例。
具体实施例方式
图1示例性地表示为了索引文档1所实施的不同操作步骤的概况,根据索引2可以检索和应用该文档1。
根据本发明,分析所要索引的每一个文档1中核心概念的存在,将该核心概念存储在一个或几个主题词表3中,并且还分析每一个文档1的、包含在文档1中的不同核心概念之间存在的可能关系,将该关系存储在所谓的关系寄存器4中。
可以通过人员手动地、或者通过特定的计算机程序自动地完成这种分析。
通过这种方式创建被索引文档1的集合,其一起形成信息源或知识云6。
因此,文档1可以是文本文档或附图或声音片段、视频拼贴等形式的视听文档的附图集合。
因此,主题词表3优选地以分层方式构建,从而对于特定研究领域,一个或几个主题词表包含大量基本检索词,其每一个形成用于放置在多个子主题词表中的大量子检索词的集体检索词,从而创建大量特定于域的主题词表3。
这种本体主题词表7的分层结构的优点在于,不同的基本检索词可以说是分层构建的,并且因此以某种程度的隐含性彼此链接。其范例有,例如检索词“叶绿体”在第一特定级与“叶肉”链接;在后面更一般的级与“树叶”链接;在还更加一般的级与“植物”链接;并且在终级与非常一般的检索词“植物群”链接。
关系寄存器4包括分别在子寄存器中进一步指定的关系的集合。因此,上述寄存器4可以包含语言或符号属性的关系,其中语言关系包括例如固定的句子结构,例如用于描述原因和效果的固定句子结构,从而在索引时,可以以适当的方式将原因和效果的核心概念彼此链接。
如图2中示意性所示,可以选择性地和可选地将主题词表3与关系寄存器4集成在一起,从而一起形成所谓的本体主题词表7,其中前缀“本体”表示本体性的。
这种本体主题词表7由一个或多个基本检索词的一般主题词表3构成,其从现存的本体中导出或不是从其中导出,从而将关系链接到一个或多个这些基本检索词,例如作为特定目标、任务等的函数。
于是,每一个基本检索词和所涉及的关系的特定组合提供所谓的子本体的原因,子本体包含根据上述关系与上述基本检索词相关的检索词。
当然,可以进一步在特定于域的下层子本体中结合关系或不结合关系地指定该子本体的检索词。
借助于上述分析的结果,认为索引2是每一个文档的属性,这是基于例如核心概念在文档1中出现的频率、它们在文档1中出现的位置、它们与其它核心概念的已知关系、所使用的主题词表的结构以及发展程度等而统计地确定的。
在该索引2中也可以包括在文档1中并没有明确出现、但是作为明确出现的核心概念的同义词而包括在主题词表3中的核心概念,其在该主题词表3中表示为明确出现的核心概念的更一般或更具体的检索词,和/或其根据在文档1中所发现的关系而与这些明确出现的核心概念中的一个或多个相关。
于是,例如如果在文档1中出现“铁”,假定词语铁和金属在一个或多个所涉及的主题词表3中相关,则词语“金属”将作为核心概念被包括在文档1的索引2中。
而且,优选地通过上述关系寄存器4,在索引2中归纳不同核心概念之间的关系。
使用关系寄存器4或使用如上所述的、作为主题词表3和关系寄存器4的组合的本体主题词表7,也使得可能将所发现的核心概念放在特定上下文中。于是,例如可以区分同形异义词。
实际上,如果分别参照特定域的两个或多个主题词表3都包含以相同方式书写或发音的核心概念,则它们都可以识别相同的核心概念,在此之后,关系寄存器4可以通过例如文档中的其它核心概念将该核心概念放在正确的上下文中,并因此将所涉及的核心概念链接到对应于文档1内容的域的主题词表3。
其一个范例就是,词语“树”可能指植物以及信息技术领域中的数据结构。
为了在文档的索引2中通过适当的方式处理这种同形异义词,在索引时将它们当作隐含词语,虽然它们明确地出现在该文档中。
通过将它们当作隐含词,它们通过关系寄存器4或本体主题词表7将总是链接到来自文档1的正确的明确核心概念。
如图3中所表示,可以通过链接到上述主题词表3或关系寄存器4的搜索程序8对上述信息源或知识云6进行查阅。
该搜索程序8的使用可以相对较简单,搜索程序8优选地是计算机程序,由此用户在一个或几个特定于域的主题词表3中直接选择一个或几个搜索词语,和/或指示关系寄存器4中的一个或多个关系,然后,搜索程序8在知识云6中不同文档1的索引2中查找,并将那些在其索引2中包含所选择的搜索词语和/或所指示的关系的文档1表示为结果9。
当然,用户可以进一步使用该结果9作为知识云来进行新的搜索。
优选地,在两个不同阶段中表示上述搜索的结果9。
在第一阶段,给出所发现的与一个或几个搜索词相关的不同文档1的概况,由此根据它们的相关性将这些文档进行排序,可以根据搜索词与所涉及的文档1的索引2之间的对应关系而统计地确定它们的相关性。
除了所发现的文档1的相关性之外,也可以涉及文档的类型,如文本文档、视频片段、音频记录等,以及文档1的内容概况和出现在文档1中的主要核心概念的概况。
当概括主要核心概念时,优选地使用颜色码,其使用户能够快速有效地在所发现的文档1之间做出选择,并显示文档1、或更具体地将文档1的索引2的核心概念的上述隐含级别。
在表示所发现的文档1的第二阶段中,显示已经由用户从所发现的文档1的列表中选择的单个文档1,其中每一单个文档1的表示可以附有出现在所涉及文档1中的索引词的概况,以及这些不同索引词之间的关系,由此为用户提供了基于所表示的索引词和关系进一步搜索的可能性。
图4表示计算机屏幕10上的结果9的实际范例,其中将该屏幕10细分成不同的窗口11至17。
根据该范例,将查询必须执行的搜索词引入屏幕10顶部的窗口11中,然后,在窗口12中总结在上述第一阶段中作为该查询的结果9而出现的不同文档1,根据其相关性排序或不排序。
在第二阶段中,当用户已经选择了其中一个所发现的文档1时,分别在窗口13至15中表示明确出现在该文档1中的核心概念、隐含出现在该文档1中的核心概念、以及不同的隐含和明确核心概念之间的关系。
与窗口13至15相邻设置有窗口16,其中指示有用于每一核心概念的上述颜色码,并且在窗口17中,最终显示整个文档1。
当使用本体主题词表7时,用户具有的优势就是,他或她能够将查询中的一个或几个搜索词与一个或几个关系组合起来,由此,搜索程序8将只查找所选择的搜索词所属于的特定于域的主题词表3的词语之间所选择的关系,并且由此关系的数目就相对较小,使得该搜索程序8需要更少的时间得到结果9。
应该注意到的是,上述知识云6也可以用来排列文档,由此用户可以通过简单的方式找到上述关系寄存器4中不同词之间的关系,并且由此用户借助于上述主题词表3肯定能够选择适当的词语。
本发明并不限于作为范例所给出的方法,相反,可以根据不同的变化实现用于索引和检索文档的方法,同时仍然保留在本发明的范围内。
权利要求
1.一种用于索引和检索文档的方法,其特征在于,为了索引文档(1),其包括下列操作步骤的组合通过一个或几个特定于域的主题词表标识所述文档(1)中的核心概念;通过一个或几个关系寄存器(4)标识所述文档(1)中核心概念之间的关系;以及根据所标识的核心概念以及关系索引所述文档(1)。
2.根据权利要求1的方法,其特征在于,上述主题词表(3)是分层构建的。
3.根据权利要求1的方法,其特征在于,上述关系寄存器(4)包括语言关系。
4.根据权利要求1的方法,其特征在于,上述关系寄存器(4)是分层构建的。
5.根据权利要求1的方法,其特征在于,集成上述主题词表(3)和关系寄存器(4),以形成所谓的本体主题词表(7)。
6.根据权利要求1的方法,其特征在于,为了检索被索引的文档,其包括下列操作步骤由用户从一个或几个上述主题词表(3)中引入一个或几个搜索词;选择其索引包括这些搜索词中一个或几个搜索词的文档(1);由用户从所述关系寄存器(4)中引入一个或几个关系;从上述已经被选择的文档(1)中选择其索引(2)包括上述关系的文档(1);并且将最后选择的文档(1)作为结果显示。
7.根据权利要求1的方法,其特征在于,为了检索被索引的文档,其包括下列操作步骤由用户从一个或几个上述关系寄存器(4)中引入一个或几个关系;选择其索引包括这些关系中一个或几个关系的文档(1);由用户从所述主题词表(3)中引入一个或几个搜索词;从上述已经被选择的文档(1)中选择其索引(2)包括上述搜索词的文档(1);并且将最后选择的文档(1)作为结果显示。
8.根据权利要求5的方法,其特征在于,为了检索被索引的文档,其包括引入上述本体主题词表(7)中的一个或几个搜索词;选择其索引(2)分别包含上述搜索词的文档(1);并且显示所选择的这些文档(1)。
9.根据权利要求6、7或8的方法,其特征在于,在两个阶段中显示所发现的文档(1),其中在第一阶段中,给出所发现的不同文档(1)的概况,根据它们的相关性排列,以及在第二阶段中,在选择之后,可以表示各个文档(1)。
10.根据权利要求9的方法,其特征在于,在上述显示所发现的文档(1)的第一阶段和/或第二阶段中,使用指示在不同的文档(1)中出现哪些核心概念的颜色码,并且所述颜色码使得能够显示所述文档(1)的索引(2)中核心概念的隐含程度。
11.根据权利要求1的方法,其特征在于,为了索引和检索所述文档(1),使用计算机程序(5,8)。
12.一种用于索引和检索文档的计算机程序,其特征在于,其能够应用上述根据权利要求1至11其中一个或几个的方法。
13.一种数据载体,其特征在于,其具有根据权利要求12的计算机程序(5,8)。
全文摘要
一种用于索引和检索文档的方法,其特征在于,为了索引文档(1),其包括下列操作步骤的组合通过一个或几个特定于域的主题词表标识该文档(1)中的核心概念;通过一个或几个关系寄存器(4)标识核心概念(1)之间的关系;以及根据所标识的核心概念以及关系索引该文档(1)。
文档编号G06F17/30GK1710561SQ20051007891
公开日2005年12月21日 申请日期2005年6月16日 优先权日2004年6月17日
发明者迈克·凡代姆 申请人:瓦尔特克有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1