搜索文档的文档处理装置及其控制方法

文档序号:6641703阅读:166来源:国知局
专利名称:搜索文档的文档处理装置及其控制方法
技术领域
本发明涉及一种搜索文档的文档处理装置、其控制方法、执行该方法的程序、以及存储该程序的存储介质,尤其涉及一种基于多个搜索方法搜索文档的文档处理装置、其控制方法、执行该方法的程序、以及存储该程序的存储介质。
背景技术
作为用于搜索所期望的文档(文档数据)的基本搜索方法,传统上已知的有基于关键词的搜索,其基于给定的一个关键词或多个关键词(搜索查询)是否包含在文档中进行搜索。然而,通过基于关键词的搜索,难以迅速找到所期望的文档。因此,已发明了各种其它的搜索方法和搜索引擎。
所发明的用于搜索所期望的文档的搜索引擎包括使用关键词之间的关系或语法信息的相似度的搜索引擎;以及使用表现文档内容特征的文档矢量的搜索引擎。作为使用文档矢量的搜索引擎,已提出了一种搜索引擎,其根据与通过文档内容的含义、领域或单词分类的各维度(分类)相对应的特征量,采用矢量表示方法,以通过使用各文档间的矢量的内积(标量积)来判定文档之间的相似度,并基于该相似度找到所期望的文档。此外,已提出一种文档搜索装置,其具有使用安装在其中的各种搜索方法的多个搜索引擎,通过切换多个搜索引擎进行搜索,并/或基于多个搜索引擎的搜索结果进行全面的搜索。
此外,已提出一种搜索方法,其将给定的关键词分成每个具有n个字符的部分字符串,并搜索包括所有部分字符串的文档,从而缩窄搜索的范围(参见日本特开平05-174064)。
另外,已提出了一种技术,其对来自有布局信息的文档的每对文本块,将第一文本块的最后一个句子和可能是第一文本块最后一个句子的延续部分的第二文本块的头一个(第一个)句子合并为合并的字符串,对所合并的字符串进行词素(morphological)分析,评价所合并的字符串的自然性,从而以判定文本块最自然的连接顺序,并根据所判定的顺序重新排列文本块(参见日本特开平11-015826)。
然而,根据以上提出的基于多个搜索方法进行文档搜索的文档搜索装置,尽管可被高效和准确地找到的文档(文档内容、文档种类等)根据各搜索引擎或搜索方法而变化,但无论使用哪种搜索引擎或方法进行搜索,都是基于将整个文档作为搜索的单个对象来创建搜索索引。
因此,当搜索对象为包含多个主题的文档时,通过从作为搜索的单个对象的整个文档所创建的索引,传统的基于文档矢量的搜索引擎不能准确地找到该对象。此外,传统的基于关键词、基于关键词关系和基于语法信息的搜索引擎都不能快速找到包含大量信息的文档。

发明内容
因此,本发明的目的在于提供一种能够快速和准确地找到搜索的对象的文档处理装置及其控制方法,以及执行该方法的程序,和存储该程序的存储介质。
为达到以上目的,在本发明的第一方面,提供一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括分割单元,其根据多个搜索方法中的每个搜索方法将目标文档分割成多个块;以及创建单元,其根据每一搜索方法,基于包括在由所述分割单元获得的每一块中的字符串,来创建目标文档的索引。
通过以上装置,在使用多个搜索方法进行文档搜索的环境下,可快速和准确地进行文档搜索。
优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,所述分割单元根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,所述分割单元根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,所述分割单元根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
为达到以上目的,在本发明的第二方面,提供一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括分割单元,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建单元,其基于包括在由所述分割单元获得的每一块中的字符串,来创建用于搜索的查询。
通过以上装置,在使用多个搜索方法进行文档搜索的环境下,可快速和准确地进行文档搜索。
优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,所述分割单元根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,所述分割单元根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,所述分割单元根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
为达到以上目的,在本发明的第三方面,提供一种文档处理装置的控制方法,用于根据多个搜索方法搜索文档,该控制方法包括分割步骤,其根据多个搜索方法中的每个搜索方法,将目标文档分割成多个块;以及创建步骤,其根据每一搜索方法,基于包括在由所述分割步骤获得的每一块中的字符串,来创建目标文档的索引。
优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,在所述分割步骤中,根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,在所述分割步骤中,根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,在所述分割步骤中,根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
为达到以上目的,在本发明的第四方面,提供一种文档处理装置的控制方法,用于根据多个搜索方法搜索文档,该控制方法包括分割步骤,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建步骤,其基于包括在由所述分割步骤获得的每一块中的字符串,来创建用于搜索的查询。
优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,在所述分割步骤中,根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,在所述分割步骤中,根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,在所述分割步骤中,根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
为达到以上目的,在本发明的第五方面,提供一种程序,用来使计算机执行根据多个搜索方法搜索文档的文档处理装置的控制方法,该程序包括分割模块,其根据多个搜索方法中的每个搜索方法,将目标文档分割成多个块;以及创建模块,其根据每一搜索方法,基于包括在由所述分割模块获得的每一块中的字符串,来创建目标文档的索引。
为达到以上目的,在本发明的第六方面,提供一种程序,用来使计算机执行根据多个搜索方法搜索文档的文档处理装置的控制方法,该程序包括分割模块,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建模块,其基于包括在由所述分割模块获得的每一块中的字符串,来创建用于搜索的查询。
为达到以上目的,在本发明的第七方面,提供一种存储根据本发明的第五方面的程序的计算机可读取的存储介质。
为达到以上目的,在本发明的第八方面,提供一种存储根据本发明的第六方面的程序的计算机可读取的存储介质。
通过以下结合附图对实施例的详细说明,本发明的上述和其它目的、特征和优点是显而易见的。


图1是示出根据本发明的第一实施例的作为文档处理装置的文档搜索装置的配置的示意框图;图2是示出应用了图1中的文档搜索装置的通信网络的配置的第一个例子(例如LAN)的图;图3是示出应用了图1中的文档搜索装置的通信网络的配置的第二个例子(因特网)的图;图4是示出图2中由通信网络执行的文档搜索处理的流程图;图5是示出图2中由通信网络执行的建立索引处理的流程图;图6是示出图4中的步骤S403和图5中的步骤S504执行的文本块优化处理的流程图;图7是示出响应于图4中的步骤S404的搜索命令而执行的作为搜索处理(基于相似性的搜索处理)的第一个例子的短语搜索处理的流程图;图8A~8E是用来说明图6的文本块优化处理的具体例子的图;图9是示出响应于图5中的步骤S505的建立索引处理而执行的索引登记处理的流程图;图10是示出响应于图4中的步骤S404的搜索命令而执行的作为搜索处理(基于相似性的搜索处理)的第二个例子的概念搜索处理的流程图;图11是示出在图4的步骤S405显示的搜索结果的例子的视图;图12A是示出在图7的短语搜索处理中从其中获取查询词的文本块的例子的图;图12B和12C是示出在图7的短语搜索处理中目标文档的数据的例子的图;图13是用来说明在图9的索引登记处理中所使用的基本矢量字典的图;图14是用来说明在图9的索引登记处理中所使用的索引表的例子的图;图15是示出根据本发明的第二实施例由文档处理装置执行的文档搜索处理的流程图;以及图16是示出根据本发明的第三实施例由文档处理装置执行的文档搜索处理的流程图。
具体实施例方式
现在,将参考示出本发明优选实施例的附图来详细说明本发明。
图1是示出根据本发明的第一实施例的作为文档处理装置的文档搜索装置的配置的示意框图。
本文档搜索装置是通过计算机例如个人计算机来实现的,并具有使用安装在其中的各种搜索方法的多个搜索引擎。如图1所示,该文档搜索装置包括中央处理器1、存储装置2、输入装置3、显示装置4、存储介质读取装置5、以及图像读取装置6。通过这些装置,该文档处理装置执行索引功能,用来创建将作为搜索对象的文档数据(包括图像数据)的索引;以及文档搜索功能,用来通过使用所创建的索引来执行文档搜索处理。
中央处理器1由CPU(中央处理单元)、MPU(微处理单元)等来实现。通过执行存储在存储装置2中的程序,中央处理器1根据本实施例执行各种处理,包括建立索引处理和文档搜索处理。存储装置2由硬盘等来实现,并存储数据库,其中包括待搜索的文档数据(目标文档数据)、带注解的图像数据、程序、字典(包括基本矢量字典)等。输入装置3包括键盘、鼠标等,用来输入各种数据和命令。显示装置4由液晶显示器等来实现,并显示搜索结果等。存储介质读取装置5读取存储在存储介质例如软盘(floppy,注册商标)、CD-ROM、ROM和磁带中的程序(包括对应于下述流程图的控制程序,以及对应于多个搜索引擎的程序)和数据,并将读取的程序和数据存储在存储装置2中。图像读取装置6由扫描仪等来实现,并光学读取或扫描在原稿等上形成的图像,并将读取的图像转换成电子图像数据。此外,图像读取装置6具有OCR(optical character reader,光学字符阅读器)功能,用来识别图像数据中的字符串(文本),以将其转换为字符代码。
图1所示的文档搜索装置不仅适用于单机型,而且适用于在网络N例如局域网(LAN)中的服务器装置100和200,以及客户装置101、102、201和202,如图2所示。该文档搜索装置还适用于连接到因特网300的终端400和服务器装置(未示出),如图3所示。
参考图2,每一服务器装置100和200具有在其中提供的文档数据库,并将从数据库中找到的文档数据提供给客户装置101、102、201和202。任一服务器装置100和200以及客户装置101、102、201和202可具有文档搜索功能,以用作文档搜索装置。在本实施例中,假设用来选择搜索方法(搜索引擎)的处理是通过客户装置101、102、201和202来执行的。在本实施例中,下述图4的文档搜索处理是通过客户装置101、102、201和202来执行的,并且图4中的步骤S404所指示的搜索是通过服务器装置100和200来执行的,即,服务器装置100和200用作搜索引擎。下述图5的建立索引处理是通过客户装置101、102、201和202来执行的,服务器装置100和200执行在图5的步骤S505中所创建的索引的登记。
现在参考图4的流程图来说明在图2的通信网络中执行的文档搜索处理的概况。图4的文档搜索处理是通过图2中的任一客户装置101、102、201和202来执行的。
文档搜索处理包括图像获取处理,用来获取文档图像数据(步骤S401);分析处理,用来分析获取的文档图像数据(步骤S402);文本块优化处理(步骤S403);搜索指示处理,用来发出搜索命令(步骤S404);以及搜索结果显示处理,用来显示搜索结果(步骤S405)。
在图像获取处理(步骤S401)中,通过图像读取装置6例如扫描仪扫描文档图像来获取文档图像数据。在分析处理(步骤S402)中,将在步骤S401所获取的文档图像数据分割成图片图像块和文本块(字符串块)。为了通过分割获取文本块,使用OCR功能以识别文档图像数据的字符串。
在执行步骤S403前,用户提前从下述使用各种搜索方法的多个搜索引擎中选择或指定期望的搜索引擎(搜索方法)。在文本块优化处理(步骤S403)中,通过根据提前指定的搜索引擎的特征合并(联结)文本块、或者通过根据搜索引擎的特征分离(分割)文本块,来优化在步骤S402获取的文本块。在搜索指示处理(步骤S404)中,通过客户装置来指示作为所期望的搜索引擎的服务器装置100和200,以使用在步骤S403获取的文本块作为其文档数据库的询问(查询)的词,来执行文档搜索。在搜索结果显示处理(步骤S405)中,客户装置从服务器装置接收作为搜索结果的文档列表,并如图11所示,在显示装置4上按照与查询匹配程度(相似度)的顺序将文档显示在列表中(或将接收到的列表存储在存储装置2中)。
现在参考图5的流程图来说明图2中的通信网络执行的建立索引处理的概况。通过任一客户装置101、102、201和202来执行建立索引处理,以产生用于文档搜索的索引。
建立索引处理包括文档图像数据获取处理,用来获取文档图像数据(步骤S501);分析处理,用来分析所获取的文档图像数据(步骤S502);索引完成判定处理,用来判定关于所有搜索引擎的建立索引处理是否完成(步骤S503);文本块优化处理,用来根据每一搜索引擎来优化文本块(步骤S504);以及建立索引处理,用来根据每一搜索引擎来执行建立索引(步骤S505)。
在文档图像获取处理(步骤S501)中,通过图像读取装置6例如扫描仪扫描文档图像数据来获取文档图像。在分析处理(步骤S502)中,在步骤S501中获取的文档图像被分割成图片图像块和文本块。为了通过分割获取文本块,使用ORC功能以识别文档图像数据的字符串。
在索引完成判定处理(步骤S503)中,判定关于安装在文档搜索装置中的所有搜索引擎是否完成建立索引处理。在文本块优化处理(步骤S504)中,通过根据每一搜索引擎或方法的特征合并或结合文本块、或者通过根据每一搜索引擎或方法的特征分离(分割)文本块,来优化在步骤S502获取的文本块。在建立索引处理(步骤S505)中,从优化的文本块来创建索引(索引文件或索引表),并且客户装置将所创建的索引发送给服务器装置100和200。在接收到所创建的索引时,每一服务器装置100和200将接收到的索引同文档图像数据一起存储在存储装置2中。
接下来,参考图6中的流程图和图8A~8E所示的示意图来详细说明在图4的步骤S403和图5的步骤S504中所执行的文本块优化处理。在本实施例中,基于通过文本块优化处理根据每一搜索方法而优化的文本块,创建适当的查询和索引。
在文本块优化处理中,如图6所示,首先,中央处理器1获取图片块和文本块(步骤S601),作为图4的步骤S402中和图5的步骤S502中分析文档图像数据的分析处理的执行结果(分析结果)。例如,在分析图8A所示的文档图像数据的情况下,获得图片块,即被框包围的图片;和文本块,即每一被框包围的文本块,“text1”、“text1-1”、“text1-2”、“text2”、“text2-1”、“text2-2”、以及“text3、text3-1、text3-2”,如图8B所示。接着,中央处理器1判定关于在图8B中所获得的所有文本块的文本块优化是否完成(步骤S602)。通过块合并或者块分离,对获得的文本块依次进行优化。每次优化文本块后,在步骤S602判定对在步骤S601中所获得的所有文本块的优化处理是否完成。
如果优化处理没有完成,则中央处理器1根据当前指定的搜索引擎的特征判定是否对还未被优化的感兴趣的文本块进行分离(步骤S603)。例如,如果通过由短语或单词进行搜索的搜索引擎来执行文档搜索(关键字关系搜索引擎,其基于所分割的单词,例如,“market”、“size”、“of”、“mobile”、“devices”、“and”、“related”以及“devices”)之间的关系,搜索与关键词具有高相似度的文档,例如,“market size of mobile devices andrelated devices”),则当在逐句基础上创建索引时,将获得更高效的搜索。因此,中央处理器1判定如果文本块包含多于一个句子,则感兴趣的文本块应该被进一步分离(步骤S603)。然后,将文本块分离成每个形成一个句子的文本块(步骤S604)。假设在图8B的例子中,每一文本块“text1”、“text1-1”、“text1-2”、“text2”、“text2-1”、“text2-2”、以及“text3”、“text3-1”和“text3-2”都形成单个句子,则文本块“text3、text3-1、text3-2”形成三个句子。因此,在步骤S604,文本块“text3、text3-1、text3-2”被分离成三个文本块“text3”、“text3-1”和“text3-2”,每一个都形成一个句子,如图8C所示。
如果中央处理器1判定感兴趣的文本块无需分割,则根据当前指定的搜索引擎的特征,判定是否将感兴趣的文本块与下一文本块(还未被优化)合并(步骤S605)。例如,如果指定的搜索引擎是基于概念矢量的搜索引擎,其基于用来评价表示单词概念的多维语义(multidimensional semantic)属性的概念矢量来执行搜索,则当单个文本块包含在含义或主题上(概念矢量)相似的单词时,即使文本块中不包含与关键词相同的单词,也将获得更高效和准确的搜索。因此,如果感兴趣的文本块和下一文本块具有相同的或相似的含义或主题,则为了更高效地搜索,应将它们合并成单个文本块。因此,如果段落(文本部分)可能具有共同的主题,则因此判定感兴趣的文本块应当与下一文本块合并,以形成大于一个句子的段落(步骤S605)。然后,将它们合并为单个文本块(步骤S606)。
假设在图8B的例子中,文本块“text1”、“text1-1”和“text1-2”具有共同的主题(概念矢量),并且同样文本块“text2”、“text2-1”和“text2-2”具有共同的主题,则将文本块“text1”、“text1-1”和“text1-2”合并在一起,并且同样将文本块“text2”、“text2-1”和“text2-2”合并在一起,如图8E所示。
参考图7和12如后面所述,当接收到基于例如“移动装置和相关装置的市场规模”查询的搜索的搜索请求时,基于概念矢量的搜索引擎基于关键词“市场”、“移动”和“装置”来创建概念矢量,并判定每一所创建的概念矢量和目标文档的概念矢量之间的相似度。结果,搜索引擎找到在整体上内容相似的文档,而不管该文档是否包含与查询相关的关键词。
类似地,如图8D所示,在仅基于文档中的单词的出现/未出现来判定文档之间的相似度的基于矢量的搜索引擎的情况下,文档图像数据被分割成比关键字关系搜索引擎或基于概念矢量的搜索引擎的文本块单位大的文本块。然后,例如,通过将整个文档图像数据用作单个文本块来判定相似度。
参考图7和12来说明响应于图4中的步骤S404的搜索命令而执行的作为搜索处理(基于相似性的搜索处理)的第一个例子的短语搜索处理。通过服务器装置100和200中、在步骤S404接收到搜索命令的一个服务器装置来执行该短语搜索处理。
如图7所示,该短语搜索处理包括查询词获取处理(步骤S701);关系获取处理,用来获取所获取的查询词之间的关系(步骤S702);以及相似度计算处理(步骤S703)。
在查询词获取处理(步骤S701)中,对图4的步骤S403中所优化的文本块的文档数据(字符串)执行词素分析,而后基于分析结果获取查询词。
例如,在图4的步骤S403中优化的文本块的文档数据包含字符串“perform printing of an image”。然后,在步骤S701,执行对字符串“perform printing of an image”的词素分析,从而获取三个查询词和短语“perform”、“printing of”和“an image”。
在关系获取处理(步骤S702)中,获取在步骤S701所获取的查询词的语法信息。对于上例中获取的查询词和短语“perform”、“printing of”和“an image”,获取表示“printing of”是被“animage”所修饰的语法信息。
在相似度计算处理(步骤S703)中,将在步骤S701和步骤S702获取的单词和短语之间的关系(搜索条件)与文档数据库中登记的每一目标文档中的单词和短语之间的关系进行比较,然后计算它们之间的相似度。
例如,在图12B的文档中字符串“perform quick printing ofan image”包括单词和短语“perform”、“quick”、“printing of”和“an image”,并示出“printing of”被“an image”修饰,以及“printing of”被“quick”修饰。因为“printing of”被“animage”修饰,因而查询(图12A)与图12B中的文档彼此相似。
因此,假设当两个字符串包含完全相同的短语时相似度被设置为1(基准相似度),当任一字符串缺少一个单词或短语时基准相似度下降0.7;当词间间距不同时,基准相似度对每个单词下降0.1;以及当被不同的单词修饰时基准相似度下降0.5。当与图12A中的查询相比较时,图12B中的文档包含相同的短语,因此相似度不下降,并因此等于1,但是,具有一个单词和一个短语的不同的词间(即“perform”到“printing”)间距,于是相似度下降0.2,即,相似度等于0.8(=1-0.2)。类似地,图12C所示包含字符串“readan image.perform printing of a document”的文档具有不匹配的修饰关系,即,“printing”被“a document”而不是被图12A中的“an image”所修饰,因此,给出的相似度等于0.5(=1-0.5),而没有应用由于单词或短语的缺少的下降。
因此,由于图12B中的文档具有高于图12C中的文档的相似度,在图4的步骤S405中,图12B中的文档被显示在显示装置2上,或被显示在类似于图11中所示的搜索结果的列表中比图12C中的文档更靠近顶部的位置上。
参考图10的流程图来说明响应于图4中的步骤S404的搜索命令而执行的作为搜索处理(基于相似性的搜索处理)的第二个例子的概念搜索处理。通过服务器装置100和200中的、在步骤S404接收到搜索命令的一个服务器装置来执行该概念搜索处理。
如图10所示,该概念搜索处理包括查询获取处理(步骤S1001);查询矢量创建处理(步骤S1002);以及相似度计算处理(步骤1003)。
在查询获取处理(步骤S1001)中,对图4的步骤S403中所优化的文本块的字符串执行词素分析,而后基于分析结果获取查询词。
在查询矢量创建处理(步骤S1002)中,创建表示在步骤S1001中获取的查询词的特征矢量的查询矢量。在相似度计算处理(步骤S1003)中,将步骤S1002中所创建的查询矢量与存储在存储装置2中的每一文档的文档矢量进行比较,以计算它们之间的相似度,并将那些具有相对较高的相似度的文档作为搜索结果显示在列表中。
现在参考图9、13和14来说明响应于图5的步骤S505中的建立索引处理而执行的索引登记处理。通过服务器装置100和200中的、接收到在图5的步骤S505中所创建的索引的一个服务器装置来执行索引登记处理。
如图9所示,该索引登记处理包括语言分析结果获取处理(步骤S901);文档矢量创建处理(步骤S902);以及索引登记执行处理(步骤S903)。
当在存储装置2中登记文档(文档数据)时,执行语言分析结果获取处理(步骤S901),以获取包括在用来登记的文档中的单词。接着,执行文档矢量创建处理(步骤S902),通过下述图13中的基本矢量字典来搜索在步骤S901中获取的单词,以获得各单词的各维度的特征量,并从各单词的特征量的总和创建文档矢量。然后,执行索引登记执行处理(步骤S903),以在存储装置2中将在步骤S902中创建的文档矢量与其相应的文档(文档数据)或文档标识符相关联登记。
图13是用来说明基本矢量字典的图。如图13所示,对于每一单词,基本矢量字典将以矢量表示方法表达的单词的各维度(Dim.)的特征量存储在其中。维度是基于根据单词的原始含义分类的标准,和/或基于根据单词的正确含义或使用单词的领域的分类来获取的。在图13的例子中,最上一行的单词的维度“Dim.01”的特征量为“0”、维度“Dim.02”的特征量为“23”等等,而在最上第二行的单词的维度“Dim.01”的特征量为“34”、维度“Dim.02”的特征量为“0”等等。这样,可从基本矢量字典中找到单词的各维度的特征量。单词的维度的特征量可被认为是对包含该单词的文档具有多少类(即维度)特征的测量。基于与所有维度(类)相关的文档的所有组成单词的特征量,将整个文档的特征量用矢量来表示。
然后,在索引登记执行处理(步骤S903)中,矢量通过模=1标准化为文档矢量,然后将其作为索引存储在图14所示的索引表中。如图14所示,与“文档ID=6947”相对应的文档的文档矢量的维度“Dim.01”的特征量为“0.183”、维度“Dim.02”的特征量为“0.214”等等,与“文档ID=6948”相对应的文档的文档矢量的维度“Dim.01”的特征量为“0.035”、维度“Dim.02”的特征量为“0.025”等等。
如上所述,根据第一实施例,包含字符串的目标文档根据多个搜索方法中的每一个被分割成多个文本块。基于每一所分割的文本块的字符串,创建对应于多个搜索方法中的每一个的目标文档的索引。此外,根据多个搜索方法中的每一个,将从其中创建搜索查询的字符串分割成多个块(查询词)。基于每一所分割的块的字符串,创建搜索查询。结果,当使用多个搜索方法进行文档搜索时,可快速和准确地执行文档搜索。
图15是示出根据本发明的第二实施例的文档搜索处理的流程图。文档搜索处理通过任一客户装置101、102、201和202来执行。
如图15所示,文档搜索处理包括文档图像数据获取处理,用来获取文档图像数据(步骤S1501);文档图像数据分析处理,用来分析所获取的文档图像数据(步骤S1502);用于第一搜索引擎的文本块优化处理(步骤S1503);第一搜索命令发出处理(步骤S1504);用于第二搜索引擎的文本块优化处理(步骤S1505);第二搜索命令发出处理(步骤S1506);以及搜索结果显示处理,用来显示搜索结果(步骤S1507)。
在文档图像数据获取处理(步骤S1501)中,例如,通过图像读取装置6如扫描仪扫描文档来获取文档图像数据。在文档图像数据分析处理(步骤S1502)中,将在步骤S1501中获取的文档图像分割成图片图像块和文本块。在用于第一搜索引擎的文本块优化处理(步骤S1503)中,通过根据第一搜索引擎的特征合并(联结)文本块、或者通过根据第一搜索引擎的特征分离(分割)文本块,来优化在步骤S1502获取的文本块。在第一搜索命令发出处理步骤S1504中,将第一搜索命令从客户装置发送到图2中的作为第一搜索引擎的服务器装置,以通过使用在步骤S1503中获得的作为查询的文本块,来执行文档搜索。在用于第二搜索引擎的文本块优化处理(步骤S1505)中,通过根据第二搜索引擎的特征合并(联结)文本块、或者通过根据第二搜索引擎的特征分离(分割)文本块,来优化在步骤S1502获取的文本块。在第二搜索命令发出处理步骤S1506中,将第二搜索命令从客户装置发送到图2中的作为第二搜索引擎的服务器装置,以通过使用在步骤S1505中获得的作为查询的文本块,来执行文档搜索或缩小范围搜索(refine search)。在搜索结果显示处理(步骤S1507)中,通过响应于步骤S1504和S1506中的搜索命令而获得的搜索结果,如图11所示,将作为搜索结果的文档以列表的形式按照匹配程度(相似度)的顺序显示在显示装置4上,或者将该列表存储在存储装置2中。
如上所述,根据第二实施例,根据两个搜索引擎的每一个对文本块进行优化,并且使两个搜索引擎相互协作,以通过这些被优化的作为查询的文本块执行文档搜索。因此,与第一实施例中提前指定单个搜索引擎,然后使该指定的搜索引擎执行文档搜索相比,可执行更准确的文档搜索。可选地,可使用三个或更多的搜索引擎以上述方式协作来执行文档搜索。
图16是示出根据本发明的第三实施例的文档搜索处理的流程图。通过任一客户装置101、102、201和202来执行该文档搜索处理。
如图16所示,文档搜索处理包括文档图像数据获取处理,用来获取文档图像数据(步骤S1601);文档图像数据分析处理,用来分析所获取的文档图像数据(步骤S1602);选择处理(步骤S1603),用来从第一和第二搜索引擎(搜索引擎)中选择搜索方法(搜索引擎);用于所选择的第一搜索引擎的文本块优化处理(步骤S1604);用于所选择的第二搜索引擎的文本块优化处理(步骤S1606);第一命令发出处理(步骤S1605);第二命令发出处理(步骤S1607);以及搜索结果显示处理,用来显示响应于第一或第二搜索命令而执行的搜索的搜索结果(步骤1608)。
在文档图像数据获取处理(步骤S1601)中,例如,通过图像读取装置6如扫描仪扫描文档图像来获取文档图像数据。在文档图像数据分析处理(步骤S1602)中,将在步骤S1601中所获取的文档图像分割成图片图像块和文本块。
在选择处理(步骤S1603)中,基于在步骤S1602中获取的文本块的特征,自动选择根据第一搜索引擎的搜索方法和根据第二搜索引擎的搜索方法中的任一个。在用于第一搜索引擎的文本块优化处理(步骤S1604)中,当选择根据第一搜索引擎的搜索方法时,通过根据第一搜索引擎的特征合并文本块、或者通过根据第一搜索引擎的特征分离(分割)文本块,来优化步骤S1602中获取的文本块。在第一搜索命令发出步骤S1605中,将第一搜索命令从客户装置发送到图2中的作为第一搜索引擎的服务器装置,以通过使用在步骤S1604中获得的作为查询的文本块,来执行文档搜索。在用于第二搜索引擎的文本块优化处理(步骤S1606)中,当选择根据第二搜索引擎的搜索方法时,通过根据第二搜索引擎的特征合并文本块、或者通过根据第二搜索引擎的特征分离文本块,来优化在步骤S1602获取的文本块。在第二搜索命令发出步骤S1607中,将第二搜索命令从客户装置发送到图2中的作为第二搜索引擎的服务器装置,以通过使用在步骤S1606中获得的作为查询的文本块,来执行文档搜索。
如上所述,根据第三实施例,基于通过文档图像数据的分析所获得的文本块的特征,来自动选择搜索方法或引擎。然后,根据所选择的搜索引擎的特征,通过合并或分离来优化文本块。此外,使所选择的搜索引擎通过作为搜索查询的优化后的文本块来执行文档搜索。因此,用户无需为从其中创建搜索查询的文档的内容指定选择合适的搜索引擎,由此增强了用户友好性。第三实施例还可适用于安装有三个或更多的搜索引擎的情况。
本发明不局限于上述实施例。本发明既适用于由多个装置组成的系统,也适用于单个装置。
应该理解,本发明的目的也可通过将存储有实现任一上述实施例的功能的软件的程序代码的存储介质提供给系统或装置、并使该系统或装置的计算机(或CPU或MPU)读取并执行存储在存储介质中的程序代码来实现。
在这种情况下,从存储介质中读取的程序代码本身实现任一上述实施例的功能,因此,程序代码和存储有程序代码的存储介质构成本发明的一部分。
用于提供程序代码的存储介质的例子包括软盘(floppy,注册商标)、硬盘、磁光盘、CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW、磁带、非易失性存储卡、以及ROM。程序代码也可通过网络下载。
此外,应该理解,任一上述实施例的功能不仅可以通过执行由计算机读取的程序代码来实现,而且还可以通过使计算机上运行的OS(操作系统)等基于程序代码的指令执行部分或全部实际操作来实现。
此外,应该理解,任一上述实施例的功能可通过将从存储介质中读取的程序代码写入插入到计算机的扩展板所提供的存储器,或者写入连接到计算机的扩展单元所提供的存储器,然后使扩展板或扩展单元所提供的CPU等基于程序代码的指令执行全部或部分实际操作来实现。
权利要求
1.一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括分割单元,其根据多个搜索方法中的每个搜索方法将目标文档分割成多个块;以及创建单元,其根据每一搜索方法,基于包括在由所述分割单元获得的每一块中的字符串,来创建目标文档的索引。
2.根据权利要求1所述的文档处理装置,其特征在于该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,所述分割单元根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
3.根据权利要求2所述的文档处理装置,其特征在于该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,所述分割单元根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
4.根据权利要求3所述的文档处理装置,其特征在于该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,所述分割单元根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
5.一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括分割单元,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建单元,其基于包括在由所述分割单元获得的每一块中的字符串,来创建用于搜索的查询。
6.根据权利要求5所述的文档处理装置,其特征在于该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,所述分割单元根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
7.根据权利要求6所述的文档处理装置,其特征在于该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,所述分割单元根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
8.根据权利要求7所述的文档处理装置,其特征在于该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,所述分割单元根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
9.一种文档处理装置的控制方法,用于根据多个搜索方法搜索文档,该控制方法包括分割步骤,其根据多个搜索方法中的每个搜索方法,将目标文档分割成多个块;以及创建步骤,其根据每一搜索方法,基于包括在由所述分割步骤获得的每一块中的字符串,来创建目标文档的索引。
10.根据权利要求9所述的文档处理装置的控制方法,其特征在于该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,在所述分割步骤中,根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
11.根据权利要求10所述的文档处理装置的控制方法,其特征在于该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,在所述分割步骤中,根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
12.根据权利要求11所述的文档处理装置的控制方法,其特征在于该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,在所述分割步骤中,根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
13.一种文档处理装置的控制方法,用于根据多个搜索方法搜索文档,该控制方法包括分割步骤,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建步骤,其基于包括在由所述分割步骤获得的每一块中的字符串,来创建用于搜索的查询。
14.根据权利要求13所述的文档处理装置的控制方法,其特征在于该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,在所述分割步骤中,根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。
15.根据权利要求14所述的文档处理装置的控制方法,其特征在于该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,在所述分割步骤中,根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。
16.根据权利要求15所述的文档处理装置的控制方法,其特征在于该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,在所述分割步骤中,根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。
全文摘要
一种搜索文档的文档处理装置及其控制方法,能够快速和准确地找到待搜索的对象。根据多个搜索引擎的每一个,将目标文档分割成多个文本块。根据每一搜索引擎,基于包括在每一文本块中的字符串,来创建目标文档的索引。
文档编号G06F17/21GK1744087SQ20051009857
公开日2006年3月8日 申请日期2005年9月2日 优先权日2004年9月2日
发明者工藤朋纪 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1