文件检索装置的制作方法

文档序号:6410974阅读:160来源:国知局
专利名称:文件检索装置的制作方法
技术领域
本发明涉及一种文件检索装置,该装置把记载于文件等上的信息作为计算机的数据取入到计算机中,并且利用计算机的功能,整理及灵活应用这些信息。
背景技术
由于近年来计算机技术的发展,正在进行把记载于文件等上的信息作为计算机的数据取入到计算机中,使文件等的保管场所减少,同时谋求信息的有效活用这种技术的开发。
作为上述技术开发的结果,已经提出了内部装有图象扫描器,把记载于文件等上的信息作为图象数据进行输入并存储的文件检索装置。这种以往的文件检索装置用图象扫描器扫描文件,把由1次扫描得到的图象数据作为1个图象数据,使用者输入对于每个图象数据或每个预定数的图象数据群的检索用关键词,把各图象数据和检索用关键词一起存储。
若依据这种以往的文件检索装置,则在检索预定文件的图象数据时,使用者输入想检索的关键词,通过用文件检索装置中具备的检索装置检索具有与想检索的关键词相同或部分相同的检索用关键词的图象数据,寻找出所希望的图象数据。
所谓检索部分地相同的检索用关键词,指的是例如在图象数据存储时输入的“××公司”检索用关键词能够用部分地相同的“××”的关键词检索的情况。
另外,还提出了许多与此关连的相似的检索关键词的技术方案。例如,提出了这样的技术方案,在输入“ABC公司”的关键词时,考虑了“AyBeeCee公司”、“公司ABC”、“(株)ABC”等一般的表现方法的相似检索的用关键词也可以检索的技术方案。
此外,作为上述文件检索装置的改良装置,以压缩存储的数据量为目的,还提出了内部装有文字识别装置的文件检索装置。
这种内部装有文字识别装置的文件检索装置在取入记载于文件等上的信息时,自动识别书面的文章部分和照片、图面等部分,对于文章部分用文字识别装置变换为文字数据,照片、图面等部分作为图象数据取入,通过把文章部分变换为文字数据,可用小的存储容量存放文件等信息。在该文件检索装置中,存放图象数据和文字数据时,也输入将来对其进行检索时的检索用关键词。
然而,上述以往的文件检索装置在存放图象数据之际,必须输入检索用关键词,而由于该检索用关键词的输入作业花费人力和时间,故成为快速信息存储的障碍。
还有,虽然说能够进行部分相同的关键词和表面上相似的关键词的检索,但使用者要考虑将来检索时关键词的可能性,必须输入最相称于各图象数据的检索用关键词,故存放信息时使用者的负担很大。还有,依据关键词设定的巧与拙,使得检索容易或困难。
另外,除去上述关键词设定的巧拙问题之外,在以往的文件检索装置中,不能够适应想用未设想过的关键词进行检索的要求。因而,难于谋求已存放信息的灵活运用。
另一方面,变换为上述一部分文字数据并存放的以往的文件检索装置在取入信息时,必须由使用者确认或修正由文字识别装置进行的变换结果。为了该文字识别的确认及修正,在存放信息时就花费了时间和劳力。另外,在万一原样存放了错误的文字识别的信息时,就有失去原信息的危险性。
从以上种种问题出发,以往的文件检索装置中存在着信息的存放不容易以及不能够可靠而且迅速地找出所希望的信息这样的课题。
于是,本发明的目的在于提供容易存放记载于书籍上的信息而且检索容易、可靠的文件检索装置。发明的公开为了达到上述目的,本发明的文件检索装置的特征在于具有把文字、符号及图形作为图象数据输入的图象输入装置;把由上述图象输入装置读入的图象数据按图象数据原样存储的存储装置;以在1页上显示1个图象数据的文件形式显示上述图象数据的显示装置;把由上述显示装置显示的图象数据的预定部分作为范围指定的范围指定装置;把由上述范围指定装置指定的范围内的象素的排列变换为文字数据的文字识别装置;把由上述文字识别装置变换了的文字数据作为文字数据进行编辑的编辑装置。
还有,本发明的文件检索装置的特征还在于具备检索装置,该检索装置具有生成与所定文字串相似的文字串的相似文字串生成单元,使用者输入要检索的文字串,把被输入的文字串和对于该被输入的文字串由上述相似文字串生成单元生成的相似文字串作为检索对象,从由上述范围指定装置和文字识别装置进行的范围指定以及进行了文字变换的文字数据,检索上述检索对象的文字串。
还有,本发明的文件检索装置的特征还在于,上述相似文字串生成单元对与预定的文字串相似的文字串根据相似的概率加注次序;上述检索装置把上述由使用者输入的文字串作为第一候选,把由上述相似文字串生成单元生成的相似文字串作为添加了次序的候选,按候选的顺序检索文字串。
还有,本发明的文件检索装置的特征还在于上述相似文字串生成单元参照预定的文字和与其相似的文字的对应文件生成相似文字串。
还有,本发明的文件检索装置的特征还在于上述相似文字串生成单元依据形状相似的规则,检索形状与被输入的文字相似的文字,生成相似文字串。
还有,本发明的文件检索装置的特征还在于上述相似文字串生成单元依据基于印刷、读取的文字变形规则,检索与被输入文字相似的文字,生成相似文字串。
还有,本发明的文件检索装置的特征还在于具备检索装置,该检索装置用上述文字识别装置把由上述范围指定装置指定了范围的图象变换为文字串,以该变换了的文字串作为检索对象,从由上述范围指定装置和文字识别装置进行的范围指定及进行了文字变换的文字数据,检索上述检索对象的文字串。
还有,本发明的文件检索装置的特征还在于
上述范围指定装置通过指定一个图象数据的范围,指定全部图象数据的同一范围。
附图的简单说明第1图是示出本发明的文件检索装置的一结构例和其处理的流程的框图,第2图示出由本发明的文件检索装置的显示装置显示的一画面例,第3图是示出本发明的文件检索装置的检索装置进行的检索处理的说明图。
用于实施发明的最佳形态下面,用


本发明的实施形态。
第1图示出本发明一实施形态的文件检索装置的结构及其处理的流程。
本实施形态的文件检索装置具有图象输入装置1、存储装置2、显示装置3、范围指定装置4、文字识别装置5、检索装置6和编辑装置7。
图象输入装置1可能有各种结构,只要是能够把记载于文件等上的信息作为图象数据输入的装置,则图象扫描器1a、连接其它计算机和网络的电缆1b、未图示的传真机和复印机的复合机等的任一个都可以。
本实施形态的显示装置3是和监视器等的显示设备8相互独立的,虽然以下将其作为向显示设备8传送图象数据并进行显示控制的控制装置进行说明,但作为显示装置也可以包含显示设备。
另外,同样地,本实施形态的范围指定装置4和检索装置6和编辑装置7也是和键盘及鼠标等输入装置9独立的,以下,分别作为进行范围指定、检索、编辑的控制装置进行说明,而它们也可以分别包含键盘等输入装置。
其次,对于上述结构的文件检索装置的处理流程说明如下。
本实施形态的文件检索装置中,把记载于文件等上的信息全部作为图象数据取入。具体来说,把文件等放到图象扫描器1a等的扫描面上,通过图象扫描器1a的光学读取,把记载于文件等上的文字、图形、照片等全部作为图象数据(记录了象素排列的数据)存放在存储装置2的图象数据文件10中。这时,由图象扫描器1a的1次扫描得到的图象数据作为1个图象数据存放。在不依赖于图象扫描器1a时,也可以经由电缆1b把图象数据化了的信息输入到图象数据文件10中。
在这里,作为应该引起注意的方面可以举出这样一点,即如果依据本实施形态的文件检索装置,则在取入信息时,即使不输入用于将来检索图象数据的检索用关键词也没有关系。由此,使用者能够用机械方式并且很快地存入大量的文件。另外,对于这样存入的信息的检索后述。
显示装置3从图象数据文件10取出图象数据,由显示设备8进行显示。由该显示装置3进行的显示如第2图例示的那样,把1个图象数据显示为1页,以遵从预定的分类加注了标题的文件形式进行显示。该文件形式的显示通过用鼠标等击标题,能够迅速地打开所希望的图象数据的部分。
另外,显示装置3最好具备“高速翻页”、“放大缩小、旋转、加宽”、“加标记”、“注释”等诸多功能。
其次,对于检索预定信息,即预定的图象数据的方法说明如下。
本实施形态的文件检索装置进行的检索中最初由范围指定装置4指定图象数据的被检索部分。实际上,使用者边看着显示设备8边用鼠标等输入装置在图象数据上指定第2图所示那样的检索范围的框11。在票据等定型的文件中,例如在预定的位置记载着标题并且标题上包含有要检索的关键词时,如果用检索范围的框11仅包围该部分,则能够用较小的检索量进行有效的检索。
当在所决定的部分(位置)上没有记载所求的关键词时,如果通过范围指定装置4使得用检索范围的框11包围图象数据的全体,则能够对于各图象数据的所有部分进行检索。
另外,本实施形态的范围指定范围4通过指定1个图象数据的范围,能够指定所有图象数据的同一范围。通过利用该功能,在上述票据的情况下,用检索范围的框11围住一张票据的标题部分,由此能够检索所有票据的标题部分。该功能在检索仅存放了定型文件的图象数据的图象数据文件10时特别有效。
这样,被指定了的检索范围存放在存储装置2的范围指定文件12中。
接着,用文字识别装置5把用范围指定装置4进行了范围指定的部分的象素排列变换为文字数据。文字识别装置5参照范围指定文件12,从图象数据文件10取出图象数据后,边参照辞典13边把被指定的检索范围内的象素排列变换为文字数据。
被变换了的文字数据存入文字数据文件14中。这些被变换了的文字数据成为被检索文字串的集合。
接着,使用者输入要检索的文字串,用检索装置6从上述文字数据文件14的文字串的集合检索被输入的文字串,以及与被输入的文字串相似的文字串。
第3图示出由检索装置6进行的检索流程。本实施形态的检索装置6在不仅检索被输入的文字串,还检索与被输入的文字串相似的文字串这一点上具有特征。下面,示出具体的例子说明该特征。
例如,要检索包含汉字“中间决算”这样的文字串的图象数据时,存在着用上述文字识别装置5错误地识别组成“中间决算”的文字串并存入文字数据文件14中的可能性。例如有可能把“中”误识别为“牛”、“午”、“甲”等,把“間”误识别为“問”、“関”、“門”等,把“決”误识别为“法”、“沫”、“洟”等,把“算”误识别为“筧”、“箟”等。
从而,组成“中间决算”的文字串有可能作为上述文字的组合存放在文字数据文件14中。这些被误识别的文字串不能用“中间决算”这样的文字串进行检索。
与此相反,本装置的检索装置6具有生成与被输入的文字串相似的文字串的相似文字串生成单元15。例如输入“中”的文字的话,该相似文字串生成单元15则选择与其相似的“牛”、“午”、“甲”等,并构成文字串的重要因素。
作为选出上述相似文字的方法,在这里有3个方法。
第1种相似文字选出方法预先准备预定的文字和与其相似的文字的对应文件,参照该对应文件选出相似文字。例如,对于“中”,把“午”、“牛”、“甲”等作为被误识别的文字预先存放在对应的文件中,在输入“中”的文字时,选出“午”、“牛”、“甲”等文字。该对应文件在能够和文字识别装置5共用时则与之共同使用。
第2种相似文字选出方法使用依据文字的轮廓、线密度等确定文字的文字形状的规则,选出形状上与被输入的文字相相似的文字。例如输入了“中”的文字时,用形状相似规则选出形状与其相相似的“午”、“牛”、“甲”等。在这些猜读文字的规则也能和文字识别装置5共用时则与之共同使用。
第3种相似文字选出方法依据准备了大量的因印刷、读取引起的文字变形例的文字变形规则,选出与被输入的文字相似的文字。例如,数字“1”的文字,因印刷、读取的状况,有时被误识为英文字母“i”、“l”,符号“(”等,因此,输入了“1”时,把“ i”、“l”“(”作为相似文字选出。
这样,例如,汉字“中間決算”的文字串作为检索对象的文字串被输入时,本装置的检索装置6除去“中間決算”外,还把相似的“牛間決算”、“中問決算”、“中間法算”、也作为检索对象的文字串。对于这些检索对象的文字串,逐一地与文字数据文件14的文字串对照,检索相同的文字串。
这时,检索装置6最好把预定文字的误识可能性作为概率值,预先在相似文字串上标注次序。由此,最先检索和检索对象文字串完全一致的文字串,接着,从误识可能性高的相似文字串检索,在显示结果时对于误识的可能性进行某些显示。
检索结果如第3图所示,显示包含该文字串的图象数据n1、n2、n3、…,重点显示该文字串部分。这些被检索的结果存放在存储装置2的检索数据文件16(参照第1图)中。
若依据上述检索方法,则只识别包含图象数据的检索关键词部分,而且不讨论文字识别结果的正确与否,以为了检索而输入的文字串和与其相似的文字串作为检索对象,检测出包含该文字串的图象数据。由此,第1,减少了文字识别量,第2,节省了讨论文字识别结果的劳力,第3,能够无遗漏地检测出包括要检索的文字串的图象数据。
还有,在上述说明中,检索装置6检索与要检索的文字串整体相似的文字串,而本发明不限于此,也能够使检索装置6对于为检索而输入的文字串的一部分生成检索对象和相似文字串。
即,例如,设要检索的关键词是“ABC公司”,则能够仅依据“AB”、“ABC”、“A****公司”和“A”的输入文字进行“ABC公司”的检索。
还有,对于相似文字串也一样,例如设要检索的关键词是“中间决算”,则使得能够指定“中间决算”的“中”,把包含与“中”相似的“午”、“牛”、“甲”的文字串“午间决算”、“牛间决算”、“甲间决算”算作为相似文字串进行检索。当然,也能依据使用者的指定,上述文字指定把任意的2个文字或者3个文字置换为相似文字。
还有,若依据本文件检索装置,也能够进行与上述那样的使用者输入检索对象的方法不同的方法的检索。该检索方法是着眼于预定的图象数据中预定的文字串,检索具有与该文字串相同文字串的图象数据的方法。以下,说明该不同的方法。
在该检索中,到形成被检索文字串的集合14为止,与上述输入文字串的检索完全相同。接着,用范围指定装置4及文字识别装置5把要检索的文字串变换为文字数据。这时,把由文字识别装置5识别了的文字串按原样,识别错误时也包括在内,作为检索对象的文字串。
例如,要检索“中间决算”的文字串时,如果用文字识别装置5把“中间决算”识别为“牛间决算”,则把“牛间决算”原样不动地作为检索对象的文字串。这是因为在被检索一方的文字串集合14中用文字识别装置5把“中间决算”误识别为“牛间决算”的概率极高,如果检索为“牛间决算”则能够找出所希望的图象数据。检索结果的显示和存储与上述输入文字串的检索完全相同。
以上是本文件检索装置进行的检索。而本文件检索装置能够用文字识别装置5把图象数据中预定的象素排列变换为文字数据,并利用这些数据在文字处理机的文章中进行复制等编辑。
如第1图所示,本装置的编辑装置7边参照用显示装置3显示了的图象数据,边用范围指定装置4指定预定范围,用文字识别装置5将其变换为文字数据。这些文字数据存放在编辑数据文件17中,能够在文字处理机等文章的编辑中使用。另外,也可以用范围指定装置4取出图象数据的预定范围,按原样存入编码数据文件17中,供给对于文字处理机等的文章的编入。
由此,作为图象数据能够灵活应用被存储的各类文件上的信息,能够根据需要从以往的信息生成新的信息。
如从以上说明所明确的,本发明的文件检索装置能够以图象数据的形式直接存储用图象输入装置输入的各种文件的信息,而不必像以往那样,在信息存储时加入检索用关键词或者进行文字识别等。因此,能够以机械方式存入文件的信息,能够极快地存入大量的信息。
还有,本发明的文件检索装置用范围指定装置指定被检索的范围,对于其范围内的象素排列用文字识别装置进行文字识别。文字识别的结果不用检查和修正而作为被检索文字串。另一方面,把用于检索而输入的文字串和与之相相似的文字串作为检索对象的文字串。用检索装置把与之相当的文字串从上述被检索的文字串中检出。由此,减少了文字识别的处理量,而且节省了检索文字识别结果的劳力,还能够不遗漏地把包含要检索的文字串在内的图象数据全部检出。
另外,如果依据指定图象数据中的文字串,检索包含与其相同的文字串的图象数据的检索,则可以按原样利用因印刷和读取的状况产生的文字识别的错误,以较少的处理量可靠地找出要求出的图象数据。
进而,若依据本文件检索装置,则能够根据需要取出图象数据的预定部分,把该部分不仅作为图象数据,还用文字识别装置将其变换为文字数据,使得能够用编辑装置容易地使用这些数据。
产业上的可利用性本发明的文件检索装置能够应用于图象数据的数据库装置。
权利要求
1.一种文件检索装置,其特征在于具有把文字、符号以及图形作为图象数据输入的图象输入装置;把由上述图象输入装置读入的图象数据按图象数据的原样存储的存储装置;以在1页上显示1个图象数据的文件形式显示上述图象数据的显示装置;把由上述显示装置显示的图象数据的预定部分指定为范围的范围指定装置;把由上述范围指定装置指定了范围内的象素的排列变换为文字数据的文字识别装置;把由上述文字识别装置变换的文字数据作为文字数据进行编辑的编辑装置。
2.权利要求1所述的文件检索装置,其特征在于具备检索装置,该检索装置有生成与预定文字串相相似的文字串的相似文字串生成单元,使用者输入要检索的文字串,把被输入的文字串和对于该被输入的文字串由上述相似文字串生成单元生成的相似文字串作为检索对象,从由上述范围指定装置和文字识别装置进行的范围指定及进行了文字变换的文字数据,检索上述检索对象的文字串。
3.权利要求2所述的文件检索装置,其特征在于上述相似文字串生成单元对于与预定的文字串相似的文字串根据相似的概率加入次序;上述检索装置把由上述用户输入的文字串作为第1候选,把由上述相似文字生成单元生成的相似文字串作为附有次序的候选,按照候选的顺序检索文字串。
4.权利要求2所述的文件检索装置,特征在于上述相似文字串生成单元参照预定的文字和与其相似的文字的对应文件生成相似文字串。
5.权利要求2所述的文件检索装置,特征在于上述相似文字串生成单元依据形状相似的规则,检索形状与被输入文字相似的文字生成相似文字串。
6.权利要求2所述的文件检索装置,特征在于上述相似文字串生成单元依据由印刷、读取产生的文字变形规则,检索和被输入的文字相似的文字,生成相似文字串。
7.权利要求1所述的文件检索装置,特征在于具备检索装置,该检索装置以用上述文字识别装置把由上述范围指定装置指定了范围的图象变换成的文字串作为检索对象,从由上述范围指定装置和上述文字识别装置进行的范围指定及被变换了的文字数据,检索上述检索对象的文字串。
8.权利要求1至7的任一项所述的文字检索装置,特征在于上述范围指定装置通过指定1个图象数据的范围来指定所有图象数据的同一个范围。
全文摘要
本发明的文件检索装置具备把文字、符号及图形作为图象数据输入的图象输入装置1;把由图象输入装置1读入的图象数据按图象数据原样存储的存储装置2;以在1页上显示1个图象数据的文件形式显示上述文件数据的显示装置3;把由显示装置3 显示的图象数据的预定部分指定为范围的范围指定装置4;把由范围指定装置4指定了范围内的象素排列变换为文字数据的文字识别装置5;把由文字识别装置5变换了的文字数据作为文字数据进行编辑的编辑装置7。
文档编号G06F12/00GK1165571SQ96190752
公开日1997年11月19日 申请日期1996年7月12日 优先权日1995年7月18日
发明者儿岛纪久, 冈崎诚, 新谷敏文 申请人:株式会社野村总合研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1