文档检索装置及方法

文档序号:6559168阅读:96来源:国知局

专利名称::文档检索装置及方法
技术领域
:本发明涉及按照检索查询词(query),检索文档数据的文档检索装置、检索方法以及存储介质。
背景技术
:伴随着个人计算机(PC)的普及,文档的生成一般使用文档生成软件等PC上的应用软件来进行。具体而言,广泛进行在PC的画面上生成、编辑各种文件,对文件进行复制、检索这样的作业。此外,伴随着网络的发展和普及,通常,这样在PC上生成的电子的文档数据(电子文档数据),不使用打印机等作为纸文档打印,而由其它PC等访问,用电子邮件发送、分发,无纸的文档生成环境正在扩大。构筑文档管理系统,以由计算机系统地管理实现这样的无纸化的电子文档数据。该电子文档数据,在基于文档共享的高效的信息量的削减、文档间建立关联等方面,极其便利。伴随着电子文档数据的普及,文档数据的全文检索、关键字检索等检索操作普及,检索的有效性逐渐广为人知。另一方面,在纸上打印文档数据的纸文档,与电子文档数据相比,具有容易阅读、处理通用、容易搬运、容易把握全貌等优点。例如当需要分发资料时,依然以打印装置打印电子数据后形成的纸文档这种形式进行分配。可是,纸文档无法以原样的形式检索,所以不容易检索打印有所需信息的纸文档。因此,以往使用扫描纸文档并进行OCR(OpticalCharacterRecognition)处理电子文本化的电子文档数据,进行检索。可是,在OCR处理中,如果发生误识别,就无法正确检索用户所需的文档数据。为了解决这样的问题,以往提出了各种方案。作为一个例子,有假定文档数据的字符串的字符遗漏、字符混合、字符走样,对照检索查询词(query)和文档数据的字符串来进行检索的方法。此外,还提出将检索查询词的各字符扩展成假定的误识别字符,并与该扩展的检索查询词对照,从而检索文档数据的方法。这里,将这些对照方法统称为模糊对照。通过这样的模糊对照,能命中(hit)由于误识别而漏取的字符串,但是也有很多弊端。例如作为检索查询词输入“イラク”,连由于字符识别“イラク”时的误识别而产生的误识别字符(例如“イテク”)也要作为检索对象使其命中。这时,也命中例如“ハイテク”(未误识别)中的“イテク”。据此,在文档数据中每当使用“ハイテク”这一单词,就将产生无关的命中。这样的不想要的命中多发时,需要一种用于选择有意义的命中的作业,成为对于用户来说作业负荷增大、难以使用的检索装置。作为与此相关的技术,有日本特开2004-334334号公报。可是,在日本特开2004-334334号公报的技术中,依然会产生无关的命中。例如想检索“人間”这一字符串(或者误识别“人間”后产生的字符串)时,作为查询词,指定“人間”。汉字“間”和“関”相似,所以作为用于误识别的字符的检索查询词,也设定“人関”。于是,当文档数据中存在“被告人関係者”这一字符串时,尽管该字符串未被误识别,但是该字符串中的“人関”也命中了。这时,“人関”、“告人関”、“人関係”等并不形成字典单词的一部分,在以往技术中无法抑制该命中。
发明内容本发明在于解决所述以往技术的缺点。此外,本发明的特征在于,提供能高效检索被误识别的字符串的文档检索装置及其方法。本发明提供一种文档检索装置,包括对照装置,基于检索查询词和与该检索查询词相似的扩展查询词,对检索对象的文档数据进行检索,抽取与所述检索查询词和所述扩展查询词一致的字符串;分析装置,分析所述检索对象的文档数据,识别未知词区域;判断装置,判断由所述对照装置抽出的字符串是否包含所述未知词区域;以及检索结果输出装置,根据所述对照装置和所述判断装置的处理结果,输出检索结果。并且,本发明提供一种文档检索方法,包括对照步骤,基于检索查询词和该检索查询词的扩展查询词,对检索对象的文档数据进行检索,抽取与所述检索查询词和所述扩展查询词一致的字符串;分析步骤,分析所述检索对象的文档数据,识别未知词区域;判断步骤,判断由所述对照步骤抽出的字符串是否包含所述的未知词区域;以及检索结果输出步骤,根据所述对照步骤和判断步骤的处理结果,输出检索结果。本发明的概要并非完全列举必要的特征,因此这些特征群的子组合(sub-combination)也能成为发明。在以下的参照附图的说明中,本发明其它特征、目的和优势将变得明显,在附图中相似的参照符号表示相同或相似的部分。附图构成说明书的一部分,描述本发明的实施例,与说明一起用来解释发明的原理。图1是表示本发明实施例的文档检索装置的结构的框图。图2A、图2B是说明本实施例的检索的操作例的图。图3是说明本实施例的未知词分析处理的一例的图。图4是说明本实施例的存储未知词区域的未知词区域表的数据结构的图。图5是说明本实施例的用于将检索查询词的各字符(字符串)扩展为相似字符串的查询词扩展表的数据结构的图。图6是说明将本实施例的检索查询词扩展为有可能通过误识别扩展的字符串的扩展查询词格网的图。图7是表示本实施例的用于认定词素分析结果中哪部分应该成为未知词区域的规则即未知词区域认定规则的存储形式的图。图8是表示本实施例的存储检索结果的候选的检索结果表的结构的图。图9是说明本实施例的规定检索结果的输出顺序的分数的计算式的图。图10是说明本实施例的文档检索装置的处理的流程图。图11是说明作为图10的步骤S4中的事件对应处理的一部分的检索处理的流程图。图12是说明图11的步骤S11的未知词分析处理的流程图。图13是说明图12的步骤S23的未知词区域的抽取处理的流程图。图14是说明图11的步骤S13的模糊对照处理的流程图。图15是说明图11的步骤S14的分数调整处理的流程图。具体实施例方式下面参照附图详细说明本发明的优选实施例。以下的实施例并不限定关于权利要求书的发明,此外本实施例中说明的特征的组合的全部并不一定是发明的解决手段所必须的。图1是表示本发明实施例的文档检索装置的结构的框图。在图中,CPU101是微处理器,按照ROM102或RAM103中存储的程序,进行用于图象处理(imageprocessing)、字符处理(characterprocessing)、字符识别处理(characterrecognitionprocessing)、检索处理(searchprocessing)的运算、逻辑判断等,控制通过总线120连接的各构成要素。总线120是系统总线,传送指示作为CPU101的控制对象的各构成要素的地址信号、数据以及控制信号。ROM102是读出专用的非易失性存储器,存储由CPU101执行的引导程序和各种数据。该引导程序在系统的起动时,将硬盘(HD)108中存储的控制程序加载到RAM103中,使CPU101执行。关于该控制程序,以后参照流程图详细说明。RAM103是可读写的随机存储器,存储从HD108加载并由CPU101执行的各种程序,并且在CPU101的动作时作为工作区使用,用于暂时存储来自各构成要素的各种数据。输入部(inputunit)104包含键盘、鼠标、触摸板等,通过用户的操作,进行菜单项目的选择、各种数据的输入等。显示部(displayunit)105具有液晶、CRT、等离子体等显示器,用于将各种菜单、处理结果、错误、警告、检索结果等显示从而呈现给用户。扫描仪(scanner)106进行光学地读取作为原稿的纸文档并数字化等处理。打印机(printer)107在打印文档和图象时使用。在该文档检索装置中,也能打印由通信部(communicationunit)110接收的PDL(打印控制语言)格网式的电子文档数据。HD(harddisk)108中存储有由CPU101执行的控制程序111、用于进行自然语言分析的词素分析字典(morphemeanalyzingdictionary)112、记述了用于认定未知词区域(unknown-wordarea)的规则的未知词区域认定规则(unknown-wordarearecognitionrule)113等。并且,根据需要,也存储用于管理未知词区域的未知词区域表(unknown-wordareatable)114、保持检索结果的检索结果表(searchresulttable)115、将检索查询词扩展(develop)并且保持的查询词扩展表(querydevelopmenttable)116等作业用数据。这些各种数据,根据需要加载到RAM中被参照,并根据需要变更后写回到HD108。词素分析字典112中存储在一般的自然语言分析中所提出的必要信息,例如单词书写、词性信息、变化(conjugation)信息、单词搭配信息等。可移动的外部存储装置109是USB存储设备、IC卡等可插拔的存储设备(storagedevice)。它们与普通的PC同样,也可以是用于访问软盘、CD、DVD等外部存储的驱动等。该外部存储装置109能与HD108同样使用,能通过这些存储介质与其它装置进行数据交换。硬盘108中存储的控制程序111,可根据需要从外部存储装置109将全部或一部分复制(安装)到HD108。通信部110是网络控制器,能通过通信线路与外部进行数据交换。具有以上的结构的本实施例的文档检索装置,根据来自输入部104等的各种事件进行工作。当有来自输入部104的中断时,将该中断信号发送给CPU101,与此相伴随地产生事件。根据该事件,CPU101读出ROM102或RAM103中存储的各种命令,通过执行命令,按照该控制程序进行各种控制。图2A、图2B是说明本实施例的检索的操作例的图。在图2A所示的例1中,本来要检索的文本是“イラクヘのハイテク兵器輸出の非を問ぅ”(201)。它在OCR处理时,被识别为“イテクヘのハイテク兵器輸出の是非を問ぅ”,并被登录(202)。这里,本来是“イラク”的字符串因为误识别,所以变为“イテク”。接着,操作员为了寻找该误识别的字符串“イラク”,发出检索查询词“イラク”(203)。在本实施例的检索处理中,通过相似词扩展处理,将相似的字符(扩展查询词“イテク”)视为一致地进行检索。据此,作为检索结果找到被误识别的字符串“イテク”(210)。这里,在字符串“ハイテク”中也存在相同的字符串(“イテク”)(211),但是它们是在分析“ハイテク”的短语时命中的,所以降低命中位次地作为检索结果输出。在图2B所示的例2中,检索的文本是“法律に詳しい人間が被告人関係者に必要”(205)。与例1同样字符识别该原文时,将“間”误识别为“関”,并被登录(206)。这里,为了检索“人間”,发出检索查询词“人間”的命令(207)。据此,包含相似字符(“人関”)地进行检索。命中字符串“人関”212的“人関”。另外,此时“被告人関係者”中的“人関”213成为可分析为“被告人”“関係者”的短语,所以降低命中位次地作为检索结果输出。图3是说明本实施例的未知词分析处理的一例的图。页面图像301表示通过纸文档的扫描或电子文档的光栅化所生成的文档数据,它与原文一致。用文本302表示对它进行OCR处理后的结果。在该文本302中,因为误识别,所以“人間”变为“人関”(310),“望まれる”变为“望申れる”(311),“イラク”变为“イテク”(312)(误识别的字符带有下划线地显示)。文本303表示将进行了字符识别的文本302进行词素分析后的分析结果,将文本分割为短语单位。“/”表示短语的划分。这里,没能进行词素分析的地方(无法分析字符串311),带有框313地显示。这时,被误识别的“人関”(310)、“イテク”(312),如果分割为词素就能分析,所以不判断为无法分析字符串。文本304表示对303所示的分析结果进一步进行后述的未知词区域的抽取处理后的结果(带有框314~315的字符串表示未知词区域)。据此,除了303中的无法分析字符串(“望申れる”(311))以外,按照后述的未知词区域认定规则113,也将被误识别的“人関”(310)、“イテク”(312)的部分也设定为未知词区域。图4是说明本实施例的存储未知词区域的未知词区域表114的数据结构的图。对于各未知词区域,存储开始位置(startposition)401和末尾位置(endposition)402。这些开始位置和末尾位置,存储表示文本上的未知词区域的开始位置和末尾位置的值(表示页、行数、该行的第几个字符的信息)。字符代码403,是在图3的文本304中与被认定为未知词区域的字符串316对应的字符代码。图4中,存储指定为未知词区域的“イテク”316的开始位置和末尾位置。图5是说明本实施例的用于将检索查询词的各字符(字符串)扩展为相似字符串的查询词扩展表116的数据结构的图。在这里存储像是被误识别的具有相似性的字符(串)的对。例如,片假名“ン”和“ソ”相似,所以在原字符串(originalcharacterstring)501中存储“ン”,在与它对应的扩展字符串(developedcharacterstring)502中存储“ソ”。此外,片假名“デ”有可能被误识别为片假名2字符的“テリ”,所以作为与原字符串501的“デ”对应的扩展字符串502存储“テリ”。此外,片假名“ク”有可能误识别为“ワ”从而被登录。此外,片假名2字符的“イン”有可能被误识别为1字符的汉字“仁”,所以作为与原字符串501的“イン”对应的扩展字符串502存储“仁”。此外,还登录有被误识别可能性高的字符和字符串,但是这里省略它们。图6是说明将本实施例的检索查询词扩展为有可能通过误识别扩展的字符串的扩展查询词的格网(lattice)的图。这里,各扩展字符串的连接状况形成格网。选择从开始节点到末尾节点602的路径时,原来的检索查询词表现为扩展成有可能被误识别的相似字符串的一个查询词。例如作为检索查询词,“インデクス”按照610所示的规则,就变为“イソテリワス”,按照611所示的规则,就扩展为“仁デワス”。按照其它规则,就扩展为“インテリクス”、“イソデクス”、“仁デワス”等。这样,检索查询词,按照是其检索查询词的原文不变(这里“インテクス”)还是该扩展查询词,区分是否为被扩展成上述相似字符串的字符串地进行存储。在图6中,椭圆内的字符表示与原来的检索查询词的字符一致的字符,矩形内的字符表示其被误识别时的字符。图7是表示用于认定词素分析结果中哪部分应该成为未知词区域的规则即未知词区域认定规则的存储形式的图。关于各规则,记述第一短语701和第二短语702各短语所满足的条件。例如,在规则1中,第一短语701的短语长度(字符数)为“1”,并且第二短语702的独立词长度(即除去附属词的字符数)为“1”时,满足规则1(即认定为未知词区域)。据此,在图3的304所示的例子中,由“人”和“関ガ”构成的2个短语314被认定为未知词区域。同样,规则2记述着的这样规则,当第一短语701的短语长度小于等于2,书写用片假名,并且第二短语702的独立词长度小于等于2,书写用片假名时,认定为未知词。据此,在图3的304所示的例子中,由“イ”和“テク”构成的2个短语316被认定为未知词区域。图8是表示本实施例的存储检索结果的候选的检索结果表115的结构的图。这里,对于各检索结果候选,在开始位置801中存储检索结果(命中字符串)的开始字符在文本上的位置。在末尾位置802中存储检索结果(命中字符串)的末尾字符在文本上的位置。在分数803中存储规定该检索结果的显示位次的值(后面描述)。将该检索结果最终按分数803的值的顺序排序,并作为检索结果输出。图9是说明本实施例的规定检索结果的输出位次的分数的计算式的图。首先,相似度由(完全一致字符数)×2+(模糊一致字符数)的表达式计算。这里,“完全一致字符数”是检索查询词和命中字符串正确(不进行相似字符串扩展)一致的字符数。此外,“模糊一致字符数”是与将检索查询词扩展为相似字符串后的结果即命中字符串一致的字符数。这里,当命中字符串一部分在未知词区域时,所述求出的“相似度”原封不动成为“分数”。此外,命中字符串不在未知词区域时,即命中字符串的整个区域都已被分析成短语时,“分数”为从“相似度”中减去“最大分析短语长度”。这里,“最大分析短语长度”是关于命中字符串的词素分析结果的短语中最长的短语长度(字符数)。以下详细说明。例1表示命中字符串在未知词区域中时的例子。这时,定义为“分数”=“相似度”。换言之,“最大分析短语长度”=0。例2~例4表示命中字符串不在未知词区域中时的例子。在例2中,分析短语1和分析短语2在命中字符串中,其中字符数多的短语的字符数n成为“最大分析短语长度”。在例3中,命中字符串仅覆盖一个短语,因此该短语的字符数n为“最大分析短语长度”。例4中,命中字符串覆盖3个分析短语,而其中最长短语的字符数k为“最大分析短语长度”。使用图3的304所示的例子说明以上说明的分数的求解方法。当检索查询词为“人間”时,作为与扩展查询词“人関”一致的字符串,检索“人関が”314和“被告人関係者”317。此外,检索查询词为“イラク”时,作为与扩展查询词“イテク”一致的字符串,检索“イテク”316和“ハイテク”318。这时,首先“人関が”314的相似度与(例1)对应。这时,根据图9的表达式,完全一致的字符(“人”)的数(1)×2+(模糊一致的字符(“関”)的数(1)=3,此外,字符串“人関”的一部分在未知词区域,所以分数也变为“3”。而“被告人関係者に”317的情况,与(例2)对应。这时,相似度也是与上述的计算相同的“3”。可是,这时任何部分都不在未知词区域中,所以分数是相似度“3”-最大分析短语长度(4)(3-4=)-1。同样,检索查询词为“イラク”时,与(例1)对应。因此,“イテク”316的相似度,根据图9的表达式,成为完全一致的字符(“イ”、“ク”的数(2)×2+(模糊一致的字符“テ”的数(1)=“5”,此外,由于在未知词区域中,所以分数也为“5”。而在“ハイテク”318的情况下,“ハイテク”318收容在一个分析短语内,所以与(例3)对应。通过上述的计算,相似度为“5”,但由于不在未知词区域,所以分数为相似度“5”-最大分析短语长度(4)(5-4=)1。按照流程图,说明上述的动作。图10是说明本实施例的文档检索装置的处理的流程图,执行该处理的程序在执行时预先存储在RAM103中,在CPU101的控制下执行。首先在步骤S1中,执行系统的初始化处理,这里进行各种参数的初始化和初始画面的显示等。接着在步骤S2中,等待来自输入部104或经由网络等连接的设备的请求等产生的任意事件。这里,事件发生后进入步骤S3,判别该发生的事件,根据该判别出的事件的种类,分支为各种处理。这里,用步骤S4综合表现与各种事件对应的分支目标的多个处理。作为与各种事件对应的分支目标的处理的一个例子,有图11所示的检索处理。作为其它处理未记述细节,有指定检索条件的处理、扫描原稿并且生成文档图象的处理、指定文档的处理等通常的检索装置的处理。然后,进入步骤S5,显示步骤S4的各处理的处理结果。这里的处理,是检索结果的显示处理、存在错误时的错误显示、正常结束时的显示处理等通常广泛进行的处理。图11是说明作为图10的步骤S4的事件对应处理的一部分的检索处理的流程图。首先,在步骤S11中,执行图12的流程图中详细描述的未知词分析处理。这里,根据所指定的文档的图象,进行字符识别,生成OCR文本,进而通过词素分析、未知词分析,生成未知词区域表114(图4)。接着在步骤S12中,将输入的检索查询词扩展为有可能被误识别的相似字符串,生成扩展查询词格网(参照图6)。接着在步骤S13中,根据该生成的扩展查询词格网,参照图14的流程图,执行后述的模糊对照处理,生成检索结果表115。接着在步骤S14中,参照图15的流程图,如后所述,根据未知词区域表114和图9的表达式,求出检索结果表115的分数。接着,在步骤S15中,按照求出的分数的顺序,将检索结果按分数顺序排序。然后在步骤S16中,显示输出按照分数顺序排序后的检索结果。图12是说明图11的步骤S11的未知词分析处理的流程图。首先,在步骤S21中,对所指定的文档图象进行字符识别,取得文本信息(图3的302)。接着在步骤S22中,对文本信息进行词素分析,分割为短语(图3的303)。接着在步骤S23中,参照图13的流程图,如后所述,抽取未知词区域(图3的304)。接着在步骤S24中,将抽出的未知词区域作为未知词区域表114输出。图13是说明图12的步骤S23的未知词区域的抽取处理的流程图。首先,在步骤S31中初始设定变量等,使指示短语的指针指示文本的开始地进行初始化。接着在步骤S32中,取得由该指针所指示的短语的信息。接着在步骤S33中,参照词素分析字典112,判断步骤S32中取得的短语是否为不能分析的短语。当判断为是不能分析的短语时,视为未知词区域,分支到步骤S35,而判断为不是不能分析的短语时,进入步骤S34,参照未知词区域认定规则113,判断该短语是否属于未知词区域。这里,如果判断为不属于未知词区域,就分支到步骤S36,而如果判断为属于未知词区域,就进入步骤S35,关于抽出的未知词区域收集必要的信息,设定为未知词区域。然后,进入步骤S36,更新表示短语的指针,以指示下一短语。接着在步骤S37中,判断是否存在下一短语,如果判断为存在,就回到步骤S32,执行所述的处理。而如果判断为下一短语不存在,就结束未知词区域的抽取处理。图14是说明图11的步骤S13的模糊对照处理的流程图。首先,在步骤S41中,进行初始化设定,以将指示字符位置的指针指向文本的开始。接着在步骤S42中,对照扩展查询词格网和由该指针指示的文本上的字符。然后在步骤S43中,判断扩展查询词格网与字符是否一致,当不一致时,跳到步骤S46,移动到下一字符。在步骤S43中,当判断为一致时,进入步骤S44,将一致的程度作为相似度计算。该相似度的计算处理按照所述图9所示的表达式进行。接着进入步骤S45,将该一致的字符位置登录到检索结果表115(图8)。这里,将在步骤S44中求出的相似度原封不动地设定为分数。接着进入步骤S46,更新指示字符位置的指针,将字符位置向下一个前进。然后,在步骤S47中,判断字符位置是否到达文本的末尾,当未到达末尾时,回到步骤S42,执行所述的处理,当到达末尾时,结束该模糊对照处理。图15是说明图11的步骤S14的分数调整处理的流程图。首先,在步骤S51中,进行初始化设定,使得指示检索结果的指针指示检索结果表115(图8)的开始。接着在步骤S52中,取得指针指示的检索结果的信息(位置和分数)。接着在步骤S53中,根据未知词区域表114(图4)检查检索结果表示的命中字符串在文本上是否包含未知词区域。然后在步骤S54中,如果判断为包含未知词区域,就分支到步骤S58,将分数确定为与相似度相等的值,而如果判断为不包含,就进入步骤S55,如图9所示,求出命中字符串所涉及的最长分析短语长度。接着在步骤S56中,从分数减去该求出的最长分析短语长度,来校正分数。接着在步骤S57中,将该校正后的分数反映到检索结果表115(图8)中。接着在步骤S58中,将指示检索结果的指针更新为指示下一检索结果。然后在步骤S59中,判断是否为检索结果的最后,当不是最后时,回到步骤S52,执行所述的处理,当判断为结束时,结束分数调整处理。(其它实施例)本发明并不局限于上述的实施例,只要不脱离本发明的宗旨,可以进行适当变更。在上述的实施例中,作为语言分析的方法,使用词素分析,但是也考虑此外的实现方式。例如,也考虑基于只分割为单词的手法的方式。这时,附属词的部分完全不分析,作为未知词区域处理。据此,存在分析的精度下降这样的缺点,但是与词素分析相比,分析处理轻松完成,能构筑负荷更轻的系统。此外,在上述的实施例中,作为模糊对照的手法,将查询词的字符扩展为相似字符串地进行检索,但是也考虑不进行扩展,而将相似的字符组汇总,标准化为要代表的代表字符进行对照的手法。通过这样构成,能减轻处理负载,能应用于更小规模的装置。此外,也考虑完全不同的模糊对照的实施方式。例如,还可采用如通配符检索那样,即使存在不一致的部分也判断为对照成功的手法。这时,相似度的计算方法有若干改变,但是如果除去模糊对照的部分,就能完全同样地构成,能取得完全同样的效果。并且,在所述以外,只要不脱离本发明的宗旨,就能适当变更该实施例的结构。如上所述,根据本实施例,对于存在误识别的文本,能进行允许误识别的字符串检索。并且即使存在允许了误识别的命中字符串时,如果包含在可分析的字符串中则分数评价低,因此能控制不想要的误命中。据此,相对优先地显示实际被误识别的字符串的命中,能提供操作性高的文档检索装置。本发明并不局限于上面的实施例,在本发明的精神和范围中能进行各种变更和修改。因此,为了向大众通知本发明的范围,产生了以下的权利要求书。权利要求1.一种文档检索装置,其特征在于,包括对照装置,基于检索查询词和与该检索查询词相似的扩展查询词,对检索对象的文档数据进行检索,抽取与所述检索查询词和所述扩展查询词一致的字符串;分析装置,分析所述检索对象的文档数据,识别未知词区域;判断装置,判断由所述对照装置抽出的字符串是否包含所述未知词区域;以及检索结果输出装置,根据所述对照装置和所述判断装置的处理结果,输出检索结果。2.根据权利要求1所述的文档检索装置,其特征在于所述检索结果输出装置具有分数校正装置,该分数校正装置在由所述判断装置判断为不包含所述未知词区域时,使由所述对照装置抽出的字符串的相似度下降;以与所述分数校正装置取得的相似度对应的顺序,将所述字符串作为检索结果输出。3.根据权利要求1所述的文档检索装置,其特征在于所述扩展查询词,是将对构成所述检索查询词的字符进行字符识别时误识别为另一字符的概率高的字符,替换成所述另一字符,这样构成的字符串。4.根据权利要求1所述的文档检索装置,其特征在于所述对照装置,根据所述一致的字符串中包含的与所述检索查询词的字符一致的字符数、和所述一致的字符串中包含的与所述扩展查询词的字符一致的字符数,求出所述一致的字符串的相似度。5.根据权利要求1所述的文档检索装置,其特征在于所述分析装置进行所述文档数据的词素分析,根据词素分析取得的短语中包含的单词是否包含在单词字典中,识别所述未知词区域。6.根据权利要求2所述的文档检索装置,其特征在于所述分数校正装置,从所述抽出的字符串的相似度,减去包含由所述对照装置抽出的字符串的短语的最大字符数,来降低相似度。7.一种文档检索方法,包括对照步骤,基于检索查询词和该检索查询词的扩展查询词,对检索对象的文档数据进行检索,抽取与所述检索查询词和所述扩展查询词一致的字符串;分析步骤,分析所述检索对象的文档数据,识别未知词区域;判断步骤,判断由所述对照步骤抽出的字符串是否包含所述的未知词区域;以及检索结果输出步骤,根据所述对照步骤和判断步骤的处理结果,输出检索结果。8.根据权利要求7所述的文档检索方法,其特征在于在所述检索结果输出步骤中具有分数校正步骤,该分数校正步骤在由所述判断步骤判断为不包含所述未知词区域时,使由所述对照步骤抽出的字符串的相似度下降;以与所述分数校正步骤取得的相似度对应的顺序,将所述字符串作为检索结果输出。9.根据权利要求7所述的文档检索方法,其特征在于所述扩展查询词,是将对构成所述检索查询词的字符进行字符识别时误识别为另一字符的概率高的字符,替换成所述另一字符,这样构成的字符串。10.根据权利要求7所述的文档检索方法,其特征在于所述对照步骤,根据所述一致的字符串中包含的与所述检索查询词的字符一致的字符数、和所述一致的字符串中包含的与所述扩展查询词的字符一致的字符数,求出所述一致的字符串的相似度。11.根据权利要求7所述的文档检索方法,其特征在于所述分析步骤,进行所述文档数据的词素分析,根据词素分析取得的短语中包含的单词是否包含在单词字典中,识别所述未知词区域。12.根据权利要求8所述的文档检索方法,其特征在于所述分数校正步骤,从所述抽出的字符串的相似度,减去包含在所述对照步骤抽出的字符串包含的短语的最大字符数,来降低相似度。全文摘要本发明提供一种文档检索装置及方法,根据检索查询词和该检索查询词的扩展查询词,对检索对象的文档数据进行检索,抽取与所述检索查询词和所述扩展查询词一致的字符串,判断抽出的字符串是否包含未知词区域,当判断为不包含未知词区域时,进行调整,从而使抽出的字符串的相似度下降,以与该调整后的相似度对应的顺序,将字符串作为检索结果输出。文档编号G06F17/30GK1877578SQ200610088580公开日2006年12月13日申请日期2006年6月6日优先权日2005年6月7日发明者户岛英一郎申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1