文本检索装置、检索方法、记录文本检索程序的记录介质的制作方法

文档序号:6561800阅读:202来源:国知局
专利名称:文本检索装置、检索方法、记录文本检索程序的记录介质的制作方法
技术领域
本发明涉及文本检索装置、记录了文本检索程序的记录介质、以及文本检索方法,特别涉及把单词或文章等作为关键词进行检索的文本检索装置、记录了文本检索程序的记录介质、以及文本检索方法。
背景技术
作为对从多个文本文章(检索对象文本)中检索作为目标的文本的检索服务的要求项目,有检索性能、检索精度(噪声和检索遗漏)、索引生成时间、索引容量等,这些项目就象若实现检索遗漏的降低则检索噪声增加一样,具有相互折衷的关系。
例如,作为降低检索遗漏的方法之一,有利用bi-gram索引的检索方式,该检索方式利用(a)使用保存了文档中的字符出现位置的索引的检索方式和(b)使用保存了从文档中提取的索引词的排列顺序的索引的检索方式等,来实现检索噪声的降低。
但是,在(a)的检索方式中,为了表示索引词的位置信息,需要与文档的长度成正比的字节长度,与(b)的检索方式相比,索引容量变大。
并且,在(a)的检索方式中,因为附加字符的出现位置等进行检索,所以附加了检索词的字符串长度和索引词的位置信息的计算量增加,与(b)的检索方式相比检索处理量也增多。
因此,提出了以下一些方法在存在重复模式时再次利用已经处理过的运算结果的方法(例如,参照日本特开平10-307841号公报)、根据成为单词边界的容易度来分割文本的方法(例如,参照日本特开平10-320421号公报)、和对利用了在索引词之间没有重复的极大单词的索引进行另外保持的方法(例如,参照日本特开平11-073429号公报)。
另一方面,在(b)的检索方式中,因为仅利用索引词的排列顺序,因此与(a)的检索方式相比,检索噪声增加。
例如,当从文档中提取索引词时,按被预先定义的分隔符分隔后的字符串单位进行处理的情况下,(例1)文本“東京都,…”的索引是“東京”“京都”…,(例2)文本“東京,京都,…”的索引是“東京”“京都”…。
并且,在该情况下,逗号是分隔符之一。
因此,索引词的排列相同,利用检索词“東京都”,文本“東京、京都…”被检索出来,存在产生检索噪声的问题。
此外,有如下的方法在上述的例子中,用检索词“東京都”的“都”来检查所有索引词的最后的字符,通过检索“京都”的“都”来减轻检索噪声,但检索时间与索引词的种类成比例。
并且,也有通过另外检索索引词的字符排列的逆序(例如,“都京”“京東”等)来抑制检索噪声的方法,但存在整体的索引容量增加的问题。

发明内容
因此,本发明的目的在于,提供文本检索装置、记录了文本检索程序的记录介质、以及文本检索方法,在利用N-gram(bi-gram)索引的检索方式中,能够在抑制检索处理量和索引容量的增加的同时,进一步降低检索噪声。
本发明的利用N-gram方式进行文本检索的文本检索装置,其特征在于,具有检索对象文本分析部,其根据文本分析规则对检索对象文本进行分析,提取出索引词;索引生成部,其利用所述索引词生成索引;检索词分析部,其根据检索词分析规则来分析在检索条件中包含的检索词,从该检索词中切出词;检索条件生成部,其根据从所述检索词中切出的词,生成内部检索条件;以及检索处理部,其根据所述内部检索条件检索所述索引。
在该结构中,在N-gram方式中,因为根据不同的分析规则来分析检索对象文本和检索条件,所以可以根据检索词专用的分析规则从检索词中切出词,能够降低N-gram方式的检索噪声,并且高效地处理N-gram索引的一个字符检索。
并且,优选所述文本分析规则至少规定把所述检索对象文本内的处理单位字符串的最后一个字符作为所述索引词来切出,所述检索词分析规则至少规定如果所述检索词为两个字符以上且最后的一个字符为非ASCII字符、则不把最后的一个字符作为词来切出。
其次,本发明的记录了文本检索程序、信息处理装置可读取的记录介质,所述文本检索程序使信息处理装置执行利用N-gram方式的文本检索,其特征在于,所述文本检索程序包括以下步骤根据文本分析规则对检索对象文本进行分析,提取出索引词的步骤;利用所述索引词生成索引的步骤;根据检索词分析规则来分析在检索条件中包含的检索词,从该检索词中切出词的步骤;根据从所述检索词中切出的词生成内部检索条件的步骤;以及根据所述内部检索条件来检索所述索引的步骤。
在该结构中,在N-gram方式中,因为根据不同的分析规则来分析检索对象文本和检索条件,所以可以根据检索词专用的分析规则从检索词中切出词,能够降低N-gram方式的检索噪声,并且高效地处理N-gram索引的一个字符检索。
并且,优选所述文本分析规则至少规定把所述检索对象文本内的处理对象字符串的最后的一个字符作为所述索引词来切出,所述检索词分析规则至少规定如果所述检索词为两个字符以上且最后的一个字符为非ASCII字符,则不把最后的一个字符作为词来切出。
本发明的利用N-gram方式进行文本检索的文本检索方法,其特征在于由检索对象文本分析部根据文本分析规则对检索对象文本进行分析,提取出索引词;由索引生成部利用所述索引词生成索引;由检索词分析部根据检索词分析规则来分析在检索条件中包含的检索词,从该检索词中切出词;由检索条件生成部根据从所述检索词中切出的词生成内部检索条件;以及由检索处理部根据所述内部检索条件来检索所述索引。
在该结构中,在N-gram方式中,因为根据不同的分析规则来分析检索对象文本和检索条件,所以可以根据检索词专用的分析规则从检索词中切出词,能够降低N-gram方式的检索噪声,并且高效地处理N-gram索引的一个字符检索。
并且,优选所述文本分析规则至少规定把所述检索对象文本的字符串的最后一个字符作为所述索引词来切出,所述检索词分析规则至少规定如果所述检索词为两个字符以上且最后一个字符为非ASCII字符、则不把最后一个字符作为词切出。


图1是表示本发明的文本检索装置的结构的一例的功能方框图。
图2A至图2C是表示生成索引时的处理流程的一例的示意图。
图3A及图3B是表示分析检索词、生成内部检测条件时的处理流程的一例的示意图。
图4是表示生成检索对象文本的索引时的处理流程的一例的流程图。
图5是表示根据用户输入的检索条件,进行检索对象文本的检索时的处理流程的一例的流程图。
具体实施例方式
根据附图对本发明的具体实施方式
进行说明。
图1是表示本发明的文本检索装置的结构的一例的功能方框图。
如该图所示,文本检索装置10具有检索对象文本分析部11,其从作为文本检索对象的检索对象文本中提取出文本检索时使用的索引词(关键词);生成索引的索引生成部12;将索引存储在未图示的HDD(HardDisk Drive,硬盘驱动器)等存储装置中并保持的索引保持部13;检索词分析部14,其对于作为检索文本时的条件的检索条件内的各检索词,进行词的切出;检索条件生成部15,其利用从检索词中提取出的词的排列,生成后述的内部检索条件;检索处理部16,其根据内部检索条件来检索索引;以及检索结果提取部17,其根据检索的结果,从索引中取得用户所需的文本的文本识别符并输出。
并且,该文本检索装置除了通过具备各功能的模块等的组合来实现之外,也能够使用安装在通用服务器等信息处理装置中的、能够实现本发明的文本检索方法的文本检索程序等来实现。
在此,图2A至图2C是表示从检索对象文本中提取索引词集合,生成索引时的处理流程的一例的示意图。
首先,进行用于将索引词标准化的处理把检索对象文本中的多字节的英文数字字符统一成ASCII字符(半角英文数字),并且把半角片假名统一成全角片假名等。
接着,按照以下所示的分析规则(文本分析规则)对检索对象文本进行分析,提取出索引词集合。
文本分析规则·记号或空白等作为分隔符,但不作为索引词。
·ASCII与非ASCII的连接部分作为索引词的分隔。
·在检索词为两个字符以上、且最后的一个字符为非ASCII字符的情况下,把仅有最后1个字符的词作为索引词提取出。
·根据所述的分隔规则,确定检索对象文本内的处理单位字符串。
·关于处理单位字符串,设有以下的规则。
·连续的ASCII字符作为1个索引词。
·非ASCII字符进行基于bi-gram的索引词提取。
·两个字符以上的非ASCII字符串的情况下,在提取bi-gram的索引词时,把仅有最后1个字符的词作为索引词提取出。
因此,例如,如图2A所示,如果把“東京都に支社を持っXYZ Co.,Ltd.は新製品を発表した。”这样的文本作为检索对象进行分析,则如图2B中用直线圈起表示的那样,把“東京”“京都”“都に”“に支”“支社”“社を”“を持”“持っ”“XYZ”“Co”“Ltd”“は新”“新製”“製品”“品を”“を発”“発表”“表し”“した”“た”作为索引词集合提取出。
然后,将提取出的索引词集合,以维持提取顺序的状态进行倒排档(inverted file)化,生成如图2C所示的索引。
此时,优选至少生成以下的索引。
·可以根据一个索引词求出该索引词出现的文本识别符的数据结构的索引(并且,优选全部索引词为以字符码顺序被排序的状态。)。
·可以根据一个文本识别符求出在该文本内出现的索引词及其出现顺序的数据结构的索引。
并且,通过使可以根据索引词取得索引词出现的文本的识别符信息的数据结构的索引(前者),具有文本识别符和在文本内的出现位置(第几个索引词等)的信息,也可以省略可根据文本识别符求出在其中出现的索引词及其出现顺序的数据结构的索引(后者)。
此外,数据结构并不限于利用图2A至图2C示出的数据结构,例如,可以使用一直以来使用的倒排方式的数据结构等、倒排方式的任意的数据结构。
图3A及图3B是表示对检索词进行分析、生成内部检测条件时的处理流程的一例的示意图。其中,用双引号括住的字符串表示该字符串是一个检索词。
首先,进行用于将检索词标准化的处理,除了在检索词为两个字符以上且最后的1个字符为非ASCII字符的情况下,不提取出仅有最后1个字符的词作为索引词这一点之外,进行与利用图2A至图2C说明的、对检索对象文本进行分析来提取出索引词集合时的处理相同的处理,切出词。
即,按照以下所示的分析规则(检索词分析规则)对检索词进行分析,进行词的切出。
检索词分析规则·与检索对象文本分析规则相同,从检索词中提取出索引词。但是,当检索词为两个字符以上,且最后的1个字符为非ASCII字符的情况下,不提取仅有最后1个字符的词。
接着,生成用于检索从检索词中切出的词连续存在的文本的检索条件(内部的检索条件)。
因此,例如,如图3A所示如果把“東京都”和“XYZ”设为检索条件,则从“東京都”中可以切出词“東京”和“京都”,从“XYZ” 中切出词“XYZ”,内部检索条件成为“東京”、“京都”连续出现,并且“XYZ”出现的检索条件。
并且,如图3B所示,如果把“東京/京都XYZ”作为检索条件,则切出词“東京”、“京”、“京都”、“都”、“XYZ”,内部检索条件变为“東京”、“京”、“京都”、“都”、“XYZ”连续出现的检索条件。
以往的bi-gram方式的文本检索中,不论检索词是“東京都”,还是“東京/京都”,都切出词“東京”、“京都”,不论用哪一个检索条件来检索都是相同的检索结果,在本发明的文本检索方法中,在索引中包含“東京都”的文本以检索条件1进行检测,在索引中包含“東京/京都”的文本利用检索条件2进行检测,得到对应于检索条件的检索结果,因此能够降低检索噪声。
利用上述结构,本发明的文本检索装置,首先在检索对象文本分析部11分析作为检索对象的检索对象文本,提取出索引词,索引生成部12生成索引,同时在索引保持部13存储索引进行保持。
接着,在检索词分析部14进行从检索词中切出词,在检索条件生成部15生成内部检索条件。
然后,由检索处理部16根据内部检索条件,利用通常的检索方法检索索引,在检索结果提取部17从索引中取得用户所需的文本的文本识别符并输出。
图4是表示在本发明的检索装置中,生成检索对象文本的索引时的处理流程的流程图。
首先,当取得检索对象文本(步骤100)时,根据检索对象文本的分析规则,分析该检索对象文本(步骤101)。
接着,根据分析结果提取出索引词集合,生成/存储索引(步骤102)。
图5是表示在本发明的检索装置中,根据用户输入的检索条件,进行检索对象文本的检索时的处理流程的流程图。
首先,当取得用户所输入的检索条件(步骤200)时,根据检索词的分析规则对检索词进行分析(步骤201)。
接着,根据分析结果生成内部检索条件(步骤202),根据内部检索条件检索索引(步骤203),并且输出检索结果(步骤204)。
此外,本发明的检索处理并不限于bi-gram方式,也可用于N-gram方式。
并且,在提供了1个字符的检索词的情况下,扩展为以该字符开始的索引词,进行检索。
这样,以往根据相同的分析规则对检索对象文本和检索词进行分析,而在本发明中,针对此,准备用于从检索对象文本中切出索引词的检索对象文本分析部和从检索词中切出词的检索词分析部这两种分析部,利用不同的分析规则进行分析,因此能够使从检索词中切出的词和从文本中切出的索引词的排列不同。
例如,检索对象的文本(字符串)为“東京都港区,…”的情况下,“東京”“京都”“都港”“港区”“区”…成为索引,而“東京、京都,…”的情况下,“東京”“京”“京都”“都”…成为索引。
于是,如果检索词的分析与检索对象文本的分析同样地处理(以往的方法),则利用检索词“東京都”,来检索“東京”“京都”“都”连续出现的文本,不能检索文本“東京都港区,…”。
另一方面,在本发明中,因为检索词的分析时与检索对象文本的分析时的分析规则不同,因此检索词为“東京都”时,切出词“東京”“京都”,检索词为“東京、京都”的情况下,切出词“東京”“京”“京都”。
因此,利用检索词“東京都”检索出文本“東京都港区,…”,利用检索词“東京、京都”仅检索出文本“東京、京都,…”。
因此,本发明能够得到对应于检索词的检索结果,利用bi-gram(N-gram)方式,能够降低检索噪声。
本发明中,在利用bi-gram索引的检索方式中,抑制了检索处理量和索引容量的增加,同时能够进一步降低检索噪声。
上述本发明的具体实施方式
的目的在于例示和说明。并不是为了穷尽列举或把发明限制为上述的具体形式。显然,对本领域的技术人员而言诸多变更和变形是显而易见的。选择和说明上述具体实施方式
是为了最好地解释本发明的宗旨及其实际应用,以使得本领域的技术人员能够理解本发明的可适用于预期的特定用途的各种实施方式和各种变更。本发明的范围由所附的权利要求及其等同物所定义。
权利要求
1.一种文本检索装置,该装置利用N-gram方式进行文本检索,该文本检索装置包括检索对象文本分析部,其根据文本分析规则,对检索对象文本进行分析,提取出索引词;索引生成部,其利用所述索引词生成索引;检索词分析部,其根据检索词分析规则,分析在检索条件中包含的检索词,并从该检索词中切出词;检索条件生成部,其根据从所述检索词中切出的所述词来生成内部检索条件;以及检索处理部,其根据所述内部检索条件对所述索引进行检索。
2.根据权利要求1所述的文本检索装置,其中,所述文本分析规则至少规定把所述检索对象文本内的处理单位字符串的最后一个字符作为所述索引词来切出,所述检索词分析规则至少规定如果所述检索词有两个或更多个字符且所述检索词的最后一个字符为非ASCII字符,则不把所述最后一个字符作为词来切出。
3.一种记录了程序的计算机可读取的记录介质,该程序使计算机执行使用N-gram方式的文本检索的处理,该处理包括根据文本分析规则对检索对象文本进行分析,提取出索引词;利用所述索引词生成索引;根据检索词分析规则,分析在检索条件中包含的检索词,从该检索词中切出词;根据从所述检索词中切出的所述词,生成内部检索条件;以及根据所述内部检索条件,对所述索引进行检索。
4.根据权利要求3所述的计算机可读取的记录介质,其中,在所述程序中,所述文本分析规则至少规定把所述检索对象文本内的处理单位字符串的最后一个字符作为所述索引词来切出,所述检索词分析规则至少规定如果所述检索词有两个或更多个字符且所述检索词的最后一个字符为非ASCII字符,则不把所述最后一个字符作为词来切出。
5.一种文本检索方法,该文本检索方法利用N-gram方式进行文本检索,该文本检索方法包括如下步骤根据文本分析规则,对检索对象文本进行分析,提取出索引词;利用所述索引词生成索引;根据检索词分析规则,分析在检索条件中包含的检索词,从该检索词中切出词;根据从所述检索词中切出的所述词,生成内部检索条件;以及根据所述内部检索条件,对所述索引进行检索。
6.根据权利要求5所述的文本检索方法,其中,所述文本分析规则至少规定把所述检索对象文本内的处理单位字符串的最后一个字符作为所述索引词来切出,所述检索词分析规则至少规定如果所述检索词有两个或更多个字符且所述检索词的最后一个字符为非ASCII字符,则不把所述最后一个字符作为词来切出。
全文摘要
本发明提供文本检索装置、记录了文本检索程序的记录介质、以及文本检索方法。一种文本检索装置,利用N-gram方式进行文本检索,其特征在于,具有检索对象文本分析部,其根据文本分析规则对检索对象文本进行分析,提取出索引词;索引生成部,其利用所述索引词生成索引;检索词分析部,其根据检索词分析规则来分析在检索条件中包含的检索词,从该检索词中切出词;检索条件生成部,其根据从所述检索词中切出的词,生成内部检索条件;以及检索处理部,其根据所述内部检索条件检索所述索引。
文档编号G06F17/30GK101021851SQ20061012896
公开日2007年8月22日 申请日期2006年9月5日 优先权日2006年2月14日
发明者石飞康浩 申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1