信息检索方法和信息检索装置的制作方法

文档序号:6618739阅读:328来源:国知局
专利名称:信息检索方法和信息检索装置的制作方法
技术领域
本发明涉及实施利用电子计算机进行机器翻译、大量文本检索、文本自动摘要等的自然语言处理系统前处理分析部分中,进行信息检测用的方法及其装置,特别涉及能降低检索噪声无漏检的信息检索方法和装置。
全文检索系统是指从存储的文本数据检索使用者指定的字符串用的系统。为了实现全文检索,已提出各种方法的建议。典型的方法,如长尾真等人所著《语言信息处理》(岩波书店1998年发行)第72页~第77页所述,有以下两种。
一种为根据文本数据生成单词索引后,由单词索引检索使用者指定的字符串(检索词);另一种为根据文本数据生成字符串索引后由字符串索引对检索词进行检索。
单词索引生成法生成文本中所出现全部单词的索引。在日语之类粘着语的情况下,由于单词界限不明,通常用辞典进行形态单元分析,将文本划分为词单后,生成所有这些词的索引。例如对“東京都品川区”的文本,生成“東京”、“東京都”、“品川”、“品川区”这4种索引。
检索时,在指定東京”或“品川区”的场合,原样检索该索引即可,而在指定复合词“東京都品川区”时,利用形态单元分析对检索词进行分解后,对各词分别进行检索即可。
利用上述方法,可按文章中任意的词进行检索。为了减少单词索引的数量,还提出一种作法的建议,即采用包含某词的最长单词作为索引。上述例子中,“東京都”包含“東京”,因而仅将“東京都”作为索引(日本专利特开平10-334118公报等)。单词划分方面,除形态单元分析外,还提出用统计术进行划分的方法(中渡濑秀一著“用归一化频度推定形态单元边界”,信息处理学会自然语言研究会113-3(1996)等)。
字符串索引生成法生成对文本中全部连续N字符的索引(n-gram index)。N采用2的较多。例如对文本“東京都品川区”生成2字符组的索引时,生成“東京”、“京都”、“都品”、“品川”、“川区“这5种索引。
用图进一步详细说明字符串索引生成法的例子。图22为表示字符串生成过程的图。对文本“本發明の実施は、”生成2字符组成的7个字符串索引、“本发”、“发明”、“明の”、“の実”、“実施”、“施は”、“は”,并将本文号和字符串出现位置(字符位置)写入各索引。对全部文本生成这种索引,并按字符串将这些索引分类后加以存储。
检索时,例如检索“本发明”,则对“本发”、“发明”2个字符串进行索引的检索,并判断发现的索引是否连续出现即可。
字符串索引生成法具有不需要进行形态单元分析的特征。
然而,采用单词索引的方式中,需要在生成索引时将文本划分为单词,其划分精度影响检索准确度。即,由于未正确划分单词,可能发生漏检。使用形态单元分析划分文本时,分析精度取决于形态单元分析中使用的辞典。语言通常总在流动,不断产生新词,因而需要经常修整形态单元分析用的辞典。
往往因作为对象的文本而单词用法不同,所以每次改变对象文本必须调整辞典。即,按照医学专用数据库或经济专用数据库,进行不同的辞典调整等。
即使随时注意修整辞典,也不能否定形态单元分析中可能遇到未知词,即辞典未记载的词。由于未知词的出现,往往会使形态单元分析精度大为下降。
反之,若采用借助统计术的单词划分,则表面上虽然无未知词的问题,但并非单词划分精度达到100%,留有同样的问题。
形态单元分析中,为了提高其精度,有时采用依靠上下文的分析。然而,这种复杂的处理往往将长文中出现的句和短文中出现的句分解为不同的字符串。
采用字符串索引的方式中,不需要划分单词,因而原理上无漏检。然而,例如用“京都”检索时,连文本中“東京都”的部分也命中,从而包含此类非本来希望的结果(一般称之为检索噪声)。
针对此问题,日本专利特开平10-307835公报中,揭示了一种方式,该方式具有单词索引和字符串索引两者,根据情况进行划分。然而,采取这种结果,则检索的索引规模变大。此外,用减少噪声的模式进行检索,则产生漏检;做到不产生漏检,则噪声变多。实质上没有解决问题。即使假设同时对这两种索引进行检索,也不仅检索时间变长,而且检索结果的综合要化费时间。
本发明解决如上所述以往技术的课题,其目的在于利用融合单词索引方式和字符串索引方式提供能防止漏检且能降噪的信息检索方法,并提供实施该方法的装置。
本发明的信息检索方法将对象文本划分为词单元,根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引后,根据该带单词信息字符串索引,用字符串检索或单词检索或这两种检索对检索词进行检索。
本发明的信息检索装置设置存储检索对象文本的检索对象文本存储手段;将检索对象文本划分为词单元的文本划分手段保持划分为词单元的文本的单词划分文本存储手段;根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引的带单词信息字符串索引生成手段;存储生成的带单词信息字符串索引的带单词信息字符串索引存储手段;用带单词信息字符段索引,进行检索词的字符串检索或单词检索或这两种检索的带单词信息字符串索引检索手段。
因此,可在一个装置用一种索引进行单词检索和字符串检索,能防止漏检,并能降低检索噪声。
本发明第1发明的信息检索方法,对文本数据进行全文检索,该方法将检索对象文本划分为词单元,根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引后,根据带单词信息字符串索引,用字符串检索或单词检索或这两种检索对检索词进行检索。能用一个带单词信息的字符串索引进行单词检索和字符串检索,因而可防止漏检并降低检索噪声。
本发明第2发明的信息检索方法,利用在检索对象文本中包含的单词前添加单词始端标记,在单词后添加单词终端标记,将检索对象文本划分为词单元后,根据划分为词单元的文本,生成具有表示单词始端标记和单词终端标记的单词信息且字符数为N的的带单词信息字符串索引。能利用区别单词的始端和终端降低检索噪声。
本发明第3发明的信息检索方法,在带单词信息字符串索引中,第1字符在该字符前存在单词始端标记时,具有表示该情况的单词信息,在该字符后存在单词终端标记时,具有表示该情况的单词信息,第2字符以后则仅在该字符后存在单词终端标记时,具有表示该情况的单词信息。利用减少第2字符后的始端信息,可不影响检索速度且减小检测规模,而且借助使第1字符具有始端信息和终端信息也能适应一个学符的检索词的检索。
本发明第4发明的信息检索方法,根据带单词信息字符串索引,一起执行发现检索词的单词的单词检索和发现检索词的字符串的字符串检索。对各检索词,可同时执行发现该单词用的单词检索和将单词视为字符串的字符串检索。
本发明第5发明的信息检索方法,将检索词的字符串划分为字符数N的部分检索字符串,根据带单词信息字符串索引,检索与各部分检索字符串一致的字符串,所检索的各字符串在检索对象文本上具有连续性时,判断为检索词的文字串是检索到的文字串,在检索与包含检索词的第1字符的部分检索字符串或包含检索词的最后字符的部分检索字符串一致的字符串时,增加第1字符前或最后字符后的单词信息作为判断材料,进行一致性判断,从而对检索词的单词进行检索。
本发明第6发明的信息检索方法,利用单词检索,根据带单词信息字符串索引,检索与检索词的单词完全一致的单词、与检索词的单词完全一致和与前方一致的单词、与检索词的单词完全一致和与后方一致的单词、仅与检索词的单词前方一致的单词,或仅与检索词的单词后方一致的单词。借助选择第1字符前的单词信息和最后字符后的单词信息中的某一个作为一致性判断材料,可进行各种单词检索。
本发明第7发明的信息检索方法,从划分为词单元的文本删除非所需词前后的单词信息,生成带单词信息字符串索引。因而,单词检索中能消除单独检索非所需词部分,可降低检索噪声。
本发明第8发明的信息检索方法,从划分为词单元的检索对象文本删除非所需词前的单词始端标记和非所需词后的单词终端标记后,根据划分为该词单元的文本,生成带单词信息字符串索引。能生成去除非所需词前后的单词信息的带单词信息字符串索。
本发明第9发明的信息检索方法,将不能单独成为检索对象词的单词选为非所需词。因而,能降低单词检索中的检索噪声。
本发明第10发明的信息检索方法,根据单词的品词信息,确定非所需词。能将助词、助动词、感动词等定为非所需词。
本发明第11发明的信息检索方法,将平假名一字符或平假名二字符组成的单词选为非所需词。能降检索噪声。
本发明第12发明的信息检索方法,根据检索对象文本数据中单词的出现频度,确定非所需词。能有效降低检索噪声。
本发明第13发明的信息检索方法,根据带单词信息字符串索引,检索与包含检索词的第1字符的部分检索字符串包含检索词的最后字符的部分检索字符串一致的字符串时,增加表示第1字符前的单词始端标记的单词信息或表示最后字符后的单词终端标记的信息作为判断材料,进行一致性判断,检索与其他部分检索字符串一致的字符串时,不增加单词信息作为判断材料。因而,象“繪の具”这样中间夹有“の”的单词也能进行单词检索。
本发明第14发明的信息检索方法,划分为词单元的检索对象文本删除接头词后的单词终端标记和接尾词前的单词始端标记后,根据划分为该词单元的文本,生成带单词信息字符串索引。消除单独作为单词检索接头词和接尾词,能降低检索噪声。此外,无论检索添加接头词和接尾词时或不添加时,都能进行检索,因而能防止漏检。
本发明第15发明的信息检索方法,根据单词的品词,确定作为接头词和接尾词的词。可同样地确定接头词和接尾词。
本发明第16发明的信息检索方法,根据检索对象中词在数字后示出的频度,确定作为接尾词的词。数字后出现的词是单元数值的可能性高。
本发明第17发明的信息检索方法,根据检索词的检索结果,将对检索对象文本检索词的拟合度数值化,根据获得的数值使各检索对象文本带有顺序,并将各检索对象文本排成顺序加以提示。对于使用者,可根据所需检索结果进行观察。
本发明第18发明的信息检索方法,根据检索对象文本,分别对各检索词一起执行发现检索词的单词的单词检索和发现单词的字符串的字符串检索,将该两种检索结果加权并分别加以数值化化。借助适当评价两种检索结果,可有效阅览检索结果,同时能防止发生漏检。
本发明第19发明的信息检索方法,使单词检索中的检索结果带有比字符串检索中的检索结果大的加权并加以数值,以便按单词检索发现检索词的检索对象文本带有比仅按字符串检索发现检索词的字符串的检索对象文本高的顺序。可标注顺序,以便能有效阅览检索结果。
本发明第20发明的信息检索方法,使利用单词检索,根据检索对象文本,对与检索词的单词完全一致的单词、与前述一致的单词与与后方一致的单词进行检索时的检索结果带有各自不同的加权并加以数值化。可标注顺序,以便能有效阅览检索结果。
本发明第21发明的信息检索方法,使单词检索中的检索结果带有不同的加权并加以数值化,以便进行检索之际,在与检索词的单词完全一致的单词、与前方一致的单词和与后方一致的单词之间指定顺序时标注顺序,使发现第1顺序单词的检索对象文本位于高端,发现第2顺序单词的检索对象文本位于其后,仅发现第3顺序单词的检索对象文本进一步位于其后。可标注顺序,以便能有效阅览检索结果。
本发明第22发明的信息检索方法,分别使各检索结果带有不同的加权并加以数值,以便发现第1顺序单词的检索对象文本之间带有第1顺序单词的检索数从多到少的顺序,发现第2顺序单词的检索对象文本之间带有第2顺序单元的检索数从多到少的顺序,仅发现第3顺序单元的检索对象文本之间带有第3顺序单词的检索数从多到少的顺序,而且仅用字符串检索发现检索词字符串的检索对象文本之间带有字符串的检索数从多到少的顺序。可标注顺序,以及能有效阅览检索结果,并且检索拟合度低的检索结果也能保留,以防止漏检。
本发明第23发明的信息检索方法,根据由单词检索进行检索后得到的与检索词的单词完全一致的单词、与前方一致的单词或与后方一致的单词的检索数对由字符串检索进行检索后得到的检索词字符串的检索数之比,估算检索对象文本的单词划分精度,并使检索对象文本的顺序标注反映该精度。对文本标注顺序时,能修正单元划分中的低精度。
本发明第24发明的信息检索方法,以多个检索词的逻辑组合提供检索词时,分别对各个检索词的检索结果进行所述数值化,并汇总这些检索结果数据值进行对检索对象文本的顺序标注。以便在由多个检索词逻辑组合组成检索式时,也能有效阅览检索结果。
本发明第25发明的信息检索装置具有存储检索对象文本的检索对象数据存储手段;将检索对象文本划分为词单元的文本划分手段;保持划分为词单元的文本的单词划分文本存储手段;根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引的带单词信息字符串索引生成手段;存储所生成带单词信息字符串索引的带单词信息字符串索引存储手段;用带单词信息字符串索引,进行检索词的字符串检索或单词检索或这两种的带单词信息字符串索引检索手段。用一个装置实现单词检索和字符串检索,能防止漏检,并能降低检索噪声。
本发明第26发明的信息检索装置,文本划分手段利用在检索对象文本所包含的单词前添加单词始端标记,在单词后添加单词终端标记,将检索对象文本划分为词单元,带单词信息字符串索引生成手段根据划分为词单元的文本,生成具有表示单词始端标记和单词终端标记的单词信息且字符数为N的带单词信息字符串标记。可利用区别单词的始端和终端,降低单词检索中的检索噪声。
本发明第27发明的信息检索装置,作为单词信息,带单词信息字符串索引生成手段对带单词信息字符串索引的第1字符,在该字符前存在单词始端标记时,设置表示该情况的单词信息,该字符后存在单词终端标记时,设置表示该状况的单词信息,第2字符以后则仅在该字符后存在单词终端标记时,设置表示该情况的单词信息。减少第2字符以后的始端信息,因而不影响检索速度且能减少检索规模,而且借助使第1字符具有始端信息和终端信息,可进行1字符检索词的单词检索。
本发明第28发明的信息检索装置,带单词信息字符串索引检索手段用带单词信息字符串牵引,一起执行发现检索词的单词的单词检索和发现检索词的字符串的字符串检索。对各检索词,能同时执行发现该单词用的单词检索和将单词视为字符串的字符串检索。
本发明第29发明的信息检索装置,带单词信息字符串索引检索手段将检索词的字符串划分为字符数N的部分检索字符串,根据带单词信息字符串索引检索与各部分检索字符串一致的字符串,所检索各字符串在检索对象文本上具有连续性时,判断为检索词的字符串是检索到的字符串,并在检索与包含检索词的第1字符的部分检索字符串或包含检索词的最后字符的部分检索字符串一致的字符串时,增加第1字符前或最后字符后的单词信息作为判断材料,进行一致性判断,从而对检索词的单词进行检索。能同时执行单词检索和字符串检索。
本发明第30发明的信息检索装置,带单词信息字符串索引检索手段利用单词检索,检索与检索词的单词完全一致的单词、与检索词和单词完全一致和与前方一致的单词、与检索词的单词完全一致和与后方一致的单词、仅与检索词的单词前方一致的单词,或仅与检索词的单词后方一致的单词。利用选择第1字符前的单词信息和最后字符后的单词信息中的某一个作为一致性判断材料,可进行各种单词检索。
本发明第31发明的信息检索装置,具有非所需词界删除手段,该手段从划分为词单元的文本中添加的单词始端标记和单词终端标记内,删除单独不能成为检索对象词的非所需词前后的单词始端标记和单词终端标记。可消除单词检索中单独检索非所需词部分,从而能降低检索噪声。
本发明第32发明的信息检索装置,文本划分手段对检索对象文本所包含单词中不能单独成为检索对象的单词,不进行词单元划分。可消除单词检索中单独检索非所需词部分,从而能降低检索噪声。
本发明第33发明的信息检索装置,具有接词单词词界删除手段,该手段从划分为词单元的文本中添加的单词始端标记和单词终端标记内,删除接头词后的单词终端标记和接尾词前的单词始端标记。消除单独作为单词检索接头词和接尾词,因而能降低检索噪声。不论检索词带有接头词和接尾词时或不带有时,都能进行单词检索,因而能防止漏检。
本发明第34发明的信息检索装置,文本划分手段对检索对象文本中包含的接头词仅添加单词始端标记,对接尾词只添加单词终端标记。不需要删除接词单词词界。
本发明第35发明的信息检索装置,具有根据检索拟合度将检索结果数值化的检索结果数值化手段;根据检索结果数值化手段提供给各检索对象文本检索结果的数值,进行各检索对象文本顺序标注的检索结果顺序化手段。使用者可根据需要依次有效地观看检索结果。
本发明第36发明的信息检索装置,检索结果数值化手段使单词检索中的检索结果带有比字符串检索中的检索结果大的加权并加以数值化,以便按单词检索发现检索词的检索对象文本带有比仅按字符串检索发现检索词的字符串的检索对象文本高的顺序。结果,检索结果顺序化手段可进行对文本的顺序标注,以便使用者能根据需要的检索结果,依次进行观看。
本发明第37发明的信息检索装置,检索结果数值化手段对利用单词检索,根据检索对象文本,检索与检索词的完全一致的单词、与前方一致的单词或与后方一致的单词时的检索结果,分别授予不同的加权并加以数值化。结果,检索结果顺序化手段可进行对文本的顺序标注,以便使用者能根据需要的检索结果,依次进行观看。
本发明第38发明的信息检索装置,检索结果数值化手段,使单词检索中的检索结果带有不同的加权并加以数值化,以便进行检索之际,在与检索词的单词完全一致的单词、与前方一致的单词和后方一致的单词之间指定顺序时标注顺序,使发现第1顺序单词的检索对象文本位于高端。发现第2顺序单元的检索对象文本位于其后,仅发现第3顺序单词的检索对象文本进一步位于其后。结果,检索结果顺序化手段可进行对文本的顺序标注,以及使用者能根据需要的检索结果依次观看。
本发明第39发明的信息检索装置,检索结果数值化手段分别使各检索结果带有不同的加权,以便发现第1顺序单元的检索对象文本之间带有第1顺序单元的检索数从多到少的顺序,发现第2顺序单词的检索对象文本之间带有第2顺序单元的检索数从多到少的顺序,仅发现第3顺序单词的检索对象文本之间带有第3顺序单词的检索数从多到少的顺序,而且仅用字符串检索发现检索词字符串的检索对象文本之间带有字符串的检索数从多到少的顺序。结果,检索结果顺序化手段可进行对文本的顺序标注,以便使用者能根据需的检索结果依次观看。为了防止漏检,检索拟合度低的检索结果授予低端的顺序,也能展现。
本发明第40发明的信息检索装置,检索结果顺序化手段根据由单词检索进行检索后的得到的与检索的单词完全一致的单词、与前方一致的单词或后方一致的单词的检索数对由字符串检索进行检索后得到的检索词字符串的检索数之比,估算检索对象文本的单词划分精度,并使检索对象文本的顺序标注反映该精度。对文本标注顺序时,能修正单词划分中的低精度。
图1为表示本发明实施形态1的信息检索装置结构的方框图。
图2为表示本发明实施形态1的信息检索装置运作的流程图。
图3为表示本发明实施形态1中索引生成处理过程的模式图。
图4为表示本发明实施形态1中带单词信息字符串索结构例的模式图。
图5为表示本发明实施形态1中检索处理流程的流程图。
图6为表示本发明实施形态1中各检索方式的校验项目的表。
图7为表示本发明实施形态2的信息检索装置结构的方框图。
图8为表示本发明实施形态2的信息检索装置动作的流程图。
图9为表示本发明实施形态2中索引生成处理过程的模式图。
图10为表示本发明实施形态2中带单词信息字符串说明结构例的模式图。
图11为表示本发明实施形态3的信息检索装置结构的方框图。
图12为表示本发明实施形态3的信息检索装置运作的流程图。
图13为本发明实施形态3中接词单词词界删除处理操作的示意图。
图14为本发明实施形态3中检索噪声降低效果的示意图。
图15为表示本发明实施形态4的信息检索装置结构的方框图。
图16为表示本发明实施形态4的信息检索装置运作的流程图。
图17为本发明实施形态4中第一计算方法例的得分累计状态示意图。
图18为本发明实施形态4中第一计算方法例的检索结果编排顺序状况的示意图。
图19为说明本发明实施形态4中第二计算方法例的得分累计和检索结果编排顺序状况用的文件例。
图20为本发明实施形态4中第二计算方法例的得分累计和检索结果编排顺序状况的示意图。
图21为表示本发明实施形态4中第三计算方法例得分累计用的文本集关系的模式图。
图22为表示以往的信息检索装置中索引生成处理过程的模式图。
下面,用


本发明的实施形态。
实施形态1如图1所示,实施形态1的信息检索装置备有存储作为检索对象的文本数据的检索对象数据存储手段101;将对象的文本数据划分为单词的文本划分手段102;保持划分为词单元的文本数据的单词划分文本存储手段103;根据划分为词单元的文本,生成带有单词信息的字符串索引的带单词信息字符串索引生成手段104;存储所生成的索引的带单词信息字符串索引存储手段105;用带单词信息字符串索引进行检索的带单词信息字符串索引检索手段106。
此信息检索装置用计算机构成,用计算机的存储装置或硬盘装置实现检索对象数据存储手段101、单词划分文本存储手段103和带单词信息字符串索引存储手段105。其他手段由计算机的计算机构组成。
本实施形态的检索对象为文本,存放在检索对象数据存储手段101。本文逐一分配检索对象文本号等号码后加以存储。给出检索对象字符串(检索条件),则能利用检索识别包含该字符串的文本号或文本中的位置或文本号和文本中的位置。
带单词信息字符串索引生成手段104中生成的带单词信息字符串索引为编入单词划分点信息的字符串索引。字符串索引为汇集检索对象数据中全部长度为N的字符串的索引,是历来用作全文检索的索引。带单词信息字符串索引基本上是字符串检索型的,但其各字符前后添加表示单词划分点的单词信息。字符串索引的长度N可取1以上的整数值,以下说明中以N=2的情况为例进行详细说明。
现说明如上文所述那样构成的全文检索装置的运作。图2中示出总流程。该总流程大致分为数据登记处理和检索处理。数据登记处理可分为文本单词划分处理(步骤201)和索引生成处理(步骤S202)。
首先说明数据登记处理。
图2中步骤201的文本划分处理利用文本划分手段102将检索对象数据存储手段101中存储的全部检索对象数据划分词单元,并存储到单词划分文本存储手段103中。该划分可用借助形态单元分析或统计术的单词划分。不规定单词划分法。
利用文本划分处理,图3中301那样的文本划分为图3中302那样。图中为了方便使用单词划分符“/”。实际上文本中也有可能现现“/”的符号,因而文本中不填入“/”符号,而填入文本中未出现的特殊字符模式,或用适合于划分的数据形式表示。
图2中步骤202的索引生成处理利用带单词信息字符串索引生成手段104,根据单词划分文本存储手段103中存储的全部数据,生成带单词信息字符串索引,并存储到带单词信息字符串索引存储手段105中。对全部文本反复进行步骤201和步骤202。
利用图3,以索引的字符串长度N=2的情况为例,说明此带单词信息文字串说明。图3中302那样划分的文本,如果取出长度为2的全部字符串,则能取出“本發”、“發明”、“明の”、“の実”、“実施”、“施は”、“は”、共7个字符串。按这些字符串分别生成索引。如以往的方式(图22)那样,索引中记录各自的字符串、文本号、字符位置,此外还添加关于该字符串连接何种词界的单词信息。
表示如何连接词界的单词信息说明第1字符起是否有单词界限(词界)第1字符和第2字符之间是否有词界,第2字符后是否有词界,带有该信息的形式因实现方法而异。图4中,作为例子,以用0或1表现的标志的形式带有3个这种信息、在“本發”的情况下,如“/本/發”那样,第1字符“本”前和第1字符“本”与第2字符“發”之间有词界,第2字符后无词界,因而标志为“110”。
这样用标志表示单词信息时,只需1位用于表现该信息,可减小索引的规模。
这样生成的索引作为字符串的键加以分类,由散列表等进行管理,并以给出第1字符或第1、第2字符立即能检索的形式存储到带单词信息字符索引存储手段105中。
下面说明图2的处理(步骤203)。
图5示出检索处理的详细流程。
带单词信息字符串索引检索手段106实现两种检索方法(1)中间一致其功能为无词界意识的以往的字符串全文检索;(2)单词检索其功能为有词界意识的全文检索。
单词检索考虑5种检索方法检索完全一致的单词时的“完全一致”,一起检索完全一致的单词和与前方一致的单词时的“含完全一致的前方一致”,一起检索完全一致的单词和与后方一致的单词时的“含完全一致”的后方一致“,仅检索与前方一致的单词而不包含完全一致的单词时的”不含完全一致的前方一致“,仅检索与后方一致的单词而不包含完全一致的单词时的“不含完全一致的后方一致”。
首先,说明完全一致时的检索方法步骤501按索引字符串的长度(例如2),从前面开始划分检索字符串,并分别存储各字符串从距离第一字符几个字符开始。将分解检索字符串的部分称为部分检索字符串。例如检索字符串“全文检索装置”划分为“全文”、“检索”、“装置”3个部分检索字符,分别经一字符表为第0、第2、第4。这时,检索字符串用N不能分尽的情况下介分成部分重叠,按部分检索字符串的集合必然全部覆盖原业的检索字符要求,取出N字符的组。例如“检索文字例”的单词分作“检索”、“文字”、“字列”,并分别取为第0、第2、第3即可。这时,也可分解为“检索”、“索文”、“字列”,最好划分的查找空间尽量小。
步骤502对步骤501中取出的所有部分检索字符串,检索带单词信息字符串索引,并取出相符的字符串。从大量索引检索目的索引的方法采用已知的。取出此相符字符串时,在检索字符串为上述“全文检索装置”的情况下,对其第一部分检索字符串“全文”,参照索引的第一字符为单词的始端的标志,没有标志的,则不相符。同时对其最后部分检索字符串“装置”,参照索引的第2字符是否为单词的末尾的标志,没有标志,则不相符。对于其他部分的检索字符串(本例中为字符串“检索”),仅观察字符的一致,不检索标志。
步骤503对上述取出的索引,检索索引的检索对象文本号和文本中字符串的位置,并评价连续性。在检索字符串为“全文检索装置”的情况下,“全文”、“检索”、“装置”为同一文本号,且字符串“全文”的出现位置为第x字符时,字符串“检索的出现装置为第X+2字符,字符串“装置”的出现位置为第X+4字符。这种情况下,判断为此文本中包含单词“全文检索装置”。
以上为完全一致时的检索方法,前方一致等则能用图6所示表格的方法实现步骤502的索引和部分检索字符串的核对处理。
完全一致,其检索字符串的第1字为单词的始端,检索字符串的最后字符为单词的终端,在部分检索字符与索引核对时,用索引的标志确认该状态。
含完全一致的前方一致仅确认检索字符串的第1字符为单词的始端。
含完全一致的后方一致仅确定检索字符串的最后字符为单词的终端。
不含完全一致的前方一致,确认检索字符串的第1字符为单词的始端,而且检索字符串的最后字符不是单词的终端。
不含完全一致的后方一致,确认检索字符串的第1字符不是单词的始端,而且检索字符串的最后字符为单词的终端。
中间一致,则忽略单词的始端和终端,进行核对。
中间一致无词界意识,因而和以往的全文检索一样,可进行任意的字符检索。
利用这样的核对处理,能降低检索噪声。
这里,叙述长检索字符串,但在检索字符串为两个字符或一个字符的情况下,也能利用上述索引结构,满足各种检索要求。
如上所述,本实施形态的信息检索装置中,文本划分手段102将检索对象数据划分为单词,根据该划分结果,带单词信息字符串索引生成手段104生成具有单词始端和终端信息的字符串索引,即生成带单词信息字符串索引,并且带单词信息字符串索引检索手段106检索该索引,由此,用一个装置可实现单词检索和全文检索。
借助用一个装置实现单词检索和全文检索,适时灵活使用检索方式,因而能选择降低检索噪声的完全一致检索(单词检索),或选择中间一致检索以消除漏检,此外,还能适时选择前方一致和后方一致检索。
由于基本上以全文检索为基础,即使在检索字符串为复合词的情况下,也不需要将检索字符串划分为单词。因此,不会发生索引生成时和检索时划分基准变化而检索失败的问题。
单词检索和全文检索两者使用一个索引,因而与分别具有索引的方式相比,可减少索引量,查找空间也减少相应的量,其实用效果大。
如上所述,在不含单词划分数据的全文数据中检索第一和第二候选数据的数据检索装置内,包含以下步骤的操作(a)由划分程序102将全文数据划分为单词,从而生成单词划分数据(b)由索引生成程序104生成索引数据并加以存储;所述步骤(b)包括以下步骤(c)从全文数据提取所有分别含N个字符的字符串,N为自然数;(d)每一字符串分别添加各字符串的单词划分数据和字符位置数据,以产生索引数据;(e)对检索程序106输入带有表示其始端和终端的词界的查询数据;(f)由检索程序106检测单词检索的一致性;步骤(f)包括以下步骤(g)核对查询数据与索引数据中的每一字符串,以检测单词一致性;(h)核对查询数据的词界与每一数据串的单词划分数据,以检测词界一致性;(i)输出表明字符一致和词界一致的一个字符串的字符位置数据;(j)由检索程序106检测字符串检索的一致性;所述步骤(j)包括以下步骤
(k)核对查询数据与索引数据中的每一N个数据;(l)输出仅表明字符一致的一个字符串的字符位置数据;其中按照步骤(f)和步骤(j)公用的选择命令和索引数据,实施步骤(f)或步骤(j)。
按照选择命令,还可大体上同时实施步骤(f)和(j)。
此外,上述操作还可包含以下步骤划分步骤501将查询数据划分为分别含N个查询字符的查询字符串,对查询字符串执行步骤(g),以分别获得各查询字符串的核对结果;连续性评估步骤503根据表明达成字符一致的字符串的位置数据,评估与查询字符串达成字符一致的字符串的连续性;对表明字符一致和连续性的字符串中第一字符前的单词划分数据和最后字符后的字符划分数据,执行步骤(h);在步骤(i),当存在连续性,而且字符串中第一和最后字符的单词划分数据与第一和最后字符单词划分数据的词界一致时,输出第一候选数据的位置数据。
此外,如图6所示,响应模式命令,按第一至第五模式中的一种模式检测词界一致。
第一模式(完全一致)中,当查询数据中第1和最后字符的词界与表明字符一致的字符串中第一字符前的单词划分数据和最后字符后的单词划分数据一致时,建立词界一致。
第二模式(含完全一致的前方一致)中,当所述查询数据中第一和第后字符的词界与表明字符一致的字符串中第一字符前的单词划分数据和最后字符后的单词划分数据一致,而且所述查询数据中仅第一字符的词界与表明字符一致的字符串中第一字符前的单词划分数据一致时,建立词界一致。
第三模式(含完全一致的后方一致)中,当查询数据中第一和最后字符的词界与表明字符一致的字符串中第一字符前的单词划分数据和最后字符后的单词划分数据一致,而且查询数据中仅最后字符的词界与表明字符一致的字符串中最后字符的单词划分数据一致时,建立词界一致。
第四模式(不含完全一致的前方一致)中,当所述查询数据中仅第一字符的词界与表明字符一致的字符串中第一字符前的单词划分数据一致时,建立词界一致。
第五模式(不含完全一致的后方一致)中,当查询数据中仅最后字符的词界与表明字符一致的字符串中第一字符前的单词划分数据一致时,建立词界一致。
实施形态2实施形态2的信息检索装置中,利用删除索字符串中非所需词前后的词界,降低单词检索中的检索噪声。
如图7所示,此装置具有非所需词界删除手段107,用于从文本划分手段102所划分的字符串删除非所需词前后的词界。其他的结构和第1实施形态(图1)相同。由计算机的计算机构组成此非所需词界删除手段107。
说明此全文检索装置的运作。图8中示出总流程图。总流程大致分为数据登记处理和检索处理。数据登记处理可分为文本单词划分处理(步骤801)、非所需词界删除处理(802)、索引生成处理(803)。
图8的步骤801(文本划分处理)与第1实施形态中步骤201的文本划分处理相同,文本划分手段102对文本进行划分,但划分后的文本不分为单词,而以示出单词的始端和终端的形式进行划分。例如图9的901中所示的文本“本發明の實施は、”划分为图9的902那样。
图中为了方便使用单词始端标记“[”和单词终端标记“]”。实际上,在文本中也有可能出现这些标记,因而文本中不填入标记,而填入文本中未出现的字符码或用适合于划分的数据形式表现。
图8的步骤802(非所需词界删除处理)中,非所需词界删除手段107从划分的文本内,删除不需要作为检索对象词的词(非所需词)前后的单词始端标志和单词终端标记。非所需词判定吕,如已知的方法那样,采用备有非所需词辞典以发现所需词的方法。作为别的方法,有使用品词信息的,将助词、助动词、指示词(“これ”、“ぞれ”等)、判定词、连接词、感动词等作为非所需词。不用形态单元分析而用统计术进行单词划分时,不使用品词信息,因而有将平假名一字符或平假名二字符作为非所需词的方法。还考虑tf*idf法等按单词出现频度判断单词重要度以识别非所需词的方法,用这些方法判定非所需词。
图9中902的划分为单词的文本内,视为非所需词的在“の”、“は”、“、”前后的始端、终端标记。
图8的步骤803(索引生成处理)中,与第1实施形态的索引生成处理相同,带单词信息字符串索引生成手段104生成索引,但单词信息必须变为有单词始端和终端意识的。
单词信息中具有第1字符是否为单词的始端,第1字府是否为单词的终端,第2字符是否为单词的始端,第2字施舍是否为单词的终端的信息,带有该信息的形式因实现方法而异。图10中,作为例子,以标志的形式具有3种信息第1字符是否为单词的始端,第1字符是否为单词的终端,第2字符是否为单词的终端。利用做成标志,表现信息只需要1位,可减小索引的规模。利用仅使第1字符具有单词的终端和始端信息,也能适应检索词仅1个字符时的检索。利用具有第1字符的终端信息和第2字符的终端信息,在检索字符串为两个字符的情况下,可仅用一种索引的检索完全检索。省去第2字符的始端信息,因而不影响检索速度且能减小索规模。
对登记的全部文本,反复进行图8中从步骤801到803的处理。
图8的步骤804(检索处理),与实施形态1的处理相同,但检索时将检索词界的处理改变为检索单词始端或单词终端,由此,实现检索处理。
以上的处理中的删除非所需词的词界时,并非在单词检索(完全一致检索等)中单独命中非所需词本身,因而可降低检索噪声。然而,在中间一致检索(文字串检索)中,也命中这种非所需词,因而能发现任意字符串而不发生漏检。
还可用单词检索(完全一致检索等)对将非所需词来在中间的字符串进行检索。拟检索图9例中示出的字符串“本發明の實施”。该字符串中包含非所需词“の”,但本发明的单词检索(完全一致检索等)不将检索字符串划分为词单元,而将其划分为取决于索引的N字符长度进行检索后,观察检索字符串中最始端和最未端的字符是否分别与单词的始端、单词的终端一致。
即,以往的单词检索中,若要检索“本發明の實施”,则从“本發明の實施”中仅取出“本發明”、“實施”,仅林单词索引中检索这两个部分,因而往往检索出“本發明が實施”、“本發明は實施”等。简化单词位置关系核对的单词检索方式中,还往往检索出“本發明”和“實施”出现在分开的地方的文本。
然而,本发明的方法中,进行“本發明の實施”字符串原样的字符串检索后,检索数据库中“本發明の實施”前后是否有词界(不检索其中间的词界),因而检索能正确反映视为非所需词的单词。
例如用“京都の町”进行检索时,以往的单词检索变成检索“京都の町”的逻辑“与”,很可能回答出大量的结果,而且单纯字符串全文检索(中间一致检索)会检索出“東京都の町田市”,但本发明的方式能正确合中“京都の町”,因而能消除噪声“東京都の町田市”。
根据这样的特征,具有以下那样修正单词划分差错的效果。例如将文本“その繪の具の色は緑だ”。[繪の具][の][色][は][緑][だ]。
现假设误划分为[その][繪][の][具][の][色][は][緑][だ]。以后,识别非所需词,并删除其前后的词界,所得结果为その[繪]の[具]の[色]は[緑]だ。
若仅编制以往单词检索技术中所需词的单词索引,则[繪]、[具]、[色]、[緑]4个索引。于是,用“繪の具”进行单词检索时,有些检索方式不会检索命中该文本,或者检索命中“繪に具”、“繪を具”等错误的文本。
这些单词划分精度对检索精度产生坏影响的例子。然而,本发明的方式中,如以上说明的那样,即使对此文本也检索“繪の具”的字符串,并只检索其前后,即检索“繪”之前有单词始端,“具”之后有单词终端,不检索它们之间的情况,因而中间包含视为非所需词的词,也能用单词检索正确命中。
本实施形态中,说明了2级运作方式在步骤801,文本划分手段102将文本划分为单词后,在步骤802非所需词界删除手段107删除非所需词前后的词界。然而,如果文本划分手段能一面识别非所需词,一面进行划分,则在第1级能完成此处理,不输出非所需词始端、终端标记。作为文本划分手段识别非所需词的方法,可考虑利用品词信息的方法和将一字符平假名等判断为非所需的方法。
如上所述,本实施形态在步骤802中,非所需词删除手段107不是删除非所需词本身,而是仅删除非所需词前后的单词始端、终端标记。
由此,不是单独用非所需词部分命中单词检索,但在检索词中间夹有非所需词的情况下,能正确命中,可降低单词检索中的噪声。与此同时,可进行修正单词划分精度差的单词检索,其实用效果大。
如上所述,在实施形态2中,实施形态1所述步骤(a)的操作包括以下步骤
生成单词划分数据,以具有每一单词的始端和终端数据。如图9和图10所示,在步骤(h),将查询数据的词界与每一字符串的始端和终端数据比较,并在步骤804的检索处理中的步骤(i),当查询数据的词界与一个字符串的始端和终端数据一致时,输出第一候选数据的位置数据。
步骤(a)还包括以下步骤校验居于一个字符串首位的第一字符是否具有始端和终端;如图10的标志1所示,当第一字符具有始端时,对第一字符,给一个字符串添加始端数据;如图10的标志2所示,当第一字符具有终端时,对第一字符,给一个字符串添加终端数据;校验第一字符后的第二字符是否具有终端;如图10的标志3所示,当第二字符具有终端时,对第二字符,给一个字符串添加终端数据。
实施形态3实施形态3的信息检索装置中,利用删除位于索引字符串的接头词和接尾词前后的词界,降低单词检索中的检索噪声。
如图11所示,本装置具有接词单词词界删除手段108,用于从文本划分手段102所划分的字符串删除单词带有的一个词界。其他结构与第2实施形态(图7)相同。此接词单词词界删除手段108由计算机的计算机构组成。接词单词指的是接头词和接尾词。
说明此全文检索装置的运作。图12示出总流程。总流程大致分为数据登记处理和检索处理。数据登记处理可分为文本单词划分处理(步骤1201)、非所需词界删除处理(步骤1202)、接词单词词界删除处理(步骤1203)、索引生成处理(步骤1204)。
图12的步骤1201(文本划分处理)、处理1202(非所需词界删除处理)的处理与实施形态2相同。
图12的步骤1203(接词单词词界删除处理)中,接记号单词词界删除手段108从单词中删除一部分接词单词的词界。在接头词的情况下,删除接头词后的单词终端标记;在接尾词的情况下,删除尾词前的单词始端标记。
用图13的例子进行说明,则借助划分为单词,并删除非所需词的词界,图13(a)的文本变成图13(b)。图中,“東京都”的“都”为接尾词,“前知事”的“前”为接头词。因此删除它们的单词始端标记或单词终端标记,则得到图13(c)。
图12的步骤1204(索引生成处理)与实施形态2中的处理相同。每一登记文件反复进行从步骤1201到步骤1204的处理。
图12中步骤1205的检索处理与第2实施形态中的处理相同。以上处理中删除接头词的词界时,并非由单词检索(完全一致检索)单独命中接头词本身,因而能降低检索噪声。然而,带有接词的单词不论是单独单词还是带有接词单词的形式,均可进行单词检索。
用图14说明上述状况。对图13例子中的文本“東京都の前知事青岛氏は”用“東京”进行检索时,如图14(a)所示,由于“東京”的前后存在单词始端标记和单词终端标记,用完全一致检索命中。对同一文本用“東京都”进行检索时,如图14(b)所示,“東京都”的前后也存在单词始端标记和单词终端标记,因而用完全一致检索命中。这是因为本发明的方式中,检索处理忽略中间存在何种词界标记。然而,用含义为“京城”的“都”对同一文本进行检索时,如图14(c)所示,由于“都”之前无单词始端标记,用完全一致检索不命中。后文一致检索或中间一致检索时,则命中。当然,用“京都”进行检索时,如图14(d)所示,完全一致检索也不能命中。
本实施形态说明了2级运作的方式在步骤1201文本划分手段102将文本划分为单词后,在步骤1203接词单词词界删除手段108删除接词单词前后的词界。然而,如果文本划分手段能一面识别接词单词,一面进行划分,则用一级能完成此处理,不输出非所需单词始端、终端标记。作为文本划分手段识别接词单词的方法,采用品词信息。
在统计单词划分中单词界限不明确的情况下,利用这样仅由单词始端标记或仅由单词终端标记预先划分不明确地部分,吸收单词划分的误差,可进行精度更高的检索。
如上所述,本实施形态在步骤1203中,接词单词词界删除手段108不是删除接词单词本身,而是仅删除接词单词前后的单词始端,终端标记。由此,单词检索不单独命中接词单词部分,但无论检索词包含或不包含接词单词,都能正确命中,因而可消除单词检索中的噪声。
此索引的规模与第1实施形态中的相同,而且能与包含接词单词时和不包含时的多种模式匹配。
即使假设单词划分中不能高精度进行划分,只要能区分单词的始端、单词的终端,就能进行修正单词划分精度差的单词检索,其实用效果大。
除了第二实施形态的操作外,第三实施形态数据检索装置还包括以下步骤检测全文数据中每一端词的词头和词尾,当一个单词前面的单词为词头时,不产生始端数据作为单词划分数据,而当所述一个单词后面的单词为词尾时,不产生终端数据作为单词划分数据。
第三实施形态的数据检索装置还包括以下步骤的操作检测全文数据中每一单词的词类,以检测词头和词尾。
此外,第三实施形态的数据检索装置还包括以下步骤的操作检测全文数据中每一单词出现的频度;根据所述频度,判断单词中的一个为词头和词尾。
实施形态4实施形态4的信息检索装置对检索词检索的多个文件标注表示与检索词的拟合精度的顺序,并进行提示。
如图15所示,此装置具有检索结果数值化手段110和检索结果顺序化手段111,前者对检索到的文件提供表示与检索词的拟合程度的数值,后者对授予数值的文件该数值进行排列。其他结构与第3实施形态(图11)相同。由计算机的计算机构组成检索结果数值化手段和检索结果顺序化手段。
说明此全文检索装置的运作。总流程与第3实施形态的图12相同,大致分为数据登记处理和检索处理。数据登记处理可分为文本单词划分处理、非所需词界删除处理、接词单词词界删除处理、索引生成处理,这些处理分别与实施形态3的相应处理相同。
图16示出检索处理的详细流程。
带单词信息字符串索引检索手段106实现两种检索方法(1)中间一致其功能为无词界意识的以往字符串全文检索。
(2)单词检索其功能为有词界意识的全文检索。
单词检索可考虑5种检索方法完全一致,含完全一致的前方一致,含完全一致的后方一致,不含完全一致的前方一致,不含完全一致的后方一致。然而,说明完全一致时的检索方法。
步骤1601与第1实施形态中图5的步骤501相同,对检索字符串进行分解处理,并取出部分检索字符串。
步骤1602对取出的所有部分检索字符串,检索带单词信息字符串索引,并取出相符的索引。此处理与实施形态1中图5的步骤502不同,在该时刻还未检索单词的始端、终端等。
步骤1603对这样取出的索引与实施形态1中图5的步骤503相同,检索索引的检索对象文本号和文本中字符串的位置并进行连续性评价。检索字串为“全文检索装置”时,“全文”、“检索”、“装置”具有相同的文本号,并且字符串“全文”的出现位置为第七字符时,字符串“检索”的出现位置为第X+2字符,字符串“装置”的出现位置为第X+4字符。在这种情况下,判断为此文件包含字符串“全文检测装置”。
步骤1604对发现的每一字符串判断该字符串是完全一致还是不含完全一致的中间一致(包含检索词中的字符串,但与检索词不完全一致)的。图15的检索结果数值化手段110对所发现的字符串,在完全一致时授给X分的得分,在不含完全一致的中间一致时授给y分的得分。易外说明x,y的具体得分授给方法。检索结果数据化手段110对包含所发现字符串的每一文本累计其得分,算出各文本的得分。后面详细说明累计。
步骤1605到上一步骤为止的处理中,每一文本已带有得分,因而图15的检索结果顺序化手段111按得分对文本标注顺序,并将其作为检索结果。
通过以上的步骤,结果一次检索处理。然而,检索结果数值化处理的方法,即步骤1604中对所发现字符串给分的方法和每一文本得分累计方法有多种实现途径。下面举例说明三种方法。
第1方法例中作为授给得分x,y的方法,采取授给满足X&#62Y的任意正整数的方法。例如,取为x=2,y=1。累计中即使假设文本中包含多个检索字符串,也仅取学符串得分最大的一个作为该文本的得分。因而,用完全一致检索命中的文本给2分,用不含完全一致中间一致的检索命中的文件给1分。
以图17为例进行说明,则用检索词“京都”进行完全一致指定检索时,图17(a)的文本与“京都”部分的2处完全一致,同时与“東京都”部分的2处中间一致。然而,文本的得分仅取完全一致处的1个,为2分。反之,图17(b)的文本与多个“東京都”部分中间一致,但文本的得分为1分。
按本文得分顺序对上述结果分类,则如图18所示,检索结果的高端出现用完全一致命中的文本,低端出现仅用中间一致命中的文本。检索系统的使用者通常从检索结果的高端开始阅览,因而能先将单词完全一致而无噪声的字符串作为检索结果加以利用,另一方面如果连低端的中间一致也利用,则可防止漏检。
第2方法例中,进行第1方法中所用x、y得分授给方法如下。对在步骤1603命中的各文本,求一个文本所包含检索字符串的数目大。然后,设超过t中最大数字的数字为u,则将x设定为满足下式的正整数。
x=u×y可简化为取X=u,y=1。
用图19和图20,以指定完全一致的情况为例进行说明。将图20左端的5个文本取为包含图19所示的内容,并用“京都”进行检索时,分别用完全一致和不含完全一致的中间一致命中。各文本中,其总计命中数取为t。t中最大的是文本2的t=8。于是,将超过该最大数的数字9设定为x,取y=1。
累计中,文本内包含多个检索字符串时,将每一字符串得分的和,即完全一致处的数目X x分+仅中间一致处的数目×y分,作为该文本的得分。图20中,取x=1,y=1,分别计算各文本的得分。
按文本得分的顺序将上述结果分类,则用完全一致命中的文本位于检索的高端,仅用中间一致命中的文本位于低端,它们分别形成组,其阈值为t的最大值。于是,用完全一致命中的组和用中间一致命中的组,均按命中数分类。通常将包含检索字符串多的文本作为重要文本或接近检索者作为目的的文本,因而使按完全一致命中较多单词的文本位于高端,可谋求使用者方便,而且不发生漏检。
结果,此计算方式在高端形成用完全一致命中的组,在低端形成仅用中间一致命中的组。然而,不需要划分为组的处理和每组分类等处理,仅一次分类就可将这2个组分开,其阈值为t的最大值。进一步说细观察,则每一完全一致的个数形成组,例如形成包含3个完全一致的文本中,从中间一致多的开始,依次排列,包含2个完全一致的文本中,从中间一致多的开始依次排列。
此例中,指定完全一致时,分类为完成一致组和不含完全一致的中间一致组,但如果将给分方法改变为例如不含完全一致、前方一致、后方一致的中间一致的得分y=1完全一致的得分X=u×u×u×u×y
前方一致的得分V=u×u×y后方一致的得分W=u×y则能实现按完全一致、前方一致、后方一致、中间一致的顺序表示。为了实现这点,按命中处的字符串前后是否有词界调整得分即可。
指定前方一致和后方一致时,也可用上述方法计算。指定不含完全一致的前方一致,或指定不含完全一致的后方一致时,根据给分方法,将上述顺序改变完全一致的得分低,由此,即可实现。
第3方法例中,就文本的得分计算,参考用完全一致命中的字符串数与用中间一致命中的字符串数之比。或者参考用完全一致使中文本数与用中间一致命中的文本数之比。
取全部数据内完全一致的字符串数为n个,全部数据内中间一致的字符串数为m个时,由于中间一致包含完全一致,n和m的关系必然满足n≤m在文本数的情况下,同样的关系也成立。
作为此n与m之比的用法例,如图21(a)所示,n与m之比大时,认为完全一致的字符串和中间一致或不一致的字符串是别的单词,而不是单词划分差错,并使得分累计反映此结果。
反之,如图21(b)所示,该比小时,认为中间一致的字符串有可能单词划分差错,并使得分累计反映该可能性。
例如,用“京都”检索某数据库时,完全一致与中间一致之比为图21(a)那样,因而预测中间一致或不一致的字符串和完全一致的字符串为别的单词。实际上,完全一致检测到“京都”,中间一致除“京都”外还检测到“東京都”,因而成为这样的比。别的例中,用“人参”进行检索时,也成为图21(a)那样的比,因而预测中间一致或不一致的字符串和完全一致的字符串是别的单词。实际上,完全一致检测到蔬菜的“人参”,中间一致除“人参”外,还检测到“外国人参加”、“10人参加”、“婦人参与”等,因而成为这样的比。
另一方面,用“今朝”检索同一数据库时,完全一致与中间一致之比成为图21(b)那样,因而预测中间一致和完全一致为相同的单词。实际上,对于文本“今朝方の氣温は、”,“今朝方”部分用中间一致能检索互,而用与“今朝”完全一致检测不到,因而可认为是相同的单词。
为了使得分累计反映上述的比,例如取文本中完全一致处的数目为p,非完全一致仅中间一致处的数目为q时,与第2方法例同样地定义x、y,并设α为常数,则如果将文本的得分取为下式,就能反映上述的比p×x×α×log(m/m)+y×q作为得分x,y的授给方法,与第2计算方法例相同,分别对步骤1603中命中的文本求一个文本中包含的检索字符串数t。然后,将超过t中最大数字的数字设定为x,并取y=1。
按文本得分顺序将上述结果分类,则认为重要的文本位于检索结果的高端,成为漏检对策的文本位于低端。此顺序不象第2计算方法例那样,明确分为用完全一致命中的组和仅用中间一致命中的组,但该顺序甚至反映单词划分的精度,因而对使用者更加方便。
以上所举的例子中,说明了指定完全一致时,仅利用完全一致命中数与中间一致命中数之比的例子,但不限定于此,也可应用前方一致和后方一致的命中数估算单词划分精度。
与第2计算方法例相同,指定前方一致、后方一致、不含完全一致的前方一致或不含完全一致的后方一致时,调整上述给分方法和计算式,使顺序改变,也能实现。
以上3个计算方法例中,用关键词为1个的情况进行说明,但指定了2个关键词并用逻辑运算符加以组合时,也能应用,并实现计算。对多个关系词逻辑组合的情况,已提出各种方法的建议,其中包括将上述文本得分归一化,使逻辑运算符的组合映射到文本得分的算术运算。应用这些算法,可实现上述计算。
如上所述,本实施例中,带单词信息字符串索引检索手段106不区分字符串和单词地进行检索,检索结果数值化手段110将结果数值化,检索结果顺序化手段111将检索结果分类,从而可使消除检索噪声的结果位于高端,同时使中间一致结果位于低端,从而能防止发生漏检。即使单词划分精度不是100%,也能实现抑制漏检和检索噪声两声的检索,其实用效果大。
如上所述,除实施形态1的操作外,实施形态4还包括以下步骤的操作用数值评价步骤(f)和(j)的结果,其中在具有文件标识数据的若干组全文检索第一和第二候选数据。此操作还包括以下步骤根据若干组全文数据在步骤(f)和(j)的结果,编排所述若干组全文数据的顺序;输出已编顺序全文数据的文件标识数据。
此外,执行步骤(f)和(j)。此操作还包括以下步骤分别用不同的第一和第二系数对步骤(f)和(j)的结果加权。
确定第一和第二系数,使具有所述步骤(f)中数值评价结果最低的任何组全文数据处于比具有所述(j)中数值评价结果最高的任何组全文数据高的位置。
由以上说明可知,本发明的信息检索方法和信息检索装置中,能用一个索引同时实现单词检索和字符串检索,不需要具有双重索引,因而能做得检索快,索引空间小。
又能同时执行两种检索即,单词检索和字符串检索,并对结果编排顺序。
因此,一方面能抑制检索噪声,同时可防止漏检。
权利要求
1.一种信息检索方法,所述信息检索方法对文本数据进行全文检索,其特征在于,将检索对象文本划分为词单元,根据划分为词单元的所述文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引后,根据所述带单词信息字符串索引,用字符串检索或单词检索或这两种检索对检索词进行检索。
2.如权利要求1所述的信息检索方法,其特征在于,利用在所述检索对象文本中包含的单词前添加单词始端标记,在单词后添加单词终端标记,将所述检索对象文本划分为词单元后,根据划分为词单元的所述文本,生成具有表示所述单词始端标记和单词终端标记的单词信息且字符数为N的的所述带单词信息字符串索引。
3.如权利要求2所述的信息检索方法,其特征在于,所述带单词信息字符串索引中,第1字符在该字符前存在单词始端标记时,具有表示该情况的单词信息,在该字符后存在单词终端标记时,具有表示该情况的单词信息,第2字符以后则仅在该字符后存在单词终端标记时,具有表示该情况的单词信息。
4.如权利要求1至3任一项所述的信息检索方法,其特征在于,根据所述带单词信息字符串索引,一起执行发现检索词的单词的单词检索和发现所述检索词的字符串的字符串检索。
5.如权利要求4所述的信息检索方法,其特征在于,将所述检索词的字符串划分为字符数N的部分检索字符串,根据所述带单词信息字符串索引,检索与各部分检索字符串一致的字符串,所检索的各字符串在检索对象文本上具有连续性时,判断为所述检索词的文字串是检索到的文字串,在检索与包含所述检索词的第1字符的部分检索字符串或包含所述检索词的最后字符的部分检索字符串一致的字符串时,增加所述第1字符前或所述最后字符后的单词信息作为判断材料,进行一致性判断,从而对检索词的单词进行检索。
6.如权利要求5所述的信息检索方法,其特征在于,利用所述单词检索,根据所述带单词信息字符串索引,检索与检索词的单词完全一致的单词、与检索词的单词完全一致和与前方一致的单词、与检索词的单词完全一致和与后方一致的单词、仅与检索词的单词前方一致的单词,或仅与检索词的单词后方一致的单词。
7.如权利要求1所述的信息检索方法,其特征在于,从划分为词单元的所述文本删除非所需词前后的所述单词信息,生成所述带单词信息字符串索引。
8.如权利要求2所述的信息检索方法,其特征在于,从划分为词单元的所述检索对象文本删除非所需词前的所述单词始端标记和非所需词后的所述单词终端标记后,根据划分为该词单元的文本,生成所述带单词信息字符串索引。
9.如权利要求7或8所述的信息检索方法,其特征在于,将不能单独成为检索对象词的单词选为所述非所需词。
10.如权利要求7或8所述的信息检索方法,其特征在于,根据单词的品词信息,确定所述非所需词。
11.如权利要求7或8所述的信息检索方法,其特征在于,将平假名一字符或平假名二字符组成的单词选为所述非所需词。
12.如权利要求7或8所述的信息检索方法,其特征在于,根据检索对象文本数据中单词的出现频度,确定所述非所需词。
13.如权利要求5所述的信息检索方法,其特征在于,根据所述带单词信息字符串索引,检索与包含所述检索词的第1字符的部分检索字符串包含所述检索词的最后字符的部分检索字符串一致的字符串时,增加表示所述第1字符前的单词始端标记的单词信息或表示最后字符后的单词终端标记的信息作为判断材料,进行一致性判断,检索与其他部分检索字符串一致的字符串时,不增加所述单词信息作为判断材料。
14.如权利要求2所述的信息检索方法,其特征在于,划分为词单元的所述检索对象文本删除接头词后的所述单词终端标记和接尾词前的所述单词始端标记后,根据划分为该词单元的所述文本,生成所述带单词信息字符串索引。
15.如权利要求14所述的信息检索方法,其特征在于,根据单词的品词,确定作为所述接头词和接尾词的词。
16.如权利要求14所述的信息检索方法,其特征在于,根据检索对象中词在数字后示出的频度,确定作为所述接尾词的词。
17.如权利要求1所述的信息检索方法,其特征在于,根据检索词的检索结果,将对检索对象文本检索词的拟合度数值化,根据获得的数值使各检索对象文本带有顺序,并将各检索对象文本排成顺序加以提示。
18.如权利要求17所述的信息检索方法,其特征在于,根据检索对象文本,分别对各检索词一起执行发现检索词的单词的单词检索和发现所述单词的字符串的字符串检索,将该两种检索结果加权并分别加以数值化。
19.如权利要求18所述的信息检索方法,其特征在于,使单词检索中的检索结果带有比字符串检索中的检索结果大的加权并加以数值化,以便按单词检索发现检索词的检索对象文本带有比仅按字符串检索发现检索词的字符串的检索对象文本高的顺序。
20.如权利要求19所述的信息检索方法,其特征在于,使利用单词检索,根据检索对象文本,对与检索词的单词完全一致的单词、与前述一致的单词与与后方一致的单词进行检索时的检索结果带有各自不同的加权并加以数值化。
21.如权利要求20所述的信息检索方法,其特征在于,使单词检索中的检索结果带有不同的加权并加以数值化,以便进行检索之际,在与检索词的单词完全一致的单词、与前方一致的单词和与后方一致的单词之间指定顺序时标注顺序,使发现第1顺序单词的检索对象文本位于高端,发现第2顺序单词的检索对象文本位于其后,仅发现第3顺序单词的检索对象文本进一步位于其后。
22.如权利要求21所述的信息检索方法,其特征在于,分别使各检索结果带有不同的加权并加以数值化,以便发现所述第1顺序单词的检索对象文本之间带有所述第1顺序单词的检索数从多到少的顺序,发现所述第2顺序单词的检索对象文本之间带有所述第2顺序单元的检索数从多到少的顺序,仅发现所述第3顺序单元的检索对象文本之间带有所述第3顺序单词的检索数从多到少的顺序,而且仅用所述字符串检索发现检索词字符串的检索对象文本之间带有所述字符串的检索数从多到少的顺序。
23.如权利要求17所述的信息检索方法,其特征在于,根据由所述单词检索进行检索后得到的与检索词的单词完全一致的单词、与前方一致的单词或与后方一致的单词的检索数对由所述字符串检索进行检索后得到的检索词字符串的检索数之比,估算检索对象文本的单词划分精度,并使检索对象文本的顺序标注反映该精度。
24.如权利要求17至23中的任一项所述的信息检索方法,其特征在于,以多个检索词的逻辑组合提供检索词时,分别对各个检索词的检索结果进行所述数值化,并汇总这些检索结果数据值进行对检索对象文本的顺序标注。
25.一种信息检索装置,所述信息检索装置对文本数据进行全文检索,其特征在于,该装置具有存储检索对象文本的检索对象数据存储手段;将检索对象文本划分为词单元的文本划分手段;保持划分为词单元的所述文本的单词划分文本存储手段;根据划分为词单元的所述文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引的带单词信息字符串索引生成手段;存储所生成所述带单词信息字符串索引的带单词信息字符串索引存储手段;用所述带单词信息字符串索引,进行检索词的字符串检索或单词检索或这两种检索的带单词信息字符串索引检索手段。
26.如权利要求25所述的信息检索装置,其特征在于,所述文本划分手段利用在检索对象文本所包含的单词前添加单词始端标记,在单词后添加单词终端标记,将所述检索对象文本划分为词单元,所述带单词信息字符串索引生成手段根据划分为词单元的所述文本,生成具有表示所述单词始端标记和单词终端标记的单词信息且字符数为N的带单词信息字符串标记。
27.如权利要求26所述的信息检索装置,其特征在于,作为所述单词信息,所述带单词信息字符串索引生成手段对所述带单词信息字符串索引的第1字符,在该字符前存在单词始端标记时,设置表示该情况的单词信息,该字符后存在单词终端标记时,设置表示该状况的单词信息,第2字符以后则仅在该字符后存在单词终端标记时,设置表示该情况的单词信息。
28.如权利要求25所述的信息检索装置,其特征在于,所述带单词信息字符串索引检索手段用所述带单词信息字符串牵引,一起执行发现检索词的单词的单词检索和发现所述检索词的字符串的字符串检索。
29.如权利要求28所述的信息检索装置,其特征在于,所述带单词信息字符串索引检索手段将检索词的字符串划分为字符数N的部分检索字符串,根据所述带单词信息字符串索引检索与各部分检索字符串一致的字符串,所检索各字符串在检索对象文本上具有连续性时,判断为所述检索词的字符串是检索到的字符串,并在检索与包含所述检索词的第1字符的部分检索字符串或包含所述检索词的最后字符的部分检索字符串一致的字符串时,增加所述第1字符前或所述最后字符后的单词信息作为判断材料,进行一致性判断,从而对检索词的单词进行检索。
30.如权利要求29所述的信息检索装置,其特征在于,所述带单词信息字符串索引检索手段利用所述单词检索,检索与检索词的单词完全一致的单词、与检索词和单词完全一致和与前方一致的单词、与检索词的单词完全一致和与后方一致的单词、仅与检索词的单词前方一致的单词,或仅与检索词的单词后方一致的单词。
31.如权利要求26所述的信息检索装置,其特征在于,具有非所需词界删除手段,该手段从划分为词单元的所述文本中添加的所述单词始端标记和单词终端标记内,删除单独不能成为检索对象词的非所需词前后的所述单词始端标记和单词终端标记。
32.如权利要求25所述的信息检索装置,其特征在于,所述文本划分手段对检索对象文本所包含单词中不能单独成为检索对象的单词,不进行词单元划分。
33.如权利要求26所述的信息检索装置,其特征在于,具有接词单词词界删除手段,该手段从划分为词单元的所述文本中添加的所述单词始端标记和单词终端标记内,删除接头词后的单词终端标记和接尾词前的单词始端标记。
34.如权利要求26所述的信息检索装置,其特征在于,所述文本划分手段对检索对象文本中包含的接头词仅添加所述单词始端标记,对接尾词只添加所述单词终端标记。
35.如权利要求26所述的信息检索装置,其特征在于,具有根据检索拟合度将检索结果数值化的检索结果数值化手段;根据所述检索结果数值化手段提供给各检索对象文本检索结果的数值,进行各检索对象文本顺序标注的检索结果顺序化手段。
36.如权利要求35所述的信息检索装置,其特征在于,所述检索结果数值化手段使单词检索中的检索结果带有比字符串检索中的检索结果大的加权并加以数值化,以便按单词检索发现检索词的检索对象文本带有比仅按字符串检索发现检索词的字符串的检索对象文本高的顺序。
37.如权利要求35所述的信息检索装置,其特征在于,所述检索结果数值化手段对利用单词检索,根据检索对象文本,检索与检索词的完全一致的单词、与前方一致的单词或与后方一致的单词时的检索结果,分别授予不同的加权并加以数值化。
38.如权利要求37所述的信息检索装置,其特征在于,所述检索结果数值化手段,使单词检索中的检索结果带有不同的加权并加以数值化,以便进行检索之际,在与检索词的单词完全一致的单词、与前方一致的单词和后方一致的单词之间指定顺序时标注顺序,使发现第1顺序单词的检索对象文本位于高端。发现第2顺序单元的检索对象文本位于其后,仅发现第3顺序单词的检索对象文本进一步位于其后。
39.如权利要求38所述的信息检索装置,其特征在于,所述检索结果数值化手段分别使各检索结果带有不同的加权,以便发现所述第1顺序单元的检索对象文本之间带有所述第1顺序单元的检索数从多到少的顺序,发现所述第2顺序单词的检索对象文本之间带有所述第2顺序单元的检索数从多到少的顺序,仅发现所述第3顺序单词的检索对象文本之间带有所述第3顺序单词的检索数从多到少的顺序,而且仅用所述字符串检索发现检索词字符串的检索对象文本之间带有所述字符串的检索数从多到少的顺序。
40.如权利要求35所述的信息检索装置,其特征在于,所述检索结果顺序化手段根据由所述单词检索进行检索后的得到的与检索的单词完全一致的单词、与前方一致的单词或后方一致的单词的检索数对由所述字符串检索进行检索后得到的检索词字符串的检索数之比,估算检索对象文本的单词划分精度,并使检索对象文本的顺序标注反映该精度。
41.一种在无单词划分数据的全文数据中检索第1和第2候选数据的方法,其特征在于,包括以下步骤(a)将所述全文数据划分为单词,从而生成单词划分数据;(b)生成索引数据并加以存储;所述步骤(b)包括以下步骤(c)从所述全文数据提取所有分别含N个字符的字符串,N为自然数;(d)每一所述字符串分别添加各所述字符串的所述单词划分数据和字符位置数据,以产生所述索引数据;(e)输入带有表示其始端和终端的词界的查询数据;(f)检测单词检索的一致性;步骤(f)包括以下步骤(g)核对所述查询数据与所述索引数据中的每一所述字符串,以检测字符一致性;(h)核对所述查询数据的所述词界与每一所述字符串的所述单词划分数据,以检测词界一致性;(i)输出表明所述字符一致和所述词界一致的一个字符串的所述字符位置数据;(j)检测字符串检索的一致性包括以下步骤(k)核对所述查询数据与所述索引数据中的每一所述N个字符;(l)输出仅表明所述字符一致的一个所述字符串的所述字符位置数据;其中按照所述步骤(f)和步骤(j)公用的选择命令和所述索引数据,实施所述步骤(f)或步骤(j)。
42.如权利要求41所述的方法,其特征在于,所述步骤(a)包括以下步骤产生所述单词划分数据,以具有每一单词的始端和终端数据;在步骤(h)中,将所述查询数据的所述词界与每一字符串的所述始端和终端数据比较;在步骤(i)中,当所述查询数据的所述词界与所述一个字符串的始端和终端数据一致时,输出所述第一候选数据的所述位置数据。
43.如权利要求42所述的方法,其特征在于,所述步骤(a)还包括以下步骤校验在一个所述字符串居于首位的第一字符是否具有始端和终端;当第一字符具有所述始端时,对所述第一字符,给一个所述字符串添加始端数据;当所述第一字符具有所述终端时,对所述第一字符,给一个所述字符串添加所述终端数据;校验后续所述第一字符的第二字符是否具有终端;当所述第二字符具有所述终端时,对所述第二字符,给所述一个字符串添加终端数据。
44.如权利要求41所述的方法,其特征在于,按照所述选择命令实施所述步骤(f)和步骤(j)。
45.如权利要求41所述的方法,其特征在于,还包括以下步骤将所述查询数据划分为分别含N个查询字符的查询字符串,对所述查询字符串执行所述步骤(g),以分别获得各所述查询字符串的核对结果;根据表明达成所述字符一致的所述字符串的所述位置数据,评估表明与所述查询字符串达成所述字符一致的所述字符串的连续性;对表明所述字符一致和所述连续性的所述字符串中第一字符前的所述单词划分数据和最后字符后的字符划分数据执行步骤(h);其中在步骤(i),当存在连续性,而且所述字符串中第一和最后字符的所述单词划分数据与第一和最后字符的所述单词划分数据的所述词界一致时,输出第一候选数据的所述位置数据。
46.如权利要求45所述的方法,其特征在于,响应模式命令,按第一至第五模式中的一种模式检测词界一致性。所述第一模式中,当所述查询数据中第1和最后字符的所述词界与表明所述字符一致的所述字符串中第一字符前的单词划分数据和最后字符后的单词划分数据一致时,建立所述词界一致。所述第二模式中,当所述查询数据中第一和最后字符的所述词界与表明所述字符一致的所述字符串中第一字符前的所述单词划分数据和最后字符后的所述单词划分数据一致,而且所述查询数据中仅第一字符的所述词界与表明所述字符一致的所述字符串中第一字符前的所述单词划分数据一致时,建立所述词界一致。所述第三模式中,当所述查询数据中第一和最后字符的所述词界与表明所述字符一致的所述字符串中第一字符前的所述单词划分数据和最后字符后的所述单词划分数据一致,而且所述查询数据中仅最后字符的所述词界与表明所述字符一致的字符串中最后字符的所述单词划分数据一致时,建立所述词界一致。所述第四模式中,当所述查询数据中仅第一字符的所述词界与表明所述字符一致的所述字符串中第一字符前的所述单词划分数据一致时,建立所述词界一致。所述第五模式中,当所述查询数据中仅最后字符的所述词界与表明所述字符一致的所述字符串中第一字符前的所述单词划分数据一致时,建立所述词界一致。
47.如权利要求41所述的方法,其特征在于,还包括以下步骤检测所述全文数据中每一单词的状况;根据所述状况判断各单词是否检索中的非所需单词;其中在步骤(d),当判断一个所述单词为非所需单词时,不给含所述非所需单词的所述一个字符串添加所述单词划分数据,而且不给所述一个字符串添加所述单词划分数据,就不实施所述词界一致。
48.如权利要求42所述的方法,其特征在于,还包括以下步骤检测所述全文数据中每一单词的状况;根据所述状况判断,判断各单词是否检索中的非所需单词;其中在步骤(d),当判断一个所述单词为非所需单词时,不给所述每一字符串添加所述单词划分数据的所述始端和终端数据,而且不给所述一个字符串添加所述单词划分数据,就不检测所述词界一致。
49.如权利要求47所述的方法,其特征在于,还包括以下步骤检测每一所述单词是否将所述单词的前一个连接到所述单词的后一个;当所述一个单词将所述单词的前一个连接到所述单词的后一个时,判断为所述单词中的一个是非所需单词。
50.如权利要求47所述的方法,其特征在于,还包括以下步骤检测所述全文数据中,每一单词的词类,以检测所述状况;根据所述词类判断一个单词为所述非所需单词。
51.如权利要求47所述的方法,其特征在于,还包括以下步骤检测所述全文数据中,每一所述单词是否至少包含一个平假名字符,以检测所述状况;当所述单词中的一个包含一个平假名字符和所述单词中的一个包含两个平假名字符时,判断所述单词中的一个为所述非所需单词。
52.如权利要求47所述的方法,其特征在于,还包括以下步骤检测所述全文数据中每一单词的出现频度;当所述单词中的一个具有高于参考值的所述频度时,判断所述一个单词为非所需单词。
53.如权利要求45所述的方法,其特征在于,表明所述字符一致的所述字符串中,第一字符和最后字符之间的中间单词不执行所述步骤(h)。
54.如权利要求42所述的方法,其特征在于,还包括以下步骤检测所述全文数据中每一单词的词头和词尾,当一个单词前面的单词为词头时,不产生所述始端数据作为所述单词划分数据,而当所述一个单词后面的单词为词尾时,不产生所述终端数据作为所述单词划分数据。
55.如权利要求54所述的方法,其特征在于,还包含以下步骤检测所述全文数据中每一单词的词类,以检测所述词头和所述词尾。
56.如权利要求54所述的方法,其特征在于,还包括以下步骤检测所述全文数据中每一单词的出现频度;根据所述频度,判断所述单词中的一个为所述词头和词尾。
57.如权利要求41所述的方法,其特征在于,还包括以下步骤用数值评价所述步骤(f)和(j)的结果,其中在具有文件标识数据的若干组所述全文数据中检索所述第一和第二候选数据,所述方法还包括以下步骤根据所述若干组全文数据在所述步骤(f)和(j)的结果,编排所述若干组全文数据的顺序;输出所述已编顺序全文数据的所述标识数据。
58.如权利要求57所述的方法,其特征在于,执行步骤(f)和(j),所述方法还包括以下步骤分别用不同的第一第二系数对步骤(f)和(j)的结果加权。
59.如权利要求58所述的方法,其特征在于,确定所述第一和第二系数,使具有所述步骤(f)中数值评价结果最低的任何组所述全文数据处于比具有所述步骤(j)中数值评价结果最高的任何组所述全文数据高的位置。
全文摘要
本发明揭示一种信息检索方法和信息检索装置,包括存储检索对象文本的检索对象数据存储手段101;将检索对象文本划分为词单元的文本划分手段102;保持划分为词单元的文本的单词划分文本存储手段103;根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引的索引生成手段104;存储所生成带单词信息字符串索引的索引存储手段105;用带单词信息字符串索引进行检索词的字符串检索和单词检索的检索手段106。
文档编号G06F17/30GK1281191SQ0012164
公开日2001年1月24日 申请日期2000年7月19日 优先权日1999年7月19日
发明者饭塚泰树, 田边智子, 菊池忠一 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1