文件检索装置、文件检索系统、文件检索程序和文件检索方法

文档序号:6592442阅读:265来源:国知局
专利名称:文件检索装置、文件检索系统、文件检索程序和文件检索方法
技术领域
本发明涉及使用关键词检索文件的文件检索装置和文件检索方法,特别涉及使用 翻译后的关键词检索文件的文件检索装置和文件检索方法。此外,本发明涉及包括这种文 件检索装置的文件检索系统。并且,本发明还涉及文件检索程序,用于使计算机具有作为这 种文件检索装置或者文件检索系统的功能。
背景技术
在文件检索系统中,当文件数据库包含了多种语言的文件时,公知的是把输入的 关键词翻译成其他语言来作为检索用的关键词。专利文献1中记载了这种系统的例子。在 专利文献1中记载了把用日语指定的关键词翻译成英语,对日语的文献用日语进行检索, 对英语的文献用英语进行检索。专利文献1 日本专利公开公报特开平10-232883号

发明内容
可是在现有技术中,当使用多种语言进行检索的情况下,不能恰当地确定作为检 索结果的输出文件的优先顺序。由于单词一般都是多义词,在把用母语输入的关键词翻译成其他语言时,并不一 定是最佳的选择。因此,当在检索结果的文件清单中确定文件的优先顺序时,有时例如对包 含翻译后的关键词的文件不能恰当地确定优先顺序。为了解决这样的问题,本发明的目的是提供这样一种文件检索装置和文件检索方 法,当使用输入的关键词和翻译后的关键词进行文件检索时,可以恰当地确定作为检索结 果的输出文件的优先顺序。此外本发明的目的是提供一种包括这种文件检索装置的文件检索系统。本发明还提供一种文件检索程序,用于使计算机具有作为这种文件检索装置或者 文件检索系统的功能。本发明提供使用关键词检索文件的文件检索装置,其包括关键词接收部件,接收 一个以上的关键词作为输入关键词;关键词翻译部件,对应于各所述输入关键词,获得把所 述输入关键词翻译成其他语言的翻译关键词;关键词评分确定部件,对各所述输入关键词 和各所述翻译关键词确定关键词评分;文件检索部件,根据所述输入关键词和所述翻译关 键词检索文件,获得多个检索结果文件;文件评分计算部件,对各所述检索结果文件根据所 述关键词评分计算文件评分;以及检索结果输出部件,将各所述检索结果文件和对应的所 述文件评分关联起来后进行输出。输入关键词的关键词评分比对应于该输入关键词的任何一个翻译关键词的关键 词评分都高。各输入关键词对应于具有顺序的多个翻译关键词,关键词评分确定部件根据顺序确定翻译关键词的关键词评分。关键词评分确定部件对各输入关键词和各翻译关键词的全部组合,根据顺序确定 翻译评分,关键词评分确定部件对各翻译关键词,根据相关联的全部翻译评分确定关键词 评分。关键词翻译部件获得多种其他语言的翻译关键词。文件评分计算部件还根据各输入关键词和各翻译关键词在检索结果中出现的次 数,来计算文件评分。文件评分计算部件还根据对检索结果文件的字符识别处理的识别率,来计算文件 评分。此外,本发明提供的文件检索系统包括所述的文件检索装置;翻译服务装置,根 据输入关键词生成翻译关键词;以及文件数据库,存储作为检索对象的多个文件。此外,本发明提供的文件检索程序使计算机具有作为所述的文件检索装置或者文 件检索系统的功能。此外,本发明提供使用关键词检索文件的文件检索方法,其包括关键词接收步 骤,获得一个以上的关键词作为输入关键词;关键词翻译步骤,获得把输入关键词翻译成其 他语言的翻译关键词;关键词评分确定步骤,对各输入关键词和各翻译关键词确定关键词 评分;文件检索步骤,根据输入关键词和翻译关键词检索文件,获得多个检索结果文件;文 件评分计算步骤,对各检索结果文件根据关键词评分计算文件评分;以及检索结果输出步 骤,将各检索结果文件和对应的文件评分关联起来后进行输出。本发明的文件检索装置、文件检索方法和文件检索系统,对各输入关键词和各翻 译后的关键词确定关键词评分,并根据该关键词评分计算文件评分,所以可以恰当地确定 作为检索结果输出的文件的优先顺序。


图1是表示本发明的文件检索系统构成的图。图2是说明图1的文件检索系统中的文件检索装置动作的流程图。图3是表示输入关键词和翻译关键词的对应关系的例子的图。图4是表示翻译关键词的顺序和按该顺序的翻译评分之间的对应关系的例子的 图。图5是表示对各关键词按顺序的翻译评分和最终赋予各关键词的关键词评分之 间的对应关系的例子的图。图6是表示在检索结果文件的正文数据中表示各关键词出现次数的信息的例子 的图。图7是表示对检索结果文件的文件评分计算结果的例子的图。
具体实施例方式本发明是在从包含用日语、英语、法语、汉语等各种语言书写的文件的文件数据库 中进行检索时,当输入了某种语言的关键词时,利用翻译引擎把输入的关键词转换成其他 国家的语言,同时使用输入的关键词和转换成其他国家的语言后的关键词进行检索。通过给关键词进行评分,来确定关键词之间的优先顺序,并把该优先顺序反映到文件检索结果 的优先顺序中进行输出。由此,可以实现对应多种语言的文件检索方式。下面根据附图对本发明的实施方式进行说明。实施方式1图1表示本发明的文件检索系统100的构成。文件检索系统100用于使用关键词 进行文件检索。文件检索系统100包括使用关键词检索文件的文件检索装置10。文件检索装置10是信息处理装置,具有众所周知的作为计算机的结构。文件检索装置10具有输入装置30,用于使用者输入关键词。该输入装置30例如 是鼠标或键盘等。此外,文件检索装置10具有显示装置40,向使用者显示检索处理的结果。 显示装置40例如是显示器或打印机等。此外文件检索装置10具有进行运算的运算装置 20。运算装置20例如是CPU (中央处理器)。此外,图中虽没有表示,但文件检索装置10包括作为存储信息的存储部件的存储 器以及HDD (硬盘驱动器)。并且,文件检索装置10具有网络接口,用于与其他信息处理装 置之间发送或接收信息。在文件检索装置10的存储部件中,安装有规定文件检索装置10和运算装置20动 作的文件检索程序。运算装置20通过执行该文件检索程序,发挥图1所示的作为关键词接 收部件21、关键词翻译部件22、关键词评分确定部件23、文件检索部件24、文件评分运算部 件25和检索结果输出部件26的功能,后面将叙述它们各自的详细功能。此外运算装置20通过执行文件检索程序或其他的程序,使作为计算机的文件检 索装置10实现在本说明书中记载的其他功能。文件检索系统100包括翻译服务装置110,以能够与文件检索装置10进行通信的 方式连接。翻译服务装置110进行关键词的翻译。翻译服务装置110接收到用某种语言表 达的词,就把它翻译成其他语言并输出。即,具有根据所输入的关键词(输入关键词)生成 把该输入关键词翻译成其他语言的关键词(翻译关键词)的功能。其中所谓的“翻译”也 可以捕捉从某种语言的关键词向其他语言的关键词的转换。翻译服务装置110进行多种语言的翻译。例如对于日语的输入关键词生成英语的 翻译关键词和法语的翻译关键词后输出。此外,翻译服务装置110对于一个输入关键词生成具有顺序的多个翻译关键词。 即,对于某个单词,例如根据对应的翻译词各自使用的频率,从最频繁使用的翻译词开始顺 序进行排序,来生成翻译关键词的清单。该清单例如通过把翻译关键词按顺序排列,来表示 各翻译关键词的顺序,但也可以通过把翻译关键词和表示顺序的数值等相对应,来表示各 翻译关键词的顺序。翻译服务装置110的结构可以使用公知的结构。例如,翻译服务装置110对多个 词分别安装与一个以上的翻译词相关联的词典文件,并参照该词典文件进行翻译。文件检索系统100包括以能够与文件检索装置10通信的方式连接的文件数据库 120。文件数据库120存储文件检索装置10进行检索处理对象的多个文件。文件数据库120接收到输入的一个以上的关键词,从存储的文件中抽取出所有包 含所述关键词的文件,并输出抽取出的文件或其清单。
利用图2的流程图和图3 图7的数据的例子来说明如上所述构成的文件检索系 统100的动作。图2是说明文件检索系统100中的文件检索装置10的动作的流程图。首先关键 词接收部件21通过输入装置30接收来自使用者用于检索的一个以上的输入关键词(步骤 Si,关键词接收步骤)。在该例子中,接收“先生”、“教师”这两个日语的输入关键词。然后,关键词翻译部件22利用翻译服务装置110,把输入关键词翻译成翻译关键 词(步骤S2,关键词翻译步骤)。在该步骤S2中,关键词翻译部件22把输入关键词传送给 翻译服务装置110,翻译服务装置110分别把接收到的输入关键词生成翻译关键词,并回送 给关键词翻译部件22。这样使关键词翻译部件22获得翻译关键词。图3表示输入关键词和翻译关键词的对应关系的例子。在该例子中,该翻译关键 词包括如图3(a)所示的英语和图3(b)所示的法语两种。在图3(a)的表中,对于“先生”这 个输入关键词具有对应于顺序1的“teacher”、顺序2的“instructor”、顺序3的“master” 这三个英语的翻译关键词。由此,翻译服务装置110将各输入关键词与带有顺序的多个翻 译关键词对应存储。此外,在图3(b)的表中,对于相同的“先生”这个输入关键词,具有对应于顺序1的 “professeur”、顺序2的“instructeur”这两个法语的翻译关键词。由此,关键词翻译部件 22获得输入关键词的语言以外的多种语言的翻译关键词。而且,文件检索装置10也可以把输入关键词、获得的翻译关键词和图3所示的对 应关系以表等形式存储到存储部件中。接着,关键词评分确定部件23对于各输入关键词和各翻译关键词确定关键词评 分(步骤S3,关键词评分确定步骤)。其中,关键词评分确定部件23根据图4和图5所示 的对应关系来确定关键词评分。图4表示翻译关键词的顺序和根据该顺序进行的翻译评分的对应关系的例子。关 键词评分确定部件23根据该翻译评分,确定各翻译关键词的关键词评分。文件检索装置10 把图4所示的对应关系以表等形式预先存储在其存储部件中,此外,文件检索装置10的使 用者和管理者也可以适当地改变该对应关系。对于输入关键词通常赋予固定的规定评分,例如100 (此外,该评分如后所述,由 于翻译评分还有一部分不同用途,所以在图4中用括号表示)。此外,对于翻译关键词,根据 其顺序给予不同的翻译评分。顺序每下降一位给予的评分就降低规定的数值,例如每次降 低10,顺序1为90,顺序2为80,顺序3为70。该评分的值越大,也就意味着包含该关键词的文件在检索结果中越重要(即在检 索结果中该文件的顺序越靠前)。由此,关键词评分确定部件23根据翻译关键词的顺序,确 定翻译关键词的关键词评分。此外,该顺序和翻译评分的关系不限于图4所示的情况。对于顺序1的翻译评分 只要是比相对应的输入关键词的关键词评分低的值即可。也可以对于顺序2以下的翻译评 分,随顺序的降低(即在该例子中随表示顺序的数值变大)通过单调递减函数来表示。翻译服务装置110通常根据作为翻译词被使用的频率对翻译关键词进行排序。其 中,在不考虑文章的结构和文章前后的逻辑关系等信息的情况下,对某个词在词典等中记 载的多个翻译词之中,实际中作为翻译词的使用频率高的翻译词,可以说是比较恰当的翻
7译词。与仅包含不是比较恰当的翻译词的文件相比,包含比较恰当的翻译词的文件是使用 者所希望的文件的可能性大。即,顺序更靠前的翻译关键词可以说是更可靠的关键词。关 键词评分确定部件23由于根据各翻译关键词的顺序确定翻译评分,所以可以使更可靠的 翻译关键词的翻译评分更高,从而可以得到更可靠的检索结果。此外,翻译服务装置110对各关键词无须通过严格的统计分析来进行对应于使用 频率的排序。由于一般的词典等通常一定程度地考虑了翻译词的使用频率等,来确定其登 载的顺序,所以使用一般的众所周知的词典,对于提高检索结果的精度,可以得到一定程度 的效果。图5是表示对各关键词按顺序的翻译评分和最终赋予各关键词的关键词评分的 对应关系的例子。如上所述,关键词评分确定部件23通常赋予输入关键词的关键词评分为100。对 于翻译关键词,首先,对各输入关键词和各翻译关键词的全部组合,按顺序确定翻译评分。 在图5中对两个输入关键词和五个翻译关键词的全部组合(合计10个),赋予按顺序的翻 译评分。如图3(a)所示,由于翻译关键词“master”对于输入关键词“先生”为顺序3,所以 在图4中对应于顺序3赋予翻译评分70。此外,由于该翻译关键词“master”对于输入关键 词“教师”为顺序2,所以在图4中对应于顺序2赋予翻译评分80。此外,在某个翻译关键 词对于其中任何一个输入关键词都没有顺序的情况下,即,当该翻译关键词不是对该输入 关键词的翻译时,把对该组合的翻译评分作为0。但是,在这种情况下的翻译评分也可以不 是0,只要是比对应该输入关键词的任何一个其他翻译关键词的翻译评分都小的值即可。这样,根据确定的翻译评分,关键词评分确定部件23再对各翻译关键词确定最终 的关键词评分。在图5的例子中,通过赋予该翻译关键词的平均翻译评分,来作为该翻译关 键词的关键词评分。由此,关键词评分确定部件23对各翻译关键词,根据相关联的全部翻译评分来确 定关键词评分。文件检索装置10也可以把图5所示的对应关系以表等形式存储在其存储部件中。其中,如上所述,赋予输入关键词的关键词评分通常为100。此外,由于翻译评分都 在90以下(即,在相对于顺序1的翻译评分以下),所以其取平均后的关键词评分(翻译关 键词的关键词评分)通常在90以下。因此,赋予母语的输入关键词的关键词评分的值比赋 予其他语言的翻译关键词的任何一个关键词评分都高。使用母语的输入关键词由于不存在翻译错误或翻译得不恰当的可能,所以包含输 入关键词的文件与仅包含翻译关键词的文件相比,是使用者所希望的文件的可能性大。艮口, 可以说输入关键词是更可靠的关键词。由此,通过把更可靠的输入关键词的评分设定得高 来引起重视,并相对地把翻译关键词的评分设定得低,可以得到更准确的检索结果。此外,如在该例子中的翻译关键词“master”那样,当某个翻译关键词对应多个输 入关键词的情况下,包含该翻译关键词的文件与仅包含其他翻译关键词的文件相比,是使 用者所希望的文件的可能性大。即,可以说这样的翻译关键词是更可靠的关键词。其中,关键词评分确定部件23通过根据与某个翻译关键词相关联的全部翻译评 分来确定关键词评分,可以提高同时与多个输入关键词对应的翻译关键词的关键词评分。例如,图5的翻译关键词“master”与输入关键词“先生”、“教师”都对应,具有分别对应于 不是0的翻译评分。可是翻译关键词“instructor”对应于输入关键词“先生”,而不对应 于“教师”,对于“教师”的翻译评分为0。其结果,翻译关键词“master”的关键词评分更高。 由此,通过把更可靠的翻译关键词的评分设定得高来引起重视,并相对地把其它翻译关键 词的评分设定得低,从而可以得到更准确的检索结果。然后,文件检索部件24利用文件检索系统100,根据输入关键词和翻译关键词检 索文件,获得作为检索结果文件的多个文件(步骤S4,文件检索步骤)。在该步骤S4中,文 件检索部件24把输入关键词和翻译关键词传送给文件数据库120,文件数据库120从存储 的文件中抽出包含某个输入关键词和翻译关键词的全部文件,并把抽出的文件作为检索结 果文件回送给文件检索部件24。其中,由于文件检索部件24使用母语的输入关键词和其他语言的翻译关键词进 行检索,所以即使在包含多种语言的文件的文件数据库120中进行检索,也可以通过一次 检索得到结果。此外,在步骤S4中获得的检索结果文件包含识别该文件的正文数据的信息(标 题、日期时间、作者等),也可以不一定包含该正文数据。在检索结果文件不包含正文数据的 情况下,可以由使用者根据其他的要求从文件数据库120中输出正文数据本身。在各个检索结果文件中可以关联地带有表示各关键词在该正文数据中出现次数 的信息。图6表示这种信息的例子。在该例子中,抽出文件A 文件J作为检索结果文件。 例如在文件A中翻译关键词“teacher”出现12次,翻译关键词“instructor”出现10次, 翻译关键词“master”出现6次,对于文件A表示全部关键词的出现次数合计为28次。文 件数据库120由此对各检索结果文件统计各输入关键词和各翻译关键词出现的次数,分别 把它关联地附加在检索结果文件中并回送给文件检索部件24。此外,在图6中,把检索结果 文件按各关键词出现的次数进行排序。文件检索装置10也可以把图6所示的对应关系以表等形式存储在其存储部件中。在图6的例子中采用了关键词出现次数,不过也可以代之以采用在关键词出现次 数中附加上利用字符识别的识别率。在用字符代码表示文件中字符串的文件(文本数据或字处理程序用的数据等) 中,采用字符代码的对照处理可以正确地计算出关键词的出现次数。而在用图像数据表示 字符串的文件的情况下,需要进行字符识别处理,把图像转换成字符代码,但该字符识别处 理的精度不一定高。所以在字符识别处理时,也可以对该文件以规定的基准把可以进行字 符识别的程度作为识别率,进行评价,加入该识别率。例如,也可以根据识别率使表示关键 词出现次数的数值降低。具体地说,对于识别率为100%的文件,直接采用关键词的出现次 数,对于识别率为50%的文件,可以把关键词的出现次数减半来采用。其中,识别率的计算方法只要是现有的公知的字符识别处理方法,则采用哪种都 可以。接着,文件评分计算部件25对各检索结果文件,根据由关键词评分确定部件23确 定的关键词评分(参照图5)以及各输入关键词和翻译关键词的出现次数(参照图6),计算 文件评分(步骤S5,计算文件评分步骤)。
9
在该步骤S5中,例如把各关键词的关键词评分和该关键词在其检索结果文件中 出现的次数相乘,通过对所有的关键词进行合计来计算文件评分。该文件评分可以表示该 检索结果文件是使用者所希望的文件的可能性(准确性)。图7表示利用该计算方法得到的计算结果的例子。在文件A中具有关键词评分为 90的翻译关键词“teacher”出现了 12次,相乘的结果为90X 12 = 1080。同样,对于翻译关 键词“instructor”的相乘的结果为400,对于翻译关键词“master”的相乘的结果为450。 除此以外的输入关键词和翻译关键词没有在文件A中出现,相乘的结果为0。文件A的文件 评分为把这些数值全部加在一起的值,即为1930。此外,文件检索装置10也可以把图7所示的对应关系,以表等形式存储在其存储 部件中。对于用图像数据表示字符串的文件,文件评分计算部件25也可以在关键词评分 和出现次数的基础上,再加上对检索结果文件的字符识别处理的识别率,来计算文件评分。其中,由于关键词评分针对每个关键词都为不同的值,所以关键词出现次数多的 文件的文件评分不一定高。例如,在检索结果文件中关键词出现次数最多的是文件A(28 次,参照图6),而文件评分最高的是文件C(2500,参照图7),它们的顺序调换。其原因是在 文件C中出现的关键词全是输入关键词,所以每个关键词的关键词评分比较高,相反在文 件A中出现的关键词全是翻译关键词,所以每个关键词的关键词评分比较低。此外,在各翻 译关键词之间的关键词评分也不同,所以要重视更可靠的翻译关键词。由此,文件评分计算部件25在计算各检索结果文件的文件评分时考虑到各关键 词的质的不同,所以与仅用关键词的出现次数计算文件评分的方法相比,可以更准确地进 行评价。接着,检索结果输出部件26使检索结果文件(即文件A 文件J)和由文件评分 计算部件25分别计算出的文件评分相关联后输出(步骤S6,检索结果输出步骤)。通过显 示装置40向使用者显示,由此,使用者可以知道检索结果。此时,检索结果输出部件26以 文件评分从高到低的顺序对检索结果文件排序,并按该顺序进行输出。如上所述,本发明实施方式1的文件检索装置10、文件检索装置10执行的文件检 索方法和文件检索系统100,对各输入的关键词和翻译的关键词确定关键词评分,并根据该 关键词的评分计算文件评分,所以可以恰当地确定作为检索结果输出的文件的优先顺序。在所述的实施方式1中,表示输入关键词的语言是日语,翻译关键词的语言是英 语和法语,但它们也可以是其他的语言,例如也可以包括汉语。表示输入关键词的语言可 以设定成与使用者使用的语言一致,表示翻译关键词的其他语言可以设定成与文件数据库 120中包含的文件的语言一致。表示翻译关键词的语言也可以是单一的语言(例如仅为英语)。翻译服务装置110 对于输入关键词也可以输出一个翻译关键词,还可以输出不排序的多个翻译关键词。即使 是这种结构,如果在输入关键词和翻译关键词之间关键词评分不同,也可以得到与现有的 检索相比更准确的结果。此外,在实施方式1的例子中,执行OR检索(逻辑和检索),只要出现多个输入关 键词和多个翻译关键词中的任何一个关键词的文件,都作为检索结果文件获取。与此不同, 也可以执行AND检索(逻辑积检索)。
在这种情况下,在图2的步骤S4中,文件检索部件24把输入关键词和翻译关键词 传送给文件数据库120,指示进行AND检索。文件数据库120从存储的文件中抽出满足以下 条件i和ii的所有文件,并把抽出的文件作为检索结果文件回送给文件检索部件24。-条件i对于输入关键词“先生”,在该输入关键词本身和与其对应的翻译关键词 “ teacher,,、“ instructor,,、“master,,、“professeur,,、“ instructeur,,t 中,g少出g—f。-条件ii对于输入关键词“教师”,在该输入关键词本身和与其对应的翻译关键 词 “teacher,,、“master,,、“professeur” 之中,至少出现一个。换句话说,文件检索部件24和文件数据库120对各输入关键词,通过把该输入关 键词和与其对应的翻译关键词用OR条件连接,做成每个输入关键词的关键词组,并把该关 键词组全部用AND条件连接,做成最终的检索条件。作为使用该条件进行检索的结果,例如在实施方式1中作为检索结果文件的图6 所示的文件中,文件H由于既不包含输入关键词“教师”,也不包含与其对应的翻译关键词 “teacher”、“master”、“pr0fesseur”,所以不满足条件ii,没有被抽出。此外,文件J也同 样不满足条件i i,也没有被抽出。此外,在该例子中,由于翻译关键词“teacher”、“master”和“professeur”是与两 个输入关键词“先生”、“教师”都对应的翻译关键词,所以出现这些翻译关键词的任何一个 文件都被抽出。例如文件E包含翻译关键词“teacher”,由于该翻译关键词对条件i和条件 ii都满足,所以文件E被抽出。即使在这样的AND检索的情况下,步骤S5以后的处理可以与OR检索同样地进行。 即,与实施方式1相同,计算出文件评分并输出检索结果。但是由于在该例子中,文件H和 文件J在步骤S4中都没有被抽出,所以不对文件H和文件J执行步骤S5之后的处理。此外,在实施方式1中,在通过文件检索部件24进行检索时,必须使用翻译关键词 进行检索,但也可以替换它,例如使用者可以适当指定不使用翻译关键词而只使用输入关 键词进行检索。由此,根据需要也可以进行与只使用输入关键词的现有的文件检索相同的 处理。文件数据库120对各作为检索对象的文件,也可以关联地存储表示该文件是用什 么语言表示的语言信息,翻译服务装置110也一样,对各翻译关键词,也可以关联地存储表 示该翻译关键词是用什么语言表示的语言信息。在这种情况下,输入关键词通常使用相当 于母语的规定的语言即可。例如,有时存在即使把日语的某个关键词翻译成汉语,也是相同的表示方式(用 相同的字符代码表示的字符串)的情况。对于这种关键词,可以对日语的文件适当地使用 输入关键词的关键词评分,对于汉语的文件适当地使用翻译关键词的关键词评分。即,在输 入关键词和翻译关键词中,对于不同语言而表示方式相同的关键词,在计算检索结果文件 的文件评分时,也可以采用该检索结果文件和语言信息一致的关键词评分。由此,即使在包含了多种语言而表示方式相同的关键词的情况下,也可以恰当地 评价各关键词准确度。在实施方式1中,文件数据库120统计关键词在检索结果文件中出现的次数,但也 可以用其他的构成要素进行统计。例如,把检索结果文件的正文数据从文件数据库120传 送给文件检索装置10,可以由文件检索装置10的文件检索部件24或文件评分计算部件25进行统计。翻译服务装置110和文件数据库120只要是关于关键词的翻译和文件的检索与文 件检索装置10之间可以发送或接收恰当的信息,则是什么样的装置都可以,例如可以分别 由计算机构成,此外,通过执行安装在各自的存储部件中的程序,能够实现作为翻译服务装 置110和文件数据库120的功能即可。在这种情况下,文件检索装置10的程序、翻译服务 装置Iio的程序和文件数据库120的程序作为文件检索程序,使该计算机具有作为文件检 索系统100的功能。在实施方式1的硬件结构中,作为单独一台计算机的文件检索装置10包括关键词 接收部件21、关键词翻译部件22、关键词评分确定部件23、文件检索部件24、文件评分计算 部件25以及检索结果输出部件26,翻译服务装置110和文件数据库120可以分别设置为单 独一台计算机。不过硬件结构也可以与此不同。例如,构成文件检索装置10的计算机也可 以同时具有作为翻译服务装置110的功能和作为文件数据库120的功能。
1权利要求
一种使用关键词检索文件的文件检索装置,其包括关键词接收部件,接收一个以上的关键词作为输入关键词;关键词翻译部件,对应于各所述输入关键词,获得把所述输入关键词翻译成其他语言的翻译关键词;关键词评分确定部件,对各所述输入关键词和各所述翻译关键词确定关键词评分;文件检索部件,根据所述输入关键词和所述翻译关键词检索文件,获得多个检索结果文件;文件评分计算部件,对各所述检索结果文件根据所述关键词评分计算文件评分;以及检索结果输出部件,将各所述检索结果文件和对应的所述文件评分关联起来后进行输出。
2.根据权利要求1所述的文件检索装置,其特征在于,所述输入关键词的所述关键词 评分比对应于该输入关键词的任何一个所述翻译关键词的所述关键词评分都高。
3.根据权利要求1所述的文件检索装置,其特征在于, 各所述输入关键词对应于具有顺序的多个翻译关键词,所述关键词评分确定部件根据所述顺序确定所述翻译关键词的所述关键词评分。
4.根据权利要求3所述的文件检索装置,其特征在于,所述关键词评分确定部件对各所述输入关键词和各所述翻译关键词的全部组合,根据 所述顺序确定翻译评分,所述关键词评分确定部件对各所述翻译关键词,根据相关联的全部所述翻译评分确定 所述关键词评分。
5.根据权利要求1所述的文件检索装置,其特征在于,所述关键词翻译部件获得多种 其他语言的所述翻译关键词。
6.根据权利要求1所述的文件检索装置,其特征在于,所述文件评分计算部件还根据 各所述输入关键词和各所述翻译关键词在所述检索结果文件中出现的次数,来计算所述文 件评分。
7.根据权利要求6所述的文件检索装置,其特征在于,所述文件评分计算部件还根据 对所述检索结果文件的字符识别处理的识别率,来计算所述文件评分。
8.一种文件检索系统,其特征在于包括 如权利要求1所述的文件检索装置;翻译服务装置,根据所述输入关键词生成所述翻译关键词;以及 文件数据库,存储作为检索对象的多个所述文件。
9.一种文件检索程序,其特征在于,使计算机具有作为如权利要求1所述的文件检索 装置或者如权利要求8所述的文件检索系统的功能。
10.一种使用关键词检索文件的文件检索方法,其包括 关键词接收步骤,获得一个以上的关键词作为输入关键词;关键词翻译步骤,获得把所述输入关键词翻译成其他语言的翻译关键词; 关键词评分确定步骤,对各所述输入关键词和各所述翻译关键词确定关键词评分; 文件检索步骤,根据所述输入关键词和所述翻译关键词检索文件,获得多个检索结果 文件;文件评分计算步骤,对各所述检索结果文件根据所述关键词评分计算文件评分;以及 检索结果输出步骤,将各所述检索结果文件和对应的所述文件评分关联起来后进行输出ο
全文摘要
本发明提供文件检索装置、文件检索方法、文件检索系统和文件检索程序,当使用输入的关键词和翻译后的关键词进行文件检索时,可以恰当地确定作为检索结果的输出文件的优先顺序。文件检索装置(10)的关键词翻译部件(22)把输入关键词翻译成翻译关键词。关键词评分确定部件(23)对各输入关键词和各翻译关键词确定关键词评分。文件检索部件(24)根据输入关键词和翻译关键词检索文件,获得多个文件。文件评分计算部件(25)对各检索结果文件根据关键词评分和各关键词出现的次数,计算文件评分。检索结果输出部件(26)按文件评分从高到低的顺序对检索结果文件排序,并按该顺序进行输出。
文档编号G06F17/30GK101933017SQ20098000003
公开日2010年12月29日 申请日期2009年3月24日 优先权日2009年3月24日
发明者小岛荣之 申请人:三菱电机信息系统株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1