文件检索装置、文件检索方法

文档序号:6520959阅读:254来源:国知局
文件检索装置、文件检索方法
【专利摘要】本发明提供一种文件检索装置、文件检索方法。在类似文件检索中,以低干扰、高精度地提取出与使用者所选择的特征词对应的同义词。本发明的文件检索装置指定类似文件检索中所使用的特征词中任意一个,接受指示检索其同义词的命令输入,从类似文件检索的检索结果所包含的文件集合中提取同义词。
【专利说明】文件检索装置、文件检索方法
【技术领域】
[0001]本发明涉及一种从文件集合中检索所希望的文件的技术。
【背景技术】
[0002]作为从大量的文件中检索所希望的文件的方法之一,普及一种类似文件检索,即将任意的文章或文件作为输入,从文件集合中检索与其记载内容相类似或相关联的文件,从类似程度或关联程度高的文件按顺序进行输出。
[0003]在类似文件检索中,从构成文件集合的各个检索对象文件中提取将记载内容进行特征标注的关键词(以下称为特征词),对各个特征词进行计算/赋予与其重要度对应的权重,生成由具有I个单词以上的权重的特征词所构成的特征词矢量,预先存储在检索索引中。接着,用同样的方法从由使用者进行输入指定的文章或指定的文件(以下,总称为“输入文件”)中提取具有权重的特征词并生成特征词矢量。然后,通过核对由输入文件生成的特征矢量和各检索对象文件的特征矢量,计算出两者的类似度。在类似度的计算中,屡次使用特征矢量间的内积、特征矢量所成的角的余弦值。最后将对类似度进行降序排序而得到的上位的文件作为与输入文件类似的文件进行输出。
[0004]作为降低类似文件检索的精度的重要原因之一,有特征词的表记摆动(同义词)。例如,从输入文件提取的特征词(文件“papers”)和从检索对象文件提取出的特征词(文档“documents”)的表记不同,所以不进行核对。其结果,使得输入文件和该检索对象文件之间的类似度比原来更低,只有该部分检索结果的输出顺序下降。
[0005]类似文件检索中,通过核对将大多数的具有权重的特征词作为要素的特征词矢量来判定输入文件和检索对象文件之间的类似性。因此,即使由于表记摆动(同义词)而多少有些无法核对输入文件的特征词和检索对象文件的特征词,只要可以充分核对其他特征词,也可以将该文件输出给类似文件检索结果的上位。但是,即使是类似文件检索,如果可以吸收特征词的表记摆动,则认为可以仅将该部分的所希望的类似文件输出给上位。
[0006]因此,将类似文件检索中所使用的与输入文件的各个特征词相对应的同义词提示给使用者,认为使用者可以根据需要将该同义词追加为类似文件检索的特征词,由此可以提高类似文件检索的精度,输出使用者认可的检索结果。
[0007]一般情况下,为了使用者在文件检索中可以灵活使用同义词,有必要以某种形式来收集/管理同义词数据。作为用于收集同义词的现有方法,大致列举以下2种。
[0008](现有方法I)购买市场销售的同义词词典、或者手工生成同义词词典
[0009](现有方法2)分析大量的文件集合,自动或者半自动地提取同义词。
[0010]关于(现有方法1),同义词的质量高,但是数据的初始生成和更新需要花费大量的成本,因此在检索像专利文献和网页这样包含大量词汇的文件的情况下,不太现实。
[0011]关于(现有方法2),提出以下所例示的一种着眼于记载形式来提取同义词的方法。
[0012](a) “A是B”等特定的句法
[0013](b)括号紧前面的词和该括号内的词[0014](c)复合语和其结构语之间的包含关系
[0015](d)检索履历的灵活使用
[0016]但是,上述方法由于记载形式出现的频率都少,所以存在得到的同义词的量少,难以网罗收集同义词(一般性欠缺)的问题。
[0017]另外,一般从大量的文件集合中自动提取同义词的情况下,如果随机地分析大量的文件集合,则大多会输出大量与使用者的意图不符的伪同义词。因此,最好在根据使用者的检索意图的基础上,通过缩小成为提取同义词的对象的文件集合,特殊化为这些文件并提取同义词,来抑制伪同义词的输出。
[0018]作为与解决上述2个问题即“网罗地收集同义词(一般性的确保)”和“通过随机地分析大量的文件集合来抑制伪同义词”相关的现有技术,有下述的专利文献I。专利文献I中,通过以下方法提取同义词(同文献中记载为“类似词”)。
[0019](步骤I)使用者输入指定成为类似词提取的对象的对象词X。
[0020](步骤2)对与对象词X相关的文件进行排行榜检索。这里,各文件内的对象词X的出现频率高的文件,并且文件的文章长度越短的文件越被排到上位。
[0021](步骤3)从检索结果上位的文件群提取T个对象词的关联词。在关联词提取中,将检索对象文件整体中的出现文件数量低(固有度高)并且检索结果上位的文件群内的出现文件数量(文件共现频率)高的词作为关联词(但是对象词X排除在关联词之外)。
[0022](步骤4)将T个关联词群作为输入再次进行排行榜检索。
[0023](步骤5)从检索结果上位的文件群(但是只将不包含对象词X的文件作为检索对象)再次提取关联词。
[0024](步骤6)将提取出的S个关联词作为对象词X的类似词输出给使用者。
[0025]专利文献I所记载的技术中,可以使用以下步骤,Ca)通过2个阶段的检索来缩小与对象词关联的文件群,只从这些文件群中提取类似词;(b)在关联词提取中,将检索对象文件整体中的出现文件数量低且检索结果上位的文件群中的出现文件数量(文件共现频率)高的词作为关联词来提取。
[0026]在专利文献I所记载的关联词提取中,使用出现文件数量(文件共现频率)这样的文件级别的宏观统计信息来判定是否是类似词。因此,即使能够提取与对象词x“关联的词语”,也很难确定并输出与对象词X “处于同义关系的词”。其结果,在提取结果中混杂有很多不是同义词的干扰词。
[0027]专利文献I作为一个实施例,记载一种方法,即根据文件中的单词Y的前后单词中包括几个关联词来判定单词Y是否是对象词X的类似词。但是,仅通过单词Y和关联词群的共现倾向来判定单词Y是否处于与对象X为同义关系是不够充分的。
[0028]另外,在专利文献I的第2次的关联词提取中,包含对象词X的文件被排除在提取对象文件之外。一般当人们从文件集合中提取同义词时,与对象词X在文章中以什么样的上下文而被使用(和对象词X的前后的语言表现之间的词汇的、句法的、意思的、上下文的关系是什么样的)相关的语言信息成为确定同义词的重要线索。但是专利文献I没有在同义词的提取处理中使用该线索信息。
[0029]专利文献1:日本特开2004-054882号公报
【发明内容】

[0030]鉴于上述课题而提出本发明,其目的在于:在类似文件检索中,低干扰、高精度地提取出与使用者所选择的特征词对应的同义词。
[0031]本发明的文件检索装置指定类似文件检索中所使用的特征词中任意一个,接受指示检索其同义词的命令输入,从类似文件检索的检索结果所包含的文件集合中提取同义
ο
[0032]本发明的文件检索装置将与使用者的检索意图接近的类似文件检索结果的上位文件集合作为用于同义词提取的文件集合。由此,可以低干扰、高精度地提取出类似文件检索所使用的与输入文件的特征词对应的同义词。其结果,使用者可以高效地确定符合自己的检索意图的同义词。
[0033]通过以下的实施方式的说明来明确上述以外的课题、结构以及效果。
【专利附图】

【附图说明】
[0034]图1是实施方式I的文件检索装置100的功能框图。
[0035]图2是表示使用者指定输入文件的画面例的图。
[0036]图3是表示显示类似文件的检索结果的画面例的图。
[0037]图4是表示选择成为同义词提取的对象的特征词(相当于对象词13)的画面例的图。
[0038]图5是表示显示提取出与对象词501对应的同义词的结果的画面例的图。
[0039]图6是表示追加了同义词之后的检索结果显示画面400的图。
[0040]图7是说明分析对象文件收集部14的处理流程的图。
[0041]图8是表示记载形式表18的结构例的图。
[0042]图9是说明记载形式提取部17的处理流程的图。
[0043]图10是说明同义词提取部19的处理流程的图。
[0044]图11是表示文件检索装置100的硬件的结构例的图。
[0045]符号的说明
[0046]1:文件数据库;2:特征词提取部;3:单词词典;4:检索索引生成部;5:检索索引;6:输入文章;7:输入文件编号;8:特征词收集部;9:特征词表;10:类似文件检索部;11:检索结果表;12:检索结果输出部;13:对象词;14:分析对象文件收集部;15:有对象词的文件;16:无对象词的文件;17:记载形式提取部;18:记载形式表;19:同义词提取部;20:同义词表;30:输入装置;40:输出装置。
【具体实施方式】
[0047](实施方式1:装置结构)
[0048]在以下说明的本发明的实施方式I中,专利文献作为输入,将检索与其
【发明内容】
类似的过去的专利文献的文件检索装置作为例子来进行说明。具体地说,从过去的专利文献集合中检索申请专利的公知例时,将任意的文章或专利文献作为输入,设想检索与该
【发明内容】
类似的专利文献的新闻案件。但是,本发明不仅限于该新闻案件。另外,在本实施例1中,虽然将专利文献作为了检索对象,但是也可以将论文、新闻记事、设计文件、电子邮件、网页等作为对象。
[0049]图1是本实施方式I的文件检索装置100的功能框图。文件检索装置100是从存储在文件数据库I内的文件群中检索与使用者经由输入装置30而输入的任意文章或者指定的文件相类似的文件。而且文件检索装置100将类似检索中所使用的特征词的同义词提供给使用者,可以使用该同义词来扩张类似检索。以下说明文件检索装置100的详细结构。
[0050]成为检索对象的文件数据经由输入装置30被预先存储在文件数据库I中。
[0051]特征词提取部2从文件数据库I所存储的各个文件中提取特征词,计算表示其重要度的权重。本实施方式I中,通过参照单词词典3来实施词素分析,从而将文章分割为单词,提取作为名词或动词的单词作为特征词。通过以下的方法来计算文章d的特征词T的权重W。首先,求出文章d的特征词w的出现频率TF的对数(logTF)。接着,通过用文件数据库I所存储的文件数N除以包含该特征词w的文件数η而得出的值的对数来求出该特征词w的固有度IDF (IDF=1g (Ν/η))。最后,通过计算(1+logTF) X log (N/n)来计算出权重W。但是,当TF=O时,w的值为O。该方法作为TF-1DF法而被广泛熟知,所以对此不再多提。
[0052]检索索引生成部4为了能够高效地实施类似文件检索,而将特征词提取部2所取得的每个文件的特征词以及与权重有关的数值数据进行汇总后,存储在检索索引5中。由于市面销售的多个类似文件检索系统中已经实现了由特征词提取部2以及检索索引生成部4所实施的处理,所以在本实施方式I中不再多提。
[0053]特征词收集部8从使用者经由输入装置30而指定的输入文件编号7所对应的文件、或者使用者任意输入的输入文章6中提取特征词。本实施方式I中,通过检索索引生成部4的处理已经将与输入文件编号7对应的特征词存储在检索索引5内。因此,当提取与输入文件编号7对应的特征词时,可以通过从检索索引5中挑选出与文件编号7对应的特征词及其权重而容易地进行收集。使用者输入任意的输入文章6时,检索索引5内没有存储特征词,所以可执行以下处理,即将输入文章6交给特征词提取部2,提取特征词并赋予权重。
[0054]特征词表9是存储特征词收集部8所收集的特征词数据的数据表,记录特征词的标题和权重的组对。
[0055]类似文件检索部10参照检索索引5检索与存储在特征词表9中的具有权重的特征词集合类似的文件并分别计算出类似度,将检索结果上位的N件存储在检索结果表11中。本实施方式I中,将文件间的类似度作为使具有由权重的特征词所构成的特征词矢量所成的角的余弦进行100倍处理后的值来计算。因此,类似度取从O到100之间的值,类似度越接近100类似的准确度越高。将特征词的集合作为矢量来捕捉,通过矢量形成的角或者内积来求出两者的类似性的方法作为矢量空间模型被广泛熟知,所以不再多提。
[0056]检索结果表11是存储类似文件检索部10的检索结果的数据表,保存检索顺序、类似度、检索结果文件编号。类似文件检索部10将类似文件的检索结果输出到检索结果表11中时,将赋予输入文件的日期时间和赋予作为检索结果而得到的文件中的日期时间进行比较,可以附加只检索比输入文件更靠前的文件时的选项。例如将专利文献作为检索对象时,可以比较申请日或者
【公开日】,只将在输入文件之前公开的专利文献作为检索对象。
[0057]检索结果输出部12将存储在特征词表9中的特征词数据、存储在检索结果表11中的检索结果数据经由输出装置40提供给使用者。另外也将后述的与同义词有关的提取结果经由输出装置40提示给使用者。
[0058]分析对象文件收集部14从与类似文件的检索结果一起输出的特征词集合中提取针对使用者所指定的对象词13的同义词,因此收集成为其分析对象的文件集合。关于使用者指定对象词13的画面将在以后描述。本实施方式I中,对象词13是从输入文章中提取出的特征词的任意一个,与输入文件类似的文件的检索结果存储在检索结果表11中。因此,将存储在检索结果表11中的N件类似文件的上位R件作为用于同义词提取的分析对象。由此,认为可以高效地检索使用者所指定的对象词13的同义词。其理由在以下进行说明。
[0059]上述R件的文件是被认为和输入文件内容类似的文件。因此,存在虽然与对象词13的意思相同,但表述不同的同义词的概率高。另一方面,一般一个文件几乎是由I个执笔人进行执笔,虽然意思相同但表述不同的同义词在I个执笔人书写的一个文件中并用的情况不多。因此,比起包含对象词13的类似文件,没有包含对象词13的类似文件中存在同义词的概率要高。但是通过分析包含对象词13的类似文件,可以确定对象词在什么样的上下文中使用,具体地说是关于对象词的前后使用什么样的词汇/句法的语言记载形式。即,在没有包含对象词13的类似文件内,通过检索由包含对象词13的类似文件确定了的语言的记载形式,可以高效且高精度地检索同义词。
[0060]根据所述考察,分析对象文件收集部14将收集到的文件分类为包含对象词13的有对象词文件15和不包含对象词13的无对象词文件16。记载形式提取部17从有对象词文件15提取特征词前后的语言记载形式,存储到记载形式表18中。同义词提取部19通过从无对象词文件16检索记载形式表18所存储的语言的记载形式,从无对象词文件16提取对象词13的同义词,存储在同义词表20中。
[0061]图2是表示使用者指定输入文件的画面的结构例的图。在输入文件指定画面300中,使用者首先将要检索文件的标识符的文件编号输入到编号输入区域301中,或者将任意的文章输入到文章输入区域302中。当使用者按下检索按钮304后,类似文件检索部10执行类似文件检索,将检索结果输出到后述的图3所示的画面中。当使用者按下清除按钮303后,编号输入区域301以及文章输入区域302的内容被消除。
[0062]图3是表示显示类似文件的检索结果的画面例的图。检索结果显示画面400被分为显示类似文件的检索结果的部分(画面右侧)和显示类似文件检索中使用的输入文件中的特征词的一览的部分(画面左侧)。
[0063]显示检索结果的部分,从与输入文件之间类似度高的文件按顺序地显示作为类似文件而被检索的文件。这时,按照检索到的每个文件来显示表示检索顺序的顺序407、类似度408、文件ID409 (如果是专利文献则为申请号)、发明名称410 (相当于文件标题)、 申请人:411 (相当于完成者)。也可以显示文件分类和摘要文章等上述以外的目录信息和文本信息。画面上部具备显示由选择复选框406选择的文件的抄录数据的“抄录”按钮401、显示正文数据的“正文”按钮402。如果按下返回按钮403,则返回输入文件指定画面300。接着如果按下按钮405,则显示接下来的10件检索结果文件,如果按下前按钮404,则显示之前的10件检索结果文件。
[0064]显示特征词的一览的部分按照特征词的权重从高到低的顺序来显示特征词的一览。这时,按照每个特征词来显示特征词的权重顺序422、特征词的标题423、特征词的权重424、表示特征词被包括在检索结果的上位N件的百分之几的HIT (点击)率425。类似“检索”等这种HIT率425高的特征词是多数文件所使用的标准词,所以不太需要补充同义词。另一方面,关于类似“文本(text)”这样的作为特征词是重要的词,但是关于HIT率425低的特征词,以相同的意思存在另外的表记的同义词(例如“文(sentence)”等)的可能性大。因此使用者考虑进行检查,看除了“文本”以外经常使用什么样的同义词,如果需要,通过将该同义词追加为特征词并进行再检索,可以提高类似文件检索的精度。
[0065]图3中,如果取消对选择是否用作特征词的复选框421的勾选,则从类似检索中所使用的特征词集合删除该特征词。当按下再检索按钮426后,类似文件检索部10使用带有复选框421的勾选的特征词而再次执行类似文件检索,显示检索结果。按下重置按钮427后,特征词一览重置到初始状态。
[0066]图4是表示选择成为同义词提取的对象的特征词(相当于对象词13)的画面例的图。从画面左侧所显示的特征词一览中选择I个对象词501后,将所选择的对象词501进行突出显示。这时,显示对提取并显示同义词进行指示的同义词显示弹出菜单502。按下该菜单后,文件检索装置100提取与对象词501对应的同义词,将其结果显示在如后面图5所示的画面中。
[0067]图5是表示显示提取了与对象词501对应的结果的画面例的图。同义词显示画面600按照表示提取出的同义词的概率的准确度604从高到低的顺序来显示同义词。这时,按照每个同义词显示准确度高低的顺序602、同义词的标题603、将提取出的同义词的妥当性进行数值化后的准确度604。如果有作为类似后检索所使用的特征词而要进行追加的同义词,则使用者根据复选框601来选中该同义词。如果按下追加按钮605,则如后述的图6所示那样将选中的同义词追加为特征词。当按下取消按钮606之后,不追加所选中的同义词而关闭该画面。
[0068]图6是表示追加了同义词之后的检索结果显示画面400的图。图5中所追加的同义词“文”被追加显示为特征词“文本”的同义词。在该状态下按下再检索按钮425之后,类似文件检索部10在将“文”追加为权重=79的特征词的基础上,执行类似文件检索。
[0069]<实施方式1:分析对象文件收集部14的详细动作>
[0070]图7是说明分析对象文件收集部14的处理流程的图。分析对象文件收集部14根据图7所示的流程,将检索结果表11中存储的上位R件的类似文件分类为有对象词文件15和无对象词文件16。以下说明图7的各个步骤。
[0071](图7:步骤 S701 ?S702)
[0072]分析对象文件收集部14将有对象词文件15和无对象词文件16重置为空(NULL)(S701)。分析对象文件收集部14将对文件进行计数的计数器1、对有对象词文件15中以及无对象词文件16中的文件件数进行计数的计数器SI和S2分别设为O (S702)。使用者可以经由输入装置30对S1、S2、R进行指定。
[0073](图7:步骤 S703)
[0074]分析对象文件收集部14判定计数器i是否在阈值R(类似检索结果内的上位R件)以下。当计数器i大于R时结束本流程,当在R以下时进入步骤S704。
[0075](图7:步骤 S704)
[0076]分析对象文件收集部14从文件数据库I提取第i个的类似文件的文章后,存储在工作区。
[0077](图7:步骤 S705)
[0078]分析对象文件收集部14在步骤S704对存储在工作区中的文章进行扫描,判别是否包含对象词。如果包含则进入步骤S706,如果没有包含则进入步骤S709。
[0079](图7:步骤 S706)
[0080]分析对象文件收集部14判定存储在有对象词文件15中的文件件数的计数器SI是否比预先决定的阈值SlMAX小。当计数器SI没有达到SlMAX时,进入步骤S707,当计数器SI达到SlMAX时,跳到步骤S712。
[0081](图7:步骤 S707 ~S708)
[0082]分析对象文件收集部14将第i个的类似文件的文件编号追加存储到有对象词文件15中(S707),在计数器SI上加I (S708)。
[0083](图7:步骤 S709)
[0084]分析对象文件收集部14判定存储在无对象词文件16中的文件件数的计数器S2是否比预先决定的阈值S2MAX小。当计数器S2没有达到S2MAX时,进入步骤S710,当计数器S2达到S2MAX时,跳到步骤S712。
[0085](图7 :步骤 S710 ~S711)
[0086]分析对象文件收集部14将第i个的类似文件的文件编号追加存储到无对象词文件16中(S710),在计数器S2上加I (S711)。
[0087](图7:步骤 S712)
[0088]分析对象文件收集部14在计数器i上加1,返回步骤S703。
[0089]<实施方式1:记载形式提取部17的详细动作>
[0090]记载形式提取部17分析有对象词文件15中存储的类似文件,提取对象词13前后上下文的语言信息(记载形式),存储在记载形式表18中。本实施方式I中,作为构成记载形式的要素提取出以下4种语言信息,但不仅限于此。
[0091](形式I):对象词13紧前面的单词标题(Wbl)
[0092](形式2):(形式I)为附属词(助词/助动词等)时,在位于该附属词之前的最近的独立词(名词或动词)(Wb2 )
[0093](形式3):对象词13紧后面的单词标题(Wal)
[0094](形式4):(形式3)为附属词(助词/助动词等)时,在位于该附属词之后的最近的独立词(名词或动词)(Wb2 )
[0095]例如,对象词13为、卜”,在包含对象词13的文件中记载有“類似+石亍3f 7卜全検索L.、検索結果全表不t石(ruiji suru tekisuto wo kensaku shi,kensakukekka wo hyouji suru)”的情况下,对象词“ f ^ 卜(tekisuto)”紧前面的词 Wbl为“類似t -? (ruiji suru)”。这时候Wbl是动词,因此Wb2不适用。“ f^卜(tekisuto)”紧后面的词语Wal为“仓(wo)Mal为附属词(助词),因此位于其后的最初的动词“検索(kensaku shi)”成为 Wa2。
[0096]记载形式提取部17针对有对象词文件15中存储的所有文件中的所有对象词13提取上述4种记载形式要素,将提取结果存储在记载形式表18中。当记载形式的内容重复时,将该记载形式汇总为I个并存储出现次数。[0097]图8是表示记载形式表18的结构例的图。这里,特征词“文件”表示作为对象词13而被选择时的提取结果。为了记载的方便,只表记一部分的记录,省略其他的记录。
[0098]记载形式表18将记录ID181、记载形式的形式类别182、表示形式名称的形式ID183、表示该形式作为同义词提取的线索有多么重要的程度的权重184、与该记载形式一致而提取出的单词的标题185、该记载形式的总出现频率186、该记载形式的出现文件数187作为I个记录进行存储。
[0099]记载形式表18分开存储构成记载形式的4种要素单独一致的情形和多个要素同时一致的情形。图8所示的数据例中,记录IDlSl=I?4的记录相当于构成记载形式的4种要素单独一致时的数据。记录ID181=5?15的记录相当于多个要素同时一致时的数据。
[0100]更多的要素进行组合时的总出现频率186和出现文件数187与单独时的情况相t匕,值变小。但是,如果多个要素一致,则可以严格限定上下文,所以作为提取同义词的线索的可靠性(准确度)变高。权重184是将该信任度进行了量化而得的值。权重184的值用于在后述的同义词提取部19中确定同义词的情况。
[0101]图9是说明记载形式提取部17的处理流程的图。记载形式提取部17分析有对象词文件15所包含的各个文件,提取与记载形式表18的标题185对应的数据,对与总出现频率186以及出现文件数187对应的值进行计数。以下说明图9的各个步骤。
[0102](图9:步骤 S9Ol)
[0103]记载形式提取部17将记载形式表18的内容初始化。
[0104](图9:步骤 S9O2)
[0105]记载形式提取部17判定有对象词文件15中是否残留还没有分析/提取记载形式的文件。如果没有残留则结束本流程,如果有残留则进入步骤S903。
[0106](图9:步骤 S9O3)
[0107]记载形式提取部17从文件数据库I取出分析对象文件的文章。另外,分析对象文件收集部14已经从文件数据库I提取该文件的文章并存储在工作区中,所以也可以从该工作区中取出文章。记载形式提取部17接着将取出的文章进行词素分析,将标题和词性作为各个单词(词素)的单词数据,按照单词的出现顺序存储在工作区中。
[0108](图9:步骤 S9(M)
[0109]记载形式提取部17将工作区中存储的单词数据按照出现顺序进行检查,判定在该文章中是否有还没有对记载形式进行分析/提取的对象词13。如果没有则返回步骤S902,如果有则进入步骤S905。
[0110](图9:步骤 S905)
[0111]记载形式提取部17将在步骤S904找到的对象词13紧前面的单词作为Wbl进行提取,将之后的单词作为Wal进行提取。
[0112](图9:步骤 S906 ?S907)
[0113]记载形式提取部17判定Wbl的词性是否是附属词(助词或助动词)(S906)。如果不是附属词则进入步骤S908。如果是附属词则将位于Wbl之前的最近的名词或动词作为Wb2进行提取(S907)。
[0114](图9:步骤 S908 ?S909)
[0115]记载形式提取部17判定Wal的词性是否是附属词(助词或助动词)(S908)。如果不是附属词则进入步骤S910。如果是附属词则将位于Wal之后的最近的名词或动词作为Wa2进行提取(S909)。
[0116](图9:步骤 S910)
[0117]记载形式提取部17判定记载形式表18中是否已经存储了将作为对象词13所对应的记载形式而提取出的Wbl、Wb2、Wal、Wa2进行单独或2种以上组合的记载形式。如果有存储则跳到步骤S912,如果没有存储则进入步骤S911。
[0118](图9:步骤 S911)
[0119]记载形式提取部17将在步骤S910发现的记载形式追加存储为记载形式表18的
新记录。
[0120](图9:步骤 S912)
[0121]记载形式提取部17在与步骤S910所发现的记载形式对应的既存记录的总出现频率186的值上加I。
[0122](图9:步骤 S913 ~S914) [0123]记载形式提取部17通过使每个记录具有标志等方法来判定符合该记录的记载形式是否在该文章中已经先出现了的形式(S913)。如果是在该文章中还没有出现的新形式,则在该记录的出现文件数187的值上加I后,返回步骤S904(S914)。如果是该文章中已经出现的形式的话,返回步骤S904。
[0124]<实施方式1:同义词提取部19的详细动作>
[0125]同义词提取部19对无对象词文件16中存储的各个文件进行分析,提取同义词。本实施方式I中,确定无对象词文件16中存储的各个文件所包含的语句中的与存储在记载形式表18中的记载形式一致的语句,计算表示该词语是对象词13的同义词的概率的定量值(准确度)。
[0126]例如,无对象词文件16中的文件记载有“類似文章&検索I" 3 (ruiji bunnsyouuwo kensaku suru)” 时,如果着眼于“文章(bunnsyou)”,则 Wbl 为“類似(ruiji)”,Wal 为“全(wo)”,Wa2为“検索(kennsaku)”。这些与图8所例示的记载形式中的记录ID=1、18、27、56的记载形式一致。
[0127]无对象词文件16中的文件记载有“〒一夕一 T' ^ h文章f見.ο汁3 (databasekara bunsyou wo mitsukeru),,时,则 Wbl 为“七、h (kara),,,Wb2 为“〒一夕《一 ^ ”, Wal为“奁(wo)”,Wa2为“办。It石(mitsukeru),,。这与图8所例示的记载形式中的记录ID=18的记载形式一致。在该例的情况下,“文章(bunsyou)”也成为同义词候补,但是与第I个例子的“文章(bunsyou)”相比,与记载形式一致的程度低,所以视为同义词的准确度低。
[0128]同义词提取部19将无对象词文件16中包含的所有文件中的所有名词或动词(由于是同义词提取,所以只将名词、动词作为分析对象)的记载形式与记载形式表18进行核对,对每个单词汇总核对结果。即,根据所核对的记录中的权重184、总出现频率186、出现文件数187,计算表示作为该单词的记载地点的同义词的概率的得分。并且,将该单词的所有记载地点的得分集合按照降序进行排序,将得分高的上位M个得分集合的平均值作为对于该单词的对象词13的同义词的准确度。
[0129]图10是说明同义词提取部19的处理流程的图。关于和图9同样的处理省略一部分说明。以下对图10的各个步骤进行说明。[0130](图10:步骤 SlOOl)
[0131]同义词提取部19将同义词20初始化。
[0132](图10:步骤 S1002)
[0133]同义词提取部19判定无对象词文件16中是否残留还没有分析/提取记载形式的未分析文件D。如果没有残留则进入步骤S1013,如果有残留则进入步骤S1003。
[0134](图10:步骤 S1003)
[0135]同义词提取部19从文件数据库I取出未分析对象文件D的文章。同义词提取部19接着将取出的文章进行词素分析,将标题和词性按照出现顺序存储在工作区中。
[0136](图10:步骤 S1004)
[0137]同义词提取部19将工作区中存储的词素分析结果按照出现顺序进行检查,判定是否有记载形式是未分析的语句A (这里为名词或动词)。如果有则进入步骤S1005,如果没有则进入步骤S1012。
[0138](图10:步骤 S1005)
[0139]同义词提取部19将在步骤S1004找到的语句A紧前面的单词作为Wbl进行提取,将紧后面的单词 作为Wal进行提取。
[0140](图10:步骤 S1006 ~S1010)
[0141]同义词提取部19实施与记载形式提取部17所实施的步骤S906~S910同样的处理。当在步骤S1010判定记载形式表18内存在与既存的记载形式一致的记载形式时,进入步骤SlOlI,当判定没有存在时返回步骤S1004。
[0142](图10:步骤 S1011)
[0143]同义词提取部19针对在步骤S1010与既存的记载形式一致的各个记录计算根据下式I计算的值,将其最大值作为该记载地点的语句A的得分。总出现频率186和出现文件数187成为大的数值,因此为了不会通过这些单独的值来左右得分,而使用对数值。
[0144]得分=[权重184] X [log (总出现频率186)]*[log (出现文件数187)]…(式I)
[0145](图10:步骤 S1012)
[0146]同义词提取部19将该文件D的各个词的得分最大值作为该文件D的该语句的得分。
[0147](图10:步骤 S1013)
[0148]同义词提取部19将各个文件的各个语句的得分按照降序进行排序,求出得分高的上位Y个的平均值,作为对于该语句的对象词13的同义词的准确度。同义词提取部19接着降序排序各个语句的准确度,将准确度高的词作为对于对象词13的同义词,按照得分从高到低的顺序将标题和得分存储在同义词表20中。
[0149]〈实施方式1:汇总〉
[0150]以上,在使用者指定类似文件中使用的输入文件的特征词中任意一个的基础上,本实施方式I的文件检索装置100从类似检索结果的上位文件中检索其同义词。这样,使用者可以高精度地提取所希望的同义词。
[0151]另外,本实施方式I的文件检索装置100使用从包含使用者指定的对象词13的文件集合中提取出的记载形式,从不包含对象词13的文件集合来检索对象词13的同义词。这样,可以使用通过对象词13前后的记载形式而确定的上下文来高精度地提取同义词。[0152]另外,本实施方式I的文件检索装置100将使用者根据需要而追加的同义词用作特征词,再次执行类似检索。这样,可以输出检索精度更高,使用者认可的类似文件检索结果O
[0153]〈实施方式2>
[0154]在实施方式I中,与使用者指定的输入文件6或者输入文件编号7对应的文件没有被存储在检索结果表11中,所以有对象词文件15中也没有存储这些文章或文件。但是,假设使用者指定的这些文章或文件可以更好地反映使用者所希望的同义词的记载形式。因此,本发明的实施方式2的文件检索装置100将与使用者所提示的输入文章6或输入文件编号7对应的文件追加到有对象词文件15中。其他的结构与实施方式I相同。
[0155]类似文件检索的输入文件是最极端地表示使用者的意图的文章,所以考虑其中的对象词13的记载形式成为提取同义词的重要线索。本实施方式2通过利用这一点达到提高记载形式的提取精度的目的。
[0156]另外,在记载形式提取部17提取记载形式时,设置用于使从输入文件提取出的记载形式的重要度高于其他的第2权重,也可以将该第2权重存储在记载形式表18中。这样,可以提高记载形式的提取精度。
[0157]〈实施方式3>
[0158]在实施方式I?2中,说明了将类似文件的检索结果的上位文件R件用作同义词的提取对象的情况。但是,也考虑到对于输入文件的类似度在等级I位的文件和等级R位的文件中十分不同的情况。因此,本发明的实施方式3的文件检索装置100设置用于使从类似度高的文件提取出的记载形式的重要度高于其他的第3权重,存储在记载形势表18中。其他的结构和实施方式I相同。
[0159]具体地说,将类似度的绝对值、或者对于等级I位的文件的类似度的相对值用作第3权重。这样,认为可以提高记载形式的提取精度。
[0160]〈实施方式4>
[0161]图11是表示文件检索装置100的硬件的结构例的图。文件检索装置100的各个功能部可以使用实现该功能的电路器件等的硬件来构成,也可以通过由CPU (中央处理单元)等的处理装置来执行安装了同样功能的软件来构成。图11是表示后者的结构例的图。
[0162]本实施方式4的文件检索装置100具备执行计算处理的处理装置50、用于由使用者输入操作内容或者数据的输入装置30、用于将计算处理结果输出给使用者的输出装置40、存储实施处理装置50的处理的程序以及数据的存储装置60。
[0163]输入装置30由键盘51以及鼠标52构成。输出装置40由输出监视器53构成。在与其他的计算机进行输入输出数据交换的情况下,经由网络54来收发输入输出数据。
[0164]存储装置60具有暂时存储处理装置50所使用的处理数据的工作区61、存储数据的文件数据库存储区62、单词词典存储区63、检索索引存储区64、输入文章存储区65、输入文件编号存储区66、特征词表存储区67、检索结果表存储区68、对象词存储区69、有对象词文件存储区70、无对象词文件存储区71、记载形式表存储区72、存储程序的特征词提取部存储区73、检索索引生成部存储区74、特征词收集部存储区75、类似文件检索部存储区76、检索结果输出部存储区77、分析对象文件收集部存储区78、记载形式提取部存储区79、同义词提取部存储区80。各个功能部被存储在具有同样名称的存储领域中。[0165]处理装置50从存储装置60加载所需的程序以及数据,通过重复地将执行的结果存储在存储装置60中,执行实施方式I?3所说明的处理。
[0166]本发明不限定上述实施方式,而包括各种的变形例。上述实施方式是为了清楚地说明本发明而进行了详细说明的实施方式,不需要限定为具备所说明的所有结构的方式。另外,可以将某个实施方式的结构的一部分置换为其他的实施方式的结构。另外,可以在某个实施方式的结构加上其他实施方式的结构。另外,可以对各个实施方式的结构的一部分追加/删除/置换其他的结构。
[0167]可以通过例如在集成电路进行设计等用硬件来实现上述各个结构、功能、处理部、处理单元等其中的一部分和全部。另外,也可以通过由处理器对实现各功能的程序进行解释和执行而用软件来实现上述的各个结构、功能等。实现各个功能的程序、表、文件等的信息可以存储在存储器、硬盘、SSD (固态驱动器)等记录装置、IC卡、SD卡、DVD等记录介质中。
【权利要求】
1.一种检索文件的文件检索装置,其特征在于,具备: 输入部,其接受命令输入; 特征词提取部,其分析文件数据库所存储的文件并提取特征词; 类似文件检索部,其使用所述特征词提取部所提取出的特征词,从所述文件数据库所存储的文件中检索与经由所述输入部指定的输入文章或者输入文件类似的文件; 检索结果输出部,其输出所述类似文件检索部的检索结果以及所述类似文件检索部实施所述检索时所使用的所述特征词; 同义词处理部,其根据指示指定所述检索结果输出部所输出的所述特征词中的任意一个来检索其同义词的命令输入,从所述检索结果所包含的文件集合提取所述同义词;以及同义词输出部,其输出所述同义词处理部所提取出的所述同义词。
2.根据权利要求1所述的文件检索装置,其特征在于, 所述同义词处理部具备: 分析对象文件收集部,其将所述检索结果中包含的文件集合分为第I文件集合和第2文件集合,所述第I文件集合包含所述特征词中的成为提取所述同义词的对象的对象词,所述第2文件集合不包含所述对象词; 记载形式提取部,其分析所述第I文件集合内的各个文件,提取所述第I文件集合中包含的所述对象词的记载地点前后的第I语言记载形式;以及 同义词提取部,其分析所述第2文件集合内的各个文件,提取所述第2文件集合中包含的语句的记载地点前后的第2语言记载形式,通过核对所述第2语言记载形式和所述第I语言记载形式,在提取与所述对象词对应的同义词的候补的同时计算所述候补的准确度。
3.根据权利要求2所述的文件检索装置,其特征在于, 所述记载形式提取部将与所述对象词语法关联的语句作为所述第I语言记载形式进行提取, 所述同义词提取部将与所述第2文件集合所包含的语句语法关联的语句作为所述第2语言记载形式进行提取。
4.根据权利要求3所述的文件检索装置,其特征在于, 所述记载形式提取部将所述对象词的记载地点前后的语句的词性或者独立词/附属词的区别的至少任意一个作为标准,将语法关联的所述语句作为所述第I语言记载形式进行提取, 所述同义词提取部将所述第2文件集合中包含的语句的记载地点前后的语句的词性或者独立词/附属词的区别的至少任意一个作为标准,将语法关联的所述语句作为所述第2语言记载形式进行提取。
5.根据权利要求4所述的文件检索装置,其特征在于, 所述记载形式提取部,作为所述第I语言记载形式,提取使用了下述4种形式中的至少任意一种的记载形式: (形式I):所述提取对象词紧前面的单词标题 (形式2):当(形式I)为附属词时,位于该附属词之前的最近的独立词 (形式3):所述提取对象词紧后面的单词标题 (形式4):当(形式3)为附属词时,位于该附属词之后的最近的独立词。
6.根据权利要求2所述的文件检索装置,其特征在于, 所述同义词提取部, 根据作为所述第I语言记载形式而提取出的记载形式的类别将权重赋予各个所述第I语言记载形式, 关于与多个所述类别一致的所述第I语言记载形式,合计赋予给各个所述类别的所述权重, 使用所述赋予的所述第I语言记载形式的权重来计算所述同义词的候补的得分, 所述同义词输出部, 将所述同义词提取部计算出的所述同义词的候补的得分与所述同义词的候补一起输出。
7.根据权利要求6所述的文件检索装置,其特征在于, 所述同义词提取部,针对每个所述同义词的候补,通过将所述权重的合计、各个所述第I语言记载形式相对于全部文件集合的出现频率的对数值、各个所述第I语言记载形式出现的文件数的对数值进行相乘,计算所述同义词的候补的得分。
8.根据权利要求2所述的文件检索装置,其特征在于, 所述分析对象文件收集部在所述第I文件集合中包含所述输入文章或者所述输入文件。
9.根据权利要求8所述的文件检索装置,其特征在于, 所述同义词提取部对于从所述第I文件集合中包含的所述输入文章或者所述输入文件提取出的所述记载形式,使用比其他的所述记载形式大的所述权重。
10.根据权利要求2所述的文件检索装置,其特征在于, 所述同义词提取部,对于越是从所述类似文件检索部的检索结果中类似度高的文件提取出的所述第I语言记载形式,越是增大所述权重。
11.根据权利要求1所述的文件检索装置,其特征在于, 所述输入部接受指定作为所述检索结果中包含的文件集合而进行收集的文件数、作为所述第I文件集合而进行收集的文件的最大数、以及作为所述第2文件集合进行收集的文件的最大数的指示输入, 所述同义词处理部根据所述指示输入所指定的各个文件数来收集文件。
12.—种检索文件的文件检索方法,其特征在于,具有: 输入步骤,接受命令输入; 特征词提取步骤,分析文件数据库所存储的文件并提取特征词; 类似文件检索步骤,使用所述特征词提取步骤中提取出的特征词,从所述文件数据库所存储的文件中检索与所述输入步骤中指定的输入文章或者输入文件类似的文件; 检索结果输出步骤,输出所述类似文件检索步骤的检索结果以及在所述类似文件检索步骤实施所述检索时所使用的所述特征词; 同义词处理步骤,根据指示指定所述检索结果输出步骤所输出的所述特征词中的任意一个来检索其同义词的命令输入,从所述检索结果所包含的文件集合提取所述同义词;以及 同义词输出步骤,输出在所述同义词处理步骤提取出的所述同义词。
【文档编号】G06F17/30GK103838816SQ201310615625
【公开日】2014年6月4日 申请日期:2013年11月26日 优先权日:2012年11月27日
【发明者】间濑久雄, 佐藤佑介 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1