多义词的信息检索装置以及程序的制作方法

文档序号:6454197阅读:368来源:国知局
专利名称:多义词的信息检索装置以及程序的制作方法
技术领域
本发明涉及进行考虑了词语的多义性的检索的多义词的信息检索
装置及程序。例如,"WINS"这一词语存在计算机用语和赛马用语这两 种。只输入"WINS"进行检索时,与计算机用语相关联的检索结果、和 与赛马的用语相关联的检索结果混合输出。如果用户只想要与计算机用 语相关联的报道的检索结果时,上述的检索结果不方便,所以,需要解 决该问题。
背景技术
以往,有提供用于检索的关键词进行信息检索的技术(参照非专利 文献l)。但是,在检索的阶段,不能进行考虑了单词的多义的输入。
非专利文献1:"位置情報t分野情報全用Wc:情報検索"村田真樹,馬青, 內元清貴,小作浩美,内山将夫,井佐原均,自然言語処理(言語処理学会誌) 2000年4月,7巻,2号,p.141 ~ p.160
上述以往的提供关键词进行信息检索的技术,在检索的阶段不能进 行考虑了单词的多义的输入,所以,有时检索出不需要的信息输出。

发明内容
本发明谋求解决上述问题,其目的在于进行考虑了词语的多义性的 检索而仅检索(输出)需要的信息。
图1是本发明的多义词的信息检索装置的说明图。在图1中,l是 输入部(输入单元),2是检索提取部(检索提取单元),4是数据库 (保存单元),5是输出部(输出单元)。
本发明具有用于解决所述以往的课题的如下单元。 (1):具备输入单元l,输入关键词和领域;数据库4,保存各 领域的报道;检索提取单元2,从所述数据库4提取包含所述输入的关 键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A, 在包含所述输入的关键词的报道当中,从较多地包含所述单词组A的报 道开始,依次进行输出。因此,能够使用多义词的关键词,检索所输入的领域的报道。
(2) :具备输入单元l,输入关键词和领域;数据库4,保存各 领域的报道;检索提取单元2,从所述数据库4中提取包含所述输入的 关键词和领域这两者的报道,并提取该提取出的报道组B的类似报道, 在该提取出的类似报道中,仅提取包含所述输入的关键词的报道并输 出。因此,能够使用多义詞的关键词,检索所输入的领域的报道。
(3) :在所述(2)的多义词的信息检索装置中,所述检索提取单 元2在所述提取的类似报道中,仅提取包含所述输入的关键词的报道并 输出的情况下,从与所述报道组B的类似度高的报道开始依次进行输 出。因此,能够使用多义词的关键词,检索所输入的领域的报道。
(4) :具备输入单元l,输入关键词;数据库4,保存各领域的 报道;检索提取单元2,从所述数据库4提取包含所述输入的关键词的 报道,并对该提取出的报道组进行分组,提取在各分组中有倾向而出现 的表现;查询单元,选择在所述各分组中有倾向地出现的表现,所述检 索提取单元2输出由所述查询单元所选择的表现的分组的报道。因此, 仅输入关键词能够容易地检索想要的领域的报道。
(5) :在所述(1 ) (3)的多义词的信息检索装置中,对所述输 入单元1输入关键词,由所述检索提取单元2从所述数据库4提取包含 所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各 分组中有倾向地出现的表现,具有查询单元,该查询单元选择在所述各 个分组中有倾向地出现的表现,将由所述查询单元选择的表现作为输入 到所述输入单元1的领域来使用。因此,输入关键词,能够容易地检索 想要的领域的报道。
(6) : —种程序,使计算机起到如下单元的作用输入单元l,输 入关键词和领域;数据库4,保存各领域的报道;检索提取单元2,从 所述数据库4提取包含所述输入的关键词和领域的报道,并提取倾向于 该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道 中,从较多地包含所述单词组A的报道开始,依次进行输出。因此,对 计算机安装该程序,由此,容易地提供多义词的信息检索装置,其能够
使用多义词的关键词,检索输入的领域的报道。
(7) : —种程序,使计算机起到如下单元的作用输入单元l,输 入关键词和领域;数据库4,保存各领域的报道;检索提取单元2,从所述数据库4中提取包含所述输入的关键词和领域这两者的报道,并提 取该提取出的报道组B的类似报道,在该提取出的类似报道中,仅提取 包含所述输入的关键词的报道并输出。因此,对计算机安装该程序,由 此,容易地提供多义词的信息检索装置,其能够使用多义词的关键词, 检索输入的领域的报道。
(8): —种程序,使计算机起到如下单元的作用输入单元l,输 入关键词;数据库4,保存各领域的报道;检索提取单元2,从所述数 据库提取包含所述输入的关键词的报道,并对该提取出的报道组进行分 组,提取在各分组中有倾向地出现的表现;查询单元,选择在所述各分 组中有倾向地出现的表现;输出由所述查询单元所选择的表现的分组的 报道的所述检索提取单元2。因此,容易地提供多义词的信息检索装置, 通过将该程序安装到计算机,仅输入关键词,就能够容易地检索想要的 领域的报道。
根据本发明,具有如下效果。
(1) :由检索提取单元从数据库提取包含输入的关键词和领域的 报道,并提取倾向于该提取的报道组而出现的单词组A,在包含所述输 入的关键词的报道中,从较多地包含所述单词组A的报道开始依次进行 输出,所以,能够使用多义词的关键词,检索输入的领域的报道。
(2) :由检索提取单元从数据库4提取包含输入的关键词和领域 这两者的报道,提取该提取出的报道组B的类似报道,在该提取出的类 似报道中,仅提取包含所述输入的关键词的报道并输出,所以,使用多 义词的关键词,能够检索输入的领域的报道。
(3) :在由检索提取单元在提取的类似报道中,仅提取包含输入 的关键词的报道并输出的情况下,从与报道组B的类似度高的报道开 始,依次进行输出,所以,使用多义词的关键词,能够可靠地检索输入 的领域的报道。
(4) :由检索提取单元从数据库提取包含输入的关键词的报道, 对该提取的报道组进行分组,提取在各分组中有倾向地出现的表现,由 查询单元选择在所述各个分组中有倾向地出现的表现,由所述检索提取 单元,输出由所述查询单元选择的表现的分组的报道,因此仅使用关键 词,就能够容易地检索需要的领域的报道。;
(5) :由检索提取单元从数据库提取包含输入的关键词的报道,对该提取的报道组进行分组,提取在各分组中有倾向地出现的表现,由 查询单元选择在所述各分组中有倾向地出现的表现,将由所述查询单元 选择的表现作为输入到所述输入单元的领域使用,因此,输入关键词, 能够容易地检索想要的领域的报道。


图1是本发明的多义词的信息检索装置的说明图。
图2是本发明的多义词的信息检索的流程图(1)。
图3是本发明的多义词的信息检索的流程图(2)。
图4是本发明的具有查询部的多义词的信息检索装置的说明图。
图5是本发明的多义词的信息检索的流程图(3)。
符号说明
1输入部(输入单元)
2检索提取部(检索提取单元)
4数据库(保存单元)
5输出部(输出单元)
具体实施例方式
本发明的多义词的信息检索装置用于在信息检索中进行检索,该检 索考虑了词语的多义性。例如,"WINS"这一单词,有计算机用语和赛 马用语这两种。在只输入"WINS"进行检索的情况下,与计算机用语相 关联的检索结果和与赛马的用语相关联的检索结果混合输出。如果用户 只想要与计算机用语相关联的报道的检索结果时,能够以下面说明的解 决方法(解决方法1~3)解决。
(1):多义词的信息检索装置的说明
图1是多义词的信息检索装置的说明图。在图1中,多义词的信息 检索装置(系统)中设置有输入部(输入单元)1、检索提取部(检索 提取单元)2、数据库(保存单元)4、输出部(输出单元)5。
输入部1是输入关键词等信息的输入单元。检索提取部2是进行单 词的提取、检索处理等的检索提取单元。数据库4是保存信息的保存单 元(还包含Web等信息)。输出部5是进行显示或印刷从而输出信息的 输出单元。(2):多义词的信息检索的说明1 (解决方法1) 能够使用户输入的形态如"关键词(领域)"这样,指定领域进行输 入。例如,如果是前面的例子,则输入为"WINS (计算机)"。
完成该输入时,首先提取包含"WINS"的报道。并且,在该报道组 中,提取包含计算机的报道。在包含"WINS"的报道组中,提取倾向于 包含计算机的报道组而出现的单词组A。在包含"WINS"的报道中,从较 多地包含单词组A的报道开始依次输出。单词组A是在计算机相关领域 的报道中较多出现的表现,预想较多出现这种表现的报道为计算机相关 的领域的报道。通过输出这种报道以解决问题。 (流程图的说明)
图2是多义词的信息检索的流程图(1 )。以下,根据图2的处理 S1 S5,进行多义词的信息检索(解决方法l)的说明。
Sl:通过输入部1,用户指定领域地输入关键词,并转移到处理S2。 S2:检索提取部2从数据库4提取包含所输入的关键词的报道,转 移到处理S3。
S3:检索提取部2在所提取的报道组中,提取包含已指定的领域的 报道,并转移到处理S4。
S4:检索提取部2在包含已输入的关键词的报道组中,提取倾向于 包含已指定的领域的报道组而出现的单词组A,转移到处理S5。
S5:检索提取部2在包含已输入的关键词的报道中,从较多地包含 单词组A的报道开始,依次输出到输出部5。
a)倾向于某报道组B而出现的单词组A的提取方法的说明1 (解 决方法l)
例如,可以将倾向于包含计算机的报道组而出现的单词组A在进行 提取时等使用。将包含报道组B的、更大的报道组设为C。这里,报道 组C既可以是整个数据库,也可以是一部分。如果根据上述解决方法1, 则C成为包含"WINS"的报道组。
但是,上述的解决方法1也能够有其它方法,并不是在包含"WINS" 的报道组中,取出倾向于包含计算机的报道组而出现的单词组A,而在 整个数据库的报道组中,取出倾向于包含计算机的报道组而出现的单词 组A,并利用该取出的单词组A来处理也可以。此时,C成为整个数据 库。首先,求C中的A的出现率和B中的A的出现率。 c中的a的出現率k:中的a的出现次数/c中的单词总数 B中的A的出现率=8中的A的出现次数/B中的单词总数 接着,求B中的A的出现率/C中的A的出现率,该值越大,越成 为倾向于报道组B而出现的单词。
b)倾向于某报道组B而出现的单词组A的提取方法的说明2 (利用显著误差检验的说明) 二项检验的情况下的说明
设A在C中的出现数为N。设A在B中的出现数为Nl。 设N2:N-Nl。
假设A出现在C中时,其出现在B中的概率为0.5,在N的总出现
当中,求N2次以下、A出现在C而不出现在B的概率。
该斗既率以 PI =2 C(N1+N2,x) * 0.5 '(x) * 0.5飞Nl+N2—x)
(其中,S是从X=0到X=N2的和)
(其中,C (A, B)是从A个不同的当中取出B个情况的数目) (其中,a表示指数)
表示,该概率的值如果充分小,则可以判断Nl和N2不是等价的 扭无率,即,N1与N2相比显著地大。
如果5%检验、则PI小于5%,如果10%检验、则PI小于10%,这 成为是否是显著地大的判断基准。
将判断为Nl与N2相比显著地大的结果作为倾向于报道组B而出 现的单词。另外,设P1越小,越是非常倾向于报道组B而出现的单词。
-卡方(力^二乗)检验的情况下的说明
将B中的A的出现次数设为Nl,将B中的单词的总出现数设为Fl, 将在C中而不在B中的、A的出现次数设为N2, 将在C中而不在B中的单词的总出现数为设为F2。 作为N=N1+N2,
求卡方值=(,(Fl* (N2-F2) - (Nl-Fl)*F2)A2)/( ( Fl+F2 ) * (N- (Fl+F2) ) *N1*N2)
并且,可以说该卡方值越大,Rl和R2就越存在明显误差,并且可以说卡方值比3.84大时,存在显著水平为5%的明显误差,在卡方值比 6.63大时,可以i兌存在显著水平为1%的显著误差。
假设在N1〉N2且卡方值越大,越是非常倾向于报道组B而出现的 单词。
.比的检-睑,正确而言为比率的差的4企-睑的说明 作为
p= (Fl+F2) / (Nl+N2)
pl=Rl
p2=R2
求Z叫pl -p2|/sqrt ( p* ( 1 - p ) * (薩+ l/N2)), (其中sqrt指平方根),并且,可以说Z越大,R1和R2就存在 明显误差,在Z比1.96大时,存在显著水平为5%的明显误差,在Z比 2.58大时,可以说存在显著水平为1%的明显误差。
N^N2且Z越大,越是非常倾向于报道组B而出现的单词。
也可以将这三种4企马全方法、和前面单纯地求B中的A的出现率/C 中的A的出现率而进行判定的方法进行组合。
例如,在存在显著水平为5%以上的明显误差当中,B中的A的出 现率/C中的A的出现率的值越大,越成为非常倾向于报道组B而出现 的单词。
c)较多包含单词组A的报道的提取方法的说明(解决方法l) 作为信息检索的基础知识,有以下的式子。这里,取Score(D)较 大的。
(1 )基本方法(TF IDF法)的说明 以score(D)= 2: (tf ( w, D ) *log ( N/df ( w))) WeW进4亍力口法运算, W是用户输入的关键词的集合, tf ( w,D )是文件D中的w的出现次数 df ( w)是在所有文件中出现W的文件的数量, N是文件的总数,
将score (D)较高的文件作为检索结果进行输出。 (2 ) Robertson等的Okapi weighting的i兌明 众所周知(文献)村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均"位置情報i:分 野情報^用V、广c情報検索"自然言語処理(言語処理学会誌)2000年4月,7巻,2 号,p.141 ~ p.160
的(1 )式性能较好。在该式子(1 )的2中,取积之前的tf项和idf 项的积成为Okapi的加;f又法,将该值用于单词的4又重。 在Okapi的式子中,以
score ( D ) =S (tf ( w, D ) / (tf ( w, D )十length/delta ) *log(N/df (w)))
WeW进行加法运算,
length是报道D的长度,delta是报道长度的平均, 报道的长度使用报道的字节数,或报道中所包含的单词数。 进而,也可以进行以下的信息检索。 (Okapi的参考文献)
S.E.Robertson,S.Walker,S. Jones,M.MHancock-Beaulieu,and M.Gatford Okapi at TREC-3,TREC-3,1994 (SMART的参考文献) Amit Singhal AT&T at REC-6,TREC-6,1997
作为更高的信息检索的方法,并不是仅使用tf.idf的式子,可以使 用这些Okapi和SMART的式子。
在这些方法中,并不只是tf.idf的式子,也利用报道的长度等,可 以进行更高精度的信息检索。
在本次的较多地包含单词组A的报道的提取方法中,还可以使用 Rocchio,s formula。 (文献)
"J.J.Rocchio","Relevance in information retrieval","The SMART retrieval System","Edited by G.Salton","Prentice Hall,Inc.","page 313-323", 1971
代替log (N/df ( w)),该方法使用
卿+ k—af * (RatioC(t) - RatioD(O)} *log(N/df(w))
E(t)=l (原来的检索中的关键词) =0 ( 1^jt匕《夕卜)RatioC (t)是在报道组B中的t的出现率, RatioD (t)是在报道组C中的t的出现率,通过以上式替换log (N/df(w))的式子,求score(D),其值越大, 越作为较多地包含单词组A的报道来取出。在score (D)的Z的加法运算时相加的单词w的集合W作为原来 的关键词和单词组A这两者。其中,原来的关键词和单词组A不重复。另外,作为其它的方法,在score (D)的2:的相加运算时加上。单 词w的集合W仅作为单词组A。其中,原来的关键词和单词组A不重 复。这里,在roccio的式子中采取了复杂的方法,但是,既可以是单纯 地单词组A的单词的出现次数之和越大,越作为较多地包含单词组A 的报道取出,另外,可以是单词组A的出现的差异越大,越作为较多地 包含单词组A取出。(3)多义词的信息检索的说明2 (解决方法2)可以如"关键词(领域)"这样使用户输入的形态指定领域输入。例 如,如果是前面的例子,则输入为"WINS (计算机)"。该输入完成时, 首先提取包含"WINS"和计算机这两者的报道。并且,提取该报道组B 的类似报道。在该类似报道中,仅提取包含"WINS"的报道,并将其作 为检索结果进行输出。此时,从与报道组B的类似度较高的报道开始输 出。这也被认为是能够提取与计算机相关联的领域的报道的方法。 (流程图的说明)图3是多义词的信息检索的流程图(2)。以下,根据图3的处理 S11 S14,说明多义词的信息检索(解决方法2)。Sll:通过输入部l,用户指定领域输入关键词,转移到处理S12。S12:检索提取部2从数据库4提取包含输入的关键词和领域这两 者的报道,转移到处理S13。S13:检索提取部2提取已提取出的报道组B的类似报道,转移到 处理S14。S14:检索提取部2在已提取的类似报道中,仅提取包含所输入的 关键词的报道,并将其作为检索结果进行输出。此时,从与报道组B的 类似度高的报道开始输出到输出部5。a)提取报道组B的类似报道的方法的说明(解决方法2)定义报道彼此的类似度。该类似度可以使用tf'idf、 okapi或smart。 可以是tf.idf、 okapi或smart等中的、比较报道D与询问(query )的两 个才艮道x和y。并且,将x、 y两者中所包含的单词作为w即可。生成将各单词作为维数、将各单词的得分(score )作为要素的向量, 使用报道x中所包含的单词,使报道x的向量为向量(vector—x),另 外,使用寺艮道y中所包含的单词,使才艮道y的向量为(vector—y),可 以将这些向量的余弦(cos ( vector_x, vector_y))的值作为报道的类似 度。在各单词的得分的计算中,可以使用tf.idf、 okapi或smart。这些式 子的S的后面的部分的式子成为得分的计算式。该式子的值成为各单词 的得分。如果是tf'idf,贝'Jtf(w, D) *log(N/df(w)), 如果是okapi,则tf ( w, D ) / (tf ( w,D )十length/delta) *log ( N/df (w))成为该式子。另夕卜,在较多地包含单词组A的报道的提取中,也可以求该向量的 余弦(cos (vector_x, vector_y))的<直,越是该it越大的才艮道,越可以 判断为是较多地包含单词组A的报道。此时,使用单词组A中所包含的 单词作成向量(vector—x),使用报道中所包含的单词作成向量(vector_y) 并进行求出。在才艮道组B和报道x的类似度中,存在以下的方法等。-将在报道组B当中与报道x最类似的报道、和报道x的类似度作 为该类似度的方法-将在报道组B当中与报道x最不类似的报道、和报道x的类似度 作为该类似度的方法-将报道组B的所有报道和报道x的类似度的平均作为该类似度的方法也可以是其它的方法,但是这样求报道组B和报道x的类似度,可 以将该类似度大的报道取出作为类似报道。另外,作为其它方法,利用前面的方法取出倾向于报道组B而出现 的单词,并且,也利用该单词,计算基于Rocchio,s formula的Score( D ), 可以将Score (D)大的报道取出作为类似报道。(4):多义词的信息检索的说明3 (解决方法3)用户仅输入"关键词"。例如,如果是前面的例子,输入"WINS"。在 该输入完成时,首先提取包含"WINS"的净艮道。并且,对该报道组进行 分组(clustering) 。 ^是取在各个分组中有倾向而出现的表现。例如,分 割成两个分组,倾向于各个分组而出现的表现分别为"计算机"和"赛马"。 此时,向用户询问是与"计算机"和"赛马,,的哪一个相关联。然后,用户 选择该任意一个。选择之后,将所选择的表现作为输入的"领域",与上 述解决方法1、 2同样地进行处理,或者将所选择的分组作为检索结果 进行输出。(具有询问部的多义词的信息检索装置的说明)图4是具有查询部的多义词的信息检索装置的说明图。在图4中, 在具有查询部的多义词的信息检索装置(系统)中,设置有输入部(输 入单元)1、检索提取部(检索提取单元)2、查询部(查询单元)3、 数据库(保存单元)4、输出部(输出单元)5。输入部1是用于输入关键词等的信息的输入单元。检索提取部2是 进行单词的提取、检索处理等的检索提取单元。查询部3是向用户询问 倾向于分组而出现的表现(技术领域等)、并且用户进行选择的查询单 元。数据库4是保存信息的保存单元。输出部5是进行显示和印刷从而 输出信息的输出单元。 (流程图的说明)图5是多义词的信息检索的流程图(3)。以下,根据图5的处理 S21 S26,说明具有查询部的多义词的信息4企索(解决方法3)。 S21:通过输入部l,用户仅输入关键词,转移到处理S22。 S22:检索提取部2从数据库4提取包含所输入的关键词的报道, 转移到处理S23。S23:检索提取部2对所提取出的报道组进行分组,转移到S24。 S24:检索提取部2提取在各分组中有倾向而出现的表现,转移到 处理S25。S25:查询部3向用户进行询问,使得选择在各分组中有倾向而出 现的表现,转移到处理S26 。S26:检索提取部2将所选择的分组的报道输出到输出部5。 a)分组的说明(解决方法3) 在分组方面有各种方法。以下记述通常的方法。(分层分组(自底向上分组)的说明) 使最接近的成员彼此不断靠近,生成分组。分组和分组彼此也(分 组和成员彼此也)使最接近的分组彼此靠近。由于分组之间的距离的定义各种各样,以下进行说明。有下方法-对于分组A和分组B的距离,将分组A的成员和分组B的成员的 距离中最小的作为该距离的方法-对于分组A和分组B的距离,将分组A的成员和分组B的成员的 距离中最大的作为该距离的方法.对于分组A和分组B的距离,将所有分组A的成员和分组B的成 员的距离的平均作为该距离的方法.对于分组A和分组B的距离,将所有分组A的成员的位置的平均 作为该分组的位置,将所有分组B的成员的位置的平均作为该分组的位 置,将该位置彼此的距离的平均作为该距离的方法-净皮称为沃德(ward)法的方法。以下i兌明沃德法。<formula>formula see original document page 15</formula>A表示指数。第一个S是从i=l到产g的加法运算,第二个S是从j4到j=ni的加法运算, x (i, _j)是第i分组的第j成员的位置, ave—x (i)是第i分组的所有成员的位置的平均。 使分组彼此靠近时,W的值增加,但是在沃德法中,以尽量不使W 的值变大的方式使分组彼此靠近。对于成员的位置来说,从报道中取出单词,将该单词的种类作为向 量的维数,并生成向量,且将其作为该成员的位置,其中,该向量是将 各单词的向量的要素的值作为单词的频度、或该单词的tf.idf(即,tf( w, D) *log (N/df (w)))、该单词的Okapi的式子(即,tf (w, D) / (tf (w, D)十length/delta) *log (N/df (w)))的向量。 (自上向下分组(非分层分组)的说明) 以下,说明自上向下的分组(非分层分组)的方法。 (最大距离算法的说明)取某成员。接着,取与该成员距离最远的成员。将这些成员作为各个分组的中心。将成员与各个分组中心的距离的最小值作为各成员的距 离,将该距离最大的成员作为新的分组的中心。对此进行重复。在成为 预先决定的数量的分组时,停止重复。另外,在分组间的距离成为预先决定的数以下时,停止重复。另外,存在如下方法通过AIC信息量基 准等评价分组的好处,利用该值,停止重复。各个成员成为最近的分组 中心的成员。(K平均法的说明)考虑分组成预先决定的个数k个。随机地选择k个成员,将其作为 分组的中心。各个成员成为最近的分组中心的成员。将分组内的各个成 员的平均作为各个分组的中心。各个成员成为最近的分组中心的成员。 另外,将分组内各个成员的平均作为各个分组的中心。对这些进行重复。 并且,在分组的中心不移动时,停止重复。或者,仅重复预先决定的次 数后停止。使用该最终的分组中心时的分组中心,求出分组。各个成员 成为最近的分组中心的成员。这样进行分组。分组的方法除此之外还有4艮多,所以,也可以利用 它们。b)倾向于各个分组而出现的表现的提取的说明(解决方法3) 考虑通过与"倾向于某一报道组B而出现的单词组A的提取方法的说明1 (解决方法1)"同样的方法取出,那样进行也可以。更单纯地,按每个分组,将只在该分组中出现的单词按频度顺序排列,作为倾向于各个分组而出现的表现而取出也可以。 (5):使用多个关键词的情况下的说明关于所述解决方法l、 2,最初提供的关键词为"WINS (计算机)", 但是可以如AB (B,) C (C,)这样为多个。这表示单词A、单词B (其 中,领域B,的意思的情况下的单词B)和单词C (其中,领域C,的意思 的情况下的单词C)的AND检索。a) 解决方法1的"i兌明在将 其通过解决方法1进行的情况下,取出包含A、 B、 C的报道 组X。接着,从报道组X中取出包含B,、 C,的报道组X,。取出报道组 X的倾向于才艮道组X,而出现的单词组Y。并且,取出才艮道组X的專交多 地包含单词组Y的报道并输出。b) 解决方法2的说明在将其通过解决方法2进行的情况下,取出包含A、 B、 B,、 C、 C, 的报道组X。接着,提取报道组X的类似报道。在类似报道中,取出包 含A、 B、 C的报道并输出。
c)解决方法3的说明
即使通过解决方法也能够进行。首先,输入A、 B、 C。接着,取出 包含A、 B、 C的报道组。进行分组,输出倾向于各个分组而出现的单 词Z。使用户选择该单词,将所选择的表现作为输入的"领域",可以与 上述解决方法1、 2同样地进行处理,或者将所选择的分组作为检索结 果进行输出。
进而,在解决方法3中,将倾向于各分组而出现的单词组Z与输入 的A、 B、 C对应地表示也可以。
例如,单词组Z按照频度顺序,成为Zl, Z2, Z3,......。将Zl,
Z2, Z3,......与经常和A、 B、 C同现的接近地表示也可以。
在Z1与A经常同现,Z2和C经常同现,Z3和B经常同现的情况
下,

分组1 AZ1、 BZ3、 CZ2 分组2
这样来表示, -使用户选择Z1, Z2, Z3......,或使用户选择分组。
另外,对于该表示来说,如果知道输入关键词和Zl, Z2,......的关联,
则其它形式也可以。
Z1是否与A经常同现,存在以下情况。
Z1和A都出现的报道数越多,就越是经常同现。
.使用所述的倾向的识别的方法,判断为在包含Z1的报道中,A常
倾向地出现的情况下,就为经常同现。
设Z1和A都出现的报道数为a,仅Zl出现的报道数为b,仅A出
现的报道数为c,全部报道数为d,则a
2a/(2a+b+c)
n(ad-bcr2/(a+b)/(c+d)/(a+c)/(b+d)n( I ad-bc i -n/2)_2/(a+b)/(c+d)/(a+c)/(b+d)log (an/(a+b)/(a+c))(ad -bc)/((a+c)(b+d))'0.5a log (an/(a+b)/(a+c)) + b log (bn/(a+b)/(b+d)) + c log (cn/(a+c)/(c+d)) + d log (dn /(b+d)/(c+d))a/(bc+ad) a/(ad-bc) a/b/c等的值较大的作为(使用这些当中的哪个式子)经常同现。像这样,Zl与A是否经常同现有各种。另外,在所述实施方式中,记载为"值越大的越取出"的处理能够为 "将值为阔值以上的取出"。另夕卜,记载为"将值越大的按大小顺序取出预 定的值的个数以上的,,的处理可以为,"求出对于所取出的值的最大值乘 以预定的比例后的值,取出具有该求出的值以上值的"。进而,可以预 先决定这些阈值、预定的值,用户可以适当对值进行变更、设定。 (9):程序安装的说明输入部(输入单元)1、检索提取部(检索提取单元)2、查询部(查 询单元)3、数据库(保存单元)4、输出部(输出单元)5等可以由程 序构成,主控制单元(CPU)执行,并保存在主存中。该程序由一般的 计算机(信息处理装置)处理。该计算机由主控制单元、主存、文件装置、显示装置、键盘等的输入单元即输入装置等硬件构成。对该计算机安装本发明的程序。对于该安装来说,使这些程序预先 存储在软盘、光磁盘等可移动型的记录(存储)媒体中,对于计算机具 有的记录媒体,经由用于访问的驱动器装置,或者经由LAN等网络, 安装在计算机中设置的文件装置中。并且,从该文件装置中将处理所需 要的程序步骤读出到主存中,并且主控制部执行。
权利要求
1.一种多义词的信息检索装置,其特征在于,具备输入单元,输入关键词和领域;数据库,保存各领域的报道;以及检索提取单元,从所述数据库中提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从包含很多所述单词组A的报道开始,依次进行输出。
2. —种多义词的信息检索装置,其特征在于,具备 输入单元,输入关键词和领域;数据库,保存各领域的报道;以及检索提取单元,从所述数据库中提取包含所述输入的关键词和领域 这两者的报道,并提取该提取出的报道组B的类似报道,在该提取出的 类似报道中,仅提取包含所述输入的关键词的报道并输出。
3. 如权利要求2的多义词的信息检索装置,其特征在于, 所述检索提取单元在所述提取的类似报道中,仅提取包含所述输入的关键词的报道并输出的情况下,从与所述报道组B的类似度高的报道 开始依次输出。
4. 一种多义词的信息检索装置,其特征在于,具备输入单元,输入关键词;数据库,保存各领域的报道;检索 提取单元,从所述数据库提取包含所述输入的关键词的报道,并对该提 取出的报道组进行分组,提取在各分组中有倾向地出现的表现;查询单 元,选择在所述各分组中有倾向地出现的表现,所述检索提取单元对由所述查询单元所选择的表现的分组的报道 进行输出。
5. 如权利要求1~3任意一项的多义词的信息检索装置,其特征在于,对所述输入单元输入关键词,由所述检索提取单元从所述数据库提 取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提 取在各分组中有倾向地出现的表现,具有选择在所述各个分组中有倾向地出现的表现的查询单元, 将由所述查询单元选择的表现用作输入到所述输入单元中的领域。
6. —种程序,使计算机起到如下单元的作用 输入单元,输入关键词和领域;数据库,保存各领域的报道;以及检索提取单元,从所述数据库提取包含所述输入的关键词和领域的 报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述 输入的关键词的报道中,从包含很多所述单词组A的报道开始,依次进 行输出。
7. —种程序,使计算机起到如下单元的作用 输入单元,输入关键词和领域;数据库,保存各领域的报道;以及检索提取单元,从所述数据库中提取包含所述输入的关键词和领域 这两者的报道,并提取该提取出的报道组B的类似报道,在该提取出的 类似报道中,仅提取包含所述输入的关键词的报道并输出。
8. —种程序,使计算机起到如下单元的作用 输入单元,输入关键词;数据库,保存各领域的报道;检索提取单元,从所述数据库提取包含所述输入的关键词的报道, 并对该提取出的报道组进行分组,提取在各分组中有倾向地出现的表 现;以及查询单元,选择在所述各分组中有倾向地出现的表现, 所述检索提取单元,输出由所述查询单元所选择的表现的分组的报道。
全文摘要
本发明涉及多义词的信息检索装置以及程序。使用多义词的关键词可靠地检索所输入的领域的报道。具有输入单元(1),输入关键词和领域;数据库(4),保存各领域的报道;检索提取单元(3),从所述数据库(4)提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从较多包含所述单词组A的报道开始,按顺序输出。
文档编号G06F17/30GK101405725SQ20078000868
公开日2009年4月8日 申请日期2007年3月9日 优先权日2006年3月10日
发明者三森智裕, 土井晃一, 村田真树, 福田安志 申请人:独立行政法人情报通信研究机构
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1