单词对取得装置、单词对取得方法及其程序的制作方法

文档序号:6350347阅读:132来源:国知局
专利名称:单词对取得装置、单词对取得方法及其程序的制作方法
技术领域
本发明涉及一种取得具有规定关系的两个单词对的单词对取得装置等。
背景技术
以往,具有一种给出少量想要取出的单词对(Word Pair)而从该单词对取得模式的单词对取得装置。而且,以往的单词对取得装置取得与该取得的模式同现的单词对(例如,参照非专利文献1)。__专禾1J文献 1 :P. Pantel and Μ. Pennacchiotti. Espresso Leveraging generic patterns for automatically harvesting semantic relations. In Proceedings of the 21stInternational Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics(C0LINGACL-06), pages 113-120,2006.

发明内容
发明所要解决的课题但是,以往的单词对取得装置,无法恰当地取得具有规定关系的单词对。解决课题的方法本第一发明的单词对取得装置,具备文章群存储部,可存储一个以上的文章群; 单词类信息存储部,可存储两个以上的单词类信息,该单词类信息是将一个以上单词与用于识别一个以上单词所属的类的类标识符关联起来而拥有的信息;类对(Class pair)良好度存储部,可存储类对良好度,该类对良好度是表示两个类的良好程度的指标;单词对 (Word Pair)存储部,可存储一个以上的由两个单词构成的单词对;类对良好度取得部,从类对良好度存储部取得存储在单词对存储部中的一个以上单词对拥有的各单词所属的两个类的类对良好度;分数决定部,使用由类对良好度取得部取得的类对良好度,决定单词对存储部中的各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对具有由分数决定部决定的分数满足预先决定的条件的高分数;单词对输出部,输出由单词对选择部取得的一个以上的单词对。根据所述构成,能够利用类对良好度,恰当取得具有规定关系的单词对。而且,本第二发明的单词对取得装置,相对于第一发明,进一步具备种子模式 (Seed pattern)存储部,可存储一个以上的种子模式,该种子模式是为了取得具有规定关系的两个单词对而利用的模式;类对良好度算出部,以如下方式算出类对良好度,即,当分别属于两个类的单词对,在文章群存储部中的一个以上的文章群中与一个以上的种子模式同现的次数或比例越多,则类对良好度越大;而且,由类对良好度算出部算出的两个类的类对良好度是,存储在类对良好度存储部中的类对良好度。根据所述构成,能够恰当地算出类对良好度,并利用该类对良好度,恰当地取得具有规定关系的单词对。
而且,本第三发明的单词对取得装置,相对于第一或第二发明,进一步具备模式存储部,可存储一个以上的模式,该模式是不同于种子模式的模式,是为了取得具有规定关系的两个单词对而利用的模式;模式相似度存储部,能够按照每个模式,对在模式存储部中存储的一个以上的各模式与种子模式之间的相似度进行存储;单词对取得部,取得在种子模式存储部中存储的一个以上种子模式及在模式存储部中存储的一个以上模式中的任一个,并且从存储在文章群存储部中的一个以上文章群中,取得与种子模式或模式同现的一个以上的单词对;分数决定部还使用在模式相似度存储部中存储的一个以上的各模式与种子模式之间的相似度,决定由单词对取得部取得的各单词对的分数。根据所述构成,能够利用种子模式与模式的相似度,更加恰当地取得具有规定关系的单词对。而且,本第四发明的单词对取得装置,相对于第三发明,进一步具备模式相似度算出部,该模式相似度算出部以如下方式算出相似度,即与一个以上种子模式同现的单词对所对应的类对,和与存储在模式存储部中的一个以上的各模式同现的单词对所对应的类对之间的交叠越大,相似度就越大;模式相似度算出部算出的相似度是,存储在模式相似度存储部中的相似度。根据所述构成,能够恰当地算出种子模式与模式的相似度,并利用相似度,更加恰当地取得具有规定关系的单词对。而且,本第五发明的单词对取得装置,相对于第一至第四的任一发明,进一步具备亲和度信息存储部,该亲和度信息存储部可存储亲和度信息,该亲和度信息是有关一个以上的各单词对与一个以上的各模式之间的亲和度的信息;分数决定部还使用亲和度信息存储部中的亲和度信息,决定由单词对取得部取得的各单词对的分数。根据所述构成,能够利用模式与单词对的亲和度,进一步恰当地取得具有规定关系的单词对。而且,本第六发明的单词对取得装置,相对于第五发明,进一步具备亲和度信息算出部,该亲和度信息算出部以如下方式算出亲和度信息,即,单词对取得部取得的一个以上的单词对与一个以上的各模式同现的次数或比例越多,亲和度信息则越大;而且,亲和度信息存储部的亲和度信息是由亲和度信息算出部算出的亲和度信息。根据所述构成,能够恰当地算出模式与单词对的亲和度,并利用该亲和度,进一步恰当地取得具有规定关系的单词对。而且,本第七发明的单词对取得装置,相对于第六发明,分数决定部将类对良好度、种子模式与模式之间的相似度及亲和度信息的乘积为最大的种子模式或模式的分数, 决定为各单词对的分数。根据所述构成,能够高精度地算出单词对的分数,其结果,非常适当地取得具有规定关系的单词对。而且,本第八发明的单词对取得装置,相对于第三至第七中的任一发明,进一步具备模式取得部,该模式取得部对于存储在文章群存储部中的一个以上文章群的每个语句, 进行词素解析及依存关系解析,并将第一个名词或名词子句作为起点,将第二个名词或名词子句作为终点,而且将自起点至终点的词素连接关系作为模式取得,或者还将自起点的词素连接关系与自终点的词素连接关系相连的词素,作为模式取得;而且,模式存储部中的模式是,由模式取得部取得的模式。根据所述构成,能够从文章群中恰当取得模式,并利用该模式,恰当取得具有规定关系的单词对。而且,本第九发明的单词对取得装置,相对于第一至第八中的任一发明,进一步具备排除类对存储部,可存储一个以上排除类对,该排除类对是用于识别与最终不输出的单词对对应的类对的两个类标识符;单词对排除部,从输出的单词对中排除与一个以上的排除类对对应的单词对。根据所述构成,能够降低输出不当单词对的可能性,其结果,更恰当地取得具有规定关系的单词对。而且,本第十发明的单词对取得装置,相对于第九发明,进一步具备类出现频率信息存储部,可按照每个类存储类出现频率信息,该类出现频率信息成对地拥有一个以上文章群中属于各类的单词的平均出现频率以及类标识符;排除类对积蓄部,将平均出现频率具有预先决定的阈值以上的差的两个类的类标识符作为排除类对,而积蓄在排除类对存储部中。根据所述构成,能够降低输出不恰当单词对的可能性,其结果,更恰当地取得具有规定关系的单词对。而且,本第十一发明的单词对取得装置,相对于第一至第十中的任一发明,进一步具备单词类信息取得部,该单词类信息取得部使用文章群存储部中的一个以上的文章群, 并以如下方式取得一个以上的单词类信息,即,使与同一动词、或与同一动词和助词同现的次数或比例多的单词属于同一类;而且,单词类信息存储部中的单词类信息是,由单词类信息取得部取得的单词类信息。根据所述构成,能够更恰当地取得单词类信息。发明效果根据本发明涉及的单词对取得装置,能够恰当地取得具有规定关系的单词对。


图1是包含实施方式1涉及的单词对取得装置1的单词取得系统的概念图。图2是该单词对取得装置的、着眼于进行取得单词对处理的构成要素的框图。图3是该单词对取得装置的、着眼于进行取得单词对处理之前进行准备工作的构成要素的框图。图4是表示该字符串的依存关系解析结果的示意图。图5是表示该字符串的依存关系解析结果的示意图。图6是用于说明该单词对取得装置动作的流程图。图7是表示该单词类信息管理表的示意图。图8是表示该类出现频率信息管理表的示意图。图9是表示该单词对等的输出例的示意图。图10是表示在该实验1中各方法的精确度的曲线图。图11是表示该单词对等的输出例的示意图。图12是表示在该实验2中各方法的精确度的曲线图。
图13是表示该单词对等的输出例的示意图。图14是表示在该实验3中各方法的精确度的曲线图。图15是表示该概率分布管理表的示意图。图16是该计算机系统的概观图。图17是该计算机系统的框图。
具体实施例方式下面,参照

单词对取得装置等的实施方式。还有,由于在实施方式中赋予了相同附图标记的构成要素进行相同动作,故省略再次说明。实施方式1在本实施方式中,说明取得具有规定关系的两个单词对的单词对取得装置。本单词对取得装置,将单词对所属的类对的好坏程度(后述的类对良好度)作为衡量指标,而选择单词对。而且,本单词对取得装置,将提取单词对时利用的模式的好坏程度(后述的相似度)作为衡量指标,而选择单词对。进一步,本单词对取得装置,使用模式与单词对的亲和度(后述的亲和度信息),而选择单词对。图1是包含实施方式涉及的单词对取得装置1的单词取得系统的概念图。单词取得系统包括,单词对取得装置1和一个以上的文章群存储装置2。文章群存储装置2是存储有文章群的服务器装置。文章群存储装置2例如是网络上的服务器装置,存储有一个以上的网页。这种情况下,文章群为网页。而且,单词对取得装置1从一个以上的文章群存储装置2中取得文章群,并至少暂存该文章群。图2及图3是本实施方式涉及的单词对取得装置1的框图。图2是在单词对取得装置1的构成要素中,主要着眼于进行取得单词对处理的构成要素的框图。图3是在单词对取得装置1的构成要素中,主要着眼于进行取得单词对处理之前进行准备工作的构成要素的框图。但是,图2、图3是将单词对取得装置1分离的构成的一例而已。单词对取得装置1具备,文章群存储部101、单词对存储部102、单词类信息存储部 103、种子模式存储部104、模式存储部105、类对良好度存储部106、模式相似度存储部107、 亲和度信息存储部108、排除类对存储部109、类出现频率信息存储部110、单词对取得部 111、单词对积蓄部112、单词类信息取得部113、单词类信息积蓄部114、模式取得部115、模式积蓄部116、类对良好度算出部117、类对良好度积蓄部118、模式相似度算出部119、模式相似度积蓄部120、亲和度信息算出部121、亲和度信息积蓄部122、类对良好度取得部123、 模式相似度取得部124、亲和度信息取得部125、分数决定部126、单词对选择部127、单词对输出部128、单词对排除部129、排除类对积蓄部130、类出现频率信息算出部131。文章群存储部101可存储一个以上的文章群。文章群例如是网页。但是,文章群不限于此。文章群也可以是文本数据、规定的数据库等,不限其构造。文章群存储部101中的文章群优选是,通过通信手段或广播接收手段等取得的文章群。文章群存储部101优选为非易失性记录介质,但是易失性记录介质也可以实现。在文章群存储部101中存储文章群的过程不限。例如,也可以通过记录介质将文章群存储在文章群存储部101中,也可以通过通信线路等将文章群存储在文章群存储部101中,或者也可以将通过输入设备输入的文章群存储在文章群存储部101中。
单词对存储部102可存储一个以上的单词对。单词对是具有规定关系的两个单词。在此,单词通常为名词或名词子句。但是,也可以将形容词等其它词类认为是单词。另外,规定关系是指,例如,原因与结果的关系、原材料与产品的关系、现象与该现象的防止手段的关系等。规定关系为原因与结果的关系时,例如,单词对为“病毒”与“感冒”等。单词对存储部102优选为非易失性记录介质,但是易失性记录介质也可以实现。在单词对存储部102中存储单词对的过程不限。但是,通常由单词对积蓄部112将单词对取得部111取得的单词对积蓄在单词对存储部102中。单词类信息存储部103可存储两个以上的单词类信息。单词类信息是指,将一个以上单词与用于识别一个以上单词所属类的类标识符关联起来而拥有的信息。类是指,将经常与同一动词同现的单词(通常为名词)作为属于同一类的单词。而且,也可以将经常与同一动词及助词同现的单词(通常为名词)作为属于同一类的单词。在此,经常同现是指, 以预先决定的次数(频率)或比例以上,与同一动词或与同一动词及助词同现的情况。单词类信息也可以是具有类标识符及用于识别一个以上单词的一个以上单词标识符的信息。 单词类信息存储部103优选为非易失性记录介质,但是易失性记录介质也可以实现。在单词类信息存储部103中存储单词类信息的过程不限。但是,通常由单词类信息积蓄部114 将单词类信息取得部113取得的单词类信息积蓄在单词类信息存储部103中。种子模式存储部104可存储一个以上的种子模式。种子模式是指,为了取得具有规定关系的两个单词对而利用的模式。种子模式是预先被赋予的模式。种子模式是用于取得单词对或新模式的基本模式。另外,模式是包含两个单词和表达模式的文字列。模式例如是,“X引起Y”、“x引起的Y”等。在此,置换到X与Y的两个单词为单词对。也就是说,X 或Y是所谓变数。变数中可以包括字符串。还有,存储在种子模式存储部104中的种子模式,例如为10或20等的模式。种子模式存储部104优选为非易失性记录介质,但是易失性记录介质也可以实现。在种子模式存储部104中存储种子模式的过程不限。但是,种子模式通常通过用户手动输入而积蓄在种子模式存储部104中。模式存储部105可存储一个以上的模式。模式是,不同于种子模式的模式,是为了取得具有规定关系的两个单词对而利用的模式。但是,模式中也可以包含种子模式。模式存储部105优选为非易失性记录介质,但是易失性记录介质也可以实现。在模式存储部105 中存储模式的过程不限。但是,通常由模式积蓄部116将模式取得部115取得的模式积蓄在模式存储部105中。还有,模式也可以通过用户手动作业进行积蓄。类对良好度存储部106可存储表示两个类的良好程度的指标的类对良好度。在此,将两个类称为类对。而且,表示两个类的良好程度的指标是指,属于两个类的单词对常与种子模式同现的程度。属于两个类的单词对越经常与种子模式同现,则称为好的类对。类对良好度是数值。而且,越是好的类对,类对良好度值越大。在类对良好度存储部106中通常存储有一个以上的类对良好度信息,该类对良好度信息将两个类的类标识符与类对良好度成对而拥有。而且,使用表示类对不好的指标,也与使用类对良好度具有相同的含义。当类对良好度表示类对不好的指标时,例如,类对良好度越大,则表示类对不好。还有,当类对良好度表示类对不好的指标时,在后述的公式中,例如,类对良好度认为是倒数而计算。类对良好度存储部106优选为非易失性记录介质,但是易失性记录介质也可以实现。在类对良好度存储部106中存储类对良好度的过程不限。但是,通常由类对良好度积蓄部118将类对良好度算出部117算出的类对良好度积蓄在类对良好度存储部106中。模式相似度存储部107可按照每个模式对存储在模式存储部105中的一个以上的各模式与种子模式的相似度进行存储。模式相似度存储部107,例如,将用于识别模式的模式标识符与相似度关联起来而拥有。而且,模式相似度存储部107也可以例如将模式与相似度关联起来而拥有。模式与种子模式的相似度的算出方法不限。相似度的具体算出方法后述。模式相似度存储部107优选为非易失性记录介质,但是易失性记录介质也可以实现。 在模式相似度存储部107中存储相似度的过程不限。但是,通常由模式相似度积蓄部120 将模式相似度算出部119算出的模式相似度积蓄在模式相似度存储部107中。亲和度信息存储部108可存储亲和度信息,该亲和度信息是有关一个以上的各单词对与一个以上的各模式之间的亲和度的信息。亲和度信息是,通常表示单词对与模式之间的亲和度程度的数值。亲和度信息越大,表示单词对与模式之间的亲和度程度越高。亲和度信息存储部108,例如,将模式标识符或模式、单词对或单词对的标识符(也可以是两个单词标识符)与亲和度信息关联起来而拥有。而且,亲和度信息也可以表示单词对与模式之间亲和度低的程度。这种情况下,亲和度信息越小,表示单词对与模式之间的亲和度程度越高。亲和度信息存储部108优选为非易失性记录介质,但是易失性记录介质也可以实现。在亲和度信息存储部108中存储亲和度信息的过程不限。但是,通常由亲和度信息积蓄部122将亲和度信息算出部121算出的亲和度信息积蓄在亲和度信息存储部108中。排除类对存储部109可存储一个以上的排除类对。排除类对是指,表示与最终不会输出的单词对对应的类对的信息。排除类对是通常具有两个类标识符的信息。但是,排除类对也可以是单词对等能够取得两个类标识符的基本信息。排除类对存储部109优选为非易失性记录介质,但是易失性记录介质也可以实现。在排除类对存储部109中存储排除类对的过程不限。但是,通常将被排除类对积蓄部130排除的排除类对积蓄在排除类对存储部109中。但是,也可以通过用户手动输入,将排除类对积蓄在排除类对存储部109中。类出现频率信息存储部110可按照每个类存储类出现频率信息。类出现频率信息是指,将在一个以上文章群内属于各类的单词的平均出现频率与类标识符成对而拥有的信息。平均出现频率由未图示的类出现频率信息取得部,例如通过下面处理而取得。 类出现频率信息取得部取得属于各类的所有单词在一个以上文章群内出现的频率(Π、 f2、. . . fn)。其次,类出现频率信息取得部,按照每个类算出,类内所有单词的平均出现频率 ((fl+f2+. . . +fn)/n)。类出现频率信息存储部110优选为非易失性记录介质,但是易失性记录介质也可以实现。在类出现频率信息存储部110中存储类出现频率信息的过程不限。 但是,通常将由类出现频率信息算出部131算出的类出现频率信息积蓄在类出现频率信息存储部110中。但是,也可以通过用户手动输入,将类出现频率信息积蓄在类出现频率信息存储部110中。单词对取得部111取得种子模式存储部104中存储的一个以上种子模式中的任一个,并从存储在文章群存储部101中的一个以上文章群中,取得与取得的种子模式同现的一个以上单词对。单词对与种子模式等模式同现是指,在句子中存在模式(除了单词对的字符串),且在句子中出现构成单词对的两个单词的情况。例如,模式为“X引起Y”时,所谓单词“X”和“Y”与模式“X引起Y”同现。当种子模式为“X引起Y”时,单词对取得部111,从一个以上文章群中的句子“病毒引发感冒”中取得“病毒”和“感冒”。而且,种子模式为 “X引起的Y”,当一个以上文章群中的句子为“关于交通事故引起的经济性的损失”(交通事故(二 J 3経済的&損害(二関L· r )时,单词对取得部111进行如下处理而取得单词对“交通事故”和“损失”。也就是说,单词对取得部111通过模式匹配等语言处理技术识别在“关于交通事故引起的经济性的损失”中存在“引起的”。其次,单词对取得部111对一个以上文章群中的句子“关于交通事故引起的经济性的损失”进行词素解析,从而获得“关于I交通事故I引起I的I经济性I的I损失”及各词素的词类。而且,其次,单词对取得部111进行依存关系解析,从而获得如图4所示的词素之间的依存关系信息(箭头所示信息)。之后, 单词对取得部111取得与“引起的”相连的名词“交通事故”和自“引起的”相连的名词“损失”。该“交通事故”与“损失”是单词对。作为进行上述词素解析的技术,存在JUMAN(参照 URL :http://nlp. kuee. kyoto-u. ac. jp/nl-resource/juman. html),或 ChaSen(参照 URL :http://chasen. naist. jp/hiki/ChaSen)等,属于公知技术。而且,作为进行依存关系解析的技术,有日语语法分析系统KNP(参照URL :http://nlp. kuee. kyoto-u. ac. jp/ nl-resource/knp. html)等,属于公知技术。单词对取得部111更优选利用存储在种子模式存储部104中的一个以上种子模式及存储在模式存储部105中的一个以上模式中的任一个(通常为全部),取得单词对。也就是说,更优选单词对取得部111依次取得一个以上种子模式和一个以上模式中的任一个, 并从存储在文章群存储部101中的一个以上文章群中,取得与种子模式或模式同现的一个以上单词对。而且,单词对取得部111取得单词对时也可以不使用种子模式或模式。也就是说, 单词对取得部111也可以从一个以上文章群中的各句子中,取得两个单词(通常名词)的对。这种情况,单词对取得部111取得在一个句子中同现的一个以上的单词对。单词对取得部111通常可通过MPU或存储器等实现。单词对取得部111的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。单词对积蓄部112将由单词对取得部111取得的一个以上的单词对积蓄在单词对存储部102中。单词对积蓄部112通常可通过MPU或存储器等实现。单词对积蓄部112的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。单词类信息取得部113使用文章群存储部101中的一个以上文章群,取得一个以上单词类信息。单词类信息取得部113,例如对一个以上文章群中的各句子进行词素解析, 从而取得所有动词与助词的组合或所有动词。而且,单词类信息取得部113,例如对一个以上文章群中的各句子进行词素解析,从而取得所有名词(包括名词子句)。然后,单词类信息取得部113,按照每个名词,算出各名词与各动词和助词的组合或各动词同现的次数或比例。其次,单词类信息取得部113,按照每个名词,取得将与各动词和助词的组合或各动词同现的次数或比例作为要素的向量。其次,单词类信息取得部113,将每个名词的向量大于等于预先决定的相似度的名词集合作为属于一个类,并取得单词类信息。还有,单词类信息是拥有一个以上单词和类标识符的信息。而且,类的数目是,例如,数百或数千等大数量。单词类信息取得部113通常可通过MPU或存储器等实现。单词类信息取得部113的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件 (专用回路)实现。单词类信息积蓄部114将由单词类信息取得部113取得的两个以上的单词类信息积蓄在单词类信息存储部103中。单词类信息积蓄部114通常可通过MPU或存储器等实现。 单词类信息积蓄部114的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。 但是,也可以通过硬件(专用回路)实现。模式取得部115从存储在文章群存储部101中的一个以上文章群中的各句子中取得模式。具体地说,例如,模式取得部115对于存储在文章群存储部101中的一个以上文章群的各句子,进行词素解析及依存关系解析,并且将第一个名词(包括名词子句)作为起点,以第二个名词作为终点,而将自起点至终点的词素连接关系作为模式取得。而且,模式取得部115更优选还将连接自起点的词素连接关系与自终点的词素连接关系的词素作为模式取得。例如,当一个以上文章群中的句子为“关于交通事故引起的经济性的损失”(交通事故C J 3経済的&損害(二関L· r )时,模式取得部115,对该句子进行词素解析,从而获得“关于I交通事故I引起I的I经济性I的I损失”(交通事故I仁I太石I経済的 ^ I損害I (二 I関L·^)。而且,根据词素解析,模式取得部115检测出第一个名词“交通事故”和第二个名词“损失”为名词。而且,根据依存关系解析,模式取得部115获得图4的依存关系信息。其次,模式取得部115,将第一个名词“交通事故”作为起点,将第二个名词 “损失”作为终点,并将自起点至终点的词素连接关系“X引起的Y”作为模式取得。还有,在此,从模式删除与第二个名词“损失”关联的词素群“经济性的”。而且,例如,当一个以上的文章群的句子为“关于交通事故引起的经济损失”时,模式取得部115,对该句子进行依存关系解析,从而获得“关于I交通事故I引起I的I经济I损失”(交通事故I仁I太石I経済I O I損害I仁I関 )。模式取得部115检测出第一个名词“交通事故”、第二个名词“经济”和第三个名词“损失”为名词。然后,根据依存关系解析,模式取得部115获得图 5的依存关系信息。其次,模式取得部115,还将连接第一个名词“交通事故”的自起点的词素连接关系与第二个名词“损失”的自终点的词素连接关系的词素“损失”作为模式取得。 在此,模式取得部115,将“X引起的Y损失”作为模式取得。并将自起点至终点的词素连接关系“X引起的Y”作为模式取得。而且,模式取得部115也可以使用给出的两个名词(名词对)取得模式。也就是说,例如,给出两个名词“交通事故”和“损失”时,模式取得部115检测出在“关于交通事故引起的经济性的损失”中包含“交通事故”和“损失”。然后,模式取得部115对“关于交通事故引起的经济损失”进行词素解析,且进行依存关系解析,从而获得图4的依存关系信息。 其次,模式取得部115,将第一个名词“交通事故”作为起点,第二个名词“损失”作为终点, 并将自起点至终点的词素连接关系“X引起的Y”作为模式取得。模式取得部115通常可通过MPU或存储器等实现。模式取得部115的处理过程, 通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路) 实现。模式积蓄部116将由模式取得部115取得的一个以上模式积蓄在模式存储部105 中。模式积蓄部116通常可通过MPU或存储器等实现。模式积蓄部116的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。
类对良好度算出部117以如下方式算出类对良好度,即,属于两个各类的单词对, 在文章群存储部101中的一个以上的文章群中,与一个以上的种子模式同现的次数或比例越多则类对良好度越大。类对良好度((^core (ci,C j,P))例如通过下面的公式1算出。还有,在公式1中,由于类对良好度表示类对的良好程度,所以当类对良好度为表示类对的不好程度的指标时,CScore (ci, cj, P)为,例如,在公式1中算出结果的倒数。公式1CScore (ci, cj, P)=
Il (ni.P.nj) Il
Cn i τ η J > ^^ ο i χ ο _
ΣIl (ni, nj)
Cni7 η J > ^^ oi χ ο J
O
condition a holds
otherwise
在此,ni和nj为名词(单词)。ci或cj为类。而且,P为种子模式的集合。*表示任一模式。另外,|(ni,P, nj|为,名词ni和nj与种子模式的集合同现的频率。也就是说,“I I (ni,P,nj) I I =Epep I I (ni,P,nj) I |”。另外,| | (ni,*,nj | | 为,名词 ni 和 nj, 在一个以上的文章群M中,与任一模式同现的频率。也就是说,“| I (ni,*,nj) I I =Σ (ni,p, nJ)e | I (ni,p,nj) II”。所以,ι ι (ni,*,nj| 等于名词 ni 和 nj 同现的频率。另外,α表示条件。而且,α是必须与规定数的不同种子模式同现的条件。而且, α的例为公式2。在公式2中,表示ni或nj与β (例如3)以上的不同种子模式同现的情况。也就是说,公式2的条件为α时,只与2以下的种子模式同现的单词对(ni或nj)的类对良好度为O。公式2
Il ((peP| 3 (ni,nj)eci xcj,(ni, ρ, nj) } || >β在公式2中,M为一个以上的文章群。另外,在公式1中,作为算出式的一例,表示属于两个各类的单词与一个以上的种子模式同现的次数或比例越多时,类对良好度CSc0re(ci,cj, P)程度越大。而且,在公式 1中,作为算出式的一例,各属于两个类的单词与种子模式以外的模式同现次数或比例越多时其程度越小。还有,取代类对良好度,而使用类对不好程度时,各属于两个类的单词与一个以上的种子模式同现次数或比例越多时其程度越小。此时,与属于两个各类的单词与一个以上的种子模式同现的次数或比例越多时类对良好度越大地算出类对良好度具有相同含义。类对良好度算出部117通常可通过MPU或存储器等实现。类对良好度算出部117 的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件 (专用回路)实现。类对良好度积蓄部118将由类对良好度算出部117算出的类对良好度积蓄在类对良好度存储部106中。类对良好度积蓄部118通常可通过MPU或存储器等实现。类对良好度积蓄部118的处理过程,通常通过软件实现,该软件存储在ROM等记录介质中。但是,也可以通过硬件(专用回路)实现。模式相似度算出部119算出一个以上的种子模式与存储在模式存储部105中的各模式之间的相似度。模式相似度算出部119通常以如下方式算出相似度,即与一个以上的种子模式同现的单词对对应的类对和与一个以上的各模式同现的单词对对应的类对之间的交叠越大,种子模式与模式的相似度越大。模式相似度算出部119,将种子模式与模式的相似度,例如,通过公式3、公式4、 公式5、公式6或公式7算出。也就是说,相似度是Para1 (Pcixcj, P)、Para2(Pcixcj, P)、 Para3(Pcixcj, P) > Para4 (Pcixcj, P)或 Para5(P。iXej,P)等。在公式 3 至 7 中,P 为种子模式的集合,P为任一模式。通常P也可以是种子模式。公式3
权利要求
1.一种单词对取得装置,其具备 文章群存储部,可存储一个以上的文章群;单词类信息存储部,可存储两个以上的单词类信息,该单词类信息是将一个以上单词与用于识别该一个以上单词所属的类的类标识符关联起来而拥有的信息;类对良好度存储部,可存储类对良好度,该类对良好度是表示两个类的良好程度的指标;单词对存储部,可存储一个以上的由两个单词构成的单词对; 类对良好度取得部,从上述类对良好度存储部中取得存储在上述单词对存储部中的一个以上单词对所拥有的各单词所属的两个类的类对良好度;分数决定部,使用由上述类对良好度取得部取得的类对良好度,决定上述单词对存储部中的各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对具有由分数决定部决定的分数满足预先决定的条件的高分数;单词对输出部,输出由上述单词对选择部取得的一个以上的单词对。
2.根据权利要求1所述的单词对取得装置,进一步具备种子模式存储部,可存储一个以上的种子模式,该种子模式是为了取得具有规定关系的两个单词对而利用的模式;类对良好度算出部,其以如下方式算出类对良好度,即,当分别属于两个类的单词对, 在上述文章群存储部中的一个以上的文章群中,与上述一个以上的种子模式同现的次数或比例越多,则类对良好度越大;由上述类对良好度算出部算出的两个类的类对良好度是,存储在上述类对良好度存储部中的类对良好度。
3.根据权利要求1所述的单词对取得装置,进一步具备模式存储部,可存储一个以上的模式,该模式是不同于种子模式,是为了取得具有上述规定关系的两个单词对而利用的模式;模式相似度存储部,能够按照每个模式,对在上述模式存储部中存储的一个以上各模式与上述种子模式之间的相似度进行存储;单词对取得部,取得在上述种子模式存储部中存储的一个以上种子模式及在上述模式存储部中存储的一个以上模式中的任一个,并且从存储在上述文章群存储部中的一个以上的文章群中,取得与上述种子模式或上述模式同现的一个以上的单词对;上述分数决定部还使用存储在上述模式相似度存储部中的上述一个以上的各模式与上述种子模式之间的相似度,决定由上述单词对取得部取得的各单词对的分数。
4.根据权利要求3所述的单词对取得装置,进一步具备模式相似度算出部,该模式相似度算出部以如下方式算出相似度,即与上述一个以上种子模式同现的单词对所对应的类对,和与存储在上述模式存储部中的一个以上的各模式同现的单词对所对应的类对之间的交叠越大,相似度就越大;上述模式相似度算出部算出的相似度是,存储在上述模式相似度存储部中的相似度。
5.根据权利要求1所述的单词对取得装置,进一步具备亲和度信息存储部,该亲和度信息存储部可存储亲和度信息,该亲和度信息是有关一个以上的各单词对与一个以上的各模式之间的亲和度的信息,上述分数决定部还使用上述亲和度信息存储部中的亲和度信息,决定由上述单词对取得部取得的各单词对的分数。
6.根据权利要求5所述的单词对取得装置,进一步具备亲和度信息算出部,该亲和度信息算出部以如下方式算出亲和度信息,即, 上述单词对取得部取得的一个以上单词对与上述一个以上的各模式同现的次数或比例越多,亲和度信息越大,上述亲和度信息存储部中的亲和度信息是,由上述亲和度信息算出部算出的亲和度信肩、ο
7.根据权利要求6所述的单词对取得装置,其特征在于,上述分数决定部,将上述类对良好度、上述种子模式与模式之间的相似度及上述亲和度信息的乘积为最大的种子模式或模式的分数,决定为各单词对的分数。
8.根据权利要求3所述的单词对取得装置,进一步具备模式取得部,该模式取得部对于存储在上述文章群存储部中的一个以上文章群的每个语句,进行词素解析及依存关系解析,并将第一个名词或名词子句作为起点,将第二个名词或名词子句作为终点,而且将自上述起点至上述终点的词素的连接关系,作为模式而取得,或者还将自上述起点的词素连接关系与自上述终点的词素连接关系相连的词素,作为模式取得,上述模式存储部中的模式是,由上述模式取得部取得的模式。
9.根据权利要求1所述的单词对取得装置,进一步具备排除类对存储部,可存储一个以上排除类对,该排除类对是用于识别与最终不输出的单词对对应的类对的两个类标识符;单词对排除部,从输出的单词对中排除与上述一个以上的排除类对对应的单词对。
10.根据权利要求9所述的单词对取得装置,进一步具备类出现频率信息存储部,可按照每个类存储类出现频率信息,该类出现频率信息成对地拥有上述一个以上的文章群中属于各类的单词的平均出现频率以及类标识符;排除类对积蓄部,将上述平均出现频率具有预先决定的阈值以上的差的两个类的类标识符作为排除类对,而积蓄在上述排除类对存储部中。
11.根据权利要求1所述的单词对取得装置,进一步具备单词类信息取得部,该单词类信息取得部使用上述文章群存储部中的一个以上的文章群,并以如下方式取得一个以上的单词类信息,即,使与同一动词、或与同一动词和助词同现的次数或比例多的单词属于同一类,上述单词类信息存储部中的单词类信息是,由上述单词类信息取得部取得的单词类信肩、O
12.—种单词对取得方法,在记录介质中存储有 一个以上的文章群;两个以上的单词类信息,该单词类信息将一个以上单词与用于识别该一个以上单词所属的类的类标识符关联起来而拥有;作为表示两个类的良好程度的指标的类对良好度;一个以上的种子模式,该种子模式是用于取得具有规定关系的两个单词对的模式; 而且,上述单词对取得方法通过单词对取得部、类对良好度取得部、分数决定部、单词对选择部及单词对输出部实现,并执行如下步骤单词对取得步骤,通过上述单词对取得部,取得在上述记录介质中存储的一个以上种子模式中的任一个,并且从存储在上述记录介质中的一个以上的文章群中,取得与上述取得的种子模式同现的一个以上的单词对;类对良好度取得步骤,通过上述类对良好度取得部从上述记录介质中取得两个类的类对良好度,该两个类是在上述单词对取得步骤中取得的一个以上单词对所拥有的各单词所属的类;分数决定步骤,使用在上述类对良好度取得步骤中取得的类对良好度,通过上述分数决定部,决定在上述单词对取得步骤中取得的各单词对的分数;单词对选择步骤,通过上述单词对选择部,取得一个以上的单词对,该单词对具有在上述分数决定步骤中决定的分数满足预先决定的条件的高分数;单词对输出步骤,通过上述单词对输出部,输出在上述单词对选择步骤中取得的一个以上的单词对。
13. 一种程序,在记录介质上存储有 一个以上的文章群;两个以上的单词类信息,该单词类信息将一个以上单词与用于识别该一个以上单词所属的类的类标识符关联起来而拥有;作为表示两个类的良好程度的指标的类对良好度;一个以上的种子模式,该种子模式是用于取得具有规定关系的两个单词对的模式; 而且,上述程序使计算机作为如下结构而发挥作用单词对取得部,取得在上述记录介质中存储的一个以上种子模式中的任一个,并且从存储在上述记录介质中的一个以上的文章群中,取得与上述取得的种子模式同现的一个以上单词对;类对良好度取得部,从上述记录介质中取得两个类的类对良好度,该两个类是上述单词对取得部取得的一个以上单词对所拥有的各单词所属的类;分数决定部,使用由上述类对良好度取得部取得的类对良好度,决定上述单词对取得部取得的各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对具有上述分数决定部决定的分数满足预先决定的条件的高分数;单词对输出部,输出由上述单词对选择部取得的一个以上的单词对。
全文摘要
以往,未能恰当地取得具有规定关系的单词对。一种单词对取得装置,具备单词类信息存储部,可存储确定单词的类的单词类信息;类对良好度存储部,可存储表示两个类的良好程度的类对良好度;种子模式存储部,可存储一个以上的种子模式,该种子模式用于取得具有规定关系的两个单词对;单词对取得部,从一个以上的文章群中,取得与种子模式同现的一个以上的单词对;类对良好度取得部,取得与一个以上的单词对对应的类对良好度;分数决定部,使用类对良好度,决定各单词对的分数;单词对选择部,取得一个以上的单词对,该单词对的分数高到满足预先决定的条件;单词对输出部,输出由单词对选择部取得的一个以上的单词对。
文档编号G06F17/27GK102576358SQ20108004003
公开日2012年7月11日 申请日期2010年9月7日 优先权日2009年9月9日
发明者史蒂恩·德萨哲, 村田真树, 风间淳一, 鸟泽健太朗, 黑田航 申请人:独立行政法人情报通信研究机构
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1