创建用于学习单词翻译的数据的装置和方法

文档序号:6470138阅读:170来源:国知局
专利名称:创建用于学习单词翻译的数据的装置和方法
技术领域
本发明涉及创建用于根据上下文学习单词翻译的学习数据的装置和方法。
背景技术
将源语言输入文本(原文)翻译成不同于所述源语言的目标语言文本 (译文)的机器翻译装置包括存储了源语言单词与目标语言翻译的多个组合 的双语词典。 一般采用原文的部分或全部作为关键字对所述双语词典进行 搜索,从而基于搜索到的翻译创建所要输出的翻译。
即使对于源语言形式的同一单词而言,有时也会根据所出现的上下文 具有不同的适当翻译。因此,在所述双语词典中,往往相对于源语言形式 的一个单词注册目标语言形式的多个翻译。因此, 一个重要的问题是从所
述多个翻译中根据所出现的上下文选择适当的翻译,从而提高机器翻译装 置的翻译准确性。
作为针对该问题的一种措施,有人提出了一种方法,其中,针对所出 现的每一上下文学习合适的翻译,从而通过参考学习结果选择翻译。例如,
JP-A 2002-73602(特开)提出了一种针对翻译学习方法的技术,其中,用户 参考原文和机器翻译装置输出的翻译,针对原文单词指定适当的翻译,其 中已为原文单词输出了不适当的翻译。
然而,根据JP-A 2002-73602 (特开)中描述的翻译学习方法,用户需要 逐字向系统指示适当的翻译,因此要付出大量的劳动。也就是说,在常规 方法中,由于每个所出现的上下文的翻译学习的翻译学习数据通常是人工 创建的,所以产生学习数据的处理工作量就变得过大。

发明内容
根据本发明的一个方面,数据创建装置创建学习数据,所述学习数据
用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所 述翻译候选是以目标语言形式描述的。
所述数据创建装置包括输入单元,其用于输入所述源语言形式的语 句;翻译生成单元,其用于将所述语句中的一个单词翻译成所述目标语言 形式,并针对所述单词生成所述目标语言形式的多个翻译候选和表示所述 翻译候选的概率的似真性;对应信息创建单元,其用于创建多条对应信息, 在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;判断 单元,其用于判断所述翻译候选的似真性是否大于预定阈值;以及学习数 据创建单元,其用于创建所述学习数据,在所述学习数据中,将所述语句 中的另一个单词添加到其所具有的所述似真性大于所述阈值的所述翻译候 选的对应信息内。
根据本发明的另一方面,在数据创建装置中执行数据创建方法,其创 建学习数据,所述学习数据用于学习与源语言形式的一个单词相对应的多 个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的。
所述数据创建方法包括输入所述源语言形式的语句;将所述语句中 的一个单词翻译成目标语言形式,并针对所述单词生成所述目标语言形式 的多个翻译候选和表示所述翻译候选的概率的似真性;创建多条对应信息, 在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;判断 所述翻译候选的似真性是否大于预定阈值;以及创建所述学习数据,在所 述学习数据中,将所述语句中的另一个单词添加到其所具有的所述似真性 大于所述阈值的所述翻译候选的对应信息内。


图1是根据本发明的实施例的单词翻译学习装置的构造的方框图2是用于说明双语词典的数据结构的例子的示意图3是用于说明翻译规则的例子的示意图4是用于说明学习结果的数据结构的例子的示意图5是根据实施例的学习数据创建/学习处理的整个流程的流程图6是根据实施例的翻译生成处理的整个流程的流程图7是用于说明语形学分析和翻译获取处理的处理结果的例子的示意
图8是用于说明相关性分析的处理结果的例子的示意图; 图9是相关关系的直观表达的示意图10是用于说明应用了翻译规则时的处理结果的示意图; 图11是用于说明判断结果的例子的示意图12是用于说明所要创建的单词翻译学习数据的数据结构的例子的示 意图13是根据实施例的单词翻译学习处理的整个流程的流程图14是用于说明学习矢量的例子的示意图15是用于说明学习结果的另一数据格式的例子的示意图16是用于说明处理结果的例子的示意图17是用于说明矢量表示的例子的示意图;以及
图18是用于说明根据实施例的单词翻译学习装置的硬件配置的示意图。
具体实施例方式
下面将参考附图详细说明根据本发明的用于针对单词翻译学习创建数 据的装置和方法的示范性实施例。将通过举例的方式说明本发明的实施例, 在所述例子中,将本发明实现为单词翻译学习装置,其创建用于学习单词 翻译的数据,并根据所创建的学习数据学习单词翻译,以输出学习结果。 注意,本发明的装置不限于单词翻译学习装置,其可以是任何能够创建用 于学习单词翻译的学习数据的装置。
根据本实施例的单词翻译学习装置机械地翻译源语言的输入语句(下 文称为"输入文本"),以创建单词翻译学习数据,所述数据包括在翻译时 应用了翻译规则的翻译和输入文本。相应地,在出现了输入文本所包括的 单词的上下文中,能够学习通过应用了翻译规则而获取的翻译的采纳。
如图1所示,单词翻译学习装置100包括双语词典存储单元121、翻译 规则存储单元122、学习结果存储单元123、输入单元101、翻译生成单元 110、对应信息创建单元102、判断单元103、学习数据创建单元104、学习 单元105和输出控制器106。
双语词典存储单元121存储双语词典,在所述双语词典中,至少一个 翻译与源语言单词相关。如图2所示,所述双语词典包括单词描述、作为 原型的单词的描述、词性和翻译列表。在针对一个单词存在多个翻译候选 时,在翻译列表的列中描述通过符号";"分隔的多个翻译。
返回到图1,翻译规则存储单元122存储翻译时采用的翻译规则。如图 3所示,所述翻译规则包括根据翻译规则用于标识单词的单词ID、单词描 述、作为原型的单词描述、词性、指示具有相关关系的单词的ID的相关目 的地ID和翻译。在将在下文中予以描述的翻译单元114根据相关性分析结 果(语法分析结果)从多个翻译候选中选择适当的翻译时,参考所述翻译规 则。
在图3所示的翻译规则中,在原型为"interests词性为名词的单词 修饰原型为"pay",词性为动词的单词时,将"interest"的日文翻译指 定为单词301(利息)。此外,当列"描述"、"原型"或"词性"为空时,将 空白列以外的项目与分析结果进行对照(collate)。在"翻译"列为空时, 不选择任何翻译。
返回到图1,学习结果存储单元123存储学习单元105的学习结果。如 图4所示,在本实施例中,按照一定的格式表达学习结果,在所述格式中, 使在所要学习的单词之前和之后出现的单词的频率矢量化。在下述说明中, 将具有矢量格式的学习结果称为学习矢量。学习矢量的矢量化方法不限于 此,可以采用任何常规使用的方法,例如,按照与所关注的单词相隔的距 离对值加权的方法等。
图4示出了相对于作为"interest"的日文翻译候选的单词401 (興味)、 单词402(権利)和单词403(利息)的学习结果。在所述单词翻译学习数据中 出现在"interest"附近的相应单词对应于所述学习矢量的相应维度。所 述相应维度的值指示对应单词的频率。最初将所述学习矢量的相应维度的 所有值都设为0。
双语词典存储单元121、翻译规则存储单元122和学习结果存储单元 123可以是任何一般采用的记录介质,例如,硬盘驱动器(HDD)、光盘、存 储卡和随机存取存储器(RAM)。
返回到图1,输入单元101通过诸如键盘之类的输入装置(未示出)或者
从诸如磁盘之类的记录介质(未示出)输入源语言形式的文本(输入文本)。
翻译生成单元110相对于输入文本中包括的每一单词生成目标语言的 翻译和表示所述翻译的概率的似真性。在本实施例中,翻译生成单元110
采用与常规采用的转换方法中的机器翻译相同的方法将输入文本翻译成目
标语言。翻译生成单元110包括语形学(morphological)分析单元111、翻 译获取单元112、相关性分析单元113和翻译单元114。
语形学分析单元111针对输入文本执行语形学分析,从而以单词为单 位对文本进行划分。翻译获取单元112从双语词典存储单元121获取对应 于每一划分出的单词的目标语言翻译。相关性分析单元113分析所划分的 单词之间的相关关系。
翻译单元114通过向所述相关性分析结果应用翻译规则而根据所述相 关关系获取适当的翻译。具体地,在从双语词典存储单元121获取了多个 翻译作为针对所划分的单词的翻译时,翻译单元114参考所分析的相关关 系和翻译规则存储单元122中的翻译规则获取对应于作为相关目的地的单 词的翻译。
例如,在相关性分析单元113获取的相关性分析结果的部分与图3所 示的翻译规则中的"单词ID"、"描述"、"原型"、"词性"和"相关目的地 ID"指定的语法模式相匹配时,获取翻译规则中的"翻译"列中所指定的 翻译。
翻译生成单元110将通过应用翻译规则获取的翻译设为似真性=1,将 未经应用翻译规则而获取的翻译设为似真性=0。翻译生成单元110的翻译 处理和似真性设置方法不限于此,可以应用任何常规采用的机器翻译技术, 只要能够生成输入文本中包括的每一单词的翻译并且能够生成表示每一翻 译的概率的似真性即可。
对应信息创建单元102通过将输入文本中的单词与翻译生成单元110 针对该单词生成的翻译相组合来创建对应信息。
判断单元103相对于所创建的各条对应信息判断翻译的似真性是否大 于预定阈值,由此判断是否采纳所述对应信息作为单词翻译学习数据。在 本实施例中,由于似真性的值为0或1,因而,例如,可以采用0作为阈值。 之后,判断单元103判断采用包括似真性为1的翻译的对应信息,gp,包
括通过应用转换规则获取的翻译的对应信息。
学习数据创建单元104通过使输入文本中包括的每一单词与被作为单 词翻译学习数据采用的对应信息相关而创建单词翻译学习数据。下面将说
明单词翻译学习数据的数据结构的细节。
学习单元105采用所创建的经翻译的翻译学习数据执行单词翻译学习。 具体地,学习单元105采用存储在学习结果存储单元123中的学习矢量学 习翻译。由学习单元105执行的单词翻译学习方法不限于采用学习矢量的 方法,可以应用任何常规采用的方法,例如,采用以支持矢量机(SVM)为代 表的机械学习机学习翻译的方法。
输出控制器106控制学习数据创建单元104创建的单词翻译学习数据 或者学习单元105的学习结果的输出处理。例如,输出控制器106将学习 结果输出至学习结果存储单元123。其构造可以使得输出控制器106将学习 结果输出至诸如显示单元或打印机的输出单元(未示出)。
接下来将参考图5说明根据本实施例的由单词翻译学习装置100执行 的学习数据创建/学习处理。在所述学习数据创建/学习处理中,由输入文 本创建学习数据,并基于所创建的学习数据学习翻译。
输入单元101首先接收输入文本的输入(步骤S501)。翻译生成单元110 执行相对于输入文本中的各个单词生成翻译的翻译生成处理(步骤502)。在 下文中将说明翻译生成处理的细节。
在翻译生成处理之后,对应信息创建单元102创建对应信息,在所述 信息中,使输入文本中的每一单词与相应翻译相关(步骤S503)。判断单元 103从所创建的各条对应信息中获取尚未针对其判断是否采用其作为单词 翻译学习数据的对应信息(步骤S504)。
判断单元103判断所获取的对应信息中包括的翻译的似真性是否大于 阈值(步骤S505)。如上所述,所述似真性的值为0或1,并将应用了翻译 规则的翻译设为似真性=1。因此,这一步骤对应于判断所述翻译是否是通 过应用翻译规则而获取的。
在似真性不大于阈值时,即,在未采用所述翻译规则的情况下获取了 所述翻译时(步骤S505处的"否"),那么判断单元103判断不采用当前的 对应信息作为单词翻译学习数据(步骤S506)。
在似真性大于阈值时,即,在通过应用翻译规则而获取了所述翻译时
(步骤S505处的"是"),判断单元103判断采用当前的对应信息作为单词 翻译学习数据(步骤S507)。在这种情况下,学习数据创建单元104创建使 所采用的对应信息与输入文本相关的单词翻译学习数据(步骤S508)。
之后,判断单元103判断是否处理了所有的对应信息(步骤S509)。在 尚未处理所有的对应信息时(步骤S509处的"否"),判断单元103获取下 一对应信息,以重复所述处理(步骤S504)。在处理了所有的对应信息时(步 骤S509处的"是"),学习单元105基于所创建的单词翻译学习数据执行 单词翻译学习处理(步骤S510)。在下文中将说明单词翻译学习处理的细节。
在单词翻译学习处理之后,输出控制器106将单词翻译学习处理的结 果输出至学习结果存储单元123(步骤S511),并完成学习数据创建/学习处 理。
将参考图6详细说明步骤S502处的翻译生成处理。 语形学分析单元111针对输入文本执行语形学分析,从而将输入文本 划分为单词(步骤S601)。翻译获取单元112从双语词典存储单元121中的
双语词典获取分别对应于所划分的单词的翻译(步骤S602)。
图7示出了在源语言为英语,目标语言为日语,并且提供了英文输入 文本"pay d印osit interest"的情况下的处理结果。
如图7所示,所述处理结果包括用于标识输入文本的单词的单词ID、 输入文本的单词的描述、所述单词的原型、词性、相关目的地、翻译列表 和指示规则应用的存在的标记。对于原型、词性和翻译列表而言,设置从 双语词典获取的信息。
在"相关目的地"列中设置具有单词相关关系的单词的单词ID。由于 相关目的地是通过语形学分析之后执行的语法分析设置的,因而在这一阶 段相关目的地列为空白。在"规则应用"列中,在应用了翻译规则时设置1, 在未应用翻译规则时设置O。也就是说,在"规则应用"列中设置对应于针 对相应的翻译的似真性的值。由于"规则应用"列是通过应用在语法分析 之后执行的翻译规则的处理设置的,因而在这一阶段将默认值设为"0"。
返回到图6,相关性分析单元113针对所划分的单词执行相关性分析(语 法分析)(步骤S603)。因此,明确了单词之间的相关关系。
如图8所示,将每一单词的相关目的地的单词ID设置到"相关目的地" 列内。在没有相关目的地时,将设置到"相关目的地"列内。
图9是用于对图8中的相关关系进行直观表达的示意图。图9示出了 处于通过椭圆形表示的节点内的单词修饰处于上方节点内的单词的情况。
翻译单元114应用翻译规则以判断针对单词的翻译,其中,在翻译列 表中包含了多个针对所述单词的翻译(步骤S604)。
图10是用于说明在将图3所示的翻译规则应用于图8所示的语形学分 析结果时的处理结果的示意图。图8所示的语形学分析结果中的"interest" 修饰"pay"的部分符合图3中的翻译规则。因此,将图3中的单词301 (利 息)判断为"interest"的翻译,并将包括三个翻译的"interest"的翻译 列表的值更改为图8中的翻译1001 (利息)。将应用了规则的"interest" 的列的值从"1"改为"0"。
对应信息创建单元102针对图IO所示的每一行处理结果创建使描述与 翻译列表中的翻译相关的对应信息。
接下来将说明单词翻译学习数据的数据结构的细节。将针对源语言为 英语,目标语言为日语,并且提供了英文输入文本"pay d印osit interest" 的情况说明所要创建的单词翻译学习数据的数据结构。
通过针对输入文本的翻译生成处理获取了图IO所示的处理结果。接下 来,判断单元103判断是否采纳所述对应信息作为单词翻译学习数据。
在图10的例子中,由于表格中的每一行对应于每一条对应信息,因而 判断单元103针对每一行执行判断。判断单元103基于是否包括应用了翻 译规则的翻译判断是否采纳所述对应信息作为单词翻译学习数据。也就是 说,判断单元103采用对应于"规则应用"的所在的行的值为"1"的行的 对应信息作为单词翻译学习数据。在图10所示的例子中,仅将使单词 "interest"与日文翻译1001 (利息)相关的对应信息采纳为单词翻译学习 数据。
在图11中,以表格形式示出了表达判断结果的例子。如图11所示, 0 述判断结果包括单词ID、描述、原型、词性、翻译和指示是否将所述对 应信息采纳为单词翻译学习数据的学习标记。将图IO所示的翻译生成处理 的处理结果的值直接设置到单词ID、描述和词性列内。
将图10所示的翻译列表列中的最上面的翻译设为所述翻译。在图10 所示的例子中,没有在翻译列表中保留了多个翻译的单词。因此,将图10 中的翻译列表的值直接设置到图11所示的翻译列中。直接设置图10中的
规则应用值。
学习数据创建单元104参考图11所示的判断结果来创建单词翻译学习 数据。如图12所示,学习数据创建单元104创建了这样的单词翻译学习数 据,其中,将所采纳的对应信息的翻译作为"〈learn〉"标签的"tw"属性 的值嵌入到了输入文本中。
单词翻译学习数据的数据结构不限于图12所示的格式,可以采用任何 使单词和翻译的组合与输入文本中的所述单词之外的至少一个单词相关的 数据格式。例如,可以采用图ll所示的表格格式中的整个判断结果作为单 词翻译学习数据。可以采用通过相关单词表达的上下文中的单词翻译学习 数据来学习具体翻译的选择。
图12中的单词翻译学习数据表明,相对于文本"pay d印osit interest",即,在出现了 "pay"和"d印osit"的上下文中,将"interest" 转换为日文单词1201(利息)。
就常规而言,已经人工创建了单词翻译学习数据;但是,在本实施例 中,能够仅通过用户根据上述处理输入源语言文本获取单词翻译学习数据。 相应地,能够显著降低创建单词翻译学习数据的时间和工作量。
将参考图13说明步骤S510处的单词翻译学习处理的细节。例如,将 说明这样一种情况,其中,采用具有图ll所示的表格格式的单词翻译学习 数据来执行学习。
学习单元105首先从所创建的单词翻译学习数据中获取未经处理的单 词ID(下文中称为IDa)(步骤S1301)。之后,学习单元105判断对应于所获 取的IDa的学习标记是否为"1"(步骤S1302)。在学习标记为"1"时(步 骤S1302处的"是"),学习单元105将对应于具有IDa的单词的翻译设置 到变量tw中(步骤S1303)。
学习单元105获取所创建的单词翻译学习数据中的IDa以外的单词 ID(下文称为IDb)(步骤S1304)。之后,学习单元105针对被设置为变量tw 的翻译的学习矢量将与单词ID为IDb的单词相对应的维度值加l(步骤
S1305)。
之后,学习单元105判断所述单词ID中除IDa之外是否还存在未经处 理的单词ID(步骤S1306)。当存在未经处理的单词ID时(步骤S1306处的 "是"),学习单元105获取下一单词ID作为IDb,并重复所述处理(步骤 S1304)。
在不存在未经处理的单词ID时(步骤S1306处的"否"),学习单元105 判断是否相对于所有单词ID执行了上述处理(步骤S1307)。
当尚未处理所有的单词ID时(步骤S1307处的"否"),学习单元105 获取下一个未经处理的单词ID作为IDa,以重复所述处理(步骤S1301)。 在已经处理了所有的单词ID时(步骤S1307中的"是"),学习单元105完 成所述单词翻译学习处理。
接下来将说明单词翻译学习处理的具体例子。例如,将说明这样一种 情况,其中,在学习结果处于图4所示的起始状态时,采用图ll所示的单 词翻译学习数据来学习翻译。
在以0作为单词ID的单词"pay"和以1作为单词ID的单词"d印osit" 中,学习标记为"0"(步骤S1302处的"否"),因此不执行翻译学习。在 以2为单词ID的单词"interest"中,学习标记为"1"(步骤S1302处的 "是"),因此将更新对应翻译1101(利息)的学习矢量。
也就是说,在图4的例子中,学习单元105更新对应于单词403的学 习矢量,其中,单词403是处于最右侧位置的翻译。学习单元105首先将 对应于以O作为单词ID的单词"pay(动词)"的维度值加l。接下来,学习 单元105还将对应于以1作为单词ID的单词"deposit(名词)"的维度值 加1。图14是用于说明通过这种方式更新的学习矢量的一个例子的示意图。 如图14所示,将对应于单词403的学习矢量的维度值更新为1。
输出控制器106能够将学习矢量转换成外部装置可用的数据格式,并 输出所述数据格式。图15是将对应于学习矢量的各个维度的单词的原型和 词性转换成了特定格式的学习结果的例子。
图15的学习结果表明,不存在将"interest (名词)"翻译成了日文单 词1501 (興味)或单词1502 (権利)的学习数据;但是,存在将"interest (名 词)"翻译成了单词1503(利息)的学习数据,并且所述学习数据表明"pay(动 词)"和"d印osit(名词)"分别在"interest"之前和之后出现一次。
可以通过下述方式采用图15中的学习数据,以提高机器翻译的质量。 例如,将说明将英文输入文本"The bank owes me 10 years of d印osit interest."翻译成日文的情况。
在采用图2所示的双语词典和图3所示的翻译规则翻译输入文本时, 能够获取图16所示的处理结果。如果观察到了对应于以8作为单词ID的 "interest"的翻译列表,那么由于未向输入文本应用所述翻译规则,因 而保留三个翻译候选(興味、権利、利息)。
如果假设在存在多个翻译候选时输出顶部翻译,那么在这一例子中则 相对于"interest"输出了不合适的翻译(興味)。在这样的情况下,可以 通过采用图15所示的学习结果来选择合适的翻译(利息)。
这里,假设获取了图14所示的学习矢量,或者在获取了图15所示的 学习结果时,将其转换为图14所示的学习矢量。
相对于输入文本"The bank owes me 10 years of deposit interest.,, 中的"interest",采用与学习矢量中相同的方法使前后单词的出现频率矢 量化。所述矢量的维度不分配给冠词、代词、介词、数字和符号。图17是 用于说明通过这种方式转换的矢量表示的一个例子的示意图。
选择与图14的三个学习矢量中与图17中的矢量具有最大的余弦相似 性的学习矢量相对应的翻译。相应地,由于能够选择前后具有共同的单词 的翻译,因而能够获取更加合适的翻译。
例如,由于图14中的三个学习矢量的单词401(興味)和单词402(権利) 的学习矢量的所有分量均为0,因而余弦相似性变成0。另一方面,对于单 词403(利息)的学习矢量而言,对应于"d印osit(名词)"的维度值为1, 对于图17中的矢量而言,对应于"d印osit(名词)"的维度值也为1。因此, 余弦相似性取得比0大的值。因此,与图17中的矢量具有最大余弦相似性 的学习矢量是对应于单词403(利息)的学习矢量。也就是说,能够将单词 403(利息)选作输入文本"The bank owes me 10 years of d印osit interest."中的单词"interest"的翻译。
因而,在根据本实施例的单词翻译学习装置100中,能够创建输入文 本,并且能够在对输入文本进行机器翻译时创建包括应用了翻译规则的翻
译的单词翻译学习数据。相应地,能够降低通常由人工执行的单词翻译学 习数据的创建的负荷。由于能够基于通过这种方式创建的单词翻译学习数 据执行单词翻译学习,因而能够提高单词翻译学习处理的效率。
参考图18说明根据本实施例的单词翻译学习装置100的硬件配置。 根据本实施例的单词翻译学习装置100包括诸如中央处理单元(CPU)51 之类的控制器、诸如只读存储器(R0M)52和RAM 53之类的存储单元、连接 至网络以执行通信的通信I/F54、诸如硬盘驱动器(HDD)和光盘(CD)驱动器 之类的外部存储单元、诸如显示器之类的显示单元、诸如键盘和鼠标之类 的输入单元、以及用于使各个单元相互连接的总线61,其是采用普通计算 机的硬件配置。
将通过根据本实施例的单词翻译学习装置100执行的数据创建程序按 照可安装或可执行的格式文件的形式记录到诸如只读光盘存储器 (CD-ROM)、软盘(FD)、可记录光盘(CD-R)和数字通用盘(DVD)之类的计算机 可读记录介质上,并提供所述数据创建程序。
可以通过将由根据本实施例的单词翻译学习装置100执行的数据创建 程序存储到连接至诸如Internet之类的网络的计算机上来提供所述数据创 建程序,并经由所述网络下载数据创建程序。此外,能够通过诸如Internet 之类的网络提供或散布由根据所述实施例的单词翻译学习装置100执行的 数据创建程序。
能够将根据所述实施例的数据创建程序集成到ROM等内,从而加以提供。
通过根据本实施例的单词翻译学习装置100执行的数据创建程序具有 包括上述各单元(输入单元、翻译单词生成单元、对应信息创建单元、判断 单元、学习数据创建单元、学习单元和输出控制器)的模块配置。作为实际 硬件,CPU 51(处理器)从记录介质读出数据创建程序,并执行所述程序, 从而将这些相应的单元加载到主存储器上,从而在所述主存储器上生成相 应的单元。
权利要求
1、一种数据创建装置,其用于创建学习数据,所述学习数据用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的,所述装置包括输入单元,其用于输入所述源语言形式的语句;翻译生成单元,其用于将所述语句中的一个单词翻译成所述目标语言形式,并针对所述单词生成所述目标语言形式的多个翻译候选和表示所述翻译候选的概率的似真性;对应信息创建单元,其用于创建多条对应信息,在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;判断单元,其用于判断所述翻译候选的似真性是否大于预定阈值;以及学习数据创建单元,其用于创建所述学习数据,在所述学习数据中,将所述语句中的另一个单词添加到所具有的所述似真性大于所述阈值的所述翻译候选的对应信息中。
2、 根据权利要求1所述的装置,其中,所述翻译生成单元基于预定的 翻译规则将所述语句翻译成所述目标语言形式,并生成所述翻译候选和所 述似真性。
3、 根据权利要求2所述的装置,还包括词典存储单元,其用于存储双语词典,在所述双语词典中,将所述源 语言形式的单词与针对所述源语言形式的单词的所述翻译候选彼此相关; 以及翻译规则存储单元,其用于存储所述翻译规则,在所述翻译规则中, 将所述源语言形式的单词、与所述源语言形式的单词具有相关关系的单词、 和所述翻译候选彼此相关,其中所述翻译生成单元包括语形学分析单元,其用于针对所述语句执行语形学分析,以将所述语 句划分成多个单词,翻译获取单元,其用于从所述词典存储单元获取针对所划分的单词的 所述翻译候选,相关性分析单元,其用于分析所划分的多个单词之间的所述相关关系,以及翻译单元,其用于针对所划分的每一单词,按照所述翻译规则存储单 元中存储的所述翻译规则,将所划分的单词和与所划分的单词具有所述相 关关系的单词分别与所述源语言形式的单词和与所述源语言形式的单词具 有所述相关关系的单词进行对照,并按照来自所述翻译规则存储单元的所 述翻译规则获取与所述源语言形式的所述单词相关的匹配的翻译候选。
4、 根据权利要求3所述的装置,其中,所述翻译生成单元针对从所述 翻译规则存储单元获取的所述翻译候选,生成比从所述词典存储单元获取 的所述翻译候选的似真性大的似真性。
5、 根据权利要求3所述的装置,其中,所述学习数据创建单元创建所 述学习数据,在所述学习数据中,使所述语句中包括的单词相关于包括从 所述翻译规则存储单元获取的所述翻译候选的所述对应信息。
6、 根据权利要求1所述的装置,其中,所述学习数据创建单元创建所 述学习数据,在所述学习数据中,使所述语句所包括的多个单词中的除了 所述对应信息内包括的单词之外的单词相关于包括所具有的似真性大于所 述阈值的所述翻译候选的所述对应信息。
7、 根据权利要求1所述的装置,其中,所述学习数据创建单元创建所 述学习数据,在所述学习数据中,在所述语句包括的多个单词的范围内, 使所述对应信息中的所述翻译候选相关于包括所述语句中含有的单词和所 具有的似真性大于所述阈值的所述翻译候选的所述对应信息中的单词。
8、 根据权利要求1所述的装置,还包括学习单元,其基于所述学习数 据学习所述多个翻译候选的适当使用。
9、 一种在数据创建装置中执行的数据创建方法,其创建学习数据,所 述学习数据用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的,所述方法包括输入所述源语言形式的语句;将所述语句中的一个单词翻译成目标语言形式,并针对所述单词生成 所述目标语言形式的多个翻译候选和表示所述翻译候选的概率的似真性;创建多条对应信息,在所述多条对应信息中,使所述单词分别相关于 所述多个翻译候选;判断所述翻译候选的似真性是否大于预定阈值;以及创建所述学习数据,在所述学习数据中,将所述语句中的另一个单词 添加到所具有的所述似真性大于所述阈值的所述翻译候选的对应信息中。
全文摘要
输入单元接收源语言形式的输入语句。翻译生成单元针对输入语句中包括的单词生成目标语言形式的翻译,并生成目标语言形式的翻译的似真性。对应信息创建单元创建对应信息,在所述对应信息中,使所述单词相关于所述翻译。判断单元判断针对对应信息中包括的目标语言形式的翻译所生成的似真性是否大于预定阈值。学习数据创建单元创建学习数据,在所述学习数据中,使输入语句中包括的单词相关于包括其所具有的似真性大于阈值的目标语言形式的翻译的对应信息。
文档编号G06F17/28GK101382933SQ20081021486
公开日2009年3月11日 申请日期2008年9月3日 优先权日2007年9月3日
发明者出羽达也 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1