基于结构化的翻译记忆的自动翻译系统及其自动翻译方法

文档序号:6586708阅读:223来源:国知局
专利名称:基于结构化的翻译记忆的自动翻译系统及其自动翻译方法
基于结构化的翻译记忆的自动翻译系统及其自动翻译方法技术领域
以下公开涉及自动翻译系统及使用其的自动翻译方法,而且具体地,涉及基于 结构化的翻译记忆的自动翻译系统及使用其的自动翻译方法。
背景技术
作为翻译系统,有翻译记忆(TM)、使用TM的计算机辅助翻译工具(以下称为 CAT)、自动翻译系统、以及连接TM和自动翻译系统的系统。
CAT通过TM支持译员的翻译。TM是一种数据库,在其中成对配置原文和翻 译。TM以数据库类型存储先前已经由译员翻译的句子。当从用户接收到具有与先前 的翻译相同的表达的输入句子的翻译请求时,CAT搜索TM并将搜索结果应用于翻译。 在CAT中,通过重用先前的翻译,不用重复地翻译该先前的翻译或重复的句子。也就 是说,CAT提供翻译的一致性和高效率。另一方面,因为TM以字符串存储先前翻译的 句子,所以即使当仅仅一个字母被错误翻译时,搜索与输入句子相同的句子的成功率很 低。也就是说,在TM中,覆盖率很低。
自动翻译系统是这样的系统,其将第一语言的输入句子自动翻译成第二语言的 翻译,并通过使用存在于其内的翻译词典、翻译规则、翻译范式(pattern)和统计的翻译 信息来提供快速和一致的翻译结果。另一方面,自动翻译系统的翻译结果是不自然的, 并且自动翻译系统的总翻译率很低。其原因是自动翻译中使用的翻译规则、翻译范式或 统计的翻译信息在结构和词汇的含义和风格方面具有多义性(ambiguity)。
当由TM搜索到与输入句子相同或类似的句子时,将TM与自动翻译系统连接 的系统在翻译中使用搜索结果。当从TM中没有搜索到时,自动翻译系统不执行自动翻 译。在连接TM和自动翻译系统的系统中,自动翻译系统补充了 TM的低覆盖率,但是 TM的覆盖率仍然很低,并且自动翻译系统的不自然的翻译结果仍未得到改善。发明内容
在一个一般方面,一种自动翻译系统包括翻译记忆建立模块,通过改变、删 除和替代小于句子单元的预定语言范式来将预定语言范式改变为部分翻译范式,并将所 改变的部分翻译范式登记在结构化的翻译记忆中;句子单元翻译模块,基于翻译记忆对 输入句子执行句子单元的翻译;和部分组合翻译模块,当句子单元的翻译失败时,分析 小于包括在输入句子中的句子单元的语言范式的结构,基于翻译记忆搜索与所分析的语 言范式匹配的已登记的部分翻译范式,并组合所搜索到的部分翻译范式以输出与输入句 子对应的翻译。
在另一个一般方面,一种自动翻译方法包括通过改变、删除和替代小于句子 单元的预定语言范式来将预定语言范式改变为部分翻译范式以建立结构化的翻译记忆; 基于翻译记忆对输入句子执行句子单元的翻译;当句子单元的翻译失败时,分析小于包 括在输入句子中的句子单元的语言范式的结构,搜索翻译记忆,并组合与所分析的语言范式对应的部分翻译范式以输出翻译。
通过以下详细描述、附图和权利要求书,其他的特征和方面将显而易见。


图1是示出根据示范性实施例的基于结构化的翻译记忆的自动翻译系统的框 图2是示出建立图1中的翻译记忆数据库的操作的流程图3是其中以模块类型实现图2中的建立第一语言句子的结构化的翻译记忆的操 作的框图4是详细地示出图2中的建立与第一语言句子的结构化的翻译记忆对应的第二 语言句子的结构化的翻译记忆的操作的流程图5是示出图1的句子单元翻译模块中执行的操作的示例的流程图6是示出图1的句子分段模块中执行的操作的示例的流程图;以及
图7是示出图1的部分组合翻译模块中执行的操作的示例的流程图。
具体实施方式
在下文中,将参考附图详细描述示范性实施例。贯穿附图和详细描述,除非有 特别说明,相同的附图参考数字将被理解为指代相同的元件、特征和结构。为了清楚、 图示和方便,可以放大这些元件的相对大小和描述。提供以下详细描述以便帮助读者获 得对这里描述的方法、装置和/或系统的全面理解。因此,本领域普通技术人员不难想 到这里描述的方法、装置和/或系统的各种改变、修改和等效。此外,为了更清楚和简 明,可以省略公知的功能和结构的描述。
图1是示出根据示范性实施例的基于结构化的翻译记忆的自动翻译系统的框 图。
参考图1,根据示范性实施例的基于结构化的翻译记忆的自动翻译系统100包括 句子单元翻译模块102、句子分段模块109、部分组合翻译模块103、和结构化的翻译记 忆建立模块106。
句子单元翻译模块102接收第一语言的句子作为输入句子10。句子单元翻译模 块102搜索构成输入句子10的每个句子是否存在于结构化的翻译记忆数据库(TM DB) 105 中。也就是说,句子单元翻译模块102搜索与每个句子范式相同或类似的句子范式是否 存在于结构化的TMDB 105中。当与每个句子范式相同或类似的句子范式存在于TMDB 105中时,句子单元翻译模块102基于TM DB 105,将每个句子改变为第二语言的翻译 20,并输出翻译20作为自动翻译30。当与每个句子范式相同或类似的句子范式不存在于 TM DB 105中时,句子单元翻译模块102将输入句子12传送到句子分段模块109。
句子分段模块109接收未由句子单元翻译模块102处理的输入句子12,并且当接 收的输入句子12是长句子时,句子分段模块109将输入句子12分段。当输入句子是长 句子时,句子分析的准确度大大地降低。从而,因为经分段的长句子大大地降低了句子 分析的复杂度,所以句子分析的准确度可以大大地提高。已分段的句子14通过句子分段 模块109传送到句子单元翻译模块102。
部分组合翻译模块103通过句子单元翻译模块102接收已分段的句子14,并基于 结构化的TM DB 105自动翻译已分段的句子范式14。也就是说,部分组合翻译模块103 组合存在于结构化的TM DB 105中的部分翻译范式以自动地执行翻译,并输出翻译结果 作为自动翻译30。
TM DB建立模块106通过使用自动翻译30、第一语料库(corpus) 107以及第一 和第二对齐(alignment)语料库108来半自动地建立TM DB 105。
图2是示出建立图1中的TM DB的操作的流程图。
参考图2,在操作幻10,自动翻译系统100基于自动翻译30、第一语料库107以 及第一和第二对齐语料库108确定第一语言句子是否为最后的句子。
当当前第一语言句子是最后的句子时,终止处理操作。
当第一语言句子不是最后的句子时,在操作S220,自动翻译系统100确定与第 一语言句子对应的第二语言句子是否存在。当第二语言句子不存在时,在操作S230执行 人工翻译,在其中将句子人工翻译成与第一语言句子对应的第二语言句子。因此,对比 地建立第一和第二语言句子。当第二语言句子存在时,在操作S240执行建立第一语言句 子的结构化的TM的操作。
在对比地建立的第一和第二语言句子中,通过建立第一语言句子的结构化的TM 的操作SM0,以结构化的翻译记忆类型暂时完成第一和第二语言句子。
在操作幻50,自动翻译系统100确定在结构化的TM中建立的第一语言句子是 否与先前已经建立的结构化的TM DB 105匹配。
当第一语言句子与结构化的TM DB 105匹配时,自动翻译系统100对于新的句 子再次执行操作3210到幻40。当第一语言句子与结构化的TM DB105不匹配时,在操 作S^O,自动翻译系统100建立与第一语言句子的结构化的TM对应的第二语言句子的 结构化的翻译记忆。从而,通过建立与第一语言句子的结构化的TM对应的第二语言句 子的结构化的TM的操作来建立结构化的TM DB 105。
图3是其中以模块类型实现图2中的建立第一语言句子的结构化的TM的操作的 框图。
参考图3,第一语言句子的结构化的TM的建立模块包括分类(sorting)/重复去 除单元302、展开(expimsion)/重复去除单元304、标准化(normalization) /重复去除单元 306、替代(substitution)/重复去除单元308和分块(chunking)/重复去除单元310。
分类/重复去除单元302接收第一语言句子301,其包括自动翻译30、第一语料 库107以及第一和第二对齐语料库108。分类/重复去除单元302根据长度将构成第一语 言句子310的词分类。分类/重复去除单元302删除包括在第一语言句子310中的重复 的句子范式、简单词和句子(其利用复合名词构成)。
展开/重复去除单元304删除存在于第一语言句子中的句子副词(sentence adverb)范式和附加疑问句(tag question)范式。从而,将第一语言句子展开。此外,当 第一语言句子的长度大于临界值时,展开/重复去除单元304将作为长句子的第一语言句 子分段成简单句子并将第一语言句子意译(paraphrase)。
标准化/重复去除单元306将存在于第一语言句子中的大写字母标准化成小写字 母,并删除存在于第一语言句子中的标点符号。此外,标准化/重复去除单元306通过删除标点符号来恢复被缩写的第一语言句子。
替代/重复去除单元308用特定符号替代存在于第一语言句子中的专有名词 (proper noun)范式和数字(figure)范式。在此实施例中,描述了分别用第一符号(NNP) 和第二符号(NUM)替代专有名词范式和数字范式的示例。此外,替代/重复去除单元 308用其他特定符号替代人称代词,如“he”或“she”。在此实施例中,描述用第三符 号(PRP)替代人称代词的示例。
分块/重复去除单元310将存在于第一语言句子中的基本名词(basenoun)短语范 式和习惯用语(idiom)范式分块,并用其他特定符号替代经分块的基本名词短语范式和习 惯用语范式。这里,分块表示捆绑相关的信息,而基本名词分块表示捆绑基本名词和与 其相关的信息。在此实施例中,描述了其中用第四符号(NP)和第五符号(VP)替代名词 短语范式和习惯用语范式的示例。
通过上述单元302、304、306、308和310中执行的操作将第一语言句子301组 织成图1的TMDB 105中的第一部分翻译范式。
以下将描述反映在通过图3的单元302、304、306、308和310中执行的操作组 织的TM中的第一语言句子的示例句子。
(1)[输入句子]Good Morning
[登记在结构化的TM中的第一语言句子]goodmorning
在示例句子(1)中,大写字母出现在输入句子中,而在结构化的TM中登记向其 应用了将包括在输入句子中的大写字母改变为小写字母的操作的第一语言句子。
(2)[输入句子 Res
[登记在结构化的TM中的第一语言句子]删除
在示例句子O)中,利用简单词构成的句子出现在输入句子中,而在这种情况 下,在结构化的TM中登记删除利用简单词构成的句子的操作。
(3)[输入句子]Room 777 has a beautiftil view ofthe city
[登记在结构化的TM 中的第一语言句子]room NUMl has a beautifolview ofthe city room NUMl has NPl
在示例句子(3)中,大写字母、数字和基本名词短语出现在输入句子中。在 这种情况下,在结构化的TM中登记向其依次应用了将大写字母“R”改变为小写字母“r”的操作、用符号NUMl替代数字“777”的操作、和用符号NPl替代基本名词短语 “ a beautiful view of the city”的操作的第一语言句子。
(4)[输入句子 JPlease state your name, address and occupation.
[登记在结构化的TM中的第一语言句子]stateNPl,NP2 and NP3
在示例句子中,标点符号“,,,和“.”、大写字母“P”、句子副词 “Please”和三个基本名词短语“your name”、“address”和“occupation”出现在输入句子中。在这种情况下,通过去除标点符号以及将大写字母改变为小写字母的操作将 输入句子改变为 "please state your name address andoccupation"。 接着,通过去除句子 副词“please”的操作将输入句子改变“stateyour name address and occupation” ,并且通 过用符号NP1、NP2和NP3替代基本名词短语的操作来将输入句子改变为“state NP1, NP2andNP3"。将最终改变后的句子“state NPl,NP2 andNP3"登记在结构化的TM中。
(5)[输入句子]I ‘ m sorry, but I can' t share that with you.
[登记在结构化的TM中的第一语言句子]ican not VP 1.
在示例句子(5)中,两个缩写词汇“I' m”和“lean' t”、标点符号“,,, 和“.”、句子副词“I' m sorry, but”、基本名词短语“that”和“you”和习惯用语"share that with you"出现在该输入句子中。在这种情况下,通过将大写字母改变为小 写字母、去除标点符号以及恢复缩写的词汇的操作将输入句子改变为“i am sorry but I can not share that with you”。然后,通过去除句子副词的操作将输入句子改变为“i can not share that with you”,并通过替代基本名词短语的符号的操作将输入句子改变为“i can not share NPl with NP2"。最后,通过替代习惯用语的符号的操作将输入句子改变为“i can not VPl (VPl = share NPl with NP2)",并且将最终改变后的句子登记在结构化的TM 中。
(6)[输入句子]It' s nice party, isn' tit ?
[登记在结构化的TM中的第一语言句子]itis NPl
在示例句子(6)中,附加疑问句“isn' tit ”、大写字母“I”、标点符号 “,”和基本名词短语“nice party”出现在输入句子中。在这种情况下,通过去除附加疑问句、将大写字母改变为小写字母以及去除标点符号的操作将输入句子改变为“it isniceparty”。最后,通过替代基本名词短语的符号的操作将输入句子改变为“it is NPl",并且将最终改变后的句子登记在结构化的TM中。
(7)[输入句子;|He stole away from the scene
[登记在结构化的TM中的第一语言句子]PRP1VPl (VPl = stole awayfrom NPl)
在示例句子(7)中,大写字母、人称代词“He”、基本名词短语“the scene”和习惯用语“stole away from”出现在输入句子中。在这种情况下,通过将大写字母改变 为小写字母以及替代人称代词的符号的操作将输入句子改变为“PRP stole away from the scene"。最后,通过分别替代基本名词短语的符号和习惯用语的符号的操作将输入句子 改变为“PRPl VPl (VPl = stole awayNPl) ”,并且将最终改变后的句子登记在结构化的 TM中。
图4是详细地示出图2中的建立与第一语言句子的结构化的TM对应的第二语言 句子的结构化的TM的操作的流程图。
参考图4,建立第二语言句子的结构化的TM的操作可以大致包括三个操作。
具体地说,建立第二语言句子的结构化的TM的操作可以包括操作幻62,对 齐并展开与第一语言句子的第1-1语言范式对应的第二语言句子的第2-1语言范式;操作 S264,对齐并替代与第一语言句子的第1-2语言范式对应的第二语言句子的第2-2语言范 式;以及操作幻66,对齐并替代与第一语言句子的第1-3语言范式对应的第二语言句子 的第2-3语言范式。这里,第2-1语言范式包括句子副词和附加疑问句。第2-2语言范 式包括专有名词、数字和代词。第2-3语言范式包括基本名词短语和习惯用语。
对齐并展开第2-1语言范式的操作包括对齐句子副词和附加疑问句的操作、以 及通过去除已对齐的句子副词和已对齐的附加疑问句的操作来展开第二语言句子的操 作。此外,当第2-1语言范式是长句子时,对齐并展开第2-1语言范式的操作还可以包括将第2-1语言范式分段的操作。
对齐并替代第2-2语言范式的操作包括对齐专有名词、数字和代词的操作、以 及用特定符号替代专有名词、数字和代词的操作。例如,用特定符号替代的操作包括用 符号NNP替代专有名词的操作、用符号NUM替代数字的操作、以及用符号PRP替代代 词的操作。
对齐并替代第2-3语言范式的操作包括对齐基本名词短语和习惯用语的操作、 分别用其他特定符号替代已对齐的基本名词短语和已对齐的习惯用语的操作。用其他特 定符号替代已对齐的基本名词短语和已对齐的习惯用语的操作包括用符号NP替代已对齐 的基本名词短语的操作、以及用符号VP替代已对齐的习惯用语的操作。
以下将描述登记在与第一语言句子对应的结构化的TM中的第二语言句子的各 种建立结果。在此实施例中,描述了用朝鲜语建立第二语言句子的结果,但是其不限于 朝鲜语并且可以用各种语言建立。
(1)[输入句子]Good Morning
[登记在结构化的TM中的第一语言句子]goodmorning
[登记在结构化的TM中的第二语言句子]社巧許刈且
(2)[输入句子 Res
[登记在结构化的TM中的第一语言句子]
[登记在结构化的TM中的第二语言句子]
(3)[输入句子]Room 777 has a beautiftil view of the city
[登记在结构化的TM中的第一语言句子]roomNUMl has NPl
[登记在结构化的TM中的第二语言句子]NUM1直芒NPl咅普中
(4)[输入句子 JPlease state your name, address and occupation.
[登记在结构化的TM中的第一语言句子]stateNPl,NP2 and NP3
[登记在结构化的TM中的第二语言句子]NP1,NP2and NP3畺望苦許对立.
(5)[输入句子;|1 ‘ m sorry, but I can' t share that with you.
[登记在结构化的TM中的第一语言句子]ican not VP 1.
[登记在结构化的TM中的第二语言句子]VPl叫卺午71·戠叫立
(6)[输入句子]It' s nice party, isn' tit ?
[登记在结构化的TM中的第一语言句子]itis NPl
[登记在结构化的TM中的第二语言句子]NP1吲且
(7)[输入句子;|He stole away from the scene
[登记在结构化的TM中的第一语言句子]PRP1VPl (VPl = stole awayfrom NPl)
[登记在结构化的TM中的第二语言句子]PRP1各VPl^立.
为了提供对上述建立结果当中的将输入句子“Room 777 has a beautiftilview of the city”建立为登记在结构化的TM中的第二语言句子的描述,进行如下描述。以下建立操 作将同样应用于上述建立结果当中的其他建立结果的建立操作。
[输入句子]
Room 777 has a beautiful view of the city.
777直芒O]呌吾Cf岳与进咅普午效芒wJ-0^q
[将大写字母改变为小写字母]
room 777 has a beautiful view of the city.
777 Jl^ O]呌吾呌岳項进咅耆午效芒斗.
[对齐与第1-1语言对应的第2-2语言当中的数字,并用符号NUM替代所述数 字]
room NUM Ihas a beautiful view of the city.
NUMl直芒叫 }吾Cf岳項进咅昙午效芒噔3
[对齐与第1-3语言对应的第2-3语言当中的基本名词短语,并用符号NPl替代 已对齐的基本名词短语]
room NUM1 has NP1.
NUMl直芒NPl咅瑩午效芒
图5是示出图1的句子单元翻译模块中执行的操作的示例的流程图。
参考图1和5,当输入输入句子10时,在操作S510中,图1中的句子单元翻译 模块102确定包括在输入句子10中的句子是否为最后的句子。当是最后的句子时,结束 在句子单元翻译模块102中执行的所有操作。当不是最后的句子时,将执行以下操作。
在操作阳20中,句子单元翻译模块102执行分析构成输入句子10的语素的操作 和标准化操作。句子单元翻译模块102通过所述分析包括在输入句子10中的第一语言的 语素的操作和标准化操作,分析以语素单元构成第一语言句子的词,将所分析的词改变 为原形并同时确定所分析的词的词类(partof speech)。接着,句子单元翻译模块102执行 将包括在第一语言句子中的大写字母改变为小写字母、去除标点符号以及恢复缩写的部 分的标准化操作。
随后,通过搜索结构化的TM DB 105,句子单元翻译模块102确定是否存在与通 过执行语素分析操作和标准化操作的操作S520产生的字符串句子相同或相似的字符串句子。
当通过语素分析操作和标准化操作产生的字符串句子存在于结构化的TM DB 105中时,在操作阳40中,句子单元翻译模块102输出与第一语言句子对应的第二语言 句子。
当输出第二语言句子时,句子单元翻译模块102接收后续的第一语言句子作为 输入句子并再次执行操作S510到S530。
当通过语素分析操作和标准化操作产生的字符串句子不存在于结构化的TM DB 105中时,在操作S550中,句子单元翻译模块102执行替代操作和分块操作。在执行替 代操作和分块操作的操作阳50中,识别第一语言句子的专有名词、数字和包括人称代词 的代词的范式识别器用符号NNP替代专有名词、用符号NUM替代数字、并且用符号PRP 替代代词。同时,分块器对基本名词短语范式和习惯用语范式执行分块操作。
接着,在操作S560中,句子单元翻译模块102确定执行替代操作和分块操作 的操作S550的执行结果是否存在于结构化的TM DB 105中。当执行结果存在于结构化的TM DB 105中时,在操作S570中,句子单元翻译模块102自动翻译诸如符号NNP、 NUM、PRP, NP和VP的变量部分。句子单元翻译模块102输出与执行结果对应的最终 的自动翻译30。
当替代操作和分块操作的执行结果不存在于结构化的TM DB 105中时,句子单 元翻译模块102将替代操作和分块操作的执行结果传送到句子分段模块109。
图6是示出图1的句子分段模块中执行的操作的示例的流程图。
参考图1和6,不存在于结构化的TM DB 105中的输入句子10由句子单元翻译 模块102传送到句子分段模块109。
在操作S610中,句子分段模块109确定输入句子10是否是最后的句子。当输 入句子10是最后的句子时,结束在句子分段模块109中执行的所有操作。当输入句子10 不是最后的句子时,执行以下操作S620。
在操作S620中,用户确定是否使能将构成输入句子10的第一语言句子分段成简 单句子。也就是说,句子分段模块109通过诸如显示器屏幕之类的用户界面向用户显示 询问语言,其询问是否使能读取包括在第一语言句子中的语言范式。
当用户通过用户界面向句子分段模块109传送指示可以读取语言范式的响应消 息时,在操作S630中,句子分段模块109根据该响应消息将第一语言句子分段成简单句 子。
接着,在操作S640中,句子分段模块109建立用于连接被分段成简单句子的语 言范式的连接词,并且再次将所建立的连接词和已分段的语言范式传送到句子单元翻译 模块102。通过搜索结构化的TM DB 105,句子单元翻译模块105执行组合连接词和已 分段的语言范式的自动翻译操作。
当用户将不会读取包括在第一语言句子中的语言范式时,即当用户将不会将第 一语言句子分段时,输入句子10被传送到部分组合翻译模块103。
图7是示出图1的部分组合翻译模块中执行的操作的示例的流程图。
参考图1和7,部分组合翻译模块103接收未在句子单元翻译模块102中处理的 输入句子10。
在操作S710中,部分组合翻译模块103确定输入句子10是否为最后的句子。
当输入句子10是最后的句子时,结束在部分组合翻译模块103中执行的所有操作。
当输入句子10不是最后的句子时,部分组合翻译模块103执行分析构成输入句 子10的语素的操作。
接着,部分组合翻译模块103在操作S720中基于结构化的TM DB 105分析小于句子单元的语言范式的结构。
部分组合翻译模块103将所分析的小于句子单元的语言范式改变为第二语言句 子,以与单独准备的翻译词典DB 706相关地产生之。所产生的第二语言句子被提供给用 户作为自动翻译30。
如上所述,根据示范性实施例的基于结构化的翻译记忆的自动翻译系统100半 自动地建立结构化的TM,同时通过使用结构化的TM自动翻译输入句子。
在半自动地建立结构化的TM的操作中,通过基于大量英语-朝鲜语对比语料库恢复缩写的词汇、去除标点符号、去除句子副词、将专有名词分块、将数字分块、将基 本名词短语分块、以及将习惯用语分块,来半自动地建立结构化的TM DB。
在通过使用结构化的TM自动翻译输入句子的操作中,根据示范性实施例的自 动翻译系统100搜索利用英语句子构成的输入句子是否与翻译记忆匹配,以及当输入句 子与翻译记忆匹配时,输出朝鲜语句子。
当输入句子与翻译记忆不匹配时,自动翻译系统100进行到上一级。在上一级 中,将专有名词、数字、代词和基本名词短语与用符号替代的翻译记忆相比较。当专有 名词、数字、代词和基本名词短语与翻译记忆匹配时,通过改变和产生符号来输出朝鲜 语句子。当专有名词、数字、代词和基本名词短语与翻译记忆不匹配时,分析句子的结 构。通过分析句子的结构的解析操作来识别习惯用语,并且由短语单元的翻译记忆执行 自动翻译。
上面已经描述了几个示范性实施例。然而,应当理解,可以做出各种修改。例 如,如果以不同的顺序执行所述的技术和/或如果将所述的系统、结构、设备或电路中 的组件按照不同的方式组合和/或替换或补充其他的组件或它们的等效物,则可以实现 合适的结果。因此,其他的实施方式也在所附权利要求书的范围之内。
对相关申请的交叉引用
本申请要求于2009年9月10日向韩国特许厅提交的韩国专利申请 Νο.10-2009-0085422的优先权,其全部内容通过引用而被合并于此。
权利要求
1.一种自动翻译系统,包括翻译记忆建立模块,通过改变、删除和替代小于句子单元的预定语言范式来将预 定语言范式改变为部分翻译范式,并将所改变的部分翻译范式登记在结构化的翻译记忆 中;句子单元翻译模块,基于翻译记忆对输入句子执行句子单元的翻译;和部分组合翻译模块,当句子单元的翻译失败时,分析小于包括在输入句子中的句子 单元的语言范式的结构,基于翻译记忆搜索与所分析的语言范式匹配的已登记的部分翻 译范式,并组合所搜索到的部分翻译范式以输出与输入句子对应的翻译。
2.如权利要求1所述的自动翻译系统,还包括句子分段模块,当对输入句子的句子单 元的翻译失败时,从句子单元翻译模块接收输入句子,将接收的输入句子分段成小于句 子单元的语言范式,并且通过句子单元翻译模块将已分段的语言范式传送到部分组合翻 译模块。
3.如权利要求2所述的自动翻译系统,其中当输入句子是长句子时,句子分段模块将 输入句子分段成小于句子单元的预定语言范式。
4.如权利要求3所述的自动翻译系统,其中句子分段模块通过用户界面向用户传送询 问消息以询问是否使能读取长句子的输入句子,通过用户界面接收指示用户能够读取长 句子的输入句子的响应消息,并将长句子的输入句子分段。
5.如权利要求1所述的自动翻译系统,其中翻译记忆建立模块将包括简单词范式、复 合名词范式、专有名词范式、数字范式、代词范式、名词短语范式和习惯用语范式的预 定语言范式改变为部分翻译范式。
6.如权利要求5所述的自动翻译系统,其中翻译记忆建立模块用特定符号替代与预定 语言范式匹配的输入句子的语言范式以建立与输入句子对应的第一语言句子,用特定符 号替代与预定语言范式匹配的翻译的语言范式以建立与翻译对应的第二语言句子,并基 于所建立的第一和第二语言句子建立翻译记忆数据库。
7.如权利要求6所述的自动翻译系统,其中翻译记忆建立模块包括分类/重复去除单元,根据长度将包括在第一语言句子中的词分类,并删除包括在 第一语言句子中的简单词范式和复合名词范式;展开/重复去除单元,通过删除包括在第一语言句子中的句子副词范式和附加疑问 句范式来展开第一语言句子;标准化/重复去除单元,删除包括在第一语言句子中的标点符号范式,并通过删除 句子副词范式、附加疑问句范式和标点符号范式来恢复被缩写的第一语言句子的句子范 式;替代/重复去除单元,分别用第一符号、第二符号和第三符号替代专有名词范式、 数字范式和代词范式;以及分块/重复去除单元,将名词短语范式和习惯用语范式分块,并用第四符号和第五 符号替代已分块的名词短语范式和习惯用语范式。
8.如权利要求7所述的自动翻译系统,其中当第一语言句子的长度大于临界值时,展 开/重复去除单元将第一语言句子分段成多个简单句子。
9.如权利要求7所述的自动翻译系统,其中标准化/重复去除单元将包括在第一语言句子内的大写字母改变为小写字母。
10.—种自动翻译方法,包括通过改变、删除和替代小于句子单元的预定语言范式来将预定语言范式改变为部分 翻译范式以建立结构化的翻译记忆;基于翻译记忆对输入句子执行句子单元的翻译;当句子单元的翻译失败时,分析小于包括在输入句子中的句子单元的语言范式的结 构,搜索翻译记忆,并组合与所分析的语言范式对应的部分翻译范式以输出翻译。
11.如权利要求10所述的自动翻译方法,还包括当输入句子是长句子时,将输入 句子分段成小于句子单元的预定语言范式。
12.如权利要求10所述的自动翻译方法,其中所述建立结构化的翻译记忆的步骤将包 括简单词范式、复合名词范式、专有名词范式、数字范式、代词范式、名词短语范式和 习惯用语范式的预定语言范式构造到部分翻译范式中。
13.如权利要求12所述的自动翻译方法,其中所述建立结构化的翻译记忆的步骤包括用特定符号替代与预定语言范式匹配的输入句子的语言范式以建立与输入句子对应 的第一语言句子;用特定符号替代与预定语言范式匹配的翻译的语言范式以建立与翻译对应的第二语 言句子;以及基于所建立的第一和第二语言句子建立翻译记忆数据库。
14.如权利要求13所述的自动翻译方法,其中所述建立第一语言句子的步骤包括 根据长度将包括在第一语言句子中的词分类,并删除包括在第一语言句子中的简单词范式和复合名词范式;通过删除包括在第一语言句子中的句子副词范式和附加疑问句范式来展开第一语言 句子;删除包括在第一语言句子中的标点符号范式,并通过删除句子副词范式、附加疑问 句范式和标点符号范式来恢复被缩写的第一语言句子的句子范式;分别用第一符号、第二符号和第三符号替代专有名词范式、数字范式和代词范式;以及将名词短语范式和习惯用语范式分块,并用第四符号和第五符号替代已分块的名词 短语范式和习惯用语范式。
15.如权利要求14所述的自动翻译方法,其中所述建立第二语言句子的步骤包括 分类并删除与第一语言句子的句子副词范式和附加疑问句范式对应的第二语言句子的句子副词范式和附加疑问句范式;将与第一语言句子的专有名词范式、数字范式和代词范式对应的第二语言句子的专 有名词范式、数字范式和代词范式分类,并分别用第一到第三符号替代所分类的第二语 言句子的专有名词范式、数字范式和代词范式;以及将与第一语言句子的名词短语范式和习惯用语范式对应的第二语言句子的名词短语 范式和习惯用语范式分类,并分别用第四和第五符号替代所分类的第二语言句子的名词 短语范式和习惯用语范式。
16.如权利要求15所述的自动翻译方法,还包括当第二语言句子是其中第二语言 句子的长度大于临界值的长句子时,将第二语言句子分段成多个简单句子。
17.如权利要求10所述的自动翻译方法,其中所述组合部分翻译范式的步骤包括 分析构成输入句子的语素;通过使用所分析的语素和翻译记忆数据库来分析小于构成输入句子的句子单元的语 言范式;以及通过使用翻译词典数据库输出所分析的语言范式作为最终的翻译。
全文摘要
提供了一种基于结构化的翻译记忆的自动翻译系统及使用其的自动翻译方法。在该自动翻译系统中,翻译记忆建立模块将预定语言范式改变为部分翻译范式,并将所改变的部分翻译范式登记在结构化的翻译记忆中。句子单元翻译模块基于翻译记忆对输入句子执行句子单元的翻译。部分组合翻译模块分析小于包括在输入句子中的句子单元的语言范式的结构,基于翻译记忆搜索与所分析的语言范式匹配的已登记的部分翻译范式,并组合所搜索到的部分翻译范式以输出与输入句子对应的翻译。
文档编号G06F17/28GK102023972SQ200910266220
公开日2011年4月20日 申请日期2009年12月30日 优先权日2009年9月10日
发明者卢玧亨, 吴英顺, 尹昌浩, 崔承权, 徐英爱, 朴殷珍, 朴相奎, 权五郁, 李起荣, 梁成一, 金云, 金昌显, 金永吉, 黄金霞 申请人:韩国电子通信研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1