可定制、低延迟交互式计算机辅助翻译的制作方法

文档序号:9438932阅读:373来源:国知局
可定制、低延迟交互式计算机辅助翻译的制作方法
【技术领域】
[0001]本发明涉及计算机辅助翻译,特别地,涉及适于用户的翻译选择的计算机辅助翻译。
【背景技术】
[0002]全机器翻译用于自动生成翻译。这可能对不熟悉讨论中的语言和没有资源或时间雇佣熟练翻译者的用户有用。但是,由于语言的复杂性,机器翻译(MT)提供不可靠的翻译。例如,在第一语言中给定的句子可能有多个不同的含义并且因此在第二语言中可能有多个不同的翻译。
[0003]计算机辅助翻译(CAT)试图达到两者中最好的:有机器翻译的速度并且有熟练翻译者的人为判断。机器翻译用于在文档中生成建议翻译,而人类翻译者接受或者修改该建议。采用这种方式,当机器翻译建议是准确的,翻译者就从重复工作的负担中解脱并且翻译生产力可能增加。
[0004]然而,当处理特定领域时,其中词可能有非标准含义或可能以非标准方式使用,由通用MT系统提供的翻译建议经常对CAT没有帮助。在这种情况下,建议将一贯地不准,对翻译者不省时。而且,MT的延迟导致额外的拖延从而限制翻译生产力。

【发明内容】

[0005]—种用于计算机辅助翻译的方法包括接收待翻译的包括一个或多个句子的文档;使用处理器为所述文档中的每个句子生成可能翻译的建议池;为翻译的句子向用户提供
(204)来自所述建议池的最好的建议;基于用户的翻译前缀(translat1n prefix)的输入,更新所述建议池;以及为翻译的句子向用户提供来自更新的建议池的更新的最好建议。
[0006]—种用于计算机辅助翻译的方法,包括:接收(106)待翻译的包括一个或多个句子的文档;基于具有域内翻译数据的通用和定制翻译模型,使用处理器在服务器装置为所述文档中的每个句子生成(202)可能翻译的建议池;向用户装置传输(506)建议池;为翻译的句子向用户提供(204)来自所述建议池的最好建议;如果所述前缀与建议池中的可能翻译偏离,基于所述翻译前缀,传输(506)需要附加的可能翻译的请求;基于用户的翻译前缀输入,更新(210)所述建议池;以及为翻译的句子向用户提供(210)来自更新的建议池的更新的最好建议。
[0007]一种计算机辅助翻译的系统包括:处理器(302),被配置用于为文档中的每个句子生成可能翻译的建议池,该文档包括一个或多个待翻译句子;翻译模块(316),被配置用于为翻译的句子向用户提供来自建议池的最好建议,和在接到用户的翻译前缀输入后为待翻译句子向用户提供来自更新的建议池的更新的最好建议;以及池更新模块(312),被配置用于基于用户的翻译前缀输入,更新建议池。
[0008]这些和其它特征和优点,从其说明性实施例的接下来的详细描述和结合相应的附图进行阅读将变得明显。
【附图说明】
[0009]本发明将参考下面附图在接下来优选实施例的描述中提供细节,其中:
[0010]图1是根据本发明一实施例的用于计算机辅助翻译(CAT)的方法框图/流程图;
[0011]图2是根据本发明一实施例的用于CAT的方法框图/流程图;
[0012]图3是根据本发明一实施例的用于CAT的系统图;
[0013]图4是根据本发明一实施例的用于建议池更新的方法框图/流程图;
[0014]图5是根据本发明一实施例的用于CAT的服务器/用户系统图;以及
[0015]图6是根据本发明一实施例的说明一示例性翻译用户界面图。
【具体实施方式】
[0016]本发明实施例基于翻译者的目的和翻译输入,通过提供能快速适应的实时、交互的翻译建议,提供计算机辅助翻译(CAT)。翻译者能接受部分翻译前缀并在句子的任何点开始手工翻译。本实施例基于手工输入更新建议,允许翻译者即使在初始翻译被拒绝后仍能从CAT受益。这增加了 CAT的速度和翻译建议的准确性。而且,特定领域的数据和/或字典可以用于定制化建议。应当注意,本发明的实施例可以同样应用到计算机辅助转录(transcript1n),其中音频或视频信息由人类转录者审查并由语音识别软件生成建议。
[0017]现在参考附图,其中相似附图标记代表相同或者相似的部件,先从图1开始,显示了用于CAT的本实施例的概述图。框102建立域内训练数据库。这样的数据库可以以平行短语对组织。每个短语对包括两个句子,一个是源语言,另一个是目标语言。在翻译或转录口头语言的例子中,除了语言内容之外,信息将包括语言识别信息。平行短语对通常由人类翻译者生成,但他们可来自任何合适的来源。
[0018]框104使用翻译数据库建立定制翻译模型。该定制翻译模型提供由计算机使用的知识集,用以做出关于潜在翻译的推论和决定,并且可包括翻译模型和自然语言模型二者。定制翻译模型是从训练数据库学习的统计模型。任何合适学习模型可应用,包括例如基于词的、基于短句的、基于树的、生成性的(generative)、歧视性的(discriminative)和启发式(heuristic)的方法。该列表不是试图穷尽,本领域技术人员能为给定的应用选择恰当的学习模型。
[0019]框106接收用于翻译的输入文档。该输入文档是第一语言并且将被翻译成第二语言。输入文档的语言可以,例如,由翻译者明确标明,在文档自身指定,或由自然语言识别自动确定。应当注意,文档本身不需要是文本文档,还也可以包括音频和视频信息。例如,当与语音识别系统耦接时,CAT可用于在转录口头语言中帮助翻译者。
[0020]框108为翻译形成建议池。建议池是基于一个或多个定制翻译模型和通用翻译模型,并且可包括,例如,单词格(lattice)、η元语法(n-gram)字符串列表、前缀树等,并且可被CAT工具的用户端检索。通用翻译模型可以是,例如,处理所讨论语言的普通短语的模型,但定制翻译模型可对特定领域提供特定词汇和特定使用。这样的通用模型可包括,例如,所有的翻译模型、语言模型、重新排序模型等,这些用在统计机器翻译中。
[0021]领域以及对应的定制翻译模型,可由用户选择或可例如基于文档中与特定领域关联的的单词或短句的频率计数由系统自动决定。例如,如果该文档包括很多与汽车相关的单词或短语,CAT工具可向人类翻译者建议属于汽车领域的定制翻译模型。任意数量的定制模型可被使用,因为给定文档可以属于多个领域。在一个示例性实施例中,文档本身将有清楚的领域信息,由提交用于翻译文档的实体提供。CAT工具可读这些信息和自动加载所调用的定制翻译模型。
[0022]通用翻译模型和定制翻译模型可根据任何合适的方法相结合。例如,两个模型可简单地彼此相加,用可选权重控制每个模型要做出多大贡献。或者,机器翻译可先使用通用模型,然后用定制模型来重排翻译,选择那些对目标域最合适的。在进一步的实施例中,CAT系统完全不需要结合两个模型。每一个模型可生成添加到建议池的候选翻译。候选翻译集可组合,其中相似或相同翻译之间的冗余被删除。翻译置信度得分在建立这样的紧凑表达时可作为权重使用。结果建议池由高概率翻译集组成。如将在下面详细描述的,这允许本地翻译工具低延迟地提供建议,因为可以对该建议池进行修改而无需通过慢网络从翻译服务器请求更多信息。
[0023]框110执行使用建议池的CAT。到最后,CAT系统为输入文档中的每个句子提供翻译建议。翻译者可接受该翻译,在此点下一个句子被考虑翻译。用户也可以接受部分翻译,例如如果句子的前缀被正确翻译,但句子剩余部分不正确。如果翻译者未接受该翻译,或者接受部分建议,翻译者开始输入更新的翻译。CAT系统可以提供更新的建议,因为翻译者继续提供更多信息,这用于减少可能翻译的次数和允许CAT系统改善其建议。
[0024]所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0025]可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于一一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1