计算机辅助自然语言翻译的制作方法

文档序号:6586144阅读:175来源:国知局

专利名称::计算机辅助自然语言翻译的制作方法
技术领域
:本发明涉及自然语言翻译,尤其涉及用在将源自然语言的源语料翻译成目标自然语言的自然语言翻译中的计算机实现的方法和装置。
背景技术
:为了在当前机器辅助翻译项目中利用具有高翻译质量的先前已翻译的文本,翻译记忆库在自然语言翻译行业中已经使用了几十年。通常,翻译记忆库在句子级或段落(paragraph)级对现有翻译施加影响(leverage)。由于在翻译记忆库中句子或段落的粒度(granularity)较大,所以整个句子或段落与源文本匹配的机率是比较低的,因此可重用的量是有限的。改善对先前翻译的影响的一种方法是通过使用根据一时间段内的先前翻译而建立的术语库或多语词典。这种术语库的开发和维护需要很多努力并且通常需要熟练的术语员来输入。提取
技术领域
中近期的进展可以减少从现有单语资源或双语资源中自动提取术语候选时所需的人工输入量。但是,创建和维护这样的术语库所需的人力仍然是相当大的。多种源代码文本编辑器包括以下特征在用户完全不必实际键入单词或短语的情况下预测用户想要键入的单词或短语。例如,一些诸如MicrosoftWord的文字处理软件使用内部启发来建议潜在完成以单自然语言已键入的前缀。美国专利申请No.2006/0256139描述了一种带有用于单词和短语自动完成的简化计算机键盘的预测文本个人计算机。该个人计算机还提供机器翻译能力,但不能重用先前已翻译的文本。因此,有必要提高在机器辅助翻译项目中先前已翻译文本的重用量,同时减少所需的人工输入量。
发明内容根据本发明的第一方面,提供了一种用于将源自然语言的源语料翻译成目标自然语言的计算机实现的方法,所述方法包括在软件进程中执行以下步骤接收步骤,其接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段(sub-segment)的第一部分;识别步骤,其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段,所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对(textsegmentpairs)的语料库中被提取出来,各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段;以及输出步骤,其输出所述至少一个可选择的目标文本子段。优选地以适于供翻译系统操作者审阅的形式来输出所述识别出的目标文本子段,由此可以选择所述至少一个识别出的目标子段用于将所述源语料翻译成所述目标自然语言。因此,可以向翻译者建议目标语言的许多子段用在源语料的已翻译的版本中。本发明允许以比诸如句子和段落之类的文本段更低的粒度级来重用高质量的先前已翻译的文本。单词和/或短语的其大小比提取这些单词和/或短语的句子和/或段落的那些段更小的先前已翻译的子段更可能匹配源语料的文本。这意味着重用的机率大大增加,这进而使得翻译系统操作者一方更省力。在本发明的一个设置中,该方法进一步包括以下步骤;接收第二数据输入,所述第二数据输入包括从所述至少一个输出的目标子段中选择的用于将所述源语料翻译成所述目标自然语言的一个目标文本子段。结果,翻译系统操作者通过经由用户接口从输出的目标子段中选择一个目标子段而能够省时和省力,该目标子段是源语料的当前正在翻译的部分的最接近或最合适的翻译,并且该选择可以被插入该源语料的翻译中。在本发明的一个实施方式中,从所述语料库中提取目标文本子段包括计算在所述先前已翻译的文本段对中的所述源文本段中的单词与所述对应的已翻译的文本段中的单词之间的同现测度。因此,可以基于一个或更多个算法来分析诸如翻译记忆库之类的现有双语语料库以提取用于向翻译者建议的目标子段。通过对同现进行计算,可以做出关于所建议的子段的关联性的假定,从而有助于减少向翻译者建议的貌似不相关的或“干扰”子段的量。在本发明的设置中,输出多个可选择的目标文本子段。在本发明的其他设置中,以适于由翻译系统操作者审阅的形式输出的识别出的目标文本子段的数量由预定阈值限定。因此,翻译系统操作者不必花费很多时间来浏览相当多数量的识别出的子段来选择目标语言的合适子段。该预定阈值可以是默认值,也可以是用户可配置的,使得用户可以指定在不会受到不当妨碍的情况下可轻松地浏览的待输出目标子段的数量。在本发明的设置中,该方法包括在输出中对给定目标文本子段进行强调(或以某种方式高亮显示)的步骤,该给定目标文本子段具有与从所述多个可选择的目标文本子段中选择的第一数据输入相对应的最多的文本字符,作为最佳初始选择。因此,翻译者的注意力能够立即集中于就翻译者正在键入的内容而言往往是最合适的子段,而不需要浏览所输出的子段的整个列表来寻找最合适的目标子段。在本发明的一个实施方式中,第一数据输入包括许多文本字符,并且该识别步骤包括以下步骤识别具有与第一数据输入中的文本字符相对应的文本字符的目标文本子段。因此,本发明识别并且输出与翻译系统操作者正在经由用户接口键入的内容更接近地对齐的目标子段,即,更接近地对应于翻译系统操作者所设想的源语料的当前部分应当被翻译成的内容,从而增加了重用的可能性和翻译系统操作者的潜在生产力。在本发明的实施方式中,响应于第一数据输入包括单个文本字符而输出至少一个识别出的目标子段以供翻译系统操作者审阅。在本发明的其他实施方式中,响应于所述第一数据输入达到预定数量文本字符而输出至少一个识别出的目标子段以供翻译系统操作者审阅。如果翻译者一开始键入(例如翻译者一录入单个文本字符)就识别并输出目标子段,那么可以识别并输出具有少量文本字符的大量目标子段(例如,一个或两个字母的单词)。这可能会使翻译者难以对无关且干扰的目标子段与潜在有用的目标子段进行区分。通过避免输出目标子段直到翻译者已经输入了某一最少量的文本字符为止,将会以比目前更少的干扰项而识别并输出含有更多数量匹配文本字符的更少数量目标子段。该预定阈值可以是默认设置或者可以是用户可配置的,使得翻译系统操作者能够在第一数据输入中规定最少数量的文本字符,该最少数量被认为足以提供合理数量的所输出的目标文本子段。在本发明的一个设置中,该识别步骤包括以下步骤识别所述目标自然语言的与所述接收的第一数据输入相关联的多个目标文本子段,所述多个目标文本子段已经从所述语料库中被提取出来,所述方法包括以下步骤接收以所述目标自然语言的第三数据输入,所述第三数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的第二部分;从与所述接收的第一数据输入和第三数据输入相关联的所述多个识别出的目标文本子段中生成可选择的目标文本子段的子集,其中,所述输出步骤包括以下步骤输出所述生成的可选择的目标文本子段的子集以供所述翻译系统操作者审阅。这样,随着翻译系统操作者继续录入新的文本字符,输出的目标子段被更新。因此,随着翻译者录入更多的文本字符,输出的目标子段的数量将可能减少,而保留在输出中的那些目标子段将会更接近地类似于翻译者所期望的翻译。这样,翻译者需要花费更少的时间来浏览剩余的输出的目标子段以寻找合适的子段插入到源语料的翻译中。在本发明的一个设置中,根据前述任一方面所述的方法,其中,如果在所述识别步骤中识别出多个目标文本子段,则所述方法包括以下步骤根据所述源自然语言的源语料量和/或由所述目标自然语言的各个所述识别出的目标文本子段所代表的所述目标自然语言的目标语料量,对所述识别出的目标文本子段进行排序,其中,在所述输出步骤中,以排序的顺序输出所述识别出的目标子段。如果采用根据所代表的源语料量进行的排序并且翻译者从输出的子段中选择了排序最高的子段,则翻译将覆盖大多数的源语料。这意味着每当翻译者选择了一个子段,随着源语料的更大部分被翻译,将可能会更快地翻译源语料。另外地或另选地,可以采用根据所代表的目标语料量进行的排序,这还可以提高翻译效率。在本发明的实施方式中,目标文本子段包括目标自然语言的单词或短语。在本发明的其他实施方式中,文本段对包括源自然语言的句子或段落以及目标自然语言的对应的已翻译的句子或段落。因此,可以在更低粒度级(即,在与句子级或段落级相对的单词级或短语级)实现先前已翻译的文本的重用。在本发明的一个实施方式中,该方法包括以下步骤在所述源语料中识别一个或更多个非翻译元素(placeableelement),非翻译元素是源语料中的如下元素,该元素无需由翻译系统操作者翻译成所述目标自然语言并且能够使用一个或更多个预定规则从所述源自然语言转换成所述目标自然语言;使用所述一个或更多个预定规则将所述一个或更多个识别出的非翻译元素转换成所述目标自然语言,并将所述一个或更多个转换后的非翻译元素插入所述全文翻译中而无需所述翻译系统操作者进行审阅或翻译。这样,由于不需要人工输入的源语料的元素能够被自动地转换并插入到源语料的翻译中而不会占用翻译系统操作者一方的任何时间,因此能够提高翻译系统操作者的生产力。在本发明的设置中,识别出的非翻译元素包括以下的一种或更多种时间、日期、数值表达式、度量表达式、缩略语、标签、格式化的项和名称。因此,本发明能够在不需要人工干预的情况下自动处理源语料中的各种不同的非翻译元素。在本发明的一个实施方式中,该语料库包括以下的一种或更多种翻译记忆库、术语数据库中的一个或更多个查找结果、对齐的双语文本以及文本子段的用户可定义列表。因此,在目标子段的提取和识别期间可以查询和/或组合各种资源。结果,可以提高输出的目标子段的质量和准确度。该用户可定义列表可以包括“自动文本”项的列表或数据库,其中,利用指向通常使用的文本片段的快捷方式来触发全篇所希望文本的插入以节省使用者一方的时间。根据本发明的第二方面,提供了一种用于将源自然语言的源语料翻译成目标自然语言的计算机实现的方法,所述方法包括在软件进程中执行以下步骤存储用于将所述源语料翻译成所述目标自然语言的目标文本子段的集合;提供用户接口,所述用户接口包括用于显示该源自然语言的所述源语料的一个段的显示部以及用于输入该目标自然语言的文本字符的文本录入部;经由所述文本录入部接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的所述段的一部分的翻译的第一部分;基于所述接收的第一数据输入而从所述目标文本子段的集合中识别至少一个可选择的目标文本子段;以及输出用于将源语料的所述段的一部分翻译成该目标自然语言的所述至少一个可选择的目标文本子段。在本发明的这个方面中,不是参考源自然语言的文本来识别用在源语料的已翻译的版本中的向翻译系统操作者建议的文本。而是,向翻译者建议的文本可以包括根据单语词典识别出的单词或短语或仅以目标语言的诸如此类单词或短语。而且,能够实现本发明的这个和其他方面,包括便于翻译系统操作者对源语料进行翻译的集成图形用户接口。根据本发明的第三方面,提供了一种用于将源自然语言的源语料翻译成目标自然语言的自然语言翻译装置,该装置包括接口单元,其用于接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分;识别单元,其用于识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段,所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来,各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段;以及输出单元,其用于输出所述至少一个可选择的目标子段。根据本发明的第四方面,提供了一种计算机程序产品,该计算机程序产品包括其上记录有计算机可读指令的计算机可读介质,当该计算机可读指令由计算机化装置来执行时可操作用于使得所述计算机化装置执行根据本发明的第一和/或第二方面的方法。图1是根据本发明的实施方式的系统图;图2是示出了根据本发明的图1的计算机系统的示意图;图3是示出了根据本发明的实施方式的从双语语料库中进行提取的示意图;图4是示出了根据本发明的实施方式的输出的目标子段的屏幕截图5是示出了根据本发明的实施方式的将目标子段插入源语料的全文翻译中的屏幕截图;图6是示出了根据本发明的实施方式的将输出的目标子段高亮显示(highlighting)的屏幕截图;图7是示出了根据本发明的实施方式的机器辅助自然语言翻译的流程图;图8是示出了根据本发明的实施方式的机器辅助自然语言翻译的流程图;图9是示出了根据本发明的实施方式的可配置设置的屏幕截图;以及图10是根据本发明的实施方式的测试文件的说明性示例。具体实施例方式在附图中,在多于一个附图中示出了各种部分;为了清楚起见,最初指派给一个部分、项或步骤的附图标记用于指代后续附图中相同的部分、项或步骤。在下述说明中,术语“先前已翻译的文本段对”是指源自然语言的源文本段和目标自然语言的其对应的已翻译的段。先前已翻译的文本段对可以形成诸如位于电子数据库或记忆库中的翻译记忆之类的双语语料库的部分。术语“目标段”被理解为包括目标自然语言的一定量文本,例如一个句子或一个段落。术语“目标子段”被理解为包括目标自然语言的一个段的更少摘录(excerp),例如与整个句子或段落而言相对的单词、句子片段或短语。图1是根据本发明的实施方式的用于将源自然语言的源语料翻译成目标自然语言的系统100。系统100包括计算机系统102和远程服务器132。在本发明的这个特定实施方式中,更详细地示出了计算机系统102,其包括多个功能组件。这些功能组件可以被合并到一个装置或分布在多个装置中。系统100包括处理器106,该处理器106进而包括目标子段提取模块108和目标子段识别模块110,模块108和110是与处理器106所执行的功能任务相对应的概念模块。为此,计算机系统102包括机器可读介质112,例如主存储器、硬盘驱动器等,在机器可读介质112上携带有用于以例如计算机程序的形式来指示计算机系统102或处理器106操作的指令集。处理器106可以包括一个或更多个微处理器、控制器或任何其他合适的计算机装置、资源、硬件、软件或嵌入式逻辑。而且,软件可以呈包含有web浏览器的代码形式。计算机系统102还包括用于与通信网络134进行电子通信的通信接口122。此外,还提供了远程服务器系统132,其包括通信接口130,该通信接口130可操作以通过通信网络134与计算机系统102的通信接口122进行通信。在图1中,计算机系统102作为客户机工作并且能够通过通信网络134与远程服务器132进行通信。各个通信接口122、130可以呈网卡、调制解调器等的形式。此外,计算机系统102还包括数据库114或可操作以存储双语语料库116、双语子段列表118和配置设置库120的其他合适的存储介质。例如,双语语料库116可以呈翻译记忆库的形式,并且可操作来存储诸如句子和/或段落之类的多个先前已翻译的文本段对。双语子段列表118可以呈诸如双语词典之类的双语子段仓库的形式,该双语子段仓库可以用来存储诸如单词和/或短语之类的子段列表。子段可以呈源自然语言的源子段的列表以及已翻译的目标子段的对齐(aligned)且对应的列表的形式。配置设置库120可以包括用于系统100的多个由用户定义的和/或默认的配置设置,如在被输出以供审阅之前在目标子段中所要求的文本字符的最少数量,和可以在任何时间输出以供翻译系统操作者审阅的目标子段的最大数量。这些配置设置可操作以在计算机系统102上实现。服务器132包括存储装置124,在该存储装置124中存储有格式化识别和转换准则列表126和非翻译元素识别和转换准则列表128。例如,存储装置124可以是数据库或位于服务器132内或远离服务器132的其他合适的存储介质。计算机系统102还包括具有显示器(如,计算机屏幕)和输入装置(如,鼠标或键盘)的用户输入/输出接口104。用户接口104可操作用于显示诸如源段和输出的目标文本子段之类的各种数据,并且还接收来自翻译系统操作者的数据输入。在图2中,在计算机系统102的图形表示中可以执行使计算机系统102执行这里讨论的方法中的任何一个或更多个的指令集。在另选实施方式中,计算机系统102作为单独装置而工作,或者可以(如,网络连接)连接至其他计算机系统或机器。在连网的部署中,计算机系统102可以作为服务器-客户机网络环境中的服务器或客户机而工作,或者作为对等(或分布式)网络环境中的对等机器。计算机系统102可以包括个人计算机(PC)、平板计算机、机顶盒(STB)、个人数字助理(PAD)、蜂窝式电话、web设备、网络路由器、交换机或桥,或者能够执行指定了要由该机器采取的行动的指令集(序列的或以其他方式)的任意机器。而且,虽然仅仅示出了单个机器,但是术语“计算机系统”应当还包括单独或共同地执行一组(或多组)指令以执行这里讨论的任意一个或更多个方法的任意机器集合或计算机集合。计算机系统102可以包括处理器202(例如,中央处理单元(CPU)、图形处理单元(GPU)或这两者)以及通过总线208彼此通信的主存储器204和静态存储器206。计算机系统102还可以包括视频显示单元210,如液晶显示器(LCD)或阴极射线管(CRT)。计算机系统102还可以包括字母数字输入装置212(如,键盘)、用户接口(UI)导航装置214(如,鼠标)、盘驱动单元216、信号生成装置218(如,扬声器)和网络接口装置220。盘驱动单元216可以包括机器可读介质222,在该机器可读介质上存储有通过这里说明的任意一个或更多个方法或功能而体现或使用的一个或更多个指令集和/或数据结构(如,软件224)。软件224在由计算机系统102执行期间还可以完全地或至少部分地驻留在主存储器204中和/或处理器202内,其中主存储器204和处理器202还可以构成机器可读媒介。还可以通过使用了多个公知传输协议(如,超文本传输协议(HTTP))中任意一个传输协议的网络接口装置220在网络226上发送或接收软件224。图3是示出了根据本发明的实施方式的从双语语料库中进行的提取310的示意图。在这个实施方式中,双语语料库116是以翻译记忆库308的形式,翻译记忆库308是存储有先前已翻译的许多文本段对306的数据库,各个文本段对包括源自然语言的源段302和目标自然语言的对应的已翻译的目标段304。在提取处理310中,从翻译记忆库中的文本段提取文本子段对316,并且在数据库114中的双语子段列表118中存储文本子段对316。在双语子段列表118中存储的各文本子段对316包括源自然语言的源文本子段312和目标自然语言的对应的已翻译的目标文本子段314。在这个实施方式中,双语子段列表118是以从含有句子和/或段落的翻译记忆库308中提取的双语短语/单词列表的形式,但是也可以采用段和子段之间的其他粒度级。提取处理310涉及计算源文本段中的单词和/或短语以及翻译记忆库308中对应的已翻译的目标文本段中的单词和/或短语之间的同现测度(measureofco-occurrence)。同现测度的计算使用统计方法来识别作为作为彼此的翻译的目标子段314和源子段312。提取处理涉及确定源文本段302中源文本子段312与对齐的目标文本段304中的目标文本子段314的同现是否一致(即,是否为随机的)。如果是不充分地随机,则假定子段312、314是彼此的翻译。可以应用附加的过滤器或数据源来验证这些假定。提取处理要求先前已翻译的双语语料(如,翻译记忆库308)与所得到的目标文本子段存储在双语子段列表118中。通常,双语语料需要在段级上对齐(如,在句子级或段落级),这表示明确地标记出了源文本段302与其已翻译的目标文本段304之间的对应。能够用于估计双语子段312、314关联性的似然度的算法是基于卡方的算法,该算法还用于产生子段(优选地为单词)翻译的初始一对一列表。接着,该初始列表可以被扩展成更大子段(如短语)。如将在下面更详细地描述的,提取处理310是离线实现的,即,在由翻译者进行源语料的翻译之前实现提取处理。接着,在运行时期间,即一旦翻译系统操作者已经开始翻译源语料,对提取处理的结果进行查询。下面将参照图4、5和6的屏幕截图说明本发明的实施方式。用户输入/输出接口104的图形用户接口(⑶I)部的屏幕截图400提供了正在输出(即显示以供翻译系统操作者审阅)的已识别的目标子段314的示例。在本发明的这个实施方式中,源自然语言(英语)的源语料404包括将被翻译成目标自然语言(德语)的许多源段414。在这个特定实施方式中,屏幕截图400示出了源段406,该源段406包括英语段落‘‘Councilregulation(EC)No1182/2007whichlaysdownspecificrulesasregardsthefruitandvegetablesector,providedforawiderangingreformofthatsectortopromoteitscompetitivenessandmarketorientationandtobringitmorecloselyinlinewiththerestofthereformedcommonagriculturalpolicy(CAP),,。源段406的翻译的第一部分已经被输入(完全地由翻译系统操作者输入或者借助于本发明而输入),如所示显示了包括文本“MitderVerordnung(EG)Nr1182/2007desRates[2]mit”的已翻译的文本的子段408。为了继续翻译源段406的处理,翻译系统操作者继续审阅源段406,并且例如通过经由输入/输出接口104的合适的键盘或鼠标选择而为系统提供呈目标自然语言的第一数据输入410形式的数据输入。第一数据输入410是源段406中的元素的由操作者逐个字符地创建并输入的翻译的第一部分,在这种情况下,该第一部分是文本字符“sp”,该文本字符“sp”是英语单词“specific”被翻译成德语的前两个文本字符。接着,从双语子段列表118中存储的目标文本子段中识别与该第一数据输入相关联的一个或更多个目标子段412并且将其输出以供翻译系统操作者审阅。已被识别并且输出的目标子段与第一数据输入相关联,因为它们具有共同的文本字符“sp”。在图4中所示的实施方式中,已识别并输出了八个目标文本子段,第一个含有德语文本“spezifischenHaushaltslinie”,而最后一个含有德语文本“spezifische”。接着,翻译系统操作者能够选择这八个输出的目标子段412中与正在翻译的源语料部分的期望翻译相对应的一个目标子段,并插入到源语料的全文翻译中。或者,翻译系统操作者可以继续逐个字符地输入文本。在本发明的实施方式中,可以基于各目标子段中的元素(例如,字符和/或单词)量对输出以供翻译系统操作者审阅的目标子段进行排序。接着,可以基于该排序来输出子段以供翻译系统操作者审阅。在图4中所示的实施方式中,已经基于各目标子段中的字符量对被输出供审阅的八个目标文本子段412中的每一个进行了排序。在这种情况下,这八个输出的目标子段如下排序1."spezifischenHaushaltslinie,,2."spezifischenVorschriften"3."spezifischenpflanzlichen,,4."spezifischenVorschriften"5."spezifischenRegelugen,,6."spezifischenSektor,,7."spezifischen"8."spezifische"因此,输出的目标子段“spezifischenHaushaltslinie”被排序在最高,因为它是最长的识别出的已翻译的子段。类似地,输出的目标子段“spezifische”被排序在最低,因为它是最短的识别出的已翻译的子段。在作为基于各目标子段中的元素(如,字符和/或单词)量进行排序的另选方式中,可以基于与目标子段分别对应的各源子段中的元素(如,字符和/或单词)量对输出以供翻译系统操作者审阅的目标子段进行排序。作为根据本发明的实施方式的这种类型的排序的一般示例,可以提供两个双语子段短语,这两个双语子段短语包括源自然语言的下述子段单词A、B、C、D,以及目标自然语言的下述子段单词X、Y、Z。第一子段短语对包含有包括单词A、B、C的源短语以及包括单词X、Y的对应目标短语。第二子段短语对包含有包括单词A、B的源短语以及包括单词X、Y、Z的目标短语。当提供了含有单词ABCD的源段并且来自翻译系统操作者的第一数据输入是X时,第一子段短语对的目标子段被认为是就源语料的翻译而言更好的匹配并且排序较高,这是因为源短语ABC覆盖了源语言的更长部分(源自然语言的三个单词子段),而第二子段短语对则相反(覆盖了源自然语言的两个单词子段)。根据目标文本和/或与之对应的源文本的量对输出的目标子段进行的排序有助于提高翻译效率,因为如果翻译系统操作者选择了排序最高(首先输出)的目标文本子段,他就覆盖了目标语料和/或源语料的最大部分。如果在源语料的翻译中每次都由翻译者选择排序最高的目标文本子段,那么在翻译源语料时花费的总时间将会减少。除了排序以外,可以将一个或更多个识别出的和显示出的目标子段识别为初始最佳建议,并且在向使用者输出的建议列表中将其高亮显示或以其他方式强调。在图4的屏幕截图中示出了同样以这种方式对目标文本子段的高亮显示;在这种情况下,高亮显示的目标文本子段是“spezifischenHaushaltslinie”。在图4中所示的示例中,到此为止已经输入了不足的字符来识别唯一的最佳匹配一在这种情况下,可以使用其他因素来识别要高12亮显示的初始建议。可以使用各种方法来执行将多个输出的目标文本子段608中的一个目标文本子段识别为最佳匹配。在这个示例中,具有与操作者输入的文本相匹配的初始字符的最长目标子段被选择为初始建议。如果由操作者录入的字符数量足以唯一识别出目标文本的单个子段,那么可以选择具有最大数量的与第一数据输入共同的文本字符的目标文本子段。还可以考虑其他因素,如使用频率和/或基于上下文分析的匹配分数。从而,可以通过高亮显示功能引导翻译系统操作者至他们想要的翻译的最佳匹配,并且选择高亮显示的目标文本子段来插入源语料的翻译中,这与必须人工地浏览各个输出的目标文本子段来找到最佳匹配相比更省力。显然,对于翻译系统操作者而言对高亮显示的目标子段的选择是可选的,而翻译系统操作者可以决定将其他未高亮显示的目标子段中的一个插入到源语料的翻译中。用户输入/输出接口104的图形用户接口(⑶I)部的屏幕截图500示出了一旦翻译系统操作者已经选择了被插入到源段406的翻译506中的特定目标文本子段时的情形。在图5所示的实施方式中,所选择的目标子段504是短语“spezifischenRegelungen”,示出了该短语被插入到已翻译的文本506中作为英语短语“specificrules”的翻译。该选择是以例如通过经由用户输入/输出接口104的合适的键盘或鼠标选择而来自翻译系统操作者的第二数据输入的形式来实现。接着,翻译处理以类似方式继续翻译源段406的剩余部分,然后翻译后续源段414。图6示出了本发明的示例性实施方式,其中,用户输入/输出接口104的图形用户接口(GUI)部的屏幕截图600提供了正在显示以供翻译系统操作者审阅的许多识别出的目标子段610的示例。在图6示出的实施方式中,第一数据输入606是源子段406的由操作者逐个字符地创建并输入的翻译的第一部分,在这种情况下,该第一部分是文本字符"spezifischenR”,该文本字符是英语单词“specificrules”被翻译成德语的许多文本字符。响应于第一数据输入,识别并且输出八个目标文本子段以供翻译者审阅,第一个目标文本子段含有德语文本“spezifischenHaushaltslinie”,而最后一个目标文本子段含有德语文本“spezifische”。在这个实施方式中,作为输出的目标文本子段608中的一个的被识别出的最佳匹配被高亮显示(或以其他方式强调)以使翻译系统操作者的注意力特别地集中在被识别为初始最佳建议的目标文本子段608上。在这个示例中,选择了具有最大数量的与第一数据输入共同的文本字符的目标文本子段。在这种情况下,第一数据输入是文本字符“spezifischenR”,因此,高亮显示了目标文本子段“spezifischenRegelungen”,如图6所示。因此,高亮显示的目标文本子段608被认为是已经被识别并且输出的目标文本子段中对翻译系统操作者当前正在输入的源语料的翻译部分的最佳匹配。在本发明的其他实施方式中,接收到第一数据输入,因此从双语子段列表中识别出具有多个目标文本子段的集合,并将其输出以供翻译系统操作者来审阅。如果翻译系统操作者发现基于第一数据输入而输出的目标子段的数量太大以至于无法合理处理,那么人工审阅员可以通过提供附加文本字符作为源语料的人工翻译的另一部分而添加到第一数据输入。该附加文本字符形成了翻译者经由用户输入/输出接口104而输入的第三数据输入。响应于第三数据输入,生成初始输出的目标文本子段的子集并将其输出以供翻译系统操作者审阅。该子集具有的目标文本子段数量比初始输出供审阅的目标文本子段的集合要少。这可以提高翻译效率,因为翻译者在选择一个合适的目标文本子段以插入源语料的翻译中之前只需浏览更少量的建议目标文本子段。在图4中所示的实施方式中,在翻译系统操作者已经输入第一数据输入410之后,输出的目标子段的列表中的高亮显示强调了具有文本“spezifischenHaushaltslinie”的第一输出目标文本子段。在图6中所示的实施方式中,在翻译系统操作者已经输入第三数据输入606之后,从先前高亮显示的目标文本子段中对输出的目标子段610的列表中的高亮显示进行更新以强调具有文本“spezifischenRegelungen"的第五输出目标文本子段610。第五输出目标文本子段610更接近地对应于第一和第三数据输入的组合,并且最终更接近地匹配翻译者当前正在翻译的源段406的期望翻译。这样,翻译系统操作者的注意力可以立即集中在就翻译系统操作者当前正在录入的文本字符而言往往是最合适的目标子段上,而不需要浏览所输出的目标文本子段的整个列表。下面将参照图7和图8的流程图进一步描述本发明的实施方式,图7和图8分别示出了根据本发明的实施方式在翻译源语料时涉及的步骤。图7和图8中的流程图分别示出了方法700和800。图7和图8示出了在计算机系统102的用户输入/输出接口104的任何一侧执行的方法。朝向图左边而提供的功能方面由翻译系统操作者来执行,朝向图右边而提供的功能方面由计算机系统102来执行。在图任意一侧示出的步骤分别由人工和机器彼此分离地执行,但是将其示出在单个图中以例示其交互。图各侧之间的箭头并不表示方法的分支或分解,而仅仅是表示在翻译系统操作者与计算机系统102之间的信息流动。如参照上述图3更详细地说明的,当在方框702提取(310)出至少一个目标子段314时,在图7中示出的本发明的实施方式的翻译处理开始。优选地在翻译系统操作者开始翻译源语料之前离线地实现提取处理310。当翻译系统操作者开始翻译源语料时,他在方框704处输入形成了源语料的人工翻译的第一部分的一个或更多个文本字符,并随后在方框706由计算机系统102接收第一数据输入。接着,在方框708处使用第一数据输入来识别一个或更多个目标文本子段314(来自于在方框702处提取的目标文本子段),在该一个或更多个目标文本子段314中第一文本字符对应于第一数据输入。接着,在方框710处将识别出的目标文本子段输出以供翻译系统操作者审阅。按照如与图4和图6相关的上述方式高亮显示具有与第一数据输入匹配的最多文本字符的目标文本子段。在这个示例性实施方式中,翻译系统操作者在方框714处选择高亮显示的子段,随后在方框716处接收与翻译系统操作者的目标文本子段选择相对应的第二数据输入,并且按照与图5相关的上述方式将所选择的子段插入到源语料的翻译中。如参照上述图3更详细地说明的,当在方框802处提取(310)出至少一个目标子段314时,在图8中示出的本发明的实施方式的翻译处理开始。优选地在翻译系统操作者开始翻译源语料之前离线地实现提取处理310。当翻译系统操作者开始翻译源语料时,他在方框804处输入形成了源语料的人工翻译的第一部分的一个或更多个文本字符,随后在方框806处由计算机系统102接收第一数据输入。接着,在方框808处使用第一数据输入来识别一个或更多个目标文本子段314(这些目标文本子段314来自于在方框802处提取的目标文本子段),在该一个或更多个目标文本子段314中第一文本字符对应于第一数据输入。接着,在方框810处输出所识别出的目标文本子段以供翻译系统操作者审阅。在这个实施方式中,翻译系统操作者不选择任何输出的目标文本子段(812),而是在方框814处输入呈一个或更多个其他文本字符形式的人工翻译的第二部分,该一个或更多个其他文本字符形成了源语料的人工翻译的第二部分,并随后在方框816处由计算机系统102接收第三数据输入。接着,基于第一和第三数据输入的组合而在方框818处生成先前输出的目标文本子段314的子集。应当理解的是,第三数据输入可以是第一数据输入的更新后的版本或修改后的版本。翻译系统操作者在方框820处选择输出的目标子段314以插入源语料的翻译中,并随后在方框822处由计算机系统102接收第二数据输入。在方框824处将已选择的目标子段插入到已翻译的源语料中,并且对翻译系统操作者进行显示。在本发明的其他实施方式中,翻译系统操作者可以在步骤820中不选择输出的目标文本段,而是选择输入其他的文本字符。在这种情况下,可以生成先前识别出的目标文本子段的子集的进一步的子集,并将其输出以供翻译系统操作者审阅。可以重复该处理直到翻译者决定选择输出的目标文本子段中的一个来插入到源语料的翻译中为止。在本发明的实施方式的下述说明中,术语“源非翻译元素”应被理解为包括日期或时间表达式、数值表达式或度量表达式、缩略语或源语料中的在目标自然语言中具有标准翻译的任何其他这样的元素或与源语言或目标语言无关的任何其他元素。在本发明的实施方式中,计算机系统102连接至远程服务器132并且检索非翻译元素识别和转换准则128。接着,使用非翻译元素识别和转换准则128来识别源语料中的一个或更多个源非翻译元素,并且将识别出的源非翻译元素转换成适于插入目标自然语言的源语料的翻译中的形式。源非翻译元素不需要翻译系统操作者进行翻译,但是可以根据预定规则或准则自动转换并且可以被“原样”插入源语料的翻译中。由于翻译系统操作者完全不需要花费时间来处理或翻译源非翻译元素,因此这有助于提高翻译系统操作者的效率。图4的屏幕截图示出了源非翻译元素的转换示例。这里的源非翻译元素416是数字“1182/2007”,该数字被识别为根据用于对数字进行转换的一个或更多个预定规则而转换的数字,并且被插入源语料的翻译中,作为与项418所示的相同的数字“1182/2007”。源非翻译元素的转换的另一个示例可能涉及度量单位的转换,如源语料中的法定重量51b。如果目标语言是德语,那么根据lib=0.454kg的规则将该法定重量转换为公制重量,最终将2.27kg插入到源语料的翻译中。图9示出了本发明的一个示例性实施方式,其中,用户输入/输出接口104的图形用户接口(GUI)部的屏幕截图900显示了许多配置设置。各个设置可以初始地被设置为默认值设置,并且可以由翻译系统操作者经由用户输入/输出接口104进行合适的输入来配置。⑶I900例示了用于限定最小文本字符数据输入设置910的一个设置910,该设置910与在输出所识别出的目标子段314以供翻译系统操作者审阅之前计算机系统102能够接收的第一和/或第三数据输入中的最小文本字符量有关。该设置能够避免翻译系统操作者不得不浏览具有少量文本字符(如一个或两个字母单词)的输出的目标文本子段。在这种特定情况下,该设置被设定为7个字符,使得只有那些具有至少7个文本字符的单词或短语将被输出以供翻译系统操作者审阅。GUI900例示了用于限定被输出以供翻译系统操作者审阅的目标文本子段的最大数量的另一个设置912。这意味着直到响应于来自翻译系统操作者的第一和/或第三数据输入已经生成了目标子段的足够小的集合时,才输出目标文本子段以供审阅。该设置能够避免翻译者不得不浏览大量的目标文本子段来寻找用于插入源语料翻译中的合适的目标文本子段。在这种特定情况下,该设置被设定为六个目标子段,使得仅输出最多六个建议的目标文本子段来供翻译系统操作者审阅,即,仅当潜在匹配子段的数量降低到六个或更少时,才输出这些建议以供审阅。⑶I900例示了仅用于输出尚未在目标语料908中出现的建议目标子段314的进一步的设置。如果启用了该设置,将不会再次输出翻译系统操作者在前一时刻已经选择的目标子段314来供翻译系统操作者审阅。本发明的这个特征有助于减少建议数量,从而避免使用者不得不重新阅读已经安置过的建议。GUI900例示了翻译系统操作者能够选择在提取目标子段314时要参考的数据的情况下的进一步的设置,在这种特定情况下要参考的数据是翻译记忆库906或自动文本数据库902。图10示出了本发明的一个示例性实施方式,其中,由计算机系统102生成在展示提取处理的结果和评估翻译准确度时使用的测试文本文件1000。在本发明的这个实施方式中,将文本测试文件1000写入报告文件位置1002中。显示了第一自然语言1004(GB英语)和第二目标自然语言1006(DE德语)。此外,显示了源段1008和许多候选目标文本子段1010。上述实施方式将被理解为本发明的说明性示例。可以想到本发明的其他实施方式。例如,当翻译系统操作者输入了第一数据输入然后输入了第三数据输入时,还可以颠倒用于生成目标文本子段的子集的上述处理。如果翻译系统操作者最初输入了第一数据输入并且识别和显示了目标文本子段的第一集合,然后删除一个或更多个文本字符,则可以生成目标文本子段的超集(super-set)(S卩,比最初显示的更多数量的目标文本子段),并且将其输出以供翻译系统操作者审阅。如果翻译系统操作者在翻译时其初始数据输入出错,或者在关于如何最佳地显示部分源语料方面改变了主意,这可能是有用的。涉及上述生成目标文本子段的子集或超集的本发明的实施方式可以与涉及对目标文本子段进行排序的本发明的实施方式相结合,还可以或者另选地与涉及使目标文本子段高亮显示的本发明的实施方式相结合。在这样的实施方式中,当生成子集或超集时,目标文本子段的排序和/或目标文本子段的高亮显示可以在输出目标文本子段以供翻译系统操作者审阅时被更新。本发明的其他实施方式可以涉及在翻译系统操作者开始翻译源语料之前由合适的软件进程对要翻译的源语料进行计算机分析。该软件进程可以包括对与先前已翻译的语料的语料库有关的待翻译源语料进行解析,并搜寻源语料与先前已翻译的语料之间的相关性或其他这种关系或对应性。作为计算机分析的结果,可以通过软件创建目标文本子段的列表,该列表的内容潜在地与待翻译的特定源语料的翻译有关。当翻译系统操作者通过录入一个或更多个文本字符而开始翻译源语料时,可以从潜在目标文本子段的列表中识别出目标文本子段,并将其输出以供翻译系统操作者审阅。通过考虑待翻译的特定源语料,识别出的目标文本子段可以更相关并且含有更少的干扰项(noiseterm),从而提高了翻译处理的效率。本发明的其他实施方式还可以涉及待翻译的源语料的计算机分析,但是该计算机分析不是在翻译系统操作者开始翻译源语料之前执行,而是在翻译系统操作者翻译源语料期间执行计算机分析。在这种实施方式中,当翻译系统操作者录入了一个或更多个文本字符时,可以采用软件进程根据需要(on-the-fly)而参照来自翻译系统操作者的输入和待翻译的源语料二者来识别用于向翻译系统操作者建议的目标文本子段。通过考虑待翻译的特定源语料以及来自翻译系统操作者的输入,识别出的目标文本子段可以更相关,尤其是与翻译系统操作者所希望的翻译更相关。在另选实施方式中,计算机系统102可以作为单独装置工作,而无需与服务器132进行通信。就该另选实施方式而言,格式化识别和转换准则以及非翻译元素识别和转换准则将被存储在计算机系统本地。而在其他实施方式中,本发明的主要处理功能可以由服务器132来实现,而计算机系统102作为相对“(dumb)”客户端计算机系统。本发明的功能组件可以被合并到单个装置或分布在多个装置上。在上述说明和附图中,可以从源自然语言和目标自然语言的先前已翻译的目标段对的双语语料库中提取用于向翻译系统操作者建议的候选目标文本子段。在本发明的其他设置中,可以使用含有除了源自然语言和目标自然语言之外的其他语言的对应的已翻译的文本的多语语料库。虽然在一个示例性实施方式中机器可读介质被示为单一介质,但术语“机器可读介质”应当被理解为包括存储有一个或更多个指令集的单一介质或多介质(例如,集中式或分布式数据库,和/或关联的高速缓存和服务器)。术语“机器可读介质”还应当被理解为包括这样的介质,这种介质能够存储、编码或携带由机器执行的指令集,使机器执行示例性实施方式的任何一个或更多个方法,或者能够存储、编码或携带这种指令集使用的或与这种指令集关联的数据结构。因此,术语“机器可读介质”应当包括,但并不限于,固态存储器、光媒体和磁媒体以及载波信号。应当理解的是,就任何一种实施方式而说明的任何特征可以单独使用,或者与其他所描述的特征相结合地使用,并且还可以与任何其他实施方式中、或者任何其他实施方式的任意组合中的一个或更多个特征相结合地使用。而且,在不偏离所附权利要求书中限定的本发明的范围的情况下,还可以使用上面没有说明的等同方式和修改。权利要求一种用于将源自然语言的源语料翻译成目标自然语言的由计算机实现的方法,所述方法包括在软件进程中执行以下步骤接收步骤,其接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分;识别步骤,其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段,所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来,各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段;以及输出步骤,其输出所述至少一个可选择的目标文本子段。2.根据权利要求1所述的方法,其中,以适于供翻译系统操作者审阅的形式来输出所述识别出的目标文本子段,由此可以选择所述至少一个识别出的目标子段用于将所述源语料翻译成所述目标自然语言。3.根据权利要求1所述的方法,该方法包括以下步骤接收第二数据输入,所述第二数据输入包括从所述至少一个输出的目标子段中选择的用于将所述源语料翻译成所述目标自然语言的一个目标文本子段。4.根据权利要求1所述的方法,该方法包括以下步骤从先前已翻译的文本段对的语料库中提取目标文本子段,其中,从所述语料库中提取目标文本子段包括计算在所述先前已翻译的文本段对中的所述源文本段中的单词与所述对应的已翻译的文本段中的单词之间的同现测度。5.根据权利要求1所述的方法,其中,输出多个可选择的目标文本子段。6.根据权利要求5所述的方法,其中,输出的可选择的目标文本子段的数量由预定的用户可配置的阈值来限定。7.根据权利要求5所述的方法,该方法包括以下步骤在所述输出中对给定目标文本子段进行强调,该给定目标文本子段是从所述多个可选择的目标文本子段中选择出来作为最佳初始选择。8.根据权利要求1所述的方法,其中,所述第一数据输入包括许多文本字符,并且所述识别步骤包括以下步骤识别具有与所述第一数据输入中的文本字符相对应的文本字符的目标文本子段。9.根据权利要求8所述的方法,其中,响应于所述第一数据输入达到预定数量文本字符而输出所述至少一个可选择的目标子段以供翻译系统操作者审阅。10.根据权利要求9所述的方法,其中,所述预定数量的文本字符是用户可配置的。11.根据权利要求1所述的方法,其中,所述识别步骤包括以下步骤识别所述目标自然语言的与所述接收的第一数据输入相关联的多个目标文本子段,所述多个目标文本子段已经从所述双语语料库中被提取出来,所述方法包括以下步骤接收所述目标自然语言的第三数据输入,所述第三数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的第二部分;从与所述接收的第一数据输入和第三数据输入相关联的所述多个识别出的目标文本子段中生成可选择的目标文本子段的子集,其中,所述输出步骤包括以下步骤输出所述生成的可选择的目标文本子段的子集以供所述翻译系统操作者审阅。12.根据权利要求1所述的方法,其中,如果在所述识别步骤中识别出多个目标文本子段,则所述方法包括以下步骤根据所述源自然语言的源语料量和/或由所述目标自然语言的各个所述识别出的目标文本子段所代表的所述目标自然语言的目标语料量,对所述识别出的目标文本子段进行排序,其中,在所述输出步骤中,以排序的顺序输出所述识别出的目标子段。13.根据权利要求1所述的方法,其中,目标文本子段包括所述目标自然语言的单词或短语。14.根据权利要求1所述的方法,其中,文本段对包括所述源自然语言的句子或段落以及所述目标自然语言的对应的已翻译的句子或段落。15.根据权利要求1所述的方法,该方法包括以下步骤在所述源语料中识别一个或更多个非翻译元素,非翻译元素是源语料中的如下元素,该元素无需由翻译系统操作者翻译成所述目标自然语言并且能够使用一个或更多个预定规则从所述源自然语言转换成所述目标自然语言;使用所述一个或更多个预定规则将所述一个或更多个识别出的非翻译元素转换成所述目标自然语言,并将所述一个或更多个转换后的非翻译元素插入所述全文翻译中而无需所述翻译系统操作者进行审阅或翻译。16.根据权利要求15所述的方法,其中,识别出的非翻译元素包括以下的一种或更多种时间,日期,数值表达式,度量表达式,缩略语,标签,格式化的项,以及名称。17.根据权利要求1所述的方法,其中,所述语料库包括以下的一种或更多种翻译记忆库,术语数据库中的一个或更多个查找结果,对齐的双语文本,以及目标子段的用户可定义列表。18.一种用于将源自然语言的源语料翻译成目标自然语言的由计算机实现的方法,所述方法包括在软件进程中执行以下步骤存储用于将所述源语料翻译成所述目标自然语言的目标文本子段的集合;提供用户接口,所述用户接口包括用于显示该源自然语言的所述源语料的一个段的显示部以及用于输入该目标自然语言的文本字符的文本录入部;经由所述文本录入部接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的所述段的一部分的翻译的第一部分;基于所述接收的第一数据输入而从所述目标文本子段的集合中识别至少一个可选择的目标文本子段;以及输出用于将源语料的所述段的一部分翻译成该目标自然语言的所述至少一个可选择的目标文本子段。19.一种用于将源自然语言的源语料翻译成目标自然语言的自然语言翻译装置,所述装置包括接口单元,其用于接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分;识别单元,其用于识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段,所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来,各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段;以及输出单元,其用于输出所述至少一个可选择的目标子段。20.一种计算机程序产品,该计算机程序产品包括其上记录有计算机可读指令的计算机可读介质,当该计算机可读指令由计算机化装置来执行时可操作用于使得所述计算机化装置执行根据权利要求1的方法。全文摘要本发明涉及计算机辅助自然语言翻译。公开了一种用于将源自然语言的源语料翻译成目标自然语言的计算机实现的方法和装置,该方法包括在软件进程中执行以下步骤接收步骤,其接收所述目标自然语言的第一数据输入,所述第一数据输入包括从所述源自然语言翻译成所述目标自然语言的所述源语料的翻译的子段的第一部分;识别步骤,其识别所述目标自然语言的与所述接收的第一数据输入相关联的至少一个可选择的目标文本子段,所述至少一个可选择的目标文本子段已经从先前已翻译的文本段对的语料库中被提取出来,各文本段对包括所述源自然语言的源文本段和所述目标自然语言的对应的已翻译的文本段;以及输出步骤,其输出所述至少一个可选择的目标文本子段。文档编号G06F17/28GK101826072SQ20091025319公开日2010年9月8日申请日期2009年12月14日优先权日2009年3月2日发明者刘兴曾,埃里克·德弗里泽,基思·米尔斯,奥利弗·克里斯特申请人:Sdl有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1