机器辅助翻译工具的制作方法

文档序号:6419044阅读:454来源:国知局
专利名称:机器辅助翻译工具的制作方法
背景技术
1.发明领域本方面涉及文本和语言的机器处理过程,特别涉及一种方法和装置,其中包括一种用于机器辅助翻译或机器翻译的软件实现。
2.讨论相关技术将文本从一种语言翻译成另一种语言一般是一项需要有经验的翻译的乏味工作。在出现计算机不久以后,研究人员就开始利用计算机来帮助进行自然语言的翻译。最早的机器翻译(MT)系统取决于大的双语词典,其中记录了对应于一个或多个目标语言(TL)同义词的源语言(SL)词汇。很快,显然由于该词典的句法和语法规则是如此复杂,以致专家不能开发出一个可描述的综合规则集,从而放弃了机器翻译。
但是整个世界中的多语言文化和多国家贸易产生了对翻译服务的需求。翻译商业和技术文献的需求体现了一个大的、日趋增长的翻译市场。这些文献包括合同、使用手册、表格和计算机软件。通常在一个产品或服务被定位于一个新市场时,大量的文献必须被翻译,从而产生了效能成本合算的翻译需求。由于商业和技术信息经常是详细而精确的,所以继而需要准确的翻译。
机器翻译(MT)系统一般被分为直接翻译、基于转换的翻译或基于中间语言的翻译。在直接翻译方法中,源语言和目标语言之间没有中间表现形式。源语言文本被“直接”处理以将其转换为目标文本。这种处理基本上是一种字对字的翻译,同时进行一些调整。但是由于忽略句子内部结构的所有方面而导致的明显缺陷使得目前的任何MT系统都不采用这种方法。
在基于转换的翻译方法中,来自对源文本的不同分析级别的信息被转换成生成的目标文本级别。例如,通过设置在词法级、语法级或由语法构建而成的结构级等的对应关系来实现转换。转换方法只适用于特定的语言对,因此必须特别和费心地生成每个语言对。
基于中间语言的翻译方法的基础是假设能够定义一种合适的中间表达形式,使源文本能够映射到该中间表达形式,而中间表达形式再映射到目标文本。在理论上,这种方法显然很吸引人,因为与基于转换的方法不同,其不必为每个语言对构建独立的转换程序。但在是否能够产生一种真正的语言独立中间表达形式是不清楚的。当前的基于中间语言的系统对其所宣称的中间表达形式的普遍性少有信心。对于高质量的翻译来说,经常需要涉及源和目标语言的某些特定方面。
在基于转换的方法中,近期已有了一些进展。在开发语法的数学和计算模型过程中,越来越注重于通过与词法项相关的结构将句法以及语义信息直接定位到词法项并定义用于组成这些对象的操作。在这个角度上,所有与语言相关的特定信息都被密封到词法项和与其相关的结构中。在这个级别区分不同的语言,但与组成这些结构的操作无关,其对所有的语言都是一样的。然后此方法在这一级定义所有的双语对应关系。这种方法是否能够在多种不同的语言中执行还拭目以待。
一些现有的MT系统需要以高度受限的文本编写文献。这些系统对于以不同的语言编写手册是有用的。此时,该系统并不是将以一种自然语言写成的手册翻译成一系列其它自然语言,而是从一个高度受限的文本生成多语言文本,从而避免了现有MT中的很多问题。
最近,研究已经集中在利用机器辅助翻译人员的方式而不是自主执行翻译过程。这种方法被称为机助人译(MAHT)。系统在利用由翻译人员完成的预翻译片段来产生商业通信的高质量翻译方面是可用的。机器辅助翻译工具的一个例子是翻译存储器(TM)系统。翻译存储器系统将创造性的工作留给翻译人员,但是它们能够从翻译人员处进行学习,并且它们通过自动提示现有的翻译和术语来积极地支持翻译过程。一个翻译存储器是一个数据库,该数据库在执行翻译时收集这些翻译以及源语言同义词。在执行并在翻译存储器中存储了一定数量的翻译之后,能够访问该翻译存储器来辅助新的翻译过程,其中新的翻译过程包括与已经包括在翻译存储器中的文本相同或相似的源语言文本。
这种系统的优点在于其在理论上平衡了现有的MT技术,使翻译人员在不牺牲由翻译人员所提供的传统准确性的前提下更为有效。该系统通过确保翻译人员不会将相同的源文本翻译两次来使翻译过程更为有效。在一个翻译人员工作的同时,翻译存储器在后台工作以“学习”原句及其相应的译句。在此过程中,这个数据可被链接到神经网络中。稍后,翻译存储器快速找到相同或相似的句子并将其作为生成新译句的工作基础而自动显示。这样,翻译存储器确保了没有句子需要被翻泽两次。
翻译存储器在不仅能够定位于相同匹配,而且能够定位于相似或“模糊”匹配时最为有用。模糊匹配使对在词序、词法、格或拼写上稍有不同的文本的检索变得容易。相似匹配是必需的,因为在自然语言文本中可能有较大的区别。通过神经网络技术,看到了用于找到具有相似内容的句子的模糊匹配的最佳性能。除由存储器自动提示方法以外,翻译人员还具有在多种可替换的翻译方法中进行选择的选择权。与原句及其译句一起,每个翻译单元还存储关于用户、使用日期和频率、分类属性以及文本字段的信息。这些信息使随着时间日益增大的翻译存储器易于维护。
词汇索引是翻译人员通常使用的另一种工具。电子词汇索引具有文本串,即字、短语或句子,它们与该字在一个特定文献这出现的语境相匹配。当一个翻译人员不确定一个给定字的意思时,词汇索引能够演示该字是如何在几个不同的语境中使用的。此信息文体感了一个更正确的译句选择以准确地反映一个源语言文献的意思。电子词汇索引包括文本查找软件,改软件允许翻译人员将所有文本串提取到一个包含所需字或短语的库中。快速检查提取出的文本串以更清楚地理解一个特殊的字或短语是如何在上下文中使用的。
多语言自然语言处理体现了在国际商业和通信领域中日益增长的需求和机会。机器辅助翻译工具需要使文献翻译更加高效和低成本。而且,机器辅助翻译工具需要有效地平衡(leverage)所存储的大量可用知识作为预翻译的商业和技术文献。具体地,需要一个语言独立的翻译存储器工具并提供对预翻译资料的准确而快速的模糊检索。
迄今为止,被认为是一个可确定位置(placeable)的文本必须由翻译人员进行翻译和手工输入。可确定位置经常在译本或一个转换后的形式中被重新使用。这种可确定位置的例子为专有名词,标题和名称,日期,时间,单位和度量,编号,格式信息,诸如文本中的标记或转义序列,类型,图形,超级链接,前后对照,自动字段,或其它任何种类没有关于上下文知识的没有被翻译但被转换的信息。可确定位置的翻译是费时的,并且在进行诸如将现金从美元转换成人民币和将速度从每小时的英里数转换成每小时的公里数时可能出现错误。这就需要一个程序,其识别被看作可确定位置的文本,进行必要的转换并将该可确定位置插入到目标文本中。
发明概述本发明提供了一种用于将一种源语言翻泽成目标语言的改进方法和装置。本发明利用可确定位置,通过促进目标语言中可确定位置的自动或半自动替代,并依据目标地区,如“德语-标准”进行一些必要的转换来辅助一个翻译人员。这里所用的可确定位置是一个术语,它指定不需要翻译成目标语言的数据或在某些情况下特别适合半自动替代的数据类型(例如专有名词,标题和名称,诸如标记、转义序列、类型、图形之类的格式信息)和需要进行不改变数据上下文的翻译的数据(例如物理和现金单位,时间区,日期格式,超级链接等)。此外,一个可确定位置可能更加复杂和高深。例如,通过专门的词典和/或为翻译指定的全部信息的上下文或环境信息,例如在化学环境、汽车环境、音乐歌词、法律环境中的数据,来确定一个可确定位置。上下文和环境信息将决定如何翻译特定术语。可利用一个源可确定位置标识符,根据与可确定位置的上下文和环境相关的源词汇索引来识别源信息中的可确定位置,例如源区(locale)。在翻译存储器中,可确定位置可被转换成一种语言独立格式,例如元表示法。该语言独立格式允许翻译存储器将可确定位置转换成任何目标语言,因为该格式对所有地区公用。在转换成独立格式之后,可确定位置被自动或半自动地置于目标译句中。一个目标可确定位置转换器用于根据与可确定位置的上下文和环境相关的目标词汇索引将可确定位置转换成目标信息,例如目标地区。
依据本发明,一个系统可标识一个可确定位置并确定其类型以便易于对该可确定位置的后续操作,典型地就是易于确定该可确定位置的位置、转换或翻译。可通过一个基于规则的处理来完成一个可确定位置的识别和其类型的确定。另外,可通过或借助于一个有限状态机来执行识别和确定过程,诸如查表功能或逐字符确定。
在通过将源和目标单元与可确定位置信息一起存储为模板或骨架语句来按对缩减存储源和目标单元所需的存储空间量,利用本发明的数据库驱动TM中具有很大的潜力。
本发明的一个目的是通过允许将可确定位置插入到目标信息中和借助于一个目标可确定位置转换器执行任何所需的转换来消除手工打字或将可确定位置移动到译句中,从而节省了一个翻泽人员将源信息翻译成目标信息所需的工作。
本发明的另一个目的是通过自动将诸如日期和度量单位之类的可确定位置转换成插入的目标文本,节省翻译源文本所需的时间或工作量。
本发明的另一个目的是通过自动转换可确定位置数据来减少在一个翻译人员将源文本中的度量单位手动转换成目标文本时发生的错误。
本发明的另一个目的时通过自动识别格式代码并将这些代码插入到一个目标文本中,来减少翻译源文本所需的时间或工作量。
本发明的另一个目的是通过自动翻译超级文本链接来减少将一个源文本翻译成目标文本所需的时间或工作量。
本发明的另一个目的是将可确定位置转换成一种语言独立格式。
本发明的一个目的是如果适当,例如通过转换度量单位,日期格式,现金值和单位,标题和名称等,自动改变可确定位置元素的外部特征。
本发明的一个目的是在翻译源信息时,在与用户对话的同时,例如通过一个或多个按键,一个或多个口头命令,单击或双击鼠标等方式,半自动地将可确定位置元素插在目标文本中的一个用户定义的位置上。
本发明的一个目的是借助于参考资料或其它机器可计算信息,自动插入可确定位置元素,这些资料或信息允许机器不与用户对话即可确定插入位置。
本发明的一个目的是可利用人工翻译或翻译存储器。
附图简要说明

图1示出了本发明的一个实施例;图2示出了本发明的另一个实施例;图3示出了本发明的另一个实施例;
图4示出了本发明的另一个实施例;图5示出了本发明的另一个实施例。
优选实施例的详细说明可利用多种商业上可用的语言翻译计算机软件程序来实现本发明。本发明可与一个翻译存储器一同工作,但翻译存储器并不是必需的。有利的是,该系统将支持至少两种语言。
首先,系统接收输入或以不同方式(例如数据文件,扫描数据,声音记录,语音命令等)检索到的输入源翻译信息,诸如文本数据或声音数据。程序可将源翻译信息分成语言形式或数据翻译单元。这是通过将源翻译信息分段为字、句或段而实现的。这个过程可由系统指定或由用户指定。
人工翻译图1示出了在翻译人员不使用翻译存储器时依据本发明的一个过程的流程图。最初,输入的源翻译信息被分成分段,例如句。分段的元素被提供给位置(110)上的处理器。系统确定一个元素是否被认为是一个可确定位置(120)。在翻译文本的同时,系统告知翻译人员一个数据元素是一个可确定位置并允许翻译人员将这个可确定位置插入到目标文本(130)中。此时,系统还可确定可确定位置的类型以便辅助翻译人员。类型信息可以任何适当形式,例如通过一个引导信号、颜色、字体变化等,提供给翻译人员。在这种方法中,翻译人员可依据一个或多个按键,依据一个或多个口头命令,依据鼠标等确定可确定位置被插入的位置。如果该可确定位置需要向目标信息的转换,在用户选择将可确定位置拉到目标文本(140)中时,这个系统被设置为根据类型自动指挥可确定位置。这个转换过程由一个目标可确定位置转换器依据目标输出的位置信息(例如根据目标环境/上下文的目标地区,目标词典)来执行。人工翻译可在Windows环境下执行。
翻译存储器翻译存储器在翻译信息时被用作参考。图2示出了一个用于管理在利用翻译存储器进行翻译时的参考资料的商业可用软件程序。参考资料是文本集合,一般为两种或更多种语言,而以前被翻译的源文本单元与目标文本单元相关。指定进行翻译的输入信息被认为是源翻译信息。如上面所提到的,翻译存储器在它们不仅可探测相同匹配,而且可以探测相近或“模糊匹配”时最为有用。模糊匹配有利于检索与源翻泽信息稍有不同的文本。翻泽存储器能够向翻译人员提供指明检索到的建议信息与源翻译信息如何接近的信息。这个信息可以以一个数字,例如百分比的形式散布。在一个要翻译的文本(即源翻译信息)单元与出现在翻译存储器中的源文本单元相同或非常相似并且以前已经对其进行了准确翻译的情况下,一个检索系统将存储在翻译存储器中的参考资料作为目标文本进行显示。然后翻译人员复制这个参考单元并对其进行修改以适应新的源翻译信息。在现有的系统中,如果一个出现在要翻译的文本中的可确定位置不同于翻译存储器源文本的对应元素,翻译人员需要进行人工转换,如果有必要要将可确定位置数据翻译或转换成目标信息。
翻译软件的用户接口提供了一个用于为翻译人员显示不同项的程序窗口(200)。这个特殊的例子同时示出了翻译软件程序窗口(210)和一个字处理器的程序窗口(240)使得用户能够在翻译过程中看到整个源翻译信息或感兴趣的更小单元。项(240)也可在翻译过程中显示最终的目标信息,例如译本。项(210)示出了一个一个区域(220),其中翻译程序可显示指定进行翻译的源翻译信息的语言形式或数据翻译单元。另外,窗口(210)可在利用翻译存储器工具(230)时显示一些建议的用于该语言形式的译句。
图3和图5示出了利用一个翻译存储器时的本发明。首先,源翻译信息的语言单位被进一步分成标记或源元素。一旦将一个源元素标识为可确定位置(310),就确定其类型(330)(即日期、时间、链接等),然后将该可确定位置转换成一种语言独立格式(340),例如元表示,或直接被转换成一种目标语言或地区。元表示(420,520)允许该系统将可确定位置转换成任何目标语言,因为其格式(元表示)适用于所有地区。可以根据任何目标地区来转换元表示以产生一个目标可确定位置(360)。此时,可确定位置可被插入到目标语言中并可自动或半自动地进行任意转换。
考虑下面的句子为“A man,called Mr.Miller,left hisapartment on the 25thof January in a car that is capable ofdriving at speeds above 160 mph.”。一个机器翻译程序在确定是“一个人与Miller先生打电话”还是“一个人”与“Miller先生”为同一个人的问题上遇到很大的困难。这个问题只能通过理解上下文来回答。换言之,如果只单独看“called”这个词,实际上是不可能正确翻译这个句子的。但是,如果这个标记(410)为“A man,calledMr.Miller”,那么你(或一台机器)就能够提出有意义的译句了。图3示出了本发明如何处理这个句子以及在一个可确定位置首次被标识时如何进行处理。有三个被标识的可确定位置Mr.Miller、25thofJanuary和160mph。
当系统将前述文本作为要翻译的文本(例如,源翻译信息)的部分输入显示时,该系统首先对该文本分段,最好分成句子。然后方便地对上述句子进行标记。依据本发明的一个实施例,其可被标记成与源翻译句子中的字或短语对应的元素。该标记化过程考虑根据基于规则的提问和/或利用诸如查询表之类的有限状态工具是否可以将这些元素标识为可确定位置。然后将确定被标识为可确定位置的元素的类型。也可以通过基于规则的提问和/或利用表之类的有限状态处理来完成这个确定过程。标记化装置的输出将包括不确定位置元素和任何可确定位置元素的类型指示。这个输出可被提供给一个翻译存储器以便定位在以前已被翻译的任何相同或相似的分段。系统根据翻译存储器中的以前被翻译的目标文本和根据具有或不具有可确定位置元素转换的直接位置,提出一个译句。系统可通过诸如个人电脑之类的通用计算机中的软件而实现。
可确定位置的确定可是一种利用一个基于规则的系统/有限状态系统的一步或两步方法。一步方法也可通过利用一个能够看到整个标记的基于规则的系统确定其类型而实现。例如,这个标记是一个日期?是一个专有名词?是一个超级链接?两步方法则首先确定该标记是否是一个可确定位置,然后确定其类型。这可利用一个有限状态过程来实现,该有限状态过程一次检查一个标记的每个字符,直到实现一个确定过程为止。
一个可确定位置的识别特征之一是其含义不可能随上下文而变。这种可确定位置包括可直接用在一个译句中的类型,例如数字或图形。另一种可确定位置可在转换之后使用,诸如与单位匹配的数字。例如,一个以“62英里/小时”的形式出现的可确定位置可被转换成“100公里/小时”。通过公式即可从一个译句中区分出这种转换。一个公式转换适用于上下文不可能影响翻译的情况。
下面的例子示出了包括一个另一种源文本的相似可确定位置的文本翻译。该翻译存储系统包括下述源文本单元,外加其依据参考文件而得到的译句翻译存储器源文本单元“A man,called Mr.Smith,left hisapartment on the 1stof April in a car that is capable of drivingat speeds above 100mph.”翻译存储器目标文本单元(德语)“Ein Mann,namens Herr Smith,verliess sein Apartment am 1.April in einem Auto,dasschneller als 160km/h fahren kann.”要翻译的新文本单元为“A man,called Mr.Miller,left hisapartment on the 25th of January in a car that is capable ofdriving at speeds above 160 mph.”如图5所示,新的源文本单元被分成元素(510)。然后对可确定位置进行分类并将其转换成一种语言独立格式(520)。当软件能够使翻译存储器目标文本单元中的三个可确定位置与翻译存储器源文本单元和要被翻译的新文本中的可确定位置都相互关联时,一个利用本发明的翻译存储系统能够自动确定并提出这些可确定位置的插入位置,即不需要用户的参与。在上面的例子中,该系统能够确定I.在三个标记中发现文本单元(要翻译的)与翻译存储器源文本单元(以前已经翻译过的相似文本)之间的唯一区别。
II.三个标记都是可确定位置。
III.在翻译存储器源文本单元和要翻译的文本中,可确定位置标记的类型(即,日期、速度、姓名)是相同的。
IV.在旧的目标文本单元中,能够发现完全相同的数字和可确定位置标记的类型。翻译系统可建议再次使用以前的译句(翻译存储器目标文本单元)并用新的姓名(=Mr.Miller)、新的日期(=25thJanuary)和新的速度(=160mph)来代替可确定位置标记。
V.该软件能够根据类型转换特定的可确定位置对。在这个例子中“Herr Miller”、“25 Januar”和“280km/h”(330)。
存储可确定位置当今市场上有两种类型的翻译存储系统参考文件驱动的TM和数据库驱动的TM。参考文件驱动的TM将源文本和目标文本保存在两个不同的位置上,通过保留彼此的参考指针列表来排列它们。在参考文件驱动的系统中,所有被写过(或创建)的源文本单元和其所有译句都被实际存储和保存在文件中。在利用本发明的数据库驱动的TM中,在只通过将文本单元作为模板或骨架语句简单存储,从而保存数据存储空间方面具有很大的潜力。
权利要求
1.一种用于处理源信息的方法,包括步骤将输入的源信息进行语法分析,解析为元素;利用预定标准对可确定位置元素进行标识;通过类型指定所述可确定位置元素。
2.如权利要求1所述的处理源信息的方法,还包括步骤确定一个源地区。
3.如权利要求1所述的处理源信息的方法,还包括步骤应用一个源可确定位置标识符以确定所述元素的所述类型。
4.如权利要求1所述的处理源信息的方法,还包括步骤确定一个目标地区。
5.如权利要求1所述的处理源信息的方法,还包括步骤应用一个目标可确定位置转换器以转换所述元素的所述类型。
6.如权利要求2所述的处理源信息的方法,还包括步骤应用所述源地区以通过类型确定所述元素。
7.如权利要求1所述的处理源信息的方法,还包括步骤将所述元素转换成一种语言独立格式。
8.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个专有名词;将所述可确定位置直接置于一个目标输出中。
9.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个日期;根据一个目标地区信息,将所述日期转换成一个目标信息。
10.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个专有名词;将所述可确定位置转换成一种语言独立格式。
11.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个专有名词;将所述可确定位置转换成一种元表示。
12.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个日期;将所述可确定位置转换成一种语言独立格式。
13.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否需要转换。
14.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个专有名词。
15.如权利要求1所述的处理源信息的方法,还包括步骤确定所述可确定位置是否是一个日期。
16.如权利要求1所述的处理源信息的方法,还包括步骤确定用于转换的输出请求。
17.一种用于处理源信息的计算机驱动语言处理系统,包括一个语法分析器;一个与所述语法分析器的输出相连的元素标识符;一个与所述元素标识符的一个输出相连的类型指定器。
18.一种用于处理源信息的计算机驱动语言处理系统,包括一个语法分析器,用于将输入的源信息进行语法分析,解析为元素;一个元素标识符,用于利用预定标准对可确定位置元素进行标识;一个类型指定器,用于通过类型指定所述可确定位置元素。
19.一种用于处理源信息的方法,包括步骤将输入的源信息分段为元素;利用预定标准对可确定位置元素进行标识;通过类型指定所述可确定位置元素。
20.如权利要求8所述的处理源信息的方法,还包括步骤将所述可确定位置元素与一个数据集合进行比较。
21.如权利要求8所述的处理源信息的方法,还包括步骤通过类型比较所述可确定位置元素和一个数据集合。
全文摘要
本发明提供了一种改进的用于将一种源语言翻译成一种目标语言的方法和装置。本发明利用可确定位置(例如专有名词、标题和姓名、日期、时间、单位和度量、数字、诸如标记或转义序列,字体,图形,超级链接之类的格式信息)来辅助翻译人员,即不必重新输入不需要翻译的信息并且如果需要,提供向目标地区的转换,例如速度。
文档编号G06F17/28GK1308748SQ99808249
公开日2001年8月15日 申请日期1999年4月30日 优先权日1998年5月4日
发明者J·胡梅尔, I·克尼普豪森 申请人:特雷道斯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1