增量语言翻译方法和系统的制作方法

文档序号:6432746阅读:274来源:国知局
专利名称:增量语言翻译方法和系统的制作方法
技术领域
本发明总地涉及一种用于翻译语言的计算机实施的方法、数据处理系统和计算机程序产品。更具体地,本发明涉及翻译用来构造数据处理系统的数据库的选择部分。
背景技术
近几十年的贸易已经促生了多边贸易。因此各国之间流通着复杂的机械和媒介。 虽然许多工业化国家具有为了商业目的而采用英语的相当多的人口,但是许多领域(例如教育)依赖于要以顾客的语言销售并且由文档和其他帮助来支持的设备。这种情况给信息技术设备的销售者和维护者带来了特有的困难。每当机器和辅助设备以修改的特征更新时,制造商所在国家的用户能得到该修改特征的时间与客户所在国家的用户能利用该特征的时间之间可能发生延迟。发生这种延迟可能是由于新特征出现在包括显示的或说出的(经扬声器)语言的用户接口中。这种机器的总体功能可能已经被翻译成客户的语言。但是,一个新特征可能增加20%新的和/或改变的单词到已经在这种设备的先前版本支持软件中翻译的语言的已有全部词汇(corpus)。因此,更新的信息可能依赖于对设备的修改的有针对性的翻译。重要的是,找到一种方法来将已翻译的特征与未翻译的特征分开有利于解决上述问题。

发明内容
本发明提供一种计算机实施的方法、系统和计算机程序产品,用于识别和翻译部分翻译的数据的一个子集。修改成分选择器(revisedcomponent selector)在数据库中提取包括多个英语关键字和翻译语言值的翻译文件,包含未翻译的关键字作为扩展标记语言 (XML)文件。修改成分选择器确定XML文件中是否存在XML不支持的字符。响应于XML文件中存在XML不支持的字符这一确定结果,修改成分选择器第一次滤出XML不支持的字符, 以形成结果文件。修改成分选择器从结果文件第二次滤出已翻译的数据,以形成一未翻译的文件。修改成分选择器选择数据的一个子集。响应于选择,修改成分选择器第三次滤出不包括在该子集中的任何数据,以形成一可翻译的文件。修改成分选择器发送该可翻译的文件到翻译中心以便翻译。


据信能表征本发明的新特征在后附的权利要求中阐述。但是,本发明本身以及优选的使用模式和它们的进一步目标和优点将通过参考下面的结合附图的示意性实施例的详细说明被更好地理解。在附图中图1是根据本发明示意性实施例的数据处理系统的方框图;图2A是根据本发明示意性实施例的数据处理系统网络的方框图;图2B是根据本发明示意性实施例的数据处理系统网络的替代设置的方框图;图3A是根据本发明示意性实施例的可以为中间数据类型的XML文件;
图;3B是根据本发明示意性实施例的未翻译的文件;图3C是根据本发明示意性实施例的紧凑文件(compact file);图4是根据本发明示意性实施例的修改成分选择器处的步骤流程图;图5是翻译中心处的步骤的流程图。
具体实施例方式现在参考附图特别是参考图1,显示了数据处理系统的方框图,其中可以实施示意性实施例的各方面。数据处理系统100是计算机的一个例子,实施本发明的过程的代码或指令可以位于其中。在显示的例子中,数据处理系统100利用一中枢体系结构(hub architecture),包含北桥和存储器控制器中枢(NB/MCH) 102、南桥和输入/输出(I/O)控制器中枢(SB/ICH) 104。处理器106、主存储器108和图形处理器110连接到北桥和存储器控制器中枢102。图形处理器110可以经例如加速图形端口(AGP)连接到NB/MCH。在所示的例子中,经总线138和140,局域网(LAN)适配器112连接到南桥和I/ 0控制器中枢104及音频适配器116、键盘和鼠标适配器120、调制解调器122、只读存储器 (ROM) 124、硬盘驱动器(HDD) 126、⑶-ROM驱动器130、通用串行总线(USB)端口和其它通信端口 132,PCI/PCIe设备134连接到南桥和I/O控制器中枢104。PCI/PCIe设备可以包括例如以太网适配器、加入式(add-in)卡和笔记本电脑用的PC卡。PCI使用卡总线控制器, 而PCIe不用。ROMlM可以是例如闪速二进制输入/输出系统(BIOS)。硬盘驱动器1 和 CD-ROM驱动器130可以使用例如集成驱动器电子(IDE)或者串行高级技术附加(SATA)接口。超级1/0 (SIO)设备136可以被连接到南桥和1/0控制器中枢104。操作系统在处理器106上运行,协调和控制图1中的数据处理系统100内的各种部件。操作系统可以是商业上可以获得的操作系统,例如Microsoft Windows XP。Microsoft和Windows是微软公司在美国、其他国家的商标,或者同时是美国和其他国家的商标。面向对象的编程系统,例如Java 编程系统,可以与该操作系统结合运行,并从 Java 程序或数据处理系统100上执行的应用程序提供对该操作系统的调用。Java 是Sim Microsystem公司在美国、其他国家的商标,或者同时是美国和其他国家的商标。用于操作系统、面向对象的编程系统、和应用程序或程序的指令位于存储设备 (例如硬盘驱动器126)上,也可以装载到主存储器108中以便处理器106执行。本发明的过程可以由处理器106利用计算机实现的指令来实施,这些指令可以位于存储器(例如主存储器108、只读存储器124),或者可以位于一个或多个外设中。本领域的技术人员将会理解,图1中的硬件可以根据具体实施情况而改变。除了图1所示的硬件之外或者替代图1所示的硬件,可以使用诸如闪存、等同的非易失性存储器等的其他内部硬件或外部设备。此外,示意性实施例的过程可以应用到多处理器数据处理系统。在某些示例中,数据处理系统100可以是个人数字助手(PDA),它配置有闪存来提供非易失性存储器,用于存储操作系统文件和/或用户生成的数据。总线系统可以由一个或多个总线构成,例如系统总线、1/0总线和PCI总线。当然,总线系统可以利用任何类型的通信构造或体系结构来实施,该通信构造或体系结构提供附连到该构造或体系结构的不同部件或设备之间的数据传送。通信单元可以包括用于发送和接收数据的一个或多个设备,例如调制解调器或网络适配器。存储器可以是例如主存储器108或者在北桥和存储器控制器中枢102中的高速缓存器。处理单元可以包括一个或多个处理器或CPU。图1所示的例子不是旨在隐含体系结构限制。例如,数据处理系统100除了可以采用PDA形式之外,也可以是平板电脑、膝上型电脑或者电话设备。这里使用的术语是用于说明特定实施例的目的,而不是用于限定本发明。如这里所用,单数形式“一”、“一种”和“该”旨在也包括复数形式,除非上下文清楚地表明其他意思。还要理解,本说明书中使用的术语“包括”指明所述特征、整数、步骤、操作、元素和/或部件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元素、部件和/或它们的群组的存在或附加。下面的权利要求中的所有装置或步骤加功能元素的相应结构、材料、动作和等同物旨在包括用于结合具体要求保护的其他元素执行的功能的任何结构、材料或动作。提供本发明的说明书仅用于示例和说明的目的,而不用于穷举或将本发明限定到所公开的形式。对于本领域的技术人员来说显然可以做出多种修改和变化而不脱离本发明的精神和范围。选择和说明的实施例是为了更好地解释本发明的原理和实际应用,以及使本领域的技术人员理解具有各种修改的本发明的各种实施例适用于所构想的特定应用。本领域的技术人员可以理解,本发明的各方面可以具体实施为一种系统、方法或者计算机程序产品。因此,本发明的各方面可以采用完全硬件实施例的形式、完全软件实施例的形式(包括固件、驻留软件、微码等)或者组合了软件和硬件方面的实施例,这里都可以总地称为“电路”、“模块”或“系统”。此外,本发明的各方面可以采用计算机程序产品的形式,嵌入在具有计算机可读程序码的一个或多个计算机可读介质中。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是但不限于例如电子的、磁的、光的、电磁的、红外的或半导体系统、装置或设备,或者是前述的任何适当组合。计算机可读存储介质的更具体的例子(非穷尽列表)将包括以下具有一个或多个导线的电子连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPR0M或闪存)、光纤、便携式紧致盘只读存储器(CD-ROM)、光存储设备、磁存储设备或者前述的任何适当组合。在本文件的上下文中,计算机可读存储介质可以是任何有形的介质,可以包含或存储由指令执行系统、装置或设备使用的程序或者与指令执行系统、 装置或设备相关联的程序。计算机可读信号介质可以包括具有嵌入其中的计算机可读程序码的传播数据信号,例如在基带中或者作为载波的一部分。这样的传播信号可以采取多种形式之一,包括但不限于电磁、光学的或者它们的任何适当组合。计算机可读信号介质可以是并非计算机可读存储介质并且可以传递、传播或者输送程序以便由指令执行系统、装置或设备使用或者与其结合的任何计算机可读介质。嵌入在计算机可读介质上的程序码可以利用任何适当的介质传送,包括但是不限于无线、有线、光纤电缆、RF等或前述的任何适当组合。执行本发明各方面的操作的计算机程序码可以以一种或多种编程语言的任何组合形式来写,这些语言包括面向对象的编程语言(例如Java,Smalltalk,C++或类似语言) 和传统的过程编程语言(例如“C”编程语言或类似的编程语言)。程序码可以完全地在用户计算机上执行,部分地在用户的计算机上执行,作为单独的软件包执行、部分地在用户的计算机上部分地在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后面的情况下,远程计算机可以经任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如经使用互联网服务供应商的互联网)。下面参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图说明本发明的各方面。应理解,流程图和/或方框图的每个方框以及流程图和/或方框图中方框的组合可以由计算机程序指令实施。这些计算机程序指令可以提供到通用计算机、专用计算机或者其他可编程数据处理装置的处理器以产生一机器,使得这些指令(这些指令经计算机或其他可编程数据处理装置的处理器执行)产生用于实施流程图和/或方框图的一个或多个方框中指定的功能/动作的手段。这些计算机程序指令也可以存储在计算机可读介质中,该介质可以指示计算机、 其他可编程数据处理装置或者其他设备以特殊方式工作,使得存储在计算机可读介质中的指令产生一种制造品,该制造品包括实施流程图和/或方框图的一个或多个方框中指定的功能/动作的指令。计算机程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上, 以使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行,来产生计算机实施的过程,使得在计算机上或者其他可编程装置上执行的指令提供执行流程图和/或方框图的一个或多个方框中指定的功能/动作的过程。示意性实施例允许从数据库或其他存储设备选择文件。这些文件可以具有翻译成目标语言的术语以及尚未翻译的术语的混合,如可能在设置为在数据处理系统中执行的软件的二次发布过程中发生的。示意性实施例可以更窄地选择未翻译的术语以及上下文信息。这种选择可以消除这种文件的包括超过文件内容的50%的已翻译的片段。此外,某些示意性的实施例可以提供向导文本(guiding text)来标识元素的开始和结束,例如由可扩展标记语言(XML)标签界定的,以便凸显或者以其他方式加强到未翻译术语的导航或者在其中的导航。其他的示意性实施例可以传送这种修改或产生的文件到翻译中心、收集所得到的已翻译的文件、并将这样的文件输入到设备和软件制造商的文档合作数据库(document collaboration database),以便快速部署。因此,可以为偏好与制造商的语言不同的语言的用户加速部署。图2A是根据本发明示意性实施例的数据处理系统网络的方框图。服务管理用户接口服务器200是设备制造商和训练材料使用的数据处理系统,来组织用于构建这样的设备、训练材料等的草稿文件。文档合作数据库201是例如在制造商制造的IT设备中使用的文档和文件的存储设备。数据库是文件或者对象的数据存储器,存储方式允许计数、分类和编辑这些文件或对象。数据库的结构可以对于每个文件或文档包括元数据,以及提供版本控制。文件和文档可以作为纯文本文件、XML文件或者任何其他合适的格式存储。文件和文档的某些例子由它们的数据内容举例说明。例如,某些文件可以是Java脚本、配置文件、CSS文件、HTML文件等。如先前说明的,每个这样的文件可以取决于其他文件用于进一步的功能,例如执行软件可以取决于库或者包含文件,以便当公共库耦合到数据处理系统时可以向额外的线程提供功能,该额外线程执行如此参考该公共库的文件中的指令。
7
文档合作数据库是文档的存储设备,可以包含样式表和其他呈现(rendering)指令,或者根据计算机编译器或者翻译器组织的功能文本。这样的文档可以是配置文件,可以与计算机指令相互操作以修改计算机的功能。这样的配置文件也可以包括呈现到用户接口的文本的描述符。这种文件的格式可以按照目前可以得到的XML标准。此外,该格式可以基本符合XML标准,虽然该配置文件的某些部分可以是文字文本和标签界定的其他字符, 该标签可以是XML。网络203可以用来允许向文档合作数据库201和从其传送文件和文档。修改成分选择器205和翻译中心207可以合作并经网络203交换数据。修改成分选择器205可以被操作来基于用户输入的项目名称从文档合作数据库201选择文件和文档。修改成分选择器可以是图1的数据处理系统100。项目名称是产品的名称,可以由在该产品内运行的特征来修改。项目名称可以对应于一个名称,该名称可以是制造商的内部商业秘密,该秘密匹配于在发布销售之前保持于制造状态的通常可得到的发布内容。该通常可得到的发布内容可以包括具有软件指令、配置文件、库和根据优选语言以及制造商的记忆规则以通用方式形成的数据结构的文件。因此,构成项目内容的文件和文档可以包括适于向用户呈现或显示的字符串。字符串是对应于字符集的字节列表,字符集例如为Unicode、用于信息交换的美国标准码(ASCII)或者任何其他的被认可的字符集。字符串可以包括非标准字符。非标准字符是XML标准不支持的字符。XML不支持的字符是根据所有XML标准被指定为无效的字符。XML不支持的字符的一个例子是OxlA。 XML不支持的字符是不可解析的字符。不可解析的字符不能单独基于XML规范的规则来解析。字符串能够以英语来建立。但是,为有助于项目的国际化,这样的字符串可以设置为文件内的三元组。三元组是一个文件或文档内相互关联的至少三个字符串。每个字符串能够以例如逗号分隔的文件格式、XML格式、或将一个字符串链接到其他两个字符串的任何其他格式来形成。翻译中心207可以是执行软件的产品中所使用的文本的翻译的源,该软件以某种语言呈现提示和其他信息。可以由在终端211上工作的人员来进行翻译。终端提供用户接口来收集用户输入,以便翻译例如紧凑文件中的至少某些术语,该紧凑文件可以从修改成分选择器205传送到翻译中心。用户输入是由人例如使用键盘输入的信息。修改成分选择器205可以提供手段来通过从终端209接收用户输入来控制处理器上执行的软件的执行。终端可以使用对话框、文本编辑器和在终端内执行的其他用户接口来收集用户输入。终端可以是数据处理系统。此外,系统管理者可以进行输入,该输入可以用于设置子集规则,根据该子集规则分类包含潜在翻译目标的属性。子集规则将在下面参考图4做进一步解释。用户输入可以提供用户属性,用户属性可以用于识别向其授予了特征访问权的用户,因此这些属性是与要翻译的特征相关联的属性。图2B是根据本发明示意性实施例的数据处理系统网络的替代设置的方框图。类似于图2A,数据处理系统的替代网络249包括服务管理用户接口 250、文档合作数据库251、 网络253、修改成分选择器255和翻译中心257。但是,与图2A不同,替代网络249可以依赖于翻译中心257的自动功能来翻译发送到翻译中心257的紧凑文件和其他数据。换句话说,翻译中心257可以不依赖于用户审阅紧凑文件的所呈现的版本。类似地,修改成分选择器255可以不需要进一步的输入来设置找到具有文件访问权的用户的规则。因此,可以不需要终端来设置特定规则(ad hoc criteria)以确定针对新特征的用户设置,该新特征可能依赖于存储在文档合作数据库中的属性。图3A是根据本发明示意性实施例可以为中间数据类型的XML文件。虽然文件300 利用XML协议被格式化,但是它可以包含XML不支持的字符。XML不支持的字符可以在两个XML标签之间的字符串中,例如字符串341、343、345和347。XML文件300可以是用户输入的主题所选择的翻译文件。翻译文件是含有至少一个三元组的文件,其中该三元组至少包括对象名称、关键字和翻译标记(translation token)。翻译文件可以是部分翻译的数据。换句话说,部分翻译的数据可以意味着在一组属性中,一个或多个属性缺少关键字的任何翻译,或者缺少关键字的某些翻译。用户输入的主题可以是项目名称,对于该项目名称, 可以依赖各种文件或文档来向该项目的特征提供完全功能。用户输入的主题可以是文件名称。XML文件300可以由多个属性构成,每个属性与一个对象相关联。对象可以是提供关于术语在设备内的使用方式的上下文信息的字段,该设备通过使用软件来控制。对象名称是该对象的名称、或者是使用该对象的上下文。Accountdefaults 355是该对象的一个例子。对象名称和属性名称的组合可以用作由输入程序使用的识别符。输入程序依赖于这样的识别符,可以正确地将新翻译的数据添加到文档合作数据库。换句话说,对象名称和属性名称可以指定翻译应用到数据库表内的哪个记录之内。属性340可以包括多个关键字。关键字是耦合到栏描述符的、以制造商的工作人员的优选语言所写的术语。关键字可以是英语关键字。英语关键字是基本上以英语写的关键字。“基本上以英语”意思是一个术语使用英文字典中的单词、英语的常见拼写错误、技术字典中的单词和讲英语者使用的词汇,包括缩写和简写。英语关键字包括例如“注释/组类型” 341、“标题/组类型” 343,以及其他。应理解,英语关键字可以是单独的短语,没有“栏 (column) ”来区分关键字,只要该关键字在文档合作数据库中是唯一的。替代地,在一些情况下,英语关键字还可以包括属性名称和对象名称,这些情况中这种附加数据可以使英语关键字唯一。图;3B是根据本发明示意性实施例的未翻译的文件。未翻译的文件是基于例如XML 文件的一个文件,但是它已经被过滤为仅仅包含缺少到目标语言的翻译的对象或记录。在未翻译的文件350的情况下,目标语言是法语,由“FR”表示。处理步骤可以识别包括对应于该目标语言的翻译标记的对象。在未翻译的文件350的例子中,翻译标记是占位符“null”。 占位符是一个字符串,该字符串被选择用于向翻译者或其他实体通知一个位置,用来放置关键字的相应翻译。可以使用替代的占位符,只要它们与在制造商的产品中使用的字符串的类型是不同的,特别是与可以与这样的产品串行使用的软件不同。图3C是根据本发明示意性实施例的紧凑文件。紧凑文件370包括未翻译的文件的内容,但是紧凑文件包括附加的注释,这些注释被包括在开始注释标签和结束注释标签之间。附加的注释是用于表示哪些TEXT标签要翻译的人为物(artifact)。当文件通过翻译工具,例如在翻译中心被查看时,注释所包围的标签可以被滤出,以便翻译者可以仅集中于需要翻译的术语。附加的注释,例如为“START NON-TRANSLATABLE" 371和“END NON-TRANSLATABLE”373。每个这样的注释可以由例如开始注释标签“< !―”和结束注释标签“一> !”包括。这样的注释和标签可以有利于翻译中心处的特定偏好和操作。例如, 依赖于文本处理器的翻译中心(例如Vim)可以执行这种附加注释的内容上的全面搜索,以便快速在关键字和占位符中导航。图4是在根据本发明示意性实施例的修改成分选择器处执行的步骤的流程图。初始地,修改成分选择器可以从文档合作数据库提取翻译文件(步骤401)。接下来,修改成分选择器可以确定该翻译文件中是否有XML不支持的字符(步骤40 。如果有XML不支持的字符,修改成分选择器可以滤出该XML不支持的字符(步骤40;3)。步骤403可以产生结果文件。翻译文件中先前存在的所有无效XML字符或者XML不支持的字符都被从该结果文件中去除,在这个意义上来说,结果文件符合XML。接下来,或者在步骤402做出否定确定之后,修改成分选择器可以确定该翻译文件中是否有已翻译的术语(步骤404)。如果有,则修改成分选择器可以滤出该已翻译的术语(步骤40 。滤出已翻译的术语的过程可以包括从该文件中去除属性,以便产生未翻译的文件,例如图3B中的未翻译的文件350。步骤405之后或者步骤404的否定输出之后,修改成分选择器可能已经获得了未翻译的文件。接下来,修改成分选择器可以用附加的注释来格式化该未翻译的文件。如先前说明的,可以提供该附加的注释作为使翻译中心的工作流流水线化的一种方式。因此,步骤 406中修改成分选择器动作的结果是,该修改成分选择器可以获得一个紧凑文件,例如图 3C中的紧凑文件370。接下来,修改成分选择器可以确定它是否可以获得定义术语的一个子集的用户属性(步骤407)。用户属性是用于匹配一组用户的规则或者其他字符串,以便确定该用户是否有对某些项目、基于项目的软件或者从这样的软件开发的内容的访问权。用户属性的一个例子可以是与一个或多个用户相关联的安全组。用户属性的另一例子可以是用户的作业描述。换句话说,用户属性可以用于确定需要知道或使用软件的一组用户。如果修改成分选择器做出了肯定的确定,则该修改成分选择器可以确定用户属性是否足够用来自动进行子集确定(步骤408)。安全组形式的用户属性足以自动进行子集确定,这里例如至少一个用户被分配到该安全组。因此,步骤408可以允许修改成分选择器来响应该安全组的系统管理者输入或者识别正确用户的其他方法。安全组的对于例如对话框的唯一入口不会降低下述步骤409的自动化特性。结果是,在步骤408处做出肯定确定之后,到达步骤409。因此,修改成分选择器可以自动地确定要翻译的紧凑文件的子集规则(步骤409)。这个步骤可以通过确定用户属性(规则)所匹配的至少一个用户使用哪些三元组来执行。换句话说,如果一个新的软件特征依赖于翻译文件,但是该特征本身对于步骤409选择的用户群来说是不可访问的,那么支持这个特征的该紧凑文件的所有属性被从该子集排除。因此,步骤409可以基于分配的或者以其他方式与属性相关联的用户产生规则。替代地,步骤408处的否定结果可以导致系统管理者人工地确定子集规则(步骤 410)。子集规则是用来识别三元组中的属性,以用于为翻译选择属性,同时从文件中排除非匹配属性的规则。因此,可以准备文件来提交到翻译中心。例如,子集规则可以是应用于每个用户的姓氏的常规的表示“\w * eau”,以便定位或者匹配偏好法语用户接口的用户。替代地,子集规则可以是将可由用户访问的特征,如在自动化的子集规则确定中。
接下来,或者在步骤409或410之后,修改成分选择器可以使用自动确定的子集规则或者人工确定的子集规则来滤出不匹配该子集规则的数据(步骤411)。该子集规则至少包括与该属性有关的规则。属性本身可以是三元组,如以上说明的。结果是,可以确定紧凑文件的子集,该子集将需要翻译的属性缩小为仅仅是满足该子集规则的用户所使用的那些属性。换句话说,紧凑文件的属性的子集形成了可翻译的文件。选择该子集规则的过程可以包括两个子步骤。首先,基于用户属性选择紧凑文件的某些部分。其次,基于用户属性滤出不匹配XML标签和相应内容。这些子步骤减小了数据子集,并形成了可翻译的文件。当滤出基于用户属性时,该滤出称为“用户访问滤出”。修改成分选择器可以传送或发送该可翻译的文件或紧凑文件到翻译中心进行翻译(步骤412)。该翻译中心可以分别是例如图2B或2C中的翻译中心207或翻译中心257。 然后处理过程可以结束。图5是根据本发明示意性实施例的由修改成分选择器执行的过程的流程图。初始地,修改成分选择器可以确定它是否接收到来自翻译中心的已翻译的文件(步骤50幻。如果没有接收到已翻译的文件,则修改成分选择器可以反复执行步骤502。响应于从翻译中心接收到已翻译的文件,修改成分选择器可以将该已翻译的文件输入到文档合作数据库,例如图2A的文档合作数据库201。输入过程可以包括在数据库中对应于由对象名称、属性名称和/或栏所识别的已翻译的数据将新记录关联起来。示意性实施例允许对于翻译者的有针对性的依赖,以某些上下文支持信息提供最少的材料。此外,实施例可以清除可能损害在要翻译的术语中间导航的附加干扰。再有,对于不存在业务个案来授予用户访问权的特征的术语来说,这些术语可以通过应用用户属性来形成缩小要翻译的术语数量的规则而被类似地滤出。如上所述的这种过滤和减小方法和装置可以允许在产品新的特征被发布之后很快就进行翻译,并且允许针对用户当前需要或者被授权使用的特征进行翻译。这样,翻译中心的输出可以更及时地用于市场。信息的快速流通、信息被修饰来匹配用户的语言偏好,可以切实地回报设备和系统的用户,以及向依赖这些用户的客户提供先进的服务。如上面示意性实施例中教导的特征翻译,可以通过缩短向市场提供产品以及升级这种产品的循环时间而给大量人群带来切实的益处。图中的流程图和方框图显示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实施方式的结构、功能和操作。这方面,流程图或方框图中的每个方框可以代表代码的一个模块、片段或部分,包括用于实施规定逻辑功能的一个或多个可执行指令。应当注意,在某些替代实施方式中,方框中注明的功能可以不按图中标明的顺序发生。例如, 相继示出的两个方框实际上可以基本同时被执行,或者这些方框有时可以相反的顺序被执行,这取决于所涉及的功能。还应注意,方框图和/或流程图中的每个方框、方框图和/或流程图中的方框的组合可以由执行规定的功能或动作的基于专用硬件的系统来实施,或者由专用硬件和计算机指令的组合来实施。本发明可以采取完全硬件实施例的形式、完全软件实施例的形式或者包含硬件和软件元素这二者的实施例的形式。在优选实施例中,本发明在软件中实施,包括但不限于固件、驻留软件、微代码等。此外,本发明可以采取计算机程序产品的形式,从计算机可用的或计算机可读的介质可以对其进行访问,该介质提供程序代码,由计算机或任何指令执行系统使用或者与计算机或者任何指令执行系统相关联。为说明目的,计算机可用或计算机可读介质可以是任何有形的可以包含、存储、传递、传播或传送该程序的装置,该程序由指令执行系统、装置或设备使用或者与指令执行系统、装置或设备相关联。介质可以是电子的、磁的、光的、电磁的、红外的或者半导体系统(或装置或设备) 或者传播介质。计算机可读的介质的例子包括半导体或固态存储器、磁带、可移动计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前的例子包括紧致盘只读存储器(CD-ROM)、紧致盘-读/写(CD-R/W)和DVD。适合于存储和/或执行程序代码的数据处理系统将包括至少一个经系统总线直接或间接耦合到存储器元件的一个处理器。存储器元件可以包括程序代码实际执行期间使用的本地存储器、大容量存储装置和高速缓存器,这些装置提供了至少某些程序代码的暂时存储,以便减少执行期间必须从大容量存储装置取代码的次数。输入/输出或I/O设备(包括但不限于键盘、显示器、指向设备等)可以直接或经中间I/O控制器被耦合到该系统。网络适配器也可以耦合到该系统,以便使能该数据处理系统经中间的私人或公共网络耦合到其他的数据处理系统或者远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是几个当前可用的网络适配器类型。本发明的说明书仅仅为了示例和说明的目的做了阐述,而不用于穷尽或将本发明限制于所公开的形式。对于本领域的技术人员来说显然可以有各种的修改和变化。选择和说明的实施例其目的在于更好地解释本发明的原理、实际应用,以及使本领域的技术人员理解适合于所构想的特别用途的具有多种改变的本发明的多种实施例。
1权利要求
1.一种用于识别和翻译部分翻译的数据的子集的计算机实施方法,该方法包括由计算机在数据库中提取包括多个英语关键字和翻译语言值的翻译文件,包括未翻译的关键字作为XML文件;由计算机确定该XML文件中是否存在XML不支持的字符;响应于确定该XML文件中存在XML不支持的字符,由计算机第一次滤出该XML不支持的字符来形成结果文件;由计算机从该结果文件第二次滤出已翻译的数据,来形成未翻译的文件; 选择子集规则;响应于选择,第三次滤出不匹配该子集规则的任何数据来形成可翻译的文件;以及发送该可翻译的文件到翻译中心以进行翻译。
2.根据权利要求1所述的计算机实施方法,其中,所述关键字基本上是英语的。
3.根据权利要求1所述的计算机实施方法,还包括 从该翻译中心接收已翻译的文件;以及将该已翻译的文件输入到该数据库中。
4.根据权利要求3所述的计算机实施方法,还包括由计算机用附加的注释格式化所述未翻译的文件,其中,所述附加的注释被包括在开始注释标签和结束注释标签之内。
5.根据权利要求4所述的计算机实施方法,其中,选择子集包括在该XML文件中选择对应于不具有翻译的术语的占位符。
6.根据权利要求1所述的计算机实施方法,其中,所述第三次滤出还包括确定用户输入提供用户属性,其中该用户属性能够被用于定义未翻译的属性到该用户属性;以及其中选择子集规则是响应于确定该用户输入提供用户属性而进行的。
7.根据权利要求1所述的计算机实施方法,其中,第一次滤出、第二次滤出和第三次滤出是由计算机执行的。
8.一种用于识别和翻译部分翻译的数据的子集的计算机系统,该系统包括 处理器、计算机可读存储器和计算机可读存储介质;第一程序指令,在数据库中提取包括多个英语关键字和翻译语言值的翻译文件,包括未翻译的关键字作为XML文件;第二程序指令,确定该XML文件中是否存在XML不支持的字符; 第三程序指令,响应于确定该XML文件中包含XML不支持的字符,滤出XML不支持的字符来形成结果文件;第四程序指令,从该结果文件滤出已翻译的数据,来形成未翻译的文件; 第五程序指令,选择子集规则;第六程序指令,响应于选择,滤出不匹配该子集规则的任何数据来形成可翻译的文件;以及第七程序指令,发送该可翻译的文件到翻译中心以进行翻译,其中该第一、第二、第三、 第四、第五、第六和第七程序指令存储在计算机可读存储介质上以便由处理器经计算机可读存储器来执行。
9.根据权利要求8所述的计算机系统,其中,所述关键字基本上是英语的。
10.根据权利要求8所述的计算机系统,还包括第八程序指令,从该翻译中心接收已翻译的文件;以及第九程序指令,将该已翻译的文件输入到该数据库中,其中该第八和第九程序指令存储在计算机可读存储介质上以便由处理器经计算机可读存储器来执行。
11.根据权利要求10所述的计算机系统,还包括第十程序指令,由计算机用附加的注释来格式化未翻译的文件,其中该附加的注释被包括在开始注释标签和结束注释标签之间,其中该第十程序指令存储在计算机可读存储介质上以便由处理器经计算机可读存储器来执行。
12.一种用于识别和翻译部分翻译的语言数据的计算机实施方法,该方法包括由计算机提取由用户输入的主题选择的翻译文件,该文件具有多个包括对象名称、关键字和翻译标记的三元组,其中该翻译标记是占位符;由计算机确定该翻译文件中是否存在非标准字符;其中响应于确定翻译文件中存在非标准字符,由计算机滤出该非标准字符来形成结果文件;由计算机从该结果文件中滤出已翻译的数据,来形成未翻译的文件;由计算机用附加注释来格式化该未翻译的文件;选择子集规则;响应于选择,由计算机滤出不匹配该子集规则的任何数据,来形成可翻译的文件;以及发送该可翻译的文件到翻译中心进行翻译。
13.根据权利要求12所述的计算机实施方法,还包括从该翻译中心接收已翻译的文件,其中该已翻译的文件是XML文件;以及将该已翻译的文件输入到文档合作数据库。
14.根据权利要求13所述的计算机实施方法,其中,非标准字符相对于XML规范的规则来说为不可解析的字符。
15.根据权利要求14所述的计算机实施方法,其中,所述XML规范是XML1.1。
16.根据权利要求13所述的计算机实施方法,其中该翻译中心是数据处理系统,被构造用于自动翻译可翻译文件中的术语。
17.根据权利要求13所述的计算机实施方法,其中该翻译中心获得用户输入来翻译该翻译文件的至少某些术语。
18.根据权利要求12所述的计算机实施方法,其中该占位符是字符串,并且其中该用户输入的主题是文件名称。
19.根据权利要求12所述的计算机实施方法,其中该翻译文件具有的对应于已翻译术语的术语比不对应于相应翻译的术语更多。
全文摘要
本发明涉及增量语言翻译方法和系统。修改成分选择器在数据库中提取包含多个英语关键字和翻译语言值的翻译文件,包括未翻译的关键字作为XML文件。修改成分选择器提取多个英语关键字和翻译语言值,并确定XML文件中是否存在XML不支持的字符。响应于确定XML文件中存在XML不支持的字符,修改成分选择器第一次滤出XML不支持的字符以形成一结果文件。修改成分选择器从该结果文件中第二次滤出翻译的数据以形成未翻译的文件。修改成分选择器选择数据的一个子集。响应于选择,修改成分选择器第三次滤出不包含在该子集中的任何数据以形成可翻译的文件。修改成分选择器发送该可翻译的文件到翻译中心进行翻译。
文档编号G06F17/28GK102402505SQ20111026610
公开日2012年4月4日 申请日期2011年9月9日 优先权日2010年9月10日
发明者F·F·摩根, S·J·舒洛瑟, S·V·怀特·伊格, 陈彦甫 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1