一种实现语言翻译的方法及装置的制作方法

文档序号：6357092阅读：117来源：国知局

专利名称：一种实现语言翻译的方法及装置的制作方法
技术领域：
本发明涉及多媒体语言技术，特别涉及一种实现语言翻译的方法及装置。
背景技术：
随着世界范围内的科学技术交流越来越频繁，对于不了解对方语言的人们来说，实现不同语言之间精确的翻译，是领会双方的技术方案、意图，进行沟通和合作的重要保
障。现有的语言翻译一般通过专业的翻译人员结合翻译辅助工具进行，其流程主要包括首先，技术开发人员从项目文件资源中提取出需要翻译的词语和句子，提供给翻译人员；该步骤中，技术开发人员需要将项目文件资源中夹杂的字母、数字代码等内容进行清理，仅把需要翻译的文字(词语和句子)保存到excel表格，并提供给翻译人员。其次，翻译人员将技术开发人员提供的需要翻译的词语和句子导入翻译工具进行翻译，获取翻译结果，并在校对后返回给技术开发人员；该步骤中，翻译人员根据技术开发人员提供的excel表格，并将其导入翻译工具，例如，翻译辅助类软件、在线协作翻译软件或语言文字资源分离方式进行翻译，对翻译的结果进行校对，然后将进行过校对的翻译结果的excel表格返回给技术开发人员。本步骤中，翻译人员通过安装翻译工具进行翻译，如果需要进行多种语言的翻译，则可以通过分别安装不同语言类型的翻译工具实现。其中，翻译辅助类软件在翻译管理及维护方面具有优势，对翻译过程体验本身和词库管理有着较强的优势；翻译管理和维护包括字库、句库管理以及翻译项目管理等内容。字库、句库可以存放在远程服务器数据库中，翻译项目文件资源通过本地维护，或者借助版本管理工具进行辅助管理，对于多人分工共同完成的项目文件，通过额外的资源分配和翻译结果合并工作。在线协作翻译软件一般为第三方服务商提供，可以解决多方共同协作翻译同一文档的问题，但难以实现对项目文件的控制及版本形成。语言文字资源分离方式通过将需要翻译部分的语言文字单独抽离并使用唯一标识(ID)进行表示，在使用的时候进行合入处理，但需要维护大量的语言资源ID，开发工作量较大，不方便后期的更新和维护。最后，技术开发人员将翻译结果文字合并入对应的项目文件资源中，并将原来夹杂的字母、数字代码等内容恢复到翻译结果文字中。由上述可见，现有实现语言翻译的方法涉及的翻译工具，都为单一的语言翻译，例如，中英翻译或中日翻译，对于需要进行多语言翻译的用户来说，获取不同类语言的翻译工具较为困难，不能实现多语言项目开发、翻译，满足用户多语言翻译的需求；进一步地，当翻译工具的版本发生变化或进行升级时，需要用户下载安装，操作较为繁琐；而且，现有的翻译工具，项目文件中的一段文字对应一个ID，在项目文件中的源文字发生改变时，由于该改变的源文字在翻译工具中并没有与之匹配的翻译结果，因而，即使改变的源文字有相当部分内容相同，也需要相关技术人员对发生改变的源文字进行重复翻译，然后预先置放于翻译工具中以便能够提供翻译结果，重复性的工作较多，使得翻译工具的开发效率较低。

发明内容
有鉴于此，本发明的主要目的在于提出一种实现语言翻译的方法，实现多语言项目开发、翻译，减少重复性的工作。本发明的另一目的在于提出一种实现语言翻译的装置，实现多语言项目开发、翻译，减少重复性的工作。为达到上述目的，本发明提供了一种实现语言翻译的方法，该方法包括解析获取待翻译项目文件中的文本内容的编码信息；
根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式；确定文字翻译模式库中未存储该文字翻译模式，为该文字翻译模式分配标识；展示文字翻译模式，获取需要翻译的文本内容对应的多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储；将获取的多语言翻译结果分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。所述需要翻译的文本内容为在计算机储存里采用多于一个字节进行存储对应的文本内容，所述不需翻译的文本内容为在计算机储存里采用一个字节进行存储对应的文本内容。所述不需翻译的文本内容采用预先定义的符号进行替代。所述文字翻译模式库中存储有多语言类型的源文字翻译模式，源文字翻译模式的多语言版本使用同一标识进行关联。进一步包括如果文字翻译模式库中存储有对应的文字翻译模式，则从文字翻译模式库中获取该文字翻译模式对应的各语言翻译结果，与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。一种实现语言翻译的装置，该装置包括编码信息获取模块、文字翻译模式生成模块、文字翻译处理模块、文字翻译模式库模块以及翻译结果合并模块，其中，编码信息获取模块，用于解析项目文件中的文本内容，获取编码信息，输出至文字翻译模式生成模块；文字翻译模式生成模块，用于根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式，输出至文字翻译处理模块；文字翻译模式库模块，用于以分配的标识存储各语言的文字翻译模式；文字翻译处理模块，用于确定文字翻译模式库模块中未存储接收的文字翻译模式，为该文字翻译模式分配标识，输出至文字翻译模式库模块；展示接收的文字翻译模式，获取多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并输出至文字翻译模式库模块存储；
翻译结果合并模块，用于根据文字翻译处理模块获取的多语言翻译结果，分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。所述文字翻译处理模块进一步用于在确定文字翻译模式库中存储有对应的文字翻译模式时，从文字翻译模式库中获取该文字翻译模式对应的各语言翻译结果，与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。所述文字翻译模式生成模块进一步用于采用预先定义的符号替代提取的不需翻译的文本内容。所述文字翻译模式库模块进一步用于以同一标识关联存储的各语言的文字翻译模式中同一项目文件对应的各语言类型文字翻译模式。
由上述的技术方案可见，本发明提供的一种实现语言翻译的方法及装置，解析获取待翻译项目文件中的文本内容的编码信息；根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式；确定文字翻译模式库中未存储的文字翻译模式，为该文字翻译模式分配标识；展示文字翻译模式，获取需要翻译的文本内容对应的多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储；将获取的多语言翻译结果分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。这样，通过建立多语言翻译结果与分配的标识的映射关系并存储，为多语言版本的一致性提供保证，实现了多语言项目开发、翻译，满足了用户多语言翻译的需求，提高了翻译工具的开发效率；同时，通过将文本内容区分为需要翻译的部分以及不需要翻译的部分，减少了重复性的工作，最大限度地减少了翻译干扰因素以及由于代码差别而引发的重复翻译工作。

图I为本发明实施例实现语言翻译的方法流程示意图；图2为本发明实施例实现语言翻译的方法具体流程示意图；图3为本发明实施例实现语言翻译的装置结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。现有实现语言翻译的翻译工具，只能提供单一的语言翻译并存在大量重复翻译的工作，开发流程自动化程度低，从而导致翻译工具的开发效率较低。本发明实施例中，通过对项目文件中文本内容的分析，根据美国信息交换标准码(ASCII, American StandardCode for Information Interchange)字符为主的语言文字,在计算机储存里采用一个字节进行存储，而对于非ASCII字符为主的语言文字，例如，简体中文、繁体中文、日文、泰文、越南文等，在计算机储存里采用多于一个字节进行存储的特点，根据文本内容对应存储的字节数，对文本内容进行区分，实现自动的文字提取分析，获取需要翻译的文字，针对需要翻译的文字进行翻译，并形成多语言翻译版本进行存储，从而在不干扰开发状况下，最大限度减少多语言项目文件开发、维护过程中源语言文字提取、翻译以及翻译结果文字合并等工作的重复性，提高开发流程的自动化程度，实现翻译质量和自动处理最大化。
图I为本发明实施例实现语言翻译的方法流程示意图。参见图1，该流程包括步骤101，解析获取待翻译项目文件中的文本内容的编码信息；本步骤中，通过分析项目文件的文本内容对应的脚本，获取文本内容的编码信息，即获取项目文件中的所有文本内容类文件的编码。关于通过文本内容对应的脚本获取相应的编码信息，具体可参见相关技术文献，在此不再赘述。例如，通过项目文件内容对应的脚本分析，获取项目文件abc.html的文本内容编码为gb2312。步骤102，根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式；本步骤中，对于项目文件中包含的无符号、空格、分隔、ASCII字母、数字等文本内容，一般是不需要进行翻译的。因而，本发明实施例中，基于上述文本内容在计算机储存里采用一个字节进行存储的特点，进行逐行的分析，将该部分文本内容进行忽略，以减少重复翻译所需的工作量。而对于采用多于一个字节进行存储的文本内容，将其提取，作为需要翻译的文本内容。较佳地，为了保持项目文件中文本内容的完整性，对于不需要进行翻译的文本内容，可以采用预先定义的符号替代该部分不需要进行翻译的文本内容。假设上述项目文件abc. html的内容为〈title〉测试标题〈/title〉则提取需要翻译的文本内容，并采用预先定义的符号替代不需要进行翻译的文本内容得到的文字翻译模式，即将文字所在内容中无需翻译的部分采用特殊符号整体替代之后的结果内容为{ ! }测试标题{ ! }上述文字翻译模式表明“测试标题”前后有ASCII码内容的上下文，但该文字翻译模式并不需要关注翻译文字上下文的具体内容，例如，程序源码内容或者超文本标记语言(HTML, HyperText Markup Language)标签,可以采用预先定义的符号进行替代。再例如，假设项目文件中的源语言文字内容为<div class = " welcome" > 早上好，〈？ echo $nickname ； >。欢迎来到〈？echo$place ； >。</div>则经过提取形成的文字翻译模式为早上好，{ ! }。欢迎来到{ ! }。步骤103，确定文字翻译模式库中未存储该文字翻译模式，为该文字翻译模式分配标识；本步骤中，文字翻译模式库中存储有多语言类型的文字翻译模式，例如，中文文字翻译模式、英文文字翻译模式以及泰文文字翻译模式等，每种源文字翻译模式对应的多语言版本通过分配的唯一标识进行关联。例如，对于中文文字翻译模式，分配123进行标识，则其相应的英文文字翻译模式、泰文文字翻译模式等也以同一标识123进行关联。查询文字翻译模式库，根据文字翻译模式库返回的查询结果，如果确定文字翻译模式库中存储有该文字翻译模式，则可以通过文字翻译模式库中返回的多语言翻译结果，确定所需语言的翻译结果；如果未存储，表明还未在文字翻译模式库中为该文字翻译模式建立相应语言翻译的辅助信息，将该文字翻译模式存入文字翻译模式库，并为存入文字翻译模式库的文字翻译模式分配唯一标识(ID)，例如，分配ID = 123。步骤104，展示文字翻译模式，获取需要翻译的文本内容对应的多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储；本步骤中，首先，存储该中文文字翻译模式，对应保存的中文文字翻译模式，即建立的语言翻译结果与分配的标识的映射关系是1231 { ! }测试标题{ ! }。在展示文字翻译模式时，不需将为该文字翻译模式分配的标识进行展示，只需将携带中文的文字翻译模式向翻译人员展示，文字翻译模式可以通过web形式展示给翻译人员，这样，翻译人员可以在不同的地区或国家。例如，翻译人员通过web形式看到的展示内容为 { ! }测试标题{ ! }这样，负责从中文翻译成其他语言的翻译人员就可以根据展示的文字翻译模式直接进行翻译。例如，翻译为英文并通过web形式展示英文文字翻译模式{ ! }Testing Title{ ! }相应地，对应保存的英文文字翻译模式是123 I { ! }Testing Title{ ! }这样，相关翻译人员可以根据展示的文字翻译模式，进行相应其他语言的翻译，从而获取多语言翻译结果。实际应用中，将其他语言的翻译结果保存的内容形式是1231 { ! }****{! }其中，123表示分配的文字翻译模式ID，****表示翻译的其他语言，也就是说，在保存的内容形式中，包含与分配的原始提取文字翻译模式ID的映射关系。翻译过程可以通过在线翻译工具的辅助和人工翻译的结合完成，在此不再赘述。步骤105，将获取的多语言翻译结果分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。本步骤中，如前所述，如果文字翻译模式库中存储有对应的文字翻译模式，则根据对原始语言项目文件的自动分析得到的文字翻译模式，从文字翻译模式库中获取该文字翻译模式ID对应的翻译结果，进行合并，得到相应语言版本的项目文件。具体来说，当合并文件时，通过对原始语言项目文件的自动分析，得到文字翻译模式，然后从文字翻译模式库中获取文字翻译模式ID，通过文字翻译模式ID获取相应翻译结果，将翻译结果与自动分析出文字翻译模式时保留的上下文(即采用预先定义的符号替代不需要进行翻译的文本内容部分)进行合并，并保存到新的文件中得到该项目文件相应语言版本的翻译结果文件。例如，如前所述，{ ! }测试标题{ ! }中，配合原文内容和翻译结果，可以合并成<title>Testing Title〈/title>。并设置以翻译结果文件en_US/abc. html表示英文版本的 abc. html,其内容是<title>Testing Title〈/title>。所应说明的是，新增的文字翻译模式的翻译过程，与初始的文字翻译模式翻译的流程相同。源项目文件文本内容改变后，通过自动匹配方式可以确定改变的文本内容，并对改变的文本内容进行提取，形成新的文字翻译模式以进行补充翻译，并重新生成相应的翻译结果语言版本文件。
图2为本发明实施例实现语言翻译的方法具体流程示意图。参见图2，该流程包括步骤201，确定项目文件为基于多字节文字文件资源；本步骤中，对于只包含以一个字节进行存储的ASCII字符等的项目文件，采用现有流程进行翻译，本发明实施例基于多字节文字文件资源的项目文件，即项目文件中包含非ASCII字符为主的语言文字。并将该项目文件作为唯一的翻译版本的源文件，即包含多字节字符内容、程序源码、HTML标签等内容混杂的源语言版本文件。步骤202，自动分析项目文件编码；步骤203，按照分析得到的项目文件编码读取项目文件中的文本内容，逐行分析，得到文字翻译模式；本步骤中，采用预先定义的符号替代项目文件中包含的无符号、空格、分隔、ASCII字母、数字等文本内容。步骤204，查询文字翻译模式库，确定文字翻译模式库中是否存储有该文字翻译模式，如果是，执行步骤208，否则，执行步骤205 ；步骤205，为该文字翻译模式分配标识，展示文字翻译模式；步骤206，翻译展示的文字翻译模式；本步骤中，翻译人员可以通过在线翻译辅助、人工及自动翻译的方式进行翻译，并将翻译结果进行展示，以便于相关翻译人员进行对应其他语言的翻译。步骤207，存储翻译结果；本步骤中，根据获取的多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储。例如，分别建立英文翻译结果、泰文翻译结果以及其他语言翻译结果与分配的标识的映射关系，分别进行存储。步骤208，翻译文字自动并入，得到相应语言版本的项目文件。本步骤中，将翻译结果与自动分析出文字翻译模式时保留的上下文进行合并，并保存到新的文件中得到该项目文件相应语言版本的翻译结果文件。例如，英文版本的项目文件、泰文版本的项目文件以及其他语言版本的项目文件。由上述可见，本发明实施例的实现语言翻译的方法，解析获取项目文件中的文本内容的编码信息；根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式；确定文字翻译模式库中未存储该文字翻译模式，为该文字翻译模式分配标识；展示文字翻译模式，获取多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储；将获取的多语言翻译结果分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。这样,通过将文本内容区分为需要翻译的部分以及不需要翻译的部分，使之形成文字翻译模式，既可以保留句子情形的完整性，又能最大限度减少翻译干扰因素，同时能减少由于代码差别而引发的重复翻译工作；进一步地，文字翻译模式对应的新语言翻译结果也可以作为翻译展示界面，从而解决非源语言翻译人员的语言障碍，满足了用户多语言翻译的需求，提高了翻译工具的开发效率；而且，在源版本发生变化时，翻译工作不需要重复进行，只需要对新增加的文字翻译模式进行翻译即可，其他过程，例如，文字提取和合并工作都可以完全自动化完成，从而提高多语言版本开发、更新的效率；此外，最终的不同语言翻译版本从单一源语言资源生成，变更以及同步方便、快捷，并为多语言版本的一致性提供保证，可选翻译展示语言的多语言翻译辅助系统不仅适用于网站类产品多语言版本翻译工作，也适用于其他的应用项目，例如，桌面应用类的文字资源文件，服务器端后台程序的配置文件等。图3为本发明实施例实现语言翻译的装置结构示意图。参见图3，该装置包括编码信息获取模块、文字翻译模式生成模块、文字翻译处理模块、文字翻译模式库模块以及翻译结果合并|吴块，其中，编码信息获取模块，用于解析项目文件中的文本内容，获取编码信息，输出至文字翻译模式生成模块；文字翻译模式生成模块，用于根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式，输出至文字翻译处理模块；
文字翻译模式库模块，用于以分配的标识存储各语言的文字翻译模式；文字翻译处理模块，用于确定文字翻译模式库模块中未存储接收的文字翻译模式，为该文字翻译模式分配标识，输出至文字翻译模式库模块；展示接收的文字翻译模式，获取多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并输出至文字翻译模式库模块存储；翻译结果合并模块，用于根据文字翻译处理模块获取的多语言翻译结果，分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。本发明实施例中，文字翻译处理模块进一步用于在确定文字翻译模式库中存储有对应的文字翻译模式时，从文字翻译模式库中获取该文字翻译模式对应的各语言翻译结果，与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。较佳地，文字翻译模式生成模块进一步用于采用预先定义的符号替代提取的不需翻译的文本内容。本发明实施例中，文字翻译模式库模块进一步用于以同一标识关联存储的各语言的文字翻译模式中同一项目文件对应的各语言类型文字翻译模式。以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种实现语言翻译的方法，其特征在于，该方法包括解析获取待翻译项目文件中的文本内容的编码信息；根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式；确定文字翻译模式库中未存储该文字翻译模式，为该文字翻译模式分配标识；展示文字翻译模式，获取需要翻译的文本内容对应的多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储；将获取的多语言翻译结果分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。
2.如权利要求I所述的方法，其特征在于，所述需要翻译的文本内容为在计算机储存里采用多于一个字节进行存储对应的文本内容，所述不需翻译的文本内容为在计算机储存里采用一个字节进行存储对应的文本内容。
3.如权利要求2所述的方法，其特征在于，所述不需翻译的文本内容采用预先定义的符号进行替代。
4.如权利要求I至3任一项所述的方法，其特征在于，所述文字翻译模式库中存储有多语言类型的源文字翻译模式，源文字翻译模式的多语言版本使用同一标识进行关联。
5.如权利要求4所述的方法，其特征在于，进一步包括如果文字翻译模式库中存储有对应的文字翻译模式，则从文字翻译模式库中获取该文字翻译模式对应的各语言翻译结果，与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。
6.一种实现语言翻译的装置，其特征在于，该装置包括编码信息获取模块、文字翻译模式生成模块、文字翻译处理模块、文字翻译模式库模块以及翻译结果合并模块，其中，编码信息获取模块，用于解析项目文件中的文本内容，获取编码信息，输出至文字翻译模式生成模块；文字翻译模式生成模块，用于根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式，输出至文字翻译处理模块；文字翻译模式库模块，用于以分配的标识存储各语言的文字翻译模式；文字翻译处理模块，用于确定文字翻译模式库模块中未存储接收的文字翻译模式，为该文字翻译模式分配标识，输出至文字翻译模式库模块；展示接收的文字翻译模式，获取多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并输出至文字翻译模式库模块存储；翻译结果合并模块，用于根据文字翻译处理模块获取的多语言翻译结果，分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。
7.如权利要求6所述的装置，其特征在于，所述文字翻译处理模块进一步用于在确定文字翻译模式库中存储有对应的文字翻译模式时，从文字翻译模式库中获取该文字翻译模式对应的各语言翻译结果，与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。
8.如权利要求6或7所述的装置，其特征在于，所述文字翻译模式生成模块进一步用于采用预先定义的符号替代提取的不需翻译的文本内容。
9.如权利要求8所述的装置，其特征在于，所述文字翻译模式库模块进一步用于以同一标识关联存储的各语言的文字翻译模式中同一项目文件对应的各语言类型文字翻译模式。
全文摘要
本发明公开了一种实现语言翻译的方法及装置。该方法包括解析获取待翻译项目文件中的文本内容的编码信息；根据获取的编码信息读取项目文件文本内容，分别提取需要翻译的文本内容以及不需翻译的文本内容形成文字翻译模式；确定文字翻译模式库中未存储的文字翻译模式，为该文字翻译模式分配标识；展示文字翻译模式，获取需要翻译的文本内容对应的多语言翻译结果，建立多语言翻译结果与分配的标识的映射关系，并存储；将获取的多语言翻译结果分别与提取的不需翻译的文本内容进行合并，得到相应语言版本的项目文件。应用本发明，可以实现多语言项目开发、翻译，减少重复性的工作。
文档编号G06F17/28GK102722479SQ201110078359
公开日2012年10月10日申请日期2011年3月30日优先权日2011年3月30日
发明者封荣军申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：封荣军
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。