面向通用机译引擎的个性化翻译方法及装置的制造方法

文档序号:8402777阅读:310来源:国知局
面向通用机译引擎的个性化翻译方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机数据处理领域,具体而言,涉及一种面向通用机译引擎的个性 化翻译方法及装置。
【背景技术】
[0002] 机器翻译是研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自 然语言的技术。一般情况下,机器翻译系统可以划分为基于规则和基于语料库的两类翻译 系统。其中,基于规则的机器翻译系统需要词典和语言专家人工建立复杂的规则体系;基于 语料库的机器翻译系统不同于基于规则的机译系统,它是以语料的应用为核心,由经过划 分并具有标注的语料库构成知识库。基于语料库的翻译方法又可以分为基于实例的翻译方 法和基于统计的翻译方法。
[0003] 现有技术中,基于实例的机器翻译方法其基本思想是参照外语初学者的基本模 式,这里初学外语的人的翻译模式采用了先记住最基本的双语句对,而后将双语句对中的 部分内容进行替换练习,上述基于实例的机器翻译基本思想就是参照这个学习过程,该学 习过程不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是 首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片 译成目标语言短语,最后把这些短语合并成长句。经过分析可知,基于实例的机器翻译对 于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显 著。对于实例库中的已有文本,可以直接获得高质量的翻译结果,对与实例库中存在的实例 十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结 果。由于该方法需要一个很大的语料库作为支撑,因此,语言的实际需求量非常庞大。但受 限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较具体 的专业领域时,翻译效果才能达到实用要求。
[0004] 基于统计的机器翻译方法的核心思想是对大量的平行语料进行统计分析,构建统 计翻译模型,进而使用此模型进行翻译。早期的基于词的统计机器翻译采用的是噪声信道 模型对机器翻译进行建模。其基本思路是将翻译看作对原文通过模型转换为译文的解码过 程,翻译结果是其中概率最大的句子。而目前的统计翻译方法一般是采用一种基于短语的 对数线性模型进行翻译建模,翻译质量相对于早期有了明显的提高。基于这种方法,谷歌、 百度、微软等公司都提供了基于Web的公开的免费在线翻译服务。受限于大规模语料的统 计加工技术,这类系统事先建立的翻译服务的模型不能根据用户的不同需求来领过调整, 因此现有这些翻译服务大多数等都是面向通用领域提供翻译,不能针对用户需求差异提供 相应的满足用户偏好的个性化的翻译结果。
[0005] 基于上述问题,为了满足用户的各种不同的翻译需求,研究者提出了一种领域适 应的解决思路。其核心思想是利用带有技术领域信息的语料训练相应的领域模型,或者根 据技术领域信息调整通用翻译模型,使之能够满足翻译任务的技术领域的变化,从而满足 不同技术领域的翻译需求。但传统技术中此类方法的实现需要收集大量的领域语料,目前 可收集的领域语料的种类和数量仍然仅限于新闻、科技等少数几种领域,虽然在翻译质量 方面略有提高,但是从应用角度仍然不能满足用户的多样的个性化的翻译需求。与此同时, 大多数的个人和企业用户在希望获得个性化翻译服务的同时,又不希望公开其积累的包含 个人隐私或者商业机密等信息的数据,这更进一步加剧了实现高质量个性化机器翻译服务 的难度。这直接导致了目前个性化的翻译服务仍然受限于少数领域,不能进一步推广和应 用。
[0006] 由上可知,现有的统计机器翻译技术主要缺点是如果要完成个性化的翻译,必须 事先收集大量的用户翻译数据,并在这些数据上进行统计学习,从而训练出一个新的模型。 而这些训练所需的翻译数据往往获得十分困难,并且训练过程也是十分消耗时间,同时又 不利于保护翻译用户的隐私。
[0007] 目前针对相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据 库内容不完善,导致翻译结果不准确的问题,目前尚未提出有效的解决方案。

【发明内容】

[0008] 针对相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内 容不完善,导致翻译结果不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主 要目的在于提供一种面向通用机译引擎的个性化翻译方法及装置,以解决上述问题。
[0009] 为了实现上述目的,根据本发明的一个方面,提供了一种面向通用机译引擎的个 性化翻译方法,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基 于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结 果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。 [0010] 为了实现上述目的,根据本发明的另一方面,提供了一种面向通用机译引擎的个 性化翻译装置,该装置包括:第一获取模块,用于获取用户输入的翻译内容;第二获取模 块,用于获取翻译内容的在线翻译结果;检索模块,用于基于翻译内容在双语翻译实例库进 行相似度检索,获取至少一个翻译实例;增量式对齐处理模块,用于使用在线翻译结果对翻 译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。
[0011] 通过本发明,采用获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基 于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结 果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果, 解决了相关技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完 善,导致翻译结果不准确的问题,进而实现提高翻译结果的准确度的效果。
【附图说明】
[0012] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0013] 图1是根据本发明实施例的面向通用机译引擎的个性化翻译方法的流程图;
[0014] 图2是根据本发明实施例的混淆网络的有向图的示意图; 图3是根据本发明实施例的面向通用机译引擎的个性化翻译装置的结构示意图。
【具体实施方式】
[0015] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0016] 实施例一:
[0017] 在其最基本的配置中,图1是根据本发明实施例的面向通用机译引擎的个性化翻 译方法的流程图。如图1所示该方法包括如下步骤:
[0018] 步骤S10,获取用户输入的翻译内容。
[0019] 步骤S30,获取翻译内容的在线翻译结果。具体的,该步骤中的在线翻译结果可以 是针对用户提供的翻译任务获取谷歌等在线机器翻译服务的通用翻译结果。
[0020] 步骤S50,基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实 例。
[0021] 步骤S70,使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络。
[0022] 步骤S90,对混淆网络进行解码,获取翻译候选结果。
[0023] 本申请上述实施例中,可以针对现有的通用机器翻译服务引擎,利用用户指定的 双语翻译实例库,实现一种面向用户具体需求的个性化的翻译系统,即通过结合在线翻译 结果和双语翻译实例中的检索结果来得到当前翻译内容的翻译候选结果,从而解决了相关 技术的在机器翻译完成个性化翻译的过程中,由于使用的翻译数据库内容不完善,导致翻 译结果不准确的问题,进而提高了翻译结果的准确度,为用户提供了高质量的翻译结果和 用户体验,同时避免预先收集用户数据而达到保护翻译用户隐私的效果。
[0024] 具体的,上述技术方案可以独立于通用的机器翻译引擎而独立存在,对任意机器 翻译引擎的结果都可以进行后处理产生个性化机器翻译结果。由于该方法中,利用的双语 翻译实例库可以仅在客户端本地实现,因此,可以实现用户的数据仅在客户端起作用,而没 有上传至服务器,从而保护了翻译用户的隐私。而且上述方法无需进行耗时的大规模统计 学习训练,而使得用户能够较快捷获得个性化翻译结果。
[0025] 此处需要说明的是,本申请上述实施例中的双语翻译实例库是一种双语语料库 (Bilingual Corpus),可以收集互为翻译的两种语言文本,另外,双语对齐是在双语语料库 中建立源语言和目标语言的相同语言单位之间的对应关系,也就是确定源语言文本中哪些 个语言单位和目标语言文本中哪些个语言单位互为翻译关系。双语文本存在多层次多粒 度的对应关系,包括段落之间,句子之间,短语之间,词语之间的对齐。
[0026] 本申请上述实施例中,在步骤SlO获取用户输入的翻译内容之前,还可以包括如 下实施步骤:
[0027] 步骤SlOl,获取双语翻译实例库,双语翻译实例库包括多组句对。
[0028] 具体的,本申请上述步骤中的双语翻译实例库可以根据翻译任务的语言方向,由 用户在客户端本地选择一个符合自己翻译一个源语言和目标语言的双语翻译实例库,该实 例库可以是用户的历史人工翻译结果,或者用户的领域的双语词典等资源。该双语翻译实 例库中的双语句对可以是经过人工词对齐或者未进行词对齐的句对,需要说明的是,本申 请对上述实例库的规模没有明显限制。
[0029] 步骤S103,将双语翻译实例库中没有经过词对齐的句对进行自动对齐处理,获取 词对齐的双语句对,其中,双语句对包括:源语言和源语言对
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1