一种交互式文本翻译方法及装置与流程

文档序号:17322810发布日期:2019-04-05 21:37阅读:346来源:国知局
一种交互式文本翻译方法及装置与流程

本申请涉及机器翻译技术领域,尤其涉及一种交互式文本翻译方法及装置。



背景技术:

机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。经历了数十年的发展与进步,机器翻译从基于规则的方法到基于统计的方法,再到当前基于神经网络的方法,机器翻译能力得到极大的提升,在忠实度和流利度等方面,基本达到了日常交流可用的水平。

基于神经网络的机器翻译系统通过将源语言文字信息进行编码,再通过编码信息,递归地解码出目标语言文字。尽管近年来机器翻译技术在神经网络模型的崛起下取得了长足的进步,但目前的机器翻译能力还没有达到专业译员的翻译水平,无法在实际多场景应用中完全替代人工翻译。而传统的语言服务行业采用人工翻译以及后续校审的方式,这种方式过于依赖译员的翻译能力,同时,在翻译、校审等过程中,存在着效率低下、成本高昂、人力浪费等问题,已逐渐无法满足迅速增长的翻译需求。



技术实现要素:

本申请实施例的主要目的在于提供一种交互式翻译方法及装置,能够提高翻译结果的准确性并提升翻译效率。

本申请实施例提供了一种交互式文本翻译方法,包括:

获取待修正的目标文本,所述目标文本是对源文本进行翻译后的文本;

检测用户是否对所述目标文本进行了人工修正;

若是,则在人工修正后的文本的基础上进行自动修正,得到修正后的对应于所述源文本的翻译结果。

可选的,所述在人工修正后的文本的基础上进行自动修正,包括:

确定用户对所述目标文本进行了人工修正的词语,作为修正词语;

将所述人工修正后的文本作为人工修正文本,并将所述人工修正文本中的修正词语以及所述修正词语之前的部分,作为正确翻译部分;

将所述人工修正文本中除所述正确翻译部分以外的剩余部分,作为待修正部分,并对所述待修正部分进行自动修正。

可选的,所述对所述待修正部分进行自动修正,包括:

将对应于所述目标文本的解码状态信息进行调整,得到基础状态信息,所述基础状态信息用于生成所述正确翻译部分的各个词语;

在所述基础状态信息的基础上继续解码,得到对所述待修正部分进行自动修正后的文本。

可选的,所述将对应于所述目标文本的解码状态信息进行调整,得到基础状态信息,包括:

在对应于所述目标文本的解码状态信息的基础上进行强制调整,以按照所述正确翻译部分中的各个词语的阅读顺序,依次得到各个词语分别对应的解码状态信息,并将各个词语分别对应的解码状态信息整体作为基础状态信息。

可选的,所述在所述基础状态信息的基础上继续解码,得到对所述待修正部分进行自动修正后的文本,包括:

在所述基础状态信息的基础上,解码得到位于所述正确翻译部分之后的n个第一候选词,并判断是否解码结束,n≥2;

若解码未结束,则对于每一所述第一候选词,分别解码得到位于所述第一候选词之后的n个第二候选词,并从该n个第二候选词中选择一个词语作为所述第一候选词之后的词语;将被选择的n个第二候选词作为所述n个第一候选词,继续执行所述判断是否解码结束的步骤,直至解码结束后形成n条解码路径,所述解码路径包括至少一个候选词;

从n条解码路径中选择其中一条,作为对所述待修正部分进行自动修正后的文本。

可选的,所述从n条解码路径中选择其中一条,包括:

根据n条解码路径的路径得分,从n条解码路径中选择得分最高的一条路径。

可选的,所述在人工修正后的文本的基础上进行自动修正之前,还包括:

判断所述人工修正后的文本是否为所述源文本的正确翻译结果;

若是,则将所述人工修正后的文本,作为所述源文本的最终翻译结果;

若否,则执行所述在人工修正后的文本的基础上进行自动修正的步骤。

可选的,所述在人工修正后的文本的基础上进行自动修正之后,还包括:

判断自动修正后的文本是否为所述源文本的正确翻译结果;

若是,则将所述自动修正后的文本,作为所述源文本的最终翻译结果;

若否,则将所述自动修正后的文本作为所述目标文本,继续执行所述检测用户是否对所述目标文本进行了人工修正的步骤。

本申请实施例还提供了一种交互式文本翻译装置,包括:

目标文本获取单元,用于获取待修正的目标文本,所述目标文本是对源文本进行翻译后的文本;

人工修正检测单元,用于检测用户是否对所述目标文本进行了人工修正;

自动修正处理单元,用于若检测到用户对所述目标文本进行了人工修正,则在人工修正后的文本的基础上进行自动修正,得到修正后的对应于所述源文本的翻译结果。

可选的,所述自动修正处理单元包括:

修正词语确定子单元,用于确定用户对所述目标文本进行了人工修正的词语,作为修正词语;

正确部分确定子单元,用于将所述人工修正后的文本作为人工修正文本,并将所述人工修正文本中的修正词语以及所述修正词语之前的部分,作为正确翻译部分;

自动修正处理子单元,用于将所述人工修正文本中除所述正确翻译部分以外的剩余部分,作为待修正部分,并对所述待修正部分进行自动修正。

可选的,所述自动修正处理子单元包括:

状态调整子单元,用于将对应于所述目标文本的解码状态信息进行调整,得到基础状态信息,所述基础状态信息用于生成所述正确翻译部分的各个词语;

继续解码子单元,用于在所述基础状态信息的基础上继续解码,得到对所述待修正部分进行自动修正后的文本。

可选的,所述状态调整子单元,具体用于在对应于所述目标文本的解码状态信息的基础上进行强制调整,以按照所述正确翻译部分中的各个词语的阅读顺序,依次得到各个词语分别对应的解码状态信息,并将各个词语分别对应的解码状态信息整体作为基础状态信息。

可选的,所述继续解码子单元包括:

第一解码子单元,用于在所述基础状态信息的基础上,解码得到位于所述正确翻译部分之后的n个第一候选词,并判断是否解码结束,n≥2;

第二解码子单元,用于若解码未结束,则对于每一所述第一候选词,分别解码得到位于所述第一候选词之后的n个第二候选词,并从该n个第二候选词中选择一个词语作为所述第一候选词之后的词语;将被选择的n个第二候选词作为所述n个第一候选词,继续利用所述第一解码子单元判断是否解码结束,直至解码结束后形成n条解码路径,所述解码路径包括至少一个候选词;

路径选择子单元,用于从n条解码路径中选择其中一条,作为对所述待修正部分进行自动修正后的文本。

可选的,所述路径选择子单元,具体用于根据n条解码路径的路径得分,从n条解码路径中选择得分最高的一条路径。

可选的,所述装置还包括:

第一结果判断单元,用于在所述在人工修正后的文本的基础上进行自动修正之前,判断所述人工修正后的文本是否为所述源文本的正确翻译结果;

第一继续修正单元,用于若所述人工修正后的文本是所述源文本的正确翻译结果,则将所述人工修正后的文本,作为所述源文本的最终翻译结果;若所述人工修正后的文本是否不是所述源文本的正确翻译结果,则触发所述自动修正处理单元在人工修正后的文本的基础上进行自动修正。

可选的,所述装置还包括:

第二结果判断单元,用于在人工修正后的文本的基础上进行自动修正之后,判断自动修正后的文本是否为所述源文本的正确翻译结果;

第二继续修正单元,用于若自动修正后的文本是所述源文本的正确翻译结果,则将所述自动修正后的文本,作为所述源文本的最终翻译结果;若自动修正后的文本不是所述源文本的正确翻译结果,则将所述自动修正后的文本作为所述目标文本,并触发所述人工修正检测单元检测用户是否对所述目标文本进行了人工修正。

本申请实施例还提供了一种交互式文本翻译装置,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行交互式文本翻译方法的任一种实现方式。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行交互式文本翻译方法的任一种实现方式。

本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行交互式文本翻译方法的任一种实现方式。

本申请实施例提供的交互式文本翻译方法及装置,先获取待修正的目标文本,该目标文本是对源文本进行翻译后的文本,然后检测用户是否对该目标文本进行了人工修正,若是,则在人工修正后的文本的基础上进行自动修正,得到修正后的翻译结果。可见,本实施例在人工修正文本的基础上由机器进行自动修正,当将该修正结果作为源文本的翻译结果时,与目标文本相比,可以提升源文本的翻译结果的翻译质量,此外,在人工修正的提示下进行自动修正,可以有效提升修正效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的交互式文本翻译方法的流程示意图;

图2为本申请实施例提供的交互式文本翻译方法的另一流程示意图;

图3为本申请实施例提供的在人工修正文本的基础上进行自动修正的流程示意图;

图4为本申请实施例提供的人工修正结果示意图;

图5为本申请实施例提供的强制解码过程示意图;

图6为本申请实施例提供的继续解码过程示意图;

图7为本申请实施例提供的交互式文本翻译装置的组成示意图。

具体实施方式

目前,机器翻译能力还没有达到专业译员的翻译水平,无法在实际多场景应用中完全替代人工翻译。而传统的语言服务行业采用人工翻译以及后续校审的方式,这种方式过于依赖译员的翻译能力,同时,在翻译、校审等过程中,存在着效率低下、成本高昂、人力浪费等问题,已逐渐无法满足迅速增长的翻译需求。故而,如何结合机器的翻译能力,辅助译员翻译,提高译员(专业翻译人员或普通翻译人员)翻译效率,节约译员翻译时间,是机器翻译在落地应用中的一个重要方向。

现有的辅助翻译技术提供计算机辅助翻译,当用户翻译某个句子时,系统自动搜索用户已经翻译过的句子,如果当前翻译的句子用户曾经翻译过,会自动给出以前的翻译结果。

但是,现有的辅助翻译系统,只是简单地将已有的翻译结果输出给译员,当翻译结果出错或没有达到译员的翻译要求时,译员需要对机器翻译结果进行或多或少的修改,而此时的辅助翻译系统不会对译员的修改作出更多的反馈和优化,无法有效提升翻译效率和翻译结果的质量。

为此,本申请实施例提供了一种交互式的辅助翻译方法,在译员进行翻译之前,先给出最优的机器翻译结果,当译员认为机器翻译结果有错误或不准确的地方时,可以在机器翻译结果上进行适当的修改。针对译员的修改,机器将根据译员修改的内容,对翻译结果进行优化,这样,可以使得机器翻译内容达到翻译标准和要求,并最大限度地节省译员翻译时间、提升翻译效率。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

第一实施例

参见图1,为本实施例提供的交互式文本翻译方法的流程示意图,该方法包括以下步骤:

s101:获取待修正的目标文本,其中,该目标文本是对源文本进行翻译后的文本。

在本实施例中,可以对待翻译的源文本进行机器翻译,比如采用基于神经网络的机器翻译方法进行翻译,得到机器翻译结果,该机器翻译结果即可以作为目标文本,其中,该机器翻译方法可以使用神经网络模型进行翻译,其结构可以是编码-解码(encode-decode)模型等。当然,除机器翻译以外,该目标文本也可以是通过人工对源文本进行翻译的结果。

需要说明的是,对于机器翻译或人工翻译得到的目标文本,当其翻译质量较差时,则将其作为待修正的目标文本。具体地,可以通过人工方式或自动方式对其翻译质量进行判断,以判断其是否是一个待修正的目标文本,其中,对于自动方式,可以采用预先训练好的评价模型对目标文本的翻译质量进行评价,比如可以通过该评价模型给目标文本预测一个翻译质量得分,若该翻译质量得分低于预设的得分阈值,则可以认为该目标文本作为源文本的翻译结果时,其翻译质量较差,应将其视为待修正的目标文本,需进一步对其进行修正。

s102:检测用户是否对目标文本进行了人工修正。

对于本步骤s102中提到的用户,本实施例不对该用户的身份进行限定,该用户可以是专门的翻译人员(即上述内容中的译员)、也可以是普通用户(比如老师、学生等)。需要说明的是,当该目标文本是通过人工方式得到的翻译结果,其对应的翻译人员与本步骤s102中的用户可以是同一人、也可以不是同一人。

在本实施例中,用户可以通过电子设备对该目标文本进行编辑,来修正该目标文本,用以提升源文本的翻译结果的翻译质量。具体地,用户可以对目标文本的内容或句式进行提示性修改,即只进行小幅度的修改,比如只在目标文本中添加、或替换、或删除某个词语。

s103:若检测到用户对目标文本进行了人工修正,则在人工修正后的文本的基础上进行自动修正,得到修正后的对应于源文本的翻译结果。

当电子设备检测到用户对目标文本进行了人工修正,即,检测到对目标文本的内容或句式进行了提示性修改后,由电子设备内置的翻译系统或服务器的翻译系统,来根据用户的修改内容对目标文本进行自动优化,也就是说,在人工修正后的文本的基础上,由翻译系统进行自动地适应性修改,以适应之前的人工修改内容,从而得到修正后的翻译结果,通过这种方式,可以有效和快速的提升翻译结果的翻译质量。

其中,人工修正后的文本包括目标文本中被修正之后的那部分以及目标文本中未被修正的部分。例如,假设目标文本为“iprefertheappleratherthantheorange”,而用户通过电子设备将“theapple”修改成了“toeatapples”,则人工修正后的文本即为“iprefertoeatapplesratherthantheorange”。

需要说明的是,后续将通过第二实施例对s103中的“在人工修正后的文本的基础上进行自动修正”的具体实现进行介绍。

进一步地,当得到人工修正后的文本后,该人工修正后的文本可能已经满足了翻译质量要求,则可以将其作为最终的翻译结果,此外,当人工修正后的文本不满足翻译质量要求且通过步骤s103的一次机器修正,可能也不满足翻译质量要求,此时,可以进行多次人机交互,即进行多轮的先人工修正再机器修正的操作,从而得到满足质量要求的最终翻译结果。

具体地,参见图2所示的交互式文本翻译方法的另一流程示意图,具体可以包括以下步骤:

s201:获取待修正的目标文本,其中,该目标文本是对源文本进行翻译后的文本。

s202:检测用户是否对目标文本进行了人工修正。

由于s201与s202与上述s101和s102相同,相关内容不再赘述。

s203:若检测到用户对目标文本进行了人工修正,则判断人工修正后的文本是否为源文本的正确翻译结果,若是,则执行步骤s204,若否,则执行步骤s205。

在本实施例中,可以由用户对人工修正后的文本内容进行判断,若认为其符合翻译要求,则可以由用户通过相关确认操作,比如点击确认按钮,此时翻译系统便通过s204将其作为源文本的最终翻译结果。此外,也可以由机器进行质量判断,比如由s101中提及的评价模型进行质量判断。

s204:将人工修正后的文本,作为源文本的最终翻译结果。

s205:在人工修正后的文本的基础上进行自动修正。

由于s205与上述s103中的该步骤内容相同,相关内容不再赘述。

s206:判断自动修正后的文本是否为源文本的正确翻译结果,若是,则执行步骤s207,若否,则执行步骤s207。

类似的,可按照s203的方式实现s206,即,可以由用户对自动修正后的文本内容进行判断,若认为其符合翻译要求,则可以由用户通过相关确认操作,比如点击确认按钮,此时翻译系统便通过s207将其作为源文本的最终翻译结果。此外,也可以由机器进行质量判断,比如由s101中提及的评价模型进行质量判断。

s207:将自动修正后的文本,作为源文本的最终翻译结果。

s208:将自动修正后的文本作为目标文本,继续执行步骤s202。

当通过一次人机交互(一轮先人工修正再机器修正的操作)后,若其翻译结果仍无法满足翻译要求,此时,可以进行下一轮人机交互,即,将自动修正后的文本作为目标文本,继续执行s202及其后续步骤,直至通过s204或s207得到最终翻译结果为止。

可见,本实施例可以实时的根据用户的修改内容,对翻译结果进行优化,然后用户可以根据优化后的翻译内容,进一步进行修改,通过几次人机交互,可以在用户进行较少修改的情况下,使得最终的翻译结果达到翻译标准和要求,从而最大限度地节省了用户的翻译时间,提升了翻译效率。可以理解的是在交互过程中,用户对机器翻译结果的修改,能够被翻译系统来参考以提升最终翻译结果的翻译质量。

综上,本实施例提供的交互式文本翻译方法,先获取待修正的目标文本,该目标文本是对源文本进行翻译后的文本,然后检测用户是否对该目标文本进行了人工修正,若是,则在人工修正后的文本的基础上进行自动修正,得到修正后的翻译结果。可见,本实施例在人工修正文本的基础上由机器进行自动修正,当将该修正结果作为源文本的翻译结果时,与目标文本相比,可以提升源文本的翻译结果的翻译质量,此外,在人工修正的提示下进行自动修正,可以有效提升修正效率。

第二实施例

需要说明的是,本实施例将对第一实施例中s103和s205中的“在人工修正后的文本的基础上进行自动修正”的具体实现进行介绍。

参见图3,为本实施例提供的在人工修正文本的基础上进行自动修正的流程示意图,具体包括以下步骤:

s301:确定用户对目标文本进行了人工修正的词语,作为修正词语。

在本实施例中,需要确定目标文本中的哪些词语是用户修正后的词语,即确定用户在目标文本中添加、替换、删除了哪些个词语,这里,将修正后的每一词语定义为修正词语。

例如,如图4所示的人工修正结果示意图,假设目标文本包括词语1到词语6共6个词语,若用户在目标文本的词语3后面添加一个词语,即得到人工修正文本1,若用户将目标文本中的词语4替换成另一个词语,即得到人工修正文本2,若用户删除了目标文本中的词语3,即得到人工修正文本3。其中,人工修正文本1中的“添加词语”、人工修正文本2中的“替换词语”、人工修正文本3中的“被删除词语3”,每一词语即为一个修正词语。

需要说明的是,用户在对目标词语进行人工修正时,可以执行添加、替换、删除中的一种或多种修正操作,并且,同一目标文本可以对应一个或多个修正词语,从而得到人工修正后的文本。

s302:将人工修正后的文本作为人工修正文本,并将人工修正文本中的修正词语以及修正词语之前的部分,作为正确翻译部分。

为便于描述,本实施例将人工修正后的文本简称为人工修正文本,基于从头往后的人工修改习惯,在该人工修正文本中,可以将修正词语(除删除操作外)以及修正词语之前的各个词语,整体定义为正确翻译部分。

例如,如图4所示,在人工修正文本1中,将“添加词语”及其之前的各个词语整体作为正确翻译部分;在人工修正文本2中,将“替换词语”及其之前的各个词语整体作为正确翻译部分;在人工修正文本3中,将词语1和词语2整体作为正确翻译部分。

s303:将该人工修正文本中除正确翻译部分以外的剩余部分,作为待修正部分,并对该待修正部分进行自动修正。

为便于描述,本实施例将人工修正文本中除了正确翻译部分以外的剩余部分定义为待修正部分。例如,如图4所示,在人工修正文本1中,将“添加词语”之后的各个词语整体作为待修正部分;在人工修正文本2中,将“替换词语”之后的各个词语整体作为待修正部分;在人工修正文本3中,将词语4、词语5和词语6整体作为待修正部分。

在确定了人工修正文本中的待修正部分后,便可以基于该人工修正文本中的正确翻译部分,由翻译系统对该待修正部分进行适应性地自动修正,以提升翻译质量。

在本实施例的一种实现方式中,本步骤s303中的“对该待修正部分进行自动修正”,具体可以包括以下步骤a-b:

步骤a:将对应于目标文本的解码状态信息进行调整,得到基础状态信息,其中,该基础状态信息用于生成人工修正文本中的正确翻译部分的各个词语。

在本实现方式中,当采用机器翻译方法对源文本进行翻译以生成目标文本时,其中,目标文本可以是利用编码-解码模型生成的,则在编解码过程中,首先将源文本的各个词语的词向量输入至编码器中,然后由解码器基于编码结果进行解码,这样,在解码器内部将形成解码状态信息,解码器将根据该解码状态信息输出目标文本。可见,在生成目标文本的过程中,便得到对应于目标文本的解码状态信息。当然,本实施例不限制目标文本的生成方式,目标文本除了可以利用上述编码-解码模型生成,还可以利用其它模型生成,比如利用普通的神经网络模型生成,即,由该神经网络模型解码得到目标文本。

在模型的解码过程中,是以帧为单位顺序地递归解码出目标文本中的每一词语,即依次解码输出目标文本的每一词语。所以,可以基于人工修正文本中的正确翻译部分,以对应于该正确翻译部分的解码状态信息(即,用于生成正确翻译部分中的各个词语的解码状态信息)为基础进行继续解码,从而解码输出该正确翻译部分之后的文本内容,进而可以将该正确翻译部分和继续解码输出的文本内容一起作为源文本的修正后翻译结果。

为此,在本实现方式中,可以将对应于目标文本的解码状态信息进行调整,这个调整过程是一个强制解码过程,强制使其前面的解码状态信息是对应于正确翻译部分的解码状态信息,即,基于对应于正确翻译部分的解码状态信息,解码器可以解码得到该正确翻译部分。

具体地,当通过步骤a将对应于目标文本的解码状态信息进行调整时,具体可以在对应于目标文本的解码状态信息的基础上进行强制调整,以按照人工修正文本中的正确翻译部分中的各个词语的阅读顺序,依次得到各个词语分别对应的解码状态信息,并将各个词语分别对应的解码状态信息整体作为基础状态信息,从而可以基于该基础状态信息解码输出人工修正文本中的正确翻译部分。

具体实现时,可以按照下述方式进行强制解码,参见图5所示的强制解码过程示意图,假设人工修正文本中的正确翻译部分包括n(n≥1)个词语,则该强制解码过程为(这里以包括编码器和解码器的编码-解码模型为例进行说明):

首先,利用训练好的编码-解码模型基于源文本的语义表示矩阵进行解码,即,模型的解码器根据编码结果(编码器对源文本进编码得到的编码状态信息)解码得到第一帧对应的所有候选词。在解码得到第一帧对应的所有候选词后,与正常解码时根据候选词的得分挑选第一帧词语不同,本实现方式是根据人工修正文本中的正确翻译部分挑选第一帧词语,如图5所示,假设该正确翻译部分中的第一个词语为w1,那么不管w1作为候选词时的得分是多少,均会将w1作为第一帧的正确解码结果,即作为第一帧词语。

然后,基于第一帧词语w1,再解码得到第二帧对应的所有候选词,同样地,在解码得到第二帧对应的所有候选词后,与正常解码时根据候选词的得分挑选第二帧词语不同,本实现方式是根据人工修正文本中的正确翻译部分挑选第二帧词语,如图5所示,假设该正确翻译部分中的第二个词语为w2,那么不管w2作为候选词时的得分是多少,均会将w2作为第二帧的正确解码结果,即作为第二帧词语。

按照上述方式,即可强制解码得到该正确翻译部分中的各个词语为w1、w2……wn,而在整个强制解码过程中,也得到了该正确翻译部分对应的解码状态信息,为便于后续描述,本实施例将该信息定义为基础状态信息

步骤b:基于源文本的编码状态信息,使编码-解码模型在上述基础状态信息的基础上继续解码,得到对人工修正文本中的待修正部分进行自动修正后的文本。

在本实现方式中,如图6所示的继续解码过程示意图,当强制解码得到基础状态信息,即得到正确翻译部分对应的解码状态信息之后,便可以结合编码器对源文本进编码得到的编码状态信息,在基础状态信息的基础上继续解码,直至解码结束,通过继续解码得到的文本,即为对人工修正文本中的待修正部分进行自动修正后的文本。

具体地,本步骤b中的“在基础状态信息的基础上继续解码,得到对人工修正文本中的待修正部分进行自动修正后的文本”,可以包括步骤b1-b4:

步骤b1:在上述基础状态信息的基础上,解码得到位于正确翻译部分之后的n个第一候选词,n≥2。

由于编码-解码模型(比如基于神经网络的翻译模型)是以帧为单位顺序地递归解码出正确翻译部分之后的每一词语,因此,可以预先构建一个词表,该词表中包括目标文本所属语种的大量不同词语,在解码当前帧时,词表中的每个词语作为当前帧的解码结果时都存在一定的概率,只是概率的大小不同而已,而概率值越大的词语越可能是最终的解码结果。实际应用时,解码器应计算出词表中的每一词语作为当前帧的解码结果时的概率,将各个概率值由大到小排序,将排序在前的n(比如n=4)个词语作为当前帧对应的候选词。

如上文所述,通过图5所示的强制解码过程,可以解码得到正确翻译部分中的各个词语w1、w2……wn,即解码到第n帧,在此基础上,需要继续解码得到第n+1帧、…第n+m帧(m≥1)对应的解码结果。在本步骤中,如图6所示,在解码第n+1帧时,解码器应计算出词表中的每一词语作为第n+1帧的解码结果(即作为wn之后的词语)时的概率,将各个概率值由大到小排序,将排序在前的n个词语作为第n+1帧对应的候选词,这里,将这n个候选词中的每一候选词定义为第一候选词。此时,每一第一候选词与之前的正确翻译部分(即强制解码结果w1、w2……wn)形成一条解码路径,即n条解码路径。

步骤b2:判断是否解码结束,若是,则执行步骤b4,若否,则执行步骤b3。

步骤b3:若解码未结束,则对于每一第一候选词,分别解码得到位于第一候选词之后的n个第二候选词,并从该n个第二候选词中选择一个词语作为第一候选词之后的词语;将被选择的n个第二候选词作为n个第一候选词,继续执行步骤b2。

在本步骤中,在解码第n+2帧时,对于解码第n+1帧时得到的每一第一候选词,解码器应计算出词表中的每一词语作为第n+2帧的解码结果(即作为第一候选词之后的词语)时的概率,将各个概率值由大到小排序,将排序在前的n个词语作为第n+2帧对应的候选词。此时,在n个第一候选词之后分别存在n个候选词,对于每一第一候选词之后的n个候选词,从中选择一个得分最高的候选词,将选择的每一候选词定义为第二候选词,所有第一候选词共得到n个第二候选词。

例如,如图6所示,假设n=4,那么解码第n+1帧时会得到4个第一候选词,假设从上到下依次为第一候选词1、第一候选词2、第一候选词3和第一候选词4,从第一候选词1之后的4个候选词中选择得分最高值0.88对应的候选词,从第一候选词2之后的4个候选词中选择得分最高值0.72对应的候选词,从第一候选词3之后的4个候选词中选择得分最高值0.75对应的候选词,从第一候选词4之后的4个候选词中选择得分最高值0.92对应的候选词,这被选择的4个候选词分别为第二候选词。

可见,在解码第n+2帧之后,每一第一候选词之后都有一个第二候选词,此时,对于每一第一候选词,该第一候选词、该第一候选词之后的第二候选词以及该第一候选词之前的正确翻译部分(即强制解码结果w1、w2……wn)将形成一条解码路径,即n条解码路径。

类似的,按照上述方式依次进行解码,直至解码结束,即解码到最后一帧即第n+m帧(m≥1)后,此时,正确翻译部分(即强制解码结果w1、w2……wn)将与之后n条路径,分别形成n条解码路径,每一条解码路径包括正确翻译部分中的n个词语以及m个候选词。

步骤b4:若解码结束,则从n条解码路径中选择其中一条,作为对人工修正文本中的待修正部分进行自动修正后的文本,其中,每一解码路径由至少一个候选词组成。

由于解码结束后,将形成n条解码路径,此时,可以通过步骤b3从n条解码路径中选择其中一条路径,具体可以根据n条解码路径的路径得分,从n条解码路径中选择得分最高的一条路径。其中,在计算每一解码路径的路径得分时,可以将对应解码路径中的每一词语的得分进行相加,将其相加后的和值作为路径得分,当然,也可以将对应解码路径中的每一候选词(不包括正确翻译部分中的各个词语)的得分进行相加,将其相加后的和值作为路径得分。

需要说明的是,存在一种特殊情况,正确翻译部分(即强制解码结果w1、w2……wn)可能为自动修正后的翻译结果,即第n+1帧、…第n+m帧(m≥1)不存在对应的解码结果。例如,假设目标文本为“我喜欢吃苹果那个”,用户删除了“那”,则人工修正文本为“我喜欢吃苹果个”,其中,正确翻译部分为“我喜欢吃苹果”,待修正部分为“个”,基于此,在进行自动修正时,机器发现“个”是个多余的词,此时,便将正确翻译部分“我喜欢吃苹果”直接作为自动翻译后的翻译结果。

综上,本实施例将人工修正文本中的修正词语以及修正词语之前的部分,作为正确翻译部分,并将人工修正文本中除正确翻译部分以外的剩余部分,作为待修正部分,之后对该待修正部分进行自动修正。可见,基于用户从前向后的文本修改习惯,可将修正词语之前的词语视为正确翻译部分,并在修正词语的基础上,将修正词语之后的词语进行适应性地自动修正,可以有效提升翻译效率和翻译结果的准确性。

第三实施例

参见图7,为本实施例提供的一种交互式文本翻译装置的组成示意图,该装置700包括:

目标文本获取单元701,用于获取待修正的目标文本,所述目标文本是对源文本进行翻译后的文本;

人工修正检测单元702,用于检测用户是否对所述目标文本进行了人工修正;

自动修正处理单元703,用于若检测到用户对所述目标文本进行了人工修正,则在人工修正后的文本的基础上进行自动修正,得到修正后的对应于所述源文本的翻译结果。

在本实施例的一种实现方式中,所述自动修正处理单元703包括:

修正词语确定子单元,用于确定用户对所述目标文本进行了人工修正的词语,作为修正词语;

正确部分确定子单元,用于将所述人工修正后的文本作为人工修正文本,并将所述人工修正文本中的修正词语以及所述修正词语之前的部分,作为正确翻译部分;

自动修正处理子单元,用于将所述人工修正文本中除所述正确翻译部分以外的剩余部分,作为待修正部分,并对所述待修正部分进行自动修正。

在本实施例的一种实现方式中,所述自动修正处理子单元包括:

状态调整子单元,用于将对应于所述目标文本的解码状态信息进行调整,得到基础状态信息,所述基础状态信息用于生成所述正确翻译部分的各个词语;

继续解码子单元,用于在所述基础状态信息的基础上继续解码,得到对所述待修正部分进行自动修正后的文本。

在本实施例的一种实现方式中,所述状态调整子单元,具体用于在对应于所述目标文本的解码状态信息的基础上进行强制调整,以按照所述正确翻译部分中的各个词语的阅读顺序,依次得到各个词语分别对应的解码状态信息,并将各个词语分别对应的解码状态信息整体作为基础状态信息。

在本实施例的一种实现方式中,所述继续解码子单元包括:

第一解码子单元,用于在所述基础状态信息的基础上,解码得到位于所述正确翻译部分之后的n个第一候选词,并判断是否解码结束,n≥2;

第二解码子单元,用于若解码未结束,则对于每一所述第一候选词,分别解码得到位于所述第一候选词之后的n个第二候选词,并从该n个第二候选词中选择一个词语作为所述第一候选词之后的词语;将被选择的n个第二候选词作为所述n个第一候选词,继续利用所述第一解码子单元判断是否解码结束,直至解码结束后形成n条解码路径,所述解码路径包括至少一个候选词;

路径选择子单元,用于从n条解码路径中选择其中一条,作为对所述待修正部分进行自动修正后的文本。

在本实施例的一种实现方式中,所述路径选择子单元,具体用于根据n条解码路径的路径得分,从n条解码路径中选择得分最高的一条路径。

在本实施例的一种实现方式中,所述装置700还包括:

第一结果判断单元,用于在所述在人工修正后的文本的基础上进行自动修正之前,判断所述人工修正后的文本是否为所述源文本的正确翻译结果;

第一继续修正单元,用于若所述人工修正后的文本是所述源文本的正确翻译结果,则将所述人工修正后的文本,作为所述源文本的最终翻译结果;若所述人工修正后的文本是否不是所述源文本的正确翻译结果,则触发所述自动修正处理单元703在人工修正后的文本的基础上进行自动修正。

在本实施例的一种实现方式中,所述装置700还包括:

第二结果判断单元,用于在人工修正后的文本的基础上进行自动修正之后,判断自动修正后的文本是否为所述源文本的正确翻译结果;

第二继续修正单元,用于若自动修正后的文本是所述源文本的正确翻译结果,则将所述自动修正后的文本,作为所述源文本的最终翻译结果;若自动修正后的文本不是所述源文本的正确翻译结果,则将所述自动修正后的文本作为所述目标文本,并触发所述人工修正检测单元702检测用户是否对所述目标文本进行了人工修正。

进一步地,本申请实施例还提供了一种交互式文本翻译装置,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行交互式文本翻译方法的任一种实现方式。

进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行交互式文本翻译方法的任一种实现方式。

进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行交互式文本翻译方法的任一种实现方式。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1