本发明涉及自然语言处理技术领域,更具体地,涉及一种人机交互翻译模型的更新方法及更新系统。
背景技术:
机器翻译是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。近年来,统计机器翻译的研究发展迅速,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件仍然独霸专业翻译市场,最多只是简单地把统计机器翻译结果加到辅助翻译软件界面提供参考。这是因为在特定领域中,如果待翻译文本与记忆库中的文本匹配程度很高时,翻译记忆实时更新且译文质量明显优于统计机器翻译的译文,而统计机器翻译一直重复相同错误。很多时候,专业译员甚至不想花费时间阅读自动译文。在这种情况下,统计机器翻译的作用极其有限。
如图1所示,某些短语会被机器翻译错误地翻译,如果不及时纠正,在将来会重复出现相同的错误。如何避免机器翻译重复相同错误是统计机器翻译的一个重要问题,因而实时更新人机交互翻译模型是统计机器翻译的一项核心任务,它从用户反馈的人工翻译句子中发掘新的翻译知识,并实时更新翻译模型,最终得到质量更好的自动译文。简而言之,实时更新人机交互翻译模型就是利用人工翻译句子实时改进后续自动译文以尽可能避免重复相同错误。
然而,当前实时更新人机交互翻译模型的方向并没有达到能直接用于生产环境的水平。传统基于缓存即外挂动态短语翻译表的方法随着反馈数据的增加,因难以与原有模型数据融合而出现较大偏差。其主要原因为如下两点:(1)传统翻译模型(如图2所示,第1列为源语言短语,第2列为目标语言短语,第3列分别是正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反正词汇化翻译概率;第4列为词对齐信息)一般基于生成式方法,各类翻译概率均为全局参数,局部更新的代价较高;(2)用户反馈的人工翻译句子会引入噪声数据,传统方法对抗噪声的能力较弱,因不能及时移除噪声数据而降低纠错效果。所以,如果直接将抽取出的翻译知识加入翻译模型的外挂动态短语翻译表的方法,并不能带来性能的提升。因此,研究如何将人工翻译句子中的翻译知识实时更新至人机交互翻译模型,并改善后续机器翻译译文质量是迫切需要解决的一个难题。
技术实现要素:
为了解决现有技术中的上述问题,即为了解决人工翻译句子中的翻译知识实时更新至人机交互翻译模型,并改善后续机器翻译译文质量的问题,本发明提供了一种人机交互翻译模型的更新方法。
为实现上述目的,本发明提供了如下方案:
一种人机交互翻译模型的更新方法,所述更新方法包括:
接收根据源语言句子进行人工翻译得到的目标语言句子;
分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;
根据所述目标语言词组及源语言词组获得双语词对齐信息;
从所述双语词对齐信息中抽取短语翻译知识;
根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。
可选的,所述抽取短语翻译知识的方法包括:
在所述目标语言词组中,确定所有的对齐点;
遍历所述目标语言词组中所有可能的目标语言短语,搜索分别与各所述目标语言短语中相匹配的源语言短语;
找出对应的最短的源语言短语。
可选的,所述逐对更新源语言短语对应的翻译模型随机森林的方法包括:
步骤s51:根据所述短语翻译对中的源语言短语构建所述源语言短语对应的随机森林中的一棵决策树;
步骤s52:根据所述决策树独立生成重复采样次数;
步骤s53:判断所述重复采样次数是否为零,如果是则执行步骤s58;否则执行步骤s54;
步骤s54:根据所述上下文特征信息找到需要更新的所述决策树的叶节点,结合所述重复采样次数,计算所述叶节点累计的样本数量和信息增益;
步骤s55:判断所述样本数量是否超过最小样本数阈值,并且所述信息增益是否超过最大信息增益阈值;如果是则执行步骤s56,否则执行步骤s57;
步骤s56:计算最佳划分,根据所述最佳划分将所述决策树叶节点扩展为中间节点,同时生成左、右孩子节点,以更新所述决策树的叶节;
步骤s57:将所述短语翻译对及对应的上下文特征信息存入对应的所述决策树叶节点,以更新所述源语言短语对应的决策树;
步骤s58:将所述决策树的信息添加至所述决策树的测试集,对决策树的测试集进行错误率测试,以更新由决策树构成的随机森林。
可选的,所述对决策树进行错误率测试的方法包括:
判断所述决策树的错误率是否大于随机数且所述决策树的样本数量是否超过所述最小样本数阈值;如果是,则从对应的随机森林中移除所述决策树。
可选的,所述最佳划分为使信息增益达到最大值的划分函数和划分阈值对。
根据本发明的实施例,本发明公开了以下技术效果:
本发明人机交互翻译模型的更新方法通过引入用户反馈的人工翻译译文,通过对目标语言句子及所述源语言句子进行分词处理、对齐、抽取短语翻译知识以实时更新基于在线随机森林的机器翻译模型,缓解重复出现相同的翻译错误。
为了解决现有技术中的上述问题,即为了解决人工翻译句子中的翻译知识实时更新至人机交互翻译模型,并改善后续机器翻译译文质量的问题,本发明提供了一种人机交互翻译模型的更新系统。
为实现上述目的,本发明提供了如下方案:
一种人机交互翻译模型的更新系统,所述更新系统包括:
接收模块,用于接收根据源语言句子进行人工翻译得到的目标语言句子;
分词模块,用于分别所述目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;
对齐模块,用于根据所述目标语言词组及源语言词组获得双语词对齐信息;
抽取模块,用于从所述双语词对齐信息中抽取短语翻译知识;
更新模块,用于根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。
可选的,所述短语翻译知识包括短语翻译对及对应的上下文特征信息。
可选的,所述更新模块包括:
构建单元,用于根据所述短语翻译对中的源语言短语构建所述源语言短语对应的随机森林中的一棵决策树;
生成单元,用于根据所述决策树独立生成重复采样次数;
第一判断单元,用于判断所述重复采样次数是否为零;
测试单元,用于在所述第一判断单元的判断结果为是时,将所述决策树的信息添加至所述决策树的测试集,对决策树的测试集进行错误率测试,以更新由决策树构成的随机森林;
计算单元,用于在所述第一判断单元的判断结果为否时,根据所述上下文特征信息找到需要更新的所述决策树的叶节点,结合所述重复采样次数,计算所述叶节点累计的样本数量和信息增益;
第二判断单元,用于判断所述样本数量是否超过最小样本数阈值,并且所述信息增益是否超过最大信息增益阈值;
第一节点更新单元,用于在所述第二判断单元的判断结果为是时,计算最佳划分,根据所述最佳划分将所述决策树叶节点扩展为中间节点,同时生成左、右孩子节点,更新所述决策树的叶节,以更新所述决策树的叶节;
第二节点更新单元,用于在所述第二判断单元的判断结果为否时,将所述短语翻译对及对应的上下文特征信息存入对应的所述决策树叶节点,以更新所述源语言短语对应的决策树。
根据本发明的实施例,本发明公开了以下技术效果:
本发明人机交互翻译模型的更新系统通过设置接收模块引入用户反馈的人工翻译译文,并通过分词模块、对齐模块、抽取模块的设置,依次对目标语言句子及所述源语言句子进行分词处理、对齐、抽取短语翻译知识,以实时更新基于在线随机森林的机器翻译模型,缓解重复出现相同的翻译错误。
附图说明
图1是人工翻译句子实时更新人机交互翻译模型的一个实例示意图;
图2是传统翻译模型的一个实例示意图;
图3是本发明人机交互翻译模型的更新方法的流程图;
图4a~图4d是本发明的决策树构建过程的一个示例示意图;
图5是本发明中逐对更新源语言短语对应的翻译模型随机森林的流程图;
图6为本发明人机交互翻译模型的更新系统的模块结构图。
符号说明:
接收模块—1,分词模块—2,对齐模块—3,抽取模块—4,更新模块—5。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图3所示,本发明人机交互翻译模型的更新方法包括:
步骤100:接收根据源语言句子进行人工翻译得到的目标语言句子;
步骤200:分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;
步骤300:根据所述目标语言词组及源语言词组获得双语词对齐信息;
步骤400:从所述双语词对齐信息中抽取短语翻译知识;
步骤500:根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。
在执行步骤500后,根据其他的源语言句子重复执行上述步骤,直至翻译结束,从而实现翻译模型的实时更新。
其中,在步骤100中,用户录入目标语言句子时,可以自主选择在机器翻译自动译文的基础上修改完成翻译或者直接忽略机器翻译译文。
在步骤200中,所有源语言词的集合
源语言句子
源语言短语
目标语言句子
目标语言短语
例如,源语言句子:thepublicationchairisresponsiblefortheentireproductionprocess;目标语言句子:出版主席负责监督整个生产过程。
用空格隔开相邻词:
在步骤300中,词对齐a=a1a2...aj,
在步骤400中,所述短语翻译知识包括短语翻译对及对应的上下文特征信息。进一步地,所述上下文特征信息包括:
a、短语翻译对中,源语言短语之前的六个词;
b、短语翻译对中,源语言短语之后的六个词;
c、短语翻译对中,源语言短语第一个词;
d、短语翻译对中,源语言短语最后一个词;
e、短语翻译对中,目标语言短语第一个词;
f、短语翻译对中,目标语言短语最后一个词;
g、短语翻译对中,目标语言短语之前的一个词;
h、短语翻译对中,目标语言短语之后的一个词;
i、源短语与目标短语的正向和反向词汇化翻译概率;
j、该短语翻译对是否被译后编辑采用;
k、短语翻译对中,源语言短语和目标语言短语的长度。
其中,所述抽取短语翻译知识的方法包括:
步骤410:在所述目标语言词组中,确定所有的对齐点;
步骤420:遍历所述目标语言词组中所有可能的目标语言短语,搜索分别与各所述目标语言短语中相匹配的源语言短语;
步骤430:找出对应的最短的源语言短语。
匹配时,需要考虑以下情况:
(1)如果目标语言短语仅仅包含对空的词,就不能在源语言端找到与之对应的短语。
(2)如果与目标语言短语匹配的最小源语言短语中存在超出目标语言短语之外的对齐点,就不能抽取该短语对。实际上该目标短语而言,无法抽取出短语对。
(3)除了与目标语言短语匹配的最小源语言短语以外,其他的源语言短语也可能与目标语言短语一致。如果源语言短语的边缘是对空的词,它就可以向这些词扩展。扩展之后的源语言短语也可以看成目标语言短语的一种翻译。
抽取短语时,对齐点的一个作用是可将其看成短语抽取时的约束。对齐点越少,抽取的短语越多(但当没有对齐点时,就无法抽取短语对)。
在本实施例中,“thepublicationchairisresponsiblefortheentireproductionprocess.”;“出版主席负责监督整个生产过程。”。设定最长短语词数为7,则根据词对齐信息“null{1,4,7}出版{2}主席{3}负责{5,6}监督{}整个{8}生产{9}过程{10}。{11}”抽取出的短语翻译对如下:
publication|||出版
thepublication|||出版
chair|||主席
chairis|||主席
publicationchair|||出版主席
publicationchairis|||出版主席
thepublicationchair|||出版主席
thepublicationchairis|||出版主席
responsiblefor|||负责
isresponsiblefor|||负责
thepublicationchairisresponsiblefor|||出版主席负责
thepublicationchairisresponsiblefor|||出版主席负责监督
entire|||整个
production|||生产
process|||过程
entireproduction|||整个生产
productionprocess|||生产过程
entireproductionprocess|||整个生产过程
theentireproductionprocess|||整个生产过程
responsiblefortheentireproductionprocess|||负责监督整个生产过程
以从“null{1,4,7}出版{2}主席{3}负责{5,6}监督{}整个{8}生产{9}过程{10}。{11}”抽取出的短语翻译对“chair|||主席”为例,所述十一类特征分别为:
a、源语言短语之前的六个词分别为:
wst-6=sent_before_begin、wst-5=sent_before_begin、w5t-4=sent_before_begin、wst-3=sent_begin、wst-2=the、wst-1=publication。其中,sent_begin表示句子开始符,sent_before_begin表示句子开始之前的空白占位符。
b、短语翻译对中,源语言短语之后的六个词分别为:wst+1=is、wst+2=responsible、wst+3=for、wst+4=the、wst+5=entire、wst+6=production。
c、源语言短语第一个词:wsls=chair。
d、源语言短语最后一个词:wsrs=chair。
e、目标语言短语第一个词:wtls=主席。
f、目标语言短语最后一个词:wtrs=主席。
g、目标语言短语之前的一个词:wtlt-1=出版。
h、目标语言短语之后的一个词:wtrt+1=负责
i、源短语与目标短语的正向和反向词汇化翻译概率:pw(t|s)=0.45892387和pw(s|t)=0.6623509。
j、该短语翻译对是否被译后编辑采用:ps=yes。
k源语言短语和目标语言短语的长度:lens=1和lent=1。
在步骤500中,如图5所示,所述逐对更新源语言短语对应的翻译模型随机森林的方法包括:
步骤510:根据所述短语翻译对中的源语言短语构建所述源语言短语对应的随机森林中的一棵决策树。
步骤520:根据所述决策树独立生成重复采样次数。
步骤530:判断所述重复采样次数是否为零,如果是则执行步骤580;否则执行步骤540;
步骤540:根据所述上下文特征信息找到需要更新的所述决策树的叶节点,结合所述重复采样次数,计算所述叶节点累计的样本数量和信息增益;
步骤550:判断所述样本数量是否超过最小样本数阈值,并且所述信息增益是否超过最大信息增益阈值;如果是则执行步骤560,否则执行步骤570;
步骤560:计算最佳划分,根据所述最佳划分将所述决策树叶节点扩展为中间节点,同时生成左、右孩子节点,以更新所述决策树的叶节;
步骤570:将所述短语翻译对及对应的上下文特征信息存入对应的所述决策树叶节点,以更新所述源语言短语对应的决策树;
步骤580:将所述决策树的信息添加至所述决策树的测试集,对决策树的测试集进行错误率测试,以更新由决策树构成的随机森林。
进一步地,所述对决策树进行错误率测试的方法包括:
判断所述决策树的错误率是否大于随机数且所述决策树的样本数量是否超过所述最小样本数阈值;如果是,则从对应的随机森林中移除所述决策树。
下面以“chair”为例介绍翻译模型随机森林过程。
在决策树构建过程中,源短语
由公式(1),随机森林中的每棵决策树是相互独立的:独立构建,独立测试。在训练阶段,每棵决策树接收到不同的,从原始训练集放回抽样的自举训练集,然后利用自举训练集分别构建决策树。
现结合图4a~图4d,以覆盖特征{wst-2,wst-1}的决策树为示例说明随着双语平行句对增加的构建过程。随机森林中其他决策树按照相同过程平行独立构建,此为随机森林的优势之一。
此过程使用的6条平行句对如下:
a.themansatdowninthechairbythefireandputhisgunaway.
那人在炉火边的椅子里坐下,把枪收了起来。
b.amanwouldpulloutthewoman′schairinarestaurant.
在餐厅里,男人会细心地为女人拉开椅子。
c.he,onhischair,scarcelylooksatherandsmokesceaselessly.
他坐在椅子上,不怎么看她,只是不停地抽烟。
d.prof.jonesholdsthechairofphonetics.
琼斯教授担任语音学讲座。
e.thepublicationchairisresponsiblefortheentireproductionprocess.
出版主席负责监督整个生产过程。
图4a部分表示初始状态,{wst-2,wst-1}决策树只有根结点。经过a、b和c共三条平行句对之后,按照在线随机森林学习算法,通过重采样的短语翻译对“chair|||椅子”,该决策树学习到“chair”可以翻译为“椅子”且划分点特征为wst-2,如图4b部分所示。图4c部分表示经过d平行句对训练后,得到如果“chair”之前的第二个词为“holds”时应翻译为“讲座”的决策树。图4d部分表示经过反馈的人工翻译句子e训练后,得到如果“chair”之前的第一个词为“publication”时应翻译为“主席”的决策树。
(2)决策树更新步骤
以步骤400中抽取出的短语翻译对“chair|||主席”更新至“chair”对应的随机森林为例,输入为x:
对源语言短语对应的随机森林中的每棵决策树,如{wst-2,wst-1}决策树,独立生成重复采样次数
在本实施例中,采用泊松分布,采样次数
判断所述采样次数
根据所述上下文特征信息找到需要更新的决策树的叶节点
训练集
其中,
在更新过程中,决策树中每个节点的划分函数g(x)和划分阈值θ都是从事先生成的集合中随机选择的。划分函数可以是形如ax+b的线性函数或者更复杂的高阶函数。确定划分函数和划分阈值的依据是训练集的信息增益。信息增益越大,表明选定的划分函数和划分阈值越优。随机选择一个划分后(g′(x),θ′)后,训练集中的样本将被分成两个集合
步骤560中:如果所述样本数量
最佳划分(g(x),θ)即是使信息增益
根据所述最佳划分(g(x),θ),将所述决策树叶节点扩展为中间节点,同时生成左、右孩子节点。集合
进一步地,错误率oobe指测试集中,目标短语被该决策树上错误分类的比例。
如果一棵决策树的错误率oobe大于随机数(编程语言的随机函数rand()生成0到1之间的小数)且该决策树的样本数量age超过最小样本数
本发明人机交互翻译模型的更新方法具有如下的积极效果:
(1)利用用户反馈的人工翻译译文实时更新基于在线随机森林的机器翻译模型,缓解重复出现相同的翻译错误,从而随着用户反馈的人工翻译译文的增加,持续提升机器翻译自动译文质量。实验证明在线实时更新的机器翻译自动译文质量与完全离线训练的机器翻译系统的译文质量相差仅0.2个ter(ter是一个双语评测替代指标,取值范围为0到1之间的数,其值越低表示译文质量越好)值。
(2)由于基于随机森林的翻译模型是基于判别式的方法,相对于传统基于生成式方法且独立于上下文的翻译模型,可以融合更多的上下文特征信息。因此,基于随机森林的翻译模型能大幅提升机器翻译自动译文质量。实验证明基于随机森林的翻译模型的机器翻译自动译文质量显著优于传统翻译模型的机器翻译自动译文质量约1个ter值。
(3)根据错误率测试结果动态移除翻译模型随机森林的决策树的方法,大幅增强人机交互翻译模型的抗噪能力。
此外,本发明还提供一种人机交互翻译模型的更新系统。如图6所示,本发明人机交互翻译模型的更新系统包括:接收模块1、分词模块2、对齐模块3、抽取模块4及更新模块5。
其中,所述接收模块1用于接收根据源语言句子进行人工翻译得到的目标语言句子;所述分词模块2用于分别所述目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;所述对齐模块3用于根据所述目标语言词组及源语言词组获得双语词对齐信息;所述抽取模块4用于从所述双语词对齐信息中抽取短语翻译知识;所述更新模块5用于根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。其中,在接收用户录入目标语言句子时,用户可以自主选择在机器翻译自动译文的基础上修改完成翻译或者直接忽略机器翻译译文。
其中,所述短语翻译知识包括短语翻译对及对应的上下文特征信息。进一步地,所述上下文特征信息包括:
a、短语翻译对中,源语言短语之前的六个词;
b、短语翻译对中,源语言短语之后的六个词;
c、短语翻译对中,源语言短语第一个词;
d、短语翻译对中,源语言短语最后一个词;
e、短语翻译对中,目标语言短语第一个词;
f、短语翻译对中,目标语言短语最后一个词;
g、短语翻译对中,目标语言短语之前的一个词;
h、短语翻译对中,目标语言短语之后的一个词;
i、源短语与目标短语的正向和反向词汇化翻译概率;
j、该短语翻译对是否被译后编辑采用;
k、短语翻译对中,源语言短语和目标语言短语的长度。
优选方案,所述更新模块5包括构建单元、生成单元、第一判断单元、计算单元、第二判断单元、第一节点更新单元、第二节点更新单元、测试单元。
其中,所述构建单元用于根据所述短语翻译对中的源语言短语构建所述源语言短语对应的随机森林中的一棵决策树;所述生成单元用于根据所述决策树独立生成重复采样次数;所述第一判断单元用于判断所述重复采样次数是否为零;所述计算单元用于在所述第一判断单元的判断结果为否时,根据所述上下文特征信息找到需要更新的所述决策树的叶节点,结合所述重复采样次数,计算所述叶节点累计的样本数量和信息增益;所述第二判断单元用于判断所述样本数量是否超过最小样本数阈值,并且所述信息增益是否超过最大信息增益阈值;所述第一节点更新单元,用于在所述第二判断单元的判断结果为是时,计算最佳划分,根据所述最佳划分将所述决策树叶节点扩展为中间节点,同时生成左、右孩子节点,更新所述决策树的叶节,以更新所述决策树的叶节;所述第二节点更新单元,用于在所述第二判断单元的判断结果为否时,将所述短语翻译对及对应的上下文特征信息存入对应的所述决策树叶节点,以更新所述源语言短语对应的决策树;所述测试单元,用于在所述第一判断单元的判断结果为是时,将所述决策树的信息添加至所述决策树的测试集,对决策树的测试集进行错误率测试,以更新由决策树构成的随机森林。
进一步地,所述测试单元对决策树的测试集进行错误率测试包括:判断所述决策树的错误率是否大于随机数且所述决策树的样本数量是否超过所述最小样本数阈值;如果是,则从对应的随机森林中移除所述决策树。
相较于现有技术,本发明人机交互翻译模型的更新系统与上述人机交互翻译模型的更新的方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。