一种基于源语言复述资源的机器翻译方法及装置的制作方法

文档序号:6354954阅读:245来源:国知局
专利名称:一种基于源语言复述资源的机器翻译方法及装置的制作方法
一种基于源语言复述资源的机器翻译方法及装置
技术领域
本发明涉及机器翻译领域,特别涉及一种基于源语言复述资源的机器翻译方法及装置。
背景技木随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越来越广泛地使用。评价机器翻译的质量主要有两个指标一是忠实度,表示翻译后的内容是否忠实地传达了被翻译内容的意思;ニ是流利度,表示被翻译的内容是否符合目标语言的语法。在实 际应用中,即使翻译的忠实度很高,但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的体验。现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现有技术并没有很好地解决翻译不流利的问题。实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在双语语料库中找到对应的目标语言片段,或者能找到的对应目标语言片段的资源比较少时,就会造成译文的不流利。

发明内容本发明所要解决的技术问题是提供一种基于源语言复述资源的机器翻译方法和装置,以改进机器翻译的流利度,提高机器翻译的质量。本发明为解决技术问题而采用的技术方案是提供了一种基于源语言复述资源的机器翻译方法,包括a.获取源语言句子;b.选取所述源语言句子的难翻译片段;c.根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;d.对所述待翻译候选集合进行翻译,以得到翻译結果。根据本发明之一优选实施例,所述步骤b进ー步包括bl.对所述源语言句子进行分词处理,以获得分词结果;b2.通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量;b3.对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。根据本发明之一优选实施例,在所述步骤b3中,利用机器学习得到的分类器进行识别。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段中平均未登录词的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段中平均包含的介词短语的个数。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段相对于前后片段被调序的概率。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段在语言模型中的概率。根据本发明之一优选实施例,所述复述资源进一歩包括词、短语或句子。根据本发明之一优选实施例,所述方法进ー步包括e.对所述翻译结果进行评分,以得到最佳的N个翻译結果。根据本发明之一优选实施例,所述步骤e采用对数线性模型对所述翻译结果进行评分。根据本发明之一优选实施例,建立所述对数线性模型时使用的ー个特征为所述复述资源及其权重。本发明还提供了一种基于源语言复述资源的机器翻译装置,包括接收句子単元,用于获取源语言句子;选择片段単元,用于选取所述源语言句子的难翻译片段;扩展片段単元,用于根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;翻译单元,用于对所述待翻译候选集合进行翻译,以得到翻译結果。根据本发明之一优选实施例,所述选择片段单元进ー步包括分词单元,用于对所述源语言句子进行分词处理,以获得分词结果;划分片段单元,用于通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量;识别单元,用于对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。根据本发明之一优选实施例,所述单元利用机器学习得到的分类器进行识别。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段中平均未登录词的个数。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段中平均包含的介词短语的个数。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段相对于前后片段被调序的概率。根据本发明之一优选实施例,所述分类器采用的特征进一歩包括所述源语言句子片段在语言模型中的概率。根据本发明之一优选实施例,所述复述资源进一歩包括词、短语或句子。根据本发明之一优选实施例,所述装置进ー步包括评分单元,用于对所述翻译结果进行评分,以得到最佳的N个翻译結果。根据本发明之一优选实施例,所述评分单元采用对数线性模型对所述翻译结果进行评分。根据本发明之一优选实施例,建立所述对数线性模型时使用的ー个特征为所述复述资源及其权重。 由以上技术方案可以看出,通过采用源语言的复述资源扩展待翻译句子的难翻译片段,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。

图I是本发明实施例中基于源语言复述资源的机器翻译方法的一个实施例的流程不意图;图2是本发明实施例中选取源语言句子的难翻译片段方法的流程示意图;图3是本发明实施例中将源语言句子的难翻译片段进行扩展后的翻译词图;图4是本发明实施例中基于源语言复述资源的机器翻译方法的又一个实施例的 流程示意图;图5是本发明实施例中基于源语言复述资源的机器翻译装置的一个实施例的示意框图;图6是本发明实施例中选择片段単元的示意框图;图7是本发明实施例中基于源语言复述资源的机器翻译装置的又一个实施例的示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。本发明利用复述资源对待翻译的源语言句子进行扩展,以得到更流利的翻译结果。所谓复述资源,指的是表达方式不同而含义相同的词、短语或句子。例如“生意”与“买卖”在一些语境下的含义是相同的,对待翻译的源语言“买卖”来说,“生意”就是其复述资源。复述资源并不仅限于词语,更大粒度的复述资源也可以包括复述短语和复述句。请參考图1,图I是本发明实施例中基于源语言复述资源的机器翻译方法的ー个实施例的流程示意图。该方法主要包含以下步骤步骤101 :获取源语言句子。源语言是指待翻译的语言,获取源语言句子是进行后续处理的前提。步骤102 :选取源语言句子的难翻译片段。请參见图2,图2是根据本发明ー实施例的选取源语言句子的难翻译片段方法的流程示意图。在本实施例中,选取源语言句子的难翻译片段的方法包括以下步骤步骤1021 :对源语言句子进行分词处理,以获得分词結果。分词的作用是将源语言句子中的文字序列切分成有意义的字词,以便后续处理。具体分词的方法包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。步骤1022 :通过控制片段长度将源语言句子划分为不同的片段集合,以得到全部的源语言句子片段。片段长度表示一个源语言句子片段可以包含的步骤1022所获得的分词结果的词语数量,例如下面这个句子人们将来的发展与他们幼年时的发展息息相关。
假设片段长度控制为2,则表示一个片段可以包含的词的个数不超过2,即ー个片段包含的词的个数为I或2。在片段长度控制为I时,上述句子划分为以下片段人们、将来的、发展、与、他们、幼年时的、发展、息息相关。在片段长度控制为2时,上述句子划分为以下片段人们将来的、将来的发展、与他们、他们幼年时的、幼年时的发展、发展息息相关。假如将片段长度控制为一个句子包含的词的总数,那么得到的最大片段就是整个句子。针对每ー个划分片段时的片段长度,都可以得到一个片段集合,而所有的片段集合就组成了全部的源语言句子片段。
步骤1023 :对全部的源语言句子片段进行识别,确定其中的难翻译片段。难翻译片段是指会造成翻译不流利的片段。例如对于下面这个源语言句子人们将来的发展与他们幼年时的发展息息相关。句子中的“息息相关”这个片段就是难翻译片段。这个难翻译片段有可能在双语语料库中缺乏对应的翻译资源,也有可能是在抽取对应的翻译资源的过程中存在错误,而没有获取到“息息相关”的对应翻译资源。在本发明中,对难翻译片段的识别,可以用机器学习的方法实现。例如采用SVM(支持向量机)分类器对全部的源语言句子片段进行分类,分为难翻译的或不难翻译的。SVM的分类原理可概括为寻找ー个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。对于两类问题,给定样本集(Xi, Yi) , Xi G Rd, Yi = {I, -1} , i = 1, 2, . . . I,以及核函数K(Xi,Xp = (O (Xi) ^cD(Xj)),其中O是非线性映射函数。SVM训练出的学习机器为f (x) = (w O (X) )+b,其中w是权重,b是偏置。对本发明而言,样本集(Xi,Yi)中的Xi是由源语言句子片段的特征组成的特征向量,Yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,在此不做赘述。由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下列变量作为源语言句子片段的特征I、一个片段中平均未登录词的个数,个数越多,表示这个片段越难翻译。未登录词指的是生词,也就是在双语语料库没有对应双语翻译资源的词。一个片段中缺乏对应双语翻译资源的词越多,就说明该片段越难翻译。2、一个片段中平均包含的介词短语的个数,个数越多,表示这个片段越难翻译。3、一个片段相对于前后片段被调序的概率。机器翻译中有三个基本模型翻译模型、调序模型及语言模型。调序模型用来描述译文相对于原文在表述方式上进行调序的概率。例如对于ー个片段fragk,pPre(o I fragk)表示fragk与前一个被翻译的片段调序的概率;Pp()S (o I fragk)表示fragk与后一个被翻译的片段调序的概率。其中O G {straight, inverted}表示调序的方向,包括译文顺序和原文方向一致(straight),译文顺序和原文方向相反(inverted)。通过调序模型,我们可以得到上述概率值,而ー个片段的Ppm (inverted I fragk)与pp()S (inverted | fragk)越大,就表示这个片段越难翻译。4、一个片段在语言模型中的概率,概率越低,表示这个片段越难翻译。语言模型用来描述短语或句子出现的概率。例如一个片段fragk由m个词组成,即fragk = wi;wi+1,...,wi+m,则这个片段在语言模型中的概率pt(fragk)可以表示为
权利要求
1.一种基于源语言复述资源的机器翻译方法,其特征在于,所述方法包括 a.获取源语言句子; b.选取所述源语言句子的难翻译片段; c.根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合; d.对所述待翻译候选集合进行翻译,以得到翻译結果。
2.根据权利要求I所述的方法,其特征在于,所述步骤b进ー步包括 bl.对所述源语言句子进行分词处理,以获得分词结果; b2.通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量; b3.对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。
3.根据权利要求2所述的方法,其特征在于,在所述步骤b3中,利用机器学习得到的分类器进行识别。
4.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段中平均未登录词的个数。
5.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段中平均包含的介词短语的个数。
6.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段相对于前后片段被调序的概率。
7.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段在语言模型中的概率。
8.根据权利要求I所述的方法,其特征在于,所述复述资源进一歩包括词、短语或句子。
9.根据权利要求I所述的方法,其特征在于,所述方法进ー步包括 e.对所述翻译结果进行评分,以得到最佳的N个翻译結果。
10.根据权利要求9所述的方法,其特征在于,所述步骤e采用对数线性模型对所述翻译结果进行评分。
11.根据权利要求10所述的方法,其特征在于,建立所述对数线性模型时使用的ー个特征为所述复述资源及其权重。
12.一种基于源语言复述资源的机器翻译装置,其特征在于,所述装置包括 接收句子単元,用于获取源语言句子; 选择片段単元,用于选取所述源语言句子的难翻译片段; 扩展片段単元,用于根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合; 翻译单元,用于对所述待翻译候选集合进行翻译,以得到翻译結果。
13.根据权利要求12所述的装置,其特征在于,所述选择片段单元进ー步包括 分词单元,用于对所述源语言句子进行分词处理,以获得分词结果; 划分片段単元,用于通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量; 识别单元,用于对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。
14.根据权利要求13所述的装置,其特征在于,所述识别単元利用机器学习得到的分类器进行识别。
15.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段中平均未登录词的个数。
16.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段中平均包含的介词短语的个数。
17.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一歩包括所 述源语言句子片段相对于前后片段被调序的概率。
18.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一歩包括所述源语言句子片段在语言模型中的概率。
19.根据权利要求12所述的装置,其特征在于,所述复述资源进一歩包括词、短语或句子。
20.根据权利要求12所述的装置,其特征在于,所述装置进ー步包括评分单元,用于对所述翻译结果进行评分,以得到最佳的N个翻译結果。
21.根据权利要求20所述的装置,其特征在于,所述评分单元采用对数线性模型对所述翻译结果进行评分。
22.根据权利要求21所述的装置,其特征在于,建立所述对数线性模型时使用的ー个特征为所述复述资源及其权重。
全文摘要
本发明提供了一种基于源语言复述资源的机器翻译方法,包括获取源语言句子;选取所述源语言句子的难翻译片段;根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;对所述待翻译候选集合进行翻译,以得到翻译结果,通过上述方式,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。
文档编号G06F17/28GK102650987SQ20111004629
公开日2012年8月29日 申请日期2011年2月25日 优先权日2011年2月25日
发明者吴华, 王海峰, 赵世奇 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1