中日词语自动对齐方法和系统

文档序号:31123655发布日期:2022-08-13 02:21阅读:148来源:国知局
中日词语自动对齐方法和系统

1.本发明涉及语言翻译处理技术领域,具体涉及一种中日词语自动对齐方法、系统、存储介质和电子设备。


背景技术:

2.词语自动对齐,简称为词对齐,其目的在于指明双语平行句对中词之间的对应关系。近年来基于深度神经网络的机器翻译已经成为当今的主流技术,词对齐已经不是翻译模型的必备模块,但是词对齐依旧是研究的热点,由于可以应用在双语词典挖掘,机器翻译的词汇约束解码,错误分析和后编辑上,近年来仍然获得了很多研究者的关注。
3.目前,单独为词对齐建模的方法是基于深度模型的词对齐方法的代表之一,其利用多语言预训练语言模型直接进行词对齐的推理,具体而言是先从子词相似度矩阵得到子词对齐结果,然后两个词只要其包含的子词之间存在对齐,则认为词之间也存在对齐关系,
4.但是,上述方法至少存在以下缺陷:很容易造成一个词和多个词产生对齐关系,影响最终的对齐结果。


技术实现要素:

5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种中日词语自动对齐方法、系统、存储介质和电子设备,解决了容易造成一个词和多个词产生对齐关系的技术问题。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.一种中日词语自动对齐方法,包括:
10.将原始平行语料进行词语切分,获取词序列;
11.将原始平行语料进行子词切分,获取第一子词序列;
12.加载预训练好的mbert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;
13.进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;
14.计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;
15.根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。
16.优选的,所述mbert模型在预训练过程的目标函数l表示如下:
17.l=l
mlm
+l
tlm
+λl
cc
18.其中,l
mlm
表示基于掩码语言模型的子目标函数:
19.l
mlm
=-logp(e|e
mask
)-logp(f|f
mask
)
20.e
mask
表示中文句子e掩码掉若干子词之后的子词序列;
21.f
mask
为日文句子f掩码掉若干子词之后的子词序列;
22.p(e|e
mask
)表示e
mask
还原为原始句子e的概率;
23.p(f|f
mask
)表示f
mask
还原为原始句子f的概率;
24.l
tlm
表示基于翻译语言模型的子目标函数:
25.l
tlm
=-logp([e;f]|[e
mask
;f
mask
])-logp([f;e]|[f
mask
;e
mask
])
[0026]
[e;f]、[f;e]均表示句对拼接为一个句子,对应不同的拼接顺序;
[0027]
l
cc
表示基于共同汉字监督信号的子目标函数:
[0028][0029]
i,j分别为满足中文子词ei和日语子词fj为共同汉字的所有双语词对的下标;
[0030]
表示的ei在mbert模型中第k层的上下文表示向量;
[0031]
表示的fj在mbert模型中第k层的上下文表示向量;
[0032]
λ表示权重。
[0033]
优选的,所述中文子词ei和日语子词fj为共同汉字的判断原则包括:两者字形完全等同,或者作为健值对存在于预先构建的同源汉字映射字典中;所述同源汉字映射字典中,健为日文汉字,值为中文汉字,且将中日汉字之间一对一、一对多或者多对一的映射关系均拆分为一对一的映射关系。
[0034]
优选的,所述根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系,具体包括:
[0035]
s61、根据所述子词相似度矩阵,获取内部概率和外部概率;
[0036][0037][0038]
其中,定义中文词ei由下标[i1,i2]范围内的子词序列组成,日语词fj由下标[j1,j2]范围内的子词序列组成;
[0039]
in(i1,i2,j1,j2)表示所述子词相似度矩阵的内部区域,out(i1,i2,j1,j2)表示所述子词相似度矩阵的外部区域;
[0040]
α(i1,i2,j1,j2)记作内部概率,这个值越大表示中文词ei和日语词fj的互译概率越大,反之则越小;
[0041]
β(i1,i2,j1,j2)记作外部概率,这个值越大表示中文词ei和除fj外的其他日语词,或者除ei外的其他中文词和日语词fj的互译概率越小,反之则越大;
[0042]
s62、根据所述内部概率和外部概率,获取任意一对双语词之间的词对齐分数;
[0043]
p
ij
=α(i1,i2,j1,j2)β(i1,i2,j1,j2)
[0044]
词对齐分数矩阵中的元素p
ij
表示中文词ei和日语词fj之间的次相似度;
[0045]
s63、将所述词对齐分数p
ij
与预设阈值p

进行比较,若p
ij
≥p

,则视为对应的中文词ei和日语词fj之间存在对齐关系,最终确定原始平行语料的对齐关系。
[0046]
优选的,所述将原始平行语料进行子词切分的切分原则包括:中、日文中的所有汉字均独自成为一个子词,其余连续字符串采用wordpiece算法进行子词切分。
[0047]
一种中日词语自动对齐系统,包括:
[0048]
词序列获取模块,用于将原始平行语料进行词语切分,获取词序列;
[0049]
第一子词获取模块,用于将原始平行语料进行子词切分,获取第一子词序列;
[0050]
向量获取模块,用于加载预训练好的mbert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;
[0051]
第二子词获取模块,用于进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;
[0052]
相似度计算模块,用于计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;
[0053]
对齐关系确定模块,用于根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。
[0054]
一种存储介质,其存储有用于中日词语自动对齐的计算机程序,其中,所述计算机程序使得计算机执行如上所述的中日词语自动对齐方法。
[0055]
一种电子设备,包括:
[0056]
一个或多个处理器;
[0057]
存储器;以及
[0058]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的中日词语自动对齐方法。
[0059]
(三)有益效果
[0060]
本发明提供了一种中日词语自动对齐方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
[0061]
本发明中,将原始平行语料进行词语切分,获取词序列;将原始平行语料进行子词切分,获取第一子词序列;加载预训练好的mbert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。省略计算子词对齐过程,直接从子词相似度矩阵计算出双语之间的词对齐分数,更充分地利用子词相似度矩阵所包含的信息,得到更精准和健壮的词对齐结果。
附图说明
[0062]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0063]
图1为本发明实施例提供的一种中日词语自动对齐方法的流程示意图;
[0064]
图2为本发明实施例提供的一种原始平行语料的示例;
[0065]
图3为本发明实施例提供的一种子词相似度矩阵的示意图;
[0066]
图4~5为本发明实施例提供的同一平行语料引入共同汉字作为监督信号前后的词对齐结果比对图;
[0067]
图6~7为本发明实施例提供的同一平行语料引入内部概率和外部概率前后的词对齐结果比对图。
具体实施方式
[0068]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
本技术实施例通过提供一种中日词语自动对齐方法、系统、存储介质和电子设备,解决了容易造成一个词和多个词产生对齐关系的技术问题。
[0070]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0071]
本技术考虑到汉语和日语的语言特殊性:中日语言的子词切分不同于英语等语言切分为多个罗马字母组成的词根,中日语言的子词多为单个汉字,而且两者的汉字存在大量的重叠;从直觉上看,这种重叠汉字对于跨语言建模有着先天优势。
[0072]
不同与现有技术中先从子词相似度矩阵得到子词对齐结果,然后两个词只要其包含的子词之间存在对齐,则认为词之间也存在对齐关系,本技术省略计算子词对齐过程,而是计算二次切分获取的第二子词序列中,任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;根据子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。这样更充分地利用子词相似度矩阵所包含的信息,得到更精准和健壮的词对齐结果,避免发生一个词和多个词产生对齐关系现象。
[0073]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0074]
实施例:
[0075]
如图1所示,本发明实施例提供了一种中日词语自动对齐方法,包括:
[0076]
s1、将原始平行语料进行词语切分,获取词序列;
[0077]
s2、将原始平行语料进行子词切分,获取第一子词序列;
[0078]
s3、加载预训练好的mbert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;
[0079]
s4、进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一
个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;
[0080]
s5、计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;
[0081]
s6、根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。
[0082]
本发明实施例省略计算子词对齐过程,直接从子词相似度矩阵计算出双语之间的词对齐分数,更充分地利用子词相似度矩阵所包含的信息,得到更精准和健壮的词对齐结果。
[0083]
下面将结合附图以及具体内容详细介绍上述技术方案地各个步骤:
[0084]
首先补充说明一下方案中提及的子词以及其他相关内容:
[0085]
通常来讲,子词的划分粒度介于词与字符之间,比如可以将“looking”划分为“look”和“ing”两个子词,而划分出来的“look”,“ing”,又能够用来构造其它词,如“look”和“ed”子词可组成单词“looked”,因而子词能够大大降低词典的大小,同时对相近词能更好地处理。
[0086]
子词切分有多种实现方式,本技术采用了wordpiece算法,其大概训练过程为:假设句子是已经切分成词语序列的,词之间以空格分开,首先将词切分成单个的独立字符作为子词加入新建子词词表中,然后每次从词表中选出两个子词合并成新的子词,选择标准为能够提升训练语料上语言模型概率最大的相邻子词加入词表,重复这个循环过程直到预设的循环次数结束。
[0087]
而在mbert模型使用的wordpiece算法,针对多语言的特点进行了一些改变,使其不依赖于各种语言的分词工具,从而增加了易用性。其大概训练过程为:首先将句子中的标点符号和中文、日语中的汉字直接单独作为词前后插入空格,剩余的部分为被汉字和标点符号切分成的若干连续字符串也作为一个词,此时句子被空格切分为词语序列,接下来的子词训练过程同上述常规的wordpiece流程。
[0088]
需要注意的是,由于针对中、日文的子词切分并不依赖于其对应的分词工具,因此和英语不同,中、日文的中的子词不一定是比词小的粒度,如日语子词
“された”
会被日文分词工具切分为三个词语
“さ
/

/
た”

[0089]
如图2所示,给定任意一个日语和中文句子对作为原始平行语料。
[0090]
在步骤s1中,将原始平行语料进行词语切分,获取词序列。
[0091]
在步骤s2中,将原始平行语料进行子词切分,获取第一子词序列;
[0092]
本步骤中,所述将原始平行语料进行子词切分的切分原则包括:中、日文中的所有汉字均独自成为一个子词,其余连续字符串如假名(日文中的字母)和数字字符串,均采用wordpiece算法进行子词切分。
[0093]
在步骤s3中,加载预训练好的mbert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量。
[0094]
多语言bert(multilingual bert,简称mbert)采用了和常规单语bert同样的模型结构,不同点在于训练数据是维基百科上包含英文,中文和日语在内的104种语言,如此不仅可以学习到单语内的语义信息,同时可以学习到跨语言信息。多种语言的表示共享同一
特征空间,为优化后续机器翻译,跨语言迁移等自然语言处理任务提供了基础支持。
[0095]
本步骤中提出,利用共同汉字作为监督信号加入到跨语言语言模型(mbert模型)预训练的目标函数中,可以增强双语间的语义对齐关系。具体的,所述mbert模型在预训练过程的目标函数l表示如下:
[0096]
l=l
mlm
+l
tlm
+λl
cc
[0097]
其中,λ表示权重。
[0098]
(1)l
mlm
表示基于掩码语言模型的子目标函数。
[0099]
所述掩码语言模型最早是由bert采用的一种类似完形填空的做法,具体地,掩码语言模型的预训练任务直接将输入句子中的部分单词掩码,并通过深层transformer模型还原为原单词,从而避免了双向语言模型带来的信息泄露问题,迫使模型使用被掩码词周围的上下文信息还原被掩码掉的词语。在平行句对(e,f)上,掩码语言模型的目标函数可以表示为:
[0100]
l
mlm
=-logp(e|e
mask
)-logp(f|f
mask
)
[0101]emask
表示中文句子e掩码掉若干子词之后的子词序列;
[0102]fmask
为日文句子f掩码掉若干子词之后的子词序列;
[0103]
p(e|e
mask
)表示e
mask
还原为原始句子e的概率;
[0104]
p(f|f
mask
)表示f
mask
还原为原始句子f的概率;
[0105]
(2)l
tlm
表示基于翻译语言模型的子目标函数。
[0106]
不同于单语的bert模型,在跨语言预训练语言模型中通常会采用基于平行双语句对的翻译语言模型目标函数,即将平行句对中的两个句子拼接起来,然后在拼接后的句子上随机掩码掉若干子词,然后通过模型预测原始子词,,如下:
[0107]
l
tlm
=-logp([e;f]|[e
mask
;f
mask
])-logp([f;e]|[f
mask
;e
mask
])
[0108]
[e;f]、[f;e]均表示句对拼接为一个句子,对应不同的拼接顺序;
[0109]
(3)l
cc
表示基于共同汉字监督信号的子目标函数。
[0110]
由于历史的原因,在中文和日语中存在大量的共同汉字,这些汉字可以作为增强跨语言语义联系的线索,这是把共同汉字作为监督信号引入到跨语言预训练目标函数中的语言学动机。具体地,在同一个平行句对中,中文和日语中的共同汉字应该有相似的上下文表示,形式化表示为:
[0111][0112]
i,j分别为满足中文子词ei和日语子词fj为共同汉字的所有双语词对的下标;
[0113]
表示的ei在mbert模型中第k层的上下文表示向量;
[0114]
表示的fj在mbert模型中第k层的上下文表示向量。
[0115]
再次需要注意的是,中日的汉字存在字形差异,原本共享同一字形的汉字可能在两种语言发展为有差异的两种字形。排除不存在对应关系的汉字,中日的汉字之间也存在以下几种映射关系,一对一,一对多和多对一。例如,表1中例1的汉字同形,而例2则存在字形差异。
[0116]
本发明实施例预先构建了一个同源汉字映射字典,健为日文汉字,值为中文汉字,下表中的4对映射关系在映射字典中存储为{“国”:“国”,“団”:“团”,“弁”:“辨”,“弁”:“瓣”,“弁”:“辩”,“個”:“个”,“箇”:“个”}。可以看到,一对多和多对一都被拆分为多个一对一关系进行存储。中文子词ei和日语子词fj判定为共同汉字的依据为:两者字形完全等同,或者作为健值对存在于汉字映射字典中。
[0117]
表1.中日汉字对应关系例子
[0118] 例1例2例3例4日语汉字国団弁個,箇中文汉字国团辨,瓣,辩个
[0119]
总结来说,在步骤3中,本发明实施例首次把共同汉字作为监督信号用于增强跨语言语言模型的预训练,从理论上有利于得到更加对齐的汉语和日语的多语言表示,从而提高最终词对齐的效果。
[0120]
在步骤s4中,进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量。
[0121]
本步骤中,将子词切分进一步切分是为了保证每个子词只隶属于一个词。
[0122]
对比每一个句子的子词序列和词序列,绝大多数情况下每个子词都属于一个词,即不跨自然词的边界,如多个单独汉字子词构成一个汉字词;但在正如前文所述一样,在少数情况下,存在子词跨越词边界,即同时隶属于多个词的情况,如日语子词
“された”
在词序列中被切分为三个词语
“さ
/

/
た”
。此时,需要对子词要进行进一步切分,切分的方式为在自然词的边界处进行切分,如子词
“された”
要被切分为三个子词
“さ
/

/
た”
,同时每个切分后的子词上下文表示均复制原始子词的上下文表示向量,如
“さ”

“れ”

“た”
均复制
“された”
的上下文表示向量。
[0123]
在步骤s5中,计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵。
[0124]
定义相似度矩阵为s,其中元素s
ij
表示中文子词ei和日语子词fj的相似度,计算方式为ei的上下文表示向量和fj的上下文表示向量之间的余弦相似度。
[0125]
在步骤s6中,根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。
[0126]
图3表示子词相似度矩阵,横轴对应中文子词序列,纵轴对应日语子词序列。定义中文词ei由下标[i1,i2]范围内的子词序列组成,日语词fj由下标[j1,j2]范围内的子词序列组成。
[0127]
所述s6具体包括:
[0128]
s61、根据所述子词相似度矩阵,获取内部概率和外部概率;
[0129]
[0130][0131]
其中,定义中文词ei由下标[i1,i2]范围内的子词序列组成,日语词fj由下标[j1,j2]范围内的子词序列组成;
[0132]
in(i1,i2,j1,j2)表示所述子词相似度矩阵的内部区域,对应图3中的黑色矩形区域;out(i1,i2,j1,j2)表示所述子词相似度矩阵的外部区域,对应图3中的四个灰色矩形区域;
[0133]
α(i1,i2,j1,j2)记作内部概率,这个值越大表示中文词ei和日语词ej的互译概率越大,反之则越小;
[0134]
β(i1,i2,j1,j2)记作外部概率,这个值越大表示中文词ei和除fj外的其他日语词,或者除ei外的其他中文词和日语词fj的互译概率越小,反之则越大。
[0135]
s62、根据所述内部概率和外部概率,获取任意一对双语词之间的词对齐分数;
[0136]
p
ij
=α(i1,i2,j1,j2)β(i1,i2,j1,j2)
[0137]
词对齐分数矩阵中的元素p
ij
表示中文词ei和日语词fj之间的次相似度;将词对齐分数表示为内部概率和外部概率的乘积形式,其物理意义在于如果平行句对中的两个词如果存在语义对齐关系,则两个词之间的语义相似度很高,同时每个词和另一个词的上下文并不存在语义互译关系。
[0138]
本发明实施例省略了计算子词对齐这个中间过程,直接从子词相似度矩阵计算出词语之间的内部和外部关系。一方面,不仅可以从两个词内部的子词之间的相似关系中得到词对齐线索,同时可以从外部上下文中得到额外线索。另一方面,也减少了一对多的错误词对齐现象。
[0139]
s63、将所述词对齐分数p
ij
与预设阈值p

进行比较,若p
ij
≥p

,则视为对应的中文词ei和日语词fj之间存在对齐关系,最终确定原始平行语料的对齐关系(阈值p

可以预先在验证数据集上调出最优值)。
[0140]
为了更好说明本技术的提供的中日词语自动对齐方法的优越性,现提供如下证明:
[0141]
1、通过本技术可以得到更精准的词对齐关系,尤其是对于包含汉字的低频词有较明显的提升(定义低频词为在训练语料中出现少于5次的词语,由于出现次数少,现有技术中低频词很难得到有效的参数估计,因此很难得到精准的词对齐)。
[0142]
图4是没有引入共同汉字作为监督信号时的效果,可以看到中文句子中的低频词“爱媛县”不能得到正确的日语词对齐,而在图5中,由于引入了共同汉字,所以得到了正确的词对齐结果。
[0143]
2、通过本技术可以减少错误对齐到多个词的现象。
[0144]
图6为引入内部概率和外部概率之前计算词对齐,中文句子中的词语“进行”错误对齐了日文中的4个词语。
[0145]
图7为引入内部概率和外部概率的效果,有效避免了这种多对齐错误现象的发生。
[0146]
本发明实施例提供了一种中日词语自动对齐系统,包括:
[0147]
词序列获取模块,用于将原始平行语料进行词语切分,获取词序列;
[0148]
第一子词获取模块,用于将原始平行语料进行子词切分,获取第一子词序列;
[0149]
向量获取模块,用于加载预训练好的mbert模型在切分子词后的平行语料上进行参数微调,获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量;
[0150]
第二子词获取模块,用于进一步切分所述第一子词序列,获取第二子词序列,所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语,且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量;
[0151]
相似度计算模块,用于计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度,构建子词相似度矩阵;
[0152]
对齐关系确定模块,用于根据所述子词相似度矩阵,获取任意一对双语词之间的词对齐分数,确定原始平行语料的对齐关系。
[0153]
本发明实施例提供了一种存储介质,其存储有用于中日词语自动对齐的计算机程序,其中,所述计算机程序使得计算机执行如上所述的中日词语自动对齐方法。
[0154]
一种电子设备,包括:
[0155]
一个或多个处理器;
[0156]
存储器;以及
[0157]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的中日词语自动对齐方法。
[0158]
可理解的是,本发明实施例提供的中日词语自动对齐系统、存储介质和电子设备与本发明实施例提供的中日词语自动对齐方法相对应,其有关内容的解释、举例和有益效果等部分可以参考中日词语自动对齐方法中的相应部分,此处不再赘述。
[0159]
综上所述,与现有技术相比,具备以下有益效果:
[0160]
1、本发明实施例省略计算子词对齐过程,直接从子词相似度矩阵计算出双语之间的词对齐分数,更充分地利用子词相似度矩阵所包含的信息,得到更精准和健壮的词对齐结果。
[0161]
2、本发明实施例首次把共同汉字作为监督信号用于增强跨语言语言模型的预训练,从理论上有利于得到更加对齐的汉语和日语的多语言表示,从而提高最终词对齐的效果。
[0162]
3、本发明实施例省略了计算子词对齐这个中间过程,直接从子词相似度矩阵计算出词语之间的内部和外部关系。一方面,不仅可以从两个词内部的子词之间的相似关系中得到词对齐线索,同时可以从外部上下文中得到额外线索。另一方面,也减少了一对多的错误词对齐现象。
[0163]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0164]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1