平行语料对齐的方法和装置的制造方法_3

文档序号:9887617阅读:来源:国知局
语句与编号为5的原文语句的相似度最高,则将该译文语句和编号为5的原文语句匹 配。
[0078] 3)重复上述过程1)和2),直到每个原文语句均与每个译文语句匹配并对齐。
[0079] 本发明的方法基于实义词的相似度,解决了译后处理的原译文对齐问题。该方法 可通过机器完成,不需要通过人工处理,节省了时间,提高了效率。
[0080] 本发明实施例还提供了一种平行语料对齐的装置。如图2所示,该平行语料对齐的 装置包括:
[0081] 第一单元101,用于将原文中的所有原文语句和译文中的所有译文语句转换为相 同编码方式的字符。
[0082]第二单元102,用于对转换后的原文中的所有原文语句分词,去除其中的停用词, 获得实义词。
[0083]第三单元103,用于获取原文语句的每个实义词的所有译项。
[0084] 第四单元104,用于将每个原文语句的每个实义词的所有译项在标记后的译文中 的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
[0085] 第五单元105,用于根据每个原文语句的所有实义词和译文语句的相似度,将每个 原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
[0086] 第六单元106,用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
[0087]本发明的平行语料对齐的装置用以实现上述的平行语料对齐的方法,基于实义词 的相似度,解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实 现,实现了自动化,节省了时间,提高了效率。
[0088]本发明提供了一种以上所述仅为本发明的较佳实施例而已,并不用以限制本发 明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本发明 的保护范围之内。
【主权项】
1. 一种平行语料对齐的方法,其特征在于,包括: 将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符; 对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词; 获取所述原文语句的每个实义词的所有译项; 将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译 文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度; 根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句 和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度; 将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。2. 如权利要求1所述的平行语料对齐的方法,其特征在于,所述将每个所述原文语句的 每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实 义词和所述译文语句的相似度的过程包括: 根据sim(nwji,TRinwr) =17他3(阔川虹斷)+1)获得原文语句01?的第^'个实义词的第1 个译项nwji与第i个译文语句TRi的第r个实义词TRinwr的相似度; 根据巧)=,呼X/,切w(?w,?,巧《如)获得所述原文语句OR的第j个实义词 的第1个译项nww与所述译文语句TRi的相似度; 根据'"如(暦/、巧)=,逍化.户細(刖',/,巧))获得所述原文语句〇如勺第计实义词阔 和第i个所述译文语句TRi的相似度; 其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语 句TRi具有P个实义词,第j个实义词具有k个译项,L表示调节参数,(113(阔川私斷)表示所 述原文语句OR的第j个实义词的第1个译项nww和第i个所述译文语句TRi的第r个实义词 TRiDWr 在词典中的代码的距离,i = l,2,…,n,j = l,2,…,m,l = l,2,…,k,r=l,2,…,P。3. 如权利要求2所述的平行语料对齐的方法,其特征在于,所述根据每个所述原文语句 的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配, 获得每个所述原文语句和所述译文语句的相似度的过程包括: 根据获得所述原文语句OR与所述译文语句TRi的 相似度。4. 如权利要求3所述的平行语料对齐的方法,其特征在于,所述将与所述原文语句相似 度最高的所述译文语句和所述原文语句匹配并对齐的过程包括: 根据获得与所述原文语句OR的 相似度最高的所述译文语句; 将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所 述原文语句OR和所述译文语句。5. 如权利要求1所述的平行语料对齐的方法,其特征在于,还包括: 对转换后的所述原文中的所述原文语句按顺序进行编号; 对转换后的所述译文中的所述译文语句按顺序进行编号; 如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文 语句在所述原文中的所述编号,W及所述译文语句在所述译文中的所述编号; 如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文 语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对 齐; 如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文 语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文 语句匹配并对齐; 比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似 度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译 文语句和所述编号较大的所述原文语句匹配并对齐; 重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。6. 如权利要求2所述的平行语料对齐的方法,其特征在于:所述词典为按树形结构编码 的同义词分类词典,所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代 码。7. 如权利要求6所述的平行语料对齐的方法,其特征在于:所述调节参数L为所述按所 述树形结构编码的同义词分类词典的层数。8. 如权利要求1所述的平行语料对齐的方法,其特征在于,所述将原文中的所有原文语 句和译文中的所有译文语句转换为相同编码方式的字符的过程包括: 根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符 或者字符串,W及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语 句中的字符或者字符串; 根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字 符串转换成目标编码字符或者字符串。9. 如权利要求1所述的平行语料对齐的方法,其特征在于,所述实义词包括:名词、动 词、形容词和副词。10. -种平行语料对齐的装置,其特征在于,包括: 第一单元,用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方 式的字符; 第二单元,用于对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词, 获得实义词; 第=单元,用于获取所述原文语句的每个实义词的所有译项; 第四单元,用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中 的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的 相似度; 第五单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每 个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似 度;
【专利摘要】一种平行语料对齐的方法,包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的原文中的所有原文语句分词,去除其中的停用词,获得实义词;获取原文语句的每个实义词的所有译项;将每个原文语句的每个实义词的所有译项在转换后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度;根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度;将与原文语句相似度最高的译文语句和原文语句匹配并对齐。本发明公开一种平行语料对齐的装置。该方法和装置解决原文和译文对齐问题。
【IPC分类】G06F17/25, G06F17/22, G06F17/27
【公开号】CN105653516
【申请号】
【发明人】江潮, 张芃
【申请人】武汉传神信息技术有限公司
【公开日】2016年6月8日
【申请日】2015年12月30日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1