双语文本的句子对齐方法

文档序号:6636343阅读:1495来源:国知局
双语文本的句子对齐方法
【专利摘要】本发明涉及一种文本自动翻译【技术领域】,公开了一种双语文本的句子对齐方法,在自动对齐前,在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,然后在所述若干对齐区间内分别进行自动对齐。所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。采用本发明的双语文本的句子对齐方法,句子对齐的准确率较现有自动对齐方法高,而且随着标定对齐锚点数数量提高而提高,理论上句子对齐准确率接近100%。同时大大降低人工审核的工作量投入纠正,提高了自动翻译语料库的制作效率。
【专利说明】双语文本的句子对齐方法

【技术领域】
[0001] 本发明涉及文本自动翻译【技术领域】,尤其涉及到制作自动翻译语料库所必须的双 语文本的句子对齐方法。

【背景技术】
[0002] 自动翻译语料库存有大量已经对齐的双语句子。文本自动翻译离不开自动翻译语 料库的支撑。一般情况下,传统的双语文本的句子自动对齐方法的准确率在80%左右徘徊。 如果希望获得高质量的双语对齐语料,则必须在自动处理后采取人工审核。人工审核的工 作包括:1)从大量文本自动对齐的平行语料中找到其中错误的对齐;2)手动调整对齐的内 容。事后的人工审核工作存在两方面不利影响,一是人工工作量大,二是降低了对齐语料的 产生效率。
[0003] 例如2006年5月出版的《哈尔滨工业大学学报》公开了《基于长度和位置信息的 双语句子对齐方法》的论文(国家自然科学基金资助项目),该方法基于长度和位置信息, 采用锚点定位法进行双语句子自动对齐。但是,该方法在自动对齐过程中存在错误的蔓延 问题,即,某一个步骤产生的锚点定位不准确或错误,导致后续步骤在前步骤错误的基础上 蔓延或扩大,使自动对齐的准确率继续下降。


【发明内容】

[0004] 本发明所要解决的技术问题是提供一种双语文本的句子对齐方法,克服现有技术 在制作双语平行语料的过程中所存在的错误蔓延扩大的缺陷。
[0005] 为解决上述技术问题,本发明提供一种双语文本的句子对齐方法,在自动对齐前, 在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,然后在 所述若干对齐区间内分别进行自动对齐。
[0006] 所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对,通常用句子在 原、译中的序列号标识,如[20,21]表示原文中的第20句与译文中的第21句是对齐的一对 句子。
[0007] 进一步优化的方案是,所述对齐锚点在双语文本中均匀分布。这样可最佳地克服 自动对齐出现错误对齐锚点的错误蔓延效应。
[0008] 更进一步的优化方案是,在进行自动对齐后,检查所述对齐区间内的句子对齐结 果,对自动对齐过程错误标定的对齐锚点行进修改。
[0009] 更加优选的,对于自动对齐后的所述对齐区间,增加标定新的对齐锚点,然后重新 进行自动对齐。
[0010] 采用本发明的双语文本的句子对齐方法,句子对齐的准确率较现有自动对齐方法 1?,而且随着标定对齐铺点数数量提1?而提1?,理论上句子对齐准确率接近100%。同时大 大降低人工审核的工作量投入纠正,提高了自动翻译语料库的制作效率。

【专利附图】

【附图说明】 toon] 下面结合附图和【具体实施方式】对本发明的技术方案作进一步具体说明。
[0012] 图1为本发明【具体实施方式】的整体流程示意图。
[0013] 图2为本发明所应用的双语句子自动对齐模块的一次嵌套流程图。

【具体实施方式】
[0014] 如图1所示的本发明【具体实施方式】的整体流程,包括:
[0015] 步骤101 :在自动对齐前,在双语文本中均匀分布标定若干对齐锚点,对齐锚点将 双语文本区分为若干对齐区间,例如:在文本的1/8、1/4、3/8、1/2、5/8、3/4、7/8处标定7处 对齐锚点,将文本分为8个等分区间或片段。这样做的好处是为后续的自动对齐先提供一 个正确的参照,避免错误的叠加效应;二是将自动对齐限定在小长度文本区间或片段内,避 免一个区间或片段的错误标定蔓延或外溢到其他区间或片段,客观上为纠错设定了边界。
[0016] 步骤102 :运行自动对齐模块,分别在对齐锚点划分的若干对齐区间内进行自动 对齐。
[0017] 步骤103 :在进行自动对齐后,检查各对齐区间内的句子对齐结果,
[0018] 步骤104 :判断是否符合对齐要求?如果是,则整个工作结束。如果否,则
[0019] 步骤105 :对自动对齐过程错误标定的对齐锚点行进修改,
[0020] 步骤106 :在对齐区间内新增加对齐锚点,然后返回步骤102,重新进行自动对齐。
[0021] 如此往复多次完成双语文本的对齐工作,在这个过程中人工投入的检查和纠正工 作量大大减小,以前人工要全检的工作连降低到50%,另外修改量也大大减小,最大可以节 省 50%。
[0022] 自动对齐模块所涉及的算法、公式定义如下:
[0023] 公式中所有长度均为字节长度,对于中英文本,每个中文汉字算为2个字节,每个 英文字母及英文符号计算为一个字节。
[0024] 全文长度比:P。= Ls/Lt
[0025] 注:Ls代表原文s的文本总长度,Lt代表译文t的文本总长度;
[0026] 原译句长度比=PJi, j] = Lsi/LtJ
[0027] 注:Lsi代表原文s第i句的长度,Lu代表译文第j句的文本长度;
[0028] 原译文上部长度比:Pu[i,j] = Usi/Ut
[0029] 注:Usi:代表原文s第i句上半部分的文本长度,Utj代表译文t第j句上半部分 文本长度;
[0030] 原译文下部长度比:Pd[i,j] = Dsi/Dtj
[0031] 注:Dsi:代表原文s第i句下半部分的文本长度,Dw代表译文t第j句下半部分 文本长度;
[0032] 最优形式对齐评价函数:
[0033]

【权利要求】
1. 一种双语文本的句子对齐方法,其特征在于,在自动对齐前,在双语文本中标定若干 对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,在所述若干对齐区间内分别进 行自动对齐;所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。
2. 根据权利要求1所述的双语文本的句子对齐方法,其特征在于,所述对齐锚点在双 语文本中均匀分布标定。
3. 根据权利要求1或2所述的双语文本的句子对齐方法,其特征在于,在进行自动对齐 后,检查所述对齐区间内的句子对齐结果,对自动对齐过程错误标定的对齐锚点进行修改 标定。
4. 根据权利要求3所述的双语文本的句子对齐方法,其特征在于,对于自动对齐后的 所述对齐区间,增加标定新的对齐锚点,然后重新进行自动对齐。
【文档编号】G06F17/28GK104360996SQ201410706236
【公开日】2015年2月18日 申请日期:2014年11月27日 优先权日:2014年11月27日
【发明者】江潮, 何征宇 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1