基于句长惩罚因子的富含信息量句子的选择方法

文档序号：6544738阅读：307来源：国知局

基于句长惩罚因子的富含信息量句子的选择方法
【专利摘要】本发明公开了一种基于句长惩罚因子的富含信息量句子的选择方法，步骤包括：步骤1、构建初始的统计机器翻译系统；步骤2、构建信息量化单元集合X及进行信息量计算；步骤3、进行专业翻译，得到平行语料句对集合；步骤4、对语料库进行更新；步骤5、对统计机器翻译系统重新训练；步骤6、进行过程迭代及算法评价。本发明的带句长惩罚因子的富含信息量句子选择方法可以有效地对源语言单语言句子进行信息量计算，平衡所选择句子绝对信息量与句长的关系，实现对信息量最大句子的选择准确率，从而使得人工翻译价值最大化和有限数据效能的最大化。
【专利说明】基于句长惩罚因子的富含信息量句子的选择方法
【技术领域】
[0001]本发明属于计算语言学/统计机器翻译【技术领域】，涉及一种基于句长惩罚因子的富含信息量句子的选择方法。
【背景技术】
[0002]基于统计方法或语料库方法的机器翻译技术本质上是基于数据驱动的翻译方法，因此，数据规模的大小和数据本身的好坏对翻译性能有着至关重要的影响。要获得一个高质量的统计机器翻译系统，通常需要大规模的双语平行语料，而目前这对很多语言来说是无法实现的。目前已经有很多方法可以缓解这类问题，比如使用复述技术或者用可比较语料等。但对于资源缺乏的语言来说，数据规模是统计机器翻译技术研究的瓶颈问题，也是亟待解决的核心问题之一。
[0003]在现今众多语系中，还有多数是属于“低密度”语言，使用这种语言的人并不多，SP便有数以百万的人讲这种语言，但是可用的数字化的平行语料库还是十分匮乏。例如，我国少数民族众多，随着经济的发展，少数民族语言及信息处理研究与应用成为振兴地区经济、推动地区发展和促进文化交流的重要手段之一。在这种背景下，对“低密度”语言的高质量统计机器翻译系统的需求就显得尤为迫切。总体来讲，两种方案可以有效缓解这种需求:(I)构建大规模双语平行语料库；(2)以现有的一定规模双语平行语料库为基础，构建大规模单语语料库，采用高效的方法从单语语料中生成双语数据，扩展数据的效能。
[0004]事实上，大规模双语平行语料库的构建是一个系统工程，需要大量的人力、物力和财力投入，尤其是高质量的语料库，需要相当长的时间才能完善。而信息技术的发展瞬息万变，新词和新知识层出不穷，如何提出可行的方法，有效利用当前已经构建的双语平行语料和单语语料库以适应新的知识，提高面向资源缺乏语言的统计机器翻译质量，在当前显得尤为重要和迫切。
[0005]现有的富含信息量句子一般性的选择算法存在的主要问题是:当大规模单语语料库中句子长度差别较大时，现存的方法会倾向于选择句长较短的句子，从而造成所挑选的句子使得所生成的双语语料无论在对测试集的覆盖率还是对翻译引擎短语表的概率估计上都表现不好，造成使用选择算法所生成的双语语料的机器翻译系统的翻译性能低于使用随机方法产生的双语语料的机器翻译系统性能，从而造成富含信息量句子的挑选没有任何意义。

【发明内容】

[0006]本发明的目的是提供一种基于句长惩罚因子的富含信息量句子的选择方法，解决了现有技术中，倾向于选择句长较短的句子，从而造成所挑选的句子使得所生成的双语语料无论在对测试集的覆盖率还是在对翻译引擎短语表的概率估计上都表现不好，影响机器翻译系统性能的问题。
[0007]本发明所采用的技术方案是，一种基于句长惩罚因子的富含信息量句子的选择方法，按照以下步骤具体实施:
[0008]步骤1、构建初始的统计机器翻译系统
[0009]使用初始双语平行语料L = Kfi, e,)}来训练统计机器翻译系统，其中L表示初始双语平行语料库，fi，e,分别表示L中第i个平行句对，即第i个汉语句子和第i个英文句子，{i=l,...N}；
[0010]步骤2、构建信息量化单元集合X及进行信息量计算
[0011]根据所定义的信息表示单元X,从大规模单语语料U = {fj}中挑选句子集合仏,带
句长惩罚因子的富含信息量句子选择算法如下:
[0012]
【权利要求】
1.一种基于句长惩罚因子的富含信息量句子的选择方法，其特征在于，按照以下步骤具体实施: 步骤1、构建初始的统计机器翻译系统使用初始双语平行语料L= KfiWiM来训练统计机器翻译系统，其中L表示初始双语平行语料库，fi，e,分别表示L中第i个平行句对，即第i个汉语句子和第i个英文句子，{i=l,…N}；步骤2、构建信息量化单元集合X及进行信息量计算根据所定义的信息表示单元X，从大规模单语语料U = {fj}中挑选句子集合un,带句长惩罚因子的富含信息量句子选择算法如下:
2.根据权利要求1所述的基于句长惩罚因子的富含信息量句子的选择方法，其特征在于，所述的步骤6中，进行25次迭代后停止；计算25次迭代BLEU得分的均值，与随机方法的均值进行比较，衡量句子选择算法的性能，均值越大则说明算法越好。
【文档编号】G06F17/28GK103955456SQ201410168282
【公开日】2014年7月30日申请日期:2014年4月23日优先权日:2014年4月23日
【发明者】杜金华, 张萌申请人:西安理工大学

完整全部详细技术资料下载

上一篇：时钟频率调制的方法和时钟频率调制装置制造方法
上一篇：一种动态缓存污染防治系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。