一种基于关键词的中英双语平行语料库构建方法

文档序号:6633327阅读:1331来源:国知局
一种基于关键词的中英双语平行语料库构建方法
【专利摘要】本发明公开了一种基于关键词的中英双语平行语料库构建方法,该方法包括如下步骤:1)建设双语平行语料库;2)自动对齐;3)抽取关键词;4)建成基于关键词的双语平行语料库。本发明从网络上获取传统的平行语料库,然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语料库。实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量,从实验的BLEU值来看,在英到中的翻译中,能提高大约6.2%,而在中英翻译中能提高2.52%。
【专利说明】一种基于关键词的中英双语平行语料库构建方法

【技术领域】
[0001] 本发明涉及一种语料库的构建方法,尤其涉及一种基于关键词的中英双语平行语 料库构建方法。

【背景技术】
[0002] 语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,科研和 企业单位可开展相关的语言理论及应用研究。双语平行语料库是两种语言的篇章、段落和 句子级别的对齐文本。
[0003] 可以说,语料库是自然语言处理多项领域技术的基础。按照语料的语种,语料库 也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)语料 库。按照语料的采集单位,语料库又可以分为篇章的、句子的、短语的。双语和多语语料库 按照语料的组织形式,还可以分为平行(对齐)语料库(Parallel Corpora)和比较语料库 (ComparabIe Corpora),前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用 领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
[0004] 再具体的讲,不同的语料库可以用于不同的应用领域。如面向机器翻译的语料库 训练集、面向文本分类研究的中英文新闻、法律分类语料、以IG卡方等特征词选择方法生 成的多维度ARFF格式中文VSM模型、万篇随机抽取论文中文DBLP资源、用于非监督中文分 词算法的中文分词词库、UCI评价排序数据、带有初始化说明的情感分析数据集等。而不论 是何种目的,现今已经达成共识,语料库应该是能反映出现实世界的大规模真实电子文本。
[0005] 大规模"语料库"已经成为大数据时代的"宠儿"。如今我们可以从这些大规模的 真实的文本中提取中各种有用的信息。总体来讲,语料库是当前各种自然语言处理(比如, 机器翻译、拼音汉字转换、语音识别、文本分类和聚类、人机问答系统等)的基础性工作,很 多工作没有它,当前主流的统计方法,也就毫无根基可言了。经过不同深度加工的(纯文本、 分词文本、标注文本、语义文本、篇章对齐文本、句子对齐文本等)真实文本的语料库,是研 究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。鉴于语料库的重要性, 构建"大规模的"、"真实的"文本语料库就显得十分重要了。
[0006] 从文本的对齐级别来区分构建的语料库的话,可以分为短语对齐(phrase alignment)文本、句子对齐(sentence alignment)文本、篇章对齐(document alignment) 文本。其中句子级别的对齐对当前自然语言处理很多领域有着不可替代的作用。在语料库 构建中,为了服务当前和今后相当长的一段时间的应用,我们充分考虑以下四类语料文本 的建设: 信息丰富的词典语料库:词典作为基础性资源含有丰富的信息(比如人名、地名以及词 的搭配信息等),这些丰富的信息资源,对自然语言处理的很多工作是非常重要的,比如作 为自动词对齐的参考、双语训练的文本、术语库的补充等等。
[0007] 篇章对齐语料库的研制:篇章对齐是两种或者两种以上的基于段落或者篇章对齐 的翻译文本。篇章对齐的语料库可以为机器翻译和语音识别、信息检索等领域采用。篇章 对齐包含了丰富的上下文信息:词语间的指代关系、语境信息等。
[0008] 句子对齐语料库的研制:句子对齐的文本通常是由双语或多语的对应翻译文本构 成,在机器翻译和跨语言的信息检索(cross-language information retrieval)中占据极 其重要的作用,目前包括词典的自动编撰、术语的自动抽取等 可比较语料库的研制:可比较语料库(Comparable Corpora)是来自同一个领域不同的 两种语言对。它的出现,可以弥补双语平行语料库库的稀缺现状。这种语料库既可以抽取 平行语料库,也可以用来抽取对齐的短语片段,也可以用来抽取专业术语,是解决多语翻译 的一种可替代方案。


【发明内容】

[0009] 本发明的目的在于提供一种基于关键词的中英双语平行语料库构建方法,解决现 有技术存在的缺憾。
[0010] 本发明采用如下技术方案实现: 一种基于关键词的中英双语平行语料库构建方法,其特征在于,该方法包括如下步 骤: 1) 建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬 虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料 库; 2) 自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信 息,抽取所有词和词组作为关键词的一部分; 3) 抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述 概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和 抽取出来的词组进行相似度计算,经过过滤后的词组加入到平行语料库中,构成基于关键 词的双语平行语料库; 4) 建成基于关键词的双语平行语料库: 进一步的,在分步骤(4)中,对齐包括篇章对齐、断句或句子对齐。
[0011] 进一步的,抽取关键词时去除概率低于〇. 0001的短语。
[0012] 本发明的有益技术效果是:采用网络爬虫从网络上获取传统的平行语料库,然后 采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度 的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语 料库。实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质 量,从实验的BLEU值来看,在央到中的翻译中,能提1?大约6. 2%,而在中央翻译中能提1? 2. 52%。

【专利附图】

【附图说明】
[0013] 图1是基于关键词的双语平行语料库构建流程图。
[0014] 图2是构建语料库中的领域分布情况。

【具体实施方式】
[0015] 通过下面对实施例的描述,将更加有助于公众理解本发明,但不能也不应当将申 请人所给出的具体的实施例视为对本发明技术方案的限制,任何对部件或技术特征的定义 进行改变和/或对整体结构作形式的而非实质的变换都应视为本发明的技术方案所限定 的保护范围。
[0016] 具体实施例:一种基于关键词的中英双语平行语料库构建方法,该方法包括如下 步骤: 1) 建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬 虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料 库; 2) 自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信 息,抽取所有词和词组作为关键词的一部分; 3) 抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述 概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和 抽取出来的词组进行相似度计算,经过过滤后的词组加入到平行语料库中,构成基于关键 词的双语平行语料库; 4) 建成基于关键词的双语平行语料库: 在另一实施例中,在分步骤(4)中,对齐包括篇章对齐、断句或句子对齐。
[0017] 在又一实施例中,抽取关键词时去除概率低于0. 0001的短语。
[0018] 基于关键词的双语平行语料库来源于这样一个事实:给定一个英文句子,我们很 可能不知道整句话的确切翻译,究其原因就是对句中的部分词或者短语不知道确切的翻 译。但是如果被告知这些"关键词"我们很快的就能理解整个句子的意思。对于部分"关键 词"的不可知性,导致我们难于理解或者理解不全一句话,这往往来自于我们大脑记忆深处 的"漏洞",或者说是词汇的匮乏。统计机器翻译中对语言文本的难"理解",往往也是基于 这些前期"学习"的翻译对的不足。针对这个特点,本实施例特别设计一种包含有句中关键 词的双语平行语料库。基于关键词的双语平行语料库如下表所示:

【权利要求】
1. 一种基于关键词的中英双语平行语料库构建方法,其特征在于,该方法包括如下步 骤: 1) 建设双语平行语料库:本步骤中包括如下分步骤:(1)源网站搜集、(2)通过网络爬 虫获取网站HTML、(3)对网站HTML进行解析、(4)对齐、(5)去除噪音、(6)得到平行语料 库; 2) 自动对齐:利用开源工具GIZA++进行词语对齐,得到对齐文本,借助对齐文本的信 息,抽取所有词和词组作为关键词的一部分; 3) 抽取关键词:对词和词组进行过滤,过滤的方法为概率去除法或相似度去除法,所述 概率去除法为将低概率的短语对齐对去除,所述相似度去除法为从书籍的双语词典中去和 抽取出来的词组进行相似度计算,经过过滤后的词组加入到平行语料库中,构成基于关键 词的双语平行语料库; 4) 建成基于关键词的双语平行语料库。
2. 根据权利要求1所述的基于关键词的中英双语平行语料库构建方法,其特征在于, 在分步骤(4)中,对齐包括篇章对齐、断句或句子对齐。
3. 根据权利要求1或2所述的基于关键词的中英双语平行语料库构建方法,其特征在 于,抽取关键词时去除概率低于0. 0001的短语。
【文档编号】G06F17/30GK104408078SQ201410618941
【公开日】2015年3月11日 申请日期:2014年11月7日 优先权日:2014年11月7日
【发明者】程维 申请人:北京第二外国语学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1