汉菲双语平行语料自动采集的系统及实现方法

文档序号:9217333阅读:347来源:国知局
汉菲双语平行语料自动采集的系统及实现方法
【技术领域】
[0001]本发明涉及计算机应用技术领域,尤其是涉及一种汉菲双语平行语料自动采集的系统及实现方法。
【背景技术】
[0002]“平行语料” {Parallel Tferts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料” iComparable Tferts),后者也使用不同的语言撰写、并且针对同一主题,但相互之间却不存在直接的“翻译关系”。
[0003]人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研宄中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在Xerox PARC、Brigham Young等研宄中心广泛地开展起来。1987年,MartinKay和Martin Roscheisen提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研宄等。
[0004]语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研宄的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研宄不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g.,Brown et al.1990; Melamed 2000; Och and Ney2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研宄提供了新的思路,有效改善了翻译质量,在机器翻译研宄领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g.,Gale and Church 1991; Melamed 1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g.,Davis andDunning 1995; Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研宄等的重要基础资源。双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。
加拿大蒙特利尔大学的研宄者聂建云开发的系统PT Miner (Parallel Text Miner,1999):通过搜索引擎查找含有特定锚文本的网站构成双语候选网站,再依赖预先定义的语言的前后缀表,抽取出具有URL命名相似性的候选网页即如果某一 URL含有一种语言的前后缀,则将这些前后缀替换为另一种语言的,构建出一个URL,如果这样构建出来的URL存在。则找到了一对候选网页对,最后再根据文本长度,网页的HTML标记结构,网页的语言等特征过滤掉候选网页中不平行的网页对。PT Miner系统在中英平行网页文本挑出几百对的中英平行网页对,经过人工的评价,有将近90%的准确率。获取到的英文文本有137M,中文文本有117M。
美国马里兰大学的研宄者Resnik开发的系统STRAND (Structural Translat1nRecognit1n, Acquiring Natural Data,2003)也是利用搜索引擎和定义的挑选候选网站的规则来得到双语候选网站。同PT Miner相比,STRAND再利用URL命名相似性来查找一个网站内的候选网页对时,采取在中、英URL中删去预先定义与语言相关的字符串的方式,如果去除语言相关的字串后,中、英URL相等,则说明当前的中英URL是一对候选双语平行网页。此外,STRAND更加细致深入的研宄了平行网页在结构上具有的相似性,采用了更多的基于网页结构的特征来过滤掉候选平行网页中不是互为翻译的网页对。人工评估了大约400对的中英平行网页对,取得了 98%的准确率和61%的召回率。STRAND系统获取到大约3,500 对中英平行网页对。BITS (Bilingual Internet Text Search, Ma and Liberman1999),下载指定域名下的所有网站作为候选网站,定义了一种计算中英网页内容之间相似度的计算方式即互翻译词占文本总词数的比例,来进行中英平行网页对的确定。澳大利亚莫纳什大学陈纪舱等人开发的 PTI (The Parallel Text Identificat1n System, 2004)通过网页采集器下载了大量的双语网页之后,首先通过了文件名比较模型即根据URL命名的相似性来得到双语平行网页对,原理同PT Miner,在这一过程没有相应对齐链接的网页再通过一个文件内容分析模型,定义了计算网页文本内容之间的相似度计算方式,从而得到双语平行的网页对。PTI系统总共获取到193对的中英平行文本,其中180对是正确的,正确率为93%,召回率为96%。
亚洲微软研宄院的吴克等人开发的WPDE (Web Parallel Data Extract1n,2006)在利用搜索引擎获取候选网站时,不仅利用了锚文本还采用了图片的ALT信息。在根据URL命名相似性获取候选双语平行网页对时,采用将URL分成pathname和basename,pathname的配对查找上也利用预先定义的启发式字符串,在具体的查找时定义了一些匹配规则;basename的查找配对不用于前面系统采用的基于预先定义的字符串形式,而是基于改进的最小编辑距离算法,这样的方式经过试验证明取得了更好的效果。候选双语平行网页对的过滤时除采用了文本长度,网页html结构等特征,还引入了一个基于网页内容的特征即候选双语平行网页文本句子对齐的好坏。在同PTI同样的测试集合上,WPDE系统取得了 97%的正确率与94%的召回率。
[0005]随着网络信息时代的高速发展,网络资源正以爆炸式的方式不断增长。互联网是现代信息的重要来源,人们可以通过互联网得到大量的信息资源,但互联网中混杂着大量各式各样的数据,如何从互联网中的海量信息中提取有价值的双语数据,是目前数据采集人员和相关企业所面临的重要问题。研宄基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。目前,针对汉菲双语平行语料的语料采集工具和方法还非常欠缺,能进行自动采集的就更寥寥无几。所以现急需一种能自动采集汉菲双语平行语料的方法来解放语料采集人员繁琐的采集工作和为企业提供有价值的语料资源。

【发明内容】

[0006]针对现有技术的不足,本发明提供一种汉菲双语平行语料自动采集的系统及实现方法,建立了一个基于Web的双语语料自动获取系统,从互联网中自动采集网络汉菲双语平行语料,能够自动获取文本级汉菲双语平行语料库和句子级的汉菲双语平行语料库,实现了汉菲双语平行信息自动发现、自动提取、自动整理的双语平行语料采集系统。
[0007]本发明是采用以下技术方案实现的:
一种汉菲双语平行语料自动采集的系统,包括汉菲双语平行信息的自动发现模块、自动提取模块、自动整理模块,其特征在于:
(O自动发现模块:实现汉菲双语平行语料自动发现的功能,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;
(2)自动提取模块:实现汉菲双语平行语料自动提取的功能,通过访问搜
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1