汉印双语平行语料自动采集的系统及实现方法_2

文档序号:9326947阅读:来源:国知局
行信息,进行数据过滤,并将经过过滤处理后的汉印双语平行数据存放到汉印双语平行语料库。
[0008]所述自动发现模块的汉印双语平行语料自动发现工作流程为:制定一组或多组汉印互译关键词组,通过搜索引擎获取搜索结果,分析搜索结果并以之为目标进行数据获取。
[0009]所述自动发现模块的汉印双语平行语料自动发现设计原则为:
a.所选关键词组应为特定领域范围内的汉印互译词组对;
b.使用的第三方搜索引擎工具为开放式提供搜索服务方;
c.通过关键词组搜索得到结果后,只保存前η页信息,η与所选关键词的热门程度关联,保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。
[0010]所述自动提取模块的双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问,使用对应的汉印互译关键词组对目标页面内容进行内容定位,从定位点开始,前后遍历并获取页面数据。
[0011]所述自动提取模块的网络双语平行语料提取原则:
a.规定访问的页面文件类型只能为“!^!^”、“!^!!!”、、!^!^”以及常见的页面文件类型,对非规定类型的页面将不进行访问;
b.访问目标网页前,网络检查目标网站的robots,txt文件,若目标页面存在于robots, txt文件上,将不对该目标网页进行访问;
c.要多抽取完整双语数据,在抽取过程中,包含在目标语言数据里的html标签页将视为抽取对象。
[0012]所述自动提取模块的工作流程主要包含以下几个步骤:
(1)非目标语言信息过滤:分别对采集到的汉印数据进行字符过滤,主要过滤html标签、网页代码和一些非语言符号,去除采集信息中的噪音数据,得到干净的汉印双语平行数据;
(2)汉印分词过程:使用汉语和印度尼西亚语分词工具,对汉语和印度尼西亚语数据进行分词操作,为后面的数据处理过程提供基础。
[0013]所述自动整理模块的工作流程主要包含以下几个步骤:
(I)长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤,分别对抽取回来的汉印双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算,将长度差距较大的数据进行过滤,并进行汉印双语平行数据的互译匹配判断,筛选出正确的平行数据;
(2 )将经过处理后的汉印双语平行数据将存放入汉印双语平行语料库。
[0014]所述汉印双语平行语料自动采集系统的实现方法为:设置数据采集服务器、数据处理服务器、数据存储服务器和外网交换机、内网交换机,将自动发现模块嵌入数据采集服务器,自动提取模块、自动整理模块嵌入数据处理服务器,为保证数据安全,使用内外网物理隔离。当数据采集服务器需要访问互联网时,数据采集服务器将与外网交换机连接,并断开与内网交换机的连接。当数据采集服务器需要访问内网时,数据采集服务器将与内网交换机连接,并断开与外网交换机的连接。外网交换机实现外网间的通讯。内网交换机实现内网间的通讯。
[0015]数据采集人员将数据采集服务器与外网交换机连接,使数据采集服务器能访问到互联网服务。数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组。确定采集任务后,向数据采集服务器发送启动自动采集请求;数据采集服务器接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数据自动发现程序。通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地;数据采集人员将数据采集服务器与外网交换机断开连接,并与内网交换机连接。数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序,数据处理服务器读取存储在数据采集服务器中的搜索结果,进行数据自动提取和自动整理。程序完成工作后,将获取到的所有的双语数据保存于数据存储服务器。
[0016]本文的汉印双语是指汉语和印度尼西亚语。
[0017]汉语(Hdmyii)又称“华语”,是汉族的母语,亦是中华人民共和国和新加坡的官方语言、联合国官方语言,也是世界上使用人数最多的语言,主要流通于中国、新加坡、马来西亚,以及缅甸、泰国、美国、加拿大、澳大利亚、新西兰、日本等国家的海外华人社区。也是马来西亚、缅甸、美国、加拿大、澳洲、新西兰等国家的通用少数民族语言。
[0018]印度尼西亚语(Bahasa Indonesia)是以廖内方言为基础的一种马来语,是印度尼西亚的官方语言。全世界约有1700万到3000万人将印度尼西亚语作为他们的母语,还有大约1.4亿人将印度尼西亚语作为第二语言,能较熟练的读和说印度尼西亚语。印度尼西亚的所有地区都通用印尼语,同时在荷兰、菲律宾、沙特阿拉伯、新加坡和美国也有许多人使用印尼语。为了能与马来语书面文字的统一 1972年印尼政府推出以马来文拼写系统为标准的精确拼音(Ejaan Yang Disempurnakan)使到现在印尼语跟马来语拼写非常接近。
[0019]本发明的突出的实质性特点和显著的进步是:
1、本发明提供的一种汉印双语平行语料自动采集的系统及实现方法,充分利用网页汉印双语平行语料自动发现技术、网页汉印双语平行语料自动提取技术和网页汉印双语平行语料过滤技术,形成汉印双语平行语料的自动采集方法和系统;
2、本发明使用的方案能从海量的互联网信息中收集有价值的汉印双语平行语料并进行分析研究,为汉印语言研究和机器翻译应用提供重要基础数据,解决了语料采集人员和研究人员所面临的数据来源的问题,为双语语料自动采集的发展和汉印自然语言处理做出了杰出的贡献;
3、平行语料库是语料库的一种重要类型,汉印平行语料库的建设目前还是空白,本发明的一种汉印双语平行语料自动采集的系统及实现方法,其中包括汉印双语平行信息自动发现、自动提取和自动整理,可以在语言对比、翻译研究、语言教学和词典编纂方面发挥独特作用;
4、应用本发明所提供的方案,能够获取两种语言之间的平行语料,从而解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统;
5、在翻译课教学中,利用本发明的平行语料库,可以提供丰富的译例,确定多种译文的可能性,并择优选择,根据平行语料库信息还可以用来验证双语词典、教学词典、语法书中的例证、定义、使用规则和使用环境,从而确定教学重点;
6、汉印双语平行语料库建设与获取存在着很大的困难,虽然投入了大量的人力、物力和财力,但是汉印双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用,鉴于互联网上的大规模双语文本并且具有很好的时效性和覆盖性,本发明使用的系统和方法能从海量的互联网信息中收集有价值的汉印双语平行语料并进行分析研究,并建成汉印双语平行语料库,推动相关技术发展和实用化具有重要的意义;
7、利用本发明的系统收集到相关的双语数据与旅游景点、博物馆、科技展览馆等的电子导览设备连接,能够把景区和陈列展示的物品图文并茂的用双语对照的形式表现出来,使游客在边看边听中,汲取知识,了解内涵,享受文化,游客们可以充分了解观赏对象深厚的文化底蕴,同时,景点、展品的丰富内涵在对照浏览后得到升华。
【附图说明】
[0020]图1是本发明汉印双语平行语料自动采集的系统及实现方法的系统结构图;
图2是本发明汉印双语平行语料自动采集的方法的流程图;
图3是本发明汉印双语平行语料过滤的方法的流程图;
图4是作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图;
图5是本发明系统的网络拓扑结构图。
【具体实施方式】
[0021]
在下面的说明书部分中给出本发明实施例的具体实现方式,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
[0022]如图1所示,一种汉印双语平行语料自动采集的系统,包括汉印双语平行信息的自动发现、自动提取、自动整理,首先是汉印双语平行数据自动发现过程,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次是汉印双语平行语料自动提取过程,通过访问搜索结果数据库里的网页,自动提取汉印双语平行信息;最后是汉印双语平行语料自动整理过程,针对自动提取的汉印双语
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1