汉缅双语平行语料自动采集的系统及实现方法_4

文档序号:9217336阅读:来源:国知局
时,服务器A将与交换机Y连接,并断开与交换机X的连接。
[0053] 交换机X实现外网间的通讯。
[0054] 交换机Y实现内网间的通讯。
[0055] 其工作过程如下: (1)数据采集人员将服务器A与交换机X连接,使服务器A能访问到互联网服务。数据 采集人员使用外网台式计算机编排需要采集数据的相关关键词组。确定采集任务后,向服 务器A发送启动自动采集请求。
[0056] (2)服务器A接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数 据自动发现程序。通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地。 [0057] (3)数据采集人员将服务器A与交换机X断开连接,并与交换机Y连接。数据采集 人员启动服务器B中的数据自动提取和自动整理程序,服务器B读取存储在服务器A中的 搜索结果,进行数据自动提取和自动整理。程序完成工作后,将获取到的所有的双语数据保 存于服务器C。
[0058] 应用实施例3 : 曼德勒是缅甸第二大城市,位于缅甸中部偏北的内陆,是几个古代王朝曾经建都的地 方。也是华侨大量聚集的城市,曼德勒地区被列为联合国世界文化遗产,可看的古迹很多, 也是著名的观光旅游地,中国每年都有许多人去观光游览,由于当地讲解人员有限,特别是 汉语讲解,很难为每位游客提供规范如一的讲解服务,于是在一些比较著名的景点设置电 子导游机系统,使用本发明的系统收集到相关的双语数据,可以把景区和陈列展示的物品 图文并茂的用汉缅双语对照的形式表现出来,使观众在边看边听中,汲取知识,了解内涵, 享受文化。游客们可以充分了解观赏对象深厚的文化底蕴。睹物思情、浮想联翩,景点、展 品的丰富内涵在对照浏览后得到升华。
[0059] 应用实施例4 : 仰光是缅甸联邦共和国的原首都和最大城市,仰光素有"和平城"的美称。地处缅甸最 富饶的伊洛瓦底江三角洲,是缅甸的政治、经济、文化中心,该城市的博物馆、科技馆、会展 中心等室内展馆内,用电子导览系统取代了人工导游以及因噪音大而影响它人游览的高音 喇叭,该系统与本发明的系统联网,通过汉缅双语对照的形式对陈列展品的内容以图文并 茂的方式展现给游客,使游客在观赏展品的过程中使其内涵得以延伸,更加生动。游客在充 分欣赏了展品的外观表象后,又获得了丰富的知识。除此以外,游客还可以通过触摸屏上的 按钮,查询展区的位置及路径,自由地享受自助游览的乐趣。
[0060] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应 涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
【主权项】
1. 一种汉缅双语平行语料自动采集的系统,包括汉缅双语平行信息的自动发现模块、 自动提取模块、自动整理模块,其特征在于: (1) 自动发现模块:实现汉缅双语平行语料自动发现的功能,制定需要采集语料的关键 词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选 后,将经过滤得搜索结果存储于搜索结果数据库; (2) 自动提取模块:实现汉缅双语平行语料自动提取的功能,通过访问搜索结果数据库 里的网页,自动提取汉缅双语平行信息; (3) 自动整理模块:针对自动提取的汉缅双语平行信息,进行数据过滤,并将经过过滤 处理后的汉缅双语平行数据存放到汉缅双语平行语料库。2. 根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述自动 发现模块的汉缅双语平行语料自动发现工作流程为:制定一组或多组汉缅互译关键词组, 通过搜索引擎获取搜索结果,分析搜索结果并以之为目标进行数据获取。3. 根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述自动 发现模块的汉缅双语平行语料自动发现设计原则为: a. 所选关键词组应为特定领域范围内的汉缅互译词组对; b. 使用的第三方搜索引擎工具为开放式提供搜索服务方; c. 通过关键词组搜索得到结果后,只保存前n页信息,n与所选关键词的热门程度关 联,保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。4. 根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述自动 提取模块的双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问,使 用对应的汉缅互译关键词组对目标页面内容进行内容定位,从定位点开始,前后遍历并获 取页面数据。5. 根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述自动 提取模块的网络双语平行语料提取原则: &规定访问的页面文件类型只能为"1^1111"、"1^111"、"此加1"以及常见的页面文件类 型,对非规定类型的页面将不进行访问; b. 访问目标网页前,网络检查目标网站的robots,txt文件,若目标页面存在于 robots,txt文件上,将不对该目标网页进行访问; c. 要多抽取完整双语数据,在抽取过程中,包含在目标语言数据里的html标签页将 视为抽取对象。6. 根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述自动 提取模块的工作流程主要包含以下几个步骤: (1) 非目标语言信息过滤:分别对采集到的汉缅数据进行字符过滤,主要过滤html 标签、网页代码和一些非语言符号,去除采集信息中的噪音数据,得到干净的汉缅双语平行 数据; (2) 汉缅分词过程:使用汉语和缅甸语分词工具,对汉语和缅甸语数据进行分词操 作,为后面的数据处理过程提供基础。7. 根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述自动 整理模块的工作流程主要包含以下几个步骤: (1)长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤,分别对抽取回来 的汉缅双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算,将长度差距较 大的数据进行过滤,并进行汉缅双语平行数据的互译匹配判断,筛选出正确的平行数据; (2 )将经过处理后的汉缅双语平行数据将存放入汉缅双语平行语料库。8.根据权利要求1所述的汉缅双语平行语料自动采集的系统,其特征在于,所述汉缅 双语平行语料自动采集系统的实现方法为:设置数据采集服务器、数据处理服务器、数据 存储服务器和外网交换机、内网交换机,将自动发现模块嵌入数据采集服务器,自动提取模 块、自动整理模块嵌入数据处理服务器; 数据采集人员将数据采集服务器与外网交换机连接,使数据采集服务器能访问到互联 网服务,数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组,确定采集 任务后,向数据采集服务器发送启动自动采集请求,数据采集服务器接收台式电脑传输的 关键词组数据和任务启动命令后,开始运行数据自动发现程序,通过互联网获取所有关键 词组的搜索结果后,将搜索结果保存到本地;数据采集人员将数据采集服务器与外网交换 机断开连接,并与内网交换机连接; 数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序,数据处理服务 器读取存储在数据采集服务器中的搜索结果,进行数据自动提取和自动整理,程序完成工 作后,将获取到的所有的双语数据保存于数据存储服务器。
【专利摘要】一种汉缅双语平行语料自动采集的系统及实现方法,包括汉缅双语平行信息的自动发现、自动提取、自动整理,首先,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次,通过访问搜索结果数据库里的网页,自动提取汉缅双语平行信息;最后,针对自动提取的汉缅双语平行信息,进行数据过滤,并将经过过滤处理后的汉缅双语平行数据存放到汉缅双语平行语料库。本发明为汉缅语言研究和机器翻译应用提供重要基础数据,解决了语料采集人员和研究人员所面临的数据来源的问题,为双语语料自动采集的发展和汉缅自然语言处理做出了杰出的贡献。
【IPC分类】G06F17/30
【公开号】CN104933195
【申请号】CN201510407509
【发明人】温家凯, 农强, 刘连芳
【申请人】广西达译商务服务有限责任公司, 南宁市平方软件新技术有限责任公司
【公开日】2015年9月23日
【申请日】2015年7月13日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1