汉泰双语平行语料自动采集的系统及实现方法_4

文档序号：9417381阅读：来源：国知局

> 为保证数据安全，使用内外网物理隔离，服务器经过防火墙和路由器与Internet连接。当需要服务器A需要访问互联网时，服务器A将与交换机X连接，并断开与交换机Y的连接。当服务器A需要访问内网时，服务器A将与交换机Y连接，并断开与交换机X的连接。
[0053]交换机X实现外网间的通讯。
[0054]交换机Y实现内网间的通讯。
[0055]其工作过程如下:
(I)数据采集人员将服务器A与交换机X连接，使服务器A能访问到互联网服务。数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组。确定采集任务后，向服务器A发送启动自动采集请求。
[0056](2)服务器A接收台式电脑传输的关键词组数据和任务启动命令后，开始运行数据自动发现程序。通过互联网获取所有关键词组的搜索结果后，将搜索结果保存到本地。
[0057](3)数据采集人员将服务器A与交换机X断开连接，并与交换机Y连接。数据采集人员启动服务器B中的数据自动提取和自动整理程序，服务器B读取存储在服务器A中的搜索结果，进行数据自动提取和自动整理。程序完成工作后，将获取到的所有的双语数据保存于服务器C。
[0058]应用实施例3:
清迈是是泰国第二大城市，一座历史悠久的文化古城，也是著名的观光旅游地，中国每年都有许多人去观光游览，由于当地讲解人员有限，特别是汉语讲解，很难为每位游客提供规范如一的讲解服务，于是在一些比较著名的景点设置电子导游机系统，使用本发明的系统收集到相关的双语数据，可以把景区和陈列展示的物品图文并茂的用汉泰双语对照的形式表现出来，使观众在边看边听中，汲取知识，了解内涵，享受文化。游客们可以充分了解观赏对象深厚的文化底蕴。睹物思情、浮想联翩，景点、展品的丰富内涵在对照浏览后得到升华。
[0059]应用实施例4:
曼谷位于昭披耶河东岸，南临暹罗湾，是泰国首都和最大城市，中南半岛最大城市，东南亚第二大城市，为泰国政治、经济、贸易、交通、文化、科技、教育、宗教与各方面中心，该城市的博物馆、科技馆、会展中心等室内展馆内，用电子导览系统取代了人工导游以及因噪音大而影响它人游览的高音喇叭，该系统与本发明的系统联网，通过汉泰双语对照的形式对陈列展品的内容以图文并茂的方式展现给游客，使游客在观赏展品的过程中使其内涵得以延伸，更加生动。游客在充分欣赏了展品的外观表象后，又获得了丰富的知识。除此以外，游客还可以通过触摸屏上的按钮，查询展区的位置及路径，自由地享受自助游览的乐趣。
[0060]以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
【主权项】
1.一种汉泰双语平行语料自动采集的系统，包括汉泰双语平行信息的自动发现模块、自动提取模块、自动整理模块，其特征在于: (1)自动发现模块:实现汉泰双语平行语料自动发现的功能，制定需要采集语料的关键词组，通过搜索引擎搜索网站，采集网页得到搜索结果，对搜索结果的信息进行过滤和筛选后，将经过滤得搜索结果存储于搜索结果数据库； (2)自动提取模块:实现汉泰双语平行语料自动提取的功能，通过访问搜索结果数据库里的网页，自动提取汉泰双语平行信息； (3)自动整理模块:针对自动提取的汉泰双语平行信息，进行数据过滤，并将经过过滤处理后的汉泰双语平行数据存放到汉泰双语平行语料库。2.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述自动发现模块的汉泰双语平行语料自动发现工作流程为:制定一组或多组汉泰互译关键词组，通过搜索引擎获取搜索结果，分析搜索结果并以之为目标进行数据获取。3.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述自动发现模块的汉泰双语平行语料自动发现设计原则为: a.所选关键词组应为特定领域范围内的汉泰互译词组对； b.使用的第三方搜索引擎工具为开放式提供搜索服务方； c.通过关键词组搜索得到结果后，只保存前η页信息，η与所选关键词的热门程度关联，保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。4.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述自动提取模块的双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问，使用对应的汉泰互译关键词组对目标页面内容进行内容定位，从定位点开始，前后遍历并获取页面数据。5.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述自动提取模块的网络双语平行语料提取原则: a.规定访问的页面文件类型只能为“!^!^”、“!^!!!”、、!^!^”以及常见的页面文件类型，对非规定类型的页面将不进行访问； b.访问目标网页前，网络检查目标网站的robots,txt文件，若目标页面存在于robots, txt文件上，将不对该目标网页进行访问； c.要多抽取完整双语数据，在抽取过程中，包含在目标语言数据里的html标签页将视为抽取对象。6.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述自动提取模块的工作流程主要包含以下几个步骤: (1)非目标语言信息过滤:分别对采集到的汉泰数据进行字符过滤，主要过滤html标签、网页代码和一些非语言符号，去除采集信息中的噪音数据，得到干净的汉泰双语平行数据； (2)汉泰分词过程:使用汉语和泰语分词工具，对汉语和泰语数据进行分词操作，为后面的数据处理过程提供基础。7.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述自动整理模块的工作流程主要包含以下几个步骤: (I)长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤，分别对抽取回来的汉泰双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算，将长度差距较大的数据进行过滤，并进行汉泰双语平行数据的互译匹配判断，筛选出正确的平行数据； (2 )将经过处理后的汉泰双语平行数据将存放入汉泰双语平行语料库。8.根据权利要求1所述的汉泰双语平行语料自动采集的系统，其特征在于，所述汉泰双语平行语料自动采集系统的实现方法为:设置数据采集服务器、数据处理服务器、数据存储服务器和外网交换机、内网交换机，将自动发现模块嵌入数据采集服务器，自动提取模块、自动整理模块嵌入数据处理服务器；数据采集人员将数据采集服务器与外网交换机连接，使数据采集服务器能访问到互联网服务，数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组，确定采集任务后，向数据采集服务器发送启动自动采集请求，数据采集服务器接收台式电脑传输的关键词组数据和任务启动命令后，开始运行数据自动发现程序，通过互联网获取所有关键词组的搜索结果后，将搜索结果保存到本地；数据采集人员将数据采集服务器与外网交换机断开连接，并与内网交换机连接；数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序，数据处理服务器读取存储在数据采集服务器中的搜索结果，进行数据自动提取和自动整理，程序完成工作后，将获取到的所有的双语数据保存于数据存储服务器。
【专利摘要】一种汉泰双语平行语料自动采集的系统及实现方法，包括汉泰双语平行信息的自动发现、自动提取、自动整理，首先，制定需要采集语料的关键词组，通过搜索引擎搜索网站，采集网页得到搜索结果，对搜索结果的信息进行过滤和筛选后，将经过滤得搜索结果存储于搜索结果数据库；其次，通过访问搜索结果数据库里的网页，自动提取汉泰双语平行信息；最后，针对自动提取的汉泰双语平行信息，进行数据过滤，并将经过过滤处理后的汉泰双语平行数据存放到汉泰双语平行语料库。本发明为汉泰语言研究和机器翻译应用提供重要基础数据，解决了语料采集人员和研究人员所面临的数据来源的问题，为双语语料自动采集的发展和汉泰自然语言处理做出了杰出的贡献。
【IPC分类】G06F17/30
【公开号】CN105138548
【申请号】CN201510407565
【发明人】温家凯, 农强, 刘连芳
【申请人】广西达译商务服务有限责任公司, 南宁市平方软件新技术有限责任公司
【公开日】2015年12月9日
【申请日】2015年7月13日

完整全部详细技术资料下载

当前第4页1 2 3 4