汉外双语平行语料自动采集的系统及实现方法_3

文档序号:9326948阅读:来源:国知局
和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次是汉外双语平行语料自动提取过程,通过访问搜索结果数据库里的网页,自动提取汉外双语平行信息;最后是汉外双语平行语料自动整理过程,针对自动提取的汉外双语平行信息,进行数据过滤,并将经过过滤处理后的汉外双语平行数据存放到汉外双语平行语料库。
[0023]如图2所示,本发明汉外双语平行语料自动采集的方法,包括以下步骤:
网页汉外双语平行语料自动发现技术:
首先制定需要采集语料的相关关键词组。这里的关键词组为汉外互译词组对,例如:以“花bulakl0k”为关键词组起点,通过搜索引擎得到相关搜索结果。
[0024]然后进对搜索结果进行过滤。主要是为了通过对搜索结果的信息进行过滤和筛选,提高采集效率和质量,降低采集成本。具体做法如下:
通过URL地址、标题和摘要的对比,判断是否为重复的搜索结果信息。如判断为重复信息,将进行过滤。
[0025]通过URL地址分析网页的文件形式,将不属于常见网页文件类型的URL地址去除。只保存常见网页文件类型的URL地址,如“html ”、“htm”、“ shtml ”、“ j sp ”、“php ”等常见网页文件类型。
[0026]通过关键词组和摘要的分析进行过滤。主要通过关键词定位摘要信息,通过泰文信息和中文信息的长度比进行过滤,去除单个互译词组对的情况。
[0027]最后,将经过滤得搜索结果(包括关键词组、URL地址、标题和摘要)存储于搜索结果数据库。
[0028]网页汉外双语平行语料自动提取技术:
通过访问搜索结果数据库里的网页,自动提取双语信息。具体实现如下:
首先,从搜索结果数据库中获得新加入的待访问的URL地址队列。从URL地址队列中取出一个待访问的URL地址。系统检测目标网站上是否存在robot, txt文件,且该目标URL地址是否存在于robot, txt文件中。若该URL地址不允许访问,系统跳过该URL地址,取出下一个待访问的URL地址。若该URL地址允许访问,系统开始访问并解析该URL地址的网页。
[0029]通过解析网页,系统开始自动提取页面的汉外双语平行数据。具体步骤如下:
1.汉外双语数据粗提取:
(I)将整个页面内容读取成一个字符串S。
[0030](2)将S分解成两个字符串sl,s2。Si保存S中所有的外语数据。s2保存S中所有的中文数据。
[0031](3)所有被保存的中文和泰文数据要求保留原本在页面上的排列顺序。并保留所有泰文数据间和中文数据间的HTML标签和语言信息字符,包括标点、数字、特殊符号等(暂不考虑掺杂的英文信息)。
[0032]2.HTML 标签替换:
将sl,s2里的所有HTML标签统一替换为一个间隔标记<T>。
[0033]3.汉外双语平行数据抽取: (I)对Si进行外语分句,得到字符串数组stl [m]。对S2进行中文分句,得到字符串数组st2[n]。这里的m和η分别表示外语句子总数和中文句子总数。
[0034](2)清除stl [m]和st2[n]里的所有间隔标记<T>。
[0035](3)对stl[m]里的所有字符串进行外语分词。对st2[n]里的所有字符串进行中文分词。
[0036](4)过滤掉stl [m]和st2 [η]里面只有单个词组成的句子。
[0037](5)双语平行句对自动匹配方法:
a.从stl[m]中取出一个已分词的外语句子s_th。
[0038]b.利用汉外互译词典将s_th里每个外语词组翻译成中文。得到句子s_th_ch。
[0039]c.从s_th_ch中取出一个中文词组,在st2[η]里寻找存在该中文词组的所有句子,得到st2[n’]。若st2[n]中不存在含有该中文词组的句子,则从s_th_ch中取出下一个中文词组。继续在st2[n]里寻找存在该中文词组的所有句子。若n’> I;则从s_th_ch中取出下一个词,继续在st2 [η’ ]里寻找存在该中文词组的所有句子。循环这一步,直到η’ =I或者s_th_ch中的词已经遍历完。若η’ = 1,也就是st2 [η’]里只存在一个句子。那么,我们将st2[n’ ]里的这一个句子视为该s_th对应的最佳汉语平行句子s_ch。若s_th_ch中的词已经遍历完毕,且η’ > I ;则取st2[n’]里字符串长度最小的句子作为该s_th对应的最佳汉语平行句子s_ch。
[0040]d.将s_th和s_ch作为一个汉外双语平行句对保存,并将s_th和s_ch分别在stl [m]和 st2[n]中去除。
[0041]e.若取出的s_th没找到对应的s_ch,则stl [m]取下一个已分词的外语句子。重复上述步骤。直至将遍历完stl [m]。
[0042]f.遍历完stl[m]后,若m > 1,且η > 1,说明可能还存在未匹配的汉外双语平行句对,则根据上述步骤,反过来从st2[η]去stl[m]中寻找最佳外语平行句子。
[0043]从URL地址队列中取出下一个待访问URL地址,重复上述步骤,直至提取完成所有待访问URL地址的汉外双语平行语料数据。所有自动提取的汉外双语平行句对组成待过滤汉外双语平行数据队列。
[0044]汉外双语平行数据过滤技术:针对自动提取的汉外双语平行信息,进行数据过滤。其在很大程度上提高采集信息的质量。
[0045]如图3所示,网页汉外双语平行语料过滤的方法,包括以下内容:
信息去噪:为保证数据纯净,再次对采集到数据中的非语言信息进行过滤。包括HTML标签和非语言字符。
[0046]采集信息对比过滤:针对已去噪的汉外双语平行信息进行过滤。对每一组汉外双语平行信息进行以下操作:
首先进行长度比过滤。分别对外语信息和中文信息进行分词操作。统计得出外语信息词组数为a,中文信息词组数位b,设定最小长度比μ和最大长度比λ,设定当a / b > λ或b/a> λ或a/b〈 μ或b/a〈 μ时,视为无价值汉外双语平行数据信息,并将该组信息过滤。
[0047]然后,对于符合长度比要求的汉外双语平行信息进行匹配率过滤。已分词的中文信息中存在M个词组,从中抽取出m个词组,通过汉外词典将这m个词组翻译成对应的m个外语词组。这m个外语词组在已分词的外语信息中存在η个能与之完全匹配的词组。那么p(cn|th) = m2/(n*M),我们视p(cn|th)为中文信息对应泰文信息的匹配率。同理,p(th|cn)为泰文信息对应中文信息的匹配率。那么,我们规定采集的一组双语平行信息的匹配率为P = (p(th|cn)+ p(cn|th)) / 2。根据对每一组双语平行信息进行匹配率计算,设置最小匹配率p,ip〈 P时,对该组双语平行信息进行过滤处理。
[0048]最后,根据汉外双语平行语料库对采集到的汉外双语平行信息进行查重过滤。经过处理后的汉外双语平行数据将存放入汉外双语平行语料库。
[0049]应用实施例1:
如图4所示,CPU、ROM和RAM经由总线彼此连接。输入/输出接口也连接到总线;输入系统、输出系统、存储系统、通信系统和驱动系统连接到输入/输出接口 ;输入系统,包括键盘、鼠标等;输出系统,包括显示器、扬声器等;存储系统,包括硬盘等;通信系统,包括网络接口卡比如LAN卡、调制解调器等,通信系统经由网络比如因特网执行通信处理;根据需要,驱动系统也连接到输入/输出接口 ;移动储存介质比如磁盘、光盘、磁光盘、USB闪存盘等根据需要连接到驱动系统上,使得从中读出的计算机程序根据需要存储到移动储存介质上。
[0050]中央处理单元(CPU)根据只读存储器(ROM)中存储的程序或从存储部分加载到随机存取存储器(RAM)的程序执行各种处理。在RAM中,也根据需要存储当CPU执行各种处理等等时所需的数据。
[0051]本发明的指令代码可由以上载体读取并执行时。
[0052]应用实施例2:
如图5所示,对网络拓扑结构图进行简要说明:
节点说明
交换机X:外网交换机交换机Y:内网交换机
服务器A:数据采集服务器(嵌入自动发现模块)
服务器
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1