一种语料提取器及提取语料的方法

文档序号:8943050阅读:1472来源:国知局
一种语料提取器及提取语料的方法
【技术领域】
[0001]本发明属于计算语言学和翻译技术领域,涉及一种语料提取器及提取语料的方法。
【背景技术】
[0002]发表于《中文信息学报》,2007年I月第21卷第I期的《面向机器辅助翻译的汉语语块自动抽取研究》,提出了一种统计和规则向结合的语块抽取方法。使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过试验发现,在统计方法中互信息和信息熵向结合的而方法教单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。试验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译得工作效率。
[0003]詹宏伟(杭州师范大学外国语学院)发表的《语料库中语块提取的工具与方法》,在自然语言处理领域,语言检索的工具和技术进展很快,语块识别的技术也从人工识别进入了机器识别。语块检索技术的起点是从语料库中提取连续的、固定的词串,进过几年的发展,已逐步达到了其高级阶段:提取非连续的可变的语块。本文从语料库研究的角度,分别从连续的语块和非连续的语块两个方面,对应于的语块识别与检索技术和工具进行归纳和评述。
[0004]以上现有方法的优点是速度快、效率高,缺点有:1)只适用于单一语种;2)受规则(尤其是边界词语规则)的限制,准确率较低,辅助翻译实践中可用性不高;3)文中出现外语词汇、数字、符号、字母等,尤其位于语块边界时候准确率严重下降,甚至不能识别;4)非连续语块识别率较低。

【发明内容】

[0005]为了解决现有技术中的问题,本发明提出一种能够提取所有语种的语料,语料提取准确率高,解决了混杂外语词汇、数字、符号、字母等的语料提取,以及非连续语块提取问题的语料提取器及提取语料的方法。
[0006]为了实现以上目的,本发明所采用的技术方案为:一种语料提取器包括:
[0007]设置模块,包括语料库定义单元,对语种名称、编号、以及语种对应的库文件名进行定义;符号定义单元,对各语种对应的句尾标点进行定义,语料匹配的最大范围是句子;语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;
[0008]数据库模块,实现语料提取过程语料的存储;
[0009]语料匹配模块,实现全文搜索语料库中存在的语料标识出来,作为人工提取的参考;
[0010]语料提取模块,实现人工提取语料;
[0011 ] 语料修正模块,实现人工修改语料;
[0012]以及语料导出模块,实现语料的导出和入库。
[0013]一种提取语料的方法,包括以下步骤:
[0014]I)打开文本,根据需要选择语种,根据定义好的语种找到对应的语料库,并定义句尾符号以及语料提取时轮换用定义的颜色标识;
[0015]2)根据语料库中已有的语料自动匹配语料,匹配上的语料标注颜色,同时已经匹配上的语料自动罗列于语料表中,同时显示该语料出现频率;
[0016]3)对已经匹配的语料进行修正,修正后的语料在语料表中同步修正;
[0017]4)对没有匹配的预料进行人工提取,检索并选定需要提取的语料,将该语料提取至语料表,同时将打开的文本中所有同样的语料标识出来,并且显示该语料出现频率;
[0018]5)提取完所有语料后,以文本格式导出语料的同时,所有语料同时入语料库,相同语料覆盖。
[0019]进一步,所述步骤I)中通过Word内嵌的Com技术,将Word嵌入提取界面,通过Com接口操控Word,打开文本。
[0020]更进一步,所述步骤I)中的文本为word文件、excel文件或txt文件,打开txt和word文件时调用Word打开文本,打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件,然后再调用Word打开。
[0021]进一步,所述步骤2)中语料自动匹配采用二分搜索算法查找,从句子的第一个字符开始搜索语料库得到最大匹配的语料,如果没有匹配,则从下个字符开始,依次搜索完整个句子,完成句子范围的语料匹配,循环对全文每个句子处理,完成全文的语料的匹配。
[0022]进一步,所述步骤3)中修正模块调出已经确定的语料和对应的全文,选择要修正的语料时,程序自动搜索全文,选中该条语料,提供对应的语言环境参考,人工重新选择语料的范围,修正语料,并替换语料列表中的语料,同时搜索全文相同的新语料,加上颜色标识,并统计新语料的显示频率,更改语料列表中新语料的频率。
[0023]进一步,所述步骤4)中对于非连续语料,选定后提取至语料表,逐次提取直至提取完所有语料,同时显示该语料出现频率。
[0024]更进一步,所述步骤4)中语料提取时,通过定义的系统热键,触发提取过程,调用Word Com接口取到选择的语料,调用Word Com接口循环搜索相同语料,调用Word Com接口实现语料以定义的颜色标识,并统计语料出现的频率,将语料和频率插入语料表中,更新术语列表的语料和频率。
[0025]进一步,所述步骤5)中首先根据提取语料导出选择按语料的文本顺序、提取的时间或频率排序,然后导出纯文本格式的语料文件。
[0026]更进一步,所述步骤5)中语料全文确定完成后,对语料入库作为以后提取的参考,循环对每条语料搜索,如果查到语料库中已有,则不入库,如果查不到,则查到语料入库的位置,在该位置插入一条语料。
[0027]与现有技术相比,本发明的提取器适用于所有语种,将全语种进行内嵌,具有语料提取模块,便于人工提取语料,准确性由使用者人为控制,不用制定规则;具有符号定义单元,可提取混杂外语词汇、数字、符号、字母等的语料;带有统计功能,可实时提供任一语料重复次数;具有记忆功能,在文本导入的时候,利用语料匹配模块根据语料库已有内容自动匹配,没有匹配的语料由语料提取模块人工提取,全文提取并修正后导出语料的时候,可将库中没有的语料导入到语料库中,方便以后提取。
[0028]本发明的方法中首先定义语种、句尾符号以及语料提取时轮换用定义的颜色标识,可提取混杂外语词汇、数字、符号、字母等的语料;根据语料库中已有的语料进行自动匹配并修正,同时带有统计功能,可实时提供任一语料重复次数;对于没有自动匹配的语料进行人工提取,使用者人为控制准确性,准确率高,不用制定规则;对于非连续语料,选定后逐次提取至语料表,直至提取完所有语料,解决了非连续语块提取的问题,本发明方法适用于所有语种,提取准确性由使用者人为控制,不用制定规则,可提取混杂外语词汇、数字、符号、字母等的语料,带有统计功能,可实时提供任一语料重复次数,具有记忆功能,在文本导入的时候,可根据记忆库已有内容自动匹配,人工提取完毕后,导出语料的时候,可将库中没有的语料导入到库中,方便以后提取。
【具体实施方式】
[0029]下面结合具体的实施例对本发明作进一步的解释说明。
[0030]一种语料提取器,包括:
[0031]设置模块,包括语料库定义单元,对语种名称、编号、以及语种对应的库文件名进行定义;符号定义单元,对各语种对应的句尾标点进行定义,语料匹配的最大范围是句子;语料标识的颜色定义单元,语料提取时轮换用定义的颜色标识;
[0032]数据库模块,实现语料提取过程语料的存储;
[0033]语料匹配模块,实现全文搜索语料库中存在的语料标识出来,作为人工提取的参考;
[0034]语料提取模块,实现人工提取语料;
[0035]语料修正模块,实现人工修改语料;
[0036]以及语料导出模块,实现语料的导出和入库。
[0037]—种提取语料的方法,包括以下步骤:
[0038]I)打开文本,根据需要选择语种,根据定义好的语种找到对应的语料库,并定义句尾符号以及语料提取时轮换用定义的颜色标识;通过Word内嵌的Com技术,将Word嵌入提取界面,通过Com接口操控Word,打开文本,文本为word文件、excel文件或txt文件,打开txt和word文件时调用Word打开文本,打开excel文件时调用excel的Com接口将excel表格文件保存成txt文件,然后再调用Word打开;
[0039]2)根据语料库中已有的语料自动匹配语料,匹配上的语料标注颜色,同时已经匹配上的语料自动罗列于语料表中,同时显示该语料出现频率;语料自动匹配采用二分搜索算法查找,从句子的第一个字符开始搜索语料库得到最大匹配的语料,如果没有匹配,则从下个字符开始,依次搜索完整个句子,完成句子范围的语料匹配,循环对全文每个句子处理,完成全文的语料的匹配;
[0040]3)对已经匹配的语料进行修正,修正后的语料在语料表中同步修正;修正时修正模块调出已经确定的语料和对应的全文,选择要修正的语料时,程序自动搜索全文,选中该条语料,提供对应的语言环境参考,人工重新选择语料的范围,修正语料,并替换语料列表中的语料,同时搜索全文相同的新语料,加上颜色标识,并统计新语料的显示频率,更改语料列表中新语料的频率;
[0041]4)对没有匹配的预料进行人工提取,检索并选定需要提取的语料,将该语料提取至语料表,同时将打开的文本中所有同样的语料标识出来,并且显示该语料出现频率;对于非连续语料,选定后提取至语料表,逐次提取直至提取完所有语料,同时显示该语料出现频率;语料提取时,通过定义的系统热键,触发提取过程,调用Word Com接口取到选择的语料,调用Word Com接口循环搜索相同语料,调用Word Com接口实现语料以定义的颜色标识,并统计语料出现的频率,将语
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1