用于翻译教学系统的术语萃取方法

文档序号:9579247阅读:559来源:国知局
用于翻译教学系统的术语萃取方法
【技术领域】
[0001]本发明涉及翻译教学领域,具体地,涉及用于翻译教学系统的术语萃取方法。
【背景技术】
[0002]翻译教学系统是基于Transmate企业版结合高校教学模式研发的一个教学实验平台,着重于师生的互动,学生通过翻译教学系统一方面学习了解CAT技术,另一方面模拟学习翻译公司的运作模式,从而为社会培养更多的实用型人才,提升高校学生职业化能力,加强毕业生的就业竞争力。在翻译教学系统中教师还可以给学生安排翻译作业,学生还可直接在教学系统中完成作业,作业当中包括对原文中句段的单独翻译,而同样的英语单词会出现多种不同意思,在判断时需要结合语境进行翻译。现有的教学系统中术语库中的词汇是固定不变的,而术语库中的词汇总是难免有疏漏,且随着时间的推移,新词汇的出现,而术语库中却无法调用,导致最终翻译不准确。

【发明内容】

[0003]本发明所要解决的技术问题是提供用于翻译教学系统的术语萃取方法,利用该种方法术语库能够根据不同客户的需要选择性的不断充实词汇量,克服了翻译库词汇无法完全收纳各个领域词汇的缺陷,专业性更强,灵活性更高。
[0004]本发明解决上述问题所采用的技术方案是:用于翻译教学系统的术语萃取方法,包括如下步骤:
A)打开萃取翻译文件;
B)人为设置翻译语料最大长度、最小长度和翻译语料出现的最小频率;
C)翻译文件为中文或者是日语则运用盘古分词萃取数据,翻译文件为英语、俄语或则德语时则运用穷举法萃取数据;
D)把萃取数据与设置的翻译语料最大长度、最小长度和翻译语料出现的最小频率进行比较,萃取数据的长度在翻译语料最大长度和最小长度之间且出现次数达到最小频率的就将该术语添加到术语库中,术语库中已存在的则不用添加;
E)在术语库中显示添加的萃取数据。
[0005]其中运用穷举法萃取数据是把所有对象一一列举出来,再对其一一进行分割成为短语,或者运用盘古分词萃取数据的方法,把短语的长度和出现的次数与翻译语料设置的最大长度、最小长度和翻译语料出现的最小频率进行比较,当短语的长度在翻译语料最大长度和最小长度之间且出现次数达到最小频率的就将该术语添加到术语库中,术语库中已存在的则不用添加。对于术语库中增加的词汇能够在后期翻译时调用出来使用,克服了翻译库词汇无法完全收纳各个领域词汇的缺陷,术语库词汇能够与时倶进,能够根据使用者所用词汇的不同而增加更多的相关词汇,专业性更强,灵活性更高。
[0006]步骤C)中盘古分词萃取数据是利用中英文分词组件实现,把语料快速分割为短语。能够对一些没有在字典中出现的词进行识别,识别度高方便后期丰富术语库。
[0007]步骤B)中翻译语料最大长度、最小长度和翻译语料出现的最小频率均为正数。
[0008]综上,本发明的有益效果是:利用该种方法术语库能够根据不同客户不同领域翻译的需要选择性的充实词汇量,灵活性强,克服了翻译库词汇无法完全收纳各个领域词汇的缺陷,随着不同客户使用时间的增加,专业词汇也会不断的丰富,后期调用术语库进行翻译的专业性更强。
【具体实施方式】
[0009]下面结合实施例,对本发明作进一步地的详细说明,但本发明的实施方式不限于此。
[0010]实施例1:
本发明包括用于翻译教学系统的术语萃取方法,包括如下步骤:
A)打开萃取翻译文件;
B)人为设置翻译语料最大长度、最小长度和翻译语料出现的最小频率;
C)翻译文件为中文或者是日语则运用盘古分词萃取数据,翻译文件为英语、俄语或则德语时则运用穷举法萃取数据;
D)把萃取数据与设置的翻译语料最大长度、最小长度和翻译语料出现的最小频率进行比较,萃取数据的长度在翻译语料最大长度和最小长度之间且出现次数达到最小频率的就将该术语添加到术语库中,术语库中已存在的则不用添加;
E)在术语库中显示添加的萃取数据。
[0011]其中运用穷举法萃取数据是把所有对象一一列举出来,再对其一一进行分割成为短语,或者运用盘古分词萃取数据的方法,把短语的长度和出现的次数与翻译语料设置的最大长度、最小长度和翻译语料出现的最小频率进行比较,当短语的长度在翻译语料最大长度和最小长度之间且出现次数达到最小频率的就将该术语添加到术语库中,术语库中已存在的则不用添加。对于术语库中增加的词汇能够在后期翻译时调用出来使用,克服了翻译库词汇无法完全收纳各个领域词汇的缺陷,术语库词汇能够与时倶进,能够根据使用者所用词汇的不同而增加更多的相关词汇,专业性更强,灵活性更高。其中的翻译语料最大长度、最小长度和出现的最小频率均为正整数,其值的大小可根据用户的实际需要进行设置,最小长度一般设置为1,最大长度一般设置为3-5之间,出现频率一般设置3。
[0012]实施例2:
本实施例在实施例1的基础上优选如下:步骤C)中盘古分词萃取数据是利用中英文分词组件实现,把语料快速分割为短语。能够对一些没有在字典中出现的词进行识别,识别度高方便后期丰富术语库。
[0013]步骤B)中翻译语料最大长度、最小长度和翻译语料出现的最小频率均为正数。
[0014]以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
【主权项】
1.用于翻译教学系统的术语萃取方法,其特征在于,包括如下步骤: A)打开萃取翻译文件; B)人为设置翻译语料最大长度、最小长度和翻译语料出现的最小频率; C)翻译文件为中文或者是日语则运用盘古分词萃取数据,翻译文件为英语、俄语或则德语时则运用穷举法萃取数据; D)把萃取数据与设置的翻译语料最大长度、最小长度和翻译语料出现的最小频率进行比较,萃取数据的长度在翻译语料最大长度和最小长度之间且出现次数达到最小频率的就将该术语添加到术语库中,术语库中已存在的则不用添加; E)在术语库中显示添加的萃取数据。2.根据权利要求1所述的用于翻译教学系统的术语萃取方法,其特征在于,步骤C)中盘古分词萃取数据是利用中英文分词组件实现,把语料快速分割为短语。3.根据权利要求1所述的用于翻译教学系统的术语萃取方法,其特征在于,步骤B)中翻译语料最大长度、最小长度和翻译语料出现的最小频率均为正数。
【专利摘要】本发明公开了用于翻译教学系统的术语萃取方法,包括如下步骤:打开萃取翻译文件;人为设置翻译语料最大长度、最小长度和翻译语料出现的最小频率;翻译文件为中文或者是日语则运用盘古分词萃取数据,翻译文件为英语、俄语或则德语时则运用穷举法萃取数据;把萃取数据与设置的翻译语料最大长度、最小长度和翻译语料出现的最小频率进行比较,萃取数据的长度在翻译语料最大长度和最小长度之间且出现次数达到最小频率的就将该术语添加到术语库中;在术语库中显示添加的萃取数据。本方案通过上述原理,利用该种方法术语库能够根据不同客户的需要选择性的不断充实词汇量,克服了翻译库词汇无法完全收纳各个领域词汇的缺陷,专业性更强,灵活性更高。
【IPC分类】G06F17/28
【公开号】CN105335359
【申请号】CN201510792918
【发明人】张马成, 王兴强, 屈耕, 熊易
【申请人】成都优译信息技术有限公司
【公开日】2016年2月17日
【申请日】2015年11月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1