一种翻译任务准确分配的方法

文档序号:6524894阅读:1087来源:国知局
一种翻译任务准确分配的方法
【专利摘要】本发明公开了一种翻译任务准确分配的方法,包括:确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值;根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量;根据每个所述待译文档的翻译量,将多个所述待译文档分割成多个翻译任务;所述分割的翻译任务的数量与待分配任务的译员的数量相等;将每个所述翻译任务分配给一个所述译员。本发明通过根据翻译难度和文本大小计算得到文档的翻译量,实现了翻译项目精确分割,解决的翻译任务平均分配的问题。
【专利说明】一种翻译任务准确分配的方法
【技术领域】
[0001]本发明涉及翻译【技术领域】,具体而言,涉及一种翻译任务准确分配的方法。
【背景技术】
[0002]一个大的翻译项目往往是由一个翻译团队协作来完成,对于团队协作完成的项目,项目进度和时间的管控是一个非常重要的环节,如何将一个翻译项目中的翻译任务合理分配给团队中的每一个成员,使得翻译项目能够在相同的时间内统一、并行完成,是翻译过程中需要解决的问题。要将翻译任务合理分配给译员翻译,需要明确每个翻译任务的翻译量,翻译任务翻译量的确定是由文档的翻译难度和文档的大小决定,文档的大小即文档的字数,这是一项易于统计的比较清楚的指标,所以对于翻译任务进行准确分配最需要解决的问题就是对文档翻译难度的判别。
[0003]对于文档翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待翻译文档进行标注和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对文档进行翻译难度判断,目前最常用的方法是通过对文档中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对文档翻译难度的判别,还缺乏一个既高效又相对准确的判别方法。

【发明内容】

[0004]本发明旨在提供一种翻译任务准确分配的方法,解决了如何将翻译任务合理分配给合适的译员的问题。
[0005]本发明公开了一种翻译任务准分配的方法,包括:
[0006]确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值;
[0007]根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量;
[0008]根据每个所述待译文档的翻译量,将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务;
[0009]将每个所述翻译任务分配给一个所述译员。
[0010]优选地,所述待译文档的翻译量为该待译文档的文本大小与翻译难度数值的乘积,其中待译文档的文本大小为待译文档的字数。
[0011]优选地,确定每个所述待译文档的所述翻译难度数值的过程包括:
[0012]扫描待译文档,确定所述待译文档中的所有词汇和所有语句;
[0013]根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;[0014]按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
[0015]diff_doc = K1.diff_word+K2.diff_sentence ;
[0016]其中,KJPK2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度数值,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度。
[0017]优选地,计算所述词汇复杂度的过程包括:
[0018]计算出文档的词汇等级、类符形符比和实义词词义密度;
[0019]按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
[0020]diff_word = K11.grade_word+K12.STTR+K13.density_notional ;
[0021 ] 其中,gradejord为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11 > K12和K13为通过样本计算得到词汇复杂度调节系数。
[0022]优选地,在计算所述文档的词汇等级之前,还包括:
[0023]对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数;
[0024]将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
[0025]分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
[0026]计算所述文档的词汇等级的过程包括:
[0027]按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
[0028]
【权利要求】
1.一种翻译任务准确分配的方法,其特征在于,包括: 确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值; 根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量; 根据每个所述待译文档的翻译量 ,将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务; 将每个所述翻译任务分配给一个所述译员。
2.根据权利要求1所述的方法,其特征在于,所述待译文档的翻译量为该待译文档的文本大小与翻译难度数值的乘积,其中待译文档的文本大小为待译文档的字数。
3.根据权利要求1所述的方法,其特征在于,确定每个所述待译文档的所述翻译难度数值的过程包括: 扫描待译文档,确定所述待译文档中的所有词汇和所有语句; 根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度; 按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
diff—doc = K1.diff—word+K2.diff—sentence ; 其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度数值,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度。
4.根据权利要求3所述的方法,其特征在于,计算所述词汇复杂度的过程包括: 计算出文档的词汇等级、类符形符比和实义词词义密度; 按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
diff_word = K11.grade_word+K12.STTR+K13.density_notional ; 其中,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11, K12和K13为通过样本计算得到词汇复杂度调节系数。
5.根据权利要求4所述的方法,其特征在于,在计算所述文档的词汇等级之前,还包括: 对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数; 将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级; 分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量; 计算所述文档的词汇等级的过程包括: 按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
,, T.word, , T.word., , Λ7 word4 grade word = K111--f + K112--r + K113-- ° ~111 wordwordword 其中,wordx为词汇级别为X级的词汇的数量,K111, K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
6.根据权利要求5所述的方法,其特征在于,计算所述文档的类符形符比的过程包括; 根据得到的所有所述词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或 将得到的所有所述词汇按照标准数量划分为多个子文档,及I个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
7.根据权利要求4所述的方法,其特征在于,在计算所述文档的所述实义词词义密度之前,还包括: 对得到的所有所述词汇进行词性标注,得到其中的实义词; 将得到的所有所述实义词按照一定顺序进行排列; 根据同义词本体工具得到每个所述实义词的义项数Hieaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数; 计算所述文档的所述实义词词义密度的过程包括: 按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
8.根据权利要求3的方法,其特征在于,在计算所述文档的所述语句复杂度之前,还包括: 通过确定所述文档中的整句数计算出整句的平均长度; 通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度; 通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度; 通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度; 计算所述文档的所述语句复杂度的过程包括: 按照语句复杂度计算公式计算得出所述文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence = K21.MLS+K22.MLC+K23.MLL+K24.MLCL ; 其中,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
9.根据权利要求8所述的方法,其特征在于,计算平均长度的过程包括: 将所述总词汇数除以所述整句数,得到所述整句的平均长度MLS ; 将所述总词汇数除以所述第一类子句的数量,得到所述第一类子句的平均长度MLC;统计每个所述长句的长度WorcLlongi, I ^ i ^ count_long ;其中,i为长句的序号;按照长句的平均长度计算公式计算得到所述长句的平均长度;所述长句的平均计算公式如下:
【文档编号】G06F17/27GK103744834SQ201310713989
【公开日】2014年4月23日 申请日期:2013年12月23日 优先权日:2013年12月23日
【发明者】江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1