1.一种译员翻译能力的评价方法,其特征在于,包括:
从译员的已完成的翻译文档中提取多个文档样本;
确定每一所述文档样本的翻译难度;
统计所有所述文档样本的所述翻译难度,确定所述译员的翻译能力等级。
2.根据权利要求1所述的评价方法,其特征在于,确定每一所述文档样本的翻译难度,包括:
确定每一所述文档样本的词汇复杂度和语句复杂度;
根据所述词汇复杂度和所述语句复杂度,确定所述文档样本的翻译难度,所述翻译难度按如下计算公式得到:
diff_doc=K1·diff_word+K2·diff_sentence;
其中,diff_doc为所述翻译难度,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度,K1、K2为所述文档样本的翻译难度调节系数。
3.根据权利要求2所述的评价方法,其特征在于,确定每一所述文档样本的词汇复杂度,包括:
提取每一所述文档样本的所有词汇,确定所述文档样本的词汇等级grade_word、标准类符形符比STTR和实义词密度density_notional;
确定所述文档样本的所述词汇复杂度,所述词汇复杂度按如下计算公式得到:
diff_word=K11·grade_word+K12·STTR+K13·density_notional,
其中,diff_word为所述词汇复杂度,K11、K12、K13为所述文档样本的词汇复杂度调节系数。
4.根据权利要求3所述的评价方法,其特征在于,确定每一所述文档样本的词汇等级grade_word,包括:
将所有所述词汇与其所属语种的词汇分级表进行匹配,得到所述所有词汇的等级,所述等级至少包括一级、二级、三级和四级,其中,未匹配在一级、二级或三级级别中的词汇为四级;
统计二级和二级以上的所述词汇所占的词汇比率,确定所述文档样本的词汇等级grade_word,所述词汇等级grade_word按如下计算公式得到:
其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为所述文档样本的总词汇数量,K111、K112、K113为所述文档样本的词汇等级调节系数。
5.根据权利要求3所述的评价方法,其特征在于,确定每一所述文档样本的标准类符形符比STTR,包括:
统计每一所述文档样本的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述标准类符形符比;
若所述形符大于等于标准数量,则将所述文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;
按照标准类符形符比计算公式,计算得到的所述标准类符形符比STTR,所述标准类符形符比STTR按如下计算公式得到:
其中,token为所述不足标准数量的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。
6.根据权利要求3所述的评价方法,其特征在于,确定每一所述文档样本的实义词密度density_notional,包括:
统计每一所述文档样本的的实义词,确定所述文档样本的实义词数量,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;
统计每个实义词的义项数,根据所述每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;
根据实义词实义密度计算公式,计算得到实义词词义密度density_notional,所述实义词实义密度density_notional按如下计算公式得到:
其中,count_notional为所述实义词的数量,meaningsi为第i个实义词的义项数,word为所述文档样本的总词汇数量。
7.根据权利要求2所述的评价方法,其特征在于,确定每一所述文档样本的语句复杂度,包括:
统计所述文档样本的整句数,确定平均整句长度MLS;
统计所述文档样本的子句数,确定平均子句长度MLC;
统计所述文档样本的长句数以及每个长句的长度,确定平均长句长度MLL;
统计所述文档样本的每个所述长句的子句数,确定所述长句的平均子句长度MLCL;
根据所述平均整句长度MLS、所述平均子句长度MLC、所述平均长句长度MLL、长句的所述平均子句长度MLCL,确定所述文档样本的语句复杂度diff_sentence,所述语句复杂度diff_sentence按如下计算方式得到:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL,
其中,K21、K22、K23、K24为所述文档样本的语句复杂度调节系数。
8.根据权利要求7所述的评价方法,其特征在于,所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句的所述平均子句长度MLCL分别按照如下计算方式得到:
MLS=word/count_sentence;
MLC=word/count_clause;
其中,count_sentence为所述文档样本的整句数,count_clause为所述文档样本的子句数,count_long为所述文档样本的长句数,count_clause_long为所述文档样本的长句的所有子句数,word为总词汇数,word_longi为每个所述长句包含的词汇数,i为所述长句的序号。
9.根据权利要求2所述的评价方法,其特征在于,
统计所有所述文档样本的所述翻译难度,确定所述译员的翻译能力等级,包括:
从预置的翻译难度与评价分数的关联关系中,查找每一所述文档样本的所述翻译难度对应的评价分数;
根据所有所述文档样本的所述评价分数,确定所述译员的级别评分,所述级别评分按如下公式计得到:
其中,T_score为所述级别评分,Si为第i个文档样本的所述评价分数,Ci为第i个文档样本的文档总字数。
10.一种译员翻译能力的评价系统,其特征在于,包括:
提取单元,用于从译员的已完成的翻译文档中提取多个文档样本;
确定单元,用于确定每一所述文档样本的翻译难度;以及统计所有所述文档样本的所述翻译难度,确定所述译员的翻译能力等级。
11.根据权利要求10所述的评价系统,其特征在于,所述确定单元用于确定每一所述文档样本的翻译难度,包括:
确定每一所述文档样本的词汇复杂度和语句复杂度;
根据所述词汇复杂度和所述语句复杂度,确定所述文档样本的翻译难度,所述翻译难度按如下计算公式得到:
diff_doc=K1·diff_word+K2·diff_sentence;
其中,diff_doc为所述翻译难度,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度,K1、K2为所述文档样本的翻译难度调节系数。
12.根据权利要求11所述的评价系统,其特征在于,所述确定单元用于确定每一所述文档样本的词汇复杂度,包括:
提取每一所述文档样本的所有词汇,确定所述文档样本的词汇等级grade_word、标准类符形符比STTR和实义词密度density_notional;
确定所述文档样本的所述词汇复杂度,所述词汇复杂度按如下计算公式得到:
diff_word=K11·grade_word+K12·STTR+K13·density_notional,
其中,diff_word为所述词汇复杂度,K11、K12、K13为所述文档样本的词汇复杂度调节系数。
13.根据权利要求12所述的评价系统,其特征在于,所述确定单元用于确定每一所述文档样本的词汇等级grade_word,包括:
将所有所述词汇与其所属语种的词汇分级表进行匹配,得到所述所有词汇的等级,所述等级至少包括一级、二级、三级和四级,其中,未匹配在一级、二级或三级级别中的词汇为四级;
统计二级和二级以上的所述词汇所占的词汇比率,确定所述文档样本的词汇等级grade_word,所述词汇等级grade_word按如下计算公式得到:
其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为所述文档样本的总词汇数量,K111、K112、K113为所述文档样本的词汇等级调节系数。
14.根据权利要求12所述的评价系统,其特征在于,所述确定单元用于确定每一所述文档样本的标准类符形符比STTR,包括:
统计每一所述文档样本的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述标准类符形符比;
若所述形符大于等于标准数量,则将所述文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;
按照标准类符形符比计算公式,计算得到的所述标准类符形符比STTR,所述标准类符形符比STTR按如下计算公式得到:
其中,token为所述不足标准数量的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。
15.根据权利要求12所述的评价系统,其特征在于,所述确定单元用于确定每一所述文档样本的实义词密度density_notional,包括:
统计每一所述文档样本的的实义词,确定所述文档样本的实义词数量,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;
统计每个实义词的义项数,根据所述每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;
根据实义词实义密度计算公式,计算得到实义词词义密度density_notional,所述实义词实义密度density_notional按如下计算公式得到:
其中,count_notional为所述实义词的数量,meaningsi为第i个实义词的义项数,word为所述文档样本的总词汇数量。
16.根据权利要求11所述的评价系统,其特征在于,所述确定单元用于确定每一所述文档样本的语句复杂度,包括:
统计所述文档样本的整句数,确定平均整句长度MLS;
统计所述文档样本的子句数,确定平均子句长度MLC;
统计所述文档样本的长句数以及每个长句的长度,确定平均长句长度MLL;
统计所述文档样本的每个所述长句的子句数,确定所述长句的平均子句长度MLCL;
根据所述平均整句长度MLS、所述平均子句长度MLC、所述平均长句长度MLL、长句的所述平均子句长度MLCL,确定所述文档样本的语句复杂度diff_sentence,所述语句复杂度diff_sentence按如下计算方式得到:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL,
其中,K21、K22、K23、K24为所述文档样本的语句复杂度调节系数。
17.根据权利要求16所述的评价系统,其特征在于,所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句的所述平均子句长度MLCL分别按照如下计算方式得到:
MLS=word/count_sentence;
MLC=word/count_clause;
其中,count_sentence为所述文档样本的整句数,count_clause为所述文档样本的子句数,count_long为所述文档样本的长句数,count_clause_long为所述文档样本的长句的所有子句数,word为总词汇数,word_longi为每个所述长句包含的词汇数,i为所述长句的序号。
18.根据权利要求11所述的评价系统,其特征在于,所述确定单元还用于统计所有所述文档样本的所述翻译难度,确定所述译员的翻译能力等级,包括:
从预置的翻译难度与评价分数的关联关系中,查找每一所述文档样本的所述翻译难度对应的评价分数;
根据所有所述文档样本的所述评价分数,确定所述译员的级别评分,所述级别评分按如下公式计得到:
其中,T_score为所述级别评分,Si为第i个文档样本的所述评价分数,Ci为第i个文档样本的文档总字数。