一种译员翻译能力的评价方法及系统与流程

文档序号：12121043阅读：来源：国知局

技术特征：

1.一种译员翻译能力的评价方法，其特征在于，包括：

从译员的已完成的翻译文档中提取多个文档样本；

确定每一所述文档样本的翻译难度；

统计所有所述文档样本的所述翻译难度，确定所述译员的翻译能力等级。

2.根据权利要求1所述的评价方法，其特征在于，确定每一所述文档样本的翻译难度，包括：

确定每一所述文档样本的词汇复杂度和语句复杂度；

根据所述词汇复杂度和所述语句复杂度，确定所述文档样本的翻译难度，所述翻译难度按如下计算公式得到：

diff_doc＝K₁·diff_word+K₂·diff_sentence；

其中，diff_doc为所述翻译难度，diff_word为所述词汇复杂度，diff_sentence为所述语句复杂度，K₁、K₂为所述文档样本的翻译难度调节系数。

3.根据权利要求2所述的评价方法，其特征在于，确定每一所述文档样本的词汇复杂度，包括：

提取每一所述文档样本的所有词汇，确定所述文档样本的词汇等级grade_word、标准类符形符比STTR和实义词密度density_notional；

确定所述文档样本的所述词汇复杂度，所述词汇复杂度按如下计算公式得到：

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional，

其中，diff_word为所述词汇复杂度，K₁₁、K₁₂、K₁₃为所述文档样本的词汇复杂度调节系数。

4.根据权利要求3所述的评价方法，其特征在于，确定每一所述文档样本的词汇等级grade_word，包括：

将所有所述词汇与其所属语种的词汇分级表进行匹配，得到所述所有词汇的等级，所述等级至少包括一级、二级、三级和四级，其中，未匹配在一级、二级或三级级别中的词汇为四级；

统计二级和二级以上的所述词汇所占的词汇比率，确定所述文档样本的词汇等级grade_word，所述词汇等级grade_word按如下计算公式得到：

$<mrow> <mi>g</mi> <mi>r</mi> <mi>a</mi> <mi>d</mi> <mi>e</mi> <mo>_</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>=</mo> <msub> <mi>K</mi> <mn>111</mn> </msub> <mo>·</mo> <mfrac> <mrow> <msub> <mi>word</mi> <mn>2</mn> </msub> </mrow> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </mfrac> <mo>+</mo> <msub> <mi>K</mi> <mn>112</mn> </msub> <mo>·</mo> <mfrac> <mrow> <msub> <mi>word</mi> <mn>3</mn> </msub> </mrow> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </mfrac> <mo>+</mo> <msub> <mi>K</mi> <mn>113</mn> </msub> <mo>·</mo> <mfrac> <mrow> <msub> <mi>word</mi> <mn>4</mn> </msub> </mrow> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </mfrac> </mrow>$

其中，word₂、word₃和word₄分别为二级、三级和四级的词汇数量，word为所述文档样本的总词汇数量，K₁₁₁、K₁₁₂、K₁₁₃为所述文档样本的词汇等级调节系数。

5.根据权利要求3所述的评价方法，其特征在于，确定每一所述文档样本的标准类符形符比STTR，包括：

统计每一所述文档样本的形符和类符，所述形符为所述文档的总词汇数量，所述类符为所述文档的不相同的词汇数量，若所述形符不足标准数量，则计算类符与形符之比，得到所述标准类符形符比；

若所述形符大于等于标准数量，则将所述文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档；

按照标准类符形符比计算公式，计算得到的所述标准类符形符比STTR，所述标准类符形符比STTR按如下计算公式得到：

$<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mi>T</mi> <mi>T</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>·</mo> <mi>S</mi> <mi>T</mi> <mo>·</mo> <mi>t</mi> <mi>o</mi> <mi>k</mi> <mi>e</mi> <mi>n</mi> </mrow> </mfrac> <mo>·</mo> <mrow> <mo>(</mo> <mi>t</mi> <mi>y</mi> <mi>p</mi> <mi>e</mi> <mo>·</mo> <mi>S</mi> <mi>T</mi> <mo>+</mo> <mi>t</mi> <mi>o</mi> <mi>k</mi> <mi>e</mi> <mi>n</mi> <mo>·</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>type</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>n</mi> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>t</mi> <mi>y</mi> <mi>p</mi> <mi>e</mi> </mrow> <mrow> <mi>t</mi> <mi>o</mi> <mi>k</mi> <mi>e</mi> <mi>n</mi> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中，token为所述不足标准数量的子文档的形符数，type为所述不足标准数量子文档的类符数，n为所述含标准数量个词汇的子文档的数量，type_i为n子文档中第i个子文档的类符数，ST为所述标准数量的表示值。

6.根据权利要求3所述的评价方法，其特征在于，确定每一所述文档样本的实义词密度density_notional，包括：

统计每一所述文档样本的的实义词，确定所述文档样本的实义词数量，所述实义词至少包括以下词性之一：名词、代名词、动词、形容词、副词和感叹词；

统计每个实义词的义项数，根据所述每个实义词的义项数，将每个实义词的义项数相加得到所有实义词的实义总数；

根据实义词实义密度计算公式，计算得到实义词词义密度density_notional，所述实义词实义密度density_notional按如下计算公式得到：

$<mrow> <mi>d</mi> <mi>e</mi> <mi>n</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>_</mo> <mi>n</mi> <mi>o</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>n</mi> <mi>o</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> </mrow> </msubsup> <msub> <mi>meanings</mi> <mi>i</mi> </msub> </mrow> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>n</mi> <mi>o</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> </mrow> </msubsup> <msub> <mi>meanings</mi> <mi>i</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>-</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>n</mi> <mi>o</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>$

其中，count_notional为所述实义词的数量，meanings_i为第i个实义词的义项数，word为所述文档样本的总词汇数量。

7.根据权利要求2所述的评价方法，其特征在于，确定每一所述文档样本的语句复杂度，包括：

统计所述文档样本的整句数，确定平均整句长度MLS；

统计所述文档样本的子句数，确定平均子句长度MLC；

统计所述文档样本的长句数以及每个长句的长度，确定平均长句长度MLL；

统计所述文档样本的每个所述长句的子句数，确定所述长句的平均子句长度MLCL；

根据所述平均整句长度MLS、所述平均子句长度MLC、所述平均长句长度MLL、长句的所述平均子句长度MLCL，确定所述文档样本的语句复杂度diff_sentence，所述语句复杂度diff_sentence按如下计算方式得到：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL，

其中，K₂₁、K₂₂、K₂₃、K₂₄为所述文档样本的语句复杂度调节系数。

8.根据权利要求7所述的评价方法，其特征在于，所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句的所述平均子句长度MLCL分别按照如下计算方式得到：

MLS＝word/count_sentence；

MLC＝word/count_clause；

$<mrow> <mi>M</mi> <mi>L</mi> <mi>L</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> </mrow> </mfrac> <mo>·</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> </mrow> </msubsup> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>_</mo> <msub> <mi>long</mi> <mi>i</mi> </msub> <mo>;</mo> </mrow>$

$<mrow> <mi>M</mi> <mi>L</mi> <mi>C</mi> <mi>L</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mo>_</mo> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> </mrow> </mfrac> <mo>·</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>_</mo> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> </mrow> </msubsup> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>_</mo> <msub> <mi>long</mi> <mi>i</mi> </msub> <mo>;</mo> </mrow>$

其中，count_sentence为所述文档样本的整句数，count_clause为所述文档样本的子句数，count_long为所述文档样本的长句数，count_clause_long为所述文档样本的长句的所有子句数，word为总词汇数，word_long_i为每个所述长句包含的词汇数，i为所述长句的序号。

9.根据权利要求2所述的评价方法，其特征在于，

统计所有所述文档样本的所述翻译难度，确定所述译员的翻译能力等级，包括：

从预置的翻译难度与评价分数的关联关系中，查找每一所述文档样本的所述翻译难度对应的评价分数；

根据所有所述文档样本的所述评价分数，确定所述译员的级别评分，所述级别评分按如下公式计得到：

$<mrow> <mi>T</mi> <mo>_</mo> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>×</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>C</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>$

其中，T_score为所述级别评分，S_i为第i个文档样本的所述评价分数，C_i为第i个文档样本的文档总字数。

10.一种译员翻译能力的评价系统，其特征在于，包括：

提取单元，用于从译员的已完成的翻译文档中提取多个文档样本；

确定单元，用于确定每一所述文档样本的翻译难度；以及统计所有所述文档样本的所述翻译难度，确定所述译员的翻译能力等级。

11.根据权利要求10所述的评价系统，其特征在于，所述确定单元用于确定每一所述文档样本的翻译难度，包括：