一种译员文档精确匹配的方法

文档序号:6524782阅读:285来源:国知局
一种译员文档精确匹配的方法
【专利摘要】本发明公开了一种译员文档精确匹配的方法,包括:扫描待译文档,确定所述待译文档中的所有词汇和所有语句;根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值;根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配,匹配出与所述待译文档的翻译难度数值对应的译员。本发明通过提供一种文档的翻译难度的计算方法,准确的计算出待译文档的翻译难度,分配给合适的译员,合理的实现资源配置。
【专利说明】一种译员文档精确匹配的方法
【技术领域】
[0001]本发明涉及翻译【技术领域】,具体而言,涉及一种译员文档精确匹配的方法。
【背景技术】
[0002]在翻译流程中,为待译文档选择合适的译员是其中最重要的一个环节。为保证译文的翻译质量,首先要求译员的翻译能力足以胜任的待译文档的翻译难度,其次从性价比的角度考虑,也要求译员的翻译能力不要过于超出待译文档的翻译难度,以使得翻译质量和翻译代价之比最优。译员的翻译能力是一个动态的能力值,对于翻译企业来说,译员的翻译能力值是通过译员在不断的翻译生产过程中所得到的一个加权评分值,相对来说是个固定的可获取的能力值,但待译文档的翻译难度的判定则需要根据每篇文档的具体情况而定。对于文档翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待翻译文档进行标注和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对文档进行翻译难度判断,目前最常用的方法是通过对文档中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对文档翻译难度的判别,还缺乏一个既高效又相对准确的判别方法,从而保证译员文档能够进行快速准确的匹配。

【发明内容】

[0003]本发明旨在提供一种译员文档精确匹配的方法,解决了如何将文档分配给合适的译员的问题。
[0004]本发明公开了一种译员文档精确匹配的方法,包括:
[0005]扫描待译文档,确定所述待译文档中的所有词汇和所有语句;
[0006]根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;
[0007]根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值;
[0008]根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配,匹配出与所述待译文档的翻译难度数值对应的译员。
[0009]优选地,计算所述文档的词汇复杂度的过程包括:
[0010]计算出文档的词汇等级、类符形符比和实义词词义密度;
[0011]按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
[0012]diff_word=Kn.grade_word+K12.STTR+K13.density—notional ;[0013]其中,diff_word为所述文档词汇复杂度,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,Kn、K12和K13为通过样本计算得到词汇复杂度调节系数。
[0014]优选地,在计算所述文档的词汇等级之前,还包括:
[0015]对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数;
[0016]将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
[0017]分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
[0018]计算所述文档的词汇等级的过程包括:
[0019]按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
【权利要求】
1.一种译员文档精确匹配的方法,其特征在于,包括: 扫描待译文档,确定所述待译文档中的所有词汇和所有语句; 根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度; 根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值; 根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配,匹配出与所述待译文档的翻译难度数值对应的译员。
2.根据权利要求1所述的方法,其特征在于,计算所述文档的词汇复杂度的过程包括: 计算出文档的词汇等级、类符形符比和实义词词义密度; 按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
diff_word = K11.grade_word+K12.STTR+K13.density_notional ; 其中,diff_word为所述文档词汇复杂度,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符 比,density_notional为所述文档的实义词词义密度,Kn、K12和K13为通过样本计算得到词汇复杂度调节系数。
3.根据权利要求2所述的方法,其特征在于,在计算所述文档的词汇等级之前,还包括: 对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数; 将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级; 分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量; 计算所述文档的词汇等级的过程包括: 按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
4.根据权利要求3所述的方法,其特征在于,在计算所述文档的类符形符比的过程包括; 根据得到的所有所述词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或 将得到的所有所述词汇按照标准数量划分为多个子文档,及I个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
5.根据权利要求3所述的方法,其特征在于,在计算所述文档的所述实义词词义密度之前,还包括:对得到的所有所述词汇进行词性标注,得到其中的实义词;将得到的所有所述实义词按照一定顺序进行排列;根据同义词本体工具得到每个所述实义词的义项数meaningSi,其中i为所述实义词的序号;并统计所述实义词的义项总数;按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
6.根据权利要求5所述的方法,其特征在于,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词。
7.根据权利要求2所述的方法,其特征在于,在计算所述文档的所述语句复杂度之前,还包括:通过确定所述文档中的整句数计算出整句的平均长度;`通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度;通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度;通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度;计算所述文档的所述语句复杂度的过程包括:按照语句复杂度计算公式计算得出所述文档的所述语句复杂度;所述语句复杂度计算公式如下:diff_sentence=K21.MLS+K22.MLC+K23.MLL+K24.MLCL ;其中,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和Κ24为通过样本计算得到语句复杂度调节系数。
8.根据权利要求7所述的方法,其特征在于,计算所述整句和所述第一子句的平均长度的过程包括:将所述总词汇数除以所述整句数,得到所述整句的平均长度MLS ;将所述总词汇数除以所述第一类子句的数量,得到所述第一类子句的平均长度MLC。
9.根据权利要求7所述的方法,其特征在于,计算所述长句和所述第二类子句的平均长度的过程包括:统计每个所述长句的长度wordjongi, 1 ^ i ^ count_long ;其中,i为长句的序号;按照长句的平均长度计算公式计算得到所述长句的平均长度;所述长句的平均长度计算公式如下:
10.根据权利要求1所述的方法,其特征在于,所述文档的翻译难度数值的计算过程包括: 按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
diff^doc=K1.diff_word+K2.diff_sentence ; 其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度数值。
【文档编号】G06F17/30GK103729421SQ201310712040
【公开日】2014年4月16日 申请日期:2013年12月23日 优先权日:2013年12月23日
【发明者】江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1