一种翻译项目的风险评估方法及系统与流程

文档序号:12469854阅读:1313来源:国知局

本发明涉及翻译技术领域,特别是涉及一种翻译项目的风险评估方法及系统。



背景技术:

在全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时,随着互联网的兴起,翻译服务业正向着大规模产业化的方向发展,平台化处理翻译项目也逐步成为主流处理方式,平台化处理可将之前线下处理方式搬到线上,让译员能够在线翻译,实时提交翻译成果,项目管理员也可在线监控项目完成情况,并以人工方式识别风险,实时调度资源分配,以保证项目按时,按质提交。

由于翻译平台存在着大量待处理的翻译项目,因此翻译平台化的最大风险在于不能科学、合理的识别翻译项目的潜在风险项目,使得部分翻译项目被错误评估其实际的风险,进而导致翻译项目延误、错译等问题的出现。



技术实现要素:

本发明公开了一种翻译项目的风险评估方法及系统,旨在提高翻译项目识别的准确性。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

根据本发明的第一个方面,提供了根据本发明的第一个方面,提供了一种翻译项目的风险评估方法,包括:获取翻译项目的翻译要求;从翻译项目中提取文档样本;确定文档样本的翻译难度;根据文档样本的翻译难度,确定翻译项目未达到翻译要求的风险。

进一步的,确定文档样本的翻译难度,包括:确定文档样本的词汇复杂度和语句复杂度;根据词汇复杂度和语句复杂度,确定文档样本的翻译难度,翻译难度按如下计算公式得到:

diff_doc=K1·diff_word+K2·diff_sentence;

其中,diff_doc为翻译难度,diff_word为词汇复杂度,diff_sentence为语句复杂度,K1、K2为文档样本的翻译难度调节系数。

进一步的,确定文档样本的词汇复杂度,包括:提取文档样本的所有词汇,确定文档样本的词汇等级grade_word、类符形符比STTR和实义词密度density_notional;确定文档样本的词汇复杂度,词汇复杂度按如下计算公式得到:

diff_word=K11·grade_word+K12·STTR+K13·density_notional,

其中,diff_word为词汇复杂度,K11、K12、K13为文档样本的词汇复杂度调节系数。

进一步的,确定文档样本的词汇等级grade_word,包括:将所有词汇与其所属语种的词汇分级表进行匹配,得到所有词汇的等级,等级至少包括一级、二级、三级和四级,其中,未匹配在一级、二级或三级级别中的词汇为四级;统计二级和二级以上的词汇所占的词汇比率,确定文档样本的词汇等级grade_word,词汇等级grade_word按如下计算公式得到:

其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为文档样本的总词汇数量,K111、K112、K113为文档样本的词汇等级调节系数。

进一步的,确定文档样本的类符形符比STTR,包括:统计文档样本的形符和类符,形符为文档的总词汇数量,类符为文档的不相同的词汇数量,若形符不足标准数量,则计算类符与形符之比,得到类符形符比;若形符大于等于标准数量,则将文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;按照类符形符比计算公式,计算得到的类符形符比STTR,类符形符比STTR按如下计算公式得到:

其中,token为不足标准数量的子文档的形符数,type为不足标准数量子文档的类符数,n为含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为标准数量的表示值。

进一步的,确定文档样本的实义词密度density_notional,包括:统计文档样本的的实义词,确定文档样本的实义词数量,实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;统计每个实义词的义项数,根据每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;根据实义词实义密度计算公式,计算得到实义词词义密度density_notional,实义词实义密度density_notional按如下计算公式得到:

其中,count_notional为实义词的数量,meaningsi为第i个实义词的义项数,word为文档样本的总词汇数量。

进一步的,确定文档样本的语句复杂度,包括:统计文档样本的整句数,确定平均整句长度MLS;统计文档样本的子句数,确定平均子句长度MLC;统计文档样本的长句数以及每个长句的长度,确定平均长句长度MLL;统计文档样本的每个长句的子句数,确定长句的平均子句长度MLCL;根据平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句的平均子句长度MLCL,确定文档样本的语句复杂度diff_sentence,语句复杂度diff_sentence按如下计算方式得到:

diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL,

其中,K21、K22、K23、K24为文档样本的语句复杂度调节系数。

进一步的,平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句的平均子句长度MLCL分别按照如下计算方式得到:

MLS=word/count_sentence;

MLC=word/count_clause;

其中,count_sentence为文档样本的整句数,count_clause为文档样本的子句数,count_long为文档样本的长句数,count_clause_long为文档样本的长句的所有子句数,word为总词汇数,word_longi为每个长句包含词汇的数量,i为长句的序号。

进一步的,翻译要求至少包括:翻译能力要求、翻译项目时限要求和翻译项目质量要求;根据文档样本的翻译难度,确定翻译项目未达到翻译要求的风险,包括:根据翻译难度,统计符合翻译能力要求的译员数量和不符合翻译能力要求的译员数量,确定翻译项目的第一风险,第一风险为符合翻译能力要求的译员数量为零;获取符合翻译能力要求的译员当前翻译任务的时限,确定翻译项目的第二风险,第二风险为符合翻译能力要求的译员不领取翻译项目概率;以及确定翻译项目的第三风险,第三风险为符合翻译能力要求、且领取翻译项目的译员未达到翻译项目时限要求的概率。

根据本发明的第二个方面,还提供了一种翻译项目的风险评估系统,包括:获取单元,用于获取翻译项目的翻译要求;提取单元,用于从翻译项目中提取文档样本;确定单元,用于确定文档样本的翻译难度;以及根据文档样本的翻译难度,确定翻译项目未达到翻译要求的风险。

进一步的,确定单元用于:确定文档样本的词汇复杂度和语句复杂度;根据词汇复杂度和语句复杂度,确定文档样本的翻译难度,翻译难度按如下计算公式得到:

diff_doc=K1·diff_word+K2·diff_sentence;

其中,diff_doc为翻译难度,diff_word为词汇复杂度,diff_sentence为语句复杂度,K1、K2为文档样本的翻译难度调节系数。

进一步的,确定单元用于确定文档样本的词汇复杂度,包括:提取文档样本的所有词汇,确定文档样本的词汇等级grade_word、类符形符比STTR和实义词密度density_notional;确定文档样本的词汇复杂度,词汇复杂度按如下计算公式得到:

diff_word=K11·grade_word+K12·STTR+K13·density_notional,

其中,diff_word为词汇复杂度,K11、K12、K13为文档样本的词汇复杂度调节系数。

进一步的,确定单元用于确定文档样本的词汇等级grade_word,包括:将所有词汇与其所属语种的词汇分级表进行匹配,得到所有词汇的等级,等级至少包括一级、二级、三级和四级,其中,未匹配在一级、二级或三级级别中的词汇为四级;统计二级和二级以上的词汇所占的词汇比率,确定文档样本的词汇等级grade_word,词汇等级grade_word按如下计算公式得到:

其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为文档样本的总词汇数量,K111、K112、K113为文档样本的词汇等级调节系数。

进一步的,确定单元用于确定文档样本的类符形符比STTR,包括:统计文档样本的形符和类符,形符为文档的总词汇数量,类符为文档的不相同的词汇数量,若形符不足标准数量,则计算类符与形符之比,得到类符形符比;若形符大于等于标准数量,则将文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;按照类符形符比计算公式,计算得到的类符形符比STTR,类符形符比STTR按如下计算公式得到:

其中,token为不足标准数量的子文档的形符数,type为不足标准数量子文档的类符数,n为含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为标准数量的表示值。

进一步的,确定单元用于确定文档样本的实义词密度density_notional,包括:统计文档样本的的实义词,确定文档样本的实义词数量,实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;统计每个实义词的义项数,根据每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;根据实义词实义密度计算公式,计算得到实义词词义密度density_notional,实义词实义密度density_notional按如下计算公式得到:

其中,count_notional为实义词的数量,meaningsi为第i个实义词的义项数,word为文档样本的总词汇数量。

进一步的,确定单元用于确定文档样本的语句复杂度,包括:统计文档样本的整句数,确定平均整句长度MLS;统计文档样本的子句数,确定平均子句长度MLC;统计文档样本的长句数以及每个长句的长度,确定平均长句长度MLL;统计文档样本的每个长句的子句数,确定长句的平均子句长度MLCL;根据平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句的平均子句长度MLCL,确定文档样本的语句复杂度diff_sentence,语句复杂度diff_sentence按如下计算方式得到:

diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL,

其中,K21、K22、K23、K24为文档样本的语句复杂度调节系数。

进一步的,平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句的平均子句长度MLCL分别按照如下计算方式得到:

MLS=word/count_sentence;

MLC=word/count_clause;

其中,count_sentence为文档样本的整句数,count_clause为文档样本的子句数,count_long为文档样本的长句数,count_clause_long为文档样本的长句的所有子句数,word为总词汇数,word_longi为每个长句包含词汇的数量,i为长句的序号。

进一步的,翻译要求至少包括:翻译能力要求、翻译项目时限要求和翻译项目质量要求;确定单元还用于:根据翻译难度,统计符合翻译能力要求的译员数量和不符合翻译能力要求的译员数量,确定翻译项目的第一风险,第一风险为符合翻译能力要求的译员数量为零;获取符合翻译能力要求的译员当前翻译任务的时限,确定翻译项目的第二风险,第二风险为符合翻译能力要求的译员不领取翻译项目概率;以及确定翻译项目的第三风险,第三风险为符合翻译能力要求、且领取翻译项目的译员未达到翻译项目时限要求的概率。

本发明通过对待处理的翻译项目的文档进行难度分析,可以根据文档的翻译难度来衡量该翻译项目的风险,从而可以提高了对翻译项目风险评估的精确性,便于翻译任务的分配、“高风险”翻译项目的及时干预以及翻译工作的高效运行。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的本发明风险评估方法的流程图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、产品等而言,由于其与实施例公开的方法部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

如图1所示,本发明提供了一种翻译项目的风险评估方法,包括:

S101、获取翻译项目的翻译要求;

翻译行业的翻译风险主要来自于以下几个方面:(1)匹配不到符合项目要求能力的译员,例如翻译项目要求马来语语种,但平台没有此语种的译员;(2)项目剩余时间太少但待翻译文档的字数较多,正常情况下无法在短时间内翻译完成,例如一个10万字的翻译项目只有1个小时的预留时间,不能满足时间要求;(3)翻译项目无人领取,即项目由于本身原因在相当长的时间内无人领取,例如,项目翻译难度很大,但价格较低或者剩余时间不足;(4)翻译项目领取之后不能按时提交并超出翻译要求提交周期的n%时长;(5)翻译项目领取之后不能按时提交并超出项目要求提交周期,超出部分大于或等于翻译项目的周期n%时长;(6)项目提交后未能达到翻译项目所要求的翻译质量;基于上述翻译风险,可以对每一翻译项目制定对应的翻译要求,需要说明的是,上述翻译风险的数目及类型仅用于示例性说明,实际风险评估过程中可以根据新的风险类型需要增补翻译要求;

S102、从翻译项目中提取文档样本;

由于不同翻译项目的文档字数和词数不一,因此为了准确评价翻译项目的风险,S102步骤中提取的文档样本数量需要根据翻译项目的总字数和总词数等因素确定;

S103、确定文档样本的翻译难度;

不同翻译项目的文档翻译难度不同,为了降低不同文档样本的翻译难度差异化的影响、减少评价误差,本发明评价方法需要对提取的文档样本的翻译难度分别评估确定,通过增加多个样本数目的方式,以提高风险评估的精准度;

S104、根据文档样本的翻译难度,确定翻译项目未达到翻译要求的风险。

本发明的风险评估方法通过对文档样本的翻译难度的评估,可以确定翻译难度对该翻译项目能否按时、按量完成的具体影响,从而可以实现对该翻译项目的风险评估,方便确定翻译项目的风险等级,进而可以提前制定策略进行干预,以保障翻译项目的有序进行。

在本发明的一个实施例中,步骤S103中确定文档样本的翻译难度的主要过程包括:

确定文档样本的词汇复杂度和语句复杂度;

其中,词汇复杂度主要从3个方面来计算,包括词汇等级、标准类符形符比和词汇密度;

语句复杂度则分为整句、子句和长句;整句是指表达了完整的意思的字或词汇集合,以句号、感叹号、问号、省略号为结束符号;子句为构成整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;长句为所含字或词汇数大于固定阀值的整句;

根据词汇复杂度和语句复杂度,确定文档样本的翻译难度,翻译难度按如下计算公式得到:

diff_doc=K1·diff_word+K2·diff_sentence;

其中,diff_doc为翻译难度,diff_word为词汇复杂度,diff_sentence为语句复杂度,K1、K2为文档样本的翻译难度调节系数。

在本发明的一个实施例中,确定文档样本的词汇复杂度的过程包括:

提取文档样本的所有词汇,对文档进行分词处理,并进行词性标注;

确定文档样本的词汇等级grade_word、标准类符形符比STTR和实义词密度density_notional;

确定文档样本的词汇复杂度,词汇复杂度按如下计算公式得到:

diff_word=K11·grade_word+K12·STTR+K13·density_notional,

其中,diff_word为词汇复杂度,K11、K12、K13为文档样本的词汇复杂度调节系数。

每个语种都会根据其字或词汇在实际使用中出现的频率,对字或词汇进行分级处理,本发明的技术方案根据各个语种对字或词汇的各种权威分级规范,建立各个语种的字或词汇分级表,将每个语种的字或词汇按常用程度分为3个级别,比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级,因此,在本发明的一个实施例中,确定文档样本的词汇等级grade_word的过程包括:

将所有词汇与其所属语种的词汇分级表进行匹配,得到所有词汇的等级,等级至少包括一级、二级、三级和四级,其中,未匹配在一级、二级或三级级别中的词汇为四级;

统计文档样本的总词汇数量、以及二级、三级和四级的词汇数量;

统计二级和二级以上的词汇所占的词汇比率,确定文档样本的词汇等级grade_word,词汇等级grade_word按如下计算公式得到:

其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为文档样本的总词汇数量,K111、K112、K113为文档样本的词汇等级调节系数。

在本发明的一个实施例中,确定文档样本的标准类符形符比STTR,包括:

统计文档样本的形符和类符,形符为文档的总词汇数量,类符为文档的不相同的词汇数量,若形符不足标准数量,则计算类符与形符之比,得到标准类符形符比;

若形符大于等于标准数量,则将文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;

按照标准类符形符比计算公式,计算得到的标准类符形符比STTR,标准类符形符比STTR按如下计算公式得到:

其中,token为不足标准数量的子文档的形符数,type为不足标准数量子文档的类符数,n为含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为标准数量的表示值。

类符形符比TTR代表了词汇变化率,和文档汇总词汇的丰富程度,TTR的比率越高,说明该文本所使用的不同词汇越多,其阅读难度也相应增大;由于对任一种语言来说的字或词汇的数量是固定的,所以当文档越大,类符形符比就会越小,统计出的类符形符比就会失真;因此实际处理时可以按每标准数量ST个词汇为单位进行TTR计算,比如ST取值1000,最后将所有TTR的均值作为最终取值,即上述实施例中的标准类符形符比STTR。

词汇密度是指一个文本中实义词占总词数的比例,通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大,因此在本发明的一个实施例中,确定文档样本的实义词密度density_notional的过程包括:

统计文档样本的的实义词,确定文档样本的实义词数量,实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;

利用wordnet、知网、同义词词林等同义词本体工具,统计每个实义词的义项数,根据每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;

根据实义词实义密度计算公式,计算得到实义词词义密度density_notional,实义词实义密度density_notional按如下计算公式得到:

其中,count_notional为实义词的数量,meaningsi(1≤i≤count_notional)为第i个实义词的义项数,word为文档样本的总词汇数量。

在本发明的一个实施例中,确定文档样本的语句复杂度的过程包括:

统计文档样本的整句数,确定平均整句长度MLS;

统计文档样本的子句数,确定平均子句长度MLC;

统计文档样本的长句数以及每个长句的长度,确定平均长句长度MLL;

统计文档样本的每个长句的子句数,确定长句的平均子句长度MLCL;

根据平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句的平均子句长度MLCL,确定文档样本的语句复杂度diff_sentence,语句复杂度diff_sentence按如下计算方式得到:

diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL,

其中,K21、K22、K23、K24为文档样本的语句复杂度调节系数。

具体的,平均整句长度MLS按照如下计算方式得到:

MLS=word/count_sentence;

平均子句长度MLC按照如下计算方式得到:

MLC=word/count_clause;

平均长句长度MLL按照如下计算方式得到:

长句的平均子句长度MLCL分别按照如下计算方式得到:

其中,count_sentence为文档样本的整句数,count_clause为文档样本的子句数,count_long为文档样本的长句数,count_clause_long为文档样本的长句的所有子句数,word为总词汇数,word_longi为每个长句包含的词汇数,i为长句的序号。

在实施例中,翻译要求至少包括:翻译能力要求、翻译项目时限要求和翻译项目质量要求。

根据文档样本的翻译难度,确定翻译项目未达到翻译要求的风险,包括:

根据翻译难度,统计符合翻译能力要求的译员数量和不符合翻译能力要求的译员数量,确定翻译项目的第一风险,第一风险为符合翻译能力要求的译员数量为零;若有符合翻译能力要求的译员,则不存在该第一风险;

获取符合翻译能力要求的译员当前翻译任务的时限,确定翻译项目的第二风险,第二风险为符合翻译能力要求的译员不领取翻译项目概率,例如,译员原有的翻译任务过多以至没有足够的翻译时间、翻译项目剩余时间太少等,因而导致符合翻译能力要求的译员可能不领取该翻译项目;

确定翻译项目的第三风险,第三风险为符合翻译能力要求、且领取翻译项目的译员未达到翻译项目时限要求的概率,例如,译员实际完成该翻译项目的时间超出一定范围的时限要求,实施例中分为超出时限小于时限要求的n%,以及超出时限大于或等于时限要求的n%。

本发明还提供了一种翻译项目的风险评估系统,该风险评估系统采用上述实施例中所公开的风险评估方法来确定翻译项目的翻译难度以及对其风险进行评估,风险评估系统主要包括:

获取单元,用于获取翻译项目的翻译要求;

提取单元,用于从翻译项目中提取文档样本;

确定单元,用于确定文档样本的翻译难度;以及

根据文档样本的翻译难度,确定翻译项目未达到翻译要求的风险。

在实施例中,确定单元用于:确定文档样本的词汇复杂度和语句复杂度;根据词汇复杂度和语句复杂度,确定文档样本的翻译难度,翻译难度按如下计算公式得到:

diff_doc=K1·diff_word+K2·diff_sentence;

其中,diff_doc为翻译难度,diff_word为词汇复杂度,diff_sentence为语句复杂度,K1、K2为文档样本的翻译难度调节系数。

在实施例中,确定单元用于确定文档样本的词汇复杂度,包括:提取文档样本的所有词汇,确定文档样本的词汇等级grade_word、类符形符比STTR和实义词密度density_notional;确定文档样本的词汇复杂度,词汇复杂度按如下计算公式得到:

diff_word=K11·grade_word+K12·STTR+K13·density_notional,

其中,diff_word为词汇复杂度,K11、K12、K13为文档样本的词汇复杂度调节系数。

在实施例中,确定单元用于确定文档样本的词汇等级grade_word,包括:将所有词汇与其所属语种的词汇分级表进行匹配,得到所有词汇的等级,等级至少包括一级、二级、三级和四级,其中,未匹配在一级、二级或三级级别中的词汇为四级;统计二级和二级以上的词汇所占的词汇比率,确定文档样本的词汇等级grade_word,词汇等级grade_word按如下计算公式得到:

其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为文档样本的总词汇数量,K111、K112、K113为文档样本的词汇等级调节系数。

在实施例中,确定单元用于确定文档样本的类符形符比STTR,包括:统计文档样本的形符和类符,形符为文档的总词汇数量,类符为文档的不相同的词汇数量,若形符不足标准数量,则计算类符与形符之比,得到类符形符比;若形符大于等于标准数量,则将文档样本划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;按照类符形符比计算公式,计算得到的类符形符比STTR,类符形符比STTR按如下计算公式得到:

其中,token为不足标准数量的子文档的形符数,type为不足标准数量子文档的类符数,n为含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为标准数量的表示值。

在实施例中,确定单元用于确定文档样本的实义词密度density_notional,包括:统计文档样本的的实义词,确定文档样本的实义词数量,实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;统计每个实义词的义项数,根据每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;根据实义词实义密度计算公式,计算得到实义词词义密度density_notional,实义词实义密度density_notional按如下计算公式得到:

其中,count_notional为实义词的数量,meaningsi(1≤i≤count_notional)为第i个实义词的义项数,word为文档样本的总词汇数量。

在实施例中,确定单元用于确定文档样本的语句复杂度,包括:统计文档样本的整句数,确定平均整句长度MLS;统计文档样本的子句数,确定平均子句长度MLC;统计文档样本的长句数以及每个长句的长度,确定平均长句长度MLL;统计文档样本的每个长句的子句数,确定长句的平均子句长度MLCL;根据平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句的平均子句长度MLCL,确定文档样本的语句复杂度diff_sentence,语句复杂度diff_sentence按如下计算方式得到:

diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL,

其中,K21、K22、K23、K24为文档样本的语句复杂度调节系数。

在实施例中,平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句的平均子句长度MLCL分别按照如下计算方式得到:

MLS=word/count_sentence;

MLC=word/count_clause;

其中,count_sentence为文档样本的整句数,count_clause为文档样本的子句数,count_long为文档样本的长句数,count_clause_long为文档样本的长句的所有子句数,word为总词汇数,word_longi为每个长句包含的词汇数,i为长句的序号。

在实施例中,翻译要求至少包括:翻译能力要求、翻译项目时限要求和翻译项目质量要求;确定单元还用于:根据翻译难度,统计符合翻译能力要求的译员数量和不符合翻译能力要求的译员数量,确定翻译项目的第一风险,第一风险为符合翻译能力要求的译员数量为零;获取符合翻译能力要求的译员当前翻译任务的时限,确定翻译项目的第二风险,第二风险为符合翻译能力要求的译员不领取翻译项目概率;以及确定翻译项目的第三风险,第三风险为符合翻译能力要求、且领取翻译项目的译员未达到翻译项目时限要求的概率。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1