多策略译员稿件自动匹配的方法

文档序号:6386596阅读:222来源:国知局
专利名称:多策略译员稿件自动匹配的方法
技术领域
本发明涉及计算机领域,具体而言,涉及一种多策略译员稿件自动匹配的方法。
背景技术
信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台,根据不同对象储存人才资料。有翻译任务时,可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求,调用最合适的翻译和审校人员,组成项目组进行翻译,从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。目前的辅助翻译及管理平台对译员和译稿的匹配,一般还是通过人工或半人工的方式来完成,往往需通过更高级别的译员(比如审校)来判别译员的翻译能力和对译稿的合适度。这样不但主观性强,且采用人工选择译员,效率低下。

发明内容
本发明旨在提供一种多策略译员稿件自动匹配的方法,以解决的问题。在本发明的实施例中,提供了一种多策略译员稿件自动匹配的方法,包括:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;确定为每个译员设定的合适度值;将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。本发明的实施例,能客观的选择译员,效率较高,且经过各种属性判断,找出最适合的多个译员供用户选择。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1示出了实施例的流程图;图2示出了实施例中进行相似度分析的模块架构;图3示出了实施例中关键词的树形结构图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。参见图1所示的实施例的流程图,包括:Sll:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;S12:读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;
S13:确定每个译员设定的合适度值;S14:将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。本发明的实施例,能客观的选择译员,效率较高,且经过各种属性判断,找出最适合的多个译员供用户选择。优选地,实施例中,每个译员对应该译员基因属性,包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某种稿件类型的熟悉度、对某类(个)客户的熟悉度等其他因素;而待译稿件的稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等。通过将这些基因属性量化并带入到一个合适的匹配模型中进行匹配,从而得出某个稿件碎片适合哪些译员翻译并且给出适合度的排序。可按照三层匹配模型找到译员,第一层为过滤项,该层首先确定一些基本的开关项,不符合这些项的译员被滤掉,符合的译员进入下一层匹配;第二层为翻译能力项,该层通过译稿的基因属性来计算译员相应语种、行业、学科、领域的翻译能力,其值为一个O 100的数值;第三层合适度计算项,系统根据译员的基因属性及属性的权重计算出译员翻译该译稿的合适度。第一层的匹配过程包括:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;确定该译员的状态为接案状态后,读取该译员的与所述待译稿件相同的属性;属性至少包括之一:包括翻译价格、是否接任务、退稿率、是否翻译需求方、专项稿件能力。至少执行以下之一的属性筛选:如果所述译员的翻译价格属性的值在所述待译稿件的翻译价格属性的上下限阀值之间,则认为符合属性要求;如果所述译员的退稿率属性的值小于所述待译稿件的退稿率属性的值,则认为符合属性要求;如果所述译员的翻译需求属性的内容包含所述待译稿件的翻译需求属性的内容,则认为符合属性要求;如果所述译员的专项稿件能力属性符合所述待译稿件的专项稿件属性的内容,则认为符合属性要求。例如:判别该译员翻译价格是否超过给定译稿的翻译价格阀值,不超过为1,否则为O该译员被过滤掉。是否接任务:判断若该译员是否处于暂不接任务状态,接任务为1,不接任务为O该译员被过滤掉。退稿率:若译员退稿率不大于50%,按其值的大小归入到合适度项目计算,否则其值为O直接过滤掉。是否翻译需求方:若翻译甲方有指定的翻译要求,按其要求判断译员是否符合要求,符合为1,否则为O该译员被过滤掉。专项稿件能力:若待译稿件为某类专门稿件,如简历、公证书、法律文书或其他有专门格式和体裁文书,则要求译员具备相关的文书翻译能力,具备为1,否则为O该译员被过滤掉。
在第一层匹配之后,通过第二层的译稿的基因属性来计算译员相应语种、行业、学科、领域的翻译能力,其值为一个O 100的数值。按照图2所示的模块结构量化,该方法的流程过程如下:提取测试稿件一篇中到英的有关汽车发动机制造的测试稿件,其语种信息、行业信息和学科领域信息为:语种信息:中一英行业信息:37交通运输设备制造业372汽车制造3721汽车整车制造学科领域信息:470动力与电气工程470.30动力机械工程470.3020内燃机工程(包括汽油机、柴油机、气体燃料发动机等)对译员能力进行判断,如果已经经过判定,则进入译员能力选择/比较模块,如果没有经过判定,则进行翻译能力测试系统登陆模块。译员登录平台申请领取测试稿件。系统读取测试稿件的语种、行业、学科、领域等属性信息,若译员具备该属性能力,则进入译员能力比较/选择模块;否则分配测试许可号给该译员进行该专业属性能力的翻译测试;申领译员凭测试许可号登录翻译能力测试系统,进行该语种、行业、学科、领域的翻译能力测试;系统根据测试许可号,从标准测试文档库中提取7篇相关测试文档给待测译员,包括语种类文档I篇,行业类文档3篇(37、372、3721),学科领域类文档3篇(470、470.30、470.3020),其难度系数分别为:9、6、8、8、7、8、7,排列顺序为语种、行业-交通运输设备制造业(37)、行业-交通运输设备制造业-汽车制造(372)、行业-交通运输设备制造业-汽车制造-汽车整车制造(3721)、学科领域信息-动力与电气工程(470)、学科领域信息-动力与电气工程-动力机械工程(470.30)、学科领域信息-动力与电气工程-动力机械工程-内燃机工程(470.3020),后面的数字顺序与此相同;译员翻译完成后,根据翻译时间得到7篇译文的翻译速度档位值分别为:6、8、7、
6、6、7、7,然后调用相似性比较模块计算译员的译文和标准译文的相似度,得到7篇译文和标准译文的相似度值,分别为:0.6,0.65,0.79,0.83,0.77,0.82,0.85 ;优选地,稿件相似性比较模块进行分析的过程包括:S21:提取每篇译后稿件和与其对应的标准译稿所归属的属于一个专业的多篇标准译稿的全部关键词,得到关键词集合C= {k1;k2,-,kj ;S22:计算C中每个关键词k在稿件集合中出现的概率,即出现关键词k的稿件数和稿件总数之比,记为P (k)。将关键词按P (k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为Ik1),{k2),..., {km);在这m个关键词中 ,计算在关键词Ici出现的稿件中,关键词kj也出现的概率,记为P(IijIki),共计P 2m个条件概率,(l〈i, j彡m ;i关j);
p (kj │ ki)的计算方法:p (kj │ki) =p (kjki) /P(kjki)为 kj、ki 同时出现在同一篇稿件中的概率。S23:合并集合,当集合I和J同时满足以下两个条件时合并:彐(ki∈I,kj∈J, ki≠ kj)满足 P (ki)>Pl,P(kj│ki) >P2 ;V (ki∈IUJ)满足 │{ki ∈I U J│p(kj│ki)>P2}i>(|i| + |j|)/2. (|x| 表示集合X中元素的个数)当任两个集合都不符合这两个条件的时合并结束,同时得到第一层聚类关键词集合 C - {Cl, C2, ...,Cq) .对C - {C1,C2,…,Cq},取阈值P3〈P2,用上述方法再次进行聚类,生成上一层概念集合。重复此过程,直到聚类集合无法再聚类为止,这些无法再聚类的概念集合为根节点C的子节点,这样就生成如图3所示的关键词的概念树。S24:根据概率形成的树形结构,计算两篇文档的相似度。相ㄔ以度
权利要求
1.一种多策略译员稿件自动匹配的方法,其特征在于,包括: 读取待译稿件的各个属性,筛选出满足全部属性要求的译员; 读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值; 确定为每个译员设定的合适度值; 将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。
2.根据权利要求1所述的 方法,其特征在于,所述待译稿件的各个属性至少包括之一: 翻译价格、退稿率、翻译需求、专项稿件。
3.根据权利要求1所述的方法,其特征在于,所述筛选的过程包括: 确定该译员的状态为接案状态后,读取该译员的与所述待译稿件相同的属性; 至少执行以下之一的属性筛选: 如果所述译员的翻译价格属性的值在所述待译稿件的翻译价格属性的的上下限阀值之间,则认为符合属性要求; 如果所述译员的退稿率属性的值小于所述待译稿件的退稿率属性的值,则认为符合属性要求; 如果所述译员的翻译需求属性的内容包含所述待译稿件的翻译需求属性的内容,则认为符合属性要求; 如果所述译员的专项稿件的能力属性符合所述待译稿件的专项稿件属性的内容,则认为符合属性要求。
4.根据权利要求1所述的方法,其特征在于,所述合适度的计算项至少包括以下之一: 退稿率、及时交稿率、稿件可用率、翻译性价比、合作次数、低级失误;其中,每一项对应一个介于(TlOO之间的数值。
所述确定合适度值的过程包括: 设定多个合适度计算项的权重; 将每个合适度计算项与其对应的权重相乘,将所述多个合适度计算项的乘积的和作为所述和适度值。
5.根据权利要求1所述的方法,其特征在于,所述相似性分析的过程包括: 提取每篇译后稿件和与其对应的测试文档库中的标准译稿集合的关键词;该关键词的集合为 C={k1; k2,..., kj ; 计算C中每个关键词k在稿件中出现的概率,即出现关键词k的稿件数和稿件总数之比,记为P (k); 将C中关键词按P (k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{kj , {k2},..., {kj ; 在这m个关键词中,计算在关键词匕出现的稿件中关键词kj出现的概率,记为P(kj Iki),共计 P I 个条件概率,(I 彡 i,j 彡 m ;i 关 j) ;p (IiJki)=P (Iijki)/p Cki), p Ckjkj为h和h同时出现在同一篇稿件中的概率; 合并待合并集合,生成以关键词集合C为根节点的关键词概念树。
6.根据权利要求5所述的方法,其特征在于,所述合并过程包括: 对于待合并的两个关键词集合Cl和C2,合并条件为:存在Ici属于Cl, kj属于C2,且p(10>阀值?14 (IijIki) >阀值P2,当p (Iii)和p (k」| Iii)大于所述设定阀值时,关键词Iii和h表达相同概念,满足其所在的集合的合并条件之一; 在合并后的集合中任给一个关键词ki;其与集合中一半以上关键词都满足条件PCkjIki))阀值 P2。
7.根据权利要求6所述的方法,其特征在于,定义H为生成的概念树的高度,定义depth (k)为节点k在树中的深度,即为从根节点到该节点所经历的边数; 定义ComGii, kj)为离节点Ici和kj最近的共同父节点; 任两个关键词的积的计算公式AiXkj=Clepth (com Cki, k」))/H ; 设向量 A={a1;a2,..., an}, B={b1; b2, bn},定义向量计算:
8.根据权利要求7所述的方法,其特征在于,确定所述量化值的过程包括: 根据每篇测试稿件的专业术语的数量,确定该每篇测试稿件的权重基值;其中,所述测试稿件经过翻译后得到所述译后稿件; 通过所述权重基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重; 将上述所得的权重值结合译后稿件与标准译稿的相似度值得到一个O 100之间的数值,将该数值作为所述量化值。
全文摘要
本发明提供了一种多策略译员稿件自动匹配的方法,包括读取待译稿件的各个属性,筛选出满足全部属性要求的译员;读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;确定为每个译员设定的合适度值;将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。本发明能客观的选择译员,效率较高,且经过各种属性判断,找出最适合的多个译员供用户选择。
文档编号G06F17/27GK103092827SQ20121059487
公开日2013年5月8日 申请日期2012年12月31日 优先权日2012年12月31日
发明者江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1