一种翻译错误的数据分析方法

文档序号:6524892阅读:201来源:国知局
一种翻译错误的数据分析方法
【专利摘要】本发明公开了一种翻译错误的数据分析方法,包括:将每篇已翻译文档的错误信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;根据所述事务数据库中的每条记录,进行关联计算,得到所述数据项与所述影响因素的关联规则。本发明通过对翻译错误与影响因素进行关联计算,提高了翻译错误与相关影响因素关联的准确性。
【专利说明】一种翻译错误的数据分析方法
【技术领域】
[0001]本发明涉及一种翻译【技术领域】,具体而言,涉及一种翻译错误的数据分析方法。
【背景技术】
[0002]对于翻译服务企业,影响翻译质量的因素很多,翻译服务企业需要从业务接洽、译前准备、翻译、审校、编辑、检验、客户反馈以及文档管理、责任和保密等各个方面进行进行规范。其中对翻译质量影响最大的因素就是译文在翻译过程中出现的各种形式的翻译错误。这些不同等级、类型的错误,往往跟译员、译文、翻译过程、翻译质量等诸多因素相关,这些因素之间往往互相关联、互相牵制、互为因果,如果能找出某些错误的产生与哪些因素的内在关系,将对于预防错误的产生,改进翻译生产流程以提高翻译质量,有着很大的帮助,因此,对于提高翻译错误关联的因素的准确性一直是研究的重点。

【发明内容】

[0003]本发明旨在提供一种翻译错误的数据分析方法,解决了如何提高翻译错误关联的因素的准确性的问题。
[0004]本发明公开了一种翻译错误的数据分析方法,包括:
[0005]将每篇已翻译文档的错误信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;
[0006]根据所述事务数据库中的每条记录,进行关联计算,得到所述错误信息数据与所述影响因素的关联规则。
[0007]优选地,所述数据通过所述已翻译文档的错误等级和错误类型组合得到。
[0008]优选地,一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的翻译难度、使用的辅助翻译工具、审校次数和审校级别。
[0009]优选地,所述合并处理包括:
[0010]将同一个所述译员ID的数据项进行归集,得到所述数据集。
[0011]优选地,所述关联计算包括:
[0012]根据所述事务数据库中的记录,递推出频繁k+Ι项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
[0013]优选地,所述递推出频繁k+Ι项集的过程包括:
[0014]扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的I项集;
[0015]计算每个所述I项集的支持度,得到支持度不小于最小支持度阀值的频繁I项集;[0016]通过频繁k项集与频繁I项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+Ι项集。
[0017]优选地,还包括:
[0018]每个所述I项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
[0019]若事务数据库中的某条记录包含该I项集中的项,则将与该记录对应的数位上的逻辑值记为I;否则,记为O;
[0020]计算所述所有I项集的支持度,剔除支持度小于最小支持度阀值的所述I项集,得到所述频繁I项集;
[0021]其中,布尔数组中“I”的个数与布尔数组的数位长度之比作为所述支持度。
[0022]优选地,还包括:
[0023]所述k+Ι项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁I项集及其布尔数组进行无重复合并得到;
[0024]在所述无重复合并的过程中,频繁k项集的布尔数组与频繁I项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+Ι项集的布尔数组;
[0025]计算所述所有候选频繁k+Ι项集的支持度;剔除支持度小于最小支持度阀值的所述k+Ι项集,得到所述频繁k+Ι项集。
[0026]本发明中的翻译错误的数据分析方法,具有以下优点:
[0027]1、通过对错误信息数据和影响因素进行关联计算,提高了错误信息数据关联的准确性;
[0028]2、本发明对频繁项集搜索和检出的方法,只需在生成I项集表时扫描I次事务数据库D,相比大部分其他关联规则算法的多次读取事务数据库而言,大为减少了由于读取事务数据库而产生的IO开销;生成频繁项集时不用先产生候选项,频繁k项集由频繁I项集和频繁k-Ι项集直接生成,相较于同样只需一次扫描事务数据库但需将事务数据库压缩到频繁模式树的FP-growth方法而言,有更少的内存消耗;
[0029]3、本方法中通过采用布尔数组来进行频繁项集的挖掘,最大的计算消耗为“逻辑与”运算,符合计算机的最底层的计算处理模式,由此设计出的软件不但运算速度快,对于cpu和内存的消耗也最为节省。
【专利附图】

【附图说明】
[0030]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0031 ] 图1示出了实施例的流程图。
【具体实施方式】
[0032]下面将参考附图并结合实施例,来详细说明本发明。
[0033]本实施例中提供了一种翻译错误的数据分析方法,包括:
[0034]将每篇已翻译文档的错误信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;
[0035]根据所述事务数据库中的每条记录,进行关联计算,得到所述数据项与所述影响因素的关联规则。
[0036]实施例中的错误信息数据是通过将翻译的错误等级和错误类型组合得到;
[0037]错误等级根据翻译错误的严重程度,从低到高分为5档,分别为errUerrfArrf、err4、err50
[0038]错误类型包括:排版错误(prn)、逻辑错误(log)、语法错误(gra)、
[0039]句法错误(syn)、单词或术语错误(ter)、直译错误(I it)、知识性错误(inf)、专业错误(pro)和责任错误(Iib);
[0040]错误信息数据的表示,例如错误等级为5档,错误类型为排版错误,则错误信息数据为 err5.prn ;
[0041]一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的翻译难度、使用的辅助翻译工具、审校次数和审校级别。
[0042]影响因素的表示,例如如下:
[0043]译员ID:ΙΡ(η),η为译员序号;
[0044]译员性别:男:male;女:female ;
[0045]专业:译员所学的专业,以pro (η)表示;η为专业的序号。
[0046]翻译能力:译员具备的语种和行业学科领域的专业能力,这是个多项集,每个译员可能有多项能力,以集合形式表示{capl、cap2...}。
[0047]是否签约:表不该译贝是否是签约译贝,签约为sign,未签约为not_sign。
[0048]所属供应商:该译员所属的翻译公司,以sup (η)表示,η为翻译公司序号。
[0049]供应商规模:按供应商的规模大小,50个译员以上为大;50?20为中;20以下为小。分别对应 scalel、scale2、scale3。
[0050]译员合作次数:以col (η)表示,η为合作次数。
[0051]译文类别:译文类别为该译文所属的行业或学科领域类别,与译员的能力项相对应,表示形式为icap(n),η为译员类别序号。
[0052]译文方向:表示译文为哪个翻译方向,即其源语种和目标翻译语种,如中到英表示为CN-EN,其他的类同。
[0053]译文难度:表示该译文翻译的难易程度,分为5档,从难到易为levl、lev2、lev3、lev4>lev5。
[0054]使用何种辅助翻译工具:CAT(n)表示,η为辅助翻译工具的序号,其中η为O表示没有使用辅助翻译工具。
[0055]审校次数:以chk(n)表示,η表示该译文审校的次数;
[0056]审校级别:以rev (η)表示,η表示审校的级别。
[0057]优选地,所述合并处理包括:
[0058]将同一个所述译员ID的数据项进行归集,得到所述数据集。[0059]优选地,所述关联计算包括:
[0060]根据所述事务数据库中的记录,递推出频繁k+Ι项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
[0061]优选地,所述递推出频繁k+Ι项集的过程包括:
[0062]扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的I项集;
[0063]计算每个所述I项集的支持度,得到支持度不小于最小支持度阀值的频繁I项集;
[0064]通过频繁k项集与频繁I项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+Ι项集。
[0065]优选地,还包括:
[0066]每个所述I项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
[0067]若事务数据库中的某条记录包含该I项集中的项,则将与该记录对应的数位上的逻辑值记为I;否则,记为O;
[0068]计算所述所有I项集的支持度,剔除支持度小于最小支持度阀值的所述I项集,得到所述频繁I项集;
[0069]其中,布尔数组中“I”的个数与布尔数组的数位长度之比作为所述支持度。
[0070]优选地,还包括:
[0071]所述k+Ι项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁I项集及其布尔数组进行无重复合并得到;
[0072]在所述无重复合并的过程中,频繁k项集的布尔数组与频繁I项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+Ι项集的布尔数组;
[0073]计算所述所有候选频繁k+Ι项集的支持度;剔除支持度小于最小支持度阀值的所述k+Ι项集,得到所述频繁k+Ι项集。
[0074]进一步的,还本方案还提供一个优选的实施例:
[0075]数据采集:
[0076]在翻译生产过程中,会产生各种形式的错误,本方法采集潜在的与产生翻译错误有关因素的数据信息。包括错误的等级、错误的类型,具体包括:错误级别、排版错误、单词或术语错误、语法错误、直译错误、知识性错误、逻辑错误、专业错误、人为粗心错误、责任错误、不可抗错误(原文错误);影响翻译错误产生的因素包括:译员、译文、翻译过程等,具体包括:译员等级、译员所属公司、译员翻译数量、是否平台签约译员、译员性别、译文长度、译文难度、错误所在段落特征、错误所在句子特征、译文翻译速度、审校等级、审校所属公司
坐寸ο
[0077]数据预处理:
[0078]将错误信息数据和影响因素进行表述,例如实施例1中的表示;
[0079]得到若干数据项;
[0080]将得到的数据项按照译员ID进行合并,得到数据集;[0081]建立事务数据库:
[0082]通过对产生翻译错误潜在因素的数据信息进行上述处理后,得到如下形式的事务数据库记录,如表1:
[0083]表1如下:
【权利要求】
1.一种翻译错误的数据分析方法,其特征在于,包括: 将每篇已翻译文档的错误信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集; 根据所述事务数据库中的每条记录,进行关联计算,得到所述错误信息数据与所述影响因素的关联规则。
2.根据权利要求1所述的方法,其特征在于,所述数据通过所述已翻译文档的错误等级和错误类型组合得到。
3.根据权利要求1所述的方法,其特征在于,一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的翻译难度、使用的辅助翻译工具、审校次数和审校级别。
4.根据权利要求3所述的方法,其特征在于,所述合并处理包括: 将同一个所述译员ID的数据项进行归集,得到所述数据集。
5.根据权利要求1所述的方法,其特征在于,所述关联计算包括: 根据所述事务数据库中的记录,递推出频繁k+Ι项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
6.根据权利要求5所述的方法,其特征在于,所述递推出频繁k+Ι项集的过程包括: 扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的I项集; 计算每个所述I项集的支持度,得到支持度不小于最小支持度阀值的频繁I项集; 通过频繁k项集与频繁I项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+Ι项集。
7.根据权利要求6所述的方法,其特征在于,还包括: 每个所述I项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应; 若事务数据库中的某条记录包含该I项集中的项,则将与该记录对应的数位上的逻辑值记为I ;否则,记为O ; 计算所述所有I项集的支持度,剔除支持度小于最小支持度阀值的所述I项集,得到所述频繁I项集; 其中,布尔数组中“I”的个数与布尔数组的数位长度之比作为所述支持度。
8.根据权利要求7的方法,其特征在于,还包括: 所述k+Ι项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁I项集及其布尔数组进行无重复合并得到; 在所述无重复合并的过程中,频繁k项集的布尔数组与频繁I项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+Ι项集的布尔数组; 计算所述所有候选频繁k+Ι项集的支持度;剔除支持度小于最小支持度阀值的所述k+Ι项集,得到所述频繁k+Ι项集。
【文档编号】G06F17/28GK103744842SQ201310713987
【公开日】2014年4月23日 申请日期:2013年12月23日 优先权日:2013年12月23日
【发明者】江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1