一种获得文档翻译难度的方法

文档序号:6547322阅读:151来源:国知局
一种获得文档翻译难度的方法
【专利摘要】一种获得文档翻译难度的方法,包括:扫描文档;确定所述文档的多种特征数据、以及每个特征数据的权重;根据多个所述特征数据的权重,计算出所述文档的分值;以计算出的所述分值在等级表中找到与该分值所属的翻译难度等级。本发明以自动化处理技术,省略掉人工分析文档难度的过程,实现了翻译管理流程的自动化,为后续自动化的工作,比如自动化分配译员,打下基础。
【专利说明】一种获得文档翻译难度的方法
【技术领域】
[0001]本发明涉及翻译【技术领域】,尤其是涉及一种获得文档翻译难度的方法。
【背景技术】
[0002]当前,随着语联网的兴起,使翻译领域进入互联网时代,对文档的翻译难度的分析需要一种自动、准确的方法,以满足语联网的标准,提高翻译的工作效率。传统的文档的难易程度的分析,是通过经验丰富的译员来完成,缺少一个统一的分析标准,且译员和译员的分析效率不同,,使整个翻译的流程的效率低下。

【发明内容】

[0003]本发明的目的之一是提供一种获得文档翻译难度的方法,以解决现有技术中无法自动、准确的找到待译文档的翻译难易程度的问题。
[0004]在一些说明性实施例中,所述获得文档翻译难度的方法,包括:扫描文档;确定所述文档的多种特征数据、以及每个特征数据的权重;根据多个所述特征数据的权重,计算出所述文档的分值;以计算出的所述分值在等级表中找到与该分值所属的翻译难度等级。
[0005]与现有技术相比,本发明的说明性实施例包括以下优点:
[0006]通过自动完成待译文档的翻译难易程度的分析,确保每篇待译文档能够具有统一的批判标准,通过自动分析比传统的人工鉴别,大大提高了分析的效率,另外,通过对待译文档的多种属性进行分析,比以往的单一属性的分析更具有准确性。
【专利附图】

【附图说明】
[0007]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0008]图1是按照本发明的说明性实施例的流程图。
【具体实施方式】
[0009]在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
[0010]现在参照图1,图1示出了在一些说明性实施例中的流程图。
[0011]如图1所示,在一些说明性实施例中,公开了一种获得文档的翻译难度的方法,包括:
[0012]SI 1、扫描文档;
[0013]S12、确定所述文档的多种特征数据、以及每个特征数据的权重;
[0014]S13、根据多个所述特征数据的权重,计算出所述文档的分值;
[0015]S14、以计算出的所述分值在等级表中找到与该分值所属的翻译难度等级。[0016]在一些说明性实施例中,确定了每个特征数据的权重之后,对所有权重求和,得到文档的翻译难度的分值。
[0017]在一些说明性实施例中,上述等级表中至少包括两个属性,为分值段和等级;其中,每个分值段具有最高值和最低值;每个分值段对应有一个翻译难度等级。通过计算出的文档分值在等级表中查找,找到该分值所属的分值段,即找到与分值段对应的翻译难度等级,确定文档的翻译难度等级。
[0018]在一些说明性实施例中,文档的翻译难度与多种特征数据密切相关,多种特征数据至少包括以下之一:
[0019]语句占比、词汇难度、歧义词占比、术语占比、语句长度、句法结构和生词出现频率。
[0020]在一些说明性实施例中,语句占比是文档中的语句数量与第一阈值之比;其中,第一阈值是翻译系统中的语句语料库中的语句数量,,语句语料库中的语句通过翻译自主学习更新,其中的语句数量随学习更新而变化。
[0021 ] 在一些说明性实施例中,词汇难度是文档中的在词汇字典中的词条数量最多的词汇的词条数量。其中,词汇字典类似《新华字典》,其中的每个词汇具有至少一个解释词条。
[0022]在一些说明性实施例中,歧义词占比是指文档中的歧义词(即多义词)占文档中的所有词汇中的比例。
[0023]在一些说明性实施例中,术语占比是指文档中的术语占文档中的所有词汇中的比例。
[0024]在一些说明性实施例中,语句长度是指分析文档中包含有词汇数量最多的语句的词汇数量。
[0025]在一些说明性实施例中,句法结构是指语句中所用到的词法数量。
[0026]在一些说明性实施例中,生词出现频率是指文档中在词汇字典中无法找到的词汇的数量。
[0027]在一些说明性实施例中,下述第一权重系数、第一权重系数、......、第七权重系
数的数量是通过特征数据的数量来确定的,权重系数的具体的值是通过对多个特征数据进行分析,针对于每个特征数据对文档的翻译难度的影响大小,确定的每个特征数据的占比。
[0028]在一些说明性实施例中,确定所述语句占比的权重的过程包括:通过所述扫描文档,统计出所述文档中的语句数量;计算出所述语句数量与第一阈值之比,确定第一子分值;其中,所述第一阈值为语句语料库中的语句数量;根据所述第一子分值和所述语句占比的第一权重系数,获得第一权重。其中,确定第一子分值例如占比小于3%为100分,小于6%为95分,...依次类推,5分以下都为5分。
[0029]在一些说明性实施例中,确定所述词汇难度的权重的过程包括:通过所述扫描文档,扫描出所述文档中的每个词汇;确定每个所述词汇在词语字典中的词条数量;根据所述词条数量最多的词汇的所述词条数量确定第二子分值;根据所述第二子分值和所述词汇难度的第二权重系数,,获得第二权重。其中,确定第二子分值例如将有2个翻译词条为I级,3个为2级......最高10级,最高10级对应分值为100。通过等级确定该分值。
[0030]在一些说明性实施例中,确定所述歧义词占比的权重的过程包括:通过所述扫描文档,扫描出所述文档中的每个词汇;确定所有所述词汇中的歧义词,以及所述歧义词数量;计算出所述歧义词在所述词汇中的占比,确定第三子分值;根据所述第三子分值和所述歧义词的第三权重系数,获得第三权重。其中,确定第三子分值例如设置难度20级,满分100,0.9%为20级,0.85为19级......依此类推,此比例值仅适用于中文,其他语种并不一样。
[0031]在一些说明性实施例中,确定所述术语占比的权重的过程包括:通过所述扫描文档,扫描出所述文档中的所有词汇;根据行业术语表,确定所有词汇中的术语、以及术语数量;计算出所述术语在所述词汇中的占比,确定第四子分值;根据所述第四子分值和所述术语占比的第四权重系数,获得第四权重。其中,确定第四子分值例如占比达40%为100分,38%为95分,依此类推。
[0032]在一些说明性实施例中,确定所述语句长度的权重值的过程包括:通过所述扫描文档,扫描出所述文档的每个语句,并确定每个语句的词汇数量;以词汇数量最大的语句的长度,确定第五子分值;根据所述第五子分值和所述语句长度的第五权重系数,获得第五权重。其中,确定第五子分值例如以中文为例,30个字以下以为50分,35个字为55分,以此类推,最高100分
[0033]在一些说明性实施例中,确定所述句法结构的权重的过程包括:通过所述扫描文档,扫描出所述文档中的每个语句;通过抽象语法树,确定每个语句中所使用的词法数量;以使用词法数量最多的语句的词法数量,确定第六子分值;根据所述第六子分值和所述语法结构的第六权重系数,获得第六权重。其中,确定第六子分值例如以中文为例,当词法12个以下以为50分,14个字为55分,以此类推,最高100分。
[0034]在一些说明性实施例中,确定所述生词出现频率的权重的过程包括:通过所述扫描文档,确定所述文档中的每个词汇;将每个所述词汇在词语字典中匹配,匹配失败,该词汇为生词;统计生词数量,确定第七子分值;根据所述第七子分值和所述生词出现频率的第七权重系数,获得第七权重。其中,确定第七子分值例如以中文为例,当陌生的词、字有I个为60分,2个字为70分,以此类推,最高100分。
[0035]在一些说明性实施例中,确定了文档的翻译难度等级之后,还包括至少下列操作之一:
[0036]I)、根据文档的翻译难度等级,确定文档的翻译费用;;
[0037]2)、根据文档的翻译难度等级,将文档推送给与该翻译难度等级相对应的译员,进行翻译;
[0038]以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种获得文档翻译难度的方法,其特征在于,包括: 扫描文档; 确定所述文档的多种特征数据、以及每个特征数据的权重; 根据多个所述特征数据的权重,计算出所述文档的分值; 以计算出的所述分值在等级表中找到与该分值所属的翻译难度等级。
2.根据权利要求1所述的方法,其特征在于,所述文档的多个特征数据至少包括: 语句占比、词汇难度、歧义词占比、术语占比、语句长度、句法结构和生词出现频率。
3.根据权利要求2所述的方法,其特征在于,确定所述语句占比的权重的过程包括: 通过所述扫描文档,统计出所述文档中的语句数量; 计算出所述语句数量与第一阈值之比,确定第一子分值; 其中,所述第一阈值为语句语料库中的语句数量; 根据所述第一子分值和所述语句占比的第一权重系数,获得第一权重。
4.根据权利要求2所述的方法,其特征在于,确定所述词汇难度的权重的过程包括: 通过所述扫描文档,扫描出所述文档中的每个词汇; 确定每个所述词汇在词语字典中的词条数量; 根据所述词条数量最多的词汇的所述词条数量确定第二子分值; 根据所述第二子分值和所述词汇难度的第二权重系数,获得第二权重。
5.根据权利要求2所述的方法,其特征在于,确定所述歧义词占比的权重的过程包括: 通过所述扫描文档,扫描出所述文档中的每个词汇; 确定所有所述词汇中的歧义词,以及所述歧义词数量; 计算出所述歧义词在所述词汇中的占比,确定第三子分值; 根据所述第三子分值和所述歧义词的第三权重系数,获得第三权重。
6.根据权利要求2所述的方法,其特征在于,确定所述术语占比的权重的过程包括: 通过所述扫描文档,扫描出所述文档中的所有词汇; 根据行业术语表,确定所有词汇中的术语、以及术语数量; 计算出所述术语在所述词汇中的占比,确定第四子分值; 根据所述第四子分值和所述术语占比的第四权重系数,获得第四权重。
7.根据权利要求2所述的方法,其特征在于,确定所述语句长度的权重值的过程包括: 通过所述扫描文档,扫描出所述文档的每个语句,并确定每个语句的词汇数量; 以词汇数量最大的语句的长度,确定第五子分值; 根据所述第五子分值和所述语句长度的第五权重系数,获得第五权重。
8.根据权利要求2所述的方法,其特征在于,确定所述句法结构的权重的过程包括: 通过所述扫描文档,扫描出所述文档中的每个语句; 通过抽象语法树,确定每个语句中所使用的词法数量; 以使用词法数量最多的语句的词法数量,确定第六子分值; 根据所述第六子分值和所述语法结构的第六权重系数,获得第六权重。
9.根据权利要求2所述的方法,其特征在于,确定所述生词出现频率的权重的过程包括: 通过所述扫描文档,确定所述文档中的每个词汇;将每个所述词汇在词语字典中匹配,匹配失败,该词汇为生词; 统计生词数量,确定第七子分值; 根据所述第七子分值和所述生词出现频率的第七权重系数,获得第七权重。
10.根据权利要求1或2所述的方法,其特征在于,还包括: 根据确定的所述文档的翻译难度等级,将该文档推送出与所述文档的翻译难度等级相对应的译 员。
【文档编号】G06F17/28GK104008094SQ201410218411
【公开日】2014年8月27日 申请日期:2014年5月22日 优先权日:2014年5月22日
【发明者】江潮, 贺建华, 陶晶 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1