多维度待译文档的预处理方法

文档序号:6527005阅读:189来源:国知局
多维度待译文档的预处理方法
【专利摘要】本发明公开了一种多维度待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。本发明通过对待译文档进行合理的预处理,将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式,使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。
【专利说明】多维度待译文档的预处理方法
【技术领域】
[0001]本发明涉及翻译【技术领域】,具体地说,涉及一种多维度待译文档的预处理方法。
【背景技术】
[0002]在全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性增长,各语种信息之间的转换需求也呈快速增长的态势。
[0003]面对海量的多语信息转换和翻译任务,目前自翻译和小规模工作间式的翻译模式已完全无法适应。翻译作为一个产业,其规模越来越大,其作用也越来越重要,现有翻译方式仅将待译文档按照学科等粗略分类就分配个译员翻译,使的有些译员并不适合翻译该待译文档,从而使得翻译速度较慢。

【发明内容】

[0004]本发明所要解决的技术问题是现有的翻译模式对待译文档的预处理不合理,使得后续的翻译速度较慢。
[0005]本发明的技术方案如下:
[0006]一种多维度待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。
[0007]进一步:如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比不小于类符形符比设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比小于类符形符比设定阈值,则将所述待译文档按照所述行业类别拆分。
[0008]进一步,统计所述待译文档包括的行业类别属性的数量的过程包括:去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性;统计匹配到的行业类别属性的数量。
[0009]进一步,统计所述待译文档的类符形符比的过程包括:根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者,将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比
【权利要求】
1.一种多维度待译文档的预处理方法,其特征在于,包括: 统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比; 分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。
2.如权利要求1所述的多维度待译文档的预处理方法,其特征在于: 如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分; 如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比不小于类符形符比设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分; 如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比小于类符形符比设定阈值,则将所述待译文档按照所述行业类别拆分。
3.如权利要求1或2所述的待译文档的预处理的方法,其特征在于,统计所述待译文档包括的行业类别属性的数量的过程包括: 去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性; 统计匹配到的行业类别属性的数量。
4.如权利要求1或2所述的待译文档的预处理的方法,其特征在于:统计所述待译文档的类符形符比的过程包括: 根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者, 将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比

5.如权利要求3所述的待译文档的预处理的方法,其特征在于:所述将所述待译文档按照所述行业类别属性拆分的过程包括: 获取所述待译文档的每个段落的所述特征词,建立所述每个段落与其包含的各个所述特征词的对应关系;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,将每个所述特征词或者由多个所述特征词构成的所述特征词串匹配的术语的行业类别属性,作为所述特征词或者由多个所述特征词构成的所述特征词串所对应的所述每个段落所归属的行业类别属性;根据所述对应关系,确定所述每个段落包含相同的最多的行业类别属性; 按照所述最多的行业类别属性对每个所述段落分类; 合并同类的所述段落,得到按照行业类别属性拆分后的待译文档。
6.如权利要求4所述的待译文档的预处理的方法,其特征在于:所述将所述待译文档按照所述翻译难度系数拆分的过程包括: 按照所述待译文档的每个段落的词汇等级grade_WOrd、类符形符比STTRP和实义词密度density_notional计算所述待译文档的每个段落的词汇复杂度(Iiff^word=K11.grade_word+K12.STTR+K13.density_notional,其中,K11 > K12 和 K13 为词汇复杂度调节系数; 计算所述待译文档的每个段落的语句复杂度diff_sentence ; 根据所述词汇复杂度和所述语句复杂度按照(Iiff^doc=K1.diff_word+K2.diff_sentence得到所述待译文档的每个段落的翻译难度系数difT_doc,其中,K1和K2为翻译难度调节系数; 合并具有相同所述翻译难度系数的段落,得到按照所述翻译难度系数拆分后的待译文档。
7.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的词汇等级grade_word计算的过程包括: 统计所述待译文档的每个段落的总词汇数word ; 将得到的每个词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别,所述词汇级别为一级、二级、三级或四级; 分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
8.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的类符形符比STTRP计算的过程包括: 根据所述待译文档的每个段落的所有词汇,统计每个段落的类符数和形符数,通过所述每个段落的类符数与形符数之比得到所述待译文档的每个段落类符形符比;或者, 将所述待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落,得到所述待译文档的每个段落的类符形符比

9.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的实义词密度density_notional计算的过程包括: 对所有所述词汇进行词性标注,得到其中的实义词,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词; 根据同义词本体工具得到所述待译文档的每个段落的第t个实义词的义项数meaningst ; 统计所述待译文档的每个段落的所述实义词的义项总数; 按照


10.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述计算所述待译文档的每个段落的语句复杂度diff_sentence包括: 将每个段落的所述总词汇数除以每个段落的整句数,得到每个段落的所述整句的平均长度MLS ; 将每个段落的所述总词汇数除以每个段落的第一类子句的数量,得到每个段落的所述第一类子句的平均长度MLC ; 统计每个段落的第e个所述长句的长度WorcLlonge,其中,I≤e≤count_long ; 按照
【文档编号】G06F17/28GK103729350SQ201310752261
【公开日】2014年4月16日 申请日期:2013年12月30日 优先权日:2013年12月30日
【发明者】江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1