一种文档文字的深度处理方法与流程

文档序号:16839318发布日期:2019-02-12 21:22阅读:来源:国知局

技术特征:

1.一种文档文字的深度处理方法,其特征在于包括以下步骤:

(1)、提取待翻译文档中的文字信息,并统一文字信息的格式,得到格式统一的文档;

(2)、对格式统一的文档进行拆分,将其拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合,去掉非译文字后再去掉待译文字数据集合中重复的待译文字数据,然后将剩下的每一个待译文字数据依次与笔译记忆库中的内容进行比对,而后删除待译文字数据集合中与笔译记忆库中相重复的内容;其中,所述的笔译记忆库中设置有原文列一和译文列一,原文列一中存储有已译文档的原文,译文列一中对应存储有已译文档的译文;

(3)、建立一个译前处理文档,并在该译前处理文档中设置原文列、译文列和专有术语列,先将经步骤(2)处理后的待译文字数据集合中的每一个待译文字数据按顺序复制到原文列中,再根据预先制作的专有术语表,将每一个待译文字数据中涉及到的专有术语的原文和译文写入对应的专有术语列,得到匹配有专有术语的译前处理文档;

(4)、提取译前处理文档中原文列的待译文字数据集合,同时提取专有术语表中的原文和译文的文字信息并建立专有术语表文字数据集合,将译前处理文档中原文列包含的专有术语表中的原文文字数据替换成专有术语表中的译文文字数据,替换后得到译文和原文混杂的原文列文字数据,再使用步骤(2)中的去掉重复工序和比对工序对译文和原文混杂的原文列文字数据进行二次处理,得到最终的译前处理文档;

(5)、由译员对最终的译前处理文档中原文列对应的所有待译文字数据进行翻译,并将译文填写至对应的译文列,得到译后处理文档;

(6)、先将待翻译文档中与译后处理文档中的原文列相同的待译文字数据替换成译文,再使用原文列一中原文所对应的译文列一中的译文替换待翻译文档中出现在原文列一中的原文,最后得到与待翻译文档相同格式的译文。

2.如权利要求1所述的一种文档文字的深度处理方法,其特征在于:所述的专有术语表包括专有单词术语表、专有词组术语表和专有单句术语表。

3.如权利要求1所述的一种文档文字的深度处理方法,其特征在于:所述的处理方法中涉及到的文档均为Office文档。

4.如权利要求1所述的一种文档文字的深度处理方法,其特征在于:所述步骤(2)中采用换行符、标点符号、空格中的一种或几种的组合对文档自动进行拆分。

5.如权利要求1所述的一种文档文字的深度处理方法,其特征在于:所述步骤(2)中的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。

6.如权利要求1所述的一种文档文字的深度处理方法,其特征在于:所述步骤(6)中的译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中,存储后的已译文档可导出。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1