翻译文件的拆分和分配方法

文档序号:6362824阅读:304来源:国知局
专利名称:翻译文件的拆分和分配方法
技术领域
本发明涉及一种办公文件拆分和分配方法,具体涉及翻译文件的拆分和分配方法。
背景技术
对于现在的社会,国际交上的交流成家常便饭。随之带来的翻译量越来越大,文件 字数越来越多。以现在CAT技术的流行,翻译速度大大提升。但是在翻译前的准备过程往往占据了相当长的时间。例如对于翻译公司来说,一份约3万字的文件分别给10个人做,在前期需要用时半天甚至更久的时间来完成文件拆分和分配。更严重的事,犹豫文字过多,很容易导致分割时视觉混淆导致拆分有误。许多文件中会有很多段落是完全相同的,这样翻译只是多了一些无用的事。这样无形的增加了翻译成本。而目前市面上所有的拆分工具器目的是为了将文件化整为零,方便携带,其算法按字节流分割。此方法对文字的分割基本是无用的。所以翻译界在翻译文字过多文件时往往需要多个人同时进行翻译,翻译前都会花大量时间用于文字的拆分。

发明内容
本发明克服了现有技术的不足,提供一种对需要翻译的文件进行拆分和分配的方法,该方法将多种办公文件按段算字数的方法直接拆分成指定份数,再分发给译员进行翻译,而且在拆分之前先对是否有隐藏文件进行处理,该方法从文件的分割,隐藏相同段落,到分配可以将整个时间减少到3-10分钟。这样就提高了翻译效率,避免了重复翻译,解决了现有技术中存在的技术问题。为解决上述的技术问题,本发明采用以下技术方案
一种翻译文件的拆分和分配方法,包括以下步骤
步骤1,开始;
步骤2,导入文件;
步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ;
步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数

步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤
7 ;
步骤6 :遍历文件找出相同段落,去除相同段落;
步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定分成的份数为
N;步骤8 :导出拆分文件选择路径;
步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差百分比进行以段为主,字数为辅的拆分法,具体包括
步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ;
步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来;
步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来;
步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第三份拆分出来;
以此类推直至步骤9-N,拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第N-I份拆分出来;
步骤9-N+1,如果余下段落数目大于零,则将余下的段落拆分成第N份并进入步骤10 ;如果当进行完步骤9-N后,余下段落数目为零时,则提示客户由于总字数和总段数过少,需要将调整误差值D调大,之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1,直至满足拆成N份为止再进入步骤10 ;或不计较拆分的份数少一份,而进入步骤10 ;
步骤10,将拆分好的文件保存到用户指定的路径。更进一步的技术方案是 所述的误差值D的选择范围为4%-40%,当文件字数越多时,误差值就越小,而当文
件字数越少时,误差值D应越大。所述的步骤9-N+1中,若余下段落的总字数低于平均字数的4%时,则提示客户拆分数量过分不均,需要将调整误差值D调大,需要回到步骤3将调整误差值D调大,之后再回到步骤9-1重新开始至步骤9-N+1,直至满足拆成的第N份大于或等于平均字数的4%为止。所述的总字数包括标点和文字。所述的总字数仅包括文字,不包括标点。所述的误差值D可以通过公式70/A-N/G/10来进行计算,若算出来的D小于4%,则将D设置为4%,若算出来的D大于40%,则将D设置为40%。
与现有技术相比,本发明的有益效果是
I、本申请涉及的翻译文件拆分方法效率高,相同段隐藏可以节约翻译成本。2、本申请涉及的翻译文件拆分方法采用以段为主,字数为辅的拆分法,并设置了满足字数拆分的合理拆分,既解决了以往由于断句不完整 无法翻译的问题,同时也满足了拆分精度的要求。解决了人为拆分耗时过大,加大项目成本的问题。
具体实施例方式本发明涉及一种翻译文件的拆分和分配方法,包括以下步骤
步骤1,开始;
步骤2,导入文件;
步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ;
步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值;此最大值不能大于总段数;
步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤
7 ;
步骤6 :遍历文件找出相同段落,去除相同段落;
步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定分成的份数为
N;
步骤8 :导出拆分文件选择路径;
步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差百分比进行以段为主,字数为辅的拆分法,具体包括
步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ;
步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来;
步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来;步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第三份拆分出来;
以此类推直至步骤9-N,拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第N-I份拆分出来;
步骤9-N+1,如果余下段落数目大于零,则将余下的段落拆分成第N份并进入步骤10 ;如果当进行完步骤9-N后,余下段落数目为零时,则提示客户由于总字数和总段数过少,需要回到步骤3将调整误差值D调大,之后再回到步骤9-1重新开始至步骤9-N+1,直至满足拆成N份为止再进入步骤10 ;或不计较份数直接忽略进入步骤10 ;
在上面的步骤9-N+1中,若余下段落的总字数低于平均字数的4%时,则提示客户拆分数量过分不均,需要将调整误差值D调大,之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1,直至满足拆成的第N份大于或等于平均字数的4%为止。步骤10,将拆分好的文件保存到用户指定的路径。误差值D的选择范围为4%——40%,当文件字数越多时,误差值就越小,而当文件字数越少时,误差值D应越大。我们的总字数即可以包括标点和文字,也可以总字数仅包括文字,不上述的误差值D=70/A-N/G/10,若算出来的D小于4%,则将D设置为4%,若算出来的D大于40%,则将D设置为40%。
下面我们再来以一个具体的例子来对步骤9的详细过程进行举例说明。举例I ;我们有10段文字需要拆分成5份。 第一段文字有120个字,第二段文字有100个字,第三段文字有50个字,第四段文字有60个字,第五段文字有77个字。第六段文字有88个字,第七段文字有200个字,第八段文字有90个字,第九段文字有10个字,第十段文字有98个字。假设我们先将误差值D设置为10%。此十段总字数为893个字。由于要分成5份,平均每份算出来即为178.6个字。需要满足的条件为每一份字数大于或等于178. 6-178. 6*10%=160. 74 个字。接着我们开始进行拆分第一份,先看第一段文字有120个字,不满足字数条件,需要继续。则将第一、二段总字数算出来为220个字,满足字数条件,将第一、二段作为第一份拆分出来。拆分第二份,第三段文字有50个字,不满足字数条件,需要继续。将第三、四段总字数算出来为110个字,还是不满足字数条件,再将第三、四、五段总字数算出来为187个字,满足了字数条件,马上将第三、四、五段作为第二份拆分出来。
按照同样方法,就会将第五、六段作为第三份拆分出来,第七至第十段作为第四份拆分出来。此时会有提示客户由于总字数和总段数过少,需要将调整误差值D调大,我们回到之前的步骤3将误差值设置为20%,则需要满足的字数条件为大于或等于142. 88。这样分下来的结果还是和刚才一样。当我们将误差设置为30%时,需要满足的字数条件为大于或等于125. 02。这样分下来的结果还是和刚才一样。当我们将误差值设置为35%时,需要满足的字数条件为大于或等于116. 09。这样的话,第一段拆分成第一份,第二、三拆分成第二份,第四、五段拆分成第三份,第六、七段拆分成第四份,余下为第五份。举例2
举例2 ;我们有40段文字需要拆分成5份。第一段文字有20个字,第二段文字有276个字,第三段文字有99个字,第四段文字有18个字,第五段文字有60个字。第六段文字有403个字,第七段文字有112个字,第八段文字有39个字,第九段文字有198个字,第十段文字有298个字,第H^一段文字有120个字,第十二段文字有100个字,第十三段文字有275个字,第十四段文字有255个字,第十五段文字有87个字。第十六段文字有54个字,第十七段文字有67个字,第十八段文字有566个字,第十九段文字有135个字,第二十段文字有248个字,第二i^一段文字有75个字,第二十二段文字有95个字,第二十三段文字有321个字,第二十四段文字有15个字,第二十五段文字有271个字,第二十六段文字有245个字,第二十七段文字有76个字,第二十八段文字有435个字,第二十九段文字有291个字,第三十段文字有156个字,第三i^一段文字有86个字,第三十二段文字有93个字,第三十三段文字有111个字,第三十四段文字有8个字,第三十五段文字有448个字。第三十六段文字有67个字,第三十七段文字有38个字,第三十八段文字有29个字,第三十九段文字有89个字,第四十段文字有7个字。根据误差值计算公式得到D=70/1277. 2-5/40/10=0. 04。此十段总字数为6386个字。由于要分成5份,平均每份算出来即为1277. 2个字。需要满足的条件为每一份字数大于或等于 1277. 2-1277. 2*4%=1220. 2 个字。接着我们开始进行拆分第一份,先看第一段文字有20个字,不满足字数条件,需要继续。则将第一、二段总字数算出来为296个字,还是不满足字数条件,需要继续。再将第一、二、三段总字数算出来为395,还是不满足字数条件,需要继续。再将第一、二、三、四段总字数算出来为413,还是不满足字数条件,需要继续。再将第一、二、三、四、五段总字数算出来为473,还是不满足字数条件,需要继续。再将第一、二、三、四、五、六段总字数算出来为876,还是不满足字数条件,需要继续。再将第一、二、三、四、五、六、七段总字数算出来为988,还是不满足字数条件,需要继续。再将第一、二、三、四、五、六、七、八段总字数算出来为1027,还是不满足字数条件,需要继续。再将第一、二、三、四、五、六、七、八、九段总字数算出来为1225,满足了字数条件,将第一至九段作为第一份拆分出来。
拆分第二份,第十段文字有298个字,不满足字数条件,需要继续。将十、十一段总字数算出来为418个字,还是不满足字数条件,再将第十、十一、十二段总字数算出来为518个字,还是不满足字数条件,再将第十、十一、十二、十三段总字数算出来为793个字,还是不满足字数条件,再将第十、十一、十二、十三、十四段总字数算出来为1048个字,还是不满足字数条件,再将第十、十一、十二、十三、十四、十五段总字数算出来为1135个字,还是不满足字数条件,再将第十、十一、十二、十三、十四、十五、十六段总字数算出来为1189个字,还是不满足字数条件,再将第十、十一、十二、十三、十四、十五、十六、十七段总字数算出来为1256个字,满足了字数条件,马上将第十至十七段作为第二份拆分出来。
按照同样方法,就会将第十八至二十三段作为第三份拆分出来,第二十四至第二十九段作为第四份拆分出来。第三十至四十段作为第五份拆分出来。第三份、第四份、第五份的字数分别为1440个字、1333个字和1132个字。
权利要求
1.一种翻译文件的拆分和分配方法,其特征在于包括以下步骤 步骤1,开始; 步骤2,导入文件; 步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ; 步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值; 步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤7 ; 步骤6 :遍历文件找出相同段落,去除相同段落; 步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定需要拆分成的份数N ; 步骤8 :导出拆分文件选择路径; 步骤9 :根据用户所选的需要拆分成的份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差值D进行以段为主,字数为辅的拆分法,具体包括 步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ; 步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来; 步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来; 步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第三份拆分出来; 以此类推直至步骤9-N,拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第N-I份拆分出来;步骤9-N+1,如果余下段落数目大于零,则将余下的段落拆分成第N份并进入步骤10 ;如果当进行完步骤9-N后,余下段落数目为零时,则提示客户由于总字数和总段数过少,需要回到步骤3将调整误差值D调大,之后再回到步骤9-1重新开始至步骤9-N+1,直至满足拆成N份为止再进入步骤10; 步骤10,将拆分好的文件保存到用户指定的路径。
2.根据权利要求I所述的翻译文件的拆分和分配方法,其特征在于所述的误差值D的选择范围为4%-40%,当文件字数越多时,误差值就越小,而当文件字数越少时,误差值D应越大。
3.根据权利要求I所述的翻译文件的拆分和分配方法,其特征在于所述的步骤9-N+1中,若余下段落的总字数低于平均字数的4%时,则提示客户拆分数量过分不均,需要将调整误差值D调大,之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1,直至满足拆成的第N份大于或等于平均字数的4%为止。
4.根据权利要求I所述的翻译文件的拆分和分配方法,其特征在于所述的总字数包括标点和文字。
5.根据权利要求I所述的翻译文件的拆分和分配方法,其特征在于所述的总字数仅包括文字,不包括标点。
6.根据权利要求2所述的翻译文件的拆分和分配方法,其特征在于所述的误差值D=70/A-N/G/10,若算出来的D小于4%,则将D设置为4%,若算出来的D大于40%,则将D设置为40%。
全文摘要
本发明公开了一种翻译文件的拆分和分配方法,包括以下步骤开始;导入文件;进行处理前需要的参数设置或采用默认设置,包括设置误差值D;预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值;判断用户是否需要隐藏相同段落,遍历文件找出相同段落,去除相同段落;确定需要拆分成的份数N;导出拆分文件选择路径;根据用户所选的需要拆分成的份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差值D进行以段为主,字数为辅的拆分法。本发明设置了满足字数拆分的合理拆分,既解决了以往由于断句不完整无法翻译的问题,同时也满足了拆分精度的要求。解决了人为拆分耗时过大,加大项目成本的问题。
文档编号G06F17/27GK102622340SQ201210085140
公开日2012年8月1日 申请日期2012年3月28日 优先权日2012年3月28日
发明者伍华, 张马成, 杨明, 王兴强, 王小龙 申请人:成都优译信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1