翻译文件的拆分和分配方法

文档序号：6362824阅读：304来源：国知局

专利名称：翻译文件的拆分和分配方法
技术领域：
本发明涉及一种办公文件拆分和分配方法，具体涉及翻译文件的拆分和分配方法。
背景技术：
对于现在的社会，国际交上的交流成家常便饭。随之带来的翻译量越来越大，文件字数越来越多。以现在CAT技术的流行，翻译速度大大提升。但是在翻译前的准备过程往往占据了相当长的时间。例如对于翻译公司来说，一份约3万字的文件分别给10个人做，在前期需要用时半天甚至更久的时间来完成文件拆分和分配。更严重的事，犹豫文字过多，很容易导致分割时视觉混淆导致拆分有误。许多文件中会有很多段落是完全相同的，这样翻译只是多了一些无用的事。这样无形的增加了翻译成本。而目前市面上所有的拆分工具器目的是为了将文件化整为零，方便携带，其算法按字节流分割。此方法对文字的分割基本是无用的。所以翻译界在翻译文字过多文件时往往需要多个人同时进行翻译，翻译前都会花大量时间用于文字的拆分。

发明内容
本发明克服了现有技术的不足，提供一种对需要翻译的文件进行拆分和分配的方法，该方法将多种办公文件按段算字数的方法直接拆分成指定份数，再分发给译员进行翻译，而且在拆分之前先对是否有隐藏文件进行处理，该方法从文件的分割，隐藏相同段落，到分配可以将整个时间减少到3-10分钟。这样就提高了翻译效率，避免了重复翻译，解决了现有技术中存在的技术问题。为解决上述的技术问题，本发明采用以下技术方案
一种翻译文件的拆分和分配方法，包括以下步骤
步骤1，开始；
步骤2，导入文件；
步骤3，进行处理前需要的参数设置或采用默认设置，包括设置误差值D ；
步骤4，预处理，得到导入文件格式，打开文件，检测里面的内容，分析出可分成的份数

步骤5，判断用户是否需要隐藏相同段落，如果是进入步骤6，如果不是直接进入步骤
7 ；
步骤6 :遍历文件找出相同段落，去除相同段落；
步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择，确定分成的份数为
N；步骤8 :导出拆分文件选择路径；
步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分，根据误差百分比进行以段为主，字数为辅的拆分法，具体包括
步骤9-1，算出总字数M和找出总段数G，用总字数除以份数得到平均字数A ;
步骤9-2，拆分出第一份依次遍历第一至第G段，从第一段开始，若第一段的字数大于或等于A-A*D，则将第一段作为第一份拆分出来，若第一段的字数小于A-A*D，则计算第一段和第二段的总字数，若总字数次大于或等于A-A*D，则将第一、二段作为第一份拆分出来，若不是，则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第一份拆分出来；
步骤9-3，拆分出第二份依次遍历步骤9-2拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第二份拆分出来；
步骤9-4，拆分出第三份依次遍历步骤9-3拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第三份拆分出来；
以此类推直至步骤9-N，拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第N-I份拆分出来；
步骤9-N+1，如果余下段落数目大于零，则将余下的段落拆分成第N份并进入步骤10 ；如果当进行完步骤9-N后，余下段落数目为零时，则提示客户由于总字数和总段数过少，需要将调整误差值D调大，之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1，直至满足拆成N份为止再进入步骤10 ;或不计较拆分的份数少一份，而进入步骤10 ；
步骤10，将拆分好的文件保存到用户指定的路径。更进一步的技术方案是所述的误差值D的选择范围为4%-40%,当文件字数越多时,误差值就越小，而当文
件字数越少时，误差值D应越大。所述的步骤9-N+1中，若余下段落的总字数低于平均字数的4%时，则提示客户拆分数量过分不均，需要将调整误差值D调大，需要回到步骤3将调整误差值D调大，之后再回到步骤9-1重新开始至步骤9-N+1，直至满足拆成的第N份大于或等于平均字数的4%为止。所述的总字数包括标点和文字。所述的总字数仅包括文字，不包括标点。所述的误差值D可以通过公式70/A-N/G/10来进行计算，若算出来的D小于4%，则将D设置为4%，若算出来的D大于40%，则将D设置为40%。
与现有技术相比，本发明的有益效果是
I、本申请涉及的翻译文件拆分方法效率高，相同段隐藏可以节约翻译成本。2、本申请涉及的翻译文件拆分方法采用以段为主，字数为辅的拆分法，并设置了满足字数拆分的合理拆分，既解决了以往由于断句不完整无法翻译的问题，同时也满足了拆分精度的要求。解决了人为拆分耗时过大，加大项目成本的问题。
具体实施例方式本发明涉及一种翻译文件的拆分和分配方法，包括以下步骤
步骤1，开始；
步骤2，导入文件；
步骤3，进行处理前需要的参数设置或采用默认设置，包括设置误差值D ；
步骤4，预处理，得到导入文件格式，打开文件，检测里面的内容，分析出可分成的份数最大值；此最大值不能大于总段数；
步骤5，判断用户是否需要隐藏相同段落，如果是进入步骤6，如果不是直接进入步骤
7 ；
步骤6 :遍历文件找出相同段落，去除相同段落；
步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择，确定分成的份数为
N；
步骤8 :导出拆分文件选择路径；
步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分，根据误差百分比进行以段为主，字数为辅的拆分法，具体包括
步骤9-1，算出总字数M和找出总段数G，用总字数除以份数得到平均字数A ;
步骤9-2，拆分出第一份依次遍历第一至第G段，从第一段开始，若第一段的字数大于或等于A-A*D，则将第一段作为第一份拆分出来，若第一段的字数小于A-A*D，则计算第一段和第二段的总字数，若总字数次大于或等于A-A*D，则将第一、二段作为第一份拆分出来，若不是，则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第一份拆分出来；
步骤9-3，拆分出第二份依次遍历步骤9-2拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第二份拆分出来；步骤9-4，拆分出第三份依次遍历步骤9-3拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第三份拆分出来；
以此类推直至步骤9-N，拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第N-I份拆分出来；
步骤9-N+1，如果余下段落数目大于零，则将余下的段落拆分成第N份并进入步骤10 ；如果当进行完步骤9-N后，余下段落数目为零时，则提示客户由于总字数和总段数过少，需要回到步骤3将调整误差值D调大，之后再回到步骤9-1重新开始至步骤9-N+1，直至满足拆成N份为止再进入步骤10 ;或不计较份数直接忽略进入步骤10 ；
在上面的步骤9-N+1中，若余下段落的总字数低于平均字数的4%时，则提示客户拆分数量过分不均，需要将调整误差值D调大，之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1，直至满足拆成的第N份大于或等于平均字数的4%为止。步骤10，将拆分好的文件保存到用户指定的路径。误差值D的选择范围为4%——40%，当文件字数越多时，误差值就越小，而当文件字数越少时，误差值D应越大。我们的总字数即可以包括标点和文字，也可以总字数仅包括文字，不上述的误差值D=70/A-N/G/10，若算出来的D小于4%，则将D设置为4%，若算出来的D大于40%，则将D设置为40%。
下面我们再来以一个具体的例子来对步骤9的详细过程进行举例说明。举例I ;我们有10段文字需要拆分成5份。第一段文字有120个字，第二段文字有100个字，第三段文字有50个字，第四段文字有60个字，第五段文字有77个字。第六段文字有88个字，第七段文字有200个字，第八段文字有90个字，第九段文字有10个字，第十段文字有98个字。假设我们先将误差值D设置为10%。此十段总字数为893个字。由于要分成5份，平均每份算出来即为178.6个字。需要满足的条件为每一份字数大于或等于178. 6-178. 6*10%=160. 74 个字。接着我们开始进行拆分第一份，先看第一段文字有120个字，不满足字数条件，需要继续。则将第一、二段总字数算出来为220个字，满足字数条件，将第一、二段作为第一份拆分出来。拆分第二份，第三段文字有50个字，不满足字数条件，需要继续。将第三、四段总字数算出来为110个字，还是不满足字数条件，再将第三、四、五段总字数算出来为187个字，满足了字数条件，马上将第三、四、五段作为第二份拆分出来。
按照同样方法，就会将第五、六段作为第三份拆分出来，第七至第十段作为第四份拆分出来。此时会有提示客户由于总字数和总段数过少，需要将调整误差值D调大，我们回到之前的步骤3将误差值设置为20%，则需要满足的字数条件为大于或等于142. 88。这样分下来的结果还是和刚才一样。当我们将误差设置为30%时，需要满足的字数条件为大于或等于125. 02。这样分下来的结果还是和刚才一样。当我们将误差值设置为35%时，需要满足的字数条件为大于或等于116. 09。这样的话，第一段拆分成第一份，第二、三拆分成第二份，第四、五段拆分成第三份，第六、七段拆分成第四份，余下为第五份。举例2
举例2 ;我们有40段文字需要拆分成5份。第一段文字有20个字，第二段文字有276个字，第三段文字有99个字，第四段文字有18个字，第五段文字有60个字。第六段文字有403个字，第七段文字有112个字，第八段文字有39个字，第九段文字有198个字，第十段文字有298个字，第H^一段文字有120个字，第十二段文字有100个字，第十三段文字有275个字，第十四段文字有255个字，第十五段文字有87个字。第十六段文字有54个字，第十七段文字有67个字，第十八段文字有566个字，第十九段文字有135个字，第二十段文字有248个字，第二i^一段文字有75个字，第二十二段文字有95个字，第二十三段文字有321个字，第二十四段文字有15个字，第二十五段文字有271个字，第二十六段文字有245个字，第二十七段文字有76个字，第二十八段文字有435个字，第二十九段文字有291个字，第三十段文字有156个字，第三i^一段文字有86个字，第三十二段文字有93个字，第三十三段文字有111个字，第三十四段文字有8个字，第三十五段文字有448个字。第三十六段文字有67个字，第三十七段文字有38个字，第三十八段文字有29个字，第三十九段文字有89个字，第四十段文字有7个字。根据误差值计算公式得到D=70/1277. 2-5/40/10=0. 04。此十段总字数为6386个字。由于要分成5份，平均每份算出来即为1277. 2个字。需要满足的条件为每一份字数大于或等于 1277. 2-1277. 2*4%=1220. 2 个字。接着我们开始进行拆分第一份，先看第一段文字有20个字，不满足字数条件，需要继续。则将第一、二段总字数算出来为296个字，还是不满足字数条件，需要继续。再将第一、二、三段总字数算出来为395，还是不满足字数条件，需要继续。再将第一、二、三、四段总字数算出来为413，还是不满足字数条件，需要继续。再将第一、二、三、四、五段总字数算出来为473，还是不满足字数条件，需要继续。再将第一、二、三、四、五、六段总字数算出来为876，还是不满足字数条件，需要继续。再将第一、二、三、四、五、六、七段总字数算出来为988，还是不满足字数条件，需要继续。再将第一、二、三、四、五、六、七、八段总字数算出来为1027，还是不满足字数条件，需要继续。再将第一、二、三、四、五、六、七、八、九段总字数算出来为1225，满足了字数条件，将第一至九段作为第一份拆分出来。
拆分第二份，第十段文字有298个字，不满足字数条件，需要继续。将十、十一段总字数算出来为418个字，还是不满足字数条件，再将第十、十一、十二段总字数算出来为518个字，还是不满足字数条件，再将第十、十一、十二、十三段总字数算出来为793个字，还是不满足字数条件，再将第十、十一、十二、十三、十四段总字数算出来为1048个字，还是不满足字数条件，再将第十、十一、十二、十三、十四、十五段总字数算出来为1135个字，还是不满足字数条件，再将第十、十一、十二、十三、十四、十五、十六段总字数算出来为1189个字，还是不满足字数条件，再将第十、十一、十二、十三、十四、十五、十六、十七段总字数算出来为1256个字，满足了字数条件，马上将第十至十七段作为第二份拆分出来。
按照同样方法，就会将第十八至二十三段作为第三份拆分出来，第二十四至第二十九段作为第四份拆分出来。第三十至四十段作为第五份拆分出来。第三份、第四份、第五份的字数分别为1440个字、1333个字和1132个字。
权利要求
1.一种翻译文件的拆分和分配方法，其特征在于包括以下步骤步骤1，开始；步骤2，导入文件；步骤3，进行处理前需要的参数设置或采用默认设置，包括设置误差值D ；步骤4，预处理，得到导入文件格式，打开文件，检测里面的内容，分析出可分成的份数最大值；步骤5，判断用户是否需要隐藏相同段落，如果是进入步骤6，如果不是直接进入步骤7 ；步骤6 :遍历文件找出相同段落，去除相同段落；步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择，确定需要拆分成的份数N ；步骤8 :导出拆分文件选择路径；步骤9 :根据用户所选的需要拆分成的份数N和用户自定义参数设置或默认参数设置进行拆分，根据误差值D进行以段为主，字数为辅的拆分法，具体包括步骤9-1，算出总字数M和找出总段数G，用总字数除以份数得到平均字数A ; 步骤9-2，拆分出第一份依次遍历第一至第G段，从第一段开始，若第一段的字数大于或等于A-A*D，则将第一段作为第一份拆分出来，若第一段的字数小于A-A*D，则计算第一段和第二段的总字数，若总字数次大于或等于A-A*D，则将第一、二段作为第一份拆分出来，若不是，则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第一份拆分出来；步骤9-3，拆分出第二份依次遍历步骤9-2拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第二份拆分出来；步骤9-4，拆分出第三份依次遍历步骤9-3拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第三份拆分出来；以此类推直至步骤9-N，拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落，从余下的第一段开始，若余下第一段的字数大于或等于A-A*D，则将余下的第一段作为第一份拆分出来，若余下的第一段的字数小于A-A*D，则计算余下的第一段和余下的第二段的总字数，若总字数大于或等于A-A*D，则将余下的第一、二段作为第一份拆分出来，若不是，则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D，就可以将第N-I份拆分出来；步骤9-N+1，如果余下段落数目大于零，则将余下的段落拆分成第N份并进入步骤10 ；如果当进行完步骤9-N后，余下段落数目为零时，则提示客户由于总字数和总段数过少，需要回到步骤3将调整误差值D调大，之后再回到步骤9-1重新开始至步骤9-N+1，直至满足拆成N份为止再进入步骤10; 步骤10，将拆分好的文件保存到用户指定的路径。
2.根据权利要求I所述的翻译文件的拆分和分配方法，其特征在于所述的误差值D的选择范围为4%-40%,当文件字数越多时,误差值就越小,而当文件字数越少时,误差值D应越大。
3.根据权利要求I所述的翻译文件的拆分和分配方法，其特征在于所述的步骤9-N+1中，若余下段落的总字数低于平均字数的4%时，则提示客户拆分数量过分不均，需要将调整误差值D调大，之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1，直至满足拆成的第N份大于或等于平均字数的4%为止。
4.根据权利要求I所述的翻译文件的拆分和分配方法，其特征在于所述的总字数包括标点和文字。
5.根据权利要求I所述的翻译文件的拆分和分配方法，其特征在于所述的总字数仅包括文字，不包括标点。
6.根据权利要求2所述的翻译文件的拆分和分配方法，其特征在于所述的误差值D=70/A-N/G/10，若算出来的D小于4%，则将D设置为4%，若算出来的D大于40%，则将D设置为40%。
全文摘要
本发明公开了一种翻译文件的拆分和分配方法，包括以下步骤开始；导入文件；进行处理前需要的参数设置或采用默认设置，包括设置误差值D；预处理，得到导入文件格式，打开文件，检测里面的内容，分析出可分成的份数最大值；判断用户是否需要隐藏相同段落，遍历文件找出相同段落，去除相同段落；确定需要拆分成的份数N；导出拆分文件选择路径；根据用户所选的需要拆分成的份数N和用户自定义参数设置或默认参数设置进行拆分，根据误差值D进行以段为主，字数为辅的拆分法。本发明设置了满足字数拆分的合理拆分，既解决了以往由于断句不完整无法翻译的问题，同时也满足了拆分精度的要求。解决了人为拆分耗时过大，加大项目成本的问题。
文档编号G06F17/27GK102622340SQ201210085140
公开日2012年8月1日申请日期2012年3月28日优先权日2012年3月28日
发明者伍华, 张马成, 杨明, 王兴强, 王小龙申请人:成都优译信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张马成;王兴强;伍华;杨明;王小龙
技术所有人：成都优译信息技术有限公司
我是此专利的发明人

上一篇：针对高可靠机械产品的主动可靠性分析评价方法
上一篇：一种应用于炼油厂的非线性生产计划优化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。