一种文件拆分的方法及装置的制造方法

文档序号：8380930阅读：158来源：国知局

一种文件拆分的方法及装置的制造方法
【技术领域】
[0001]本发明涉及机器翻译技术领域，特别涉及一种文件拆分的方法及装置。
【背景技术】
[0002]机器翻译(MachineTranslat1n，经常简写为MT)属于计算语言学(Computat1nalLinguistics)的范畴，其研宄借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说，机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞。借由使用语料库的技术，可达成更加复杂的自动翻译，包含可更佳的处理不同的文法结构、词汇辨识、惯用语的对应等。
[0003]用户在使用机器翻译时，上传的文件过大，语句很多，此时需要多人同时翻译，那么就需要将文件拆分后分给不同的人来翻译。现有的拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置。

【发明内容】

[0004]本发明要解决的技术问题是:一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的问题。
[0005]为了解决上述问题，本发明提供了一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。
[0006]本发明还提供了一种文件拆分的装置，包括:拆分单元，用于读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。
[0007]本发明的技术方案实现了一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。可以准确的知道某句话拆分到哪个文件及所在的位置。
【附图说明】
[0008]图1按字数拆分流程示意图；
[0009]图2按份数拆分流程示意图；
[0010]图3—种文件拆分的装置框图。
【具体实施方式】
[0011]下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
[0012]需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0013]实施例一，一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。
[0014]具体的，将文件M按照文件内容的前后顺序拆分成一个个小文件C1、C2、C3、C4...，每个小文件包含文件M的一部分内容，即每个小文件包含文件M中的L个句子(L是正整数)，每个小文件包含的句子都是完整的句子(以句号、问好、叹号等终结)。本发明的技术方案可以准确的知道某句话拆分到哪个小文件及所其在小文件中的位置，便于翻译人员翻译。
[0015]本发明的技术方案可以按照不同需求拆分文件。如图1所示，进一步地，按照字数拆分，将文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所有语句拆分成一个小文件。
[0016]具体的，首先将文件的每句话的字数依次叠加与要求拆分的字数进行比对，如果叠加到刚好等于要求拆分的字数时，那么叠加的所有语句就是新拆分出来的小文件，然后依此原理继续对比，直到文件全部拆分完。要求拆分的字数S为一个正整数或一个正整数范围，如果为一个正整数范围，则只要每句话的字数依次叠加到正整数范围内的一个数即可。
[0017]进一步地，如果叠加到刚好等于要求拆分的字数时，那么将叠加的所有语句拆分成一个小文件；如果叠加的字数大于要求拆分的字数时，那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件；从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分，直到文件全部拆分完。
[0018]按字数拆分的过程如下:
[0019](I)将文件M中的第一句话SI的字数NI与第二句S2的字数N2叠加得到字数Ns ；
[0020](2)将叠加的字数Ns与要拆分文件的第一份字数S相比；
[0021](3)如果Ns〈S，那么就将第一句、第二句和第三句S3的字数N3都加在一起得到新的Ns，再去与S比较，依次类推；
[0022](4)如果Ns = S，则可以将之前所有叠加的语句Sn算作一个新的小文件内容Cl，然后将叠加的最后一句话的下一句(第Sn+1句)当做下个拆分小文件部分的第一句话，继续执行⑴⑵⑶；
[0023](5)如果Ns>S，则将第Slri句话前的所有语句算作一个新的小文件内容，并且返回Slri句话的总字数Ns_1;直到将文件的最后一句话归到最后一份拆分的小文件后，拆分结束。
[0024]到第Sn句话时，此前叠加的字数超过了要拆分的字数，因为在做文件拆分时我们不能把一句话拆分成两句，那么目前我们可以肯定第Slri句话之前的所有语句叠加的字数少于S，而加上第Sn句话后又大于S，我们只能将第Slri句话之前的语句(包括第Sn_i句话)算作一个新的文件，或者是可以给用户提示满足字数拆分的最优总字数。
[0025]按照字数拆分的好处是可以满足用户可以指定翻译人员的工作量(就是翻译的字数量)，并且可以根据字数很快的计算出翻译的费用。
[0026]进一步地，如图2所示，按照份数拆分，统计要拆分文件的总语句数，将总语句数按照要求拆分的份数平均分开。
[0027]具体的，统计要拆分文件的总语句数，将总数按照要求拆分的份数平均分开，然后统计每份文件的语句总字数。
[0028]进一步地，要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。
[0029]具体的，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开，比如，总语句数为200，要求分成11份，不能在一个11份内平均等份分开；允许拆分的份数整数范围为10-12份，那么拆分为10份；或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可；比如，总语句数为200，要求分成11份，不能在一个11份内平均等份分开；每份的允许语句数的整数范围为17-10句，那么可以分为前10份小文件18句，最后一个小文件20句。
[0030]按份数拆分的过程如下:
[0031](I)计算要拆分文件的总语句数A ;
[0032](2)按照要求将文件平均拆分成B份，则每份的语句数为:A/B = D ;
[0033](3)如果B能被A整除，则第一份小文件的语句到第D句，第二份小文件到2D位置，依次类推；
[0034](4)如果不能，则返回满足要求的最准确的拆分份数及每份的字数。
[0035]B或D是一个正整数或者一个正整数范围，按照客户的要求选择适用正整数或者一个正整数范围。
[0036]按照分数拆分是满足用户在知道有几个人翻译此篇文章的前提下，可以等量分配翻译语句，所以按照人数来拆分成多少份。
[0037]实施例二，如图3所示，一种文件拆分的装置，包括:拆分单元，用于读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。
[0038]具体的，将文件M按照文件内容的前后顺序拆分成一个个小文件C1、C2、C3、C4...，每个小文件包含文件M的一部分内容，即每个小文件包含文件M中的L个句子(L是正整数)，每个小文件包含的句子都是完整的句子(以句号、问好、叹号等终结)。本发明的技术方案可以准确的知道某句话拆分到哪个小文件及所其在小文件中的位置，便于翻译人员翻译。
[0039]本发明的技术方案可以按照不同需求拆分文件。如图1所示，进一步地，还包括:判断单元，用于判断拆分需求，判断出按照字数拆分，所述拆分单元，用于将文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所有语句拆分成一个小文件。
[0040]具体的，首先将文件的每句话的字数依次叠加与要求拆分的字数进行比对，如果叠加到刚好等于要求拆分的字数时，那么叠加的所有语句就是新拆分出来的小文件，然后依此原理继续对比，直到文件全部拆分完。要求拆分的字数S为一个正整数或一

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田亮;程国艮;袁翔宇;王宇晨;
技术所有人：中译语通科技（北京）有限公司;
我是此专利的发明人

上一篇：非特定人外语语音现场控制机器人的方法
上一篇：一种文本字数统计的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。