数据流编码的预测方法及预测装置的制造方法_4

文档序号:9708422阅读:来源:国知局
9,L3和L2的组间方差=56
[0144] 这两种方法都说明了 L3和L1更相似一些。
[0145] 这两种算法相同的地方是,都能得到一个非负值,这个值越小,就说明可信度越 高。从实验数据来看,两者的准确率比较相近。但组间差的效率优于组间方差,组间方差要 多用到一次乘法。
[0146] 本发明的数据流编码的预测方法通过对编码类型进行区别,分别通过单字节分布 法和有穷状态机识别方法,其中状态机识别方法中只存在一个状态机,用来识别IS0-2022 编码和ASCII码。在第一遍扫描样本后,就能得到信息,确定用哪种方法。计算最小组间差或 方差的时间复杂度也是0U),其中η为能猜测编码的总数。因此,本发明的预测方法预测流 程非常简单,从而极大的提高了预测效率。
[0147] 并且,本发明中出现频率表AFT是预先生成的,从而节约了大量的时间;空间复杂 度也很小,这里没有读入整张的AFT,而是每次只读入其中的一个AFA,从而进一步提高了预 测的效率。
[0148] 本发明实现的复杂性也非常低。具体来说,本发明实现的代码量远低于Mozilla, 只有500行左右。而Mozilla用到很多状态机,而本发明实现只用到一个(有穷状态自动机)。 本发明实现用的是单字节分布方法,所有的文本都统一处理,而Mozilla对多字节语言和单 字节语言分开处理,并且对于每一种编码,需要单独的表。双字节编码用512个常用字符,单 字节编码用到64X64的常用双字节序列表。
[0149] 参考图2,本发明提供一种数据流编码的预测装置,所述数据流编码的预测装置2 包括:测试样本获取模块21、测试样本处理模块22、数据流文本处理模块23和编码格式确定 模块24。
[0150] 所述测试样本获取模块21用于获取各种编码的测试样本;所述测试样本处理模块 22用于根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形 成有穷状态自动机;
[0151] 参考图3,本实施例中,所述测试样本处理模块22包括:第一去噪单元221、出现频 率表形成单元222和有穷状态自动机形成单元223。
[0152] 所述第一去噪单元221用于对第一类型编码的测试样本进行去噪处理;所述出现 频率表形成单元222用于根据去噪处理后的测试样本计算各编码的出现频率数组,以形成 出现频率表;所述有穷状态自动机形成单元223用于根据第二类型编码的测试样本形成有 穷状态自动机。
[0153] 具体地,所述出现频率表形成单元222可以包括:频率计算单元和记录单元(图中 未示出),所述频率计算单元用于计算去噪处理后的数据流文本中每个字节出现的频率;所 述记录单元用于将每个字节出现的频率记录进数组以形成出现频率数组。
[0154] 所述数据流文本处理模块23用于获取待预测的数据流文本,并对所述待预测的数 据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;
[0155]所述编码格式确定模块24用于当去噪处理的结果为第一结果时,根据有穷状态自 动机确定待预测的数据流文本的编码格式;还用于当去噪处理的结果为第二结果时,计算 待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率 表进行比对以获得待预测的数据流文本的编码格式。
[0156]参考图3,所述编码格式确定模块24包括:
[0157]第一确定单元241,用于当去噪处理的结果为第一结果时,根据有穷状态自动机确 定待预测的数据流文本的编码格式;
[0158]计算单元242,用于计算待预测的数据流文本的出现频率数组与出现频率表之间 组间差或者组间方差;
[0159]第二确定单元243,用于将最小组间差或最小组间方差所对应的编码格式作为待 预测的数据流文本的编码格式。
[0160] 本实施例的数据流编码的预测装置的具体实现过程可参考前述关于数据流编码 的预测方法的详细描述,在此不再赘述。
[0161] 综上所述,本发明的数据流编码的预测方法及数据流编码的预测装置,通过对编 码类型进行区别,在去噪处理后,快速的确定预测的方式,从而极大的提高了预测的效率; 并且,本发明可以实现对各种编码的预测,从而大大提高了预测的准确度。所以,本发明有 效克服了现有技术中的种种缺点而具高度产业利用价值。
[0162]上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟 悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因 此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完 成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
【主权项】
1. 一种数据流编码的预测方法,其特征在于,所述数据流编码的预测方法包括以下步 骤: 获取各种编码的测试样本; 根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成 有穷状态自动机; 获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处 理的结果包括第一结果或第二结果; 当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编 码格式; 当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组; 将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据 流文本的编码格式。2. 根据权利要求1所述的数据流编码的预测方法,其特征在于,所述根据第一类型编码 的测试样本形成出现频率表步骤包括: 对第一类型编码的测试样本进行去噪处理; 根据去噪处理后的测试样本计算各编码的出现频率数组,以形成出现频率表。3. 根据权利要求1所述的数据流编码的预测方法,其特征在于,所述计算待预测的数据 流文本的出现频率数组的步骤包括: 计算去噪处理后的数据流文本中每个字节出现的频率; 将每个字节出现的频率记录进数组以形成出现频率数组。4. 根据权利要求3所述的数据流编码的预测方法,其特征在于,所述将每个字节出现的 频率记录进数组以形成出现频率数组的步骤包括:计算每个字节出现的频率与一百有效字 节的比值以形成出现频率数组,所述有效字节为对待预测的数据流文本进行去噪处理后的 字节数。5. 根据权利要求1所述的数据流编码的预测方法,其特征在于,将待预测的数据流文本 的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包 括: 计算待预测的数据流文本的出现频率数组与出现频率表之间组间差; 将最小组间差所对应的编码格式作为待预测的数据流文本的编码格式。6. 根据权利要求1所述的数据流编码的预测方法,其特征在于,将待预测的数据流文本 的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式的步骤包 括: 计算待预测的数据流文本的出现频率数组与出现频率表之间组间方差; 将最小组间方差所对应的编码格式作为待预测的数据流文本的编码格式。7. -种数据流编码的预测装置,其特征在于,所述数据流编码的预测装置包括: 测试样本获取模块,用于获取各种编码的测试样本; 测试样本处理模块,用于根据第一类型编码的测试样本形成出现频率表或根据第二类 型编码的测试样本形成有穷状态自动机; 数据流文本处理模块,用于获取待预测的数据流文本,并对所述待预测的数据流文本 进行去噪处理,所述去噪处理的结果包括第一结果或第二结果; 编码格式确定模块,用于当去噪处理的结果为第一结果时,根据有穷状态自动机确定 待预测的数据流文本的编码格式;还用于当去噪处理的结果为第二结果时,计算待预测的 数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比 对以获得待预测的数据流文本的编码格式。8. 根据权利要求7所述的数据流编码的预测装置,其特征在于,所述测试样本处理模块 包括: 第一去噪单元,用于对第一类型编码的测试样本进行去噪处理; 出现频率表形成单元,用于根据去噪处理后的测试样本计算各编码的出现频率数组, 以形成出现频率表; 有穷状态自动机形成单元,用于根据第二类型编码的测试样本形成有穷状态自动机。9. 根据权利要求8所述的数据流编码的预测装置,其特征在于,所述出现频率表形成单 元包括: 频率计算单元,用于计算去噪处理后的数据流文本中每个字节出现的频率; 记录单元,用于将每个字节出现的频率记录进数组以形成出现频率数组。10. 根据权利要求8所述的数据流编码的预测装置,其特征在于,所述编码格式确定模 块包括: 第一确定单元,用于当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预 测的数据流文本的编码格式; 计算单元,用于计算待预测的数据流文本的出现频率数组与出现频率表之间组间差或 者组间方差; 第二确定单元,用于将最小组间差或最小组间方差所对应的编码格式作为待预测的数 据流文本的编码格式。
【专利摘要】本发明提供一种数据流编码的预测方法及预测装置。所述数据流编码的预测方法包括以下步骤:获取各种编码的测试样本;根据第一类型编码的测试样本形成出现频率表或根据第二类型编码的测试样本形成有穷状态自动机;获取待预测的数据流文本,并对所述待预测的数据流文本进行去噪处理,所述去噪处理的结果包括第一结果或第二结果;当去噪处理的结果为第一结果时,根据有穷状态自动机确定待预测的数据流文本的编码格式;当去噪处理的结果为第二结果时,计算待预测的数据流文本的出现频率数组;将待预测的数据流文本的出现频率数组与出现频率表进行比对以获得待预测的数据流文本的编码格式。本发明方法提高了预测的准确性和效率。
【IPC分类】G06F17/30
【公开号】CN105468724
【申请号】CN201510812568
【发明人】李文斌
【申请人】上海斐讯数据通信技术有限公司
【公开日】2016年4月6日
【申请日】2015年11月20日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1