一种数据处理的方法及装置与制造工艺

文档序号:11056989阅读:684来源:国知局
一种数据处理的方法及装置与制造工艺
本发明涉及数据处理技术领域,具体涉及一种数据处理的方法及装置。

背景技术:
随着互联网的发展,信息成爆炸式增长,需要处理的数据量骤增,现有的处理方法主要分为两种:一种为:对全部数据进行分析,根据全部数据的分析结果建立经验模型;另一种为:首先对数据进行聚类,然后取聚类以后的结果建立经验模型。聚类为根据事先定义的度量将一些相似的数据组成群体。在对现有技术的研究和实践过程中,本发明的发明人发现,现有技术中无论是直接对全部数据进行处理还是使用聚类方法对海量数据进行处理,都需要大量的计算开销,导致数据处理的耗时过长。

技术实现要素:
本发明实施例提供一种数据处理的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。本发明实施例还提供了相应的装置。本发明第一方面提供一种数据处理的方法,包括:对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。结合第一方面,在第一种可能的实现方式中,所述从划分后的每一数据组中选择一个数据用于建模计算,包括:按照预置策略,从划分后的每一数据组中选择一个代表数据;计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。结合第一方面,在第二种可能的实现方式中,所述从划分后的每一数据组中选择一个数据用于建模计算,包括:按照预置策略,从划分后的每一数据组中选择一个代表数据;计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;当计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正,并从修正后的数据中选择一个数据用于建模计算。本发明第二方面提供一种数据处理的方法,包括:对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个代表数据,计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。结合第二方面,在第一种可能的实现方式中,所述根据所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据,包括:当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。结合第二方面或第二方面第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:修正所述错误数据。本发明第三方面提供一种数据处理的装置,包括:第一计算单元,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;第一分组单元,用于按照所述第一计算单元计算出的指纹信息,将具有相同指纹信息的数据划分到同一数据组;第一选择单元,用于从所述第一分组单元划分后的每一数据组中选择一个数据用于建模计算。结合第三方面,在第一种可能的实现方式中,所述第一选择单元包括:第一选择子单元,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;第一计算子单元,用于计算所述每一数据组中除所述第一选择子单元选择的代表数据外的其他数据与所述代表数据的距离;所述第一选择子单元,还用于当所述第一计算子单元计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。结合第三方面,在第二种可能的实现方式中,所述第一选择单元包括:第二选择子单元,用于按照预置策略,从划分后的每一数据组中选择一个代表数据;第二计算子单元,用于计算所述每一数据组中除所述第二选择子单元选择的代表数据外的其他数据与所述代表数据的距离;修正子单元,用于当所述第二计算子单元计算出的所述其他数据与所述代表数据的距离中有至少一个大于预置阈值时,对所述数据组中的数据进行修正;所述第二选择子单元,还用于从所述修正子单元修正后的数据中选择一个数据用于建模计算。本发明第四方面提供一种数据处理的装置,包括:第二计算单元,用于对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;第二分组单元,用于按照所述第二计算单元计算的指纹信息,将具有相同指纹信息的数据划分到同一数据组;第二选择单元,用于从所述第二分组单元划分后的每一数据组中选择一个代表数据;所述第二计算单元,还用于计算所述每一数据组中除所述第二选择单元选择的代表数据外的其他数据与所述代表数据的距离;确定单元,用于根据所述第二计算单元计算的所述其他数据与所述代表数据的距离,确定所述数据组中的错误数据。结合第四方面,在第一种可能的实现方式中,所述确定单元,用于当计算出的所述其他数据与所述代表数据的距离中有至少一个大于所述预置阈值时,确定所述其他数据与所述代表数据的距离大于所述预置阈值的其他数据为错误数据。结合第四方面或第四方面第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:修正单元,用于修正所述错误数据。本发明实施例采用对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。与现有技术中使用大量的数据才能建立经验模型相比,本发明实施例提供的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例中数据处理的方法的一实施例示意图;图2是本发明实施例中数据处理的方法的另一实施例示意图;图3是本发明实施例中数据处理的方法的另一实施例示意图;图4是本发明实施例中数据处理装置的一实施例示意图;图5是本发明实施例中数据处理装置的另一实施例示意图;图6是本发明实施例中数据处理装置的另一实施例示意图;图7是本发明实施例中数据处理装置的另一实施例示意图;图8是本发明实施例中数据处理装置的另一实施例示意图;图9是本发明实施例中数据处理装置的另一实施例示意图;图10是本发明实施例中数据处理装置的另一实施例示意图。具体实施方式本发明实施例提供一种数据处理的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。本发明实施例还提供了相应的装置。以下分别进行详细说明。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参阅图1,本发明实施例提供的数据处理的方法的一实施例包括:101、对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息。指纹信息指用来表征数据特征的信息,常用的指纹计算方法有消息摘要算法第五版(MessageDigestAlgorithmMD5,MD5)、局部敏感哈西(localsensitivehash,LSH)等。102、按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组。例如:有data1、data2、data3、data4、data5和data6六个数据,data1、data2、data5和data6的指纹信息相同,那么将data1、data2、data5和data6这四个数据划分到同一数据组。data3和data4的指纹信息相同,那么将data3和data4的这两个数据划分到同一数据组。103、从划分后的每一数据组中选择一个数据用于建模计算。建模计算为现有技术,本发明中不做过多赘述,实际上建模的过程就是采用数据建立经验模型,常见的检验模型包括支持向量机、逻辑回归和神经网络模型等。本发明实施例中可以从每一数据组中任意选择一个数据用于建模计算。本发明实施例采用对接收到的每个数据进行指纹计算,得到所述每个数据的指纹信息;按照所述指纹信息,将具有相同指纹信息的数据划分到同一数据组;从划分后的每一数据组中选择一个数据用于建模计算。与现有技术中使用大量的数据才能建立经验模型相比,本发明实施例提供的方法,可以减少用于建模计算的数据处理量,从而降低了数据处理的时间,提高了数据处理的效率。可选地,在上述图1对应的实施例的基础上,本发明实施例提供的数据处理的方法的另一实施例中,所述从划分后的每一数据组中选择一个数据用于建模计算,可以包括:按照预置策略,从划分后的每一数据组中选择一个代表数据;计算所述每一数据组中除所述代表数据外的其他数据与所述代表数据的距离;当计算出的所述其他数据与所述代表数据的距离都小于预置阈值时,选择所述代表数据用于建模计算。本发明实施例中,预置策略可以为随机选择策略,也可以为中间数据选择策略,也可以为其他策略,对此不做具体限定。距离计算可以有多种计算公式,包括但不限于欧式距离、汉明距离、马氏距离计算公式,例如:以欧氏距离为例:数据组中的一个数据data1={0.5,0.3,0,0,2},代表数据data2={0.5,0,0.2,0,0.7}。则其欧式距离等于:如果这个数据组中其他数据data3、data4、data5、data6分别与代表数据data2的欧氏距离分别为1.21、1.35、1.47和1.24,预置阈值为1.50,可以确定该...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1