基于大数据分布式计算的分类预测方法与流程

文档序号:16208768发布日期:2018-12-08 07:27阅读:537来源:国知局
基于大数据分布式计算的分类预测方法与流程

本发明涉及大数据处理技术领域,具体而言,特别涉及一种基于大数据分布式计算的分类预测方法。

背景技术

在大数据时代,数据挖掘是主要关键工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。在相关技术中,特别是涉及到大数据分类预测算法时,针对应用分类和趋势预测时,往往不能准确的反应具体情况。



技术实现要素:

本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。有鉴于此,本发明需要提供一种泛化能力强、泛化误差小的基于大数据分布式计算的分类预测方法。

根据本发明的基于大数据分布式计算的分类预测方法,包括如下步骤:步骤1:针对分布式文件系统中数据进行数据清洗,去除所述分布式文件系统中的噪声,并形成标准化数据集;步骤2:对所述标准化数据集中的数据使用聚类算法打上标签,并获得训练样本和测试样本;步骤3:基于使用聚类算法打上标签的所述标准化数据集,使用大数据平台的mapreduce计算框架,针对所述训练样本迭代计算出训练模型参数,使用所述训练模型参数,对所述测试样本进行预测分类。

根据本发明的实施例的基于大数据分布式计算的分类预测方法,可以基于大数据平台存储的海量数据,利用大数据平台的mapreduce的计算框架对于数据进行清洗,聚类和标签化处理。最终根据标签化数据结果使用gradientboosting算法进行数据分类预测和校验。

同时,根据本发明的实施例的基于大数据分布式计算的分类预测方法,针对海量大数据,使用集成学习算法,该学习算法把同一个问题分解到多个不同的模块中,从而提高分类器的泛化能力;通过产生多个分类器降低算法的泛化误差,从而提升算法性能的思想,并将该思想应用到了数据分类领域。

另外,根据本发明上述实施例的基于大数据分布式计算的分类预测方法还可以具有如下附加的技术特征:

根据本发明的一个实施例,进一步包括步骤4:对所述测试样本的预测分类进行验证,如所述测试样本的预测分类准确率低,则调整gbm算法的参数,并针对所述训练样本的继续训练模型结果,以获取对所述测试样本预测分类准确的较高的数据结果。

根据本发明的一个实施例,在步骤4中对所述测试样本的预测分类采用人工验证。

根据本发明的一个实施例,在步骤2中,对所述标准化数据集中的数据使用聚类算法打上标签后,通过人工确认获得所述训练样本和所述测试样本。

根据本发明的一个实施例,在步骤4中,在调整gbm算法的参数时,包括以下步骤:步骤5:选择一个较高的学习率,并基于所述学习率,调整基学习器的数量;步骤6:基于步骤5中所述学习器的数量调整决策树的参数;步骤7:降低所述学习率,并相应地提高所述基学习器的数量。

根据本发明的一个实施例,在步骤7中,降低所述学习率之前,调整所述训练样本的比例。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

图1是根据本发明的实施例的基于大数据分布式计算的分类预测方法的框图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。

如图1所示,根据本发明的实施例的基于大数据分布式计算的分类预测方法,包括如下步骤:

步骤1:针对分布式文件系统(hdfs)中数据进行数据清洗,去除分布式文件系统中的噪声,并形成标准化数据集。

步骤2:对标准化数据集中的数据使用聚类算法打上标签,并获得训练样本和测试样本。

步骤3:基于使用聚类算法打上标签的所述标准化数据集,使用大数据平台的mapreduce计算框架,针对训练样本迭代计算出训练模型参数,使用训练模型参数,对测试样本进行预测分类。

根据本发明的实施例的基于大数据分布式计算的分类预测方法,可以基于大数据平台存储的海量数据,利用大数据平台的mapreduce的计算框架对于数据进行清洗,聚类和标签化处理。最终根据标签化数据结果使用gradientboosting算法进行数据分类预测和校验。

同时,根据本发明的实施例的基于大数据分布式计算的分类预测方法,针对海量大数据,使用集成学习算法,该学习算法把同一个问题分解到多个不同的模块中,从而提高分类器的泛化能力;通过产生多个分类器降低算法的泛化误差,从而提升算法性能的思想,并将该思想应用到了数据分类领域。

可以理解的是,在本发明的实施例中,主要利用大数据平台的数据存储能力和计算能力处理海量数据训练和分类预测。主要分为三个步骤:

数据清洗和标签化,构建训练数据样本和测试样本;

使用训练样本测试训练数据模型,使用模型结果验证测试样本的准确度;

如准确度不高,调整模型参数,继续训练训练数据并且验证测试样本的准确度直到达到预知的准确度。

根据本发明的一个实施例,基于大数据分布式计算的分类预测方法,可以进一步包括步骤4:该步骤包括:对测试样本的预测分类进行验证,如测试样本的预测分类准确率低,则调整gbm(gradientboostingmachine)算法的参数,并针对训练样本的继续训练模型结果,以获取对测试样本预测分类准确的较高的数据结果。由此,可以提高验证测试样本的准确度。

可以理解的是,优选地,在步骤4中对所述测试样本的预测分类采用人工验证。

可以理解的是,在步骤2中,对标准化数据集中的数据使用聚类算法打上标签后,通过人工确认获得训练样本和测试样本。由此,可以提高训练样本和测试样本的准确度。

根据本发明的实施例的基于大数据分布式计算的分类预测方法,在步骤4中,在调整gbm算法的参数时,包括以下步骤:

步骤5:选择一个较高的学习率,并基于所述学习率,调整基学习器的数量;

步骤6:基于步骤5中所述学习器的数量调整决策树的参数;

步骤7:降低所述学习率,并相应地提高所述基学习器的数量。

进一步地,根据本发明的一个实施例,在步骤7中,降低所述学习率之前,调整所述训练样本的比例。

根据本发明的实施例的基于大数据分布式计算的分类预测方法,针对大数据分类预测算法,分类是找出海量数据存储系统中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1