一种基于云计算的大数据处理方法与流程

文档序号:34975042发布日期:2023-08-01 21:07阅读:21来源:国知局

本发明涉及云计算,尤其涉及一种基于云计算的大数据处理方法。


背景技术:

1、云计算指通过计算机网络形成的计算能力极强的系统,可存储、集合相关资源并可按需配置,向用户提供个性化服务。

2、数据处理是一个复杂的过程,数据处理对象的内容与质量不同,所需要采取的处理步骤、处理逻辑也不同。面对数量巨大、内容丰富、格式多样、质量不齐的数据,需要开发大量处理工具才能提高处理效率。

3、但是,处理工具也有大小之分、繁简之别,大而复杂的工具包含更多的逻辑,处理数据的能力更强。然而数据具有多样性,因此无论单一工具多么复杂,都无法完全满足数据处理的全部需求。并且大的复杂的工具缺乏灵活性,维护成本高,小的简单的工作相对的灵活性较高、维护成本低,但是其数据处理能力较弱,对数据的处理具有局限性。


技术实现思路

1、本发明的目的是为了解决现有技术中存在的技术问题,提出了一种基于云计算的大数据处理方法。

2、本发明所采用的技术方案为:一种基于云计算的大数据处理方法,其特征在于:通过大数据处理系统实现,所述大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,所述大数据处理方法包括以下步骤:

3、步骤一:通过数据采集模块获取原始数据;

4、步骤二:利用数据预处理模块对原始数据进行清洗、集成、变换、规约;

5、步骤三:通过数据存储管理模块从多角度和多层次对数据进行存储和管理;

6、步骤四:利用数据分析挖掘模块挖掘潜在有用的信息和知识;

7、步骤五:通过数据应用模块将数据信息进行可视化展现。

8、作为本发明进一步的改进,所述数据采集模块获取的原始数据内容包括页面数据、交互数据、表单数据、会话数据;且获取原始数据的方法包括系统日志采集方法、网络数据采集方法、其他数据采集方法。

9、作为本发明进一步的改进,所述原始数据清洗是为了对数据进行过滤、去噪,提取有效的原始数据,主要包含遗漏数据处理、噪音数据处理、不一致数据处理;其中遗漏数据可用全局常量、属性均值、可能值填充、直接忽略的方法处理,噪音数据可用分箱、聚类、计算机人工检查和回归的方法处理,不一致数据可用手动更正的方法处理。

10、作为本发明进一步的改进,所述原始数据集成是为了将多个数据源中的数据整合并存储到一个数据库中,方便对数据进行处理;所述原始数据变换过程包括平滑、聚集、数据泛化、规范化、属性构造;所述原始数据规约主要包括数据方聚集、维规约、数据压缩、数据规约、概念分层,使数据集变小的同时保持数据的完整。

11、作为本发明进一步的改进,所述数据存储管理模块根据数据的应用特征进行分类、存储和管理;且有效的存储和管理方式包括不断加密、仓库存储、云端备份。

12、作为本发明进一步的改进,所述数据挖掘对象包括关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库;所述数据挖掘方法包括神经网络方法、遗传算法、决策树方法、覆盖正例排斥反例方法、统计分析方法模糊集方法。

13、作为本发明进一步的改进,所述数据挖掘的流程包括以下步骤:

14、s1:清晰地定义出业务问题,确定数据挖掘的目的;

15、s2:选择数据在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;

16、s3:进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据;

17、s4:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘;

18、s5:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

19、作为本发明进一步的改进,所述数据分析主要包括用户兴趣分析、网络行为分析、情感语义分析。

20、作为本发明进一步的改进,根据可视化的数据信息,将其应用到适用的领域内,提高领域的运行效率。

21、本发明的有益效果:本发明通过数据采集模块可获取不同内容的原始数据,且利用多种方式采集数据,范围更广更全;通过数据预处理模块对原始数据进行清洗、集成、变换、规约,可提取有效的原始数据且方便对数据进行处理;通过数据存储管理模块对数据进行分类、存储和管理,处理过程中更加方便有效;通过数据分析挖掘模块可挖掘潜在有用的信息和知识;通过数据应用模块可使数据应用于到适用的领域内,提高领域的运行效率。



技术特征:

1.一种基于云计算的大数据处理方法,其特征在于:通过大数据处理系统实现,所述大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,所述大数据处理方法包括以下步骤:

2.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述数据采集模块获取的原始数据内容包括页面数据、交互数据、表单数据、会话数据;且获取原始数据的方法包括系统日志采集方法、网络数据采集方法、其他数据采集方法。

3.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述原始数据清洗是为了对数据进行过滤、去噪,提取有效的原始数据,主要包含遗漏数据处理、噪音数据处理、不一致数据处理;其中遗漏数据可用全局常量、属性均值、可能值填充、直接忽略的方法处理,噪音数据可用分箱、聚类、计算机人工检查和回归的方法处理,不一致数据可用手动更正的方法处理。

4.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述原始数据集成是为了将多个数据源中的数据整合并存储到一个数据库中,方便对数据进行处理;所述原始数据变换过程包括平滑、聚集、数据泛化、规范化、属性构造;所述原始数据规约主要包括数据方聚集、维规约、数据压缩、数据规约、概念分层,使数据集变小的同时保持数据的完整。

5.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述数据存储管理模块根据数据的应用特征进行分类、存储和管理;且有效的存储和管理方式包括不断加密、仓库存储、云端备份。

6.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述数据挖掘对象包括关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库;所述数据挖掘方法包括神经网络方法、遗传算法、决策树方法、覆盖正例排斥反例方法、统计分析方法模糊集方法。

7.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述数据挖掘的流程包括以下步骤:

8.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述数据分析主要包括用户兴趣分析、网络行为分析、情感语义分析。

9.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:根据可视化的数据信息,将其应用到适用的领域内,提高领域的运行效率。


技术总结
本发明涉及云计算技术领域,尤其涉及一种基于云计算的大数据处理方法。通过大数据处理系统实现,大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,大数据处理方法包括以下步骤:通过数据采集模块获取原始数据;利用数据预处理模块对原始数据进行清洗、集成、变换、规约;通过数据存储管理模块从多角度和多层次对数据进行存储和管理;利用数据分析挖掘模块挖掘潜在有用的信息和知识;通过数据应用模块将数据信息进行可视化展现。本发明的目的是为了解决现有技术中存在的技术问题,提出了一种基于云计算的大数据处理方法。

技术研发人员:林思弘,林海生,赖巧能
受保护的技术使用者:厦门快快网络科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1