基于对象存储的数据入湖方法、装置、设备及介质与流程

文档序号：37016570发布日期：2024-02-09 13:07阅读：16来源：国知局

本发明涉及数据存储，尤其涉及一种基于对象存储的数据入湖方法、装置、电子设备及计算机可读存储介质。
背景技术：
：：1、数据湖是一类存储数据自然/原始格式的系统或存储，通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据，各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如csv、日志、xml、json)、非结构化数据(如email、文档、pdf等)和二进制数据(如图像、音频、视频)。2、关于传统数据湖的架构，有如下几个需要解决的问题：1、必须基于物理机或者虚拟机部署，上层数据应用和底层基础设施耦合严重；2、节点变更需要专业运维人员提前介入，需要同等配置物理机；3、存储和计算都需要使用同一套物理机资源，不可以单独扩容存储或者计算。技术实现思路1、本发明提供一种基于对象存储的数据入湖方法、装置及计算机可读存储介质，其主要目的在于减少计算资源的浪费，降低运维成本。2、为实现上述目的，本发明提供的一种基于对象存储的数据入湖方法，包括：3、收集待入湖数据，并对所述待入湖数据进行转换和清洗操作，得到标准待入湖数据；4、根据所述标准待入湖数据确定实时计算任务，并基于kubernetes集群根据所述实时计算任务构建flink集群的多个最小资源对象模型；5、通过所述多个最小资源对象模型中的多个容器将标准待入湖数据进行预处理后，分区存储到不同的对象存储桶或目录中，并将分区后的数据上传到对象存储平台中。6、可选地，所述对待入湖数据进行转换和清洗操作，包括：7、将待入湖数据导入到数据分析工具中，根据待入湖数据的结构和内容进行数据清洗操作；8、将清洗后的待入湖数据进行格式转换操作，并将清洗和转换后的数据导出为新的文件，得到标准待入湖数据。9、可选地，所述数据清洗操作包括：10、使用fillna()函数检查待入湖数据中是否有缺失值，并删除含有缺失值的行；11、使用drop_duplicates()函数检查待入湖数据中的重复值，并将所述重复值删除；12、使用astype()函数将待入湖数据中的字符型数据转换为数值型数据；13、通过观察数据分布和使用箱线图等方法检查数据中是否有异常值，并删除其中的异常值。14、可选地，所述格式转换操作包括：15、使用pivot_table()函数对待入湖数据进行数据透视操作，将数据按照指定的行和列进行重塑；16、使用merge()函数将多个待入湖数据按照指定的键进行合并；17、使用split()函数将待入湖数据中某一列的数据拆分成多个列；及/或18、根据业务需求对待入湖数据进行数据计算，如求和、平均值等。19、可选地，所述基于kubernetes集群根据所述实时计算任务构建flink集群的多个最小资源对象模型，包括：20、通过dlink平台确定最小资源对象模型的约束配置文件；21、将实时计算任务和约束配置文件提交至预构建的kubernetes集群；22、基于约束配置文件，根据实时计算任务所需的资源构建多个最小资源对象模型。23、可选地，所述基于约束配置文件，根据实时计算任务所需的资源构建多个最小资源对象模型之后，还可以包括：24、分别监测每个最小资源对象模型的中央处理器的利用率与存储器的利用率；25、判断中央处理器的利用率是否大于或等于第一预设百分比以及存储器的利用率是否大于或等于第二预设百分比；26、在判定中央处理器的利用率大于或等于第一预设百分比且存储器的利用率大于或等于第二预设百分比的情况下，增加最小资源对象模型的数量；27、判断中央处理器的利用率是否小于或等于第三预设百分比以及存储器的利用率是否小于或等于第四预设百分比；28、在判定中央处理器的利用率小于或等于第三预设百分比且存储器的利用率小于或等于第四预设百分比的情况下，减少最小资源对象模型的数量。29、可选地，所述预处理包括：为每个数据对象添加元数据。30、为了解决上述问题，本发明还提供一种基于对象存储的数据入湖装置，所述装置包括：31、数据处理模块：用于收集待入湖数据，并对所述待入湖数据进行转换和清洗操作，得到标准待入湖数据；32、模型构建模块：用于根据所述标准待入湖数据确定实时计算任务，并基于kubernetes集群根据所述实时计算任务构建flink集群的多个最小资源对象模型；33、模型存储模块：用于通过所述多个最小资源对象模型中的多个容器将标准待入湖数据进行预处理后，分区存储到不同的对象存储桶或目录中，并将分区后的数据上传到对象存储平台中。34、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：35、至少一个处理器；36、以及，与所述至少一个处理器通信连接的存储器；37、其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的基于对象存储的数据入湖方法。38、为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于对象存储的数据入湖方法。39、本发明实施例根据标准待入湖数据确定实时计算任务，并将实时计算任务提交至kubernetes集群，在kubernetes集群的基础上根据实时计算任务构建flink集群的多个最小资源对象模型。再通过多个最小资源对象模型中的多个容器执行实时计算任务，以获得数据分析结果。最后将数据分析结果存储至数据湖。本申请能够基于kubernetes集群和数据湖，根据实时计算任务的数据量大小进行最小资源对象模型的扩容或缩容，以及对数据进行统一存储，减少计算资源的浪费，降低运维成本。技术特征：1.一种基于对象存储的数据入湖方法，其特征在于，所述方法包括：2.如权利要求1所述的基于对象存储的数据入湖方法，其特征在于，所述对待入湖数据进行转换和清洗操作，包括：3.如权利要求2所述的基于对象存储的数据入湖方法，其特征在于，所述数据清洗操作包括：4.如权利要求2所述的基于对象存储的数据入湖方法，其特征在于，所述格式转换操作包括：5.如权利要求1所述的基于对象存储的数据入湖方法，其特征在于，所述基于kubernetes集群根据所述实时计算任务构建flink集群的多个最小资源对象模型，包括：6.如权利要求5所述的基于对象存储的数据入湖方法，其特征在于，所述基于约束配置文件，根据实时计算任务所需的资源构建多个最小资源对象模型之后，还可以包括：7.如权利要求6所述的基于对象存储的数据入湖方法，其特征在于，所述预处理包括：为每个数据对象添加元数据。8.一种基于对象存储的数据入湖装置，其特征在于，所述装置包括：9.一种电子设备，其特征在于，所述电子设备包括：10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于对象存储的数据入湖方法。技术总结本发明涉及数据存储技术，揭露了一种基于对象存储的数据入湖方法，包括：收集待入湖数据，并对所述待入湖数据进行转换和清洗操作，得到标准待入湖数据；根据所述标准待入湖数据确定实时计算任务，并基于Kubernetes集群根据所述实时计算任务构建Flink集群的多个最小资源对象模型；通过所述多个最小资源对象模型中的多个容器将标准待入湖数据进行预处理后，分区存储到不同的对象存储桶或目录中，并将分区后的数据上传到对象存储平台中。本发明还提出一种基于对象存储的数据入湖装置、电子设备以及存储介质。本发明可以减少计算资源的浪费，降低运维成本。技术研发人员：陈阳,邓晟受保护的技术使用者：招商局金融科技有限公司技术研发日：技术公布日：2024/2/8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈阳,邓晟
技术所有人：招商局金融科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。