一种基于容器的数据交换方法与流程

文档序号:17442375发布日期:2019-04-17 04:56阅读:637来源:国知局
一种基于容器的数据交换方法与流程

本文涉及一种云计算技术领域和一种大数据技术领域,具体是一种基于容器的数据交换方法。



背景技术:

随着云计算时代的来临,“大数据”这一新兴词汇也吸引了越来越多的关注;所谓大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;大数据的意义并不单纯的指掌握巨大的数据信息,而在于如何提取大量数据所包含的关键信息,即如何对大数据进行处理分析。

互联网飞速发展,信息化数据急剧膨胀,海量数据的分析处理所面临的难题也越来越多;大数据作为一种新兴的产业,其获取利益的关键就在于通过对数据的“加工”实现数据的“增值”,“加工”后效果的优劣决定了最终大数据所产生的价值的多少;在数据“加工”的过程中,需要涉及多种数据源的数据,如何将位于不同的物理位置、不同的数据库中的数据进行融合与相互分析成为了新的挑战。

传统的数据交换平台将分散建设的若干应用信息系统进行整合,它使若干个应用子系统进行信息/数据的传输及共享,提高信息资源的利用率,成为进行信息化建设的基本目标;但传统的数据交换平台不适用于大数据环境下的数据融合与加工,这是因为大数据的数据融合与加工需要对数据集进行操作,是对大数据量、多数据种类的操作,传统方式下数据是以服务的形式存在,无法直接直接作为数据集进行操作;而新的数据交换方法同时解决了数据交换、数据集融合加工、形成模型库等问题;同时使用容器技术,将不同用户的分析过程进行隔离,提升用户数据的安全性,提高资源的利用率;因此我们需要一个新的基于容器的数据交换方法,从而使大数据处理更加便捷。



技术实现要素:

本发明的目的在于设计与实现一种基于容器的数据交换方法;它充分利用了容器技术的优点将运行环境、软件等必要的工具进行虚拟化,而不使用虚拟机等硬件虚拟化技术来降低浪费的资源;同时,容器的创建比虚拟机实例的创建快得多,容器轻量级的脚本可以从性能和大小方面减少开销;容器之间的进程是相互隔离的,这样其中一个容器的使用和变化不会影响其他容器,用户在将自己的数据导入其中与数据中心的数据进行数据融合分析时,不用担心数据会被复制出自己的可控区域,所编写的算法也无需担心会被其他使用者所盗用;容器封装了所有运行应用程序所必需的相关的细节比如应用依赖以及操作系统;这就使得镜像从一个环境移植到另外一个环境更加灵活,用户所编写的算法可以无需担心由于运行环境的不一致导致出错或无法执行。

本发明的技术实现方案如下。

一种基于容器的数据交换方法,该方法包括以下实现步骤。

1)提供一个数据转换工具,将数据仓库中的不同类型的数据转换为数据集。

2)提供一个容器管理工具,将提供的各种数据分析工具作为镜像,通过申请不同类型的分析工具,生成对应的容器并进行管理。

3)提供一个数据交换工具,可将数据仓库中转换成数据集的数据导入到生成的容器中,将用户的私有数据导入容器,同时还可以将分析后生成的数据进行导出,以达到数据交换并可控的目的。

4)在容器中提供一个数据分析工具,包括所需要使用到的分析挖掘环境,可对申请的数据集与上传的私有数据集在容器中进行数据融合、分析挖掘等数据分析工作。

上述步骤1)中所诉数据转换工具,该工具具有可读取不同种类的数据库,生成不同种数据文件形式的数据集等特点,可以轻松实现将结构化、半结构化、非结构化的数据转换为不同类型的数据集文件,该数据集文件可供数据分析工具所读取,大大简化了数据准备的过程。

上述步骤2)中所述容器管理工具,对不同分析工具与分析环境的镜像进行管理,通过申请不同的数据分析工具与所需要的分析环境生成对应的容器,依托容器轻量、易于移植、弹性伸缩、安全等优点,为数据分析人员提供安全可靠地分析环境。

上述步骤3)中所述数据交换工具,为用户提供了数据交换功能,将用户的私密数据通过这种形式与公共数据的数据集放入相同分析环境中,可保护用户的数据与其他数据所隔离,在用户的可控范围内,并可通过该工具将数据从容器中导出到外部环境,供用户使用。

上述步骤4)中所述数据分析工具,为用户提供了python、r、spark等数据分析时所使用的工具与其对应的环境,用户可在容器中对申请的多种类型的数据集与私有数据进行数据融合、分析挖掘等过程,同时通过容器管理工具可将分析环境进行镜像。

本发明是一种基于容器的数据交换方法,所基于的容器技术为当下最受瞩目的虚拟化技术,其轻量、易于移植、弹性伸缩、安全的特点是成为本发明交换方法的根本;同时本发明引入了数据集与数据分析的环境,将数据与分析过程相结合,将解决目前数据交换存在的安全、效率等问题;传统的数据交换方式将分散建设的若干应用信息系统进行整合,通过计算机网络构建的信息交换平台,它使若干个应用子系统进行信息/数据的传输及共享,提高信息资源的利用率,成为进行信息化建设的基本目标,但无法满足对于数据分析挖掘的需求,数据无法直接以数据集的形式提供给数据分析相关人员,同时也无法对数据进行隔离,并保证数据的安全,这也是本专利的核心。

本专利提出的是一种基于容器的数据交换方法,传统数据交换平台解决的是若干应用子系统进行数据的传输及共享问题,提高信息资源的利用率,但缺乏一个可对数据进行分析挖掘的环境,本专利侧重于分析挖掘的环境;通过本发明,用户可放心的将自己不想公开的数据与数据中心的数据进行融合处理,对数据直接进行分析挖掘,无需面对当需要数据时无从获取、分析时没有环境的情况。

附图说明

图1是本专利的核心架构图。

图2是本专利的流程图。

具体实施方式

下面参照附图对本发明进行详细说明;以下对本发明的详细说明并不是对本发明的限制;相反,本发明的范围是由所附权利要求而定的。

本发明是一种基于容器的数据交换方法,其核心架构图如图1所示;主要执行过程如下。

s0:通过数据转换工具将数据从数据仓库中抽取、转化,可针对结构化、半结构化和非结构化数据进行,将数据转换为可直接分析的数据集。

s1:通过容器管理工具对各分析容器进行管理,提供包含多种分析工具和环境的容器镜像,使用容器作为数据分析的环境。

s2:通过使用数据导入工具将数据集导入到容器中,同时可导入用户不想公开的私有数据与数据仓库中的数据一起进行数据分析与挖掘。

s3:通过使用容器中的数据分析工具对数据进行操作,分析工具有多种形式,包括r、python、spark等常用的数据分析工具。

数据交换的流程如图2所示,主要流程如下。

1:从管理中心向数据中心申请数据。

2:从管理中心向容器中心申请包含分析工具与环境的容器镜像。

3:容器中心生成供分析使用的容器。

4:数据中心将之前申请的数据生成数据集,并导入容器中。

5:用户可通过工具将自有数据上传至容器中,在容器的环境下进行分析挖掘的工作。

由图,可以看出所有的分析挖掘过程在容器中进行,由于容器的轻量、易于移植、弹性伸缩、安全等特点,所进行分析挖掘时的数据不会被使用者以外的人接触,也不需重新搭建分析挖掘环境,大大简化了分析挖掘工作者的分析过程,降低了数据被盗取的风险。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1