一种基于大数据的数据采集与存储系统的制作方法

文档序号:30597859发布日期:2022-07-01 21:02阅读:223来源:国知局
一种基于大数据的数据采集与存储系统的制作方法

1.本发明涉及大数据技术领域,特别涉及一种基于大数据的数据采集与存储系统。


背景技术:

2.大数据的五个特性包括:一是数据量大、二是处理速度快、三是数据类型多、四是价值大、五是精确性高。
3.现有的大数据分析基于数据的存储管理,数据存储的完整性和有效性极大影响了大数据的数据分析结果,如果某个数据文件自身体积较为庞大,其处理时间较长,会影响到整个系统对于同时涌入的其他小数据文件的处理进程。
4.因此,针对以上现状,迫切需要开发一种信息大数据的采集和存储系统,以克服当前实际应用中的不足。


技术实现要素:

5.有鉴于此,本发明的目的是提供一种基于大数据的数据采集与存储系统。能够克服背景技术中存在的问题。
6.本发明的目的是通过以下技术方案实现的:
7.一种基于大数据的数据采集与存储系统,系统包括
8.数据采集单元,用于接收数据接口上传的采集数据,并对采集数据的大小进行测算,根据采集数据的大小送入不同的存储单元;
9.第一存储单元,用于存储大小小于设定阈值的小数据文件;
10.第二存储单元,用于存储大小大于设定阈值的大数据文件;
11.第一转换单元,用于将第一存储单元的小数据文件根据设定的数据格式进行转换后写入分布式文件系统;
12.第二转换单元,用于将第二存储单元的大数据文件根据设定的数据格式进行转换后写入分布式文件系统;
13.通过分布式文件系统对转换后的数据文件进行管理、存储和获取。
14.进一步,所述分布式文件系统建立sql查询,并利用分布式列存储数据库对数据文件进行存储。
15.进一步,还包括所述云存储单元,所述分布式文件系统的本地存储模块单元将转换后的数据文件传输至云存储单元进行云存储,所述云存储单元包括数据存储模块、数据查看模块、数据调用单元模块、数据修改模块、数据恢复单元模块和和登录单元模块,所述数据存储模块、数据查看模块、数据调用模块、数据修改模块、数据恢复模块与登录模块依次电联接。
16.进一步,包括应用终端,所述应用终端通过分布式文件系统或云存储单元进行数据访问。。
17.进一步,所述应用终端为智能手机、平板或pc。
18.本发明的有益效果是:
19.1.本发明针对大数据文件和小数据文件,通过采用两个不同的存储单元进行数据存储和处理,有效解决了不同量级数据文件的处理问题,加快了文件的处理速度,提升了整体系统的效率;
20.2.本发明通过设置云存储器和本地存储器,通过双重存储有效保障数据存储的完整性,避免数据遗失,也方便了使用者利用终端设备对数据进行访问,提升了便利性。
21.本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
22.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
23.图1为本发明的系统结构示意图。
具体实施方式
24.以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
25.如图所示,本发明的基于大数据的数据采集与存储系统,包括:
26.(1)数据采集单元:用于接收数据接口上传的采集数据,并对采集数据的大小进行测算,根据采集数据的大小送入不同的存储单元;
27.(2)第一存储单元,用于存储大小小于设定阈值的小数据文件;
28.(3)第二存储单元,用于存储大小大于设定阈值的大数据文件;
29.(4)第一转换单元,用于将第一存储单元的小数据文件根据设定的数据格式进行转换后写入分布式文件系统;
30.(5)第二转换单元,用于将第二存储单元的大数据文件根据设定的数据格式进行转换后写入分布式文件系统;
31.(6)分布式文件系统:用于对转换后的数据文件进行管理、存储和获取。本实施例中,分布式文件系统建立sql查询,并利用分布式列存储数据库对数据文件进行存储。
32.分布式文件系统简称hdfs,hdfs有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。hdfs放宽了posix的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。对外部客户机而言,hdfs就像一个传统的分级文件系统,可以创建、删除、移动或重命名文件等等。存储在hdfs中的文件被分成块,然后将这些块复制到多个计算机中。这与传统的raid架构大不相同。
33.(7)云存储单元:分布式文件系统的本地存储模块单元将转换后的数据文件传输至云存储单元进行云存储,本实施例中,云存储单元包括数据存储模块、数据查看模块、数据调用模块、数据修改模块、数据恢复模块和登录模块,数据存储模块、数据查看模块、数据
调用模块、数据修改模块、数据恢复模块与登录模块依次电联接。其中登录单元用于用户登录,用户登录完成后可以通过数据查看模块、数据调用模块、数据修改模块、数据恢复模块对云中存储的数据进行查看、调用、修改和恢复。
34.(8)应用终端:所述应用终端通过分布式文件系统或云存储单元进行数据访问。本实施例中,应用终端为智能手机、平板或pc。
35.本发明针对大数据文件和小数据文件,通过采用两个不同的存储单元进行数据存储和处理,有效解决了不同量级数据文件的处理问题,加快了文件的处理速度,提升了整体系统的效率;本发明通过设置云存储器和本地存储器,通过双重存储有效保障数据存储的完整性相比于使用人工硬盘数据汇总、分析、分类、再保存提升了效率,降低了行业成本,并且方便于后续的数据利用,也便于管理人员维护,避免使用大量硬盘存储,不易出现类似于数据硬盘的数据丢失情况;方便研究时调用所需数据,减少了人工成本和硬件成本率。
36.应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作—根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
37.此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
38.进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
39.计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
40.最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技
术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1