一种基于大数据的信息处理方法

文档序号:8258939阅读:321来源:国知局
一种基于大数据的信息处理方法
【技术领域】
[0001]本发明涉及数据存储,特别涉及一种基于大数据的处理方法。
【背景技术】
[0002]大数据存储与处理日益成为数据存储领域的研宄热点。其中,大数据具有较高的复杂性。传统关系型数据库在数据管理方面解决了数据一致性和完整性问题,但是,在大数据存储、访问与维护,非结构化和半结构化数据管理,以及数据库易用性和扩展性等方面,关系型数据库存在难以克服的问题。其读取性能和数据处理性能不适用于海量大数据的存储和访问。
[0003]因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。

【发明内容】

[0004]为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的信息处理方法,用于在存储平台中处理大数据文件,其特征在于,包括:利用Nosql数据库作为数据存储层存储多用户上传的文件数据,分别创建集合来实现不同类型数据的存储,并使用分布式文件系统存储并行计算过程中的中间数据;采用HTML5构建B/S架构作为表现层,实现了用户页面与存储层之间的交互;在存储层与表现层之间设置事务层,对数据库进行访问,将API进行封装,为用户提供应用功能。
[0005]优选地,所述事务层包括输入模块、下载模块、检索模块、更新模块、删除模块和数据处理模块;其中,输入模块、下载模块、检索模块、更新模块、删除模块利用Nosql驱动程序与Nosql数据库进行交互;数据处理模块将数据库适配器作为与Nosql之间的数据操作中间件,并结合预设算法库支持大数据文件分析与挖掘。
[0006]优选地,该方法包括:创建文件数据集用于存放文件数据,并创建元数据集用于存储文件数据的元数据项,所述存储平台面向多用户提供数据存储服务,将数据分为共享数据和私有数据,针对共享数据,所述文件数据集存储在统一的数据库中,并采用过滤器的安全模式;针对私有数据,每个用户拥有单独的数据库,并采用权限控制的安全模式;所述文件数据集可由用户选择已存在的数据集,或新建数据集存储上传的数据,每一个文件对象存储为一个json对象,文件对象在存储过程中,增加文件属性,用于表示该文件对象所属的资源及属性;元数据集用于记录文件的元数据信息、上传者对数据的描述,以及文件与数据库中集合的对应关系;所述存储平台在Nosql集群架构设计上采用分片副本集架构;如果用户需要新的字段,在上传文档之前直接添加元数据集,表示资源与数据库中集合的对应关系的元数据信息在存储过程中自动生成。
[0007]优选地,该方法还包括:为不同的数据格式提供不同的数据转换与存储接口,主要是实现数据文件的在线导入、导出功能,用户上传数据时,通过浏览器页面以FTP协议上传到服务器,并根据数据格式选择接口读取大数据并写入到数据库中,而下载数据过程中,接收用户选择的不同输出数据格式;所述数据处理模块使用数据适配器完成与Nosql数据库的连接与交互,所述将Nosql分布式存储与集群构建在同一计算机集群,并通过Nosql的分片机制支持并行计算。
[0008]优选地,该方法利用预设算法库分析和挖掘大数据文件,包括文件统计分析、关联规则挖掘、聚类分析,所述存储平台直接从Nosql的配置服务器中获取块相关参数,并将数据分片作为数据块提交给映射器处理;在读取过程中定义查询语言,并与索引过滤相结合过滤输出数据;首先检测Nosql数据集,并计算数据分割;每一个数据分割分配到集群的一个计算节点;集群计算节点根据数据分割的分配情况从Nosql中获取数据,并通过映射器进行本地计算;集群合并计算结果,将结果输出到Nosql中;
[0009]当使用数据处理模块在指定范围内文件对象统计、文件聚类、关联规则挖掘功能时,通过客户端选择数据源、数据项、处理算法,以及相应的参数、输出位置,将处理结果统一存储到Nosql中,并将计算进度、预计结束时间和存储位置发送给客户端。
[0010]本发明相比现有技术,具有以下优点:
[0011]本发明针对大数据存储、查询、检索与并行处理,利用Nosql数据库特性,以及与集群平台的交互能力,适合于大数据的处理,以满足用户对异构数据存储与网络服务的需求。
【附图说明】
[0012]图1是根据本发明实施例的基于大数据的信息处理方法的流程图。
【具体实施方式】
[0013]下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0014]本文针对大数据存储、查询、检索与并行处理等问题,利用Nosql数据库特性,以及与集群平台的交互能力,提出适合于大数据的存储与处理方法,以满足用户对异构大数据存储与网络服务的需求。
[0015]本发明的一方面提供了一种基于大数据的信息处理方法。图1是根据本发明实施例的基于大数据的信息处理方法流程图。
[0016]本发明的基于大数据的信息处理方法运行于存储平台,该存储平台由3个层次组成,包括数据存储层、事务层和表现层。
[0017](I)数据存储层用于存储多用户上传的文件数据。存储平台主要利用Nosql数据库存储数据,并使用分布式文件系统存储并行计算过程中的中间数据。
[0018](2)事务层构建在存储层之上,用于对数据库进行访问。事务层将相关的API进行封装,为用户提供常用的应用功能,隐藏了数据存储层内部的复杂处理逻辑,简化了用户对数据的读写和管理流程。事务层主要包括6个模块:输入模块、下载模块、检索模块、更新模块、删除模块和数据处理模块。其中,输入模块、下载模块、检索模块、更新模块、删除模块利用Nosql驱动程序与Nosql数据库进行交互;数据处理模块将数据库适配器作为与Nosql之间的数据操作中间件,并结合预设算法库支持大数据文件分析与挖掘。
[0019](3)表现层:是整个存储平台的功能体现。存储平台整体采用B/S架构,使用浏览器作为上传、下载、检索、更新、删除和数据处理等功能的客户端。表现层采用HTML5等技术构建,实现了用户页面与存储层之间的交互。
[0020]针对大数据在类型、结构上不同的特点,本发明创建2类不同的集合来满足数据的存储:一类是文件数据集,用于存放文件数据;一类是元数据集,用于存储文件数据的元数据项。存储平台面向多用户提供数据存储服务,将数据分为共享数据和私有数据。针对共享数据,文件数据集存储在统一的数据库中,并采用过滤器的安全模式;针对私有数据,每个用户拥有单独的数据库,并采用权限控制的安全模式。
[0021]文件数据集用于存储数据。用户可选择已存在的数据集,或新建数据集存储上传的数据。每一个文件对象存储为一个json对象,文件对象在存储过程中,增加文件属性,用于表示该文件对象所属的资源及相应属性。元数据集主要用于记录文件的元数据信息、上传者对数据的描述,以及文件与数据库中集合的对应关系等信息。存储平台对默认元数据集进行了设计,满足用户对数据进行描述的需求。如果需要新的字段,可在上传文档之前直接添加,无需事先设计完整的元数据集。这种方式可以弱化初始的数据结构设计,无需存储无用的字段,降低数据存储冗余,避免产生大量的稀疏数据集,适合多用户条件下不同格式、不同属性数据的存储。部分元数据信息在存储过程中自动生成,例如资源与数据库中集合的对应关系信息。在Nosql集群架构设计上,采用分片副本集架构。
[0022]针对不同的数据格式,存储平台提供不同的数据转换与存储接口。转换接口主要是实现数据文件的在线导入、导出功能。用户上传数据时,通过浏览器页面以FTP协议上传到服务器,并根据数据格式选择接口读取大数据并写入到数据库中。下载数据是上传数据的逆过程,用户可以根据需要选择不同输出数据格式。
[0023]以矢量图层格式为例,存储过程如下:⑴注册驱动;(2)获取图层数和图层名,将图层名写入元数据集中,并遍历每一个图层;(3)读取图层属性表的表
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1