一种基于大数据的信息处理方法_2

文档序号：8258939阅读：来源：国知局

头信息，并将结果存储到文件数据集中；(4)遍历图层中的要素，按照Nosql输入接口规范输出内容，并写入到文件数据集合中。重复(3)、(4)步，直至图层遍历结束。
[0024]连接表现层和数据库的是访问接口，是一个中间层的程序。在面向客户端方面，它作为一个接口模块，必需提供适用的接口函数。客户端调用接口函数时，应准备好需要存储的数据或查询的条件，服务程序在服务器上运行，做增加、删除、修改、查找的数据库操作，此后服务器将操作的结果发送给客户端。
[0025]数据库操作接口包括检索接口、更新接口、删除接口、新增数据接口、读取接口。检索接口包括根据坐标查询、根据属性查询，以及混合查询3种。更新接口只更新单一文件对象，删除接口包括删除文件对象、删除数据集(对应于上传的文件)和清空数据库(只针对私有数据，包含多个数据集)3种不同的接口。新增数据接口只包含新增单个对象接口和新增文件接口，新增文件接口由转换接口实现。读取接口包括读取整个数据集和读取单个文件对象2个接口。访问接口主要利用Nosql的Java驱动包实现功能扩展。
[0026]数据处理模块使用数据适配器，完成与Nosql数据库的连接与交互。该模块利用云端处理能力对海量数据进行高效处理与知识发现，当用户需要对云端数据进行分析时，可同时使用云端的存储资源和计算资源，在云端完成计算任务，避免大规模数据传输，可有效缓解网络带宽对用户使用云端数据的限制，同时减轻客户端的处理压力。为了降低存储和云计算之间带宽的影响，该存储平台将Nosql分布式存储与集群构建在同一计算机集群，并通过Nosql的分片机制支持的并行计算。
[0027]而在数据处理内容方面，主要利用预设算法库分析和挖掘大数据文件，包括文件统计分析、关联规则挖掘、聚类分析等功能。存储平台直接从Nosql的配置服务器中获取块相关参数，并将数据分片直接作为数据块提交给映射器处理。这就意味着，Nosql将完成大部分的预配置工作。在读取过程中，可定义查询语言，并与索引过滤相结合过滤输出数据。批量计算的工作流程为:(I)首先检测Nosql数据集，并计算数据分割；(2)每一个数据分割分配到集群的一个计算节点；(3)集群计算节点根据数据分割的分配情况从Nosql中获取数据，并通过映射器进行本地计算；(4)集群合并计算结果，将结果输出到Nosql中。在功能方面，数据处理模块包括指定范围内文件对象统计、文件聚类、关联规则挖掘等多种处理功能，对集群下的并行计算算法进行封装。使用这些功能模块时，用户通过客户端选择数据源、数据项、处理算法，以及相应的参数、输出位置等。由于海量数据处理本身计算时间较长，无法在短时间内将结果返回给客户端，因此，处理结果统一存储到Nosql中，并将计算进度、预计结束时间和存储位置发送给客户端。
[0028]综上所述，本发明提出了一种针对大数据存储、查询、检索与并行处理的方法，利用Nosql数据库特性，以及与集群平台的交互能力，适合于大数据的处理，以满足用户对异构数据存储与网络服务的需求。
[0029]显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储平台中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。
[0030]应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1.一种基于大数据的信息处理方法，用于在存储平台中处理大数据文件，其特征在于，包括: 利用Nosql数据库作为数据存储层存储多用户上传的文件数据，分别创建集合来实现不同类型数据的存储，并使用分布式文件系统存储并行计算过程中的中间数据；采用HTML5构建B/S架构作为表现层，实现了用户页面与存储层之间的交互；在存储层与表现层之间设置事务层，对数据库进行访问，将API进行封装，为用户提供应用功能。
2.根据权利要求1所述的方法，其特征在于，所述事务层包括输入模块、下载模块、检索模块、更新模块、删除模块和数据处理模块；其中，输入模块、下载模块、检索模块、更新模块、删除模块利用Nosql驱动程序与Nosql数据库进行交互；数据处理模块将数据库适配器作为与Nosql之间的数据操作中间件，并结合预设算法库支持大数据文件分析与挖掘。
3.根据权利要求2所述的方法，其特征在于，所述分别创建集合来实现不同类型数据的存储，进一步包括: 创建文件数据集用于存放文件数据，并创建元数据集用于存储文件数据的元数据项，所述存储平台面向多用户提供数据存储服务，将数据分为共享数据和私有数据，针对共享数据，所述文件数据集存储在统一的数据库中，并采用过滤器的安全模式；针对私有数据，每个用户拥有单独的数据库，并采用权限控制的安全模式；所述文件数据集可由用户选择已存在的数据集，或新建数据集存储上传的数据，每一个文件对象存储为一个json对象，文件对象在存储过程中，增加文件属性，用于表示该文件对象所属的资源及属性；元数据集用于记录文件的元数据信息、上传者对数据的描述，以及文件与数据库中集合的对应关系; 所述存储平台在Nosql集群架构设计上采用分片副本集架构；如果用户需要新的字段，在上传文档之前直接添加元数据集，表示资源与数据库中集合的对应关系的元数据信息在存储过程中自动生成。
4.根据权利要求3所述的方法，其特征在于，该方法还包括: 为不同的数据格式提供不同的数据转换与存储接口，主要是实现数据文件的在线导入、导出功能，用户上传数据时，通过浏览器页面以FTP协议上传到服务器，并根据数据格式选择接口读取大数据并写入到数据库中，而下载数据过程中，接收用户选择的不同输出数据格式；所述数据处理模块使用数据适配器完成与Nosql数据库的连接与交互，所述将Nosql分布式存储与集群构建在同一计算机集群，并通过Nosql的分片机制支持并行计算。
5.根据权利要求4所述的方法，其特征在于，所述数据处理模块结合预设算法库支持大数据文件分析与挖掘，进一步包括: 利用预设算法库分析和挖掘大数据文件，包括文件统计分析、关联规则挖掘、聚类分析，所述存储平台直接从Nosql的配置服务器中获取块相关参数，并将数据分片作为数据块提交给映射器处理；在读取过程中定义查询语言，并与索引过滤相结合过滤输出数据；首先检测Nosql数据集，并计算数据分割；每一个数据分割分配到集群的一个计算节点；集群计算节点根据数据分割的分配情况从Nosql中获取数据，并通过映射器进行本地计算；集群合并计算结果，将结果输出到Nosql中；当使用数据处理模块在指定范围内文件对象统计、文件聚类、关联规则挖掘功能时，通过客户端选择数据源、数据项、处理算法，以及相应的参数、输出位置，将处理结果统一存储到Nosql中，并将计算进度、预计结束时间和存储位置发送给客户端。
【专利摘要】本发明提供了一种基于大数据的信息处理方法，该方法包括：利用Nosql数据库作为数据存储层存储多用户上传的文件数据，分别创建集合来实现不同类型数据的存储，并使用分布式文件系统存储并行计算过程中的中间数据；采用HTML5构建B/S架构作为表现层，实现了用户页面与存储层之间的交互；在存储层与表现层之间设置事务层，对数据库进行访问，将API进行封装，为用户提供应用功能。发明针对大数据存储、查询、检索与并行处理，利用Nosql数据库特性，以及与集群平台的交互能力，适合于大数据的处理，以满足用户对异构数据存储与网络服务的需求。
【IPC分类】G06F17-30
【公开号】CN104573068
【申请号】CN201510037200
【发明人】谢叔阳
【申请人】四川中科腾信科技有限公司
【公开日】2015年4月29日
【申请日】2015年1月23日

完整全部详细技术资料下载

当前第2页1 2