一种应用于智慧园区的大数据平台及操作方法与流程

文档序号:19350263发布日期:2019-12-06 21:18阅读:648来源:国知局
一种应用于智慧园区的大数据平台及操作方法与流程

本发明涉及大数据平台技术领域,更具体的说是涉及一种应用于智慧园区的大数据平台及操作方法。



背景技术:

尽管现在大数据技术非常火爆,但是我国的大数据产业还处于起步阶段,产业链发展并不成熟。在大数据产业园建立后,未必能够有足够的企业入驻,不能形成一个完整的大数据生态圈。

现有大数据应用技术存在安全和隐患问题,主要内容:第一,大数据所受到的威胁也就是常说的安全问题,当大数据技术、系统和应用聚集了大量价值时,必然成为被攻击的目标;第二,大数据的过度滥用所带来的问题和副作用,比较典型的就是个人隐私泄露,还包括大数据分析能力带来的商业秘密泄露和国家机密泄露;第三,心智和意识上的安全问题。对大数据的威胁、大数据的副作用、对大数据的极端心智都会阻碍和破坏大数据的发展。

因此,如何提供一种安全、实现智慧园区的高效利用的大数据平台及操作方法是本领域技术人员亟需解决的问题。



技术实现要素:

有鉴于此,本发明提供了一种应用于智慧园区的大数据平台及操作方法将在先进的大数据技术基础上,针对现有技术的缺点,提出有效的解决方法并实行,将大数据应用技术覆盖率扩大,让更多的产业园区可应用大数据技术,实现应用于智慧园区的大数据平台既能通过大数据应用技术实现智慧园区的高效利用,同时还能保证智慧园区数据高效安全,让智慧园区形成一个较为完善的大数据生态圈。

为了实现上述目的,本发明采用如下技术方案:

一种应用于智慧园区的大数据平台,包括:数据采集模块、数据存储模块、数据计算模块、数据应用模块、平台管控模块;

其中,所述数据采集模块与所述数据存储模块连接,将采集的数据存储到所述数据存储模块中;

所述数据计算模块与所述数据存储模块连接,将所述数据存储模块中的数据进行数据处理;

所述数据应用模块与所述数据计算模块连接,建立业务逻辑封装业务对象和业务服务;

所述平台管控模块对所述数据采集模块、所述数据存储模块、所述数据计算模块、所述数据应用模块连接,并进行监控。

优选的,在上述的一种应用于智慧园区的大数据平台中,所述数据采集模块包括:数据抽取单元、数据输入端和数据输出端;所述数据输入端与数据源连接;所述数据抽取单元与数据输入端连接,所述数据抽取单元将采集的数据进行分类,传输到所述数据存储模块。

优选的,在上述的一种应用于智慧园区的大数据平台中,所述数据存储模块包括分布式文件单元、分布式数据库、和分布式缓存单元;所述分布式文件单元具有上传、下载通道,并与所述分布式数据库进行数据交互;所述分布式缓存单元与所述分布式数据库连接进行缓存处理。

优选的,在上述的一种应用于智慧园区的大数据平台中,所述数据计算模块包括:mapreuce单元、数据仓库单元、机器学习与数据挖掘库和规则知识库;所述数据仓库单元将数据文件进行转换并在所述mapreuce单元上运行;所述机器学习与数据挖掘库存储机器学习领域经典算法;所述规则知识库通过规则引擎匹配规则。

优选的,在上述的一种应用于智慧园区的大数据平台中,所述平台管控模块包括:集群管理单元、主机管理单元、用户管理单元和集群日志管理单元;所述集群管理单元与所述数据计算模块连接;所述主机管理单元与主机节点进行连接;所述用户管理单元对平台用户进行管理;所述集群日志管理单元分别与所述数据采集模块、所述数据存储模块、所述数据计算模块和所述数据应用模块连接。

优选的,在上述的一种应用于智慧园区的大数据平台中,还包括数据安全模块;所述数据安全模块包括身份验证和授权单元;所述身份验证和授权单元与用户管理单元连接。

一种用于于智慧园区的大数据平台的操作方法,具体步骤包括如下:

步骤一:数据采集模块将采集的数据,从数据源中抽取数据、加工处理数据、存储数据,经过文件解压、文件合并和拆分、文件级校验、数据级校验、清洗、转换、关联、汇总对接入数据统一进行处理,加载到数据存储模块;

步骤二:数据存储模块采用分布式方案,用hadoop实现半结构化、非结构化数据处理;用mpp处理高质量的结构化数据,并将数据进行存储;

步骤三:将存储的数据传输给数据计算模块的数据仓库单元将数据文件进行转换并在所述mapreuce单元上运行;mapreuce单元传输给数据应用模块进行流量统计、业务推荐、趋势分析、用户行为分析、数据挖掘、离线分析、在线分析、即席查询;

步骤四:在平台管控模块上进行数据采集模块、数据存储模块、数据计算模块、数据应用模块的监控。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种应用于智慧园区的大数据平台将在先进的大数据技术基础上,针对现有技术的缺点,提出有效的解决方法并实行,将大数据应用技术覆盖率扩大,让更多的产业园区可应用大数据技术,实现应用于智慧园区的大数据平台既能通过大数据应用技术实现智慧园区的高效利用,同时还能保证智慧园区数据高效安全,让智慧园区形成一个较为完善的大数据生态圈。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明的结构框架图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种应用于智慧园区的大数据平台将在先进的大数据技术基础上,针对现有技术的缺点,提出有效的解决方法并实行,将大数据应用技术覆盖率扩大,让更多的产业园区可应用大数据技术,实现应用于智慧园区的大数据平台既能通过大数据应用技术实现智慧园区的高效利用,同时还能保证智慧园区数据高效安全,让智慧园区形成一个较为完善的大数据生态圈。

如图1所示,一种应用于智慧园区的大数据平台,包括:数据采集模块、数据存储模块、数据计算模块、数据应用模块、平台管控模块;

其中,所述数据采集模块与所述数据存储模块连接,将采集的数据存储到所述数据存储模块中;

所述数据计算模块与所述数据存储模块连接,将所述数据存储模块中的数据进行数据处理;

所述数据应用模块与所述数据计算模块连接,建立业务逻辑封装业务对象和业务服务;

所述平台管控模块对所述数据采集模块、所述数据存储模块、所述数据计算模块、所述数据应用模块连接,并进行监控。

为了进一步优化优化上述技术方案,所述数据采集模块包括:数据抽取单元、数据输入端和数据输出端;所述数据输入端与数据源连接;所述数据抽取单元与数据输入端连接,所述数据抽取单元将采集的数据进行分类,传输到所述数据存储模块。

进一步,目前智慧园区信息化系统中的数据存在着不一致的问题,比如数据结构异构,数据长度不一致,数据格式各不相同,甚至存在错误数据等情况,造成原始数据很难直接使用。需要利用系统将特定的数据源中的数据经过进一步的加工处理,使之变成有用的合符要求的数据格式。

通过建设大数据抽取转换单元,实现对本项目的政务共享信息库、网上办事信息等政务信息采集、适配。它用于帮助整合各种系统中的数据,整合后的数据可以满足进一步挖掘数据、发现知识的需求。

其功能主要包括从数据源中抽取数据、加工处理数据、存储数据,从而完成数据再造,为大数据搜索应用及其它数据挖掘应用对数据格式的需求。支持多种文件采集源的采集,能够对本地、局域网共享文件夹、ftp服务器文件夹和http服务器上的文件夹进行采集。

统一数据采集和调度,作为本项目的数据流转枢纽,数据输入端实现按需接入数据源,经过文件解压、文件合并和拆分、文件级校验、数据级校验、清洗、转换、关联、汇总等步骤对接入数据统一进行处理,加载到系统,并负责平台调度集中化管理。

数据输出端同时承担对上层应用提供数据服务的能力,服务接口调用各类数据输出端,实现按需访问数据。

数据抽取单元完成从文件类接口文件的抽取,etl子系统提供sftp插件,通过sftp协议方式进行数据的抽取。支持断点续传功能,支持文件通配。包含的主要功能如下:文件下载;文件完整性校验;文件断点续传;源文件删除等。

进一步,数据采集模块还包括库表数据同步插件支持从多种异构库表数据源采集源数据,经过转换、格式化后,装载到目标数据库表。

上述的数据转换功能,对抽取到的数据文件按照目标接口表的数据规范要求,设定清洗、转换规则,后续将按照规则进行数据的清洗、转换,形成格式化后的文件,同时形成相关的清洗、转换的质量数据。

上述的数据校验功能,利用数据校验插件对数据源上传的数据单元文件进行校验,校验的质量数据保存在管理元数据库中。校验的层级如下:

文件级校验:根据校验文件,对数据文件个数、记录数数进行校验。

记录及校验:基于约定的校验规则,对记录字段的值域进行校验。

指标级校验:基于校验文件,对接口单元的关键业务指标进行校验。

进一步还包括数据装载插件获取转换后的数据文件,按照按照目标格式组装sql,然后批量装载到数据仓库目标表中,同时生成装载过程的质量数据。

数据聚集插件调用过程或函数,完成特定的数据聚集处理过程。聚集是指按照维粒度、指标与计算元的不同,依据实际分析需要对底层数据进行记录行压缩、表联接、属性合并等预处理,是对底层的详细数据进行相应的统计的数据加工形式,包括求和、求平均值等。

聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。汇总的形式多种多样,可以沿着数据仓库中的多维数据的任何一维或多维进行。如果维分层次,聚集还可以在任何一个层次上进行。维的某种组合对应的聚集数据称为一个方体(cuboid),给定维集合的所有方体形成的方体格称为该维集合的数据立方(datacube)。数据立方的建立就是通过聚集实现的。

数据聚集用于提升数据仓库单元进行联机分析处理时的性能,它通过在问题提出之前就准备好答案来缩短查询响应时间,是olap技术能够快速响应的基础,主要体现在以下几个方面:

聚集降低了直接访问基础数据对前端应用的影响

联机分析处理通常需要的是由细节数据导出的汇总数据,直接在海量基础数据上进行查询统计将极大的影响系统效率。通过聚集预先计算出需要的汇总数据,从而避免对基础数据的直接访问。

聚集减少了对基础数据的重复计算

不同的联机分析处理操作可能都需要对同一部分基础数据进行同样的处理。通过聚集预先计算出该汇总数据,从而避免对相关基础数据的重复计算。

使用聚集可以在一定程度上保证数据一致性

一方面,数据仓库单元中的基础数据是不可实时更新的,由这些相对稳定的基础数据导出的聚集反映的是一段时间内的汇总信息。另一方面,数据仓库单元中的数据又是时变的,新的数据将被定期的增加。通过聚集可以在一定程度上保证分析过程访问的数据的一致性,避免因直接使用基础数据而导致先后汇总的数据不一致。

其中,事件数据流数据的采集:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。在数据流模型中,需要处理的输入数据(全部或部分)并不存储在可随机访问的磁盘或内存中,它们以一个或多个“连续数据流”的形式到达。

数据流系统涉及的操作分为有状态和无状态两种,无状态的算子包括union、filter等,有状态的算子包括sort、join、aggregate等。有状态的算子如果执行失败后,其保持的状态会丢失,重放数据流产生的状态和输出不一定和失效前保持一致,而无状态的算子失败后,重放数据流能够构建与之前一致的输出。

数据流计算可以看成是一个个算子(节点)和一条条数据流(边)组成的数据流图。

apachekafka也是一个开源的系统,旨在提供一个统一的,高吞吐、低延迟的分布式消息处理平台来对实时数据进行处理。它最早由linkedin开发,开源于2011年并被贡献给了apache。kafka区别于传统rabbitmq、apacheactivemq等消息系统的地方主要在于:分布式系统特性,易于扩展;为发布和订阅提供高吞吐量;支持多订阅,可以自动平衡消费者;可以将消息持久化到磁盘,可以用于批量消费,例如etl等。

storm是twitter开源的实时数据流计算系统,用clojure函数式语言开发。storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库,这是管理队列及工作者集群的另一种方式。storm借鉴了hadoop的计算模型,hadoop运行的是一个job,而storm运行的是一个topology。job是有生命周期的,而topology是个service,是个不会停止的job。

为了进一步优化优化上述技术方案,所述数据存储模块包括分布式文件单元、分布式数据库、和分布式缓存单元;所述分布式文件单元具有上传、下载通道,并与所述分布式数据库进行数据交互;所述分布式缓存单元与所述分布式数据库连接进行缓存处理。

进一步,数据存储模块采用hadoop+mpp+内存数据库的混合架构,采用分布式方案,用hadoop实现半结构化、非结构化数据处理。用mpp处理高质量的结构化数据,同时为应用提供丰富的sql和事务支持能力。突破了大数据的存储、管理和高效访问关键技术,可以构建pb级存储能力的大数据平台,为用户提供透明的数据管理平台。

分布式文件单元,有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

分布式数据库作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。

分布式缓存单元是一个高性能的key-value内存数据库。它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,分布式缓存单元支持各种不同方式的排序。为了保证效率,数据都是缓存在内存中。区别的是分布式缓存单元会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。分布式缓存单元的出现,在部分场合可以对关系数据库起到很好的补充作用。

通过采用层次化、面向开放共享的技术架构,将性能管理系统的应用与数据解耦,形成稳定、开放的数据共享平台,支撑上层多厂商的应用集成,实现一个数据平台,支撑多样化的内部应用和外部应用,系统具备相关工作开展所需的数据处理和存储能力,并根据数据重要性和时效性分级、分类存储。

数据存储模块具备的特点:

1)数据开放性

为保障数据有效及性能稳定,具备共享接口管理、访问控制、负荷控制等功能,能实现一对多的应用扩展:

共享接口管理功能统一管理数据共享平台的接口,包括查询、订阅、消息交换、数据库等接口。

访问控制管理功能应实现:访问权限的判断、会话管理、访问频率管理、请求队列管理以及安全控制等能力。

2)扩展性

支持平台平滑演进,包括硬件扩容、数据配置、系统管理及软件升级等,以能够适应业务的不断发展和用户规模的扩大。

系统基于x86pcserver硬件,易于水平扩展;

对源与目标数据完全无依赖,兼容各种数据源;

为第三方应用提供hadoop存储与计算资源的申请、调度、管理、监控。

为了进一步优化优化上述技术方案,所述数据计算模块包括:mapreuce单元、数据仓库单元、机器学习与数据挖掘库和规则知识库;所述数据仓库单元将数据文件进行转换并在所述mapreuce单元上运行;所述机器学习与数据挖掘库存储机器学习领域经典算法;所述规则知识库通过规则引擎匹配规则。

进一步数据计算模块,支持并行处理的各种不同的工作流、算法和工具,采用hadoop最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、sql关系查询、交互式即席查询等,实现数据的融合,统计,离线分析,在线分析,数据挖掘等技术。

海量数据的处理与离线分析目前使用hadoop,在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势。hadoop通过mapreuce单元的分布式处理框架,用于处理大规模的数据,伸缩性非常好。

数据仓库单元采用hive,hive是hadoop的一个数据仓库单元,促进了数据汇总、即席查询以及大型数据集分析。

数据挖掘采用mahout,mahout是个可扩展的机器学习和数据挖掘库,mahout支持主要的4种用例:推荐挖掘,聚集,分类,频繁项集挖掘。

规则引擎采用drools,drools规则引擎是一种推理引擎,它是根据已有的事实,从规则知识库中匹配规则,并处理存在冲突的规则,执行最后筛选通过的规则。规则引擎可以将复杂多变的规则从硬编码中解放出来,以规则脚本的形式存放在文件中,使得规则的变更不需要修正代码重启机器就可以立即在线上环境生效。

数据计算模块支持的应用非常广泛,包括流量统计、业务推荐、趋势分析、用户行为分析、数据挖掘、离线分析、在线分析、即席查询等等。

为了进一步优化上述技术方案,本发明数据应用模块采用j2ee和ajax技术,实现基于web界面的应用功能,建立业务逻辑封装业务对象和业务服务,而应用服务就集中实现了这样一种业务逻辑。采用这种做法,在业务对象之外实现业务逻辑,能够减少业务对象之间的耦合。使用应用服务能够把抽象层次更高的业务逻辑封装在一个独立的组件中,有该组件调用底层的业务对象和业务服务。应用层主要功能有:四网协同精准营销支撑,用户行为轨迹提取与场景生产,户外广告精准营销。

为了进一步优化优化上述技术方案,所述平台管控模块包括:集群管理单元、主机管理单元、用户管理单元和集群日志管理单元;所述集群管理单元与所述数据计算模块连接;所述主机管理单元与主机节点进行连接;所述用户管理单元对平台用户进行管理;所述集群日志管理单元分别与所述数据采集模块、所述数据存储模块、所述数据计算模块和所述数据应用模块连接。

平台管控模块实现如下功能:

1)大数据平台的可视化管理

采用clouderamanager来实现管理和配置。clouderamanager是为了便于在集群中进行hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、hadoop、hive、spark等服务的安装配置管理做了极大简化。

clouderamanager提供了可视化的管理界面;

clouderamanager提供集群管理功能;

clouderamanager提供主机管理,应用授权等功能;

clouderamanager提供集群管理用户管理功能;

clouderamanager提供集群日志管理功能;

2)大数据平台配置管理

大数据平台提供了hadoop集群的安装、参数配置、管理功能。

可以提供hdfs、hbase、maprduce、hive、zookeeper等组件的等功能。

支持安装部署操作以向导方式进行,系统管理员只需根据向导的提示进行少量的输入即可完成安装部署任务。

支持主节点的ha自动化部署。

支持300个以上节点的自动化安装部署任务。

提供对系统配置信息进行增加、删除、修改、查找等操作,管理员的每个操作需要在日志中进行记录。

支持对系统节点的动态增加、删除功能;

支持异构服务器的集群配置,支持异构服务器下运算资源的配置调优。

3)大数据平台集群监控

大数据平台支持对通用hadoop系统中各个集群资源的可视化监控及告警,支持对多个集群进行统一监控。要求通过web界面工具,实现hadoop集群多层级多维度的的可视化监控。多层级是指集群级、服务级、节点级、进程级、作业级五个级别。多维度是指cpu占用率、内存容量以及占用量和占用率、磁盘容量或hdfs容量以及占用率、磁盘i/o流量以及占用率、网络带宽以及占用率多个维度。

支持对集群各节点的存储和计算资源进行可视化展现,如机架、网络拓扑图、网段、服务器配置等;

支持对集群各节点资源使用情况进行可视化展现,如数据块数、job的运行数目、节点健康状态,支持周期性健康状况巡检。

支持对各节点的系统服务进行可视化监控,如分布式文件单元、mapreduce、hbase、zookeeper等。

支持对各节点运行的作业状态(成功、失败、取消等)进行可视化监控,并捕获相应的日志信息。

监控内容包括:

主机节点:主机名称、空闲cpu百分比、用户空间占用cpu百分比、用户进程空间、改变过优先级的进程占用cpu百分比、内核空间占用cpu百分比、缓存内存大小、空闲内存大小、共享内存大小、内核缓存的内存总量、交换分区总量、磁盘总大小、剩余磁盘空间、运行的进程总数、进程总数、每分钟的系统平均负载、每5分钟的系统平均负载、每15分钟的系统平均负载、每秒进来的包、每秒出去的包、网络入口带宽速度、网络出口带宽速度。

分布式文件单元:文件系统块总数、总大小、文件总数、剩余量、损坏块、需复制块、jvm线程状态等。

mapreduce:任务运行情况,任务占资源情况等。

hbase:集群、regionserver的请求次数以及regionserverregions数目等。

支持对集群的软硬件故障进行监控与恢复,如节点宕机重启机制、服务进程被异常终止的重启机制。

当故障或异常发生时,在显要位置显示告警信息。

当故障或异常解决后,告警自动从用户界面上解除,并可以在历史信息中检索到告警记录。

4)大数据平台安全管理(权限隔离)

大数据平台支持对系统使用者的权限管理和节点的安全认证。支持按照不同的组织架构、操作权限和数据权限等组合创建角色,实现灵活配置管理。每个用户只能看到起授权应用的执行。用户在对作业进行各种操作之前,应通过统一的认证鉴权服务判断是否具有该操作权限。对分布式文件单元中存储的文件,支持类似于linux的文件与目录安全控制模型。支持对接入hadoop系统的客户端进行接入认证和安全控制,支持网络连接的kerberos安全认证机制。提供对hadoop系统安全访问控制,通过制定安全策略,可以对非法访问进行访问中断。

ssl加密:通过不同的证书策略,可以在集群使用允许ssl客户端安全地连接到服务器,使用可信证书或证书的颁发由受信任的机构。而证书要求的设定取决于对证书的的配置策略。一般的策略有:certificateperhost(一机一证)、certificateformultiplehosts(多机共证)、wildcardcertificate(通配证书)。而ssl必须为所有核心的hadoop服务启用(hdfs,mapreduce,yarn等)。

kerberos认证:kerberos使用needha-schroeder协议作为它的基础。它使用了一个由两个独立的逻辑部分:认证服务器和票据授权服务器组成的"可信赖的第三方",术语称为密钥分发中心(kdc)。kerberos工作在用于证明用户身份的"票据"的基础上。kdc持有一个密钥数据库;每个网络实体——无论是客户还是服务器——共享了一套只有他自己和kdc知道的密钥。密钥的内容用于证明实体的身份。对于两个实体间的通信,kdc产生一个会话密钥,用来加密他们之间的交互信息。

kerberos认证机制使得集群中的节点变为它们所承认并且信赖的节点。它将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证。只有被认证过节点才能正常使用。企图冒充的节点由于没有事先得到的密钥信息,无法与集群内部的节点通信。防止了恶意的使用或篡改hadoop集群的问题,确保了hadoop集群的可靠安全。

sentry服务:sentry是cloudera公司发布的一个hadoop开源组件,是一个hadoop的授权模块,为了对正确的用户和应用程序提供精确的访问级别,sentry提供了细粒度级、基于角色的授权以及多租户的管理模式,通过引进sentry,hadoop目前可在以下方面满足企业和政府用户的rbac(role-basedacesscontrol)需求:

安全授权:sentry可以控制数据访问,并对已通过验证的用户提供数据访问特权。

细粒度访问控制:sentry支持细粒度的hadoop数据和元数据访问控制。

基于角色的管理:sentry通过基于角色的授权简化了管理,你可以轻易将访问同一数据集的不同特权级别授予多个组。例如,对于某特定数据集,你可以分配给反欺诈小组查看所有列的特权,给分析师查看非敏感或非pii(personallyidentifiableinformation)列的权限,给数据接收流插入新数据到hdfs的权限。

多租户管理:sentry允许为委派给不同管理员的不同数据集设置权限。在hive/impala的情况下,sentry可以在数据库/schema级别进行权限管理。

统一平台:sentry为确保数据安全,提供了一个统一平台,使用现有的hadoopkerberos实现安全认证。同时,通过hive或impala访问数据时可以使用同样的sentry协议。未来,sentry协议会被扩展到其它组件。

sentry架构:sentry的授权核心层主要分两部分,结合层(hivebindingsandimpalabindings)和核心授权提供者(policyengineandpolicyabstractions)。结合层提供一个可插拔的接口,实现与协议引擎的对话。policyengine与bingdings合作,对访问请求进行评估检验,如果允许访问,通过policyabstractions来访问底层数据。

集群日志管理模块与所述数据采集模块、所述数据存储模块、所述数据计算模块和所述数据应用模块连接;其中,日志信息包括时间戳、级别、用户、模块信息及日志正文。支持记录和查看系统运行日志和审计日志。支持系统运行日志和用户访问操作日志的记录、查询和展示。支持hdfs、mapreduce、hbase、hive和zookeeper的运行日志的记录和查看。支持系统运行日志分级,包括info、debug,warn、error、fatal等。支持hdfs、mapreduce和hive的系统审计日志的记录和查看。

为了进一步优化优化上述技术方案,还包括数据安全模块;所述数据安全模块包括身份验证和授权单元;所述身份验证和授权单元与用户管理单元连接。

进一步,身份验证和授权是两个核心流程,在尝试与it系统交互时通常涉及这两个流程。这些核心流程可以确保系统面对攻击时的安全性:

身份验证是确认系统项目干系人具有他们声明的身份的过程。在人类世界,项目干系人通常通过提供用户名和密码对来进行身份验证。有一些先进、复杂的机制可用来执行身份验证;这些机制可能包括生物特征身份验证、多因素身份验证等。被验证的对象(人或特定的子系统)通常被称为主体。

授权机制用于确定允许一个主体在系统上执行哪些操作,或者主体可访问哪些资源。授权流程通常在身份验证流程后触发。通常,当主体通过身份验证后,会提供主体的信息来帮助确定该主体能够和不能执行哪些操作。

在整体式应用程序中,身份验证和授权简单而又普通,因为它们由应用程序实际处理;不需要拥有高级机制来提供更安全的用户体验。但是,在具有典型的分布式特征的微服务架构中,必须采用更高级的模式来避免提供凭证的服务调用之间的反复拦截。您希望一次可以验证主体的一个身份。这个身份简化了身份验证和授权流程,利用了自动化功能,并提高了可扩展性。

进一步,还包括:在为微服务架构建立安全策略时,采用了服务间身份验证和授权:

信任边界:使用容器化技术(比如docker)来降低风险。docker提供的许多功能使开发人员能在不同层面灵活地、最大限度地提高微服务和整个应用程序的安全性。在构建服务代码时,开发人员可以自由使用渗透测试工具,对构建周期的任何部分执行压力测试。因为构建docker镜像的源代码已在docker分布组件(docker和dockercompose文件)中明确地以声明形式进行了描述,所以开发人员可以轻松地处理镜像供应链,并在需要时执行安全策略。此外,能够通过将服务放入docker容器中来轻松加固服务,使它们不可变,从而给服务增添强大的安全保障。

进一步,通过采用软件定义基础架构,可以使用脚本语言快速创建和配置私有网络,而且可以在网络级别上执行强大的安全策略。

sso用于微服务架构中的服务之间的内部交互,此方法可使用现有的基础架构,也可简化对服务的访问控制,将所有访问控制操作都集中在一个企业访问目录服务器中。

基于http的哈希运算消息验证码(hmac)

在hmac中,请求内容与一个私钥一起执行哈希运算,将得到的哈希值与请求一起发送。然后,通信的另一端使用它的私钥副本和收到的请求内容来重新创建哈希值。如果哈希值匹配,则允许请求通过。如果请求已被篡改,则哈希值不匹配,另一端就会知道并做出适当的反应。

使用特殊用途服务管理密钥

要消除微服务架构等分布式模型中的凭证管理开销,并从所构建系统的高安全性中获益,一种选择是使用一个综合性密钥管理工具。此工具允许存储、动态地租用、更新和撤销密钥(例如密码、api密钥和证书)。由于微服务中规定的自动化原则,这些操作在微服务中非常重要。

需要了解的是:尽管从理论上讲,不存在无法攻破的数据加密方法,但仍然存在一些成熟的、经过检验的、常用的机制(比如aes-128或aes-256等)。在进行安全考虑时使用这些机制,而不是在内部创建自己的方法。另外,及时更新和修补用于实现这些机制的库。

密钥管理工具:首要做法是不将密钥和数据存储在同一个位置。不要让密钥管理复杂性违背微服务架构的灵活性原则。尝试使用具有微服务设计思路的综合性工具,这种工具不会破坏您的连续集成和连续交付管道。

针对业务需求来调整安全策略:根据业务需求来制定安全策略,并不断调整策略,因为战略目标可能不断改变,解决方案中包含的技术也是如此。

大数据安全保障体系的建立

1.安全体系架构

安全保障体系包括安全防护体系和安全管理体系两大部分。其中安全防护体系包括:网络安全、系统安全、应用安全和数据安全;安全管理体系包括安全策略管理规范、安全组织模型、安全规章制度。

2.安全防护体系

网络安全防护体系主要是提供了数据应用接入方式所必须的网络安全防护手段,部分应用可采用虛拟专网(vpn)的技术手段,保障共享交换数据的安全可靠传输。网络层安全保护平台的关键应用和加密数据;增强数据传输效率,并支持迅速创建新的安全应用环境来满足新的应用流程需求。主要包括边界防护、区域防护、节点防护和网络高可用四大子功能。

系统运行安全体系主要是系统运行安全、系统信息安全设计、信任服务体系、权限管理设计,从各个层次来保证系统的安全性。

数据安全体系主要是通过数据安全加密传输(vpn)、数据交换过程的安全保障、数据交换接口安全设计和数据审计与防护四大功能实现数据交换的安全。

3.安全管理体系

安全保障体系建设中,仅仅靠技术手段难以防范所有的安全隐患,还需要建立相应的安全管理体系。安全管理是整个安全建设的核心环节。一个有效的安全组织会在安全策略的指导下,在安全技术和安全产品的保障下,保证日常的安全保障工作简明高效。

安全管理体系主要包括:安全策略、安全组织和安全制度。为了加强对客户网络的安全管理,确保重点设施的安全,应该加强安全管理体系的建设。

本发明涉及一种应用于智慧园区的大数据平台,主要关键点在于项目整体的技术架构采用hadoop+mpp+内存数据库的混合模式,同时采用storm技术支持实时数据的采集和计算,实现高并发、可伸缩、高性能的大数据系统。支持数据库,消息,文件等多种方式的数据共享和处理能力。同时支持mapreduce运算,sql运算,流计算以及内存计算。使用规则引擎降低实现复杂业务逻辑的组件的复杂性,增加营销场景配置的灵活性,降低应用程序的维护成本,增强程序的可扩展性。本方案具有良好的扩展性,在将来可以通过水平扩展的方式增强集群的处理能力,满足业务发展的需要。

采用大数据技术hadoop和分布式架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索都可以在近乎实时的情况下完成,能够快速实时搜索数十亿的文件以及pb级的数据,同时提供了全方面的选项,可以对该引擎的几乎每个方面进行定制。

通过mapreduce技术,并行执行数据采集任务,将抓取到的数据进行初步整理后,提交给数据存储层,然后通过数据处理层进行结构化信息提取之后,供数据挖掘分析使用。

采用分布式数据库来存储网页的原始内容,分布式数据库架构在hadoop+hbase之上,实现在线实时随机读写架构。具有极强的水平伸缩性,支持数十亿的行和数百万的列,支持实时获取数据。

平台运行在普通商业硬件构成的集群上,采用分布式架构,能扩展到成千上万台机器,具有容错机制,部分机器节点发生故障不会造成数据丢失也不会导致计算任务失败。不但有高可用性,当节点发生故障时能迅速进行故障转移,而且具有高伸缩性,只需要简单地增加机器就能水平扩展、提升数据、存储容量和计算速度。

同时在大数据平台的安全保障体系中通过技术安全体系防护和线下人员安全防护,两者结合,突破原本只有技术安全防护而存在的安全隐患问题,为应用于智慧园区的大数据平台提供更高的安全保障。安全保障体系包括安全防护体系和安全管理体系两大部分。安全防护体系主要是通过技术实现安全保障,包括:网络安全、系统安全、应用安全和数据安全;安全管理体系主要是在领导人的带领下成立安全组织会,制定安全防护制度,实现大数据平台的数据安全,包括安全策略管理规范、安全组织模型、安全规章制度。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1