1.一种时空流数据集成平台,其特征在于,包括:
数据传输模块,以分布式消息中间件为基础,建立控制和管理功能,供用户建立“数据源-连接器-消息中间件-连接器-数据目的地”之间的传输通道;
用户管理模块,用于注册和审核用户、管理历史操作日志,以及为用户分配权限;
任务管理模块,提供任务的新建、控制和通知功能;任务是指通过数据传输模块建立的传输通道执行和完成一次数据传输的过程;
运维监控模块,通过可视化运维看板管控所有数据传输过程和进展情况,提供多样化的图表;
实时计算模块,结合流式处理的分布式计算中间件,以api接口方式提供针对时空流数据的过滤、聚合、汇总实时计算;
数据清洗模块,提供自动化的纠正和转换方法,处理存在的无效数据、重复数据、异常数据。
2.如权利要求1所述的时空流数据集成平台,其特征在于,
用户管理模块通过系统界面接收请求,进行权限验证后将权限转发给任务管理模块、实时计算模块、运维监控模块和数据传输模块;
实时计算模块通过消息中间件提供的调用接口输出数据进行处理、运维监控模块通过消息中间件提供的接口读取日志和运行状态,处理后进行呈现;
任务管理模块通过进程调用消息中间件的控制接口,实现任务管理;
数据传输模块通过接口调用实现连接器和消息中间件的参数配置。
3.如权利要求1所述的时空流数据集成平台,其特征在于,
数据传输模块具体包括:
节点管理单元,用于新增、配置、修改和检测物理节点;
连接器管理单元,提供多个连接器的新建、配置、控制;显示正在运行的连接器列表和状态,实现连接器启动、暂停、停止和恢复,设置定时信息,包括执行频率和执行时间;
传输管理单元,用于通过可视化界面和拖拽方式实现数据源和数据目的地的传输管道,传输管理包含如下内容:连接配置、错误提示、内容管理。
4.如权利要求1所述的时空流数据集成平台,其特征在于,
用户管理模块包括:
用户与用户组单元:提供用户注册、审核、登录和个人信息管理功能,提供创建和管理用户组功能,并将用户进行分组管理;
权限管理单元,用于添加和删除用户权限;组权限允许特定组中的每个用户具有指定的权限;支持为用户和用户组设置以下权限:
管理权限;
读权限,可以查看任务信息和执行情况和日志信息;
写权限,可以新建连接器和任务;
执行权限,可以运行、暂定、恢复、取消任务;
调用权限,可以调用实时计算api,以调用实时计算模块中的各计算单元;
用户日志单元,记录并能够呈现用户登录、创建、执行任务的日志信息。
5.如权利要求1所述的时空流数据集成平台,其特征在于,
任务管理模块包括:
任务与任务组单元,提供任务和任务组的新建和编辑功能;供用户新建和删除任务,编写任务描述信息,说明任务或者任务组的意图,授予用户组管理任务的权限,或将任务分配至任务组中;
任务中心单元,呈现任务概览信息和运行状态,监控任务的执行情况,可视化管理数据传输过程,查看与任务相关的操作通知信息;
任务控制单元,用于进行,
任务取消:终止正在运行的任务并立即使任务失败;
任务暂停:阻止新任务或者连接器的运行,目前正在运行的任务、连接器照常进行;
任务恢复:恢复暂停执行;
任务重试:当任务仍处于活动状态时,重试将重新启动所有失败作业;
准备执行:设置任务运行的时间;
事件通知单元,在任务出现变更或执行过程中出现重大情况时,通知与任务相关的用户;每个任务均可设置如下通知项:任务变更、任务开始、任务失败、任务完成。
6.如权利要求1所述的时空流数据集成平台,其特征在于,
运维监控模块,包括:
集群概况监控单元:进行包括主题数量、broker节点数量和地址、监控分区数量、leader数量监控项目;
节点负载监控单元:进行包括数据流入/流出速度、cpu占用率、网络流入/流出速度、磁盘读写速度、io等待情况、磁盘占有率、内存使用率监控项目;
数据传输监控单元:进行包括数据流入/流出总数、数据流入/流出速度、平均速度、1分钟或多分钟均速监控项目;
错误事件管理单元:实时收集所有的数据相关错误,以错误概览和详情方式呈现。
7.如权利要求1所述的时空流数据集成平台,其特征在于,
实时计算模块包括:
多维度组合过滤单元,根据给定的不同时间、空间维度的条件,查找符合条件的时空流数据;
交互级聚合查询单元,提供时空流数据的聚合方法;
预聚合单元,对实时写入后的时空流数据经过预聚合的运算,生成按指定规则的结果;
自动汇总单元,不同时间层面上把相同维度的数据做聚合,转换为更粗时间粒度的数据,但是还是拥有相同的维度。
8.如权利要求1所述的时空流数据集成平台,其特征在于,
清洗任务管理单元,主要负责对清洗任务的各个过程进行管理,包括任务控制、任务生成、任务列表;
异常数据刪除单元,主要负责,检测明显偏离所属样本的其余观测值的数据并对其值进行修正,利用拟合曲线或者聚类结果对异常数据进行处理;
无用数据删除,主要针对对于后续数据挖掘不存在意义的数据进行删除;
缺失数据填补单元,主要针对在数据采集、传输和存储过程中,由于疏忽或者设备故障原因造成的值空缺的数据,负责用指定参数填补缺失,利用拟合曲线、平均值填补记录中的缺失值;
拟合曲线生成单元,主要负责根据数据曲线找到相似曲线,通过加权进行空缺填补和异常完善,生成拟合曲线;
清洗结果对比单元,主要负责对比清洗前和清洗后的文件,计算清洗操作对文件的影响,即清洗前后数据的变化情况。