基于北斗扫描的天地一体频谱大数据平台的制作方法

文档序号:16880772发布日期:2019-02-15 22:07阅读:529来源:国知局
本发明属于大数据处理与分析
技术领域
:,具体涉及一种基于北斗扫描的天地一体频谱大数据平台。
背景技术
::随着5g时代的到来,电磁频谱作为一种重要的国家战略资源越发受到关注。从民用角度看,运营商用频策略和用户使用体验都和频谱资源息息相关,而从军用角度看,电磁频谱空间称为第六作战空间,此领域的研究关乎国家信息化发展战略和信息化战争优势的确立。近年来,电磁频谱领域面临着严峻的挑战:电磁频谱资源日益紧缺;电磁频谱资源的需求与资源之间的矛盾与日俱增,传统无线业务独占频谱导致频谱资源利用率低,而新兴无线业务如5g、物联网等更是加剧了频谱赤字。预计在未来十年,移动流量将增加1000倍,为了满足巨大的流量增长,下一代移动网络预计与当前无线网络部署相比需要实现1000倍的容量增长。然而,现阶段的频谱分配仍处于传统的静态分配,无线通信技术的发展受到极大的限制,通信总体性能、运营商的网络能力和移动终端的用户体验随之受限,影响信息产业的进一步发展。电磁频谱管控遇到严峻挑战;用频活动增多,电磁环境日益复杂,伪基站、窃听器、干扰机等非法用频电台严重扰乱频谱使用秩序,继而影响到赛博空间的安全问题,电磁频谱秩序管理与安全已成为国家和社会安全稳定的重大课题。电磁频谱战对抗愈演愈烈;世界上一些军事强国普遍认为电磁频谱是唯一能支持机动作战、分散作战和高强度作战的重要媒体,是一种无形的新型战斗力。为此,对频谱分析预测,加强频谱管理可保证战斗力的全面提升,保证信息化战争的胜利。在此背景下,提出合理的电磁频谱管控决策的基础和前提是了解复杂的电磁环境,对电磁频谱的时间、空间、频率多维度态势有直观的印象,并且能够预知某一时刻的频谱状态,从而做出较优的频谱管理决策。针对以上挑战,可以看出对频谱大数据挖掘在民用、商用、军用领域都有着广阔的应用前景,频谱大数据的挖掘与可视化也日益受到国内外研究机构得重视。技术实现要素:针对于上述现有技术的不足,本发明的目的在于提供一种基于北斗扫描的天地一体频谱大数据平台,其能够帮助用户解决频谱数据的净化、补全、挖掘、分析以及可视化的问题。为达到上述目的,本发明采用的技术方案如下:本发明的一种基于北斗扫描的天地一体频谱大数据平台,包括:频谱态势生成模块,对卫星采集的大规模全球频谱数据进行多频段多时域的态势分析,通过对频谱数据进行态势生成处理,实现对于多维频谱数据的整合和呈现;频谱态势预测分析模块,对上述生成的全球频谱态势进行预测分析,及时准确地观测当前频谱状态和预测频谱状态的变化趋势;基于地理信息系统进行可视化数据分析与预测平台构建,应用云计算的大数据存储和分析系统,针对频谱数据实际情况给出大数据级解决方案。进一步地,所述对卫星采集的大规模全球频谱数据进行多频段多时域的态势分析具体包括:建立卫星运行轨道计算模型、进行网格化分割,并计算每一网格相应的能量值,根据不同维度数据特点,形成多种呈现方式。进一步地,所述建立卫星运行轨道计算模型具体包括:将卫星经纬度转化为卫星的xyz坐标形式;然后,利用卫星的xyz坐标计算其星下点xyz坐标,形成星下点轨迹;其中,星下点是卫星在地面的投影点,即卫星和地心连线与地面的交点,卫星运动与地球自转使星下点在地球表面移动,生成星下点轨迹;最后,将星下点xyz坐标转化为星下点的经纬度;1)卫星经纬度信息转化xyz坐标:设其长半径为a,短半径为b,椭球的第一偏心率为e2,其计算过程如下:x=(n+h)×cos(lat)×cos(lom)y=(n+h)×cos(lat)×sin(lon)z=(n×(1-e2)+h)×sin(lat)其中,lon为卫星的经度,lat为卫星的纬度,h为卫星所在高度,x、y、z分别为卫星转化后的坐标;2)卫星xyz坐标计算星下点经纬度:利用卫星的xyz坐标计算星下点的经纬度,计算过程如下:其中,lonp、latp分别为星下点的经纬度坐标。进一步地,所述网格化分割具体包括:根据经纬度对全球区域进行网格化划分,形成不同分辨率。进一步地,所述网格能量值计算具体包括:将这一时刻扫描区域zone(n)与上一时刻zone(n-1)扫描区域进行对比,其中网格为xij,当xij∈zone(n-1)且则视为该网格移出;移出网格的能量值为:其中,fij为网格xij的能量值,nn-1为zone(n-1)区域中总覆盖格数,fn-1为覆盖zone(n-1)区域时原始数据中的能量值。进一步地,所述对全球频谱态势进行预测分析具体包括:应用基于张量补全的多维频谱预测(multipledimensionalspectrumpredictionbasedontensorcompletion,mdsp-tc)算法实现对缺失数据的补全,并且利用频谱数据之间的相关性,根据已知的频谱数据样本推测未知的频谱数据,由稀疏样本推演完整的频谱态势。进一步地,所述对全球频谱态势进行预测分析具体包括:将采集的历史频谱状态数据按频率维度、测量时隙维度、监测日维度建模成三阶的频谱张量后,张量中已有部分未知的元素,置为“0”;同时,将要预测的元素以“0”代替并加入现有张量中,而后对张量补全的过程即同时完成了卫星频谱数据的补全和预测。进一步地,所述基于地理信息系统进行可视化数据分析与预测平台构建具体包括:海量文件存储子系统、分布式并行计算子系统、海量高并发实务处理子系统,大数据查询子系统,数据生成子系统;通过将服务器集群利用高速网络进行互联;给出海量数据划分和分布存储方法;并行计算表达框架、调度策略、负载均衡和容错机制;具有高吞吐率、高并发、横向扩展能力的事务处理系统;面向大数据的领域查询语言和优化算法和支持日常数据生产的etl调度子系统,最终构建大数据存储、分析和挖掘的一体化平台。本发明的有益效果:1、本发明依托于底层的存储服务和计算服务,建立数据查询系统用于数据分析,海量事务系统用于线上数据服务,利用数据生产运维工具链驱动从数据分析向数据应用流动的一整套数据生产系统,最终服务于生长在数据平台上的一系列应用。2、本发明采用mdsp-tc补全预测算法,解决了在频谱数据采集阶段,因受限于节点的空间部署、监测频段以及时间粒度等因素,收集到的往往是不完备的频谱数据的问题,实现了对缺失数据的补全。并且利用频谱数据之间的相关性,根据已知的频谱数据样本推测未知的频谱数据,由稀疏样本推演完整的频谱态势。3、本发明对于海量小文件问题,给出一种基于用户元数据空间的技术,将系统中的小文件存储合并为大文件存储。4、本发明对于单namenode性能瓶颈和单点失败问题,给出了一种多namenode技术方案,在故障节点检测机制的基础上提出了节点信任模型,对集群中数据节点的安全性和可靠性进行评价,增强存储系统可生存性。5、本发明针对mapreduce框架io频繁不适合迭代运算的问题,通过分布式mpi和bsp并行计算框架,能够更高效地支持数据挖掘算法及图算法需求。附图说明图1是本发明的一个平台的总体架构图;图2是某日1340mhz-1360mhz频段的二维频谱态势仿真图;图3是基于北斗扫描的全球频谱大数据分析的三维热力图;图4a是2030-2070mhz频带的原始数据可视化图;图4b是补全后的数据可视化图;图4c是预测效果图;图5是平台的软件系统架构图。具体实施方式为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。参照图1所示,本发明的一种基于北斗扫描的天地一体频谱大数据平台,包括:频谱态势生成模块,对卫星采集的大规模全球频谱数据进行多频段多时域的态势分析,通过对频谱数据进行态势生成处理,实现对于多维频谱数据的整合和呈现;频谱态势预测分析模块,对上述生成的全球频谱态势进行预测分析,及时准确地观测当前频谱状态和预测频谱状态的变化趋势;通过对频谱态势研究,挖掘其不同维度间的相关性,更有针对性地的实现频谱预测;基于地理信息系统进行可视化数据分析与预测平台构建,应用云计算的大数据存储和分析系统,进行大数据的存储、分析和挖掘,针对频谱数据实际情况给出大数据级的解决方案。1、对卫星采集的大规模全球频谱数据进行多频段多时域的态势分析具体包括:频谱态势生成技术,需要根据数据的实际采集场景情况而定,不同的数据采集场景,需要进行不同的数据转化。由于原始数据中只含有卫星的运行轨迹,并未将卫星位置与其对应的地面经纬度形成对应关系,所以需要进行卫星轨迹与星下点位置的转换,并计算出单次扫描的覆盖范围。其中,建立卫星运行轨道计算模型具体包括:将卫星经纬度转化为卫星的xyz坐标形式;然后,利用卫星的xyz坐标计算其星下点xyz坐标,形成星下点轨迹;其中,星下点是卫星在地面的投影点,即卫星和地心连线与地面的交点,卫星运动与地球自转使星下点在地球表面移动,生成星下点轨迹;最后,将星下点xyz坐标转化为星下点的经纬度;1)卫星经纬度信息转化xyz坐标:由于地球是个椭圆体,设其长半径为a,短半径为b,椭球的第一偏心率为e2,其计算过程如下:x=(n+h)×cos(lat)×cos(lom)y=(n+h)×cos(lat)×sin(lon)z=(n×(1-e2)+h)×sin(lat)其中,lon为卫星的经度,lat为卫星的纬度,h为卫星所在高度,x、y、z分别为卫星转化后的坐标;2)卫星xyz坐标计算星下点经纬度:利用卫星的xyz坐标计算星下点的经纬度,计算过程如下:其中,lonp、latp分别为星下点的经纬度坐标。由于数据缺失严重,无法完整获得卫星的轨道信息。为解决此问题,我们利用stk(satelitetoolkit,卫星工具箱)这款航天工业领域最为领先的商业化分析软件,通过卫星的参数信息仿真出完整的卫星轨道信息。2)网格化分割并计算网格能量值网格化分割与采样分割:为了解当前检测环境的电磁辐射情况,我们需要根据经纬度对全球区域进行网格化划分,形成不同分辨率。网格能量值计算:将这一时刻扫描区域zone(n)与上一时刻zone(n-1)扫描区域进行对比,其中网格为xij,当xij∈zone(n-1)且则视为该网格移出。移出网格的能量值为:其中,fij为网格xij的能量值,nn-1为zone(n-1)区域中总覆盖格数,fn-1为覆盖zone(n-1)区域时原始数据中的能量值。如图2所示,以一天的卫星采集数据为例,将全球分为100*100的网格,计算网格能量值,横纵坐标表示经纬度,颜色区分能量值高低。3)呈现方式:由于频谱作为一种看不见,摸不着的资源,很难形成直观的感受,通过对频谱数据进行态势生成处理,可以实现对于多维频谱数据的整合和呈现,可以从地理位置,频率,时间,能量等多维度了解频谱数据,使客户可以直接视觉查看频谱状态信息,例如哪些频段被占用,哪些时段有空闲频段,指定频段的覆盖范围有多大等等。目前,已有的呈现方式有很多种,如热力图、等值线图、瀑布图、柱状图等等。如图3所示,本发明的平台结合地理信息系统以热力图形式对全球频谱态势进行直观呈现。2、对全球频谱态势进行预测分析具体包括:采集的历史频谱状态数据本身存在较多的缺失,将其按频率维度、测量时隙维度、监测日维度建模成三阶的频谱张量后,张量中已有部分未知的元素,置为“0”;同时,将要预测的元素以“0”代替并加入现有张量中,而后对张量补全的过程即同时完成了卫星频谱数据的补全和预测。现有的预测算法大多数只能完成逐时隙的未来频谱状态预测,尚无法满足在限定的时间内处理历史数据并同时预测出未来一天的频谱演化状态的需求。因此,本发明中预测算法借鉴图像推理的思想,将完整一天中各频点状态的演化情况看作一张“图片”,基于多张历史“图片”运用张量补全的技术完成对未来一天频谱状态的预测,即multipledimensionalspectrumpredictionbasedontensorcompletion(mdsp-tc)算法;具体的补全预测算法如下表1:表1其中,预填充操作用函数pref(.)表示,可以被预填充的元素有以下筛选标准:card(φ)≥8;即某一频点某一时刻存在有效监测值的天数必须超过8天,且所有有效监测值的标准差必须小于门限μ(浮动较小),则将有效监测值的平均数作为该频点该时刻在待预测日的状态值。图4a是某一天2030-2070mhz频带的原始数据可视化情况,黑色部分为缺失的数据。图4b是该天该频带补全后的数据可视化情况。(两图的图例色卡完全一致)。将前面的历史数据都补全之后预测后面几天的频谱数据,图4c用连续15天2030-2070mhz的数据预测出第16天的效果,rmse为0.4984(不包含缺失数据的预测)。3、基于地理信息系统进行可视化数据分析与预测平台构建,我们首先设计了频谱大数据可视化平台的软件系统架构,如图5所示。包括:海量文件存储子系统、分布式并行计算子系统、海量高并发实务处理子系统,大数据查询子系统,数据生成子系统。通过将服务器集群利用高速网络进行互联;给出海量数据划分和分布存储方法;并行计算表达框架、调度策略、负载均衡和容错机制;具有高吞吐率、高并发、横向扩展能力的事务处理系统;面向大数据的领域查询语言和优化算法和支持日常数据生产的etl调度子系统,最终构建大数据存储、分析和挖掘的一体化平台。平台子系统搭建体系结构的最下层是云的资源池,将现有的各种同构或异构的资源进行整合并为上层提供各种资源,包括与存储资源、计算资源及网络资源相关的各种基础设施。资源统一层利用虚拟化技术将基础设施层提供的资源进行抽象和封装,使得上层和终端用户得到集成、统一的资源。clouddb由服务器、机架、交换机、路由器、存储(可选)等基础硬件通过网络连接而成。各服务器上安装clouddb软件,其中一台服务器为管理服务器,为系统管理员提供web方式的访问接口,用于一站式安装、升级、管理、配置和监控整个大数据系统。clouddb由如下四个子系统组成:海量文件存储子系统:该系统需完成的任务包括文件划分算法,文件块副本管理策略,基于checksum的文件完整性检测,海量小文件存储机制,文件访问自动负载均衡和不停机扩容。海量文件存储子系统采用master/slave模式,集群是由一个namenode和多个datanode组成。namenode作为海量文件存储子系统的中心服务器,主要具备如下作用:a.管理大数据中心中文件系统的名字空间(namespace),例如打开文件系统、关闭文件系统、重命名文件或者目录等;另外,对任何请求对文件系统名字空间或者属性进行修改的操作,均存储于namenode。b.管理客户端对集群中的文件系统中的文件的访问。文件以块的形式存储在datanode上,文件系统客户端向namenode请求所要执行操作的文件块(该块存储在指定的dadanode数据结点上),然后通过与datanode结点交互来完成文件读写的操作。c.管理datanode结点的状态报告,包括datanode结点的健康状态报告和其所在结点上数据块状态报告,以便能够及时处理失效的数据结点。datanode数据结点进程的任务是:(1)负责管理其所在结点上存储的数据的读写。一般是文件系统客户端需要请求对指定数据结点进行读写操作,datanode作为数据结点的服务进程来与文件系统客户端打交道。同时,是否需要执行对文件块的创建、删除、复制等操作,datanode数据结点进程还要在namenode的统一指挥调度下完成,当与namenode交互过程中收到了可以执行文件块的创建、删除或复制操作的命令后,才开始让文件系统客户端执行指定的操作。(2)向namenode结点报告状态。每个datanode结点会周期性地向namenode发送心跳信号和文件块状态报告。如果存在datanode结点失效的情况时,namenode会调度其它datanode执行失效结点上文件块的复制处理,保证文件块的副本数达到规定数量。(3)执行数据的流水线复制。当文件系统客户端从namenode服务器进程获取到要进行复制的数据块列表(列表中包含指定副本的存放位置,亦即某个datanode结点)后,会首先将客户端缓存的文件块复制到第一个datanode结点上,此时并非整个块都复制到第一个datanode完成以后才复制到第二个datanode结点上,而是由第一个datanode向第二个datanode结点复制,……,如此下去完成文件块及其块副本的流水线复制。分布式并行计算子系统需完成的任务包括抽象调度单元,集群资源管配,负载均衡算法,作业执行时间预测,优先级调度策略,各角色各时段的失败重试机制,实现mapreduce,mpi和bsp等多种并行计算框架。大数据并行处理子系统采用mapreduce并行处理框架,该框架由一个单独的masterjobtracker和若干个workertasktracker共同组成。master负责调度构成一个作业的所有任务,这些任务分布在不同的worker上,master监控它们的执行,重新执行已经失败的任务。而worker仅负责执行由master指派的任务。基于mapreduce的应用程序能够运行在由上千个普通服务器组成的大型数据中心中,并以一种可靠容错的方式并行处理上t级别的数据集。一个mapreduce作业(job)将输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式进行处理。框架对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在海量文件存储子系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。通常,mapreduce框架和分布式文件系统运行在一组相同的节点上,计算节点和存储节点通常在一起。该配置允许框架在已存储待处理数据的节点上高效地调度任务,使得整个集群的网络带宽被高效地利用。海量高并发实务处理子系统需完成的任务包括设计并实现基于key-value的统一服务接口、海量事务锁机制、事务并发处理方法、面向事务处理的数据切分和面向事务处理的数据压缩算法。海量高并发实务处理子系统的客户端使用rpc机制与管理节点(master)和数据节点(regionserver)进行通信,对于管理类操作,client与master进行rpc通信;对于数据读写类操作,client与regionserver进行rpc通信。zookeeper作为集群协调工具,在其中存储master的地址,regionserver将自己注册到zookeeper中,使得master可以随时感知到各个regionserver的健康状态。此外,zookeeper也避免了hmaster的单点问题。由于在海量高并发实务处理子系统中可以启动多个master,通过zookeeper的master选择机制保证总有有效个master运行,因此海量高并发实务处理子系统的master没有单点问题。master在功能上主要负责table和region的管理工作:a.管理用户对table的增、删、改、查操作;b.管理regionserver的负载均衡,调整region分布;c.在region容量溢出后,负责新region的分配;d.在regionserver停机后,负责失效regionserver上的regions迁移。regionserver主要负责响应用户i/o请求,向海量文件子系统中读写数据。regionserver内部管理了一系列region对象,每个region对应了table中的一个region,region中由多个hstore组成。每个hstore对应了table中的一个列族columnfamily的存储,可以看出每个columnfamily其实就是一个集中的存储单元,因此,为保证高效,最好将相同属性的column放在一个columnfamily中。hstore存储是海量高并发实务处理子系统存储的核心,其中由两部分组成,一部分是内存存储区域(称为memstore),另一部分是存储在海量文件子系统上的文件(称为storefiles)。memstore是排序内存缓冲区(sortedmemorybuffer),用户写入的数据首先会放入memstore,当memstore满了以后会flush成一个storefile,当storefile文件数量增长到一定阈值,会触发合并操作,将多个storefiles合并成一个storefile,合并过程中会进行版本合并和数据删除。大数据查询子系统需完成的任务包括设计并实现sql词法语法解析、查询计划生成、查询代价估计、生成分布式执行逻辑、元数据管理、大数据行列混合存储策略和序列化框架、索引机制、自定义类型和函数框架。大数据查询子系统主要分为以下几个部分:a.用户接口,包括cli,client,wui。b.元数据存储,可存储在关系数据库如mysql,derby中。c.解释器、编译器、优化器、执行器。用户接口主要有三个:cli,client和wui。其中最常用的是cli,cli启动的时候,会同时启动一个hive副本。client是hive的客户端,用户连接至hiveserver。在启动client模式的时候,需要指出hiveserver所在节点,并且在该节点启动hiveserver。wui是通过浏览器访问hive。hive将元数据存储在数据库中,如mysql、derby;hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在口录等。hive的数据都是存储在海量文件子系统中。解释器、编译器、优化器完成sql查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在海量文件子系统中,并在随后有mapredue调用执行。本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1