一种基于计算机的大数据分析控制系统及控制方法与流程

文档序号:13422390阅读:286来源:国知局
一种基于计算机的大数据分析控制系统及控制方法与流程

本发明属于大数据分析领域,尤其涉及一种基于计算机的大数据分析控制系统及控制方法。



背景技术:

随着我国经济社会信息化和自动化水平不断提高,在政府管理、公共服务、科学研究、商业应用等许多领域也而临大数据问题,亚需各种有针对性和经济有效的解决方案,快速提升我国在大数据领域的整体实力和国际竞争力。大数据时代来临,工业界是技术争霸的主战场。全球大数据产业界针对大数据特有的海量、非结构化、关系复杂、动态时变等特性以及不断涌现的各种新型应用需求,围绕海量复杂数据的存储、管理、整合、处理、分析、展现、应用等主要环节,已经形成了新的大数据产业体系。

综上所述,现有技术存在的问题是:大数据存储的海量的数据,数据的安全性存在风险,安全性不能满足需求。



技术实现要素:

针对现有技术存在的问题,本发明提供了基于计算机的大数据分析控制系统及控制方法,

本发明是这样实现的,一种基于计算机的大数据分析控制系统,所述基于计算机的大数据分析控制系统包括:数据采集模块,数据计算模块,数据存储模块,数据提取与分析模块,数据服务模块;

数据采集模块:通过rfid射频数据,传感器数据,社交网络数据,移动互联网数据等方式获得各种类型的结构化,半结构化及非结构化的海量数据;

所述数据采集模块利用regress函数作多元线性回归分析方法包括:

对于自变量x1,x2,x3…xp和因变量y的n次独立观测,y关于x1,x2,x3…xp的p重广义线性回归模型公式:

数据计算模块:用于批量计算首先进行数据的存储,然后再对存储的静态数据进行集中计算;

所述数据计算模块的数据聚合方法的步骤如下:

步骤一,在面积为s=ll的部署区域内,随机分布n个同构的无线传感器节点,sink节点位于部署区域之外,节点处理整个无线传感器网络内收集到的数据;

步骤二,非均匀成簇

sink节点位于部署区域的上方;首先部署区域x轴划分为s个泳道,所有泳道有相同的宽度w,并且每个泳道的长度与部署区域的长度相等;用从1到s作为泳道的id,最左端的泳道的id为1,然后每个泳道沿着y轴划分为多个矩形网格,每个泳道中的每个网格都被定义一个水平,最下端的网格的水平为1,每个网格和每个泳道有相同的宽度w;每个泳道中网格的个数、长度与泳道到sink的距离有关;通过设置网格的长度来调整网格的大小;针对不同的泳道,距离sink越远的泳道含有的网格数目越小;针对同一泳道,距离sink越远的网格的长度越大;假设a中含有s个元素,第k个元素表示在第k个泳道中网格的数目;每个网格用一个数组(i,j)作为id,表示第i个泳道有水平j;定义s个数组表示网格的长度,第v个数组hv表示第v个泳道中网格的长度,并且hv的第w个元素hvw表示网格(v,w)的长度;网格(i,j)的边界为:

o_x+(i-1)×w<x≤o_x+i×w

非均匀网格划分好之后进行成簇阶段;算法分为很多轮进行,在每轮中选取每个网格中剩余能量最大的节点作为簇首节点,其余节点根据就近原则加入簇,然后再进行数据聚合;

步骤三,格拉布斯预处理

传感器节点需要对收集的数据进行预处理,然后再向簇首节点传输数据;采用格拉布斯预准则对传感器节点所采集到的数据进行预处理假设某个簇首节点含有个传感器节点,传感器节点收集到的数据为x1,x2,…,xn,服从正态分布,并设:

根据顺序统计原理,计算格拉布斯统计量:

给定显著性水平(α=0.05)之后,测量值满足gi≤g0(n,α),则认为测量值有效,测量值参与到下一层次的数据聚合;反之,则认为测量值无效,因此需要剔除,即不参与到下一层次的数据聚合;

步骤四,自适应聚合算法

通过迭代得到各个节点测量数据的无偏估计值,求取各个传感器节点的测量数据值与估计值之间的欧式距离,以归一化的欧式距离作为自适应加权融和的权值;选用簇中的传感器节点采集到的数据的最大值与最小值的平均值作为中心数据;

某个簇中有个传感器节点,用维列向量d=(d1,d2,…,dn)表示相应节点的测量值,通过计算各个节点数据与中心数据的欧式距离反应不同节点数据与中心数据之间的偏差大小,其中li的计算公式为:

根据欧式距离自适应设定相应的权值大小,距离越大权值越小,距离越小权值越大;

其中wi为相应的权值;

数据存储模块:通过列存储、粗粒度索引多项大数据处理技术,再结合mpp架构高效的分布式计算模式,完成对分析类应用的支撑;

数据提取与分析模块:用于进行数据提取转化加载;

数据服务模块:通过web应用服务器和openapi服务器以web调用和openapi调用的方式提供大数据存储、管理及挖掘服务;终端用户利用移动智能终端通过互联网访问门户服务中心,使用提供的大数据存储、管理及挖掘服务;

所述终端的极限容量计算方法如下:

利用laguerre多项式计算得到:

其中,m=min(nt,nr);

n=max(nt,nr);

为次数为k的laguerre多项式;

如果令λ=n/m,推导出如下归一化后的信道容量表示式;

其中,

在快速瑞利衰落的情况下,令m=n=nt=nr,则v1=0,v2=4;

渐进信道容量为:

利用不等式:

log2(1+x)≥log2(x);

简化为:

本发明的另一目的在于提供一种所述基于计算机的大数据分析控制系统的控制方法,所述控制方法包括以下步骤:

步骤一:采集数据源;

步骤二:对需求数据信息进行提取与深度检测分析;

步骤三:对获取需求信息数据进行存储;

步骤四:提供数据服务;

通过web应用服务器和openapi服务器以web调用和openapi调用的方式提供大数据存储、管理及挖掘服务;终端用户利用移动智能终端通过互联网访问门户服务中心,使用其提供的大数据存储、管理及挖掘服务。

进一步,所述对需求数据信息进行提取与深度检测分析方法包括以下步骤:

第一步,、获取应用对信息的需求;

第二步、将应用的信息需求转换为网络数据收集的策略;

第三步、根据上述策略从网络中得到相应的数据;

第四步、根据收集的数据建立数据库,起到衔接深度包检测技术和大数据分析技术的作用;

第五步、基于所述数据库,利用联机分析技术和数据挖掘技术,得到应用需要的信息;

第六步、将得到的信息提交应用实体使用。

进一步,所述对获取需求信息数据进行存储方法包括以下步骤:

(1)数据存储装置设置每种类别的存储数据对应的存储安全策略,用户可根据自身的个性化需要将每种类别的存储数据设置对应的存储安全策略;

(2)数据存储装置获取数据存储指令,数据存储指令是指用户对某类存储数据进行存储操作的指令;随后数据存储装置根据该数据存储指令获取存储数据的类别;存储数据的类别包括多媒体文件、文本文件、可执行文件、加密文件以及证书类文件中至少一个;

(3)数据存储装置根据获取的存储数据的类别,获取存储数据的存储安全策略;存储安全策略包括读写操作、只读操作以及加密操作中至少一个。

本发明的优点及积极效果为:提升大数据存储的安全性,通过将不同类别的存储数据与相应的存储安全策略进行关联,如将银行卡的证书类文件直接设置为只读操作或加密操作;如对一般的多媒体文件可设置为通常的读写操作;如对文本文件可设置为加密操作,以防止信息泄露;同时用户可根据自身的个性化需要将每种类别的存储数据设置对应的存储安全策略。

附图说明

图1是本发明实施提供的基于计算机的大数据分析控制系统结构示意图。

图2是本发明实施提供的基于计算机的大数据分析控制方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示,本发明实施例提供的基于计算机的大数据分析控制系统包括:数据采集模块1,数据计算模块2,数据存储模块3,数据提取与分析模块4,数据服务模块5。

数据采集模块1:通过rfid射频数据,传感器数据,社交网络数据,移动互联网数据等方式获得各种类型的结构化,半结构化及非结构化的海量数据。

数据计算模块2:大数据计算主要有批量计算和流式计算两种形态;批量计算首先进行数据的存储,然后再对存储的静态数据进行集中计算;hadoop是典型的大数据批量计算架构,由hdfs分布式文件系统负责静态数据的存储,并通过mapreduce将计算逻辑分配到各数据节点进行数据计算和价值发现。流式计算中,无法确定数据的到来时刻和到来顺序,也无法将全部数据存储起来;因此,不再进行流式数据的存储,而是当流动的数据到来后在内存中直接进行数据的实时计算。

数据存储模块3:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统;有三种存储技术:第一种是采用mpp架构的新型数据库集群,重点面向行业大数据,采用sharednothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合mpp架构高效的分布式计算模式,完成对分析类应用的支撑。第二种是基于hadoop的技术扩展和封装,围绕hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大。第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

数据提取与分析模块4:是数据仓库基础构架,用来进行数据提取转化加载(etl),这是一种可以存储、查询和分析存储在大规模数据的机制。

数据服务模块5:通过web应用服务器和openapi服务器以web调用和openapi调用的方式提供大数据存储、管理及挖掘服务;终端用户利用移动智能终端通过互联网访问门户服务中心,使用其提供的大数据存储、管理及挖掘服务。

所述数据采集模块利用regress函数作多元线性回归分析方法包括:

对于自变量x1,x2,x3…xp和因变量y的n次独立观测,y关于x1,x2,x3…xp的p重广义线性回归模型公式:

所述数据计算模块的数据聚合方法的步骤如下:

步骤一,在面积为s=ll的部署区域内,随机分布n个同构的无线传感器节点,sink节点位于部署区域之外,节点处理整个无线传感器网络内收集到的数据;

步骤二,非均匀成簇

sink节点位于部署区域的上方;首先部署区域x轴划分为s个泳道,所有泳道有相同的宽度w,并且每个泳道的长度与部署区域的长度相等;用从1到s作为泳道的id,最左端的泳道的id为1,然后每个泳道沿着y轴划分为多个矩形网格,每个泳道中的每个网格都被定义一个水平,最下端的网格的水平为1,每个网格和每个泳道有相同的宽度w;每个泳道中网格的个数、长度与泳道到sink的距离有关;通过设置网格的长度来调整网格的大小;针对不同的泳道,距离sink越远的泳道含有的网格数目越小;针对同一泳道,距离sink越远的网格的长度越大;假设a中含有s个元素,第k个元素表示在第k个泳道中网格的数目;每个网格用一个数组(i,j)作为id,表示第i个泳道有水平j;定义s个数组表示网格的长度,第v个数组hv表示第v个泳道中网格的长度,并且hv的第w个元素hvw表示网格(v,w)的长度;网格(i,j)的边界为:

o_x+(i-1)×w<x≤o_x+i×w

非均匀网格划分好之后进行成簇阶段;算法分为很多轮进行,在每轮中选取每个网格中剩余能量最大的节点作为簇首节点,其余节点根据就近原则加入簇,然后再进行数据聚合;

步骤三,格拉布斯预处理

传感器节点需要对收集的数据进行预处理,然后再向簇首节点传输数据;采用格拉布斯预准则对传感器节点所采集到的数据进行预处理假设某个簇首节点含有个传感器节点,传感器节点收集到的数据为x1,x2,…,xn,服从正态分布,并设:

根据顺序统计原理,计算格拉布斯统计量:

给定显著性水平(α=0.05)之后,测量值满足gi≤g0(n,α),则认为测量值有效,测量值参与到下一层次的数据聚合;反之,则认为测量值无效,因此需要剔除,即不参与到下一层次的数据聚合;

步骤四,自适应聚合算法

通过迭代得到各个节点测量数据的无偏估计值,求取各个传感器节点的测量数据值与估计值之间的欧式距离,以归一化的欧式距离作为自适应加权融和的权值;选用簇中的传感器节点采集到的数据的最大值与最小值的平均值作为中心数据;

某个簇中有个传感器节点,用维列向量d=(d1,d2,…,dn)表示相应节点的测量值,通过计算各个节点数据与中心数据的欧式距离反应不同节点数据与中心数据之间的偏差大小,其中li的计算公式为:

根据欧式距离自适应设定相应的权值大小,距离越大权值越小,距离越小权值越大;

其中wi为相应的权值。

所述终端的极限容量计算方法如下:

利用laguerre多项式计算得到:

其中,m=min(nt,nr);

n=max(nt,nr);

为次数为k的laguerre多项式;

如果令λ=n/m,推导出如下归一化后的信道容量表示式;

其中,

在快速瑞利衰落的情况下,令m=n=nt=nr,则v1=0,v2=4;

渐进信道容量为:

利用不等式:

log2(1+x)≥log2(x);

简化为:

本发明实施例提供的基于计算机的大数据分析控制系统及控制方法包括以下步骤:

步骤s1:采集数据源;

步骤s2:对需求数据信息进行提取与深度检测分析;

s201、获取应用对信息的需求;

s202、将应用的信息需求转换为网络数据收集的策略;

s203、根据上述策略从网络中得到相应的数据;

s204、根据步骤s203收集的数据建立数据库,起到衔接深度包检测技术和大数据分析技术的作用;

s205、基于所述数据库,利用联机分析技术和数据挖掘技术,得到应用需要的信息;

s206、将步骤s205得到的信息提交应用实体使用。

步骤s3:对获取需求信息数据进行存储

s301:数据存储装置设置每种类别的存储数据对应的存储安全策略。由于不同类别的存储数据对于用户而言的存储安全性可能是不同的,有的用户的文本文件中的信息很重要,用户可能会将文本文件对应的存储安全策略设置为加密操作;有的用户的文本文件中的信息可能是一般的小说,用户则会将文本文件对应的存储安全策略设置为读写操作。这里用户可根据自身的个性化需要将每种类别的存储数据设置对应的存储安全策略。

s302:数据存储装置获取数据存储指令,该数据存储指令是指用户对某类存储数据进行存储操作的指令。随后数据存储装置根据该数据存储指令获取存储数据的类别。这里存储数据的类别包括但不限于多媒体文件、文本文件、可执行文件、加密文件以及证书类文件中至少一个。

s303:数据存储装置根据步骤s302获取的存储数据的类别,获取该存储数据的存储安全策略。该存储安全策略包括但不限于读写操作、只读操作以及加密操作中至少一个。这里将不同类别的存储数据与相应的存储安全策略进行关联,如将银行卡的证书类文件直接设置为只读操作或加密操作;如对一般的多媒体文件可设置为通常的读写操作;如对文本文件可设置为加密操作,以防止信息泄露。

步骤s4:提供数据服务

通过web应用服务器和openapi服务器以web调用和openapi调用的方式提供大数据存储、管理及挖掘服务;终端用户利用移动智能终端通过互联网访问门户服务中心,使用其提供的大数据存储、管理及挖掘服务。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1