一种基于混合聚类算法的雷暴核识别及追踪方法与流程

文档序号:15399711发布日期:2018-09-11 17:11阅读:269来源:国知局
本发明属于雷电监测领域,涉及一种基于混合聚类算法的雷暴核识别及追踪方法。
背景技术
:随着电子技术和计算机技术的发展,雷暴闪电活动监测从传统的闪电定位观测发展到完整记录整个雷暴生命史期间闪电活动细节特征,在此基础上可以开发各种基于雷暴生命史演化的闪电资料产品。闪电活动作为雷暴对流活动强弱的指示因子,相比雷暴云降水粒子的气象雷达探测,在诊断强对流活动的时效性及其准确性方面的潜力越来越受到重视,并有望在一些气象多普勒雷达难以探测的区域开展雷暴对流活动的监测。数据挖掘技术和地理信息系统技术作为信息技术中的两个重要技术,在处理气象资料方面有着极其重要的地位和作用。数据挖掘(datamining)指在数据库中,综合利用统计学方法、模式识别技术、人工智能方法、神经网络技术等理论,吸取新颖的、可信的、人们感兴趣的和最终可理解的知识,从而揭示出蕴含在数据中的规律、内在联系和发展趋势。地理信息系统技术可以将气象数据所具有的空间特征、属性特征及时间特征等特点较好地表现出来,是实现数据管理的有效手段。对雷暴核识别、预测方法有很多,但因为雷电具有随机性、局域性、分散性、突发性、瞬时性及三维性这些鲜明的特点,使得不同的雷电预测方法都有自己最适用的环境。运用数据挖掘中的聚类算法,结合gis平台,针对雷电自身特点,对算法进行优化,可以做到快速、便捷、准确地计算,并且满足临近趋势预报中的相关要求,在雷电临近预报工作中具有实际的意义。基于传统的dbscan算法能在具有噪声的空间数据中发现任意形状的簇,可将密度足够大的相邻区域连接,能有效处理异常数据,算法稳定等特点。但是,当应用到闪电数据的聚类时,得到的结果是一个个的簇,并不是一个“中心”,并且存在的噪声点也无法区分。而kmeans算法的关键是k值的选取,如果闪电定位数据分布过于分散,按照固定k值聚合,得到的质心的位置可能和实际位置相差甚远。技术实现要素:本发明所要解决的技术问题是提供一种基于混合聚类算法的雷暴核识别及追踪方法,提出了对监测点同等时段的闪电定位数据通过dbscan算法进行密度聚合,形成若干个簇,并且将每一簇的数据集作为新的输入,再利用kmeans算法的迭代聚合,设定k值固定为1,求出雷暴核质心的坐标位置;在聚类分析结果的基础上,对质心闪电点的移动路径和闪电强弱进行拟合,从而得到雷暴核之间的关联性并且可预测下一时刻雷暴核的强弱变化;该计算方法应用在雷暴核识别及核追踪方面是有效的。本发明为解决上述技术问题采用以下技术方案:基于混合聚类算法的雷暴核识别及追踪方法,具体步骤如下:步骤a,利用部署的雷电监测点探测并记录闪电数据,并对记录的闪电数据进行预处理,划分为各等时段的闪电数据集;步骤b,采用gps时钟同步技术和闪电电场变化辐射脉冲到达各站点的时间差(toa),通过到达时间差算法,求得闪电的空间定位坐标;步骤c,对步骤b中所求得的雷电定位数据,利用dbscan算法和kmeans算法混合求得雷电定位数据的雷暴核质心坐标位置、闪电频次以及雷暴核之间的关联性。作为本发明的进一步优化方案,步骤a中记录的闪电数据进行预处理,划分为各等时段的闪电数据集,具体为:步骤a-1,闪电定位监测站点内设置甚低频闪电辐射接收机、计算机、gps时钟模块,站点连续无间隔捕获闪电脉冲波形及其到达绝对时间,生成数据集;步骤a-2,将步骤a-1生成的数据集进行预处理,通过互联网数据传输,得到相应时段的数据集。作为本发明的进一步优化方案,步骤b中采用gps时钟同步技术和闪电电场变化辐射脉冲到达各站点的时间差(toa),通过到达时间差算法,求得闪电的空间定位坐标,具体为:步骤b-1,至少建立四个闪电定位监测站点,对步骤a中得到的同一时段的数据取得其gps时间;步骤b-2,充分利用显卡的gpu资源,根据到达时间差算法(tdoa),快速求得闪电定位坐标。作为本发明的进一步优化方案,步骤c中利用dbscan算法和kmeans算法混合求得雷电定位数据的雷暴核质心坐标位置、闪电频次以及雷暴核之间的关联性,具体为:步骤c-1,设定eps和minpts值,利用dbscan算法,遍历步骤b-2中得到的各等时段的闪电定位坐标数据集,依次搜索每个闪电数据点的eps邻域,对各等时段的定位数据进行聚类计算,使得同一类中的数据相似性最大,而不同类中的数据的相似性最小,去掉噪声数据后,形成若干个任意形状的簇;步骤c-2,根据c-1的最优聚类结果,将每一簇的数据集作为新的输入,再利用kmeans算法,并通过簇内所有成员的经纬度坐标,迭代聚合求出簇即雷暴核质心的空间坐标位置;步骤c-3,根据c-2雷暴核及质心的结果,得到同一时间段多个雷暴核信息,但这些雷暴核是有一定的关联性,即雷暴核是由哪个雷暴核演变过来的;通过计算比较同一时段和不同时段的连续发生的雷暴核质心之间的距离在设定的阈值范围内以及雷暴核范围内闪电发生的强度,来推算各雷暴核之间的关系(当前雷暴核是由上一次哪个雷暴核演变来的),进而推算单个雷暴核的演变过程。作为本发明的进一步优化方案,步骤b-2中,采用cuda编程技术,充分利用显卡gpu资源,加快数据运行处理速度。作为本发明的进一步优化方案,步骤c-2中,kmeans算法,以质心代表一个聚类簇,过滤掉dbscan聚类簇中的噪声数据集,聚类结果代入kmeans算法,得到最优聚合结果。本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明针对传统dbscan算法对雷暴识别和雷暴强弱预测的不足,将kmeans聚类算法与dbscan算法进行复合,用复合后提出的混合聚类算法对闪电定位数据进行等时段数据聚类;该算法不仅考虑了闪电数据分布杂乱的情况,也克服了dbscan算法不求出“中心点”的情况,完善了对雷暴核识别及核关联性计算的方法;同时,结合dbscan算法和kmeans算法的特点,通过对各等时段下的闪电定位数据进行雷暴核识别、核关联性计算,求得单个雷暴核的移动演变过程和下一时刻的雷暴核强弱趋势变化;在实际雷电天气过程的检验中,通过与气象雷达数据的比较,结果表明本发明所提出的方法能够在雷暴天气较为准确的反映出雷电变化趋势,达到良好的雷暴核识别及雷暴核移动追踪的效果。附图说明为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。图1是本发明一种基于混合聚类算法的雷暴核识别及追踪方法的流程图;图2是本发明实施例中dbscan算法流程图;图3是本发明实施例中kmeans算法原理图;图4是本发明实施例中tdoa算法示意图;图5是本发明实施例中闪电分布图;图6是本发明实施例中dbscan聚类分布图;图7是本发明实施例中kmeans聚类后带质心的分布图;图8是本发明实施例中雷暴核轨迹图;图9是本发明实施例中雷暴核强弱趋势图。具体实施方式下面结合附图以及具体实施例对本发明的技术方案做进一步的详细说明:本发明提供一种基于混合聚类算法的雷暴核识别及追踪方法,如图1所示,针对雷电监测点中庞大而杂乱的定位数据,该方法依据监测点传输的雷电数据通过到达时间差算法求得的实时定位数据,先利用dbscan算法的密度可达特性将闪电数据集聚合成若干个簇,并且将每一簇的数据集作为新的输入,再利用kmeans算法的迭代聚合求出质心的坐标位置。在聚类分析结果的基础上,对质心坐标点的移动路径和闪电强弱进行拟合,从而得到雷暴核之间的关联性并且可预测下一时刻雷暴核的强弱变化趋势。实验证明,该方法能够在雷暴天气较为准确的反映出雷电变化趋势,达到良好的雷暴核识别及雷暴移动追踪的效果。基于dbscan聚类方法的闪电数据分析的主要思想是:对强雷暴天气尺度下,局部地区的闪电随着时间变化而变化,在给定的闪电半径范围之内的闪电个数必须不小于给定的阈值minpts,即邻域的密度必须不小于某个阈值。所以该时段内的集合闪电簇为半径内发生的minpts以上闪电的集合;kmeans算法是用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点。其目的是使各个簇中的数据点与所在簇质心的误差平方和sse(sumofsquarederror)达到最小。下面是算法中涉及的一些定义:(1)eps邻域:给定对象半径eps内的区域称为该对象的eps邻域;(2)核心对象:如果给定对象eps邻域内的样本点数大于等于最小数目minpts,则称该对象为核心对象;(3)直接密度可达:给定一个对象集合d,如果p是在q的eps邻域内,而q是一个核心对象,则称对象p从对象q出发是直接密度可达的;(4)密度可达:对于样本集合d,如果存在一个对象链p1,p2,……,pn,p1=q,pn=p,对于pi∈d(i≤i≤n),pi+1是从pi关于eps和minpts直接密度可达的,则称对象p是从对象q关于eps和minpts密度可达(density-reachable);(5)密度相连:如果对象集合d中存在一个对象o,使得对象p和q是从o关于eps和minpts密度可达的,那么对象p到q是关于eps和minpts密度相连(density-connected);(6)噪声点:不在任何簇的对象则被认为是噪声点。可以发现,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的。只有核心对象之间相互密度可达。然而,密度相连是对称关系。dbscan目的是找到密度相连对象的最大集合。dbscan算法能在具有噪声的空间数据中发现任意形状的簇,可将密度足够大的相邻区域连接,能有效处理异常数据,算法稳定等特点。但是,当应用到闪电数据的聚类时,得到的结果是一个个的簇,并不是一个“中心”。而kmeans算法的关键是k值的选取,如果闪电定位数据分布过于分散,按照固定k值聚合,得到的质心的位置可能和实际位置相差甚远。本发明中,针对以上存在的问题,将dbscan算法和kmeans算法中的优势模块进行混合,提出了混合聚类算法,如图2、图3所示,该算法的混合过程以dbscan算法设计的根本思想为基础,以kmeans算法的特性为辅助,具体为:步骤1:首先对雷电监测点发送的雷电数据预处理,过滤掉一些异常数据,将实时有效的雷电数据交给雷电定位处理模块,雷电定位处理模块使用tdoa算法、gpu加速来实现雷电数据定位。tdoa算法是一种基于反向链路的定位方法,通过监测台信号到达两个基站的时间差来定位闪电的位置。tdoa算法至少需要3个及以上的监测点,从监测点将同一时间测量同一信号得到的数据发送至主监测点,主监测点分别计算出无线电信号到达两个监测点天线的时间差(利用相关算法),根据两点之间时间差转换为距离差,可以得到一条双曲线,通过三个或者以上多个无线电监测点测得的时间差可以得到两条或者多条双曲线相交来实现对发射源的定位。该算法不需要知道信号传播的具体时间,可以抵消很大一部分误差和多径效应带来的误差,基线长度不受限制,使用长基线避免天线间互耦影响,不存在相位模糊问题,定位精度很高,如图4所示;步骤2:雷电定位数据处理完成后,将数据集利用dbscan算法进行雷暴核的聚类识别。dbscan算法流程图如图2所示,dbscan算法本质上是一个寻找类簇并不断扩展类簇的过程,要形成类簇首先数据密度要满足要求。扫描整个数据集,找到任意一个核心点,对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点(注意是密度相连)。遍历该核心点的eps邻域内的所有核心点(因为边界点是无法扩充的),寻找与这些数据点密度相连的点,直到没有可以扩充的数据点为止。最后聚类成的簇的边界点都是非核心数据点。之后就是重新扫描数据集(不包括之前寻找到的簇中的任何数据点),寻找没有被聚类的核心点,再重复上面的步骤,对该核心点进行扩充直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成噪声。dbscan算法结束后,雷电数据形成了若干个簇,即为识别出的雷暴核;步骤3:利用kmeans算法,设定k=1,将若干个雷暴核数据集作为新的输入,(1)从数据集对象中任意选取1个对象作为初始聚类中心点;(2)循环(3)(4)直到每个聚类不再发生变化为止;(3)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;(4)重新计算每个(有变化)聚类的均值(中心对象)。算出的中心对象即为该雷暴核的中心坐标位置,该算法的原理图如图3所示;步骤4:通过计算同一时间段和不同时间段的若干个雷暴核之间的距离是否在设定的半径范围内,来确定核与核之间的关联性,进而可以追踪到单个雷暴核的演变过程并可根据雷暴核的强弱变化进行拟合,预测雷暴核强弱趋势。实施例本发明实施例选取2017年7月14日11:00至11:30分发生的雷暴天气实例数据。空间尺度上以经度变化范围为117°09'-119°13',纬度变化范围为31°51'-33°99',该时段总计发生雷电521条。将上述数据在时间尺度上等分为每3分钟为一个间隔来划分数据集,如表1所示。表1等间隔闪电数据统计信息分布在地图上如图5所示。图片上显示的数据是11:15-11:21这时间段6分钟的数据瞬时画面。闪电定位数据在地图上杂乱无章的呈现,看不出雷暴核位置及移动方向。将这些定位数据最为数据集,输入dbscan算法进行聚类。设置dbscan的两个参数eps为20km,minpts为12,将上述数据集代入dbscan算法,去掉噪声数据后,得到的聚类结果。将该时间段的数据聚类后得到聚类簇数据如表2所示。表2dbscan聚类结果id开始时间结束时间聚类个数111:0011:063211:0311:093311:0611:122411:0911:153511:1211:183611:1511:213711:1811:243811:2111:272911:2411:303分布在地图上如图6所示。地图上呈现的是11:15-11:21这6分钟的数据。从图中可以清晰地看出,该时刻闪电形成了3个核心闪电簇,其中最大的闪电簇分布在嘉山附近。从表1和表2可以看出,随着时间的变化,闪电的频次在减弱后又增强又到减弱的过程,而雷暴核也从3个变为2个又聚类成3个闪电簇,这体现了闪电本身所具备的随机性和瞬时性的特点。紧接着,将dbscan聚类后得到的若干个闪电簇作为新的数据集,输入kmeans算法,算出每个簇的质心坐标位置,得到带质心的雷暴核数据,并将其中某个闪电簇的开始时间、结束时间、质心经纬度、闪电次数等重要数据汇总,构成雷暴核核心数据集,如表3所示。表3kmeans聚类结果(其中某个簇)id开始时间结束时间质心经度质心纬度闪电次数111:0011:06118.44176732.56586793211:0311:09118.44389932.56586790311:0611:12118.45695032.576041111411:0911:15118.47195432.569283121511:1211:18118.48360332.57004599611:1511:21118.47905432.57766482711:1811:24118.50845532.58268864811:2111:27118.55857332.57905051911:2411:30118.59735632.58273127分布在地图上如图7所示。图7上显示的仍然是11:15-11:21这6分钟的数据。地图上有三个雷暴核,其中,圆心表示为质心坐标位置,圆圈代表该雷暴核的范围。将这30分钟的闪电数据聚类结果即雷暴核质心坐标画线连接,如图8所示。图中可以直观的看出雷暴核的分布区域在发生位移,各雷暴核的位置也在发生变化。闪电发生的频次也逐渐由增强到减少,直至11:24分,闪电数量已有巨大减少,可见本次用于检验方法的数据为一次强雷暴过境或逐渐消亡的过程。本发明针对传统dbscan算法和kmeans算法存在的不足,结合这两个算法的优势特点,用复合后提出的混合聚类算法对雷电数据进行聚类。根据闪电聚类求得的核心闪电簇,找到各个时段对应的闪电频次,利用该簇所包含的所有闪电频次来拟合曲线,并利用该曲线来拟合预测下一时刻雷暴增强或者减弱的趋势。曲线图如图9所示。根据拟合曲线,深色表示真实闪电频次变化趋势,浅色曲线表示预测下一时刻闪电变化趋势。从聚类结果和分析曲线可以看出,本发明所提出的基于混合聚类算法的雷暴核识别及追踪方法对雷电进行雷暴核识别和核追踪以及雷电短时强弱趋势预报是有良好的效果的。以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属
技术领域
技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1