一种二维散点数据密度制图方法

文档序号:6625139阅读:2290来源:国知局
一种二维散点数据密度制图方法
【专利摘要】本发明公开了一种二维散点数据密度制图方法。本发明包括步骤如下:步骤(1)二维密度网格的优化布设;步骤(2)密度网格频数结果平面平滑;步骤(3)密度属性的色标与等值线表示;步骤(4)密度分布百分比统计与可视化。本发明方法简单、快捷、可靠,尤其适用于大数据量二维散点数据的密度制图与可视化,该方法通过网格优化布设,密度网格频数结果平面平滑,实现二维散点数据密度制图的色标映射,同时通过密度分布百分比统计与可视化,实现二维散点数据密度分布数理特征定量信息的表达。
【专利说明】一种二维散点数据密度制图方法

【技术领域】
[0001]本发明属于非参数统计制图领域,具体涉及一种二维散点数据密度制图方法。本发明中主要涉及到二维密度网格的优化布设,密度网格频数平面平滑方法,密度属性的色标与等值线表示,密度分布百分比统计与可视化等。本发明无需进行复杂的非参数密度统计计算,实施简单,且二维散点密度制图可视化效果良好,结果分析与展示直观多样。

【背景技术】
[0002]在散点数据密度制图中,首先需要进行数据的密度估计,而在数据的密度估计领域中,直方图密度估计(即由直方图表示概率)和核密度估计都是非参数密度估计的重要方法。其中,直方图技术一直处于非常重要的地位。随着样本量的增加,直方图同样也能很好地估计出总体分布特征。直方图是用矩形的宽度和高度来表示频数分布的图形[1]。最常见的直角坐标系制图展现方法中,以X轴表示所考察的数据变量,y轴表示频数,再以每一组的区间为底,该区间的频数为高作矩形,即可得到该样本数据的频数直方图。当然,直方图估计密度函数还是有不完美的地方:即:密度函数是不平滑的;密度函数受子区间宽度影响很大;当数据维数较少情况下,直方图的使用是很普遍的,但是在数据维数再增加时,这种方法就有局限性了。然而,和核密度估计相比,虽然直方图不能给出较为精确的样本密度估计,但其以简单、直观、易懂等优点在密度估计、数据分析等过程中为大众所接受。
[0003]核密度估计(kernel density estimat1n)是在概率论中用来估计未知的密度函数的另一种非参数检验方法之一。由Rosenblatt (1955)[2]和Emanuel Parzen (1962)[3]提出,用“核”来估计概率密度函数,当采用“平滑核”时,估计出的概率密度函数也是平滑的。当采用“非平滑核”时,估计出的概率密度函数也是不连续的。很多情况下都采用高斯核(Gaussin Kernel),这时称为高斯核密度估计,即用高斯核估计样本的概率密度函数。基于核密度估计的方法就没有直方图的局限性,但是其计算方法相对直方图技术却比较复杂。
[0004]在二维散点数据密度制图中,利用密度分布的空间梯度分布信息映射颜色索弓I进行密度制图最直观常用的制图方法。对二维散点数据所在的空间平面进行网格化,并统计网格中的散点数目是进行密度统计的一种快捷有效的途径。其中,网格大小的布设对网格中散点密度的统计结果影响重大,网格稀疏或过于密集,散点数据空间密度统计结果的分布信息难以完整展现,基于密度信息的制图结果自然难以表现。关于组距(网格大小)的选择,有许多方法并存在很大争议。组距在很大程度上影响密度制图结果的性质和总体分布特征,常用的组距经验计算方法包括Sturges (1926)公式[4]、Doane (1976)公式[5]、Scott (1979)公式[6]和 Freedman and Diaconis (1981)公式[7]方法等。
[0005]利用密度分布的空间梯度分布信息映射颜色索弓I进行密度制图国内外已经有相关软件进行了实现,然而,其密度估计的方法和密度估计结果的优化和处理上都不尽相同,最为重要的是在目前出现的二维散点数据密度制图上,相关分布的数理特征定量信息却很难表现,密度分布百分比统计与可视化为解决上述相关问题,而进行的技术开发与设计。
[0006]引证文件
[0007][I],张建方,王秀祥.直方图理论与最优直方图制作[J].应用概率统计,
[0008]2009, 25(2):201-214.
[0009][2].M Rosenblatt.Remarks on some nonparametric estimates of a densityfunct1n.Annals of Mathematical Statistics.1956, 27(6):832-837.
[0010][3].E Parzen.0n estimat1n of a probability density funct1n and mode.Annals of Mathematical Statistics.1962,33(8):1065-1076.
[0011][4].Sturges, H.A.The choice of a class interval, J.Amer.Statist.Assoc., 21(1926), 65-66.
[0012][5].Doane, D.P.Aesthetic frequency c I a s s 1-c a t i on s,Amer.Statist.,30(1976),181-183.
[0013][6].Scott, D.ff.0n optimal and data-based histograms, B1metrika, 66(1979)
,605-610.
[0014][7].Freedman, D.and Di aconis, P.0n the histogram as a density estimat1n: L2-theory, Zeitschrift fur Wahrscheinlichkeitstheorie und verwandteGebiete, 57(1981), 453-476.


【发明内容】

[0015]本发明的目的是针对现有技术的不足或技术实现的复杂性,提出一种二维散点数据密度制图方法。本方法简单、快捷、可靠,尤其适用于大数据量二维散点数据的密度制图与可视化,该方法通过网格优化布设,密度网格频数结果平面平滑,实现二维散点数据密度制图的色标映射,同时通过密度分布百分比统计与可视化,实现二维散点数据密度分布数理特征定量信息的表达。
[0016]本发明解决其关键技术问题所采用的技术方案具体包括如下步骤:
[0017]步骤(I).二维密度网格的优化布设;
[0018]步骤(2).密度网格频数结果平面平滑;
[0019]步骤(3).密度属性的色标与等值线表示;
[0020]步骤(4).密度分布百分比统计与可视化。
[0021]所述步骤(I) 二维密度网格的优化布设具体如下:基于二维散点数据密度制图,对二维散点数据所在的空间平面进行网格化,并统计网格中的散点数目;
[0022]1-1.计算二维密度网格组距;
[0023]a.给定两组升序排列的样本观测值X1, X2,…,χη ;Υ!, Y2,…,yn ;即X1, Yi和Xn, Yn分别为样本中的最小观测值和最大观测值;确定两组样本观测值的最小下界%,Iv满足
a0 ( X1, b0 ( y”
[0024]b.估计两组样本观测值的网格组距(Bin width),其中X1, x2,...,Xn样本的网格组距为hx,yi,y2,...,yn样本的网格组距为hy;从而获得两组样本的网格分界点(Binedges) a0, a1;…,ak ;b0, Id1,…,Id1,其中,ai+1_ai = hx, i = 0,I,…,k_l, xn ^ ak < xn+hx ;bJ+1-bj=hy, i = 0,I,…,1-1,yn ^ bx < yn+hy d,k和I都是大于I的自然数,其中hx和hy计算通式如下:
[0025]?, = 2-1Q-η 13(1-1)
[0026]其中,之为网格组距,IQ表示样本的四分之三分位值与四分之一分位值的差额,η为样本数目。
[0027]1-2.以a0, B1,…,ak ;b0, b1;...A为二维空间坐标网格节点,布设空间网格;
[0028]1-3.统计需要绘制的散点数据落在每个网格区间中的个数,记为网格频数值,
go, O,go, I,gl,0,…,Si,j,…,Sk,l°
[0029]所述步骤(2)中对密度网格频数结果平面平滑的步骤具体如下:
[0030]2-1.通过移动窗口统计平滑滤波方法对网格频数值进行平面平滑,获得平滑后的网格频数值f 具体的:移动窗口大小设置为3X3或5X5,在移动窗口的移动过程中,统计移动窗口网格内的平均值μ和标准差S,窗口大小设置为3时计算方法如下:

【权利要求】
1.一种二维散点数据密度制图方法,其特征在于包括如下步骤: 步骤(1).二维密度网格的优化布设; 步骤(2).密度网格频数结果平面平滑; 步骤(3).密度属性的色标与等值线表示; 步骤(4).密度分布百分比统计与可视化。
2.如权利要求1所述的一种二维散点数据密度制图方法,其特征在于步骤(1)二维密度网格的优化布设具体如下:基于二维散点数据密度制图,对二维散点数据所在的空间平面进行网格化,并统计网格中的散点数目; 1-1.计算二维密度网格组距; a.给定两组升序排列的样本观测值X1,X2,…,Xn ;Yi, I2,…,yn ;即Xi,Yi和Xn, In分别为样本中的最小观测值和最大观测值;确定两组样本观测值的最小下界a(l,k,满足a0 ( X1, b0 ^ Y1 ; b.估计两组样本观测值的网格组距(Binwidth),其中χι,χ2,...,\样本的网格组距为hx,Y1, y2,...,yn样本的网格组距为hy ;从而获得两组样本的网格分界点(Bin edges)a0, a” …,ak ;b0, b”...,bp 其中,a^—ai = hx, i = 0,I,…,k_l, xn ≤ ak < xn+hx ;bJ+1-bj =hy, i = 0, I,…,1-1,yn ^ bx < yn+hy ;且,k和I都是大于I的自然数,其中hx和hy计算通式如下: fi = 2.1Q.n ' '(1-1) 其中,ft为网格组距,IQ表不样本的四分之三分位值与四分之一分位值的差额,η为样本数目; 1-2.以a0, a”…,ak ;b0, b1;...A为二维空间坐标网格节点,布设空间网格; 1-3.统计需要绘制的散点数据落在每个网格区间中的个数,记为网格频数值,go, O,go, I,gl,0,…,Si, jj …,Skj10
3.如权利要求1所述的一种二维散点数据密度制图方法,其特征在于步骤(2)中对密度网格频数结果平面平滑的步骤具体如下: 2-1.通过移动窗口统计平滑滤波方法对网格频数值进行平面平滑,获得平滑后的网格频数值f 具体的:移动窗口大小设置为3X3或5X5,在移动窗口的移动过程中,统计移动窗口网格内的平均值μ和标准差δ,窗口大小设置为3时计算方法如下:
2-2.若未平滑前移动窗口中心网格频数值gi;j e [ μ -3 δ , μ +3 δ ]时,移动窗口中心网格频数值不改变;反之则用移动窗口网格内的平均值μ代替,平滑后的网格频数值g' i,j具体计算如下:
所述的对样本频数进行平面平滑的方法包括中值滤波方法和样条插值方法。
4.如权利要求1所述的一种二维散点数据密度制图方法,其特征在于步骤(3)所述的密度属性的色标与等值线表示,具体包括如下步骤: 3-1.将步骤2平滑后的的网格频数值赋值到对应网格内的散点数据上,使得二维散点数据具有密度属性值,也即是平滑后的网格频数值; 3-2.利用二维散点数据密度属性值的线性转化来进行灰度等级、颜色等级或等值线制图; 利用灰度等级进行制图时,首先要将密度属性值转化为灰度等级值,即转化为[O,255]区间的值,灰度等级值Gu与二维散点数据密度属性值g, u转化方法计算如下:
颜色等级制图如下:利用公式1-4计算灰度等级值Gy.,利用彩色图像显示时需要建立RGB三基色数值与二维散点数据密度属性值进行索引,从而实现密度属性的颜色等级; 以表1给出了典型色标(jet)颜色与归一化RGB值及对应的灰度等级值Gi;j为例,颜色索引的建立过程如下: 如果:0〈 = 6^.<36
R = O ;G = (G^/36) *127 ;B = 255 ; 如果:36〈 = 6^.<73 R = O ;G =取/73)*255 ;B = 255 ; 如果:73〈 = 6^.<109
R = ((Gij-73)/36)*127 ;G = 255 ;B = 255-((Gi j_73)/36) *127 ;
如果:109〈 = GijX 146
R = ((Gij-73)/36)*255 ;G = 255 ;B = 255-((Gi j_73)/36) *255 ; 如果:146〈 = 6^.<182
R = 255 ;G = 255-((Gij-146)/36)*127 ;B = 0 ; 如果:182〈 = 6^.<218
R = 255 ;G = 255-((Gij-146)/36)*255 ;B = 0 ; 如果:218〈 = GijX = 255 R = 255-((Gij-218)/37)*127 ;G = 0 ;B = 0 ; 表1典型的色标颜色与归一化RGB值
等值线制图选择最常用的规则网格法。
5.如权利要求1所述的一种二维散点数据密度制图方法,其特征在于步骤(4)所述的密度分布百分比统计与可视化,具体如下: 4-1.根据步骤(3)中的等值线制图结果,设定等值线的等值区间,等值区间可根据制图需要进行设置,通常设置为4-8个等值区间,在生成的等值区间中选择时,必须选择首尾值相同的封闭等值线数据; 所述的等值区间的划分如下:
,其中k为等值区间个数; 4-2.统计不同等值区间内散点数据,计算每个等值区间内数据与分析得到的全部数据之间的比值; 所述的全部数据是指所有等值区间内散点数据; 4-3.将不同等值区间的统计结果进行色标表示,用冷色调的颜色表示低密度区域,暖色调的颜色表示高密度区域,同时利用图例信息对统计结果进行定量描述。
【文档编号】G06T11/00GK104200502SQ201410430830
【公开日】2014年12月10日 申请日期:2014年8月28日 优先权日:2014年8月28日
【发明者】蒋锦刚, 周斌, 何贤强, 徐曜, 窦文洁 申请人:杭州师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1