一种面向非正态分布水质观测数据的幂变换分析方法与流程

文档序号:18832953发布日期:2019-10-09 04:04阅读:207来源:国知局
一种面向非正态分布水质观测数据的幂变换分析方法与流程
本发明涉及环境工程
技术领域
,尤其涉及一种面向非正态分布水质观测数据的幂变换分析方法。
背景技术
:水质观测序列的挖掘和统计分析,往往要求数据呈正态分布,而实际操作中,很多原始水质序列不呈正态分布,需要在不丢失信息的前提下进行数据的正态变换。目前常用于水质序列的变换方法为对数变换,而水厂实际运行中,一些变量经对数变换后仍是偏态分布,尤其是负偏态数据,经对数变换后反而会增加其偏度。同时,由于污水处理厂进出水观测变量多、序列长且分布不一,单一类型的变换并不适用于所有的观测变量序列;而通过分析人员的主观判断对不同的变换方法进行选择时,由于选择标准不一,难以根据水厂观测变量自身特征选择最合适的变换方法,导致变换后的数据也无法满足常用数据挖掘和统计分析所要求的线性、方差齐性和正态性的要求,利用这些变换后的数据进行实际分析应用时丢失数据的一些重要性质,影响了分析效果。技术实现要素:本发明为解决现有的非正态分布水质观测数据进行数据变换时,由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题,提供了一种面向非正态分布水质观测数据的幂变换分析方法。为实现以上发明目的,而采用的技术手段是:一种面向非正态分布水质观测数据的幂变换分析方法,包括以下步骤:s1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;s2.对于步骤s1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、aic值及bic值;s3.根据计算得到的最小负对数似然函数值、aic值及bic值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;s4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果,降低了分析过程的复杂性,提高了分析的准确性。上述方案中,首先分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,设置具体的衡量指标并进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,使得变换后的数据具有更好的正态性,最后经最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,提升了分析的效果。优选的,步骤s1中所述不同的正态变换方法包括有恒等变换、对数变换、box-cox变换及yeo-johnson变换。优选的,步骤s1中所述的估计参数采用最大似然函数的方法,并采用下山单纯形法进行求解。优选的,所述步骤s1中计算通过box-cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;若x中各项均为正数,则box-cox变换的函数形式为:若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的box-cox变换的函数形式如下:其中变换参数λ通过最大似然法进行估计;定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:x的密度为:其中,j(λ;x)为变换的雅可比矩阵:若x中各项均为正数,获取对数似然函数为:令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-l,则最大似然函数值为l;若x中存在xi≤0,获取对数似然函数为:令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-l,则最大似然函数值为l。优选的,所述步骤s1中计算通过yeo-johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;则yeo-johnson变换的函数形式为:其中变换参数λ通过最大似然法进行估计;定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:x的密度为:其中,j(λ;x)为变换的雅可比矩阵:获取对数似然函数为:其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2)后,得到:对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-l,则最大似然函数值为l。优选的,根据计算得到的最小负对数似然函数值、aic值及bic值,首先选出最小负对数似然函数值、aic值及bic值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;若最小负对数似然函数值、aic值及bic值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的bic值所对应的正态变换方法为最优变换方法;其中最小负对数似然函数值表示为-l;aic值表示为:aic=2k-2ln(l);其中k是估计的参数数量,l是最大似然函数值;bic值表示为:bic=ln(n)k-2ln(l);其中k是估计的参数数量,l是最大似然函数值,n为水质观测数据的个数。与现有技术相比,本发明技术方案的有益效果是:本发明方法通过对水质观测数据自身的携带信息确定变换参数,设置具体的衡量指标在多种正态变换方法中进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,最后经最优变换方法将序列转入一个服从或近似服从正态分布函数的空间内,得到与原序列相应的新序列,以排除数据序列中可能的非线性、异方差性和非正态性;通过幂变换方法直接对数据进行变换,变换后变量序列相对于原始值的序列不会改变,也就没有改变变量中某个特定值的概率密度,变换过程通过将原序列进行收敛或发散实现变量整体分布的改变。本发明方法能使得变换后的数据具有更好的正态性,便于进一步的数据分析,解决了由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题。附图说明图1为本发明方法的总流程图。图2为本发明中使用的box-cox变换方法在不同参数下的变换效果图。图3为本发明中使用的yeo-johnson变换方法在不同参数下的变换效果图。图4为实施例2中原始水质观测序列的q-q图。图5为实施例2中经box-cox变换后水质观测序列的q-q图。图6为实施例2中经yeo-johnson变换后水质观测序列的q-q图。图7为实施例2中经对数变换后水质观测序列的q-q图。图8为实施例2中原始水质观测序列的示意图。图9为实施例2中经对数变换后水质观测序列的示意图。图10为实施例2中原始水质观测数据的分布图。图11为实施例2中经对数变换后水质观测数据分布图。图12为实施例2中逆变换后的水质观测数据与原始水质观测数据的关系图。图13为实施例2中自回归统计分析结果经逆变换所得序列与原始水质观测序列对比示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。实施例1一种面向非正态分布水质观测数据的幂变换分析方法,包括以下步骤:s1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;其中本实施例1中,不同的正态变换方法包括有恒等变换、对数变换、box-cox变换及yeo-johnson变换;其中估计参数采用最大似然函数的方法,并采用下山单纯形法进行求解;对于box-cox变换,步骤s1中计算通过box-cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;若x中各项均为正数,则box-cox变换的函数形式为:若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的box-cox变换的函数形式如下:其中变换参数λ通过最大似然法进行估计;定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:x的密度为:其中,j(λ;x)为变换的雅可比矩阵:若x中各项均为正数,获取对数似然函数为:令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-l,则最大似然函数值为l;若x中存在xi≤0,获取对数似然函数为:令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-l,则最大似然函数值为l。对于yeo-johnson变换,步骤s1中计算通过yeo-johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;则yeo-johnson变换的函数形式为:其中变换参数λ通过最大似然法进行估计;定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:x的密度为:其中,j(λ;x)为变换的雅可比矩阵:获取对数似然函数为:其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2)后,得到:对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-l,则最大似然函数值为l。s2.对于步骤s1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、aic值及bic值;s3.根据计算得到的最小负对数似然函数值、aic值及bic值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;具体如下:根据计算得到的最小负对数似然函数值、aic值及bic值,首先选出最小负对数似然函数值、aic值及bic值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;若最小负对数似然函数值、aic值及bic值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的bic值所对应的正态变换方法为最优变换方法;定义估计参数时采用最大似然函数的方法获得的最大似然函数值为l,则负对数似然函数值表示为-laic值表示为:aic=2k-2ln(l)其中k是估计的参数数量,l是最大似然函数值;bic值表示为:bic=ln(n)k-2ln(l)其中k是估计的参数数量,l是最大似然函数值,n为水质观测数据的个数。s4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果;记统计分析后获得的序列为z={z1,...,zm},其逆变换序列为其中对于经box-cox变换后的水质观测数据的逆变换形式如下:对于box-cox单参数变换,即变换时没有对水质观测数据进行平移:其中为逆变换后的水质数据,zi为经box-cox变换后的水质数据,λ为变换参数;对于box-cox双参数变换,即变换时对整个水质观测数据序列平移了ε:其中为逆变换后的水质数据,zi为经box-cox变换后的水质数据,λ为变换参数;其中对于经yeo-johnson变换后的水质观测数据的逆变换形式如下:其中为逆变换后的水质数据,zi为经yeo-johnson变换后的水质数据,λ为变换参数。不同参数的box-cox变换及yeo-johnson变换效果分别如图2、3所示,两者对变量偏度的改变明显,在一定程度上甚至会改变偏移的方向。本发明采取对观测变量同时进行不同变换,选取合适的变换方法,获得便于实际统计分析计算的变换结果。实施例2本实施例2基于实施例1的方法进行实验,以某污水处理厂入水化学需氧量(cod)日观测序列为实验数据,该水质观测序列长度为655日,相关统计参数如表1所示;表1根据表1对数正态分布及正态分布k-s检验pvalue,可以认为该序列服从对数正态分布,作为输入的非正态分布的水质观测数据水观测序列,分别对这些数据进行恒等、box-cox、yeo-johnson和对数变换参数估计,获得不同的变换结果。另外本实施例2还进一步根据变换结果绘制quantile-quantile图(q-q图),q-q图采用图形的方法鉴别样本数据是否近似于正态分布,通过q-q图可以比较直观的获取数据分布信息,其主要用于辅助判断变换效果。q-q图上的点(x,y)反映出其中一个样本数据的经验分布的分位数和正态分布的相同分位数,若q-q图上的点近似一条对角直线,则可认为数据点呈正态分布。本实施例2变换后水质观测序列的q-q图如图4-7所示,变换参数估计结果如表2所示;其中表格中的log项指对数变换,nllf指负对数似然函数值。parameteridentitylogbox-coxyeo-johnsonλ//0.570.04μ398.415.8950.916.72σ182.820.4514.060.58nllf3,739.073,663.613,687.023,663.46aic7,478.147,327.237,376.057,328.92bic7,478.147,327.237,380.537,333.41表2由图4-7和表2可以得出,相比于原始的水质观测数据,即表格中的identity项,经box-cox、yeo-johnson和对数变换后,数据的负对数似然函数值、aic和bic值均有所降低,其中对数变换的bic值是所有变换方法中最低的,为7327.23,故采用对数变换作为最优变换方法对水质观测数据进行变换。采用对数变换作为最优变换方法,对原始水质观测序列进行变换,得到的变换序列如图9所示,与图8的原始水质观测序列相比,整体波动更为平稳。通过图10和图11得到,变换后水质观测序列分布正态性得到明显提高,直接对变换序列进行逆变换后,绘制原始水质观测序列与逆变换序列散点图,如图12所示,逆变换后的数据与原始数据完全一致,说明变换过程并不会丢失原始数据信息。对变换后序列进行时间序列自回归分析,发现该水厂cod序列存在显著的自相关性,对该拟合结果进行逆变换,所得逆变换序列与原始序列对比结果如图13所示;从图13可以看到,自回归拟合序列结果基本消除了原始序列中存在的噪声,同时能够较好地概括原始序列的存在的变化趋势,利用该逆变换序列,可以进一步预测该水厂未来入水cod的变化趋势。附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1