一种基于大数据的中央空调能耗特征选择方法与流程

文档序号:16136822发布日期:2018-12-01 01:06阅读:249来源:国知局
本发明涉及中央空调节能研究的
技术领域
,涉及大数据背景下的数据挖掘方法,具体涉及一种基于大数据的中央空调能耗特征选择方法。
背景技术
进入21世纪以来,建筑自动化系统(buildingautomationsystem,bas)为实施建筑系统性能诊断和优化提供了必需的信息技术平台。bas中存储着庞大的建筑实际运行数据,但这些数据很少得到充分的利用。在中央空调系统运行能耗计量中,积累了大量高维的实时能耗数据,常规方法难以发现和总结这些数据蕴含的知识。数据挖掘作为一项新兴的多学科技术,使高非线性系统建模有了新的曙光,特别是数据挖掘技术在中央空调领域的应用研究也越来越多。在中央空调能耗研究中,其中重要一项是中央空调系统能耗特变量。目前,针对各个中央空调系统的不同,中央空调系统能耗因素也不同,缺乏一套普适的中央空调能耗特征选择方法。技术实现要素:中央空调系统能耗特征变量研究中,能耗模型涉及多参数问题,包括外部参数和内部参数。建立一套可靠而普适的基于数据挖掘技术的中央空调能耗特征选框架,对运行节能策略意义重大。本发明提供一种基于大数据的中央空调能耗特征提取方法,减少大数据的冗余性,在常规能耗内部特征上加入外部特征,实现更精确的能耗特征模型。本发明通过下述技术方案实现:一种基于大数据的中央空调能耗特征选择方法,包括以下步骤:步骤一、采用专家意见对特征数据集进行初步筛选;步骤二、对经过初步筛选的特征数据集进行预处理;步骤三、基于预处理后的特征集,采用boruta特征选择算法提取新的特征子集1;步骤四、基于预处理后的特征集,采用lasso特征选择算法提取新的特征子集2;步骤五、基于步骤三得到的特征子集1和步骤四得到的特征子集2,结合专家意见,采用交集归类的方法得到中央空调能耗关键特征集合。优选的,所述步骤二的预处理具体包括以下步骤:步骤2.1,设定约束范围,剔除异常值;步骤2.2,使用决策树得到系统稳定条件下的运行数据;步骤2.3,间隔5分钟取数据均值,去掉重复点;步骤2.4,合并数据,并进行数据扩增;步骤2.5,插值补充缺失数据。优选的,所述步骤三中采用boruta特征选择算法提取新的特征子集1具体包括以下步骤:步骤3.1,通过创建混合副本的阴影特征为给定的数据集增加随机性;步骤3.2,训练一个随机森林分类的扩展数据集,以评估每个特征的重要性,越高则越重要;步骤3.3,检查每一个原特征是否比最好的阴影特征具有更高的重要性,并且不断删除它视为非常不重要的特征;步骤3.4,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。优选的,所述步骤四中采用lasso特征选择算法提取新的特征子集2具体采用模型系数的绝对值函数作为惩罚来压缩模型系数,将部分回归系数变小或设置为0。本发明具有如下的优点和有益效果:本发明采用采用特征选择的两个主要方法:lasso回归算法和boruta特征选择算法。算法本质差异明显,避免了单一方法带来的局限性,有效的解决了大数据冗余问题,降低了中央空调能耗数据模型的复杂度;且本发明不需要太多的专家领域知识,跳出复杂的公式计算以专注数据的角度处理问题,为后期获得更好的节能策略奠定了基础。本发明数据挖掘中的boruta特征选择算法是随机森林的一种包装算法,消去数据的冗余程度,lasso回归算法能去除共线性属性和噪声属性,减少对数据分析的干扰和影响。附图说明此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:图1为本发明的特征选择方法原理框图。图2为本发明的采用boruta算法得到的特征子集重要性排序图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。实施例如图1所示,本实施例的一种基于大数据的中央空调能耗特征选择方法,该方法测试均在同一台计算机上完成,具体配置为:intel(r)core(tm)i5-7400,8g内存,windous10操作系统。测试数据采用数据来自广汉市某商场的中央空调系统运行数据,共4032条样本。采集数据点如表一所示。表一:数据采集点步骤1:从上表可以看出,传感器数据点数量多,为了找出具有代表性特征数据进行如下操作。经过一次专家意见初步筛选数据点如表二所示。表二:一次专家意见初步筛选数据点经过二次专家意见初步筛选数据点如下表三所示,使用表三数据点进行能耗特征分析,寻找影响空调负荷率和功率的特征子集。表三:二次专家意见初步筛选数据点步骤2:直接来源现实的数据经常是不完整的、含噪声的和不一致的。预处理具体步骤如下:2.1、设定约束范围,剔除异常值;2.2、使用决策树得到系统稳定条件下的运行数据;2.3、间隔5分钟取数据均值,去掉重复点;2.4、合并数据,并进行数据扩增;2.5、插值补充缺失数据。步骤3,寻找影响空调负荷率和功率的特征子集,boruta特征选择算法的工作原理如下:首先,它通过创建混合副本的所有特征(即阴影特征)为给定的数据集增加了随机性。然后,它训练一个随机森林分类的扩展数据集,并采用一个特征重要性措施(常采用均方残差),以评估的每个特征的重要性,越高则意味着越重要。在每次迭代中,它检查每一个原特征是否比最好的阴影特征具有更高的重要性(即该特征是否比最大的阴影特征得分更高)并且不断删除它视为非常不重要的特征。最后,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。编写程序实现boruta特征算法步骤如下:3.1、对特征矩阵x的各个特征取值进行shuffle,将shuffle后的特征(shadowfeatures)与原特征(realfeatures)拼接构成新的特征矩阵;3.2、使用新特征矩阵作为输入,训练可以输出feature_importance的模型;3.3、计算realfeature和shadowfeature的z_score;3.4、在shadowfeatures中找出最大的z_score记为z_max;3.5、将z_socre大于z_max的realfeature标记为"重要",将z_score显著小于z_max的realfeature标记为"不重要",并且从特征集合中永久剔除;3.6、重复3.1~3.5,直到所有特征都被标记为"重要"或者"不重要";3.7、得到特征集重要性排序如图2所示。步骤4,应用lasso算法提取新的特征子集。lasso(leastabsoluteshrinkageandselectionoperator,tibshirani(1996))方法是一种压缩估计。此方法用模型系数的绝对值函数作为惩罚来压缩模型系数,使一些回归系数变小,甚至使一些绝对值较小的系数直接变为0。它通过构造一个惩罚罚函数得到一个较为精炼的模型,因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。编写程序实现lasso主要步骤如下:4.1.将数据集转换为csv格式,逗号分隔;4.2.在r语言中,读取数据,然后将数据转成矩阵形式;4.3.调用lars函数,确定cp值最小的步数;4.4.确定筛选出的变量,并计算权重系统;4.5.得到特征子集回归权重,最优特征子集权重如表四所示。表四:最优特征子集权重x10.3651524x3-45.5834741x465.7041534x510.6551992x63.5123054x913.5124891x105.6813998x11-15.4818693x12-1.0127342x14-70.1725065x1531.4574995x1627.3613065x172.3798402x18-15.531637x1921.5408714x20-15.2884767x21-72.6756832步骤5,结合专家意见,采用交集融合的方法选择关键属性,最终得到中央空调能耗关键特征如表五所示。表五:能耗关键属性表以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1