一种缺失数据项自动填充的方法

文档序号:6349487阅读:427来源:国知局
专利名称:一种缺失数据项自动填充的方法
技术领域
本发明涉及服务器等电子设备的智能管理及数据挖掘领域,实现了在服务器等电子设备的健康信息采集过程中对数据缺失项的填充,具体地说一种缺失数据项自动填充的方法。
背景技术
在生产、管理中,很多时候需要获取一线数据,用于对生产管理进行分析、控制等。 鉴于数据采集设备的限制、环境的影响、手段的缺失等原因,很多情况下不能采集到完整的生产和管理信息的数据。如申请银行账户的表格中,有些项目如年龄等,可能由于用户的疏忽或其它原因,没有填写,导致数据缺失。在有数据缺失的情况下,要完成数据分析比较困难,需要对缺失的数据项进行处理。当前学术界及生产中比较流行的做法是(1)忽略含有缺失项的数据;( 以该项数据的中值填充缺失项;C3)以该项数据的均值填充缺失项;(4) 以该项数据的众数填充缺失项。
服务器等电子设备管理中获取信息的特点管理中需要动态获取机箱、风扇、CPU 温度、各种传感器信息。由于各种各样的原因,有些信息不能很好的获得,导致部分数据缺失。获得的数据对于分析服务器的运行状态,学习服务器等电子设备的智能管理具有重要意义,使用历史数据作为训练数据,可以通过一定的手段学习服务器等电子设备智能管理的规则,提高管理的智能性。
如当CPU温度连续多长时间高于某个阈值时,则启动风扇降温。类似的规则完全可以从收集到的服务器等电子设备历史数据中通过学习得到。多数情况下,服务器等电子设备的运行处于正常状态,因此收集到的数据中,异常状态的数据所占比例相对偏少,导致数据的不平衡。加上有些数据缺失部分数据项,如果再将缺失数据项的数据忽略掉,则用于学习的异常状态数据会更少,影响学习规则的可信性及可用性。为此,需要解决缺失数据项填充及数据不平衡问题。
目前常用的数据处理方法有平均值法和平均值法、中位数法和众数法,这集中方法各有优缺点平均值法虽然能可靠、稳定反映数据的总体情况,但由于获取到的服务器等电子设备健康信息是一个不平衡数据集,大部分数据为反映服务器等电子设备正常运行的数据,而反映异常运行的数据只占一小部分,通过平均值填充的缺失项不具有价值,很容易受到极端数据和噪音数据的影响。
中位数法中位数不受其数据分布两端数据的影响。因为它只利用了部分数据,没有考虑到各数据值出现频率的因素,不能很好反映数据的总体情况,所以可靠性比较差。
众数法虽然采用此种方法取到的数是原始数据,且考虑到了数据出现频率的因素是取到的是最有可能出现的数据,且不易受到极端数据和噪音数据的影响,但是因为获取到的数据是一个不平衡数据集,从这方面来看,它同利用中数填补缺失项一样,填充的缺失项往往是一个反映服务器等电子设备正常运行时的数据,进而与真实情况相差很大,对于服务器等电子设备运行数据不适用。
本专利提供的方法(自动填充缺失数据项的随机漫步方法)可以对这些缺失项进行恰当填补,能够更好地还原原始数据,克服数据挖掘中数据集的数据缺失和数据不平衡问题,最大限度利用现有训练数据集,提高学习算法的可靠性。发明内容
本发明的目的是提供一种缺失数据项自动填充的方法。
基于以上分析,本专利提出一种更好的缺失数据填充方法,使填充的缺失数据在概率上尽可能满足原数据未知概率分布特征的条件。数据中该项不缺失值的个数为n,首先计算该项η个数据的均值#及标准差σ按照公式(1)计算需要填充数据项的缺失数据其中为均值为0,方差为1的正态分布随机数。
从理论上可以证明这样得到的填充数它们的均值及方差,当η趋于正无穷大时与原数据的均值及方差相同。
特点按(1)生成的缺失项数据最大可能与该项其它数据具有相同分布特征,能够最真实地反映缺失数据。
本发明的有益效果是采用= Λ ^/^Ο ·/·^实现对缺失数据的高精度填充,这种方法可应用服务器、计算机等电子设备的工作状态等健康信息的数据采集、分析和利用领域。
具体实施方式
本发明的一种缺失数据项自动填充的方法,是针对服务器、计算机、电子设备的工作状态健康信息的数据分布特点,采用rf = ’填充项的缺失数据在概率上尽可能满足与原数据相同的概率分布特征,从而实现对缺失数据的高精度填充,其中d为自动生成的项的缺失数据,η为该项已有数据个数,Zf为该项已有数据的均值,σ为该项已有数据的标准差,mi)是均值为0,方差为1的正态分布随机数;这样得到的填充数它们的均值及方差,当η趋于正无穷大时与原数据的均值及方差相同;因此按公式=生成的缺失项数据最大可能与该项其它数据具有相同分布特征,能够最真实地反映缺失数据。实施例
如有某个数据项的10个数据,第5个缺失,其他9个分别为0.4,0. 45,0. 35,0. 44, 0. 38,0. 43,0. 43,0. 39,0. 4。它们的均值尹=0. 41,方差σ 2=[(0. 4-0. 41)2+(0. 45-0. 41)2+ (0. 35-0. 41)2+ (0. 44-0. 41) 2+ (0. 38-0. 41) 2+ (0. 43-0. 41) 2+ (0. 39-0. 41) 2+ (0. 43-0.41)2+ (0.4-0.41)2]/9=0.031,若产生的正态随机数为0. 1,则利用(1)得该缺失项的填充数据计算得0. 40。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
权利要求
1. 一种缺失数据项自动填充的方法,其特征在于,针对服务器、计算机、电子设备的工作状态健康信息的数据分布特点,采用^/ = /(-况供/;07·/斤填充项的缺失数据在概率上尽可能满足与原数据相同的概率分布特征,从而实现对缺失数据的高精度填充,其中d为自动生成的项的缺失数据,η为该项已有数据个数,私为该项已有数据的均值,O"为该项已有数据的标准差,拍W办是均值为0,方差为1的正态分布随机数;这样得到的填充数它们的均值及方差,当η趋于正无穷大时与原数据的均值及方差相同;因此按公式S = ZX-A^iUJD3VVin生成的缺失项数据最大可能与该项其它数据具有相同分布特征,能够最真实地反映缺失数据。
全文摘要
本发明提供一种缺失数据项自动填充的方法,是针对服务器、计算机、电子设备的工作状态健康信息的数据分布特点,采用填充项的缺失数据在概率上尽可能满足与原数据相同的概率分布特征,从而实现对缺失数据的高精度填充,其中d为自动生成的项的缺失数据,n为该项已有数据个数,为该项已有数据的均值,为该项已有数据的标准差,是均值为0,方差为1的正态分布随机数;这样得到的填充数它们的均值及方差,当n趋于正无穷大时与原数据的均值及方差相同。
文档编号G06F17/30GK102521268SQ201110372518
公开日2012年6月27日 申请日期2011年11月22日 优先权日2011年11月22日
发明者于治楼, 张云涛, 张化祥 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1