噪点剔除方法

文档序号:6543780阅读:465来源:国知局
噪点剔除方法
【专利摘要】本发明涉及一种噪点剔除方法,包括:S1、获取数据样本;S2、设定滑窗大小;S3、剔除每一滑窗中的噪点数据;S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值;S5、获取各所述滑窗代表值作为参考数据样本;S6、确定是否再次设定滑窗大小;S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本。采用本发明所公开的噪点剔除方法处理后所得到的参考数据样本能够更好地反映数据的趋势特征,以便对后阶段的业务系统的发展趋势进行预测,提前预知可能的风险、故障,提前做好资源规划。
【专利说明】噪点剔除方法
【技术领域】
[0001]本发明涉及IT系统的数据处理领域,尤其涉及一种噪点剔除方法。
【背景技术】
[0002]在企业IT系统日常运维中,通常需要对业务系统生产运行产生的海量的历史数据进行分析,提取其趋势特征,以便对后阶段的结果进行预测,提前预知可能的风险、故障,或提前做好资源规划。
[0003]而通常由于设备软硬件异常、网络延时、故障或其他非常规操作等会导致原始数据样本中存在一些“噪点”,若不对这些噪点进行剔除,则会直接影响数据的分析,特征的提取以及后续的趋势预测,导致分析与预测的不准确性,无法真实反应业务系统的发展趋势。
[0004]而基于目前搜索到的资料,噪点剔除方法,通常应用于图像、声音处理等专业领域,无法解决IT行业的数据样本的噪点剔除问题。另外,传统的基于方差的噪点剔除方法,一般无法灵活地控制噪点剔除的粒度。

【发明内容】

[0005]本发明所要解决的技术问题是IT系统的噪点剔除。
[0006]为此目的,本发明提出了一种剔除差异较大的离群点,并且可以通过动态控制滑窗的大小,达到从不同粒度剔除噪点的目的的噪点剔除方法。
[0007]一种噪点剔除方法,包括:
[0008]S1、获取数据样本;
[0009]S2、设定滑窗大小;
[0010]S3、剔除每一滑窗中的噪点数据;
[0011]S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值;
[0012]S5、获取各所述滑窗代表值作为参考数据样本;
[0013]S6、确定是否再次设定滑窗大小,
[0014]若滑窗大小不大于预设的上限值,再次设定滑窗大小,重复步骤S2-S5,获取不同大小的滑窗对应的所述滑窗代表值,
[0015]若滑窗大小达到预设的上限值,取各所述参考数据样本的集合作为进一步数据分析的样本;
[0016]S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本;
[0017]其中,所述理论基准样本为基于历史数据学习得出的最优理论样本。
[0018]作为一种优选,步骤S2中可将滑窗大小设置为一大于等于I的数值作为滑窗的初始值,在步骤S6中,若滑窗大小不大于预设的上限值每次将滑窗大小增大一固定值,重复步骤S2-S5。[0019]优选的,步骤SI包括:S11、获取所述数据样本的数值范围。
[0020]优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于前一部分的数据样本。
[0021]优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于前四分之一的数据样本。
[0022]优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于后一部分的数据样本。
[0023]优选的,步骤S3中剔除的为数值在所述数据样本的数值范围中排列于后四分之一的数据样本。
[0024]采用本发明所公开的噪点剔除方法通过设定不同大小的滑窗对获取的数据样本进行划分,并以各滑窗为单位对海量的多维数据集进行噪点剔除,最终以不同大小的各滑窗剔除噪点后的对应滑窗代表值作为进一步的数据分析的样本,能够灵活控制和提升数据样本点的质量,为基于历史数据进行未来趋势预测提供了更高的准确度。
【专利附图】

【附图说明】
[0025]通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
[0026]图1示出了本发明的流程图。
[0027]图2示出了滑窗定义的辅助说明图。
【具体实施方式】
[0028]下面将结合附图对本发明的实施例进行详细描述。
[0029]如图1所示,为本发明的噪点剔除方法,包括:
[0030]S1、获取数据样本:
[0031]S11、对从IT系统监控到的数据集进行扫描并将该数据集作为数据样本,假设数据样本点总数为m,获取该数据样本的m个数据的取值范围[a,b]。
[0032]S2、设定滑窗大小:
[0033]设定滑窗大小η (即每个滑窗内含有η个数据样本点),η取值范围为[l,m],则原始数据集被划分成k个滑窗(即k组),其中k=[m/n],在本实施例中,作为一种优选,设置滑窗大小为4。
[0034]S3、剔除每一滑窗中的噪点数据:
[0035]对每一个滑窗内的数据,可以按照一定的方法进行噪点剔除,具体的剔除方法可以不同,比如:可以剔除最大点最小点;可以剔除方差最大的点;可以将滑窗内的数据取值控制在一定的范围内等。根据大数定律和中心极限定律,运维监控数据可以经过一定步骤的数学变化变成为标准正态分布,因而,这些数据在原本形态中以一个很大的概率分布在一个相对较小的区间内。
[0036]作为一种优选的实施方式,本发明采用如下方法进行噪点剔除:
[0037]对每一个滑窗内的数据,对数值大小位于该数据样本的m个数据的取值范围即[a, b]区间的前1/4或者后1/4的数据进行剔除。[0038]S4、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值。
[0039]S5、获取各所述滑窗代表值作为参考数据样本。
[0040]S6、确定是否再次设定滑窗大小,
[0041]作为一种优选,在本实施例中将预设的上限值设定为96,固定值设定为4,若滑窗大小不大于预设的上限值即96则每次将滑窗大小增大固定值4,重复步骤S2-S5,
[0042]即,若滑窗大小不大于96,则将滑窗大小递增4,重复步骤S2-S5,获取不同大小的滑窗对应的滑窗代表值,
[0043]若滑窗大小=96,取各参考数据样本的集合作为进一步数据分析的样本;
[0044]S7、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本;
[0045]其中,上述的理论基准样本为基于历史数据学习得出的最优理论样本。
[0046]如图2所示,为对滑窗定义的辅助说明图,其中,滑窗,顾名思义,即滑动的窗口,是可以变大或者变小的,本发明中,该滑窗的大小可以由操作人员根据实际情况设定。
[0047]采用本发明的噪点剔除方法有效筛除了 IT系统监控到的数据集中由于设备软硬件异常、网络延时、故障或其他非常规操作等导致的噪点,处理后所得到的参考数据样本能够更好地反映数据的趋势特征,以便对后阶段的业务系统的发展趋势进行预测,提前预知可能的风险、故障,提前做好资源规划。
[0048]虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
【权利要求】
1.一种噪点剔除方法,其特征在于,包括: 51、获取数据样本; 52、设定滑窗大小; 53、剔除每一所述滑窗中的噪点数据; 54、取各所述滑窗内剔除噪点数据后的剩余数据样本的平均值为该滑窗的滑窗代表值; 55、获取各所述滑窗代表值作为参考数据样本; 56、确定是否再次设定滑窗大小, 若滑窗大小不大于预设的上限值,再次设定滑窗大小,重复步骤S2-S5,获取不同大小的滑窗对应的所述滑窗代表值, 若滑窗大小达到预设的上限值,取各所述参考数据样本的集合作为进一步数据分析的样本; 57、将多组不同滑窗大小下获得的参考数据样本与理论基准样本做比对,选择误差最小的参考数据样本作为最终的样本; 其中,所述理论基准样本为基于历史数据学习得出的最优理论样本。
2.根据权利要求1所述噪点剔除方法,其特征在于,步骤SI包括:S11、获取所述数据样本的数值范围。
3.根据权利要求2所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于前一部分的数据样本。
4.根据权利要求3所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于前四分之一的数据样本。
5.根据权利要求2所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于后一部分的数据样本。
6.根据权利要求5所述噪点剔除方法,其特征在于,步骤S3中的所述噪点数据为数值在所述数据样本的数值范围中排列于后四分之一的数据样本。
【文档编号】G06Q10/04GK103942615SQ201410150573
【公开日】2014年7月23日 申请日期:2014年4月15日 优先权日:2014年4月15日
【发明者】林强, 黄剑文, 姜唯, 周开东, 彭泽武, 王甜, 曾初阳, 罗欢, 李娜, 蔡利勉 申请人:广东电网公司信息中心, 广州博纳信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1