数据仓库异常数据的检测方法及装置的制作方法

文档序号:6606507阅读:639来源:国知局
专利名称:数据仓库异常数据的检测方法及装置的制作方法
技术领域
本发明涉及管理信息系统及业务支撑领域,具体涉及一种数据仓库异常数据的检测方法及装置。
背景技术
数据仓库对海量数据进行抽取、转换、清洗和加载,从中挖据有分析价值的数据, 并通过不断聚集展示分析结果,为市场精准化营销水平和深度运营能力提供了有力支撑。 由此,数据质量监控或检测成为数据仓库建设的重中之重,现有检测方法一般包括如下步骤维护人员通过终端登陆前台系统,并访问经分后台数据库;维护人员通过前台系统的分析结果,如趋势分析图及双条对比分析线等,对系统生成的指标进行检查;分析当日数据与前日数据波动范围比例(或者计算年同期比,月同期环比),分析历史数据并设定波动阀值,在数据波动范围超过阀值时进行数据异常告警;以及,根据检查结果初步分析波动原因,并通过后台数据库表,检查明细,如果指标不正常,则处理故障。现有数据仓库异常数据的检测技术有如下不足(1)凭对历史数据的经验观察设定用于检测异常数据的波动阈值,不能及时、准确地发现系统生成指标的变化异常,同时现有人工监控不能及时在众多的系统生成指标中发现异常数据,数据监控效率低;(2)数据仓库中大部分数据都具有时序特征,而现有检测方法没有针对数据的时序性进行监控,对具有周期性的数据监控易出现错误告警;(3)无法监控渐进性异常数据;(4)不能及时发现系统生成多指标的数据联动异常波动。

发明内容
本发明的第一目的是提出一种准确高的数据仓库异常数据的检测方法。本发明的第二目的是提出一种准确高的数据仓库异常数据的检测装置。为实现上述第一目的,本发明提供了一种数据仓库异常数据的检测方法包括根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数据;根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。为实现上述第二目的,本发明提供了一种数据仓库异常数据的检测装置,包括阈值确定模块,用于根据指标参数的历史时序数据确定检测阈值,以及根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;检测模块,用于根据检测阈值,确定指标参数的当前时序数据中的初始异常时序数据;剔重模块,用于根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。本发明各个实施例通过根据历史时序数据信息确定检测阈值,进而根据该检测阈值确定异常时序数据,克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时根据历史时序数据的时序信息对根据检测阈值确定的初始异常数据进行周期性异常数据的剔重处理,得到真正异常的当前异常时序数据,提高检测的准确率。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一并用于解释本发明,并不构成对本发明的限制。在附图中图1为本发明的数据仓库异常数据的检测方法的实施例一流程图;图2为本发明的数据仓库异常数据的检测方法的实施例二流程图;图3为本发明的数据仓库异常数据的检测装置的实施例结构图。
具体实施例方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。方法实施例图1为本发明的数据仓库异常数据的检测方法的实施例一流程图。如图1所示, 本实施例包括步骤102 根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数据;详见图2的解释说明;步骤104 根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;详见图2的解释说明;步骤106 根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据; 详见图2的解释说明。本实施例通过根据历史时序数据信息确定检测阈值,进而根据该检测阈值确定异常时序数据,克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时根据历史时序数据的时序信息对根据检测阈值确定的初始异常数据进行周期性异常数据的剔重处理, 得到真正异常的当前异常时序数据,提高检测的准确率。图2为本发明的数据仓库异常数据的检测方法的实施例二流程图。如图2所示, 本实施例包括步骤201 将指标参数的历史时序数据及当前时序数据进行预处理以符合正态分布;具体操作时,可以包括首先,提取每个指标(即指标参数)的历史数据(如最近200天的历史数据),分别计算每个指标是否属于正态分布;如,具体操作时,可以计算四分位A和标准差s,进而计算比值仏/S,若指标的比值仏/S在[1.28,1.32]之间则符合正态分布,否则不符合正态分布;其次,在指标不符合正态分布时进行数据转换,如进行指数变换以保证满足正态分布;最后,将时间特征与历史数据一一对应,得到历史时序数据,如,具体操作时可以将历史数据与其产生的月,日,星期等信息关联;步骤202 根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数据;具体操作时,可以将指标参数的历史时序数据的平均值确定为检测阈值,分别计算指标参数的当前时序数据与该平均值间的差值,将差值的绝对值大于预设值的当前时序数据确定为初始异常时序数据;还可以判断指标参数的标准差与历史时序数据平均值的差异,如果差异大于预设值,如士2. 5,说明数据异常的概率已经达到90%以上;另外也可以
利用聚类计算方法,如将数据分为15个组,每个类里面有K个元素,取
权利要求
1.一种数据仓库异常数据的检测方法,其特征在于,包括根据指标参数的历史时序数据确定检测阈值,并根据所述检测阈值确定所述指标参数的当前时序数据中的初始异常时序数据;根据所述指标参数的历史时序数据中的异常时序数据,确定所述异常时序数据的周期;根据所述周期对所述初始异常时序数据进行剔重处理,得到当前异常时序数据。
2.根据权利要求1所述的数据仓库异常数据的检测方法,其特征在于,还包括 选择与预设百分位对应的所述指标参数的历史时序数据;根据所述预设百分位对应的历史时序数据及所述异常时序数据的周期判断所述指标参数的当前时序数据是否存在渐近性异常。
3.根据权利要求1所述的数据仓库异常数据的检测方法,其特征在于,还包括 根据所述指标参数的历史时序数据中的正常历史时序数据以及另一指标参数的历史时序数据中的正常历史时序数据,确定所述指标参数与另一指标参数的联动系数;在所述指标参数的当前时序数据与所述另一指标参数的当前时序数据不满足所述联动系数时,判定所述指标参数的当前时序数据与所述另一指标参数的当前时序数据异常。
4.根据上述权利要求1-3中任一项所述的数据仓库异常数据的检测方法,其特征在于,在所述根据指标参数的历史时序数据确定检测阈值的步骤之前包括将所述指标参数的历史时序数据及当前时序数据进行符合正态分布的预处理。
5.根据权利要求4所述的数据仓库异常数据的检测方法,其特征在于,所述根据指标参数的历史时序数据确定检测阈值,并根据所述检测阈值确定所述指标参数的当前时序数据中的初始异常时序数据的步骤包括将所述指标参数的历史时序数据的平均值确定为所述检测阈值; 分别计算所述指标参数的当前时序数据与所述检测阈值间差值,将差值的绝对值大于预设值的当前时序数据确定为所述初始异常时序数据。
6.根据权利要求5所述的数据仓库异常数据的检测方法,其特征在于,所述根据所述指标参数的历史时序数据中的异常时序数据,确定所述异常时序数据的周期的步骤包括根据所述指标参数的历史时序数据的标准差,确定所述异常历史时序数据; 根据所述异常历史时序数据的时序信息确定备选周期,并统计所述异常历史时序数据基于每一备选周期的发生概率,并将概率最大的备选周期作为所述异常时序数据的周期。
7.一种数据仓库异常数据的检测装置,其特征在于,包括阈值确定模块,用于根据指标参数的历史时序数据确定检测阈值,以及根据所述指标参数的历史时序数据中的异常时序数据,确定所述异常时序数据的周期;检测模块,用于根据所述检测阈值,确定所述指标参数的当前时序数据中的初始异常时序数据;剔重模块,用于根据所述周期对所述初始异常时序数据进行剔重处理,得到当前异常时序数据。
8.根据权利要求7所述的数据仓库异常数据的检测装置,其特征在于,还包括分布异常检测模块,用于选择与预设百分位对应的所述指标参数的历史时序数据;根据所述预设百分位对应的历史时序数据及所述异常时序数据的周期判断所述指标参数的当前时序数据是否存在渐近性异常。
9.根据权利要求7所述的数据仓库异常数据的检测装置,其特征在于,还包括联动异常检测模块,用于根据所述指标参数的历史时序数据中的正常历史时序数据以及另一指标参数的历史时序数据中的正常历史时序数据,确定所述指标参数与另一指标参数的联动系数;在所述指标参数的当前时序数据与所述另一指标参数的当前时序数据不满足所述联动系数时,判定所述指标参数的当前时序数据与所述另一指标参数的当前时序数据异常。
10.根据上述权利要求7-9中任一项所述的数据仓库异常数据的检测装置,其特征在于,还包括预处理模块,用于将所述指标参数的历史时序数据及当前时序数据进行符合正态分布的预处理。
全文摘要
本发明提供了一种数据仓库异常数据的检测方法及装置,其中,该检测方法包括根据指标参数的历史时序数据确定检测阈值,并根据检测阈值确定指标参数的当前时序数据中的初始异常时序数据;根据指标参数的历史时序数据中的异常时序数据,确定异常时序数据的周期;根据周期对初始异常时序数据进行剔重处理,得到当前异常时序数据。本发明克服了凭经验设定阈值不能准确发现数据波动异常的缺点,同时实现得到真正异常的当前异常时序数据,提高检测的准确率。
文档编号G06F17/30GK102339288SQ201010235550
公开日2012年2月1日 申请日期2010年7月21日 优先权日2010年7月21日
发明者范哲 申请人:中国移动通信集团辽宁有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1