一种电子商务时间序列数据的异常检测方法及系统的制作方法_4

文档序号:9200860阅读:来源:国知局
br>1.一种电子商务时间序列数据的异常检测方法,其特征在于,包括: 数据获取步骤,包括:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测步骤,执行基准检测步骤的数据为待检测数据; 基准检测步骤,包括:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用步骤,其中,所述N为预设的大于I的自然数; 异常调用步骤,包括:把异常数据作为应用接口提供给需求方调用。2.根据权利要求1所述的电子商务时间序列数据的异常检测方法,其特征在于,还包括:如果所述电子商务数据连续M期的数据执行基准检测步骤未检测出异常数据,则将所述电子商务数据连续M期的数据作为组合检测数据,执行组合检测步骤,其中M为预设的大于I的自然数,所述组合检测步骤,对所述组合检测数据进行包括时序趋势分析或时序因果推断,并将时序趋势分析或时序因果推断得到的异常数据进行回溯性断点分析。3.根据权利要求2所述的电子商务时间序列数据的异常检测方法,其特征在于, 所述时序趋势分析包括:将所述组合检测数据基于时间序列分解为线性增长趋势、高速增长趋势、周期性增长趋势,从所述电子商务数据中选取不满足所述线性增长趋势、高速增长趋势、周期性增长趋势的数据作为异常数据; 所述时序因果推断包括:从所述组合检测数据中选择第一数据组和第二数据组,所述第一数据组和第二数据组具有相同类型的概率分布,计算第一数据组的数据变化范围作为正常数据变化范围,将第二数据组中超过所述正常数据变化范围的数据作为异常数据。4.根据权利要求2所述的电子商务时间序列数据的异常检测方法,其特征在于,所述回溯性断点分析包括:将所述时序趋势分析或所述时序因果推断的异常数据对应的时间点作为当前时间点tnOT向前回溯,每次比较每个时间点前区间rangel内的组合检测数据的前均值Dl和时间点后区间range2内组合检测数据的后均值D2,rangel和range2的时间间隔相同,如果时间点tf_的前均值和后均值的变化超过预设阈值,则认为时间点t 的前区间rangel和后区间range2的数据有异常,从时间点tf_到t η?时间段内的组合检测数据作为异常数据。5.根据权利要求1所述的电子商务时间序列数据的异常检测方法,其特征在于,所述分位数统计,具体包括: 对窗口统计数据按数据大小排序,计算窗口统计数据的中位数、上四分位数、下四分位数,所述中位数为窗口统计数据排序后处于所有数据中间位置的数据,所述上四分位数为窗口统计数据排序后处于所有数据四分之一位置的数据,所述下四分位数为窗口统计数据排序后出于所有数据四分之三位置的数据,计算下四分位数和上四分位数的差值的绝对值作为四分位距,确定所述正常值上边界值为中位数减去k倍四分位距,确定所述正常值下边界值为中位数加上k倍四分位距,其中,所述k为大于I的自然数。6.一种电子商务时间序列数据的异常检测系统,其特征在于,包括: 数据获取模块,用于:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测模块,执行基准检测模块的数据为待检测数据; 基准检测模块,用于:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用模块,其中,所述N为预设的大于I的自然数; 异常调用模块,用于:把异常数据作为应用接口提供给需求方调用。7.根据权利要求6所述的电子商务时间序列数据的异常检测系统,其特征在于,还包括:如果所述电子商务数据连续M期的数据执行基准检测模块未检测出异常数据,则将所述电子商务数据连续M期的数据作为组合检测数据,执行组合检测模块,其中M为预设的大于I的自然数,所述组合检测模块,对所述组合检测数据进行包括时序趋势分析或时序因果推断,并将时序趋势分析或时序因果推断得到的异常数据进行回溯性断点分析。8.根据权利要求7所述的电子商务时间序列数据的异常检测系统,其特征在于, 所述时序趋势分析包括:将所述组合检测数据基于时间序列分解为线性增长趋势、高速增长趋势、周期性增长趋势,从所述电子商务数据中选取不满足所述线性增长趋势、高速增长趋势、周期性增长趋势的数据作为异常数据; 所述时序因果推断包括:从所述组合检测数据中选择第一数据组和第二数据组,所述第一数据组和第二数据组具有相同类型的概率分布,计算第一数据组的数据变化范围作为正常数据变化范围,将第二数据组中超过所述正常数据变化范围的数据作为异常数据。9.根据权利要求7所述的电子商务时间序列数据的异常检测系统,其特征在于,所述回溯性断点分析包括:将所述时序趋势分析或所述时序因果推断的异常数据对应的时间点作为当前时间点tnOT向前回溯,每次比较每个时间点前区间rangel内的组合检测数据的前均值Dl和时间点后区间range2内组合检测数据的后均值D2,rangel和range2的时间间隔相同,如果时间点tf_的前均值和后均值的变化超过预设阈值,则认为时间点t 的前区间rangel和后区间range2的数据有异常,从时间点tf_到t η?时间段内的组合检测数据作为异常数据。10.根据权利要求6所述的电子商务时间序列数据的异常检测系统,其特征在于,所述分位数统计,具体包括: 对窗口统计数据按数据大小排序,计算窗口统计数据的中位数、上四分位数、下四分位数,所述中位数为窗口统计数据排序后处于所有数据中间位置的数据,所述上四分位数为窗口统计数据排序后处于所有数据四分之一位置的数据,所述下四分位数为窗口统计数据排序后出于所有数据四分之三位置的数据,计算下四分位数和上四分位数的差值的绝对值作为四分位距,确定所述正常值上边界值为中位数减去k倍四分位距,确定所述正常值下边界值为中位数加上k倍四分位距,其中,所述k为大于I的自然数。
【专利摘要】本发明公开一种电子商务时间序列数据的异常检测方法及系统,方法包括:获取基于时间序列的电子商务数据;选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据;把异常数据作为应用接口提供给需求方调用。本发明通过基准检测,基于稳健统计方法实现时序波动识别,适用于各种分布情况。本发明能够针对电子商务不同业务场景、不同数据分布形式,自动发现数据异常。
【IPC分类】G06Q30/00, G06F21/31
【公开号】CN104915846
【申请号】CN201510342240
【发明人】刘朋飞, 牟川, 李亮
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
【公开日】2015年9月16日
【申请日】2015年6月18日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1