一种电子商务时间序列数据的异常检测方法及系统的制作方法

文档序号:9200860阅读:326来源:国知局
一种电子商务时间序列数据的异常检测方法及系统的制作方法
【技术领域】
[0001]本发明涉及电子商务相关技术领域,特别是一种电子商务时间序列数据的异常检测方法及系统。
【背景技术】
[0002]时间序列是按时间先后顺序排列的各个观测记录的有序集合。在电子商务业务中,随着时间的推移,时间序列通常包含大量的数据,对于时间序列的分析,可以揭示电子商务业务运动、变化和发展的内在规律,尤其对于数据异常的来说,往往包含着更多重要的信息和知识,因此,如何快速有效地检测出这些异常是一项具有重要意义的工作,例如有时候订单数据异常地大,背后可能意味着巨大的市场机会;利润数据的异常增长,可能意味着有降低产品成本或提升利润的地方有待定位和挖掘;而用户数的异常减少,可能意味着某种市场风险或运营效率低下等问题的发生,等等异常数据在电子商务业务运营中需要及时地发现和定位原因,而电子商务业务的多变性、复杂性和大数据量等特征,为异常数据的检测带来了不小的挑战。
[0003]对于时间序列数据的异常检测,现有的技术方案通常利用业务逻辑和强假设的统计模型,大致采用两种方法:
[0004](I)业务逻辑主观阈值法
[0005]采用移动平均值或环比、同比作为基准值,把待判断数据域基准值的变化率计算出来,然后与阈值比较,超过阈值则判定为异常,通常这个阈值是主观确定的。这样做有两个缺点,一个是阈值是业务人员主观确定,不同的人对业务的理解程度不一样可能产生不同的阈值,而且可解释性较差;另一方面通过环比、同比数据作为基准值的时候,当多个异常数据同时出现的时候,由于前面的异常数据过大或过小会使后面异常数据的环比或同比数据趋于平稳,从而无法发现后面连续的异常数据,就像被“屏蔽”一样。如图1所示:
[0006]例如6月18日前后三天的数据都异常变大,但是用环比数据计算的时候,后面两天由于第一天数据特别大,计算的环比变化就会很小,这样就只能发现第一天的数据点异常,后面两天的异常数据就会被第一天数据“屏蔽”掉而检测不出来。
[0007](2)强假设统计模型判别法
[0008]统计模型经常会有数据满足某种特定分布的假设条件,常用的是满足正态分布,在正态分布假设下,正常值区间范围为:均值η倍标准差,η取1-3的时候,落在此区域的概率分别为68.29%,95.45%和99.73%,数据在正常值区间外的情况属于小概率事件,定义为异常值。
[0009]目前上述发现时间序列数据异常的方法中,第一种业务逻辑主观阈值法存在阈值定义主观、存在“屏蔽”效应等多种条件,在检测可解释性和精度上都存在较大问题;另一种强假设统计模型判断法则存在假设依赖太强的问题,实际的电子商务数据是非常复杂的,很少有符合某种特定分布的情况,这就使得统计模型的使用范围受到限制,模型效力也大大削弱。

【发明内容】

[0010]基于此,有必要针对现有技术并不能很好地检验出电子商务数据的异常数据,提供一种电子商务时间序列数据的异常检测方法及系统。
[0011]一种电子商务时间序列数据的异常检测方法,包括:
[0012]数据获取步骤,包括:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测步骤,执行基准检测步骤的数据为待检测数据;
[0013]基准检测步骤,包括:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用步骤,其中,所述N为预设的大于I的自然数;
[0014]异常调用步骤,包括:把异常数据作为应用接口提供给需求方调用。
[0015]一种电子商务时间序列数据的异常检测系统,包括:
[0016]数据获取模块,用于:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测模块,执行基准检测模块的数据为待检测数据;
[0017]基准检测模块,用于:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用模块,其中,所述N为预设的大于I的自然数;
[0018]异常调用模块,用于:把异常数据作为应用接口提供给需求方调用。
[0019]本发明通过基准检测,基于稳健统计方法实现时序波动识别,适用于各种分布情况。本发明能够针对电子商务不同业务场景、不同数据分布形式,自动发现数据异常。
【附图说明】
[0020]图1为现有技术环比指标屏蔽效应不意图;
[0021]图2为本发明一种电子商务时间序列数据的异常检测方法的工作流程图;
[0022]图3为分位数异常点示意图;
[0023]图4为正态分布与分位数值对比图;
[0024]图5为本发明的最佳实施例的系统结构图;
[0025]图6为本发明最佳实施例的工作流程图;
[0026]图7为本发明一种电子商务时间序列数据的异常检测系统的结构模块图。
【具体实施方式】
[0027]下面结合附图和具体实施例对本发明做进一步详细的说明。
[0028]如图2所示为本发明一种电子商务时间序列数据的异常检测方法的工作流程图,包括:
[0029]步骤S201,包括:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行步骤S202,执行步骤S202的数据为待检测数据;
[0030]步骤S202,包括:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行步骤S203,其中,所述N为预设的大于I的自然数;
[0031]步骤S203,包括:把异常数据作为应用接口提供给需求方调用。
[0032]步骤S201所获取的电子商务数据是基于时间序列的数据,一般来说,电子商务数据并不能完全符合现有的统计分布模型,从而导致现有的统计检测异常数据的方法不能使用。本发明在步骤S202中,采用了分位数的统计方法,分位数的方法对于任何分布,甚至包含错误值或多个异常数据的统计计算都很稳健,基本原理是计算数据在该统计窗口的所有数据中所占的位置从而确定正常值范围。
[0033]步骤S203,具体来说,将异常数据结果加工成标准的结构化数据,例如hdfs文件、hbase文件、xml或文本文件等形式,存入MySQL或分布式数据库,通过数据库系统直接调用、API调用或者通过标准的互联网数据传输协议,供下游需求方使用
[0034]本发明通过采用分位
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1