本申请涉及数据处理,特别是涉及一种基于等差距离重构时间序列的异常值检测方法和装置。
背景技术:
1、销量异常值分析作为商家重要的运营策略验证以及参考,从而使得商家在海量销量数据中发现或者检测异常值变得极为重要。
2、商品日销量序列属于整型时间序列以及泊松分布的一种,因此不宜采用box-plot、grubbs、方法,arma、arima模型等检测异常值。其次,序列的结构:,导致商品日销量序列不能使用lof、dbscan等高维算法进行异常值检测。
3、因此迫切需要研究能够有效的解决泊松分布日销量序列的异常值检测的方法。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种基于等差距离重构时间序列的异常值检测方法和装置。
2、一种基于等差距离重构时间序列的异常值检测方法,所述方法包括:
3、获取待检测时间序列,所述待检测时间序列是单变量时间序列。
4、根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
5、根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
6、在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法。
7、根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列,包括:
8、判断所述待检测时间序列是否为归一化处理后的序列。
9、如果是,则采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列。
10、如果否,则采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
11、在其中一个实施例中,采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:
12、采用归一等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述归一等差距离公式为:
13、;
14、其中,为第条记录的归一等差距离为待检测时间序列中记录的顺序号,,为待检测待重构时间序列的总记录数。
15、将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
16、在其中一个实施例中,采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:
17、采用最值等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述最值等差距离公式为:
18、;
19、其中,为第条记录的最值等差距离,为待检测时间序列中记录的顺序号,,为待检测时间序列的总记录数,为依附时间产生的其他属性。
20、将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
21、在其中一个实施例中,所述归一等差距离时间序列的矩阵为:
22、;
23、其中,为归一等差距离时间序列的矩阵,表示时间序列的时间属性,;表示依据归一等差距离算法生成的距离属性;表示依附产生的其他属性。
24、在其中一个实施例中,所述最值等差距离时间序列的矩阵为:
25、;
26、其中,为最值等差距离时间序列的矩阵,表示时间序列的时间属性,;表示依据最值等差距离算法生成的距离属性;表示依附产生的其他属性。
27、在其中一个实施例中,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
28、根据所述等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
29、在其中一个实施例中,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
30、根据所述等差距离时间序列采用局部离群因子检测算法或dbscan算法进行异常值检,输出待检测时间序列的异常值检测结果。
31、一种基于等差距离重构时间序列的异常值检测装置,所述装置包括:
32、时间序列获取模块,用于获取待检测时间序列,所述待检测时间序列是单变量时间序列。
33、等差距离时间序列重构模块,用于根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
34、异常值检测模块,用于根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
35、上述基于等差距离重构时间序列的异常值检测和装置。所述方法包括:获取单变量的待检测时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及bi系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。
1.一种基于等差距离重构时间序列的异常值检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,等差距离算法包括:归一等差距离算法和最值等差距离算法;
3.根据权利要求2所述的方法,其特征在于,采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:
4.根据权利要求2所述的方法,其特征在于,采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:
5.根据权利要求3所述的方法,其特征在于,所述归一等差距离时间序列的矩阵为:
6.根据权利要求4所述的方法,其特征在于,所述最值等差距离时间序列的矩阵为:
7.根据权利要求1所述的方法,其特征在于,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
8.根据权利要求1所述的方法,其特征在于,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
9.一种基于等差距离重构时间序列的异常值检测装置,其特征在于,所述装置包括: