一种基于DTW和周期提取的时间序列聚类方法与流程

文档序号:17994584发布日期:2019-06-22 01:05阅读:463来源:国知局
一种基于DTW和周期提取的时间序列聚类方法与流程

本发明涉及一种时间序列聚类方法,尤其涉及一种基于dtw和周期提取的时间序列聚类方法。



背景技术:

dynamictimewarping(dtw)诞生有一定的历史了,它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法,应用也比较广,主要是在模板匹配中,比如说用在孤立词语音识别、手势识别、数据挖掘和信息检索等中,在大部分的学科中,时间序列是数据的一种常见表示形式,对于时间序列处理来说,一个普遍的任务就是比较两个序列的相似性,在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同,运用在商户运营中时,根据商户最近三月的营业情况聚类商户的营业规律,而传统的时间序列聚类不能采用常用的欧式距离度量,周期性可能会受其他因素影响,因此,研发一种基于dtw和周期提取的时间序列聚类方法是解决上述问题的关键所在。

在申请公布号为cn106777980a,申请公布日为2017.05.31的发明专利中公开了一种基于dtw的时间序列相似性预测方法,属于时间序列数据挖掘技术领域。该方法将目前已知的对dtw进行加速的方法,如lb_kim、lb_keogh、逆lb_keogh和传统的dtw方法等进行级联,在不同阶段利用不同方法对查询集进行过滤。同时,为了提高查询准确性,在计算dtw距离之前对查询序列进行标准化,在读取数据的过程中,同步进行标准化,进一步提高算法效率。然后,将改进的dtw方法应用到时间序列的类比合成预测方法中,从而提高预测的速度与精度。本方法充分利用不同方法的优点,有效的提高了时间序列的查询速度,继而提高了类比合成预测方法的速度和准确性。

但这种基于dtw的时间序列相似性预测方法不具有周期提取功能,周期性会受其他因素影响,结果不准确。



技术实现要素:

(一)解决的技术问题

针对现有技术所存在的上述缺点,本发明提供了一种基于dtw和周期提取的时间序列聚类方法,能够有效克服现有技术所存在的用常规的欧式距离度量周期性会受其他因素影响,且不具有周期提取功能,结果不准确的缺陷。

(二)技术方案

为了实现上述目的,本发明通过以下技术方案予以实现:

一种基于dtw和周期提取的时间序列聚类方法,包括以下步骤:

步骤一,提取商户最近六个月营业额时间序列;

步骤二,对时间序列进行0位均值1为方差的标准化;

步骤三,销售额时间序列分解为周期、趋势和残差,并提取周期;

步骤四,用dtw距离替换聚类的欧式距离;

步骤五,聚类得出常规商户的营业规律。

优选的,所述步骤一包括数据选取范围确定、缺失值处理、异常值处理。

优选的,所述缺失值处理缺失值用0补充表示该天未营业,所述异常值处理对每个商户营业额分布进行查看并选取商户营业额数据位于分布95%内的数据且大于95%的用最大值替换。

优选的,所述步骤二采用标准差公式进行标准化,所述标准差公式为x*=(x-μ)/σ。

优选的,所述步骤三采用加法模型将销售额时间序列分解为周期、趋势、残差,所述周期采用周作为时间单位并只提取周期信息。

优选的,所述步骤四引入时间序列q和c,所述时间序列q和c都拥有n个数据点。

(三)有益效果

与现有技术相比,本发明提供了一种基于dtw和周期提取的时间序列聚类方法,产生的有益效果为:创造性的用dtw(动态时间规划)代替欧式距离,提取序列周期排除其他因素,避免了周期性可能会受其他因素影响的缺陷,能较好的区分商户营业规律,平稳,无规律,可根据不同的营业规律采取不同的贷款政策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明方法流程示意图;

图2为本发明的步骤一流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于dtw和周期提取的时间序列聚类方法,如图1至图2所示,包括以下步骤:

步骤一,提取商户最近六个月营业额时间序列;

步骤二,对时间序列进行0位均值1为方差的标准化;

步骤三,销售额时间序列分解为周期、趋势和残差,并提取周期;

步骤四,用dtw距离替换聚类的欧式距离;

步骤五,聚类得出常规商户的营业规律。

具体的,步骤一包括数据选取范围确定、缺失值处理、异常值处理;缺失值处理缺失值用0补充表示该天未营业,异常值处理对每个商户营业额分布进行查看并选取商户营业额数据位于分布95%内的数据且大于95%的用最大值替换;步骤二采用标准差公式进行标准化,标准差公式为x*=(x-μ)/σ;步骤三采用加法模型将销售额时间序列分解为周期、趋势、残差,周期采用周作为时间单位并只提取周期信息;步骤四引入时间序列q和c,时间序列q和c都拥有n个数据点。

使用时,提取商户最近六个月营业额时间序列;数据选取范围确定:选取营业额在至少在半年内的商户,因为商户前三月属于发展期,数据稳定性差,商户活动较多,所以至少选取有6个月营业的商户;缺失值处理:缺失值用0补充表示该天未营业;异常值处理:对每个商户营业额分布进行查看,选取商户营业额数据位于分布95%内的数据,大于95%的用最大值替换,防止商户做活动销售额异常高的情况。对时间序列进行0位均值1为方差的标准化;由于不同店铺的每天营业额范围不一致,如a店日营业额范围在[0,2000],b店日营业额范围在[0,100000]等,不同的数值范围相互之间不能进行比较需要对数据进行处理且不影响数据的走势和波动情况采用标准差进行标准化,标准差公式为x*=(x-μ)/σ,其中μ为商户日销售额的均值,σ为商户日销售额的标准差。销售额时间序列分解为周期、趋势和残差,并提取周期;销售额周期性会受到趋势影响,采用加法模型将销售额时间序列分解为周期、趋势、残差,采用周为周期,并只提取周期信息。用dtw距离替换聚类的欧式距离;引入时间序列q和c,时间序列q和c都拥有n个数据点,用这两个时间序列去构造一个n×n的矩阵,这个矩阵中的第i,j项代表的是数据点qi和cj之间的欧氏距离,需要通过这个矩阵找到一个变量,通过该变量可以使所有的欧氏距离和最小,这个变量可以决定两个时间序列之间的最优非线性定位,需要注意的是,对于其中一个时间序列上的数据点,它是有可能映射到另一条时间序列上的多个数据点。聚类得出常规商户的营业规律。

本发明提供了一种基于dtw和周期提取的时间序列聚类方法,产生的有益效果为:创造性的用dtw(动态时间规划)代替欧式距离,提取序列周期排除其他因素,避免了周期性可能会受其他因素影响的缺陷,能较好的区分商户营业规律,平稳,无规律,可根据不同的营业规律采取不同的贷款政策。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1