基于聚类算法和回声状态网络的异常消费行为检测方法与流程

文档序号:12306488阅读:572来源:国知局

本发明涉及信息技术领域,具体的说是一种基于聚类算法和回声状态网络的异常消费行为检测方法。



背景技术:

随着高校数字化和信息化的深入发展,校园一卡通得到了广泛的使用。一卡通中存储了大量的学生消费记录信息,从中挖掘有价值的信息对学生行为进行分析,极大地推动了学生管理工作的高效运行。

目前基于一卡通数据的分析非常广泛,如通过校园一卡通数据研究学生校内的学习、消费及作息行为特点;通过对一卡通消费数据执行聚类算法,分析一卡通消费和学习成绩之间的关系;还有基于一卡通消费数据的异常检测。从经济的角度来讲,异常消费行为检测不仅可以为学生提供贴心的金融服务,也可以及早地发现学生的异常消费行为,对学生实施相应的支持和帮助。

早期的异常检测方法主要是基于统计、遗传算法和神经网络的方法,但是这些方法没有利用时间序列的时间依赖性,异常检测性能受限。

实际消费数据通常存在随机噪声,常规基于预测的异常检测方法存在训练误差很低、测试误差很高的过拟合问题。

针对预测算法输入输出中存在的过拟合问题,目前常用的方法是正则化及后验贝叶斯概率方法,但是受限于训练数据本身的随机噪声影响,这些方法获得的估计精度有限。



技术实现要素:

针对上述现有基于预测的异常检测中存在的过拟合等问题,本发明提供一种基于聚类算法和回声状态网络预测的异常消费行为检测方法。

为解决上述技术问题,本发明采用的技术方案为:

一种基于聚类算法和回声状态网络的异常消费行为检测方法,包括以下步骤:

步骤一:确定相关时间序列采集范围、数据预处理和异常数据初步检测;

步骤二:相关时间序列搜索,待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,其相关性判断采用如下公式:

(1)

其中t和r是两个长度分别为mn的时间序列,有:

wk为相邻矩阵元素的集合称为弯曲路径,其由距离相异矩阵a确定:

式中a中的元素aij为两个时间序列点tirj之间的欧几里得距离;

设定相关性阈值jthreshold,当jdtw(t,rq)<jthreshold,q=1,…,q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中q是采集的时间序列个数;

步骤三:将预处理后的输入序列和输出序列送入到回声状态网络,储蓄池回声状态向量x(t)和输出向量y(t)模型如下:

(2)

式中win和wx分别为输入权值矩阵和储备池连接权值矩阵,它们是已知的;wout为储备池输出连接矩阵,是唯一由需要训练求解的参数;时刻储备池内部状态向量x(t)由当前输入uin(t)和上一时刻状态x(t-1)共同激发产生;输出权值使用最小二乘求解输出权值,表示为:

(3)

式中是x的伪拟;

步骤四:下一时刻的时间序列预测

通过下式获取所述预测数据:

(4)

其中,为第时刻输入值,为第时刻预测数据,为估计的输出权值矩阵;

步骤五:使用回声状态网络估计的预测值,计算其和真实值的差异,若超过设定阈值err,则判断为异常数据,否则判断为正常数据。

所述步骤二中的动态时间规整算法用于找到待预测时间序列的相关序列,作为回声状态网络的输入序列,其具体步骤如下:

1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费log数据;

2)数据预处理:从一卡通数据库中采集数据,把采集到的消费log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据;获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;

3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常;若为异常,算法停止,否则继续执行步骤4)-5);

4)相关时间序列搜索:执行动态时间规整算法搜索待训练时间序列与之相关的时间序列,计算其与待训练序列的动态时间规整距离,并设定相关性阈值jthreshold,当jdtw(t,rq)<jthreshold,q=1,…,q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中q是采集的时间序列个数;

5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列uin(t),使用回声状态网络对一卡通数据进行一步预测,当预测值和真实值的差异超过设定阈值err,则判断为异常,否则判断为正常。

本发明的有益效果:

本发明提供的基于动态时间调整聚类的回声状态网络时间序列预测方法,通过加入基于动态时间规整的相关序列搜索作为回声状态的输入序列,克服一卡通数据的随机噪声,能够有效地克服实际训练数据中的过拟合问题,提高回声状态网络的预测精度,从而提高异常检测准确度。

附图说明

图1本发明的整体实现流程图。

具体实施方式

下面结合具体实施方式对本发明做进一步的阐述。

本发明技术的整体实现流程如附图1所示,具体步骤如下:

1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费log数据;

2)数据预处理:从一卡通数据库中采集数据,把采集到的消费log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据。获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;

3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常。若为异常,算法停止,否则继续执行步骤4)-7);

4)相关时间序列搜索:待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,计算其与待训练序列的动态时间规整距离:

(1)

设定相关性阈值jthreshold,当jdtw(t,rq)<jthreshold,q=1,…,q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中q是采集的时间序列个数;

5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列uin(t),使用回声状态网络对一卡通数据进行拟合:

(2)

使用最小二乘求解输出权值得到输出权值:

(3)

6)使用估计输出矩阵对下一个时刻值进行预测:

(4)

其中,为第时刻输入值,为第时刻预测输出值;

7)当预测值和真实值的差异超过设定阈值err,则判断为异常数据,否则判断为正常数据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1