一种连续模拟量时间序列数据挖掘方法与流程

文档序号：12271638阅读：434来源：国知局

本发明涉及连续模拟量，尤其是涉及一种连续模拟量时间序列数据挖掘方法。

背景技术：

现实工作中大绝部分的量如温度、湿度、降雨量、脑电波等都是连续模拟量，许多工业的传感器都是连续模拟量输出的，模拟量可以被认为是状态无穷多，若把如脑电波、心电信号等的蕴含信息有效挖掘，有助于客观判断病人病情，而目前成熟的数据挖掘算法大部分是针对离散变量，而且算法的复杂的会由于离散的状态的增多而急剧增加。时间是判断事件发生前后的关键，通过把不同的模拟量离散化，按时间顺序排列进行数据挖掘，目前有比较常用的方法是数值区域法，即划分几个区域，把所属某个区域的归为一类，进行离散化。或使用聚类算法进行离散化。在模拟量进行离散化过程中不可避免的会丢失许多关键信息，可能影响最终的挖掘效果。

技术实现要素：

本发明的目的在于提供一种连续模拟量时间序列数据挖掘方法。

本发明包括以下步骤：

1)数据清洗，发现并纠正数据文件中可识别的错误，包括检查数据一致性、处理无效值和缺失值等；

2)确定周期划分；

在步骤2)中，所述周期划分可根据自然周期设定为生产的一个周期，所述自然周期可采用日、星期、月、季度、年等中的一种。

3)确定傅立叶变换的输出点数和抽样数据的抽样点数n；

在步骤3)中，所述傅立叶变换的输出点数可为8～24，过多可能导致聚类失败。

4)周期内数据进行傅立叶变换，设周期内数据为x，其中F(x)表示对x进行傅立叶变换，n表示抽样点数；

5)周期内数据抽样，每个周期与傅立叶变换相同的点数的抽样，作为代表时域的特征；

6)把傅立叶变换输出数据和抽样数据存储为一个节点；

7)计算整体平均节点密度；

8)标记所有节点为未访问；

9)随机选择一个未分类点P_x并标已访问；

10)若点P_x的S邻域至少有m个点，则创建一个新簇C_n并把P_x添加到簇C_n中，其中S邻域表示距离点P_x小于某个值的区域，m为S邻域中最少点的个数；

11)令N为P_x的S邻域的节点集合；

12)对每个N中的每个节点P_Ni进行如下操作：

若节点P_Ni为未访问，则标记为已访问；

若节点P_Ni的S邻域至少有m个点，则把这些点添加到N中；

若节点P_Ni还不是任何簇的成员，则把节点P_Ni添加到簇C_n中；

把C_n添加到簇C中；

13)查看还有未访问节点吗，如有，则返回步骤9)；

14)输出簇C。

本发明对模拟量进行频域转换后进行聚类，并加入模拟量的抽样点，有效避免直接模拟量分析的巨大计算量，并可以加入信号的频域信息参加数据挖掘，从数据形状角度尝试抽取有意义的知识，也比较容易找到人们在直接观测难以找到的数据中蕴含规律。

具体实施方式

以下实施例将对本发明作进一步的说明。

本发明实施例包括以下步骤：