一种连续模拟量时间序列数据挖掘方法与流程

文档序号:12271638阅读:434来源:国知局

本发明涉及连续模拟量,尤其是涉及一种连续模拟量时间序列数据挖掘方法。



背景技术:

现实工作中大绝部分的量如温度、湿度、降雨量、脑电波等都是连续模拟量,许多工业的传感器都是连续模拟量输出的,模拟量可以被认为是状态无穷多,若把如脑电波、心电信号等的蕴含信息有效挖掘,有助于客观判断病人病情,而目前成熟的数据挖掘算法大部分是针对离散变量,而且算法的复杂的会由于离散的状态的增多而急剧增加。时间是判断事件发生前后的关键,通过把不同的模拟量离散化,按时间顺序排列进行数据挖掘,目前有比较常用的方法是数值区域法,即划分几个区域,把所属某个区域的归为一类,进行离散化。或使用聚类算法进行离散化。在模拟量进行离散化过程中不可避免的会丢失许多关键信息,可能影响最终的挖掘效果。



技术实现要素:

本发明的目的在于提供一种连续模拟量时间序列数据挖掘方法。

本发明包括以下步骤:

1)数据清洗,发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等;

2)确定周期划分;

在步骤2)中,所述周期划分可根据自然周期设定为生产的一个周期,所述自然周期可采用日、星期、月、季度、年等中的一种。

3)确定傅立叶变换的输出点数和抽样数据的抽样点数n;

在步骤3)中,所述傅立叶变换的输出点数可为8~24,过多可能导致聚类失败。

4)周期内数据进行傅立叶变换,设周期内数据为x,其中F(x)表示对x进行傅立叶变换,n表示抽样点数;

5)周期内数据抽样,每个周期与傅立叶变换相同的点数的抽样,作为代表时域的特征;

6)把傅立叶变换输出数据和抽样数据存储为一个节点;

7)计算整体平均节点密度;

8)标记所有节点为未访问;

9)随机选择一个未分类点Px并标已访问;

10)若点Px的S邻域至少有m个点,则创建一个新簇Cn并把Px添加到簇Cn中,其中S邻域表示距离点Px小于某个值的区域,m为S邻域中最少点的个数;

11)令N为Px的S邻域的节点集合;

12)对每个N中的每个节点PNi进行如下操作:

若节点PNi为未访问,则标记为已访问;

若节点PNi的S邻域至少有m个点,则把这些点添加到N中;

若节点PNi还不是任何簇的成员,则把节点PNi添加到簇Cn中;

把Cn添加到簇C中;

13)查看还有未访问节点吗,如有,则返回步骤9);

14)输出簇C。

本发明对模拟量进行频域转换后进行聚类,并加入模拟量的抽样点,有效避免直接模拟量分析的巨大计算量,并可以加入信号的频域信息参加数据挖掘,从数据形状角度尝试抽取有意义的知识,也比较容易找到人们在直接观测难以找到的数据中蕴含规律。

具体实施方式

以下实施例将对本发明作进一步的说明。

本发明实施例包括以下步骤:

1)数据清洗,发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等;

2)确定周期划分;所述周期划分可根据自然周期设定为生产的一个周期,所述自然周期可采用日、星期、月、季度、年等中的一种。

3)确定傅立叶变换的输出点数和抽样数据的抽样点数n;所述傅立叶变换的输出点数可为8~24,过多可能导致聚类失败。

4)周期内数据进行傅立叶变换,设周期内数据为x,其中F(x)表示对x进行傅立叶变换,n表示抽样点数;

5)周期内数据抽样,每个周期与傅立叶变换相同的点数的抽样,作为代表时域的特征;

6)把傅立叶变换输出数据和抽样数据存储为一个节点;

7)计算整体平均节点密度;

8)标记所有节点为未访问;

9)随机选择一个未分类点Px并标已访问;

10)若点Px的S邻域至少有m个点,则创建一个新簇Cn并把Px添加到簇Cn中,其中S邻域表示距离点Px小于某个值的区域,m为S邻域中最少点的个数;

11)令N为Px的S邻域的节点集合;

12)对每个N中的每个节点PNi进行如下操作:

若节点PNi为未访问,则标记为已访问;

若节点PNi的S邻域至少有m个点,则把这些点添加到N中;

若节点PNi还不是任何簇的成员,则把节点PNi添加到簇Cn中;

把Cn添加到簇C中;

13)查看还有未访问节点吗,如有,则返回步骤9);

14)输出簇C。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1