基于云计算的金融数据挖掘方法

文档序号:6517694阅读:222来源:国知局
基于云计算的金融数据挖掘方法
【专利摘要】本发明公开一种基于云计算的金融数据挖掘方法,包括步骤:对获取的金融财务数据进行修正错误、格式转换等预处理操作;建立所需的神经元网格,网格为矩形分布,其个数为拥有的样本数量的1%;利用已经建立的网格和处理好的数据进行适应性训练;利用已经建立的网格和处理好的数据进行收敛性训练;利用训练好的神经元的权重来对数据进行离散化处理,使每个样本对应一个神经元;对每个离散点进行标号处理及可视化处理。本发明的优点是利用了分布式存储和计算的特点;利用了自组织神经网络特性,对数据降维并聚类处理;采用了可视化技术,更生动形象。
【专利说明】基于云计算的金融数据挖掘方法
【技术领域】
[0001]本发明涉及一种分布式的金融数据挖掘方法,尤其是处理大数据下快速聚类的基于云计算的金融数据挖掘方法。
【背景技术】
[0002]随着Internet迅速发展,WWW(World Wide Web简称WWW)已成为一个巨大的信息空间,为用户提供了极具价值的信息资源。而面对大量的金融财务数据资源,如何分析处理成为至关重要的问题。一种常用的方法是将高维数据降维至二维并进行可视化处理,并以此帮助决策者进行决策分析。
[0003]自组织神经网络SOM (self-organization mapping net)是基于无监督学习方法的神经网络的一种重要类型。自组织映射网络理论最早是由芬兰赫尔辛基理工大学Kohen于1981年提出的。此后,伴随着神经网络在20世纪80年代中后期的迅速发展,自组织映射理论及其应用也有了长足的进步。
[0004]它是一种无指导的聚类方法。它模拟人脑中处于不同区域的神经细胞分工不同的特点,即不同区域具有不同的响应特征,而且这一过程是自动完成的。自组织映射网络通过寻找最优参考矢量集合来对输入模式集合进行分类。每个参考矢量为一输出单元对应的连接权向量。与传统的模式聚类方法相比,它所形成的聚类中心能映射到一个曲面或平面上,而保持拓扑结构不变。对于未知聚类中心的判别问题可以用自组织映射来实现。
[0005]自组织神经网络是神经网络最富有魅力的研究领域之一,它能够通过其输入样本学会检测其规律性和输入样本相互之间的关系,并且根据这些输入样本的信息自适应调整网络,使网络以后的响应与输入样本相适应。竞争型神经网络的神经元通过输入信息能够识别成组的相似输入向量;自组织映射神经网络通过学习同样能够识别成组的相似输入向量,使那些网络层中彼此靠得很近的神经元对相似的输入向量产生响应。与竞争型神经网络不同的是,自组织映射神经网络不但能学习输入向量的分布情况,还可以学习输入向量的拓扑结构,其单个神经元对模式分类不起决定性作用,而要靠多个神经元的协同作用才能完成模式分类。
[0006]学习向量量化LVQ( learning vector quantization)是一种用于训练竞争层的有监督学习(supervised learning)方法。竞争层神经网络可以自动学习对输入向量模式的分类,但是竞争层进行的分类只取决于输入向量之间的距离,当两个输入向量非常接近时,竞争层就可能把它们归为一类。在竞争层的设计中没有这样的机制,即严格按地区判断任意两个输入向量是属于同一类还是属于不同类。而对于LVQ网络用户指定目标分类结果,网络可以通过监督学习,完成对输入向量模式的准确分类。

【发明内容】

[0007]本发明所要解决的技术问题是要提供一种利用自组织神经网络特性,对数据降维并聚类处理,可视化的基于云计算的金融数据挖掘方法。[0008]为了解决以上的技术问题,本发明提供了一种基于云计算的金融数据挖掘方法,该方法包括以下步骤:
1)对原始数据进行数据迁移、清理等预处理操作;
2)根据原始数据的数据量和维度确定神经元的分布网格的结构;
3)利用处理好的数据和神经元网格结构进行适应性训练;
4)利用上述数据及适应性训练的结果进行收敛性训练;
5)利用上述训练结果对数据进行离散化处理及可视化处理。
[0009]所述的步骤I)的数据预处理操作包括以下步骤:
11)将原始数据统一转换为CSV格式文档;
12)对上述文档中的缺失数据进行填补,空缺值用该属性平均值替代;
所述的步骤2)中的神经元网格结构为二维矩形格,其数量为样本数的1% ;二维矩形格中神经元的距离为欧式距离。
[0010]所述步骤3)包含以下步骤:
31)设置初始邻域范围为2)中网格的半径;
32)设置邻域收缩系数与初始邻域常数的关系为:T1 = 1000fa0,其中O0为初始邻域范围,T1为收缩系数;
33)设置学习步长初始值%及步长收缩常数&;
34)计算每步循环时学习步长”及邻域函数,它们的计算公式为:
【权利要求】
1.一种基于云计算的金融数据挖掘方法,该方法包括以下步骤: 1)对原始数据进行数据迁移、清理等预处理操作; 2)根据原始数据的数据量和维度确定神经元的分布网格的结构; 3)利用处理好的数据和神经元网格结构进行适应性训练; 4)利用上述数据及适应性训练的结果进行收敛性训练; 5)利用上述训练结果对数据进行离散化处理及可视化处理。
2.根据权利要求1所述的基于云计算的金融数据挖掘方法,其特征在于,所述的步骤O的数据预处理操作包括以下步骤: 11)将原始数据统一转换为CSV格式文档; 12)对上述文档中的缺失数据进行填补,空缺值用该属性平均值替代。
3.根据权利要求1所述的基于云计算的金融数据挖掘方法,其特征在于,所述的步骤2)中的神经元网格结构为二维矩形格,其数量为样本数的1%。
4.根据权利要求3所述的基于云计算的金融数据挖掘方法,其特征在于,所述二维矩形格中神经元的距离为欧式距离。
5.根据权利要求1所述的基于云计算的金融数据挖掘方法,其特征在于,所述步骤3)包含以下步骤: 31)设置初始邻域范围为2)中网格的半径; 32)设置邻域收缩系数与初始邻域常数的关系为:T1 = 1000/σ0,其中A为初始邻域范围,T1为收缩系数; 33)设置学习步长初始值:?及步长收缩常数1; 34)计算每步循环时学习步长”及邻域函数,计算公式为:
6.根据权利要求1所述的基于云计算的金融数据挖掘方法,其特征在于,所述步骤4)包含以下步骤: 41)设置初始邻域范围为2)中网格的半径;42)设置邻域收缩系数与初始邻域常数的关系为:T1= 1000/%,其中τ为初始邻域范围,S为收缩系数; 43)设置学习步长初始值:?及步长收缩常数巧; 44)计算每步循环时学习步长”及邻域函数&,计算公式为:
7.根据权利要求1所述的基于云计算的金融数据挖掘方法,其特征在于,步骤5)为用每个神经元的权重与每个样本做内积最大的值对应的神经元在网格上的坐标为离散化的结果。
【文档编号】G06Q40/00GK103559642SQ201310536760
【公开日】2014年2月5日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】向阳, 罗成, 张依杨, 张波, 袁书寒 申请人:同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1