一种基于加速迭代的大数据集谱聚类的方法

文档序号:9217230阅读:160来源:国知局
一种基于加速迭代的大数据集谱聚类的方法
【技术领域】
:
[0001]本发明涉及大数据集处理技术领域,具体涉及一种基于加速迭代的大数据集谱聚类的方法。
【背景技术】
:
[0002]大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。对于“大数据”(Big data)研宄机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
[0003]大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
[0004]从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
[0005]随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce —样的框架来向数十、数百或甚至数千的电脑分配工作。
[0006]传统谱聚类算法的诸多优点只适合小数据集,在运行大数据集时存在速度慢,反应迟钝。

【发明内容】

:
[0007]本发明的目的是提供一种基于加速迭代的大数据集谱聚类的方法,它根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
[0008]为了解决【背景技术】所存在的问题,本发明是采用如下技术方案:它的方法为:
[0009]步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
[0010]步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
[0011]步骤三:利用分解得到的子空间进行并行求解;
[0012]步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA ;
[0013]步骤五:算法特征向量分析。
[0014]本发明具有如下有益效果:根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
【具体实施方式】
:
[0015]本【具体实施方式】采用如下技术方案:它的方法为:
[0016]步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
[0017]步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
[0018]步骤三:利用分解得到的子空间进行并行求解;
[0019]步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA ;
[0020]步骤五:算法特征向量分析。
[0021]本【具体实施方式】根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
[0022]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于加速迭代的大数据集谱聚类的方法,其特征在于它的方法为: 步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库; 步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间; 步骤三:利用分解得到的子空间进行并行求解; 步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA ; 步骤五:算法特征向量分析。
【专利摘要】一种基于加速迭代的大数据集谱聚类的方法,它涉及大数据集处理技术领域,它的方法为:步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;步骤三:利用分解得到的子空间进行并行求解;步骤四:利用迭代算法进行分析;步骤五:算法特征向量分析;它根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
【IPC分类】G06F17/30
【公开号】CN104933089
【申请号】CN201510249161
【发明人】傅涛, 朱平, 蒋霞
【申请人】江苏博智软件科技有限公司
【公开日】2015年9月23日
【申请日】2015年5月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1