一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法

文档序号:6635623阅读:333来源:国知局
一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法
【专利摘要】本发明公开了一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,属于数据挖掘技术,将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;数据预处理:对光谱巡天数据进行预处理操作;数据降维:对光谱巡天数据进行数据降维;随机采样:将光谱巡天数据使用随机采样得到一个小样本;局部稀疏度计算:对采样的小样本光谱集计算稀疏度,稀疏度数值越大是稀少天体的可能性越大;筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。本发明可快速且有效的从大规模高维度巡天数据中自动挖掘稀少天体。
【专利说明】一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法

【技术领域】
[0001]本发明涉及一种数据挖掘技术,具体地说是一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法。

【背景技术】
[0002]随着天文观测设备及终端技术的不断发展,越来越多的望远镜投入到巡天当中,进而产生了大量的巡天数据。这些数据除了进行大样本的天文学统计研究之外,其中必然会包含了分布相对较少的类型的天体目标。天文学的一个重要目的是发现异常、稀少甚至于未知类型的天体目标,大量的巡天数据中可能就存在一些对天文学研究甚至整个自然科学的研究意义都非常重大的天体目标。如何从大规模高维度光谱巡天数据中挖掘稀少天体目标,是本领域技术人员迫切需要解决的问题。


【发明内容】

[0003]本发明一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法的技术任务是提供一种基于主成分分析、随机采样、局部稀疏度计算技术的稀少天体光谱搜寻方法,从而快速且有效的从大规模高维度巡天数据中自动挖掘稀少天体。
[0004]本发明的技术任务是按以下方式实现的:
一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;
(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;
(2)、数据降维:对于后续步骤来说,光谱巡天数据的某些波长采样点对应的强度并不是必须的;同时过多的属性导致高维空间中低密度甚至空洞的属性空间,这使得后续光谱巡天数据的归纳及结果的产生变的相对困难,因此需要对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;
(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;
(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;在计算稀疏度时,首先要计算样本的距离矩阵,得到每个样本的k邻域样本,然后计算每个样本密度,进而得到每个样本的稀疏度;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;
(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。
[0005]对光谱巡天数据进行预处理操作包括数据清理预处理操作、数据集成预处理操作、数据变换预处理操作、数据归约预处理操作。
[0006]结构包括光谱巡天数据主成分分析、随机采样、局部稀疏度计算,采用主成分分析来降低样本的维度,采用随机采样来降低计算的规模,采用局部稀疏度计算表征样本的局部稀疏度。
[0007]步骤(3)中,随机采样时采取完全随机采样或者采用加权采样,采样率较低的样本权值高。
[0008]步骤(4)中,距离采用欧氏距离或曼哈顿距离或余弦距离。
[0009]步骤(4)中,计算稀疏度时,由于不同迭代之间不存在耦合性,因此可以采用并行迭代计算结构,通过多线程和多进程方式来加速非耦合迭代过程计算。
[0010]本发明的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法具有以下优点:充分考虑到光谱巡天数据的规模大及维度高的特点,主成分分析可在保证原始特征的情况下降低数据维度;随机采样可大大降低计算的规模解决大规模样本计算的问题;采用局部稀疏度计算表征一条光谱在整个巡天样本中的局部稀疏度;从而快速且有效的从大规模高维度巡天数据中自动挖掘稀少天体。

【专利附图】

【附图说明】
[0011]下面结合附图对本发明进一步说明。
[0012]附图1为一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法的流程图。

【具体实施方式】
[0013]参照说明书附图和具体实施例对本发明的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法作以下详细地说明。
[0014]实施例1:
本发明的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;
(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;
(2)、数据降维:对于后续步骤来说,光谱巡天数据的某些波长采样点对应的强度并不是必须的;同时过多的属性导致高维空间中低密度甚至空洞的属性空间,这使得后续光谱巡天数据的归纳及结果的产生变的相对困难,因此需要对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;
(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;
(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;在计算稀疏度时,首先要计算样本的距离矩阵,得到每个样本的k邻域样本,然后计算每个样本密度,进而得到每个样本的稀疏度;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;
(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。
[0015]实施例2:
本发明的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体;
(1)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据;
(2)、数据降维:对于后续步骤来说,光谱巡天数据的某些波长采样点对应的强度并不是必须的;同时过多的属性导致高维空间中低密度甚至空洞的属性空间,这使得后续光谱巡天数据的归纳及结果的产生变的相对困难,因此需要对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征;
(3)、随机采样:将光谱巡天数据使用随机采样得到一个小样本;
(4)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其k邻域内样本密度的比值,其中样本密度为该样本k邻域的最大距离;在计算稀疏度时,首先要计算样本的距离矩阵,得到每个样本的k邻域样本,然后计算每个样本密度,进而得到每个样本的稀疏度;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大;
(5)、筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。
[0016]对光谱巡天数据进行预处理操作包括数据清理预处理操作、数据集成预处理操作、数据变换预处理操作、数据归约预处理操作。
[0017]结构包括光谱巡天数据主成分分析、随机采样、局部稀疏度计算,采用主成分分析来降低样本的维度,采用随机采样来降低计算的规模,采用局部稀疏度计算表征样本的局部稀疏度。
[0018]步骤(3)中,随机采样时采取完全随机采样或者采用加权采样,采样率较低的样本权值高。
[0019]步骤(4)中,距离采用欧氏距离或曼哈顿距离或余弦距离。
[0020]步骤(4)中,计算稀疏度时,由于不同迭代之间不存在耦合性,因此可以采用并行迭代计算结构,通过多线程和多进程方式来加速非耦合迭代过程计算。
[0021]为保证流程的一致性及中间结果的可复用性,采取采用统一的开发编程语言来完成。使用的基本算法可以重新编写,也可以采用现有程序包。本发明中多次使用距离度量。距离的定义是灵活的,可以采用欧氏距离、曼哈顿距离、余弦距离等。考虑到余弦距离计算时更简单且快速,建议使用余弦距离。局部稀疏度表征了光谱稀少的可能性,数值越大,样本是稀少天体的可能性越大,数值越小,样本越不可能成为稀少天体。本发明方法定义了一种离群指数的定义及计算方法,实际实施时,可以此为基础改进其定义方式及计算方法。
[0022]通过上面【具体实施方式】,所述【技术领域】的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的2种【具体实施方式】。在公开的实施方式的基础上,所述【技术领域】的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
【权利要求】
1.一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于将光谱巡天数据经过数据预处理、数据降维、随机采样、局部稀疏度计算、筛选稀少光谱五个阶段,挖掘稀少天体; (丄)、数据预处理:对光谱巡天数据进行预处理操作,消除光谱间的不一致性,同时归一化各条光谱巡天数据; 口)、数据降维:对光谱巡天数据在保证保持尽量多特征信息的情况下,进行数据降维,数据降维的目的是通过变换得到新特征空间数量相对较少的特征; (3^随机采样:将光谱巡天数据使用随机采样得到一个小样本; “)、局部稀疏度计算:对采样的小样本光谱集计算稀疏度;稀疏度为样本周围的密度与其&邻域内样本密度的比值,其中样本密度为该样本&邻域的最大距离;稀疏度表征了是该条光谱是特殊天体的可能性大小,数值越大是稀少天体的可能性越大; (5^筛选稀少光谱:按样本稀疏度排序所有光谱,筛选稀疏度最大的一定数量光谱作为稀少天梯候选体,再进行稀少天体分析。
2.根据权利要求1所述的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于对光谱巡天数据进行预处理操作包括数据清理预处理操作、数据集成预处理操作、数据变换预处理操作、数据归约预处理操作。
3.根据权利要求1所述的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于结构包括光谱巡天数据主成分分析、随机采样、局部稀疏度计算,采用主成分分析来降低样本的维度,采用随机采样来降低计算的规模,采用局部稀疏度计算表征样本的局部稀疏度。
4.根据权利要求1所述的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于步骤(3)中,随机采样时采取完全随机采样或者采用加权采样,采样率较低的样本权值高。
5.根据权利要求1所述的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于步骤(4)中,距离采用欧氏距离或曼哈顿距离或余弦距离。
6.根据权利要求1所述的一种从大规模高维度光谱巡天数据中挖掘稀少天体的方法,其特征在于步骤(4)中,计算稀疏度时,采用并行迭代计算结构,通过多线程和多进程方式来加速非耦合迭代过程计算。
【文档编号】G06F17/30GK104391940SQ201410684026
【公开日】2015年3月4日 申请日期:2014年11月25日 优先权日:2014年11月25日
【发明者】韦鹏, 付兴旺, 吴楠 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1