一种天体光谱离群数据挖掘系统和方法

文档序号:6613081阅读:155来源:国知局
专利名称:一种天体光谱离群数据挖掘系统和方法
一种天体光谱离群 挖掘系统和方法^:领域本发明涉及一种数据挖掘系统和方法,具体来说是涉及一种天体光 谱离群数据挖掘系统和方法。 背景姊随着繊库和计穀几网络的广泛应用,人们所拥有的翻量急居赠大,海量数 据层出不穷。先进的现f^斗学观测仪器的使用造成每天都要产生巨量的数据,信息 量过大,超过了人们掌握、消化的能力; 一對言息真伪难辨,从而给信息的正确运 用带来困难;信息组织形式的不一致性导致难以X寸信息进行有效统一处理等等,这种变化使传统的数据库技將ni^处理手段已经不能满足要求。如何在海量 中 获取有价值的信I和知识成了信息系统的杨已、问^t一。 M挖掘技术已被广泛应用于大规 ^的分析处理和知识发现。离群数据( 瓜立点)的挖掘(outliers mining),是数据挖掘研究的一个崭新的领 域,也成为 挖掘研究的一个重要分支。它通过发现小的模式湘对于聚类),即 数据集中显著不同于其它纖的鄉,分析标准类以外的特例,娄熝聚對卜的离群 值,实际观测值和系统预测值间的显著差别, 差异和极^#例进行描述。自离群数据的相脸提出以来,在繊挖掘领域一直聚集了大量的研究人员从事 离群麵挖掘技术的理论和实际应用的研究。随着AI智能和数据挖掘技术的不断 深入,离群繊挖掘得到了不断的发展,已经成为娜挖掘领域中一个非常活跃的 研究课题。同时,离群 挖掘在伸縮性、高维性尤其是效率方面提出了更高的要 求。从20膨己80年代,离群,挖掘问風就在统计学领i魅得到了广泛研究。通 常用户用某个统计分布对数据点进行建模,再以假定的模型根据点的分布来确定是 否为离群 。许许多多针对不同分布的离群翻挖掘系统和方法发鹏来,他们 分别适用于不同盼瞎形繊分布清况;数据分布参数是否已知;异常娄娥数量;
异常 类型。但是这些离群麵挖掘系统和方法的最大缺陷是在许多情况下, 用户并不知道这个 分布,而且现实 也往往不符合任何一种理想状态的数学 分布。Ruts和Roussccuw提出了一种基于深度的离群 挖掘方法。根据该方法,每一个繊被映射到一个k维数据空间上的点,并且每个点被赋予一^K寺定定义盼裸 度',并根据不同深度将类鄉划分)t^同层次。基于统计学的结论,异常往往存在于 较"浅"的层次中。由于基于深度的方法要求计算k维繊空间的凸闭包,复杂度较高,实际上,仅仅当k^2或k^3时,该方法性育a可以忍受。Argrawal和Ragaran在1996年提出迚'序列离群数据"的相脸。他们采用这样一个机制扫描类鄉集并观测到一系列相似数据,当发现一个类射居点明显不同于前面 的序列,这样的点就被认为离群 。这种离群数据挖掘方法的复杂度与数据集大 小成线性絲,有优异的计算性能。但是该方法的缺点是序列异常对异常存在的 假设太理想化,对现实,数据效果不太好。Knorr和Ng在1998年提出了基于距离的异常来挖掘离群数据的方法。Rastogi 和Ramaswamy舰了他们的异常定义。在聚类算法研究中许多算法都具有一定的 噪音处理能力,这些算法把异常检测作为聚类算法的副产品。Breunig和Kriegel将基于密度的聚类算法OPTICS与异常检测合并到一起研究, 这个算法的主要计算消耗在聚类的查找上,只需要很小的额夕h^价就可以检测到异 常,这些研究也奠定了基于密度的异常扭媳的产生,在此基础上Breunig和Kriegd 提出了局部异常因子的概念,但是缺点是无法处理高维数据。至脂前为止提出的异常检测方法对高维繊异常检测效果都不理想。Aggarwal 等提出了一^#对高维 集进行降维的异常检测新思路,它把高维数据集日划才到 低维子空间,根据子空间的日妈寸类 稀疏度,来确定异常数据是否存在。该离群数 据挖掘方法取得了良好的效果。但时空鋭度问题成为待解决的主要问题,且离群 发现结果的准确性得不到保障。
发明内容
本发明就是针对上述离群繊挖掘中存在的问题,提出了一种天体光谱离群数 据挖掘系统和方法,以解决现有离群 挖掘技术中存在的无法处理海量高维数据、 挖掘效^^低、挖掘结果不准确等问题。本发明提供以下技术方案一种基于微粒群算法的天体光谱翻离群知识发现系统,以计^m为中心,连接中星仪式反射施密特望远镜,并在计算机上 :依次以数据流连接的 采 储模块,天体光谱翻鹏份模块,天体光谱娄娥软化分模块,离群M挖掘模块,1^采 储模±央上设有一1/0接口,其与 石戲盼模±央成双向连接;中星仪式 反射施密特望远镜,口径长4m,在1.511曝光时间内,可以以10埃的光谱分辨率观 测到20.5mag的暗弱天体光谱,相对于在5度视场的1.75m焦面上放置4000根光纤, 然后连接到多台光谱仪上,同时获得4000个天体的光谱,齡鹏则夜晚将收集2 到4万条光谱的数据,所观测至啲光谱M容駄到4TB,天体光谱1熝《戲吩模 土央^t天体光谱数据,按照基于距离的方法生成距离矩阵,再重复合并矩阵中距离 最近的两条天体光itm据,直到生成要求的中心点数据个数,以便确定下一步软化 分的初始值;天体光谱 软化分模块是以微粒群算制乍为搜索方法,以模糊C均 值聚类方法对天体光谱 进行聚类;离群 挖掘模块是 天体光纟 ^ 1」 分的基础上输入天体光谱离群 的距离支持度参数,该参数是判断数据是否满足 一般天体光谱模式的阈值,通舰该参数的调整,可以得至怀同的天体光谱离群数 据结果。一种基于微粒群算法的天体光谱 离群知识发现方法,包含以下步骤A il31中星仪式反射施密特望远f魏集回天体光谱麵,将数据输入计算机内, 并存入数据采餘储模块中。B将 采^#储模块中的天体光谱数据依据距离的方法生成距离矩阵,再重 复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,确 定下一步软化分的初始值;C根据以,初始f就天体光谱娄鄉进行软化分,软化分是以微粒群算法作为 搜索方法,以模糊C均值聚类方法对天体光谱娜进行聚类。D在对天体光谱数据软划分的基础上输入天体光谱离群数据的距离支持度参 数,该参数是判断M是否满足一般天体光谱模式的阈值,fflil^该参数的调整, 可以得至杯同的天体光谱离群繊结果。所要处理的天体光谱聽为中星仪式反射施密特望远f魏集的高维、海量、稀 统 ,其中高维尉旨中星仪式则寸施密特望远!t^集的天体光谱,的属性达到 了騰0维以上;海量是指中星仪式反射施密特望远!魏天要获取将近4T的 量; 稀疏是指中星仪式反射施密特望远lt^集的倒可一条天体光谱数据的重要信息可用 某些待征线体现出来。本发明与现有技 目比具有以下有益效果ffiil使用一种海量天体光谱数据的 离群知识发现系统和方法,在提高天体光谱离群数据挖掘效率的同时也保证了天体 光谱离群M挖掘结果的准确性。具体来讲本发明具有以下优点1、 本发明通过运用天体光谱数据硬划分模块,移动矩阵元素对原有矩阵数 据进行了保存,避免了计算机过多的重复计算^W效地减少了 !/0访问次
数,有效地提高了效率。如果待处理的天体光谱数据集非常庞大,可以 采用采样的方法减小该阶段的运算量,这样做可能会影响5践吩完备性, 但由于该阶段得到的光谱数据聚类中心点不需要非常精确,所以是完全 可行的。2、 通aS用天体光谱数据软划分模块,从根本上克服了基于距离的硬划分 的缺点。天体光谱数据软划分模±央保证了搜索过程中梯度信息的完整, 同时基于微粒群算法的天体光谱数据软划分模±央自身具有的并行特性, 使得每一个节点都可以同步地确定性地更新,有效地提高了搜索的运行 效率。而第一阶段得到的较准确的初始条件,避免了模糊聚类中中心点 选择的随机性,为微粒群算法的快速收敛提供了条件,保证了整个天体 光谱离群,挖掘算法的快速收敛。3、 特定环境下对天体光谱离群数据的定义标准是不同的,即使同一环境下根据不同的要求对离群数据的定义也有差异,要求发现的离群数据范围 不同,为了能够根据不同要求发现天体光谱离群数据,可通逝巨离支持 度参数的改 实现离群 挖掘范围的改变,满足不同用户的要求。


图1是本发明系统示意图 具体实现方式一种天体光谱离群 挖掘系统,以计^fL 1为中心,连接中星仪式反射施密 特望远镜2,并在计穀几1上,依次以^^链接的 采,储模块3,天体光i普M石M'^^莫l央4,天体光谱 软化分模块5,离群 挖掘模块6, 采集 存储模±央3上设有一 I/O接口 ,其与翻石戯U分模块4成双向连接;中星仪式反射 施密特望远镜2, 口径长4m,在1.5h曝光时间内,可以以10埃的光谱^^率观测 到20.5mag的暗弱天体光谱,相对于在5度视场的1.75m焦面上放置4000根光纤, 然后连接到多台光谱仪上,同时获得4000个天体的光谱,^观测夜晚将收集2 到4万条光谱的数据,所观测至啲光谱繊容駄到4TB,天体光iti(据石践吩模 块4就天体光谱麵,按照基于距离的方法生成距离矩阵,再重复合并矩阵中距 离最近的两条天体光谱数据,直到生成要求的中心点 个数,以便确定下一步软 化分的柳台值;天体光谱类爐软化分模块5是以微粒群算法作为搜索方法,以模糊 C均值聚类方法对天体光谱数据进行聚类;离群数据挖掘模块6是顿天体光谱数 据软划分的基础上输入天体光谱离群数据的距离支持度参数,该参数是判断 是 否满足一般天体光谱模式的阈值,ilitt"该参数的调整,可以得到不同的天体光谱 离群 结果。一种天体光谱离群 挖掘方法,包含以下步骤A通过中星仪式反射施密特望远镜2采集回天体光谱 ,将数据输入计^M 1内,并存入类 采^#储模±央3中。B将类娥采餘储模i央3中的天体光谱 依据距离的方法生成距离矩阵,再 重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点 个数, 确定下一步软化分的初始值;C根据以±^初制 "天体光谱 进行软化分,软化分是以微粒群算齒乍为 搜索方法,以模糊C均值聚类方法对天体光谱,进行聚类。D在对天体光谱数据软划分的基础上输入天体光谱离群数据的距离支持度参 数,该参数是判断 是否满足一般天体光谱模式的阈值,i!3Dm亥参数的调整, 可以得至坏同的天体光谱离群翻结果。所要处理的天体光谱数据为中星仪式反射施密特望远f魏集的高维、海量、稀 疏娜,其中高维尉旨中星仪式反射施密特望远,魏集的天体光谱娜的属性达到了 1000维以上;海量是指中星仪式反射施密特望远,魏天要获取将近4T的数据量;稀疏是指中星仪式反射施密特望远!魏集的任何一条天体光谱数据的重要信息可用某^#征线体现出来。
权利要求
1、一种天体光谱离群数据挖掘系统,其特征是以计算机为中心,连接中星仪式反射施密特望远镜,并在计算机上建立依次以数据流连接的数据采集存储模块,天体光谱数据硬划分模块,天体光谱数据软化分模块,离群数据挖掘模块,数据采集存储模块上设有一I/O接口,其与数据硬划分模块成双向连接。
2、 根据权利要求1戶脱的一种天体光谱离群类娥挖掘系统,其特征是中星仪 式反射施密特望远镜,口径长4m,在l,5h曝光时间内,可以以10埃的光谱分辨率 观测到20.5mag的暗弱天体光谱,相对于在5度视场的1.75m焦面上放置4000根光 纤,然后连接到多台光谱it匕同时获得4000个天体的光谱,^观测夜晚将收集 2到4万条光谱的 ,所观测至啲光谱数据容駄到4TB 。
3、 根据权利要求1所述的一种天体光谱离群 挖掘系统,其特征是天体光itm^戯吩模块慰寸天体光谱数据,按照基于距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,以便 确定下一步软化分的初始值。
4、 根据权利要求1戶脱的一种天体光谱离群 挖掘系统,其特征是天体光 谱 软化分模块是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光 谱翻进行聚类。
5、 根据权利要求1戶腿的一种天体光谱离群繊挖掘系统,其特征是离群数据挖掘模±央是顿天体光谱 戯扮聚类的基础上,设定天体光谱离群翻的距离支持度参数,该参数是判断M是否满足一般天体光谱模式的阈值,iim该参数的调整,可以得到不同要求的天体光谱离群数据。
6、 一种天体光谱离群类娥挖掘方法,其特征是包含以下步骤A、 通过中星仪式反射施密特望远镜采集回天体光谱数据,将数据输入计算机 内,并存入 采,储模块中;B、 将 采^^储模块中的天体光谱数据,依据距离的方法生成距离矩阵, 再重复合并矩阵中距离;1^的两条天体光谱 ,直到生成要求的中心点 个数, 并作为下一步软化分的柳台值;C、 根据以上述初始值对天体光谱数据謝亍软化分,软化分是以微粒群算法作 为搜索方法,以模糊C均值聚类方法对天体光谱l^进行聚类。D、 顿天体光谱数据软戈扮的基础上,设定天体光谱离群繊的距离支持度 参数,该参数是判断 是否满足一般天体光谱模式的阈值,通il^寸该参数的调整, 可以得至坏同要求的天体光谱离群繊。
7、 根据权利要求6戶脱的一种天体光谱离群麵挖掘方法,其特征是所要处 理的天体光谱 为中星{ 反射施密特望远1皿集的高维、海量、稀疏激据,其 中高维尉旨中星仪式反射施密特望远镜采集的天体光谱数据的歸性达到了 1000维 以上;海量是指中星仪式反射施密特望远镜要获取将近4T的数据量;稀疏是指中 星仪式反射施密特望远fl^集的招可一条天体光谱l^的重要信息可用某對寺征线 体现出来。
全文摘要
本发明公开了一种天体光谱离群数据挖掘系统和方法,以计算机(1)为中心,连接中星仪式反射施密特望远镜(2),并在计算机(1)上建立数据采集存储模块(3),天体光谱数据硬划分模块(4),天体光谱数据软化分模块(5),离群数据挖掘模块(6)。计算机(1)通过上述模块,首先依据基于距离的方法,对采集回的天体光谱数据进行硬划分,其次采用基于微粒群算法的模糊聚类方法,将上述硬划分结果作为初始值进行软化分聚类,最后设定距离支持度参数,用该参数作为判断数据是否满是一般天体光谱模式的阈值,通过对该参数的调整,得到不同要求的天体光谱离群数据。通过使用本发明,不仅可以提高天体光谱离群数据的挖掘效率和挖掘准确性;而且还可根据不同要求,发现不同的天体光谱离群数据。
文档编号G06F17/40GK101149760SQ20071016636
公开日2008年3月26日 申请日期2007年11月8日 优先权日2007年11月8日
发明者张继福, 荀亚玲, 蔡江辉, 赵旭俊 申请人:太原科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1