天文光谱序列自动分类系统及方法与流程

文档序号:15934007发布日期:2018-11-14 02:05阅读:228来源:国知局

本发明涉及天文学技术领域,特别涉及一种天文光谱序列自动分类系统及方法。

背景技术

本发明对于背景技术的描述属于与本发明相关的相关技术,仅仅是用于说明和便于理解本发明的

技术实现要素:
,不应理解为申请人明确认为或推定申请人认为是本发明在首次提出申请的申请日的现有技术。

天文学是一门历史悠久的观测科学,对天体分类是天文学最基本的一项任务。随着科学技术的发展,观测设备不断升级,人类对宇宙的认识由近到远逐步扩展,从地球到太阳系,从恒星到银河系,再到河外星系。先进的观测设备使我们能够望向宇宙更深处,同时也带来了天文数据爆炸式的增长。例如lamost望远镜每个观测夜晚能采集万余条光谱,使得传统的人工或半人工的利用模板匹配的方式不能很好应对,需要高效而准确的天体光谱智能识别分类算法。

发明内容

有鉴于此,本发明实施例提供一种天文光谱序列自动分类系统及方法,主要目的是提高天文光谱序列分类速度。

为达到上述目的,本发明主要提供如下技术方案:

第一方面,本发明实施例提供了一种天文光谱序列自动分类系统,包括:

第一单元,获取历史天文光谱序列作为训练样本;

第二单元,搭建神经网络模型;

第三单元,获取待分类天文光谱序列;

其中,所述第二单元以所述训练样本对神经网络模型进行训练,获得分类模型;

所述第二单元将所述待分类天文光谱序列输入所述分类模型,以获得所述分类模型输出的分类结果。

作为优选,所述第一单元包括:

数据获取模块,获取所述历史天文光谱序列;

预处理模块,对获取的所述历史天文光谱序列进行预处理,所述预处理为,将天文光谱序列进行标准化,获得标准化后的信号,将方差为特定大小的高斯噪声叠加在标准化后的信号上。

作为优选,所述神经网络模型包括依次设置的多个inception-resnet复合层和一个resnet层,其中inception模块的核(kernel)大小随着网络加深而递减。

作为优选,所述神经网络模型的各层中均加入有dropout。

作为优选,所述神经网络模型训练时,所述天文光谱序列各类的权重与各类的召回率成反比。

作为优选,还包括修正单元;所述第二单元以所述训练样本对神经网络模型进行训练,获得多个分类模型,所述第二单元将所述待分类天文光谱序列输入多个所述分类模型,获得多个分类结果,所述修正单元对多个分类结果采用卡尔曼滤波思想进行修正,修正后的分类结果作为最终分类结果。

作为优选,所述修正具体如下:首先在多个所述分类结果中选定一个基础结果,随后根据其他分类结果对初始的基础结果进行修正,所述修正的公式如下,

xhat=x+ry/rx*y,其中,xhat为修正结果,x为基础结果,rx为基础结果的召回率,y为另外一个分类结果,ry为另外一个分类结果的召回率。

第二方面,本发明实施例提供了一种天文光谱序列自动分类方法,包括如下步骤:

获取历史天文光谱序列作为训练样本;

以所述训练样本对神经网络模型进行训练,获得分类模型;

获取待分类天文光谱序列;

将所述待分类天文光谱序列输入所述分类模型,以获得所述分类模型输出的分类结果。

作为优选,所述历史天文光谱序列经预处理之后作为训练样本,所述预处理为,将天文光谱序列进行标准化,获得标准化后的信号,将方差为特定大小的高斯噪声叠加在标准化后的信号上。

作为优选,所述神经网络模型包括依次设置的多个inception-resnet复合层和一个resnet层,其中inception模块的核大小随着网络加深而递减。

作为优选,所述神经网络模型的各层中均加入有dropout。

作为优选,所述神经网络模型训练时,所述天文光谱序列各类的权重与各类的召回率成反比。

作为优选,以所述训练样本对神经网络模型进行训练,获得多个分类模型,将所述待分类天文光谱序列输入多个所述分类模型,获得多个分类结果,对多个分类结果采用卡尔曼滤波思想进行修正,修正后的分类结果作为最终分类结果。

作为优选,所述修正具体如下:首先在多个所述分类结果中选定一个基础结果,随后根据其他分类结果对初始的基础结果进行修正,所述修正的公式如下,

xhat=x+ry/rx*y,其中,xhat为修正结果,x为基础结果,rx为基础结果的召回率,y为另外一个分类结果,ry为另外一个分类结果的召回率。

第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的方法的步骤。

第四方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。

与现有技术相比,本发明实施例的有益效果在于:

本发明实施例提供的天文光谱序列自动分类系统及方法基于深度学习,结合历史分类数据,建立模型并成功训练出了分类模型,可以自动分类出可能有价值的光谱信息,提高分类精度。本发明分类过程无需具有专业知识与相关经验人员。

附图说明

图1示出了本发明天文光谱序列自动分类系统的一实施例的示意图。

图2示出了本发明天文光谱序列自动分类系统的另一实施例的示意图。

图3示出了本发明一实施例的神经网络结构示意图。

图4示出了本发明天文光谱序列自动分类方法的一实施例的流程图。

图5示出了本发明天文光谱序列自动分类方法的另一实施例的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步详细描述,但不作为对本发明的限定。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

图1示出了本发明天文光谱序列自动分类系统的一实施例的示意图。图2示出了本发明天文光谱序列自动分类系统的另一实施例的示意图。参见图1和图2,本发明实施例的天文光谱序列自动分类系统,包括:

第一单元10,获取历史天文光谱序列作为训练样本;

第二单元20,搭建神经网络模型;

第三单元30,获取待分类天文光谱序列;

其中,第二单元20以训练样本对神经网络模型进行训练获得分类模型;

第二单元20将待分类天文光谱序列输入分类模型,以获得分类模型输出的分类结果。

本发明实施例提供的天文光谱序列自动分类系统基于深度学习,结合历史分类数据,建立模型并成功训练出了分类模型,可以自动分类出可能有价值的光谱信息,提高分类精度。本发明分类过程无需具有专业知识与相关经验人员。

本发明一实施例中,第一单元包括数据获取模块11和预处理模块12,其中数据获取模块11,获取历史天文光谱序列;预处理模块12,对获取的历史天文光谱序列进行预处理,预处理为,将天文光谱序列进行标准化,获得标准化后的信号,将方差为特定大小的高斯噪声叠加在标准化后的信号上。本实施例中,针对序列数据,设计了一种新的信噪比可控的数据增强方式,首先将序列数据进行常规的均值-方差标准化,固定单个样本序列的均值为零,方差为1,此时可以生成方差为特定大小的高斯噪声信号叠加在标准化后的信号上。原理上两个相互独立的随机变量x和y的方差d(x+y)=d(x)+d(y)。信噪比snr=d(x)/d(y),假设y为噪声,由于我们已经将原始信号的方差归一化到1,所以,通过控制噪声的方差大小可以控制信噪比,在加入多大噪声可以有效增强数据量上给出了定量指标。通过处理前后的各类光谱图对比可知,光谱图的纵坐标发生明显变化,原始光谱的形状等各个值之间的相对信息保留。

图3示出了本发明一实施例的神经网络结构示意图。参见图3,本发明一个实施例中,神经网络模型包括依次设置的多个inception-resnet复合层和一个resnet层,其中inception模块的核大小随着网络加深而递减。多个inception-resnet复合层形成inception和resnet叠置的结构。本发明实施例中,神经网络模型参考经典的分类网络resnet和inception的思想,设计了专门用于天文光谱分类的神经网络。本实施例将两者结合起来专门应用于光谱分类,利用了神经网络模型强大的特征抽取能力,相比传统的支持向量机等算法不需人工特征提取,通过学习特征进行分类。inception模块的核大小随着网络加深而递减有利于模型收敛。inception-resnet复合层可以为3-6个。参见图3,例如神经网络模型可以是4个inception-resnet复合层和一个resnet层。

本发明一实施例中,神经网络模型的各层中均加入有dropout。本实施例通过分析数据情况,精心调节模型参数达到理想的分类效果。提高了模型的泛化能力,训练结果更稳定,解决了过拟合问题。

本发明一实施例中,神经网络模型训练时,天文光谱序列各类的权重与各类的召回率成反比。在模型训练过程中需要根据验证集上的表现调整各个类别的样本在训练中所占的权重比。天文光谱序列可分为为恒星,星系,类星体及其他四大类,而各类数据不平衡,例如恒星类数据有10万个时,类星体类数据大约1万左右。因此,本实施例根据天文光谱数据的特点,采用了所采用的各类权重与验证集中各个类别的召回率成反比的方式针对性的训练模型,使得模型达到更优秀的结果。

本发明的一个实施例中,参见图2,本实施例的分类系统还包括修正单元40;第二单元20以训练样本对神经网络模型进行训练,获得多个分类模型,第二单元20将待分类天文光谱序列输入多个分类模型,获得多个分类结果,修正单元40对多个分类结果采用卡尔曼滤波思想进行修正,修正后的分类结果作为最终分类结果。本实施例采用卡尔曼滤波思想进行结果修正,首先在多个分类结果中选定一个基础结果,随后根据其他模型输出的分类结果对初始的基础结果进行修正,这样可以更加精确的得到最终分类结果。本发明实施例中,假设多个预测结果有各自不同的分布,通过在概率空间中加权叠加可以获得更加精确的模型。具体的修正公式如下:选取两个预测结果x,y,它们有各自的召回率rx,ry。选定x作为基础结果,那么用y对x进行修正后的结果x_hat=x+ry/rx*y。那么有一组预测结果x={x1,x2,…,xn}以及它们对应的召回率r={r1,r2,…,rn}。这样,利用前面所说的方法进行修正可以得到更好的最终分类结果。

第二方面,本发明实施例提供了一种天文光谱序列自动分类方法,

图4示出了本发明天文光谱序列自动分类方法的一实施例的流程图。

图5示出了本发明天文光谱序列自动分类方法的另一实施例的流程图。参见图4和图5,该天文光谱序列自动分类方法包括如下步骤:

获取历史天文光谱序列作为训练样本;

以训练样本对神经网络模型进行训练,获得分类模型;

获取待分类天文光谱序列;

将待分类天文光谱序列输入分类模型,以获得分类模型输出的分类结果。

本发明实施例提供的天文光谱序列自动分类系统基于深度学习,结合历史分类数据,建立模型并成功训练出了分类模型,利用gpu强大的算力,可以自动分类出可能有价值的光谱信息,提高分类精度。本发明方法可以在几秒内完成10万条天文光谱信息的分类,无需任何人工参与,极大的减轻天文学家的负担。同时达到各类平均召回率在0.8以上的优秀性能。

本发明一实施例中,历史天文光谱序列经预处理之后作为训练样本,预处理为,将天文光谱序列进行标准化,获得标准化后的信号,将方差为特定大小的高斯噪声叠加在标准化后的信号上。本实施例中,针对序列数据,设计了一种新的信噪比可控的数据增强方式,首先将序列数据进行常规的均值-方差标准化,固定单个样本序列的均值为零,方差为1,此时可以生成方差为特定大小的高斯噪声信号叠加在标准化后的信号上。原理上两个相互独立的随机变量x和y的方差d(x+y)=d(x)+d(y)。信噪比snr=d(x)/d(y),假设y为噪声,由于我们已经将原始信号的方差归一化到1,所以,通过控制噪声的方差大小可以控制信噪比,在加入多大噪声可以有效增强数据量上给出了定量指标。通过处理前后的各类光谱图对比可知,光谱图的纵坐标发生明显变化,原始光谱的形状等各个值之间的相对信息保留。

图3示出了本发明一实施例的神经网络结构示意图。参见图3,本发明一个实施例中,神经网络模型包括依次设置的多个inception-resnet复合层和一个resnet层,其中inception模块的核大小随着网络加深而递减。多个inception-resnet复合层形成inception和resnet叠置的结构。本发明实施例中,神经网络模型参考经典的分类网络resnet和inception的思想,设计了专门用于天文光谱分类的神经网络。本实施例将两者结合起来专门应用于光谱分类,利用了神经网络模型强大的特征抽取能力,相比传统的支持向量机等算法不需人工特征提取,通过学习特征进行分类。inception模块的核大小随着网络加深而递减有利于模型收敛。inception-resnet复合层可以为3-6个。参见图3,例如神经网络模型可以是4个inception-resnet复合层和一个resnet层。

本发明一实施例中,神经网络模型的各层中均加入有dropout。本实施例通过分析数据情况,精心调节模型参数达到理想的分类效果。提高了模型的泛化能力,训练结果更稳定,解决了过拟合问题。

本发明一实施例中,神经网络模型训练时,天文光谱序列各类的权重与各类的召回率成反比。在模型训练过程中需要根据验证集上的表现调整各个类别的样本在训练中所占的权重比。天文光谱序列可分为为恒星,星系,类星体及其他四大类,而各类数据不平衡,例如恒星类数据有10万个时,类星体类数据大约1万左右。因此,本实施例根据天文光谱数据的特点,采用了所采用的各类权重与验证集中各个类别的召回率成反比的方式针对性的训练模型,使得模型达到更优秀的结果。

参见图5,本发明的一个实施例中,以训练样本对神经网络模型进行训练,获得多个分类模型,将待分类天文光谱序列输入多个分类模型,获得多个分类结果,对多个分类结果采用卡尔曼滤波思想进行修正,修正后的分类结果作为最终分类结果。本实施例采用卡尔曼滤波思想进行结果修正,首先在多个分类结果中选定一个基础结果,随后根据其他模型输出的分类结果对初始的基础结果进行修正,这样可以更加精确的得到最终分类结果。本发明实施例中,假设多个预测结果有各自不同的分布,通过在概率空间中加权叠加可以获得更加精确的模型。具体的修正公式如下:选取两个预测结果x,y,它们有各自的召回率rx,ry。选定x作为基础结果,那么用y对x进行修正后的结果x_hat=x+ry/rx*y。那么有一组预测结果x={x1,x2,…,xn}以及它们对应的召回率r={r1,r2,…,rn}。这样,利用前面所说的方法进行修正可以得到更好的最终分类结果。

第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的方法的步骤。

第四方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。

本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”或“单元”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是fpga(field-programmablegatearray,现场可编程门阵列)、ic(integratedcircuit,集成电路)等。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、dvd、cd-rom、微型驱动器以及磁光盘、rom、ram、eprom、eeprom、dram、vram、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器ic),或适合于存储指令和/或数据的任何类型的媒介或设备。

本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。在本发明实施例中,处理器为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。

在本发明中,术语“第一”、“第二”等仅用于描述的目的,而不能理解为指示或暗示相对重要性或顺序;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1