基于机器学习的天文光学瞬变源快速自动识别方法及系统与流程

文档序号:11952051阅读:377来源:国知局
基于机器学习的天文光学瞬变源快速自动识别方法及系统与流程

本发明涉及一种天文光学瞬变源的快速自动识别方法,应用于大视场的天文光学瞬变源搜索项目。能够从图像相减方法中得到的残差图像中自动区分出噪声与瞬变源,从而实现将瞬变源从大量的噪声点中别识出来。图像相减法即是将观测图像与模板图像进行流量与位置匹配后进行相减得到残差图像。



背景技术:

瞬变源是指一种偶发的短暂的非周期性的天体或者天文现象。瞬变源对于研究宇宙的起源、研究极端环境下的物理现象有着重要的意义。宇宙的加速膨胀现象的发现(2011年诺贝尔物理学奖)正是通过对大样本瞬变源超新星的观测研究而发现的。同时,最新报导的引力波事件,其电磁波的对应体也是一类瞬变源(至今仍在寻找中)。

由于瞬变源是偶发的天文事件,要求瞬变源搜索的观测设备具有大视场(即单位时间内能观测到更大的天区)和高时间采样率(即对同一天区的回访观测频率)的特点。我国建设中的瞬变源搜索设备地基广角相机阵,由36台直径为18厘米的广角相机组成,相对于国际主流的瞬变源搜索设备,地基广角相机阵设备在视场和采样频率上都将提高1-2个数量级。大视场和高时间采样率意味着数据的产生率更大,为了寻找短时标的瞬变源要求数据处理的速度具有实时要求。因此,对于数据处理带来挑战,即需要实现对大数据的快速实时处理。

经典的瞬变源搜索的主要原理是通过将观测图像与模板图像进行相减,如果是一个瞬变源(即新出现的源)在减完后的残差图像中就是一个类似于完整点源的图像,而其他残缺的像斑则为相减过程中的噪声。传统的方法是通过人眼识别的方法将瞬变源从残差图中挑选出来,对于现代天文瞬变源搜索的大数据实时处理要求难以满足。



技术实现要素:

本发明技术解决的问题是:克服现有技术的不足,提供一种基于机器学习的天文光学瞬变源快速自动识别方法。

本发明的技术解决方案是:一种基于机器学习的天文光学瞬变源快速自动识别方法,该方法包括:

(1)通过仿真的方法构建瞬变源仿真观测图像训练样本;

(2)通过瞬变源仿真观测图像训练样本完成特征参量的提取并进行训练自动分类器;

(3)将观测图像与模板图像相减得到残差图像;

(4)对残差图像进行点源和特征参量的提取;

(5)由步骤(2)生成的自动分类器根据由步骤(4)处理的特征参量,采用基于随机森林的自动分类算法进行目标的自动分类得到瞬变源候选体。

在采用基于随机森林的自动分类算法完成观测图像上瞬变源快速自动识别后,再执行步骤(6)将识别结果进行数值过滤,输出分类好的瞬变源候选体。

数值过滤的处理步骤如下:

(6.1)在步骤(5)得到的残差图像上以瞬变源候选体为中心,分别截取15×15像元和8×8像元的窗口图像,其像元的响应记为Flux15x,y和Flux8x,y

(6.2)对窗口图像的每个像元的响应做如下判断,满足以下公式中的任一条件,则将其从可能的瞬变源候选体中过滤掉;

式①:len(Flux8x,y==1e-30)>3

式②:len(Flux15x,y==1e-30)>10

式③:len(Flux15x,y<-6σ+median(Flux15x,y))>5

式④:len(Flux8x,y<-4σ+median(Flux8x,y))>3

其中,len()为像元个数统计算符,median()为中值计算算符,σ为窗口图像像元响应值的标准方差。

通过仿真的方法构建瞬变源仿真观测图像训练样本通过如下方式实现的:

对原始图像进行减背景处理;

从减背景处理后的图像中选出一颗孤立的星,作为星像轮廓模板,通过对星像轮廓模板的流量进行仿真重构,之后叠加到原始图像上的方式构建出含有瞬变源的仿真观测图像;

从减背景处理后的图像中选出一批亮暗不等的星,作为星像轮廓模板,将该模板叠加到原始图像上的方式构建出含有瞬变源的仿真观测图像;

利用上述两种构建含有瞬变源的仿真观测图像的方法对选定的一段时间内的原始图像中,构建出瞬变源仿真观测图像训练样本。

训练自动分类器的实现方式如下:

将瞬变源仿真观测图像训练样本与模板图像相减得到残差图像;对残差图像进行点源和特征参量的提取;将提取到的所有特征参量输入到随机森林分类器进行训练,得到自动分类器。

提取的特征参量包括如下25个参量,具体参见下表:

一种基于机器学习的天文光学瞬变源快速自动识别系统,该系统包括:

图像预处理模块,用于通过仿真的方法构建瞬变源仿真观测图像训练样本;

特征参量提取模块,将瞬变源仿真观测图像训练样本与模板图像相减得到残差图像;之后对残差图像进行点源和特征参量的提取;

自动分类模块,将提取到的所有特征参量输入到随机森林分类器进行训练,得到自动分类器;

自动识别模块,将观测图像与模板图像相减得到残差图像,之后进行点源和特征参量的提取,利用提取的特征参量和上述得到的自动分类器,采用基于随机森林的自动分类算法得到瞬变源候选体。

还包括数值过滤器,数值过滤器对自动识别模块的处理结果进行数值过滤,输出分类好的瞬变源候选体。

在观测图像与模板图像得到的残差图像上以瞬变源候选体为中心,分别截取15×15像元和8×8像元的窗口图像,其像元的响应记为Flux15x,y和Flux8x,y;对窗口图像的每个像元的响应做如下判断,满足以下公式中的任一条件,则将其从可能的瞬变源候选体中过滤掉,剩余的瞬变源候选体为分类好的瞬变源候选体;

式①:len(Flux8x,y==1e-30)>3

式②:len(Flux15x,y==1e-30)>10

式③:len(Flux15x,y<-6σ+median(Flux15x,y))>5

式④:len(Flux8x,y<-4σ+median(Flux8x,y))>3

其中,len()为像元个数统计算符,median()为中值计算算符,σ为窗口图像像元响应值的标准方差。

图像预处理模块通过仿真的方法构建瞬变源仿真观测图像训练样本通过如下方式实现的:

对原始图像进行减背景处理;

从减背景处理后的图像中选出一颗孤立的星,作为星像轮廓模板,通过对星像轮廓模板的流量进行仿真重构,之后叠加到原始图像上的方式构建出含有瞬变源的仿真观测图像;

从减背景处理后的图像中选出一批亮暗不等的星,作为星像轮廓模板,将该模板叠加到原始图像上的方式构建出含有瞬变源的仿真观测图像;

利用上述两种构建含有瞬变源的仿真观测图像的方法对选定的一段时间内的原始图像中,构建出瞬变源仿真观测图像训练样本。

本发明与现有技术相比的有益效果是:

(1)本发明提出一种基于机器学习的自动识别方法,通过研究实际天文观测数据的特点,提出基于等轮廓测量的一系列优化特征参量,并且利用实际星像的轮廓进行构建仿真训练样本和数值量化的筛选过滤器,最后实现一种天文光学瞬变源的快速自动识别方法。在分类正确率一致的情况下,处理速度相对国际上同类处理方法提高约1个量级。本发明也适用于其他类似的天文瞬变源自动识别项目。

(2)本发明研究和引入了新的优化特征参量,如特征参量表中的参量1-13如所示,即基于等轮廓测光法以及相关的辅助参数来判断瞬变源的轮廓特征。将固定模型(二维高斯)的轮廓拟合转变为等光度的轮廓测量,使得该识别方法在保证同样自动识别准确率的情况下,处理速度有一个量级的提升。

(3)本发明在训练分类器时采用的仿真样本方法及大地保证了仿真出来的样本具有高度的与真实瞬变源的相似性,解决了由于实际瞬变源稀缺难以获得大量实际训练样本的问题,同时也提高了自动识别分类的准确性。

附图说明

图1天文光学瞬变源速自动识别方法处理流程图;

图2仿真训练数据构建流程示意图

具体实施方式

本发明利用基于随机森林的机器学习算法,通过优化的特征参量和仿真样本构建训练器的方法,实现瞬变源的快速自动准确识别。实施过程主要是:将观测图像与模板图像执行对齐相减,相减后的残差图像进行点源和特征参量的提取。然后,将提取到的特征参量输入到自动分类器,由基于随机森林的自动分类算法进行自动识别分类。然后再过通过定制的过滤器过滤,最后输出可能的瞬变源候选体。其具体实施过程如图1所示:

(1)通过仿真的方法构建训练样本,如图2所示,

①对原始图像进行减背景处理:先将图像分为64×64像素的子单元格,每个子单元格计算出经过3σ过滤(即,计算出方差为σ,去除3σ外的离散点,不断循环计算直至无3σ外离散为止)后的中值。然后将所有的子单格的中值加上位置信息利用二元三次多项式进行拟合,拟合后的值即为背景值。最后,将背景从图像中去除。

②从去除背景的图像中选出一颗较为孤立的星,以10倍半高全宽(半高全宽FWHM:二维高斯函数拟合计算)的方格子从图像中裁剪出来,作为星像轮廓模板。然后,对该模板的流量进行仿真重构。流量的重构计算公式为:Inew=K∑Fi,j,其中,Fi,j为模板中第(i,j)像元处的流量。在3σ时的极限星等和饱和星等之间,以每0.1个星等为间隔,通过调整K,重构出仿真星像。然后将这些仿真星像,按随机位置或者有规则排列撒入叠加到原始观测图像(每个相同星等仿真重构出10-15颗的仿真星像)构建出含有瞬变源的仿真观测图像。

③从去除背景的图像中选出一批(约20颗)从亮到暗不等的星,作为星像轮廓模板。选取星像轮廓模板时需要注意这些星像不要受周围星的干扰,相对比较孤立。然后将这些星像轮廓模板,按随机位置或者有规则排列撒入叠加到原始观测图像(每个相同星等重构10-15颗)构建出含有瞬变源的仿真观测图像。

④将以上②和③步骤所述的两种瞬变源重构方法应用到一个晚上的观测图像(约1000幅)中,两种法总计仿真重构出约2000幅瞬变源仿真观测图像训练样本。

(2)通过仿真的训练样本完成特征参量的提取进行训练自动分类器;

①将瞬变源仿真观测图像训练样本与模板图像相减得到残差图像。然后对残差图像进行点源和特征参量的提取。

②将提取到的所有特征参量输入到随机森林分类器进行训练,获取自动分类器。训练时的主要参数描述和选取如下:

(3)观测图像与模板图像相减得到残差图像。实际使用过程中一般选用三幅以上的观测像图进行中值合并(参与合并图像对应像元的中值为最后的值),这样处理能去除随机噪声点,如宇宙线等。模板图像一般选取若干天前图像质量较好的相同幅数图像进行与观测图像同样的合并方法合并。图像相减的过程主要执行:观测与模板图像之间的位置对齐匹配、观测与模板图像之间的流量及星像轮廓匹配、然后执行两图之间对应像元的流量相减(具体算法参见文献《Image subtraction using a space-varying kernel》C.Alard,Astron.Astrophys.Suppl.Ser.Volume 144,Number 2,June I2000)。

(4)对残差图像进行点源和特征参量的提取;

①采用天文中常用的点源提取算法(可参见SEXtractor点源提取算法:http://www.astromatic.net/software/sextractor),对残差图像进行测量,计算出点源位置,流量值等。

②根据以上测量的点源位置属性,在相应的星像位置处测量25个维度的特征参量属性,具体的维度描述见下表。

表中矩阵R(d)和B(d)即为以下具体计算方式中的Rx,y和Bx,y。I(d)指残差图像中每个像元和像元响应量所构成的二维矩阵。

具体的计算方式为:

上表中第I组特征参量(参量1-13)的计算:测光半径为r0处的流量计算式为:Fx,y为像元(x,y)处流量强度响应量,理论上总流量I为r=∞处的流量,但实际计算时由于函数本身的属性,r取10FWHM即可近似等于总流量,其中FWHM为上文提到的高斯函数拟合后的半高全宽。根据该公式即可计算出上表的参量1.和参量2.在总流量10%和20%处的测光半径。参量3.的计算则选取固定测光半径(孔径)为2个像元时的测光流量。等高轮廓线的测光流量计算公式为:其中start为背景涨落标准方差σ的5倍即取5σ,Ip为星像中最大的像素流量值。根据这个公式不同响应水平i,取i=0~4,即可得到等轮廓线,分别计算不同等高轮廓线内的面积,即为参量4.-8.的值。参量9.的计算为最大响应流量(Ip)与固定孔径(2个像元处)流量的比值:参量10.的计算为孔径(2个像元处)测光流量和以上等轮廓计算中i=4时的等轮廓区域内的总流量(I4)的比值:参量11.的计算为孔径测光流量与修正等轮廓总流量(I4corr)的比值:其中I4corr的计算即为以上等高轮廓线内面积等效到同面积下的圆形半径,然后计算该半径测光孔径的总流量,即为I4corr。参量12.测光误差的计算,即为星像的测光误差,具体计算见天文处理软件IRAF中的算法说明。参量13.即根据星像轮廓的计算出其中的椭率,取值为(0~1)。

上表中第II组特征参量(14.-25.)的计算为:首先对相减后的残差图像进行预处理,预处理的过程为:以星像目标为中心,截取出(2k+1)×(2k+1)像素的窗口图像,对应的二维矩阵为表计为I,合并矩阵为C,则Cx,y的计算表述式:

然后计算出两个矩阵量Rx,y和Bx,y,其表达式如下:其中,median()为中值算符,max()取最大值算符。根据以上公式即可计算出如下参量。

参量14.

其中(xc,yc为点源提取的星像中心坐标)

参量15.

<mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mi>m</mi> <mi>e</mi> <mi>d</mi> <mi>s</mi> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mo>{</mo> <mi>m</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>n</mi> <mo>(</mo> <msubsup> <mi>B</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>)</mo> <mo>,</mo> <mi>i</mi> <mo>&Element;</mo> <mo>(</mo> <mrow> <mn>0</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>}</mo> <mo>)</mo> </mrow> </mrow>

参量16.

其中count()为计数算符。

参量17-20,具体算法参见天文处理软件SEXtractor.

参量21:为固定孔径为2个像元的测光流量,转化为星等单位值。

参量22:

<mrow> <mi>n</mi> <mn>2</mn> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mn>3</mn> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>R</mi> <mrow> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>j</mi> </mrow> <mi>d</mi> </msubsup> <mo>&lt;</mo> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>(</mo> <mrow> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

参量23:

<mrow> <mi>n</mi> <mn>3</mn> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mn>3</mn> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>R</mi> <mrow> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>j</mi> </mrow> <mi>d</mi> </msubsup> <mo>&lt;</mo> <mo>-</mo> <mn>3</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>(</mo> <mrow> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

参量24:

<mrow> <mi>n</mi> <mn>3</mn> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mn>5</mn> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>R</mi> <mrow> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>j</mi> </mrow> <mi>d</mi> </msubsup> <mo>&lt;</mo> <mo>-</mo> <mn>3</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>(</mo> <mrow> <mo>-</mo> <mn>3</mn> <mo>,</mo> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

参量25:

<mrow> <mi>n</mi> <mn>2</mn> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mn>5</mn> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>R</mi> <mrow> <msub> <mi>x</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>+</mo> <mi>j</mi> </mrow> <mi>d</mi> </msubsup> <mo>&lt;</mo> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mo>(</mo> <mrow> <mo>-</mo> <mn>3</mn> <mo>,</mo> <mo>-</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>3</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

(5)由步骤(2)生成的分类器根据由步骤(4)处理的特征参量进行目标的自动分类(基于随机森林算法的python模块:http://neuro.debian.net/pkgs/python-sklearn.html)。

在相机硬件及天气状况没有特殊变化的情况下,基本上不需再做自动分类器的更新。而观测图像的处理只要执行步骤(3)-(5)甚至执行下列的步骤(6)即可。

(6)将识别结果进行数值过滤,输出分类好的瞬变源候选体。数据过滤器处理步骤如下:

①在残差图像上以候选瞬变源为中心,分别截取15×15像元和8×8像元的窗口图像,其像元的响应记为Flux15x,y和Flux8x,y

②对窗口图像的每个像元的响应做如下判断,满足以下公式中的任一条件,则将其从可能的瞬变源候选体中过滤掉。

式①:len(Flux8x,y==1e-30)>3

式②:len(Flux15x,y==1e-30)>10

式③:len(Flux15x,y<-6σ+median(Flux15x,y))>5

式④:len(Flux8x,y<-4σ+median(Flux8x,y))>3

其中,len()为像元个数统计算符,median()为中值计算算符,σ为窗口图像像元响应值的标准方差。

最后输出分类好的瞬变源候选体。

本发明还提供一种基于机器学习的天文光学瞬变源快速自动识别系统,该系统包括:

图像预处理模块,用于通过仿真的方法构建瞬变源仿真观测图像训练样本;

特征参量提取模块,将瞬变源仿真观测图像训练样本与模板图像相减得到残差图像;之后对残差图像进行点源和特征参量的提取;

自动分类模块,将提取到的所有特征参量输入到随机森林分类器进行训练,得到自动分类器;

自动识别模块,将观测图像与模板图像相减得到残差图像,之后进行点源和特征参量的提取,利用提取的特征参量和上述得到的自动分类器,采用基于随机森林的自动分类算法得到瞬变源候选体。

数值过滤器对自动识别模块的处理结果进行数值过滤,输出分类好的瞬变源候选体。

系统中的相关内容与方法中的相对应,此处不过多描述,具体参照方法中的对应介绍。

本发明未详细说明部分属于本领域技术人员公知常识。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1