基于巴氏系数的单类标注下遥感影像目标区域提取方法与流程

文档序号:16136184发布日期:2018-12-01 01:00阅读:181来源:国知局

本发明涉及一种遥感影像在单类标注下目标区域的提取方法,属于电子信息技术领域。

背景技术

遥感技术已广泛用于各种城市和环境应用当中,如土地利用变化的监测,水质测量和植被测绘等。一般地,这些遥感技术都有赖于遥感影像中的目标分类和提取。目标提取指在影像中对目标和非目标区域加以区分并得到影像中所有目标位置的技术过程,本质上可以看成是机器学习的过程:在已标注正负类的像元特征组成的样本数据集上学习并构造出一个统计分类模型,并利用该模型得到待标注像元的类别。得助于机器学习和图像处理技术的发展,现有的遥感目标提取方法已经可以提供比较好的提取效果。

尽管如此,在某些应用项目中,我们可能只对特定的目标区域感兴趣,而对其它区域不感兴趣。例如,如果项目的目标是从遥感数据中检索道路并更新到现有交通工具体系中,那影像中的森林和农地等区域就不是项目应该感兴趣的内容。在这些项目中,因为仅对目标区域感兴趣,已标注的像元位置通常仅包含目标类,而不包含非目标类。事实上,不感兴趣的区域众多,即使标注了部分非目标区域类,也很难包含所有的非目标类,即已标注非目标区域类通常都是缺失的。这种仅包含已标注的正类(目标区域)训练样本,而不包含负类(非目标区域)训练样本的分类问题在机器学习中称为单类学习问题。对于这类问题,传统监督分类方法并不适用,因为传统监督分类器需要遥感影像中所有类被都有训练像元被标注,而在遥感影像尤其是高分辨率遥感影像中手动标注所有不感兴趣类的训练像元通常费时费力且一般都不现实。因此,有必要发展单类标注下稳定高效的遥感影像目标区域提取方法。

目前已有的单类标注下遥感影像目标区域的提取方法可以分成两大类。第一大类完全忽略待标注的影像像元,仅从目标区域中已标注的像元出发建立提取方法。这类方法的典型工作包括d.m.j.tax在“one-classclassification,concept-learningintheabsenceofcounter-examples”一文中提出的高斯模型和c.sanchez-hernandez等人在“one-classclassificationformappingaspecificland-coverclass:svddclassificationoffenland”一文中应用到的最大间隔法。高斯模型假设正类样本均来自某高斯分布,通过正类样本集上的密度估计得到正类所在高斯分布,进而由指定的合适阈值得到分类函数。缺点是缺乏选择合适阈值的标准,且当样本特征维数过高时,密度估计通常都很困难;最大间隔法视0点为唯一负类训练例,寻找能恰好容下所有正例且与0点间隔最大的一个超椭球面(或尽量远离0点的超平面)作为分类面。这类方法的缺点在于需要参数调优,对参数取值比较敏感。第二大类方法是半监督学习方法,待标注的像元特征被加入学习过程中,用以补偿已标注非目标区域训练像元特征缺失的问题。代表性的工作包括jmuñoz-marí等人在“semisupervisedone-classsupportvectormachinesforclassificationofremotesensingdata”做出的改进最大间隔法以及wli等人在“apositiveandunlabeledlearningalgorithmforone-classclassificationofremote-sensingdata”一文中用到的pul方法等。改进最大间隔法通过聚类或流形假设利用待分类样本提高了像元的分类精度。尽管如此,与最大间隔法类似的参数选择过于敏感的问题依然存在;pul方法将每一个待分类样本按比例视为正负类的复合体,并给出了该比例的计算方法。缺点是需要训练集中的正例具有完全随机性,且需要一个预训练过程估计该比例值,不适用于正例太少的情况。

总之,虽然目前已有的单类标注下遥感影像目标区域的提取方法已经取得了比较好的效果,但是所用方法存在着参数敏感,需要设定阈值以及假设过强等问题,在实际应用中目标提取效果的稳定性和精度都有待提高。针对这些问题,本发明公布了一种新的单类标注下遥感图像目标区域的提取方法。它采用隐含混合高斯-伯努利受限玻尔茨曼机描述目标与非目标类的混合分布描述数据分布,理论基础是分布之间重叠程度(overlap)的度量巴氏系数,在要求隐含混合高斯-伯努利受限玻尔茨曼机与待标记像元特征向量分布相吻合的同时,要求正类玻尔茨曼机分量与已标记目标像元特征向量的分布相吻合,以最小化正类分布密度与负类分布密度之间的巴氏系数(bhattacharyyacoefficient)为目标建立提取模型,使得正负类之间尽量远离彼此,最后求解该模型得到所有待标注像元的类别估计。本发明具有良好的技术效果。首先,本发明以巴氏系数作为理论基础,在非目标区域已标注训练像元特征缺失的情况下,得到远离目标区域分布的最佳非目标区域类的分布,适用于仅单类标注下的目标区域提取;其次,本发明要求模型同时拟合已标记目标像元特征的分布以及待标注像元特征的分布,是一种半监督学习方法,可以利用大量的廉价易取的待标注像元特征,提高目标提取的准确性;3)不需要人为设定分类阈值或者通过预训练得到可调参数的合适值;4)采用梯度法求解模型的优化目标,取得了与现有技术可比的计算速度。



技术实现要素:

本发明的目的是提供一种准确高效且稳定的单类标注下遥感影像目标区域的提取方法。

本发明的技术方案是:接收多光谱高分辨率遥感影像,标注目标区域中的少数像元位置,提取所有像元位置的特征得到特征向量集,采用隐含混合高斯-伯努利受限玻尔茨曼机描述目标和非目标类的混合分布描述数据分布,要求隐含混合高斯-伯努利受限玻尔茨曼机与待标注像元特征向量分布相吻合的同时并要求正类玻尔茨曼机分量与已标注目标像元特征向量的分布相吻合的同时,以最小化正类分布密度与负类分布密度之间的巴氏系数(bhattacharyyacoefficient)为目标建立提取模型,最终通过求解该模型得到所有像元位置的类别,并按照估计得到类别从遥感影像中提取目标区域,具体步骤如下:

步骤1,输入一张多光谱高分辨率遥感影像至可进行图像处理的计算设备,选取m(m为常数)个波段,将每一波段的值都归一化至[0,1]范围内,组成m个通道的图像;通过计算设备在图像中人工标注少量目标区域的像元位置;

步骤2,对影像的每一个像元位置,在图像的每一个通道上,以该位置为中心施加k×kk是奇数)的模板提取该位置在该通道上的特征,特征包括模板内所有像素的灰度值、灰度均值、灰度标准差、gabor特征;将每一个像元位置在所有通道上得到的特征合并组成一个d维列向量,一个像元位置对应一个d维列向量,称为像元特征向量,并将这些向量组成向量集,记为,其中l是已标注像元位置的个数,是待标注像元位置的个数,对应已标注像元位置,组成的集合记为,其余对应待标注像元位置,组成的集合记为

步骤3,建立隐含混合高斯-伯努利受限玻尔茨曼机(implicitmixturemodelofgaussian-bernoullirestrictedboltzmannmachines)用以描述像元特征向量的数据分布,它的两个受限玻尔茨曼机分量分别用以描述正类(目标)和负类(非目标)像元特征向量的数据分布,具体步骤包括:

步骤3.1,两个波尔兹曼机分量都是标准的受限波尔兹曼机,具有相同的网络结构,包括可见层和隐藏层,层间全连接,层内无连接;令两个波尔兹曼机分量中可视层的结点个数都为d,隐藏层结点个数都为m;令分别是第k个波尔兹曼机可见层第i个结点与隐藏层第j个结点之间的连接权重、可见层所有结点的偏移量和隐藏层所有结点的偏移量,其中,且表示正类,表示负类;进一步将作为元素分别组成dm列矩阵d行列向量m行列向量

步骤3.2,混合高斯-伯努利玻尔茨曼机的自由能量函数定义为:

其中

是可见层结点的取值,是隐藏层结点的取值,被称为指示量,是一个2维2值向量,当中的元素取值只能为0或1,且,当时表示当前像元特征向量属于正类,否则属于负类;

步骤3.3,给定可见层结点取值,并给定模型参数如前所述,它属于第k类的后验条件概率为

其中

步骤4,以最小化正类分布密度与负类分布密度之间的巴氏系数(bhattacharyyacoefficient)为目标使得正负类之间尽量远离彼此,并要求隐含混合高斯-伯努利受限玻尔茨曼机与待标注像元特征向量的经验分布相吻合,要求正类玻尔茨曼机分量与已标注目标像元特征向量的经验分布相吻合,建立优化问题如下:

其中:以及都是经验分布,是关于向量的函数,它仅在0向量点上为0,其余向量点上值为1;是kullback–leibler散度运算;

步骤5,求解步骤4中的优化问题,得到隐含混合高斯-伯努利受限玻尔茨曼机中的模型参数值,具体步骤包括:

步骤5.1,令

是一个常数);

将步骤4中的优化问题转换为无约束优化问题

;

步骤5.2,采用梯度法求解上述无约束优化问题,具体步骤如下:

步骤5.2.1,随机初始化模型参数,给定阈值,给定最大循环次数;令当前迭代次数

步骤5.2.2,令;令优化目标关于模型参数的梯度,其中

步骤5.2.3,初始化

步骤5.2.4,给定可见层结点取值,估计的类别:若,令;若,通过在当前模型参数基础上计算得到属于正类的后验条件概率;随机生成区间[0,1]之间的一个数,如果,令,表示属于正类,否则令,表示属于负类;

步骤5.2.5,给定可见层结点取值,选定第个受限玻尔茨曼机分量,通过

计算得到给定可见层取值的条件下隐藏层任意结点)取值为1的概率;随机生成区间[0,1]之间的一个数,如果,令,否则令,得到隐藏层取值为

步骤5.2.6,给定隐藏层结点取值,在第个受限玻尔茨曼机分量上,通过

重构可见层的取值,得到可见层新的取值为

步骤5.2.7,给定可见层新的取值上,重复步骤5.2.4得到属于正类的后验条件概率,进而得到的类别,如果表示属于正类,否则表示属于负类;选定第个受限玻尔茨曼机分量,在新的可见层取值上重复步骤5.2.5得到隐藏层任意结点)取值为1的概率,进而得到新的隐藏层结点取值为

步骤5.2.8,当时,输出,其中输出;否则令,跳转至步骤5.2.4,继续循环执行步骤5.2.4至步骤5.2.8;

步骤5.2.9,关于模型参数)偏导的估计值为

,

是仅关于的函数,它关于)的偏导数的估计值为

是仅关于的函数,它关于)的偏导数的估计值为

其中取为)中值为1占总数的比例且

分别是已标注像元特征向量和待标注像元特征向量重构后的经验分布,是关于向量的函数,它仅在0向量点上为0,其余向量点上值为1,

是二范数;

步骤5.2.10,令,其中;令),;更新模型参数,其中为大于0的常数;

步骤5.2.11,当u集上的重构误差或迭代次数时输出模型参数;否则跳转至步骤5.2.2,继续循环执行步骤5.2.2至步骤5.2.11;

步骤6,对任意一个待标注的像元特征向量,在已得到的模型参数的基础上计算它属于正类的后验概率,即令

根据贝叶斯判别方法,如果,则当前待标注像元特征属于正类,否则属于负类;最后按照待标注像元位置的类别标记从遥感影像中提取得到目标区域。

本发明的基本原理在于认为正类分布以及正负类混合分布给定情况下,尽量远离正类分布的负类分布将会是最好的负类分布估计。基于此原理,本发明对正负类重叠程度进行估计,以最小化该估计值作为优化目标,并以正类以及正负类混合分布均应符合已有数据作为约束条件,建立遥感图像提取模型,从而得到所有像元的类别,并根据这些类别标记从遥感影像中提取得到目标区域。

本发明与现有技术相比,具有以下明显的优势和有益效果:

1)本发明以巴氏系数作为理论基础,是一种全新的仅单类标注下遥感图像区域提取方法;2)本发明还是一种半监督学习方法,大量廉价易取的待标注像元特征不仅被用于补偿非目标区域训练例缺失问题,还被用于补偿目标区域训练例稀少的问题,因此往往可以得到比现有技术更高的提取精度,尤其是在只标注几个目标像元位置的情况下,本发明依然可以得到很好的目标提取效果;3)与现有技术相比,本发明不需要人为设定分类阈值或者通过预训练得到可调参数的合适值,是一种更稳定和高效的目标提取技术;4)本发明采用梯度法求解模型的优化目标,取得了与现有技术可比的计算速度。

附图说明

图1是本发明实施例的结构框图。

图2是本发明实施例求解优化问题得到模型参数的流程图。

图3是本发明实施例中所用遥感影像。

图4与提取目标区域后的效果图,目标区域白色填充,非目标区域黑色填充。

具体实施方式

根据图1部署本发明的实施例,所包含的具体步骤如下:

步骤1,输入一张多光谱高分辨率遥感影像(影像位于美国加利福尼亚州richmond城市,尺度为350m×350m,包含1366561个像元)至可进行图像处理的计算设备,选取m=3个波段,分别是红,绿,蓝,将每一波段的值都归一化至[0,1]范围内,组成m个通道的图像;以人工建筑作为提取目标,在目标区域中通过计算设备人工标注200个像元位置;

步骤2,对影像的每一个像元位置,在图像的每一个通道上,以该位置为中心施加5×5的模板提取该位置在该通道上的特征,特征包括模板内所有像素的灰度值、灰度均值、灰度标准差、gabor特征(4个尺度,4个方向);将每一个像元位置在所有通道上得到的特征合并组成一个d=129维列向量,一个像元位置对应一个d维列向量,称为像元特征向量,并将这些向量组成向量集,记为,其中l=200是已标注像元位置的个数,是待标注像元位置的个数,对应已标注像元位置,组成的集合记为,其余对应待标注像元位置,组成的集合记为

步骤3,建立隐含混合高斯-伯努利受限玻尔茨曼机(implicitmixturemodelofgaussian-bernoullirestrictedboltzmannmachines)用以描述像元特征向量的数据分布,它的两个受限玻尔茨曼机分量分别用以描述正类(目标)和负类(非目标)像元特征向量的数据分布,具体步骤包括:

步骤3.1,两个波尔兹曼机分量都是标准的受限波尔兹曼机,具有相同的网络结构,包括可见层和隐藏层,层间全连接,层内无连接;令两个波尔兹曼机分量中可视层的结点个数都为d,隐藏层结点个数都为m=200;令分别是第k个波尔兹曼机可见层第i个结点与隐藏层第j个结点之间的连接权重、可见层所有结点的偏移量和隐藏层所有结点的偏移量,其中,且表示正类,表示负类;进一步将作为元素分别组成dm列矩阵d行列向量m行列向量

步骤3.2,混合高斯-伯努利玻尔茨曼机的自由能量函数定义为:

其中

是可见层结点的取值,是隐藏层结点的取值,被称为指示量,是一个2维2值向量,当中的元素取值只能为0或1,且,当时表示当前像元特征向量属于正类,否则属于负类;

步骤3.3,给定可见层结点取值,并给定模型参数如前所述,它属于第k类的后验条件概率为

其中

步骤4,以最小化正类分布密度与负类分布密度之间的巴氏系数(bhattacharyyacoefficient)为目标使得正负类之间尽量远离彼此,并要求隐含混合高斯-伯努利受限玻尔茨曼机与待标注像元特征向量的经验分布相吻合,要求正类玻尔茨曼机分量与已标注目标像元特征向量的经验分布相吻合,建立优化问题如下:

其中:以及都是经验分布,是关于向量的函数,它仅在0向量点上为0,其余向量点上值为1;是kullback-leibler散度运算;

步骤5,求解步骤4中的优化问题,得到隐含混合高斯-伯努利受限玻尔茨曼机中的模型参数值,具体步骤包括:

步骤5.1,令

将步骤4中的优化问题转换为无约束优化问题

;

步骤5.2,采用梯度法求解上述无约束优化问题,具体步骤如下:

步骤5.2.1,随机初始化模型参数中所有参数均独立同分布于期望0,方差0.01的正态分布,给定阈值,给定最大循环次数;令当前迭代次数

步骤5.2.2,令;令优化目标关于模型参数的梯度,其中

步骤5.2.3,初始化

步骤5.2.4,给定可见层结点取值,估计的类别:若,令;若,通过在当前模型参数基础上计算得到属于正类的后验条件概率;随机生成区间[0,1]之间的一个数,如果,令,表示属于正类,否则令,表示属于负类;

步骤5.2.5,给定可见层结点取值,选定第个受限玻尔茨曼机分量,通过

计算得到给定可见层取值的条件下隐藏层任意结点)取值为1的概率;随机生成区间[0,1]之间的一个数,如果,令,否则令,得到隐藏层取值为

步骤5.2.6,给定隐藏层结点取值,在第个受限玻尔茨曼机分量上,通过

重构可见层的取值,得到可见层新的取值为

步骤5.2.7,给定可见层新的取值上,重复步骤5.2.4得到属于正类的后验条件概率,进而得到的类别,如果表示属于正类,否则表示属于负类;选定第个受限玻尔茨曼机分量,在新的可见层取值上重复步骤5.2.5得到隐藏层任意结点)取值为1的概率,进而得到新的隐藏层结点取值为

步骤5.2.8,当时,输出,其中输出;否则令,跳转至步骤5.2.4,继续循环执行步骤5.2.4至步骤5.2.8;

步骤5.2.9,关于模型参数)偏导的估计值为

,

是仅关于的函数,它关于)的偏导数的估计值为

是仅关于的函数,它关于)的偏导数的估计值为

其中取为)中值为1占总数的比例且

分别是已标注像元特征向量和待标注像元特征向量重构后的经验分布,是关于向量的函数,它仅在0向量点上为0,其余向量点上值为1,

,,

是二范数;

步骤5.2.10,令,其中;令),;更新模型参数,其中为大于0的常数;

步骤5.2.11,当u集上的重构误差或迭代次数时输出模型参数;否则跳转至步骤5.2.2,继续循环执行步骤5.2.2至步骤5.2.11;

步骤6,对任意一个待标注的像元特征向量,在已得到的模型参数的基础上计算它属于正类的后验概率,即令

根据贝叶斯判别方法,如果,则当前待标注像元特征属于正类,否则属于负类;最后按照待标注像元位置的类别标记从遥感影像中提取得到目标区域。

本发明实施例的kappa系数是0.78,提取目标区域的效果图参见图4,目标区域白色填充,非目标区域黑色填充。经典svdd(sanchez-hernandez,etal.one-classclassificationformappingaspecificland-coverclass:svddclassificationoffenland)以及pul(wli,etal.apositiveandunlabeledlearningalgorithmforone-classclassificationofremote-sensingdata)这两种单类标注下目标区域提取方法在同样的实验设置下的kappa系数分别是0.53和0.72。这两种经典方法kappa系数偏低的原因可能是目标区域选取的训练像元过少,仅200个。尽管如此,本发明依然保持了较高的kappa系数值,这充分说明了本发明具有良好的技术效果。

最后应说明的是:以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1