一种基于极化SAR数据的多变量决策树特征集选取方法与流程

文档序号:15159415发布日期:2018-08-14 09:55阅读:140来源:国知局

本公开属于遥感分类应用领域,涉及一种基于极化sar数据的多变量决策树特征集选取方法。



背景技术:

合成孔径雷达(sar,syntheticapertureradar)是一种主动微波遥感手段,与光学遥感相比,信号穿透力强,具有全天时全天候的对地观测能力,是对地观测的重要手段之一。特别地,极化sar能够反映地面目标的几何结构、分布方向、介电特性等信息。从极化sar数据中提取的若干极化特征可用于目标的分类与物理特性描述。基于极化sar数据进行极化特征的选取,是获取地面目标相关信息的重要环节。

目前,决策树分类器是一类结构简单的分类器,可同时实现对目标的分类,并能对目标散射特性进行描述。决策树分类算法需要在每一个节点处遍历特征集的所有特征,从而选择最佳分支,继而分裂形成新的子节点。多变量决策树作为决策树分类算法的一种,在每一个节点处都需要测试两个或多个特征的组合。然而遍历所有特征组合的运算量是非常大的,因此,选取有效特征、减小特征集的容量,是多变量决策树分类操作之前重要的预处理。

现存的最优特征选择方法,一般是对整个特征集进行相关性分析,考虑各个特征之间的联系,去掉相关程度高的特征,使得保留下来的特征彼此之间的相关性很小。然而,当每次参与分支的特征只有两个或其他少量个数时,特征集里是否存在相关的特征并不重要,相关性分析的方法并不能满足多变量决策树对特征集的要求,因此,亟需提出一种基于极化sar数据的多变量决策树特征集选取方法,能够减少特征集里的特征个数,简化决策树分支时的遍历运算量,并且能够获得有效的特征集。



技术实现要素:

(一)要解决的技术问题

本公开提供了一种基于极化sar数据的多变量决策树特征集选取方法,以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面,提供了一种基于极化sar数据的多变量决策树特征集选取方法,包括:从特征集中选取一种待选择的特征,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置进行排序;依次计算相邻两类样本的分离度ji,得到m-1个分离度值组成的分离度数列;判断分离度数列是否满足分离度筛选条件;以及将满足分离度筛选条件的特征加入特征集中。

在本公开的一些实施例中,判断分离度数列是否满足分离度筛选条件;以及将满足分离度筛选条件的特征加入特征集中,包括:获取分离度数列中的最大值,判断该最大值是否超过一分离度设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列;以及对新数列求熵,并判断该新数列的熵值是否超过一熵设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;若超过,则该特征加入特征集中。

在本公开的一些实施例中,基于极化sar数据的多变量决策树特征集选取方法,还包括:遍历所有待选择的特征,将新数列的熵值超过一熵设定值的特征加入特征集。

在本公开的一些实施例中,对m类样本按照分布位置进行排序的方式包括:各类样本按照分布的波峰位置从左到右进行排序。

在本公开的一些实施例中,相邻两类样本的分离度ji满足:

j=2(1-e-b)

其中,mi和σi2(i=1,2)分别代表相邻两类样本分布的均值和方差。

在本公开的一些实施例中,分离度数列中的最大值a满足:

a=max{ji|i=1,2,...,m-1}

其中,{ji|i=1,2,...,m-1}为分离度数列。

在本公开的一些实施例中,分离度设定值为0.5;

新数列满足:

在本公开的一些实施例中,对新数列求熵s满足:

在本公开的一些实施例中,熵设定值介于0.2~0.4之间。

在本公开的一些实施例中,基于极化sar数据的多变量决策树特征集选取方法,其样本的数据为极化sar数据。

(三)有益效果

从上述技术方案可以看出,本公开提供的一种基于极化sar数据的多变量决策树特征集选取方法,具有以下有益效果:

依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。

附图说明

图1为根据本公开一实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法的流程图。

图2为根据本公开一实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法的具体操作流程图。

图3为根据本公开一实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法对特征进行选择,在得到的特征集中选取两个特征构成二维特征平面的样本散点图。

具体实施方式

本公开提供了一种基于极化sar数据的多变量决策树特征集选取方法,依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

在本公开的第一个示例性实施例中,提供了一种基于极化sar数据的多变量决策树特征集选取方法。

图1为根据本公开一实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法的流程图。图2为根据本公开一实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法的具体操作流程图。

参照图1和图2所示,本公开的一种基于极化sar数据的多变量决策树特征集选取方法,包括:

步骤s102:从特征集中选取一种待选择的特征,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置进行排序;

本实施例中,针对的是极化sar数据的特征集,在其他应用场景中,特征集还可以是其他图像数据的特征集,并不局限于本实施例的示例。

本实施例中,在所选取特征的一维特征空间的直方图中,对m类样本按照分布位置从左到右进行排序。其中,在一维特征空间的直方图中,对m类样本按照分布位置从左到右进行排序,指的是对各类样本按照分布的波峰位置从左到右进行排序,m为已知的类别数。

步骤s104:依次计算相邻两类样本的分离度ji,得到m-1个分离度值组成的分离度数列{ji|i=1,2,...,m-1};

本实施例中,按照从左到右的顺序依次计算相邻两类样本的分离度ji。

其中,两类样本的分离度ji满足:

j=2(1-e-b)(1)

其中,mi和σi2(i=1,2)分别代表相邻两类样本分布的均值和方差。

步骤s106:获取分离度数列中的最大值,判断该最大值是否超过一分离度设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;

本实施例中,获取分离度数列中的最大值a,采用如下公式:

a=max{ji|i=1,2,...,m-1}(3)

本实施例中,分离度设定值为0.5,参照图2所示,对所选取特征的分离度数列的最大值a与分离度设定值0.5进行比较,当所选取特征的分离度数列的最大值a超过分离度设定值时,则进行下一步s108的步骤;当所选取特征的分离度数列的最大值a不超过分离度设定值时,则说明该选取特征的分离度较差,将该特征去掉,再返回步骤s102对其他的待选择特征进行测试。

根据分离度数列的最大值与分离度设定值进行对比判断属于对数据的初筛阶段,在这一初筛阶段,可以去除分离度较差的特征。

需要说明的是,在实际应用中,分离度设定值的大小可根据实际需要进行适应性设置。

步骤s108:对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列{ji’|i=1,2,...,m-1};

本实施例中,对最大值超过分离度设定值的分离度数列中的元素进行处理,将超过分离度设定值的元素减去分离度设定值,将不超过分离度设定值的元素置零,得到新数列{ji’|i=1,2,...,m-1},以分离度设定值为0.5进行示例说明。

即,新数列满足:

步骤s110:对新数列求熵,并判断该新数列的熵值是否超过一熵设定值;若不超过,去掉该选取特征,并返回特征集中测试下一待选择的特征;

本实施例中,熵设定值可介于0.2~0.4之间,根据分散度的具体要求可进行灵活设置,要求分散度高,可令熵设定值高一些;本实施例中,熵设定值以0.3示例,参照图2所示,对步骤s108得到的新数列的分离度进行进一步的判定,通过对新数列求熵,判断该熵值是否超过一熵设定值以进一步判断其分离度是否良好。

本实施例中,对新数列求熵s满足如下公式:

需要说明的是,在实际应用中,熵设定值的大小可根据实际需要进行适应性设置。

步骤s112:遍历所有待选择的特征,将新数列的熵值超过一熵设定值的特征加入特征集;

本实施例中,由于每次只选取一种待选择的特征进行分离度的判断,该判断包括初筛阶段,即通过分离度数列的最大值与分离度设定值进行对比判断的阶段;在该特征的样本数据满足初筛阶段之后进行进一步的判定,即通过构造新数列并将新数列的熵与一熵设定值进行对比判断,从而在两个条件都同时满足的情况下,该特征可以入选特征集;如果初筛阶段不满足,则该特征就去除掉,继续进行下一待选择特征的测试和判定;如此分阶段判断的步骤可以减少特征集里的特征个数,简化决策树分支时的遍历运算量。同时依据分离度选择特征,保留了分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。

图3为根据本公开一实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法对特征进行选择,在得到的特征集中选取两个特征构成二维特征平面的样本散点图。

如图3所示,依据本实施例所示的一种基于极化sar数据的多变量决策树特征集选取方法对特征进行选择,选出两种特征,即散射角和水平后向散射系数。图3中为七种样本在散射角和水平后向散射系数的二维平面上的散点分布图。该图展示了通过本方法选取出两个特征后,样本在被选择的两种特征组成的二维平面上已具有初步的可分性。这展现了被选择特征具有良好的分离度。

需要说明的是,这里是以极化sar数据作为该方法的一个应用示例,但本公开不限制此方法的应用场景,在其他应用场景中,特征集还可以是其他图像数据的特征,并不局限于本实施例的示例。

综上所述,本公开提供了一种基于极化sar数据的多变量决策树特征集选取方法,依据分离度对若干特征做取舍,保留分离度较好的特征,去掉分离度较差的特征,使多变量决策树的分支对象具有良好的分离度,获得更好的分支精度。同时减少特征集里的特征个数,从而减小特征集的容量,降低决策树分类中确定分支时的特征遍历运算量。

当然,根据实际需要,本公开的一种基于极化sar数据的多变量决策树特征集选取方法还包含其他的常见方法和步骤,由于同本公开的创新之处无关,此处不再赘述。

以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1