一种基于随机森林回归的胸腔x光片肋骨检测方法_4

文档序号:9631815阅读:来源:国知局
数据点可能拥有较多的 特征项,即拥有高维的特征向量,而将所有的特征项都带入分割函数进行计算,给分割函数 参数的训练和数据的测试造成了巨大的压力,严重影响了分割函数参数训练的效率,是不 实用的。因此,需要特征选择函数,从特征空间中选取一些固定的特征项,用于分割函数的 参数训练。由于无法估计哪一维度的特征项对数据的代表性更强,本次实验采用随机化的 方法,根据分割函数的类型,从特征空间中选择相应个数的特征项。使用这种随机化的方 法,使得在训练每一个节点时,选择节点内数据特征向量中每个特征项的概率大小相同,在 节点数量较多的情况下,有更大的可能覆盖到所有的特征项,这样,可以保证不浪费、也不 偏重任何输入的数据信息,有利于在模型建立后,取得更好的预测准确性和泛化能力。采用 随机化的方法,也符合随机森林的随机理念。
[0118] 在实际的实验过程中,使用随机森林参数结构体forestModel的dimOfLearner元 素来控制弱分类器训练时,从输入数据特征向量中选择的特征项的个数。这些特征项是随 机从特征向量中选定的,为了保证获得较优的弱分类器,采取多次选定取最优的方法。特征 项的随机选定次数由随机森林参数结构体forestModel中的ranDimTime元素来控制。对于 每一组选定的特征项,根据分割函数的类型,多次随机选择分割参数,从中选取能够最大化 能量模型的一组参数,分割参数随机选定的次数由随机森林参数结构体forestModel中的 ranSplitNum元素来控制。随机选择分割参数,而不是一味的寻找能够使能量模型实现全局 最大化的那一组分割参数,可以有效地避免过拟合现象,也符合随机森林的随机化需求。综 上所述,共需要进行ranDimTime*ranSplitNum次的分割试验,并从中选择能量增益最大的 那一组特征项选择方法和分割参数,作为弱分类器模型的组成部分。
[0119] 几何图元Φ可以表示分割函数的类型和几何形状,进一步确定了弱分类 器的分类形式。例如,当几何图元Φ为直线时,分割函数是线性的,用h(v,Θ)= [τ,φ(v) ·φ>τ2]来表示对数据的线性分割,其中[·]代表指示函数(如果不等式成 立则返回1,否则返回〇),^代表分割阈值。
[0120] 本次实验共设计了如下四种不同的弱分类器模型,最终使用的分类器类型由随机 森林参数结构体forestModel中的learnerlD指定。
[0121] (1)与坐标轴平行的弱分类器
[0122] 该分类器的几何图元Φ是一条与坐标轴平行的直线。在训练节点分割函数参数 时,随机选定特征描述向量中某个维度的特征项~ *随机选定阈值τ数次,代入公式(6)指 定的分割函数进行二元分类,根据上述的描述,选择并记录能够最大化能量模型的特征维 度d。和分割阈值τ,完成对该弱分类器模型的训练。
[0123]在测试数据到达该节点时,直接根据公式(3. 6),进行分割检测,确定数据进入的 子节点。
[0124]C6)
[0125] 根据公式(6),
与坐标轴平行的弱分类器的基本参数设置为:Θ= 1,#(ν) =χ<?:, forestModel.dimOfLearner= 1。其中,Θ和φ的含义与前述相同。
[0126] (2)二元线性分类器
[0127] 该分类器的几何图元Φ是一条直线,该直线不一定与坐标轴平行,这就决定了分 割函数是一个二元一次函数。在节点分割函数参数训练时,随机选定特征描述向量某两个 维度的特征项'和%,选定阈值τ= 0。使用二元一次函数,根据公式(7)进行二元分类, 选择并记录能够最大化能量模型的特征维度和分割参数。
[0128]在测试数据到达该节点时,直接根据公式(7),进行分割检测,确定数据进入的子 节点。
[0129]
(7)
[0130]根据公式(7),二元线性分类器的基本参数设置为:分割函数参数Θ= -?
[θ1,θ2,θ3],特征选择函数^(v)=',特征选择控制变量forestModel.dimOfLearner xt/\_ _ =2〇
[0131] (3)非线性曲线分类器
[0132] 该分类器的几何图元Φ是一条圆锥曲线,其分割函数由一个二元二次函数指定。 在节点分割函数参数训练时,随机选定特征描述向量某两个维度的特征项'和\,随机选 定阈值ττ2,且要求满足τ'τ2。使用二元二次函数,根据公式(8)进行二元分类,选 择并记录能够最大化能量模型的特征维度、分割阈值和分割参数。
[0133] 在测试数据到达该节点时,直接根据公式(8),进行分割检测,确定数据进入的子 节点。
[0134]
[0135] 根据公式(3.8),二元线性分类器的基本参数设置为:分割函数参数Θ= [θ1,θ2,θ3,θ4,θ5,θ 6],特征选择函数特征选择控制变量forestModel. _·ν dimOfLearner= 2〇
[0136] (4)完全随机分类器
[0137] 完全随机分类器没有固定的分割几何图元Φ,它是一种完全随机化的分类器。根 据对树的平衡性参数设定,从输入当前节点的数据中,随机选择不同数目的数据分到左子 节点和右子节点,然后从所有的随机方法中,选择并记录能够最大化能量模型的分割方法。
[0138]完全随机分类器没有指定分割函数参数Θ、特征选择函数φ(ν)和特征选择控制 变量forestModel.dimOfLearner,但需要为其设定树的平衡性参数,来控制分割后左右子 节点数据数目之比。该参数由随机森林参数结构体forestModel中的treeType元素来控 制,该参数由两种取值,取值为"balance"时,表示要保证随机森林中的回归树为平衡树, 在进行分割时,要保证左右子节点上分到的数据数量相同,取值为〃imbalance〃时,表示随 机森林中的回归树可以为非平衡树,则在进行分割时,随机指定分入左右子节点的数据数 量。
[0139] 在测试数据到达该节点时,比较测试数据与当前节点的左/右子节点上的训练数 据的相似性,将测试数据送入相似性较高的那个子节点。
[0140] 〈4>叶子节点训练模型
[0141] 随机森林的训练过程,除了要进行弱分类器和树结构的训练之外,还需要对叶子 节点中存储的预测模型进行训练。好的预测模型,可以更有效的总结落入叶子节点中的数 据的特征与输出空间中对应实例数据的关联性,从而在测试过程中获得更高的预测准确率 和泛化能力。
[0142] 与弱分类器模型的训练类似,训练叶子节点预测模型时,同样不宜使用输入空间 数据的全部特征值,为了提高训练效率,从落入该叶子节点的特征向量中选择指定数量的 特征项,结合对应的输出空间数据进行训练。在实际的实验过程中,使用随机森林参数结构 体forestModel中的leafDim元素来控制叶子节点训练使用的特征项的个数。
[0143] 本次实验共设计了如下两种不同的叶子节点预测模型,最终使用的预测类型由随 机森林参数结构体forestModel中的leafType指定。
[0144]以下中使用/(V,?9,Θ):来表示叶子节点预测模型,其中V表示数据的特征向量,5表 示叶子节点预测函数的参数,?表示特征选择函数。
[0145] (1)线性回归拟合模型
[0146] 根据forestModel.leafDim指定的数目,从当前叶子节点上的数据点中随机选择 相应数目的特征项,然后使用线性拟合的方式,对叶子节点上的数据进行函数拟合,进一步 获得该节点上的回归函数。回归函数的形式如公式(9)所示。
[0148] 根据公式(9),线性回归拟合叶子节点预测模型的参数<9 特征选
[0147] (9) 择函数= ,.表示从数据的特征向量中随机选择的dim维特征项,其中 dim=forestModel.leafDim,y;表示对应于输入空间中数据X;的输出数据,S卩回归的目标 值。
[0149] (2)平均值模型
[0150] 根据forestModel.leafDim指定的数目,从当前叶子节点上的数据点中随机选择 相应数目的特征项,然后求取落入当前节点的数据的目标值平均值,作为对落入该节 点的测试数据的预测目标值。
[0151] 使用平均值模型,会导致所有落入当前节点的测试数据都具有相同的预测目标 值,这实际上会影响到随机森林的预测准确性和泛化能力。但是,平均值模型的训练和测试 过程都比较简单,实验的时间效率较高。
[0152]〈5>随机模型
[0153] 随机模型是对随机森林中所有随机化设定和应用的统称。上述已经提到过很多随 机化的训练方法,本部分将对这些随机化方法进行总结,并将其都归入随机模型中。
[0154] (1)回归树的训练数据选定
[0155] 在进行回归树训练时,需要随机从稠密采样空间中选取适当数量的输入数据,这 样可以适当降低随机森林中,回归树之间的关联性。减少随机森林中不同的回归树之间的 相似性,有利于充分有效的发挥每棵回归树的预测作用,降低重复预测的可能性,从而增加 随机森林的泛化能力。同时,选取适当数量的输入数据,可以提高回归树的训练效率。
[0156] (2)多次随机阈值试验
[0157]训练弱分类器模型时,多次随机选取的分割阈值,并从中选择使能量模型最大化 的一个,而不是一味寻找最优分割阈值,这样可以有效的避免过拟合问题,提高弱分类器在 测试中的泛化能力。
[0158] (3)多次随机选定训练数据特征项试验
[0159]训练弱分类器模型时,多次随机选取指定数目的数据特征项,并从中选择使能量 模型最大化的一组特征项,同样可以有效避免过拟合问题,提高泛化能力。
[0160] (4)随机选定叶子节点训练数据的特征维度
[0161]训练叶子节点预测模型
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1