一种基于随机森林回归的胸腔x光片肋骨检测方法_4

文档序号：9631815阅读：来源：国知局

数据点可能拥有较多的特征项，即拥有高维的特征向量，而将所有的特征项都带入分割函数进行计算，给分割函数参数的训练和数据的测试造成了巨大的压力，严重影响了分割函数参数训练的效率，是不实用的。因此，需要特征选择函数，从特征空间中选取一些固定的特征项，用于分割函数的参数训练。由于无法估计哪一维度的特征项对数据的代表性更强，本次实验采用随机化的方法，根据分割函数的类型，从特征空间中选择相应个数的特征项。使用这种随机化的方法，使得在训练每一个节点时，选择节点内数据特征向量中每个特征项的概率大小相同，在节点数量较多的情况下，有更大的可能覆盖到所有的特征项，这样，可以保证不浪费、也不偏重任何输入的数据信息，有利于在模型建立后，取得更好的预测准确性和泛化能力。采用随机化的方法，也符合随机森林的随机理念。
[0118] 在实际的实验过程中，使用随机森林参数结构体forestModel的dimOfLearner元素来控制弱分类器训练时，从输入数据特征向量中选择的特征项的个数。这些特征项是随机从特征向量中选定的，为了保证获得较优的弱分类器，采取多次选定取最优的方法。特征项的随机选定次数由随机森林参数结构体forestModel中的ranDimTime元素来控制。对于每一组选定的特征项，根据分割函数的类型，多次随机选择分割参数，从中选取能够最大化能量模型的一组参数，分割参数随机选定的次数由随机森林参数结构体forestModel中的 ranSplitNum元素来控制。随机选择分割参数，而不是一味的寻找能够使能量模型实现全局最大化的那一组分割参数，可以有效地避免过拟合现象，也符合随机森林的随机化需求。综上所述，共需要进行ranDimTime*ranSplitNum次的分割试验，并从中选择能量增益最大的那一组特征项选择方法和分割参数，作为弱分类器模型的组成部分。
[0119] 几何图元Φ可以表示分割函数的类型和几何形状，进一步确定了弱分类器的分类形式。例如，当几何图元Φ为直线时，分割函数是线性的，用h(v，Θ)= [τ，φ(v) ·φ>τ2]来表示对数据的线性分割，其中[·]代表指示函数（如果不等式成立则返回1，否则返回〇)，^代表分割阈值。
[0120] 本次实验共设计了如下四种不同的弱分类器模型，最终使用的分类器类型由随机森林参数结构体forestModel中的learnerlD指定。
[0121] (1)与坐标轴平行的弱分类器
[0122] 该分类器的几何图元Φ是一条与坐标轴平行的直线。在训练节点分割函数参数时，随机选定特征描述向量中某个维度的特征项~ *随机选定阈值τ数次，代入公式（6)指定的分割函数进行二元分类，根据上述的描述，选择并记录能够最大化能量模型的特征维度d。和分割阈值τ，完成对该弱分类器模型的训练。
[0123]在测试数据到达该节点时，直接根据公式（3. 6)，进行分割检测，确定数据进入的子节点。
[0124]C6)
[0125] 根据公式（6)，
与坐标轴平行的弱分类器的基本参数设置为：Θ= 1，#(ν) =χ<?:， forestModel.dimOfLearner= 1。其中，Θ和φ的含义与前述相同。
[0126] (2)二元线性分类器
[0127] 该分类器的几何图元Φ是一条直线，该直线不一定与坐标轴平行，这就决定了分割函数是一个二元一次函数。在节点分割函数参数训练时，随机选定特征描述向量某两个维度的特征项'和％，选定阈值τ= 0。使用二元一次函数，根据公式（7)进行二元分类，选择并记录能够最大化能量模型的特征维度和分割参数。
[0128]在测试数据到达该节点时，直接根据公式（7)，进行分割检测，确定数据进入的子节点。
[0129]
(7)
[0130]根据公式（7)，二元线性分类器的基本参数设置为：分割函数参数Θ= -?
[θ1，θ2，θ3]，特征选择函数^(v)='，特征选择控制变量forestModel.dimOfLearner xt/\_ _ =2〇
[0131] (3)非线性曲线分类器
[0132] 该分类器的几何图元Φ是一条圆锥曲线，其分割函数由一个二元二次函数指定。在节点分割函数参数训练时，随机选定特征描述向量某两个维度的特征项'和\，随机选定阈值ττ2，且要求满足τ'τ2。使用二元二次函数，根据公式（8)进行二元分类，选择并记录能够最大化能量模型的特征维度、分割阈值和分割参数。
[0133] 在测试数据到达该节点时，直接根据公式（8)，进行分割检测，确定数据进入的子节点。
[0134]
[0135] 根据公式（3.8)，二元线性分类器的基本参数设置为：分割函数参数Θ= [θ1，θ2，θ3，θ4，θ5，θ 6]，特征选择函数特征选择控制变量forestModel. _·ν dimOfLearner= 2〇
[0136] (4)完全随机分类器
[0137] 完全随机分类器没有固定的分割几何图元Φ，它是一种完全随机化的分类器。根据对树的平衡性参数设定，从输入当前节点的数据中，随机选择不同数目的数据分到左子节点和右子节点，然后从所有的随机方法中，选择并记录能够最大化能量模型的分割方法。
[0138]完全随机分类器没有指定分割函数参数Θ、特征选择函数φ(ν)和特征选择控制变量forestModel.dimOfLearner，但需要为其设定树的平衡性参数，来控制分割后左右子节点数据数目之比。该参数由随机森林参数结构体forestModel中的treeType元素来控制，该参数由两种取值，取值为"balance"时，表示要保证随机森林中的回归树为平衡树，在进行分割时，要保证左右子节点上分到的数据数量相同，取值为〃imbalance〃时，表示随机森林中的回归树可以为非平衡树，则在进行分割时，随机指定分入左右子节点的数据数量。
[0139] 在测试数据到达该节点时，比较测试数据与当前节点的左/右子节点上的训练数据的相似性，将测试数据送入相似性较高的那个子节点。
[0140] 〈4>叶子节点训练模型
[0141] 随机森林的训练过程，除了要进行弱分类器和树结构的训练之外，还需要对叶子节点中存储的预测模型进行训练。好的预测模型，可以更有效的总结落入叶子节点中的数据的特征与输出空间中对应实例数据的关联性，从而在测试过程中获得更高的预测准确率和泛化能力。
[0142] 与弱分类器模型的训练类似，训练叶子节点预测模型时，同样不宜使用输入空间数据的全部特征值，为了提高训练效率，从落入该叶子节点的特征向量中选择指定数量的特征项，结合对应的输出空间数据进行训练。在实际的实验过程中，使用随机森林参数结构体forestModel中的leafDim元素来控制叶子节点训练使用的特征项的个数。
[0143] 本次实验共设计了如下两种不同的叶子节点预测模型，最终使用的预测类型由随机森林参数结构体forestModel中的leafType指定。
[0144]以下中使用/(V,?9,Θ):来表示叶子节点预测模型，其中V表示数据的特征向量，5表示叶子节点预测函数的参数，?表示特征选择函数。
[0145] (1)线性回归拟合模型
[0146] 根据forestModel.leafDim指定的数目，从当前叶子节点上的数据点中随机选择相应数目的特征项，然后使用线性拟合的方式，对叶子节点上的数据进行函数拟合，进一步获得该节点上的回归函数。回归函数的形式如公式（9)所示。
[0148] 根据公式（9)，线性回归拟合叶子节点预测模型的参数<9 特征选
[0147] (9) 择函数= ，.表示从数据的特征向量中随机选择的dim维特征项，其中 dim=forestModel.leafDim，y;表示对应于输入空间中数据X;的输出数据，S卩回归的目标值。
[0149] (2)平均值模型
[0150] 根据forestModel.leafDim指定的数目，从当前叶子节点上的数据点中随机选择相应数目的特征项，然后求取落入当前节点的数据的目标值平均值，作为对落入该节点的测试数据的预测目标值。
[0151] 使用平均值模型，会导致所有落入当前节点的测试数据都具有相同的预测目标值，这实际上会影响到随机森林的预测准确性和泛化能力。但是，平均值模型的训练和测试过程都比较简单，实验的时间效率较高。
[0152]〈5>随机模型
[0153] 随机模型是对随机森林中所有随机化设定和应用的统称。上述已经提到过很多随机化的训练方法，本部分将对这些随机化方法进行总结，并将其都归入随机模型中。
[0154] (1)回归树的训练数据选定
[0155] 在进行回归树训练时，需要随机从稠密采样空间中选取适当数量的输入数据，这样可以适当降低随机森林中，回归树之间的关联性。减少随机森林中不同的回归树之间的相似性，有利于充分有效的发挥每棵回归树的预测作用，降低重复预测的可能性，从而增加随机森林的泛化能力。同时，选取适当数量的输入数据，可以提高回归树的训练效率。
[0156] (2)多次随机阈值试验
[0157]训练弱分类器模型时，多次随机选取的分割阈值，并从中选择使能量模型最大化的一个，而不是一味寻找最优分割阈值，这样可以有效的避免过拟合问题，提高弱分类器在测试中的泛化能力。
[0158] (3)多次随机选定训练数据特征项试验
[0159]训练弱分类器模型时，多次随机选取指定数目的数据特征项，并从中选择使能量模型最大化的一组特征项，同样可以有效避免过拟合问题，提高泛化能力。
[0160] (4)随机选定叶子节点训练数据的特征维度
[0161]训练叶子节点预测模型

完整全部详细技术资料下载

当前第4页1 2 3 4 5