一种基于改进的多样性增强模型预测方法及其系统

文档序号：30963016发布日期：2022-07-30 14:48阅读：来源：国知局

技术特征：
1.一种基于改进的多样性增强模型预测方法，其特征在于，包括以下步骤：第一阶段：获取指定应用场景的样本训练数据集，并划分为第一数据集、第二数据集；通过初始训练方法训练第一数据集，得到初始决策树；对初始决策树进行排序，得到第一决策树队列，根据第一决策树队列择优选择若干决策树；使用第二数据集对择优决策树进行验证，得到验证结果；第二阶段：对于择优选择后剩下的决策树根据第二数据集进行倒序排序，生成第二决策树队列；计算第二决策树队列的预测错误率及第二决策树队列的队列长度；根据预测错误率和队列长度进行第二阶段循环处理，得到最终集合决策树，通过最终集合决策树得到预测结果。2.根据权利要求1所述的一种基于改进的多样性增强模型预测方法，其特征在于，获取指定应用场景的样本训练数据集，并划分为第一数据集、第二数据集，具体为：获取原始数据，对原始数据进行预处理，所述预处理包括：明显错误数据的删减、残缺数据的补全、数据归一化、数据编码；对预处理后的数据进行比例分割，得到训练数据和测试数据；对训练数据进行二次分割，得到第一数据集和第二数据集。3.根据权利要求2所述的一种基于改进的多样性增强模型预测方法，其特征在于，所述比例分割为p％与(1-p)％；所述二次分割的分割比例为90％与10％。4.根据权利要求1所述的一种基于改进的多样性增强模型预测方法，其特征在于，通过初始训练方法训练第一数据集，得到初始决策树，具体为：通过bootstrap方法对第一数据集进行训练，得到oobsample和初始决策树；其中，训练过程为普通决策树生成过程：步骤1：设结点的训练数据集为d，对每一个特征a，对其取的每个值a，根据样本点对a＝a测试为“是”或“否”；将d分割成d1和d2两部分，并计算gini(d,a)；步骤2：在所有特征a以及其所有的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点；从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去；步骤3：对两个子结点递归地调用步骤1和步骤2，直至满足停止条件；步骤4：生成cart决策树t；其中，算法停止计算的条件是结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值。5.根据权利要求4所述的一种基于改进的多样性增强模型预测方法，其特征在于，对初始决策树进行排序，得到第一决策树队列，根据第一决策树队列择优选择若干决策树，具体为：对初始决策树按照错误率从大到小进行排序，得到第一决策树队列；对第一决策树队列按照排列情况，择优选择m棵决策树。6.根据权利要求1所述的一种基于改进的多样性增强模型预测方法，其特征在于，对于择优选择后剩下的决策树根据第二数据集进行倒序排序，生成第二决策树队列，具体为：
对于择优选择后剩下的决策树按照第二数据集的对数损失值进行倒序排序，生成第二决策树队列，其中，对数损失值的计算公式如下：其中，l表示损失函数；y为输出标签；x为输入变量；n为输入样本大小；y
i
为输入实例x
i
的真实分类；p
i
为预测输入实例x
i
属于分类1的概率；其中，对数损失值鉴于0-1之间，根据大小排序，具体过程如下：步骤一：对剩余的决策树按照s2上的对数损失值通过对数损失值的计算公式获取，并对对数损失值按照快速排序方式进行倒序排序；步骤二：生成新的决策树队列g；步骤三：计算在数据集s2上决策树队列g的预测错误率；步骤四：计算决策树队列的长度；步骤五：若当前决策树队列的错误率小于阈值或队列长度小于阈值，贪心后向搜索停止，否则转到步骤六；步骤六：重复步骤二到步骤五；步骤七：得到最终集合决策树：k棵。7.根据权利要求6所述的一种基于改进的多样性增强模型预测方法，其特征在于，计算第二决策树队列的预测错误率的具体过程为：利用precision,recall,acc和f1-score测量derf框架；度量的定义如下：score测量derf框架；度量的定义如下：score测量derf框架；度量的定义如下：score测量derf框架；度量的定义如下：其中，tp表示识别出的正例，tn表示正确的负例，fp表示正例，fn表示负例，f1为综合评价标准。8.根据权利要求7所述的一种基于改进的多样性增强模型预测方法，其特征在于，根据预测错误率和队列长度进行第二阶段循环处理，得到最终集合决策树，具体为：若当前决策树队列的预测错误率大于阈值，则进行第二阶段循环处理；若当前决策树队列的预测错误率小于阈值，则停止贪心后向搜索，得到最终集合决策树。9.根据权利要求8所述的一种基于改进的多样性增强模型预测方法，其特征在于，贪心后向搜索的过程为：当经过数据分割技术处理后形成的子集s2与oob错误优化后留下的决策树m进行验证时，在s2子集上按对数损失值以相反顺序对其余决策树进行排名。10.一种基于改进的多样性增强模型预测系统，其特征在于，包括：数据获取模块，用于获取指定应用场景的样本训练数据集，并划分为第一数据集、第二
数据集；训练模块，通过初始训练方法训练第一数据集，得到初始决策树；第一决策树队列生成模块，用于对初始决策树进行排序，得到第一决策树队列，根据第一决策树队列择优选择若干决策树；验证模块，使用第二数据集对择优决策树进行验证，得到验证结果；第二决策树队列生成模块，用于对于择优选择后剩下的决策树根据第二数据集进行倒序排序，生成第二决策树队列；计算模块，用于计算第二决策树队列的预测错误率及第二决策树队列的队列长度；生成模块，根据预测错误率和队列长度进行第二阶段循环处理，得到最终集合决策树。

技术总结
本发明公开了一种基于改进的多样性增强模型预测方法及其系统，包括：第一阶段：获取指定应用场景的样本训练数据集并划分为第一数据集、第二数据集；训练第一数据集得到初始决策树；对初始决策树进行排序得到第一决策树队列，根据第一决策树队列择优选择若干决策树；使用第二数据集对择优决策树进行验证；第二阶段：对剩下的决策树根据第二数据集进行倒序排序，生成第二决策树队列；计算第二决策树队列的预测错误率及队列长度；根据预测错误率和队列长度进行第二阶段循环处理，得到最终集合决策树，进而得到预测结果。本发明的模型预测精确度高、预测结果稳定性好、预测速度快、方法预测所需要的样本占内存空间小，可用于各种数据分析建模的场景。分析建模的场景。分析建模的场景。

技术研发人员：彭俊丰朱雄泳徐俊陆许明
受保护的技术使用者：广东第二师范学院
技术研发日：2022.04.14
技术公布日：2022/7/29

完整全部详细技术资料下载

当前第2页1 2