一种基于张量分解的随机森林优化方法及系统的制作方法

文档序号:9631811阅读:509来源:国知局
一种基于张量分解的随机森林优化方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据挖掘领域,尤其涉及一种基于张量分解的随机森林优化方法及系统。
【背景技术】
[0002]目前基于聚类的集成学习机优化方法需要衡量两个基分类器预测结果的相似性以及它们之间的多样性,这些衡量指标在集成学习机的优化过程中起着至关重要的作用,然而多样性在实际中难以衡量,且多样性与集成学习机预测性能间的有效联系也较难建立。
[0003]随机森林因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关注。运用随机抽样技术获取多个有多样性差异的样本,并在这些自助样本上训练多个决策树的集合。随着决策树数目的不断增加,随机森林的分类错误率逐渐下降。
[0004]为了获取最优的分类性能,通常需要构造大量的决策树。但同时随机森林算法的时间复杂度和空间复杂度都会逐渐升高,而其预测效率明显下降,这对于在线学习更是一个严重的问题。
[0005]因此,如何大幅度提高预测效率一直以来就是业界亟需改进的目标。

【发明内容】

[0006]有鉴于此,本发明实施例的目的在于提供一种基于张量分解的随机森林优化方法及系统,旨在解决现有技术中机器学习界预测效率较低的问题。
[0007]本发明实施例是这样实现的,一种基于张量分解的随机森林优化方法,包括:
[0008]读入训练数据集作为初始训练集;
[0009]基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
[0010]基于所述随机森林训练集中的决策树模型构建张量模型;
[0011]利用预设张量分解技术对所述张量模型进行分解;
[0012]将分解后的张量进行调整以得到调整后的张量;
[0013]在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
[0014]利用测试样本集对所述最优基分类器子集进行测试。
[0015]优选的,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括H0SVD高阶张量分解技术。
[0016]优选的,所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括:
[0017]利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
[0018]统计各个分裂节点内包含的样本类标;
[0019]利用多数投票机制确定本节点中每个样本的投票频数;以及
[0020]将投票频数作为构建张量模型的基本元素进行构建张量模型。
[0021]优选的,所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括:
[0022]利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
[0023]将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
[0024]优选的,所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括:
[0025]将调整后的张量做tree-mode展开;
[0026]按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
[0027]将剩余决策树子集通过Pruning样本集进行测试;以及
[0028]选取具有整体最优的决策树子集作为最优基分类器子集。
[0029]另一方面,本发明还提供一种基于张量分解的随机森林优化系统,包括:
[0030]读取模块,用于读入训练数据集作为初始训练集;
[0031]随机森林训练模块,用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
[0032]张量构建模块,用于基于所述随机森林训练集中的决策树模型构建张量模型;
[0033]张量分解模块,用于利用预设张量分解技术对所述张量模型进行分解;
[0034]张量调整模块,用于将分解后的张量进行调整以得到调整后的张量;
[0035]最优子集选取模块,用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
[0036]测试模块,用于利用测试样本集对所述最优基分类器子集进行测试。
[0037]优选的,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括H0SVD高阶张量分解技术。
[0038]优选的,所述张量构建模块具体包括:
[0039]节点访问子模块,用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
[0040]类标统计子模块,用于统计各个分裂节点内包含的样本类标;
[0041]频数统计子模块,用于利用多数投票机制确定本节点中每个样本的投票频数;以及
[0042]构建子模块,用于将投票频数作为构建张量模型的基本元素进行构建张量模型。
[0043]优选的,所述张量调整模块具体包括:
[0044]截断子模块,用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
[0045]计算子模块,用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
[0046]优选的,所述最优子集选取模块具体包括:
[0047]张量展开子模块,用于将调整后的张量做tree-mode展开;
[0048]统计删除子模块,用于按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
[0049]样本测试子模块,用于将剩余决策树子集通过Pruning样本集进行测试;以及
[0050]最优选取子模块,用于选取具有整体最优的决策树子集作为最优基分类器子集。
[0051]本发明利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。
【附图说明】
[0052]图1为本发明一实施方式中基于张量分解的随机森林优化方法流程图;
[0053]图2为本发明一实施方式中图1所示步骤S13的详细子步骤流程图;
[0054]图3为本发明一实施方式中图1所示步骤S15的详细子步骤流程图;
[0055]图4为本发明一实施方式中图1所示步骤S16的详细子步骤流程图;
[0056]图5为本发明一实施方式中基于张量分解的随机森林优化系统结构示意图;
[0057]图6为本发明一实施方式中图5所示张量构建模块13的内部结构示意图;
[0058]图7为本发明一实施方式中图5所示张量调整模块15的内部结构示意图;
[0059]图8为本发明一实施方式中图5所示最优子集选取模块16的内部结构示意图。
【具体实施方式】
[0060]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0061]本发明【具体实施方式】提供了一种基于张量分解的随机森林优化方法,主要包括如下步骤:
[0062]S11、读入训练数据集作为初始训练集;
[0063]S12、基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
[0064]S13、基于所述随机森林训练集中的决策树模型构建张量模型;
[0065]S14、利用预设张量分解技术对所述张量模型进行分解;
[0066]S15、将分解后的张量进行调整以得到调整后的张量;
[0067]S16、在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
[0068]S17、利用测试样本集对所述最优基分类器子集进行测试。
[0069]本发明所提供的一种基于张量分解的随机森林优化方法,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。
[0070]以下将对本发明所提供的一种基于张量分解的随机森林优化方法进行详细说明。
[0071]请参阅图1,为本发明一实施方式中基于张量分解的随机森林优化方法流程图。
[0072]在步骤S11中,读入训练数据集作为初始训练集。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1