基于混合式网络的随机森林策略优化方法、存储介质与流程

文档序号：18398886发布日期：2019-08-09 23:40阅读：233来源：国知局

本发明涉及深度学习领域，具体涉及基于混合式网络的随机森林策略优化方法、存储介质。

背景技术：

目前深度学习数据选择有很多算法，其中决策树的拓展算法“随机森林”是通过同时获取多个样本进行计算，然后把这些决策树计算出来的结果整合后，通过投票得出最终的预估结果。我们把决策树当作一个弱分类器，每个决策树是一个独立个体，计算出结果后，将所有结果整合在一起，然后选择结果一致数多的数据作为最终结果。整个过程被称为随机森林算法，把所有相同的决策树结果合并起来就叫做随机森林。

决策树因为对结果要求过于严格，而会存在过拟合现象(认为百分百一致才是正确，99.9％一致也是错误)，所以为了解决决策树的问题，产生了随机森林算法。随机森林算法会把所有经过并行决策树的结果整理统计，通过选择出一致数多的结果作为正确结果。这样做虽然在一定程度上解决了过拟合现象，但是衍生了新的问题。首先，在随机森林遴选决策树数据时，对于建模者来说是在一个黑盒子里面进行，无法控制模型内部数据的运行，只能做不停的尝试。其次，很多结果相似的决策树，会掩盖真实的结果，导致数据结果与模型需要结果产生偏差。最后，当可计算数据量较少或者非有用数据干扰较多时，随机森林算法并不能给出一个连续输出，在数据回归时，不能给出超过理想值的结果。

技术实现要素：

本发明所要解决的技术问题是：提供一种基于混合式网络的随机森林策略优化方法、存储介质，消除黑盒子特性，同时提高数据结果的准确性。

为了解决上述技术问题，本发明采用的技术方案为：

基于混合式网络的随机森林策略优化方法，包括：

预设混合式网络中超级节点的列表状态；

随机选取预设个数的待学习数据作为超级节点，且超级节点之间相互关联；

待学习数据通过决策树产生对应决策树数量的数据结果集；

将数据结果集的各个数据结果分别随机发送至混合式网络的任一超级节点；

超级节点一旦接收到新的数据结果，将依据列表状态判断是否将所述数据结果作为自己的子节点，并将所述数据结果广播给与其连接的其他超级节点，直至所有的超级节点均接收过所有的数据结果。

本发明提供的另一个技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，所述程序在被处理器执行时，能实现上述基于混合式网络的随机森林策略优化方法所包含的步骤。

本发明的有益效果在于：通过随机选取数据作为超级节点构建混合式网络，在多个决策树并行工作时，开始在超级节点之间广播决策数生成的数据结果，利用广播消息可获取的特性消除黑盒子特性，实现随机森林数据计算的透明化；同时，超级节点依据列表状态挂载数据结果，能最大量去除过拟合，显著提高数据结果的准确度；进一步的，又能利用区块链的混合式网络特性，避免数据泛洪传播过量，节省资源的同时提高学习效率；进一步的，在传入小量级数据时，能通过将数据结果在所有超级节点之间广播而实现变相扩展数据量，确保数据结果的可靠性。通过本发明，能显著提高整个cnn网络学习的效率和输出数据的准确性。

附图说明

图1为本发明实施例基于混合式网络的随机森林策略优化方法的流程示意图；

图2为本发明实施例一的流程示意图；

图3为本发明实施例的混合式网络节点组成及连接示意图；

图4为本发明实施例二的随机森林计算示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本发明最关键的构思在于：通过将决策树生成的数据结果集在生成随机森林之前，经过混合式网络基于超级节点之间的广播和计算进行归整，实现数据计算透明化，同时最大程度去除过拟合，显著提高数据结果的准确性。

本发明涉及的技术术语解释:

请参照图1以及图3，本发明提供基于混合式网络的随机森林策略优化方法，包括：

预设混合式网络中超级节点的列表状态；

随机选取预设个数的待学习数据作为超级节点，且超级节点之间相互关联；

待学习数据通过决策树产生对应决策树数量的数据结果集；

将数据结果集的各个数据结果分别随机发送至混合式网络的任一超级节点；

从上述描述可知，本发明的有益效果在于：利用广播消息可获取的特性消除黑盒子特性，实现随机森林数据计算的透明化；同时，能最大量去除过拟合，显著提高数据结果的准确度；进一步的，又能利用区块链的混合式网络特性，避免数据泛洪传播过量，节省资源的同时提高学习效率；进一步的，在传入小量级数据时，能确保数据结果的可靠性。通过本发明，能显著提高整个cnn网络学习的效率和输出数据的准确性。

进一步的，还包括：

将数据结果集经过混合式网络后生成的数据生成随机森林；

将随机森林输出的回归数据传入cnn网络进行深度学习。

由上述描述可知，经过混合式网络后生成的回归数据再生成随机森林，便可解决数据分类计算不透明和过拟合问题，从而显著提高随机森林输出数据的有效性。

进一步的，所述经过混合式网络后生成的数据为各个超级节点及其下挂载的子节点对应的数据结果。

由上述描述可知，由于经过混合式网络后输出的每个超级节点下的数据结果都具备列表状态要求的相似度，因此，能够实现在进行深度学习之前对数据结果进行有效地整合规划，从而显著提升深度学习的效率。

进一步的，所述列表状态包括子节点容量和样本标签；所述接收到数据结果的超级节点依据列表状态判断是否将所述数据结果作为自己的子节点，具体为：

接收到数据结果的超级节点依据列表状态中的容量，判断是否可以增加所述数据结果作为子节点，得到第一判断结果；

超级节点依据列表状态中的样本标签，判断所述数据结果与自身的图形特征相似度是否符合样本标签的要求，得到第二判断结果；

当第一判断结果和第二判断结果均为是时，将所述数据结果作为超级节点的子节点。

由上述描述可知，超级节点将根据列表状态选择自己的子节点，进而实现通过所有数据结果在所有超级节点之间的广播，起到对数据结果集进行分类的目的。

进一步的，还包括：

通过抽取一数据结果的日记，获取所述一数据结果的广播轨迹以及所述一数据结果对应的至少一个超级节点。

由上述描述可知，基于广播日记，可实现对任意数据结果计算结果的回溯，实现计算过程透明化。

本发明提供的另一个技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，所述程序在被处理器执行时，能实现上述基于混合式网络的随机森林策略优化方法所包含的步骤。

从上述描述可知，对应本领域普通技术人员可以理解实现上述技术方案中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来实现的，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时，可包括如上述各方法的流程。通过该流程的执行，能实现上述各发明对应能够实现的有益效果。具体的步骤内容和各方法对应的效果在此不进行复述，详情请参阅上述的记载。

其中，所述的存储介质可以是磁盘、光碟、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

实施例一

请参照图2，本实施例提供一种基于混合式网络的随机森林策略优化方法，方法包括：

s1：预设混合式网络中所有超级节点的列表状态。

所述列表状态包括子节点容量和样本标签。其中，所述子节点容量为每个超级节点下可挂载的子节点的数量；所述样本标签为与样本结果基于图形特征进行匹配后允许的最低相似度，大多为90％以上。

s2：随机选取预设个数的待学习数据作为超级节点，且超级节点之间相互关联。

具体的，所述预设个数依据待学习数据总量以及每个超级节点可挂载的最高数据量确定。作为超级节点的数据是随机选取的，能减少分类带来的压力。

请参阅图3，图中的实心节点对应的是超级节点，空心节点为挂载在超级节点上的子节点。需要特别注意的是，超级节点与超级节点之间相互关联，即，任意一个超级节点均可通过至少一个超级节点作为桥梁与混合式网络内的任意一个超级节点进行通信连接。

下面，将进入待学习数据传入cnn网络后进行深度学习前的预处理的阶段。

具体的，包括以下步骤：

s3：待学习数据通过决策树产生对应决策树数量的数据结果集。

具体而言，当待学习数据传入cnn网络之后，将首先进行数据筛选。此时，无论待学习数据的数据量大小，会先生成无数决策树(决策树数量取决于待学习数据量大小)。其中，所谓的决策树就是一种树形结构，通过计算，用来获取数据结果。当无数多的决策树产生后，就会对应生成相应数量的数据结果(一个决策树对应生成一个数据结果)，构成数据结果集合。

现有技术中，决策树会组成随机森林，在随机森林中保存决策树产生的数据结果。随机森林的特征为在全部数据中选取一个可能有重复且大小相同的数据进行训练。这样会导致数据训练的不透明性和少量数据不易提取的问题。对应本实施例，将在随机森林生成前加入一个“混合式网络”，通过混合式网络将各个决策树生成的数据结果进行归类，同时又能解决随机森林网络上述存在的两个问题。

s4：将数据结果集中的各个数据结果随机性的分别发送至混合式网络中的任意一个超级节点。

具体而言，所述的混合式网络来源于区块链网络的特点：在所有数据中，生成几个超级节点，每个超级节点上对应列表状态挂载了n个普通节点，超级节点和超级节点之间进行关联。

本实施例的混合式网络，由随机抽取的多个待学习数据担任超级节点，由超级节点依据列表状态在接收到数据结果的时候选择性选取作为自身的子节点，即挂载在其下的普通节点，一个数据结果对应一个决策树，因此，每个普通节点对应存储一个决策树的结果。更重要的是，本实施例的混合式网络中，新加入网络的数据结果会随机性地发送至任意一个超级节点上，而这个超级节点将在接收到新的数据后通过广播形式及时地将其推送给与自身连接的其他超级节点。由此实现传入网络的数据能够基于超级节点之间的广播传递，被每一个超级节点计算。

s5：超级节点一旦接收到新的数据结果，将依据列表状态判断是否将所述数据结果作为自己的子节点，并将所述数据结果广播给与其连接的其他超级节点，直至所有的超级节点均接收过所有的数据结果。

具体而言，此处新的数据结果，同时包括刚传入网络的数据结果和从其他超级节点广播传递过来的且之前未接收过的数据结果两种情况。也就是说，不管是刚传入网络的数据结果，还是从其他超级节点传递过来的新的数据结果，只要超级节点收到新的数据结果，都将进行“计算”和“广播传递”。

具体而言，超级节点依据列表状态判断是否将所述数据结果作为自己的子节点的过程包括：

接收到新的数据结果的超级节点将依据列表状态中记载的容量，判断是否可以增加所述数据结果作为子节点，即是否还有空余的位置再挂载一个新的子节点，得到第一判断结果；

超级节点依据列表状态中记载的样本标签(要求与超级节点的图像特征相似度达到预设值以上)，判断所述数据结果与自身的图形特征相似度是否符合样本标签的要求，即数据结果是否满足超级节点的要求。得到第二判断结果；

当第一判断结果和第二判断结果都为是时，将所述数据结果作为超级节点的子节点挂载在其下。即，若当前接收到的数据结果满足当前超级节点的需求和状态(容量)许可，可以挂靠成为自己的一个子节点。

具体而言，所述将所述数据结果广播给与其连接的其他超级节点，即数据节点一旦接收到新的数据结果，便会将其广播传递给与其连接的其他超级节点。

由此可知，进入混合式网络的数据结果将会在每一次超级节点的广播推送中被确认一次(计算是否成为自身的一个子节点)，然后通过广播方式传递下去。这样，不光避免整个计算在黑盒子中；而且当数据量较少时，每个超级节点都会存储并计算过每一个数据结果。进一步的，在超级节点广播的过程中，由于系统的运作方式，会最大量去除过拟合。所谓的过拟合是在选取数据时，过于苛刻，而导致部分可用数据丢失。由于广播过程中，会对需要该数据结果的超级节点传递有用信息。而混合式网络的做法本身是为了避免泛洪(即一个消息经过所有节点，导致广播重复，增大系统压力)，对于过拟合来说刚好是相应的解决方式。

s6：将数据结果集经过混合式网络后生成的数据生成随机森林。

具体而言，所述经过混合式网络后生成的数据为各个超级节点数据及其下挂载的子节点对应的数据结果。即将数据结果集合对应超级节点进行相似度分类后的结果。

s7：将随机森林输出的回归数据传入cnn网络进行深度学习。

最终所有经过计算产生的回归数据即不会出现过拟合的状态，也会分布在对应超级节点下，在进入cnn网络前这些回归数据是整齐划一的，使整个cnn网络学习更加快速。

s8：依据广播日记查看数据结果的计算过程。

下面，以查看一个具体数据结果的计算过程为例进行说明：

通过抽取一数据结果的广播日记，获取所述一数据结果的广播轨迹以及所述一数据结果对应的至少一个超级节点，即获取挂靠该数据结果的挂靠点。

通过本发明进行随机森林的策略优化，首先，可以解决随机森林数据计算的不透明问题，使数据选择进行广播，实现通过查看广播日志即可获取计算情况；其次，当传入数据量较少的时候，通过混合式网络的超级节点广播，让每个超级节点都可以获取到自己节点需要的数据，解决小量级数据不够的问题。这是因为，当投入的数据量较少时，数据之间进行广播，相当于数据有序的进行了至少两次提取，变相将单份数据扩展为两份或多份。进一步的，还可以避免出现过拟合现象。

实施例二

请参照图3和图4，本实施例对应实施例一，提供一个具体运用场景：

基于混合式网络的随机森林策略优化方法，针对数据在决策树生产的随机森林中计算选择做出优化，使信息透明且去过拟合。

当一组数据传入cnn网络时，假设该组数据的数据量较少，其中的数据经过所有决策树产生了数据结果集。以数据结果集中的一个具体数据结果b为例进行说明：在随机森林计算过程中，数据结果b会通过任意一个超级节点挂在混合式网络中。当数据结果b挂在超级节点a上时，超级节点a会在全网进行广播我有一个数据结果b，这时数据结果b会通过超级节点a推送给与其相邻的其他超级节点，以此传递经过所有的超级节点。数据结果b在随机森林的混合式网络中被其中一个超级节点接收后，会挂载到这个超级节点下，这时数据结果b就会被挂在这个超级节点上成为其子节点。

通过混合式网络的特征，当数据结果b在进入第一个超级节点时，会进行全网广播，类似于乡里乡长大喊，看看这是谁家的孩子，当和谁比较匹配时，数据结果b会传递到对应的超级节点下，当数据结果b符合该超级节点的列表状态时会留在这家。如图4所示，数据结果b将依次经过超级节点a、b、c，并通过计算匹配，挂载在超级节点b下(因b与b相似度符合b的列表状态)。

在整个流转过程中，“乡长”(超级节点)的大喊(广播传递)“所有人”(所有超级节点)都会收到这个消息，解决了原来随机森林无法知道数据选取的缺点，如果想要查数据结果b的推送轨迹和挂靠点，只需要抽取数据结果b的日志即可知道。

现有技术中，假设本次仅传入了26个字母和10个数字，包括大小写一共62个数据，这个量级很少，其中数字"1"和"l"的小写字母很相似。在抽取大写"l"的子数据时由于匹配数据极少，会取到小写"l"，而其实数字"1"也具备极大的相似值。而对应本具体运用场景，在混合式网络广播时，"l"的超级节点不光可以收到小写"l"的数据，也会收到数字"1"的数据，且可以将两个数据都挂载在"l"下，作为"l"的子节点。因而避免了只会取到完全一致的数据情况，避免了过拟合发生。同时，将极为相似的数字"1"也作为数据传给"l"让其学习，相当于多了一份数据，由此提高了输出结果的有效性。

当传入的数据找到了自己的超级节点时，每个超级节点下的数据是具备相似的，这些数据会按照超级节点的分类传递给cnn网络，每一批次传入的数据是具有分类的。在cnn网络进行深度学习时不必重新整合规划数据，按照超级节点提供的特点进行选取，会大大增加cnn网络的学习速率。

实施例三

本实施例对应实施例一和实施例二，提供一种计算机可读存储介质，其上存储有计算机程序，，所述程序在被处理器执行时，能实现上述实施例一或实施例二基于混合式网络的随机森林策略优化方法所包含的步骤。具体的步骤内容在此不进行复述，详情请参阅实施例一和实施例二的记载。

综上所述，本发明提供的基于混合式网络的随机森林策略优化方法、存储介质，不仅消除了黑盒子特性，实现随机森林数据计算的透明化；同时，能最大量去除过拟合，显著提高数据结果的准确度；进一步的，又能避免数据泛洪传播过量，节省资源的同时提高学习效率；进一步的，在传入小量级数据时，能确保数据结果的可靠性。通过本发明，能显著提高整个cnn网络学习的效率和输出数据的准确性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘德建;陈伟;林剑锋;吴林旭;于恩涛;林琛
技术所有人：福建天晴数码有限公司
我是此专利的发明人

上一篇：一种用于检测X染色体失活的双重PCR分子诊断试剂盒的制作方法
上一篇：可伸缩波纹软管及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。