基于随机森林和XGBoost的水泥基材料抗压强度预测方法及系统

文档序号：33297126发布日期：2023-02-28 21:51阅读：19来源：国知局

基于随机森林和xgboost的水泥基材料抗压强度预测方法及系统
技术领域
1.本发明涉及水泥基材料技术领域，尤其是一种基于随机森林和xgboost的水泥基材料抗压强度预测方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.以砂浆和混凝土为代表的水泥基材料是工程建设的基本材料，其抗压强度与工程安全密切相关。各类水泥基材料的抗压强度，随着水泥选用、养护龄期、组成成分及其配合比的不同存在较大差异，且目前难以直接构建抗压强度及其影响因素之间的显式映射关系。对于工程设计中的各类水泥基材料，需要事先进行压缩试验以确保设计的安全性，这样的试验工作将花费大量的人力、物力和财力，且不可避免地带来试验中人为因素的不利影响。
4.近年来，机器学习方法在工程领域的预测问题展开应用，其优势在于机器学习无需假定具体的映射关系式，只需要通过有限数据集的训练，即可建立输入参数和输出参数的隐式映射关系。目前机器学习方法在水泥基材料技术领域的应用，主要是通过神经网络预测某一类特定砂浆或混凝土的抗压强度性能，但现有的应用存在着：输入参数选取具有经验性、计算易陷入过拟合、计算速度慢等问题，导致其预测方法难以普遍推广至各类水泥基材料，且预测的精度和速度难以满足工程需求。

技术实现要素：

5.针对现有技术存在的不足，本发明的第一目的是提供一种基于随机森林和xgboost的水泥基材料抗压强度预测方法及系统，可以在工程前期对材料的抗压强度进行快速而准确的预测，作为工程建设的参考依据，具有通用性。
6.为了实现上述目的，本发明是通过如下的技术方案来实现：
7.一种基于随机森林和xgboost的水泥基材料抗压强度预测方法，其特征在于，包括以下步骤：
8.针对水泥基材料确定需要的参数，以此为依据收集参数数据，整合形成初始数据集；
9.基于随机森林的数据集优化，在初始数据集上建立随机森林模型，由随机森林模型给出输入参数的重要性评价，定量筛选出对预测抗压强度较重要的输入参数，对初始数据实现处理，进而形成优化数据集；
10.基于优化数据集建立xgboost模型并进行优化得到智能预测模型；
11.利用智能预测模型对水泥基材料的抗压强度进行预测。
12.进一步地，当选用水泥基材料确定需要的参数时，综合考虑水泥基材料的影响因
素确定输入和输出参数；
13.所述水泥基材料的影响因素包括水泥基材料的水泥选用、养护龄期、组成材料及组合材料的配合比。
14.进一步地，当选用水泥基材料确定需要的参数时，将抗压强度作为输出参数；将水泥等级数据、试件养护龄期数据、各材料组分的相对含量数据作为输入参数。
15.进一步地，所述各材料组分的相对含量数据的计算公式如下：
[0016][0017]
式中，mc为该水泥基材料中的水泥含量、mi为各个材料组分的含量、m
ir
为各个材料组分的相对含量，i＝1,2,3
……
。
[0018]
进一步地，所述各材料材料的相对含量m
ir
由工程中具体的材料组成及其配合比确定，所述m
ir
包括：砂相对含量、石子相对含量、水相对含量、减水剂相对含量、偏高岭土相对含量、粉煤灰相对含量。
[0019]
进一步地，根据初始数据集建立的随机森林模型对输入参数的重要性评价结果，筛选掉对预测抗压强度重要性较低的输入参数，实现数据集的降维而形成优化数据集。
[0020]
进一步地，所述智能预测模型建立、调参和测试具体包括如下步骤：
[0021]
将优化数据集按照一定比例，划分为训练集和验证集；
[0022]
根据训练集建立xgboost模型，根据模型在验证集上的表现，调整超参数直至验证集上表现最优；
[0023]
将调参完成的模型在新的数据上加以测试，采用评价指标mape、r2、mse和mae，衡量本发明提出的水泥基材料抗压强度预测方法的精确程度。
[0024]
一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述预测方法的步骤。
[0025]
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述基于随机森林和xgboost的水泥基材料抗压强度预测方法的步骤。
[0026]
一种基于上述抗压强度预测方法的系统，包括初始数据集构建模块、优化数据集构建模块、智能预测模型构建模块和预测模块；
[0027]
初始数据集构建模块，被配置为：针对水泥基材料确定需要的参数，以此为依据收集参数数据，整合形成初始数据集；
[0028]
优化数据集构建模块，被配置为：基于随机森林的数据集优化，在初始数据集上建立随机森林模型，由随机森林模型给出输入参数的重要性评价，定量筛选出对预测抗压强度较重要的输入参数，对初始数据实现处理，进而形成优化数据集；
[0029]
智能预测模型构建模块，被配置为：基于优化数据集建立xgboost模型并进行优化得到智能预测模型；
[0030]
预测模块，被配置为：利用智能预测模型对水泥基材料的抗压强度进行预测。
[0031]
上述本发明的有益效果如下：
[0032]
1)本发明所提出的预测方法与现有的试验检验抗压强度相比，消除了重复性试验工作的成本消耗和人为因素带来的不利影响。
[0033]
2)本发明充分考虑了水泥选用、养护龄期、各种组成材料及其配合比等影响因素，
减少了以往输入参数选取的经验性，因此模型的可靠性得到提升。最终选用水泥等级、养护龄期、材料组分相对含量作为输入参数，能普遍适用于各类砂浆和混凝土等水泥基材料的抗压强度预测、定量筛选出较重要的抗压强度影响因素、在低维度下计算以避免过拟合的风险、同时实现对抗压强度的精准和快速预测以满足工程需求。
[0034]
3)本发明创新性地结合了随机森林和xgboost两种智能预测模型的功能：根据随机森林对输入参数的重要性评价的功能，定量筛选出对预测抗压强度较重要的输入参数，形成维度更低的优化数据集；进一步选用适合低维度数据计算的xgboost模型计算，而避免了以往神经网络模型过拟合和计算速度慢的问题。
[0035]
4)根据本发明的预测方法建立的模型具有一定的可拓展性，随着未来样本数据的增加，模型的预测性能将得到进一步的提升。
附图说明
[0036]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
[0037]
图1是本发明根据一个或多个实施方式的一种基于随机森林和xgboost的水泥基材料抗压强度预测方法的流程图。
[0038]
图2是本发明根据一个或多个实施方式的一种基于随机森林和xgboost的水泥基材料抗压强度预测方法的随机森林对输入参数的重要性评价结果。
[0039]
图3是本发明根据另一个或多个实施方式的一种基于随机森林和xgboost的水泥基材料抗压强度预测方法的xgboost模型在测试数据上的拟合效果。
[0040]
图4是本发明根据另一个或多个实施方式的一种基于随机森林和xgboost的水泥基材料抗压强度预测方法的xgboost模型在测试数据上预测值和真实值对比。
具体实施方式
[0041]
应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0042]
需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非本发明另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0043]
实施例一
[0044]
本发明的实施例以具体的水泥砂浆抗压强度预测为例，采用的智能模型使用python3.8.8编译计算，在计算中超参数random_state在适用的情况下设置为0，以控制训练过程的随机性和结果的可重复性。
[0045]
本发明的预测方法流程如图1所示，包括四个步骤：建立初始数据集；基于随机森林的数据集优化；基于xgboost的智能模型建立、调参与测试。对具体的水泥基砂浆抗压强度预测作为实施例，各步骤的具体方法如下：
[0046]
s1、建立初始数据集。综合考虑水泥基砂浆的水泥选用、养护龄期、组成材料及其
配合比等影响因素选取输入参数，将抗压强度作为输出参数，以此为依据收集参数数据形成902个样本数据构成的初始数据集。
[0047]
具体的，在选取输入参数时：为考虑水泥基砂浆的水泥选用，将水泥等级数据作为输入参数；为考虑养护龄期，将试件养护龄期数据作为输入参数；为考虑组成材料及其配合比的影响，引入各个材料组分的相对含量数据作为输入参数，计算公式如下：
[0048][0049]
式中，mc为该水泥基材料中的水泥含量(kg)、mi为各个材料组分的含量(kg)、m
ir
为各个材料组分的相对含量(i＝1,2,3
……
)。
[0050]
具体的，对于本实施例的水泥基砂浆抗压强度预测问题而言，考虑水含量m1、砂含量m2、引气剂含量m3、减水剂含量m4、偏高岭土含量m5、粉煤灰含量m6、增稠剂含量m7，进而得到水相对含量m
1r
、砂相对含量m
2r
、引气剂相对含量m
3r
、减水剂相对含量m
4r
、偏高岭土相对含量m
5r
、粉煤灰相对含量m
6r
、增稠剂相对含量m
7r
。各个材料组分的相对含量由工程中具体的水泥基材料组成确定，从而使得本发明普遍适用于各类水泥基材料的抗压强度预测问题。具体的，本发明的普适性在于：通过收集具体的水泥基材料均有的各个材料组分相对质量数据来建模预测。
[0051]
s2、基于随机森林的数据集优化。在初始数据集上建立随机森林模型，由随机森林模型给出输入参数的重要性评价，定量筛选出对预测抗压强度较重要的输入参数，对初始数据实现处理，进而形成优化数据集。
[0052]
具体的，在所述s2中随机森林对输入参数的重要性评价公式如下：
[0053][0054]
式中：n是随机森林基评估器的数量；erroob1是每个基评估器在袋外数据上计算得到的袋外数据误差；erroob2是对某一输入参数x的数据添加噪声后，计算得到的袋外数据误差。
[0055]
在本实施例中，随机森林的对九个输入参数的重要性评价结果如图2所示，水泥等级、养护龄期、水相对含量m
1r
、砂相对含量m
2r
、引气剂相对含量m
3r
、减水剂相对含量m
4r
、偏高岭土相对含量m
5r
、粉煤灰相对含量m
6r
、增稠剂相对含量m
7r
的特征重要性评价结果分别为：0.105、0.166、0.235、0.137、0.031、0.101、0.114、0.058、0.053。
[0056]
进一步的，根据输入参数的重要性评价结果，在本实施例中筛选出重要性结果大于0.1的特征，即将水泥等级、养护龄期、水相对含量m
1r
、砂相对含量m
2r
、减水剂相对含量m
4r
、偏高岭土相对含量m
5r
这6个参数作为优化数据集的输入参数，数据的维度由9维降低为6维，提高了下一步模型计算的速度，并降低了过拟合的风险。
[0057]
s3、基于xgboost的智能模型建立、调参与测试具体包括以下步骤：
[0058]
s3-1将优化数据集(902个样本)按照7：3的比例划分为训练集(631个样本)和验证集(271个样本)；
[0059]
s3-2根据训练集建立xgboost模型，根据模型在验证集上的表现，调整超参数直至验证集上表现最优；
[0060]
具体的，在本实施例中，xgboost模型的超参数及其取值分别为：弱评估器数量“n_
estimators”＝151、树分支的最大深度“max_depth”＝6、学习率“learning_rate”＝0.233、正则化系数“reg_alpha”＝3、节点最小样本权重“min_child_weight”＝2。
[0061]
s3-3将调参完成的模型在新的数据上加以测试(78个)，采用评价指标mape、r2、mse和mae，衡量本发明提出的水泥基材料抗压强度预测方法的精确程度。
[0062]
具体的，所述s3-3步骤中，所采用的评价指标mape、r2、mse和mae，计算公式如下：
[0063][0064][0065][0066][0067]
式中：n是样本数；fi是第i个样本的预测值；vi是第i个样本的试验值(i＝1,2,...n)；是所有试验值的平均值。
[0068]
具体的，mape反映了模型的相对误差，越接近0则越精确。r2为无量纲量，越接近1时模型拟合效果越好。mse和mae的单位分别是mpa2和mpa，mse和mae越小则表示预测越准确。通过以上指标，可以定量衡量通过本发明所提出的水泥基材料抗压强度预测方法的精确程度。
[0069]
本发明实施例子的技术方案考虑了各类水泥基材料的通用参数作为输入参数；并结合随机森林和xgboost两种机器学习模型的功能进行处理和计算：根据随机森林可以对输入参数进行重要性评价的功能，对输入参数进行定量筛选，减少参数选取经验性的同时形成维度更低的优化数据集用于xgboost模型的计算，在低维度下的计算可以避免过拟合的风险，且可以得到计算速度更快、通用性更强的的水泥基材料抗压强度预测模型。
[0070]
图3为本实施例中，智能预测模型在测试数据上的拟合效果，其r2＝0.980、mse＝43.79mpa2和mae＝5.23mpa，因此预测模型在测试数据上取得了良好的拟合效果。
[0071]
图4为本实施例中智能预测模型的预测值和测试数据的真实值，可以计算出指标mape＝-4.33％，即预测结果与真实值的平均相对误差被控制在了5％以内，其误差在工程允许范围内，证明了本发明提供的预测方法的有效性和准确性。
[0072]
将经过以上流程得到的模型作为最终的智能预测模型，该模型能够定量筛选出较重要的抗压强度影响因素，并实现了对实施例的精准和快速预测，其预测结果可以为工程作为依据。
[0073]
对于其他的水泥基材料，采取本发明所提出的预测流程进行计算，同样可以筛选对于该特定材料的输入参数，并建立相应的智能预测模型。
[0074]
实施例二
[0075]
一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述预测方法的步骤。
[0076]
实施例三
[0077]
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述基于随机森林和xgboost的水泥基材料抗压强度预测方法的步骤。
[0078]
实施例四
[0079]
一种基于上述抗压强度预测方法的系统，包括初始数据集构建模块、优化数据集构建模块、智能预测模型构建模块和预测模块；
[0080]
初始数据集构建模块，被配置为：针对水泥基材料确定需要的参数，以此为依据收集参数数据，整合形成初始数据集；
[0081]
优化数据集构建模块，被配置为：基于随机森林的数据集优化，在初始数据集上建立随机森林模型，由随机森林模型给出输入参数的重要性评价，定量筛选出对预测抗压强度较重要的输入参数，对初始数据实现处理，进而形成优化数据集；
[0082]
智能预测模型构建模块，被配置为：基于优化数据集建立xgboost模型并进行优化得到智能预测模型；
[0083]
预测模块，被配置为：利用智能预测模型对水泥基材料的抗压强度进行预测。
[0084]
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0085]
本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0086]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘人太何文胜张连震刘博峰何越纪陈新潘旭东徐先杰骆世豪刘伟灏
技术所有人：中交铁道设计研究总院有限公司中国石油大学（华东）
我是此专利的发明人

上一篇：一种用于面料生产车间的除尘装置的制作方法
上一篇：一次性烧烤炉的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。