本发明涉及一种基于xgboost的供应链履约风险预测方法,属于供应链风险防控。
背景技术:
1、电网企业在现代工业经济发展中占据的地位越来越重要,电网物资作为电网建设与维护的基础,其能否如期供应、质量好坏以及成本高低,极大影响着整个电网系统的稳定、安全与高效发展。电网物资供应商能否按照合同及时履约,是电力物资能否按时供应、电网工程按时投运的主要风险来源,进而影响着电网安全运营的稳定性和可靠性。然而,电力物资种类多样且金额较大、供应涉及环节众多、合同履约时间长,因供应商履约能力参差不齐、产品质量问题等造成的违约行为在数量上呈现上升趋势。已有的电网物资供应商履约风险预测方法主要以业务经验分析结合统计学方法为主,其研究结果往往缺乏充足数据支撑和科学方法验证。因此,面对电力物资供应履约的多重信用风险,研究影响供应商履约行为的各种风险因素并对其履约风险及时预测具有十分重要的意义。
技术实现思路
1、本发明为了解决现有技术中存在的问题,提供一种能够对履约风险准确预测的基于xgboost的供应链履约风险预测方法。
2、为了达到上述目的,本发明提出的技术方案为:一种基于xgboost的供应链履约风险预测方法,其特征在于,包括如下步骤:
3、步骤s1:采集电网物资供应链订单的历史数据,并对历史数据是否违约进行标记,形成训练数据集;
4、步骤s2:对训练数据进行预处理;
5、步骤s3:对预处理后的训练数据进行特征提取;
6、步骤s4:利用shap值方法筛选出影响供应商履约贡献度高的特征,并构建特征工程;
7、步骤s5:基于xgboost算法构建电网物资供应商履约风险预测模型,依据构建的特征工程挑选出预测模型的一组超参数组合,将超参数组合代入预测模型并利用步骤s4筛选出的特征训练模型;
8、预测模型的损失函数为:
9、fl(pt)=-αt(1-pt)γlog2(pt)
10、其中α1是平衡参数,γ是调节参数且γ>0;
11、步骤s6:构建模型评估指标,依据评估结果开展模型优化,通过贝叶斯优化来调整超参数直至达到最优预测效果;
12、步骤s7:将待交货订单的数据代入优化好的预测模型,预测履约概率。
13、所述步骤s2中对训练数据进行处理包括缺失值处理和异常值处理。
14、所述步骤s3中特征提取的类型包括统计特征、离散化特征、时间周期趋势特征和画像特征。
15、所述步骤s4中的shap值方法为以特征的权重总和占比>90%为阈值,筛选出影响供应商履约贡献度较高的特征。
16、所述步骤s5中的超参数包括colsample_bytree、eta、gamma、max_depth、min_child_weight、n_estimators、reg_alpha、reg_lambda、scale_pos_weight和subsample。
17、所述步骤s5所述预测模型的输入特征表示为:
18、i={(fi,p)∣i=1,2,…,n,fi∈rd,p∈0,1}
19、其中fi表示履约数据的全部特征,p表示该记录是否违约,n表示数据集中的履约数据条目数,d表示特征的维度,rd表示d维向量;
20、模型训练目的是输出预测的合同履约概率定义表示为:
21、
22、其中γ表示xgboost分类树的映射空间,映射关系表示为:
23、γ={g(x)=ωf(x)}(f:rd→l,ω∈rl)
24、其中g表示权重为ω的决策树,每个独立树f包含l片叶子;k是决策树的编号,rd→l是把特征向量映射成分类树中的叶子节点,rl是l维向量;
25、预测模型的初始目标函数表示为:
26、
27、其中,是预测值,yi是真实值,l是损失函数,t是树的叶子节点更新的轮次,每轮次会增加新的决策树;步骤t的预测值:
28、所述步骤s6中的评估指标包括auc、ks检验值、错误率、准确率、精确率、召回率和f1(f1-score)值。
29、本发明的有益效果在于:
30、1、本发明基于xgboost算法构建供应链履约风险预测模型,并利用供应链运行大数据对待交货订单的履约风险进行预测;用于预测的原始数据经过预处理,并使用历史违约数据打上标签,通过提取关键属性构建特征工程,因此获得的预测结果的准确率和可靠性较高。
31、2、本发明中的预处理过程中,考虑到了原始数据中的异常值和缺失值的问题,降低该部分数据对预测结果的影响;在特征选取时,应用shap值方法进行筛选特征变量,并引入focal-loss作为损失函数,应用评估方法使用贝叶斯优化方法对超参数进行参数优化;上述工作内容均为预测结果的准确性和可靠性提供了保障。
32、3、本发明从履约风险特征因素入手,构建了一种用于“事前识别”的供应链履约风险识别模型及系统,提前干预并制定解决方案;较传统的物资履约“事后补救”的情况,大大降低了因物资未按期供货导致大型工程延期投运的风险损失。
1.一种基于xgboost的供应链履约风险预测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述基于xgboost的供应链履约风险预测方法,其特征在于:所述步骤s2中对训练数据进行处理包括缺失值处理和异常值处理。
3.根据权利要求2所述基于xgboost的供应链履约风险预测方法,其特征在于:所述步骤s3中特征提取的类型包括统计特征、离散化特征、时间周期趋势特征和画像特征。
4.根据权利要求3所述基于xgboost的供应链履约风险预测方法,其特征在于:所述步骤s4中的shap值方法为以特征的权重总和占比>90%为阈值,筛选出影响供应商履约贡献度较高的特征。
5.根据权利要求4所述基于xgboost的供应链履约风险预测方法,其特征在于:所述步骤s5中的超参数包括colsample_bytree、eta、gamma、max_depth、min_child_weight、n_estimators、reg_alpha、reg_lambda、scale_pos_weight和subsample。
6.根据权利要求5所述基于xgboost的供应链履约风险预测方法,其特征在于:所述步骤s5所述预测模型的输入特征表示为:
7.根据权利要求6所述基于xgboost的供应链履约风险预测方法,其特征在于:所述步骤s6中的评估指标包括auc、ks检验值、错误率、准确率、精确率、召回率和f1(f1-score)值。