轻量化的Spark流水线预测模型的构建方法与流程

文档序号:33507247发布日期:2023-03-18 03:18阅读:来源:国知局

技术特征:
1.轻量化的spark流水线预测模型的构建方法,其特征在于,包括以下步骤:spark transformer的算法模型的构建,以及基于mleap bundle的模型算子序列化模型的构建;构建spark流水线模型,同时记录各算法模型间的依赖关系,进而调用各模型算子bundle序列化方法,生成轻量化后的spark流水线模型;所述各算法模型间的依赖关系具体为缺失值处理算子、数据标准化处理算子以及逻辑回归算子之间的依赖关系;基于mleap runtime依据bundle中各算法模型的依赖关系,加载轻量化后的spark流水线模型,生成用于预测结果的预测模型。2.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述spark transformer的算法模型为算法框架,其用于将一个输入dataframe转换到另一个dataframe,并向其添加一个或一个以上的特征,进而通过transformer分别获得缺失值处理算子、数据标准化算子和逻辑回归算子。3.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述通过transformer获得缺失值处理算子具体为:构建缺失值处理类的spark transformer和缺失值处理类leap transformer,并分别通过fit方法以及apply方法对上述的缺失值进行填充。4.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述通过transformer获得数据标准化算子具体为;通过继承spark框架的transformer类,计算出数据的均值和标准差后对数据进行变换,将数据进行转换,得到数据标准化算子。5.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述通过transformer获得逻辑回归算子具体为:通过构建优化器训练逻辑回归系数,得到逻辑回归算子。6.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述基于mleap bundle的模型为问价序列化框架,使得所述缺失值处理算子、数据标准化算子和逻辑回归算子均继承mleap框架,分别实现对应算子的序列化或反序列化。7.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述构建spark流水线模型中,各算法模型之间的依赖关系为,在流水线模型中,先缺失值处理算子,再数据标准化处理算子,最后逻辑回归算子的顺序关系。8.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述spark流水线模型中,包括若干个转换器和预测器,若干个所述转换器和预测器形成机器学习工作流。9.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述生成用于预测结果的预测模型具体为:脱离spark框架,实现将前端传递的json数据转化为leapframe,接着将工具类json2leapframe和轻量化模型封装通过基于mleap的springboot服务工程发布为服务,最终将轻量化的流水线模型以docker镜像方式展示输出结果。10.根据权利要求9所述的轻量化的spark流水线预测模型的构建方法,其特征在于,所述脱离spark框架具体为:构建基于spark bundle context的leapframe,开发
json2leapframe方法。

技术总结
本发明公开了一种Spark流水线模型的轻量化预测方法,包括:步骤一、基于Spark Transformer的算法模型开发,实现模型参数的配置、模型的训练、保存及预测功能,同时开发基于MLeap Bundle的模型算子序列化方法,以实现Spark模型的轻量化输出。步骤二,基于实现的各算法模型,构建Spark流水线模型,同时记录各算法模型间的依赖关系,进而调用各模型算子Bundle序列化方法,生成轻量化后的Spark流水线模型。步骤三、基于MLeap Runtime依据Bundle中各算法模型的依赖关系,加载轻量化后的Spark流水线模型,提供高性能的模型预测服务。从而实现Spark模型不依赖Spark框架,在不损失准确度的情况下,提供高性能、实时预测功能,同时降低了存储及计算资源的消耗,解决了Spark模型在实时预测场景下耗时长、吞吐量低的问题。题。题。


技术研发人员:程宏亮 罗艺闯 张卫东
受保护的技术使用者:美林数据技术股份有限公司
技术研发日:2022.11.23
技术公布日:2023/3/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1