轻量化的Spark流水线预测模型的构建方法与流程

文档序号：33507247发布日期：2023-03-18 03:18阅读：来源：国知局

技术特征：
1.轻量化的spark流水线预测模型的构建方法，其特征在于，包括以下步骤：spark transformer的算法模型的构建，以及基于mleap bundle的模型算子序列化模型的构建；构建spark流水线模型，同时记录各算法模型间的依赖关系，进而调用各模型算子bundle序列化方法，生成轻量化后的spark流水线模型；所述各算法模型间的依赖关系具体为缺失值处理算子、数据标准化处理算子以及逻辑回归算子之间的依赖关系；基于mleap runtime依据bundle中各算法模型的依赖关系，加载轻量化后的spark流水线模型，生成用于预测结果的预测模型。2.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述spark transformer的算法模型为算法框架，其用于将一个输入dataframe转换到另一个dataframe,并向其添加一个或一个以上的特征，进而通过transformer分别获得缺失值处理算子、数据标准化算子和逻辑回归算子。3.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述通过transformer获得缺失值处理算子具体为：构建缺失值处理类的spark transformer和缺失值处理类leap transformer，并分别通过fit方法以及apply方法对上述的缺失值进行填充。4.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述通过transformer获得数据标准化算子具体为；通过继承spark框架的transformer类，计算出数据的均值和标准差后对数据进行变换，将数据进行转换，得到数据标准化算子。5.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述通过transformer获得逻辑回归算子具体为：通过构建优化器训练逻辑回归系数，得到逻辑回归算子。6.根据权利要求2所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述基于mleap bundle的模型为问价序列化框架，使得所述缺失值处理算子、数据标准化算子和逻辑回归算子均继承mleap框架，分别实现对应算子的序列化或反序列化。7.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述构建spark流水线模型中，各算法模型之间的依赖关系为，在流水线模型中，先缺失值处理算子，再数据标准化处理算子，最后逻辑回归算子的顺序关系。8.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述spark流水线模型中，包括若干个转换器和预测器，若干个所述转换器和预测器形成机器学习工作流。9.根据权利要求1所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述生成用于预测结果的预测模型具体为：脱离spark框架，实现将前端传递的json数据转化为leapframe，接着将工具类json2leapframe和轻量化模型封装通过基于mleap的springboot服务工程发布为服务，最终将轻量化的流水线模型以docker镜像方式展示输出结果。10.根据权利要求9所述的轻量化的spark流水线预测模型的构建方法，其特征在于，所述脱离spark框架具体为：构建基于spark bundle context的leapframe，开发
json2leapframe方法。

技术总结
本发明公开了一种Spark流水线模型的轻量化预测方法，包括：步骤一、基于Spark Transformer的算法模型开发，实现模型参数的配置、模型的训练、保存及预测功能，同时开发基于MLeap Bundle的模型算子序列化方法，以实现Spark模型的轻量化输出。步骤二，基于实现的各算法模型，构建Spark流水线模型，同时记录各算法模型间的依赖关系，进而调用各模型算子Bundle序列化方法，生成轻量化后的Spark流水线模型。步骤三、基于MLeap Runtime依据Bundle中各算法模型的依赖关系，加载轻量化后的Spark流水线模型，提供高性能的模型预测服务。从而实现Spark模型不依赖Spark框架，在不损失准确度的情况下，提供高性能、实时预测功能，同时降低了存储及计算资源的消耗，解决了Spark模型在实时预测场景下耗时长、吞吐量低的问题。题。题。

技术研发人员：程宏亮罗艺闯张卫东
受保护的技术使用者：美林数据技术股份有限公司
技术研发日：2022.11.23
技术公布日：2023/3/17

完整全部详细技术资料下载

当前第2页1 2