基于spark分布式系统的模型预测方法及装置与流程

文档序号:37261542发布日期:2024-03-12 20:41阅读:9来源:国知局
基于spark分布式系统的模型预测方法及装置与流程

本发明涉及模型预测,尤其涉及一种基于spark分布式系统的模型预测方法及装置。


背景技术:

1、在进行机器学习模型预测时,需要加载海量级工业数据,然而工业生产中在进行模型预测时需要尽可能缩短数据计算时间、高效地读取模型来进行预测。

2、现有技术中,现有的模型预测方法一般是将原始的工业数据处理为模型的标准数据,存储在一系列可结构化读取的标准格式文件中。这种方法在利用机器学习算法进行模型预测时,需要将相同数据结构(向量或者矩阵)的原工业数据格式进行处理和转换,作为spark结构化特征合并为一条预测数据,并且将多份预测数据合并存储为诸如<sparsevector>之类的格式文件或者处理为sklearn处理的numpyarray数组或者向量。

3、然而,当工业生产中的工业数据的数据量非常大时,现有技术的模型预测方法存在以下问题:将原始的工业数据处理成模型的标准数据并进行模型预测的操作非常耗时,严重影响模型预测的效率。


技术实现思路

1、本发明提供一种基于spark分布式系统的模型预测方法及装置,以解决现有技术中存在的模型预测方法中模型预测的效率低的问题。

2、第一方面,本发明提供一种基于spark分布式系统的模型预测方法,应用于spark分布式系统的任一节点,其中所述spark分布式系统的各节点中均部署有sklearn模型底层框架以及模型管理框架;

3、所述方法包括:

4、运行所述模型管理框架,以访问hadoop分布式文件系统获取所述hadoop分布式文件系统上缓存的预训练的模型;

5、运行所述sklearn模型底层框架,以加载所述预训练的模型;

6、接收任一物联网设备发送的任一数据格式的待预测数据;

7、根据自定义的数据转换接口,将所述任一数据格式的待预测数据转换为spark分布式系统的稀疏向量;

8、将所述稀疏向量输入至已加载的预训练的模型中,进行模型预测,得到预测结果。

9、在一种可能的设计中,所述根据自定义的数据转换接口,将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量,包括:

10、若所述待预测数据的数据量达到第一预设数量级,则将所述待预测数据缓存到spark分布式系统的各个节点上,并根据自定义的数据转换接口,将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量。

11、在一种可能的设计中,所述根据自定义的数据转换接口,将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量,还包括:

12、若所述待预测数据的数据量达到第二预设数量级,则将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量,其中所述第二预设数量级大于所述第一预设数量级。

13、在一种可能的设计中,所述将所述稀疏向量输入至已加载的预训练的模型中,进行模型预测,得到预测结果之后,还包括:

14、将所述预测结果保存到hive表或者hadoop分布式文件系统中。

15、在一种可能的设计中,所述基于spark分布式系统的模型预测方法还包括:

16、在所述spark分布式系统的任一节点完成对初始模型训练得到预训练的模型之后,运行所述模型管理框架,将所述预训练的模型发送至hadoop分布式文件系统进行缓存。

17、在一种可能的设计中,所述预训练的模型包括:sklearn的基础模型、自定义的模型以及spark机器学习框架模型中的一种或多种。

18、第二方面,本发明提供一种基于spark分布式系统的模型预测装置,所述装置应用于spark分布式系统的任一节点,所述spark分布式系统的各节点中均部署有sklearn模型底层框架以及模型管理框架;

19、所述装置包括:

20、第一运行模块,用于运行所述模型管理框架,以访问hadoop分布式文件系统获取所述hadoop分布式文件系统上缓存的预训练的模型;

21、第二运行模块,用于运行所述sklearn模型底层框架,以加载所述预训练的模型;

22、接收模块,用于接收任一物联网设备发送的任一数据格式的待预测数据;

23、转换模块,用于根据自定义的数据转换接口,将所述任一数据格式的待预测数据转换为spark分布式系统的稀疏向量;

24、预测模块,用于将所述稀疏向量输入至已加载的预训练的模型中,进行模型预测,得到预测结果。

25、在一种可能的设计中,所述转换模块,具体用于若所述待预测数据的数据量达到第一预设数量级,则将所述待预测数据缓存到spark分布式系统的各个节点上,并根据自定义的数据转换接口,将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量;若所述待预测数据的数据量达到第二预设数量级,所述第二预设数量级大于所述第一预设数量级,则将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量。

26、在一种可能的设计中,所述基于spark分布式系统的模型预测装置还包括保存模块,用于将所述预测结果保存到hive表或者hadoop分布式文件系统中。

27、第三方面,本发明提供一种服务器,包括:至少一个处理器和存储器;

28、所述存储器存储计算机执行指令;

29、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的基于spark分布式系统的模型预测方法。

30、第四方面,本发明提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的基于spark分布式系统的模型预测方法。

31、本发明提供的基于spark分布式系统的模型预测方法及装置,spark不支持高阶的机器学习算法,例如lightgbm分类算法,而sklearn支持高阶算法,但是不支持分布式计算。sklearn在单机进行模型预测时,由于一次性加载数据量大,会产生内存溢出,造成无法预测的情况。本发明实施例结合spark分布式系统和sklearn模型底层框架两者的优势,通过自定义的数据转换接口,将sklearn预训练好的模型能够在spark分布式系统环境下进行加载计算,能够实现大数据量、低耗时的模型分布式预测,提升模型的预测效率。



技术特征:

1.一种基于spark分布式系统的模型预测方法,其特征在于,应用于spark分布式系统的任一节点,其中所述spark分布式系统的各节点中均部署有sklearn模型底层框架以及模型管理框架;

2.根据权利要求1所述的方法,其特征在于,所述根据自定义的数据转换接口,将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量,包括:

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述稀疏向量输入至已加载的预训练的模型中,进行模型预测,得到预测结果之后,还包括:

5.根据权利要求1至3任一项所述的方法,其特征在于,还包括:

6.根据权利要求1所述的方法,其特征在于,所述预训练的模型包括:sklearn的基础模型、自定义的模型以及spark机器学习框架模型中的一种或多种。

7.一种基于spark分布式系统的模型预测装置,其特征在于,所述装置应用于spark分布式系统的任一节点,所述spark分布式系统的各节点中均部署有sklearn模型底层框架以及模型管理框架;

8.根据权利要求7所述的装置,其特征在于,所述转换模块,具体用于若所述待预测数据的数据量达到第一预设数量级,则将所述待预测数据缓存到spark分布式系统的各个节点上,并根据自定义的数据转换接口,将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量;若所述待预测数据的数据量达到第二预设数量级,所述第二预设数量级大于所述第一预设数量级,则将所述任一数据格式的待预测数据转化为spark分布式系统的稀疏向量。

9.根据权利要求7所述的装置,其特征在于,还包括保存模块,用于将所述预测结果保存到hive表或者hadoop分布式文件系统中。

10.一种服务器,其特征在于,包括:处理器和存储器;

11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的基于spark分布式系统的模型预测方法。


技术总结
本发明提供一种基于spark分布式系统的模型预测方法及装置,该方法包括:运行所述模型管理框架,以访问Hadoop分布式文件系统获取Hadoop分布式文件系统上缓存的预训练的模型;运行sklearn模型底层框架,以加载所述预训练的模型;接收任一物联网设备发送的待预测数据;根据自定义的数据转换接口,将任一数据格式的待预测数据转换为spark分布式系统的稀疏向量;将稀疏向量输入至已加载的预训练的模型中,进行模型预测,得到预测结果。本发明将sklearn预训练好的模型在spark分布式系统环境下进行加载计算,实现大数据量、低耗时的模型分布式预测,提升模型的预测效率。

技术研发人员:李研,何非,许冬勇,蔡销,王冠楠
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1