一种基于分段量化的检查点写入方法及装置与流程

文档序号：37679720发布日期：2024-04-18 20:52阅读：12来源：国知局

本说明书涉及人工智能，尤其涉及一种基于分段量化的检查点写入方法及装置。

背景技术：

1、随着机器学习领域的发展，检查点文件（checkpoint file）在机器学习模型的训练中发挥着越来越重要的作用，一旦机器学习模型的训练中断，可通过最新存储的检查点文件恢复模型，从而保障模型训练的连续性。同时，检查点文件的存储方式对节省存储空间以及减少模型状态的恢复时间有重要影响。

2、目前，一般采用对模型状态进行增量迭代的方式，更新检查点文件。通常会先保存一个全量模型状态，之后当触发模型状态保存条件时，确定当前的模型状态与上一次模型状态之间的增量变化，将该增量变化，保存至检查点文件。当需要恢复模型状态时，需加载最近保存的一个全量模型状态，并依次应用保存的各增量变化，直至恢复到所需的模型状态。因此，若需要将机器学习模型的模型状态恢复至指定状态，需要追溯每次写入的增量变化，增加了恢复过程的复杂性。

3、基于此，本说明书提供一种基于分段量化的检查点写入方法及装置。

技术实现思路

1、本说明书提供一种基于分段量化的检查点写入方法及装置，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种基于分段量化的检查点写入方法，所述方法包括：

4、获取待写入的模型状态，其中，所述模型状态至少包括模型参数；

5、针对所述模型状态中的每个向量值，确定该向量值中数值的取值范围，并确定初始量化位宽；

6、根据预设的分段数量以及所述取值范围，对该向量值进行分段；

7、针对该向量值中的每个数值，确定该数值的所属分段，以及确定所述所属分段的分段取值范围；

8、根据所述分段取值范围以及所述初始量化位宽，对该数值进行量化；

9、根据量化后的各数值，确定量化后的该向量值，并将所述量化后的该向量值写入检查点文件，所述检查点文件用于模型的模型状态恢复。

10、可选的，在根据所述分段取值范围以及所述初始量化位宽，对该数值进行量化之前，所述方法包括：

11、根据所述初始量化位宽以及所述分段数量，确定分段量化位宽，其中，所述分段量化位宽与所述分段数量成负相关。

12、可选的，对该数值进行量化，具体包括：

13、根据所述分段取值范围，确定分段起始点；

14、根据所述分段取值范围以及所述分段量化位宽，确定分段量化步长；

15、确定该数值与所述分段起始点的差值，将该差值与所述分段量化步长的比值，作为量化后的该数值。

16、可选的，确定所属分段的分段取值范围，具体包括：

17、根据所述取值范围以及预设的分段数量，确定分段宽度；

18、根据所述分段宽度以及所述所属分段，确定分段取值范围。

19、可选的，根据所述分段取值范围以及所述初始量化位宽，对该数值进行量化，具体包括：

20、根据所述分段取值范围，确定分段起始点；

21、根据所述分段取值范围以及所述初始量化位宽，确定初始量化步长；

22、确定该数值与所述分段起始点的差值，将该差值与所述初始量化步长的比值，作为量化后的该数值。

23、可选的，在将所述量化后的该向量值写入检查点文件之后，所述方法还包括：

24、针对每个量化后的向量值，将该量化后的向量值中各数值的所属分段、各所属分段的分段起始点以及所述初始量化步长，作为该量化后的向量值的段信息，并将所述段信息写入预设的段信息文件。

25、可选的，所述方法还包括：

26、当模型训练过程发生中断时，根据所述检查点文件中指定模型状态对应的各量化后的向量值，以及所述段信息文件中所述各量化后的向量值的段信息，确定所述量化前的指定模型状态；

27、根据所述量化前的指定模型状态，恢复所述模型训练过程。

28、本说明书提供了一种基于分段量化的检查点写入装置，包括：

29、获取模块，用于待写入的模型状态，其中，所述模型状态至少包括模型参数；

30、初始模块，用于针对所述模型状态中的每个向量值，确定该向量值中数值的取值范围，并确定初始量化位宽；

31、第一分段模块，用于根据预设的分段数量，对该向量值进行分段；

32、第二分段模块，用于针对该向量值中的每个数值，确定该数值的所属分段，以及确定所述所属分段的分段取值范围；

33、量化模块，用于根据所述分段取值范围以及所述初始量化位宽，对该数值进行量化；

34、写入模块，用于根据量化后的各数值，确定量化后的该向量值，并将所述量化后的该向量值写入检查点文件，所述检查点文件用于模型的模型状态恢复。

35、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现一种基于分段量化的检查点写入方法。

36、本说明书提供了一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现一种基于分段量化的检查点写入方法。

37、本说明书采用的上述至少一个技术方案能够达到以下有益效果：在本说明书提供的一种基于分段量化的检查点写入方法中，获取待写入的模型状态，并针对该模型状态中的每个向量值，确定该向量值中数值的取值范围以及初始量化位宽，通过预设的分段数量对该向量值进行分段，并针对该向量值中的每个数值，确定该数值的所属分段，以及该所属分段的分段取值范围，通过该分段取值范围以及初始量化位宽，对该数值进行量化，根据量化后的各数值，确定量化后的该向量值，将量化后的该向量值写入检查点文件，该检查点文件用于模型的模型状态恢复。

38、从上述方法可以看出，通过预设的分段数量对该向量值进行分段，以及通过精准的划分向量值中数值的各所属分段的分段取值范围，对各数值进行量化，在减少存储需求的同时，降低了数值量化的精度损失，以及将各量化后的向量值全量写入检查点文件，减少了恢复模型状态的复杂性。

技术特征：

1.一种基于分段量化的检查点写入方法，其特征在于，包括：

2.如权利要求1所述方法，其特征在于，在根据所述分段取值范围以及所述初始量化位宽，对该数值进行量化之前，所述方法包括：

3.如权利要求2所述方法，其特征在于，对该数值进行量化，具体包括：

4.如权利要求1所述方法，其特征在于，确定所属分段的分段取值范围，具体包括：

5.如权利要求1所述方法，其特征在于，根据所述分段取值范围以及所述初始量化位宽，对该数值进行量化，具体包括：

6.如权利要求5所述方法，其特征在于，在将所述量化后的该向量值写入检查点文件之后，所述方法还包括：

7.如权利要求6所述方法，其特征在于，所述方法还包括：

8.一种基于分段量化的检查点写入装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。

技术总结
在本说明书提供的一种基于分段量化的检查点写入方法及装置中，获取待写入的模型状态，并针对该模型状态中每个向量值，确定该向量值中数值的取值范围以及初始量化位宽，通过分段数量对该向量值进行分段，并针对该向量值中每个数值，确定该数值的所属分段以及该所属分段的分段取值范围，进而对该数值进行量化，根据量化后的各数值，确定量化后的该向量值，并写入检查点文件，该检查点文件用于模型的模型状态恢复。通过分段数量对该向量值进行分段，以及通过精准划分各所属分段的分段取值范围，再对各数值进行量化，在减少存储需求的同时，降低了数值量化的精度损失，并将各量化后的向量值全量写入检查点文件，减少恢复模型状态的复杂性。

技术研发人员：刘晓宇,曾令仿,李勇,韩珂
受保护的技术使用者：之江实验室
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晓宇,曾令仿,李勇,韩珂
技术所有人：之江实验室
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。