模型中算子的异常检测方法、装置、芯片、设备及系统与流程

文档序号:37263583发布日期:2024-03-12 20:45阅读:11来源:国知局
模型中算子的异常检测方法、装置、芯片、设备及系统与流程

本技术涉及计算机领域,尤其涉及模型中算子的异常检测方法、装置、芯片、设备及系统。


背景技术:

1、网络模型包括一个或多个计算单元,计算单元也可称为算子(operator,op),算子对应于网络模型中的计算逻辑。示例性的,卷积层(convolution layer)、全连接层(fully-connected layer,fc layer)中的权值求和过程均可被称为网络模型的算子。当同样的网络模型部署到多个不同的硬件上时,运算精度存在差异。通常,服务器获取多个不同硬件运行同样的模型的所有数据,并选择一个硬件的数据为参考数据后,将其他硬件的数据与该参考数据进行比对,确定模型在其他硬件中的异常算子。然而,由于在多个硬件运行模型并输出的所有数据后,服务器才能进行模型中算子的异常检测,模型检测的效率较低。因此,如何提供一种更有效的异常检测方法成为目前亟需解决的问题。


技术实现思路

1、本技术提供了模型中算子的异常检测方法、装置、芯片、设备及系统,解决了通常技术中对模型检测的效率较低的问题。

2、第一方面,提供了一种模型中算子的异常检测方法,该模型中算子的异常检测方法可应用于第一设备,或者支持实现该模型中算子的异常检测方法的设备,例如该设备包括芯片。该模型中算子的异常检测方法包括:首先,第一设备将待处理数据输入模型,并获取模型中第一算子的第一运行数据。其次,第一设备获取第二设备将待处理数据输入模型后,模型中第一算子的第二运行数据。最后,第一设备将前述的第一运行数据和第二运行数据进行比对,确定比对结果,在比对的结果符合预设的条件时,确定该算子为模型在第一设备中的异常算子。第一设备可在两个设备运行同样的模型的过程中,比对模型中算子在不同设备的运行数据以确定该算子是否为异常算子,避免了服务器仅能在多个设备运行模型后进行数据比对,模型的差异检测效率较低的问题。而且,第一设备无需存储第二设备中运行模型的所有数据,减少了第一设备中存储资源的占用,以及减少了运行数据从第二设备→存储设备(如服务器)→第一设备的数据拷贝和传输时间,缩短了差异检测所需的时长,提升了模型的差异检测效率。

3、在一种可能的实现方式中,第一设备通过向第二设备发送检测命令,以指示第二设备根据待处理数据运行模型,以得到所述第二运行数据,并向所述第一设备返回所述第二运行数据,实现第一设备和第二设备运行相同的模型,提高了得到异常算子的可信度。

4、在一种可能的实现方式中,检测命令携带有第一算子在第二设备中的标识,标识用于指示第二设备中待传输的第二运行数据。

5、基于第一算子在第二设备中的标识,第一设备从第二设备中获取标识指示的第一算子的第二运行数据,第一设备对第一算子对应的第一运行数据和第二运行数据进行比对,避免了第一设备将不同设备中不同功能的算子进行比对导致的差异检测出错的问题,提高了差异检测的准确性。

6、在一种可能的实现方式中,第一设备通过查询算子注册表确定第一算子在第二设备中的标识,算子注册表包括了不同的多个设备调度第一算子时采用的标识,标识与设备一一对应,多个设备包括第一设备和第二设备。示例的,第一设备根据第一算子在第一设备中的标识和第二设备的属性(如gpu)查询算子注册表,得到第一算子在第二设备中的标识。

7、第一设备通过算子注册表确定第一算子在第二设备中的标识,并将携带有前述标识的检测命令发送到第二设备,从而第一设备从第二设备中获取标识指示的第一算子的第二运行数据,并将第一设备本地的第一运行数据和第二运行数据进行比对,实现了相同功能的第一算子在不同设备中的数据比对,避免了第一设备将不同设备中不同功能的算子进行比对导致的差异检测出错的问题,提高了差异检测的准确性。

8、在一种可能的实现方式中,第一运行数据还包括第一算子的输入数据和输出数据,以及第一设备的运算差异值确定的第一算子的反馈信息,第一设备根据模型的输出数据和待处理数据的特征确定反馈信息。

9、由于第一运行数据中包括了第一算子的输入数据、输出数据以及反馈信息,利用前述的第一运行数据与第二运行数据进行比对,相较于通常技术中仅利用算子的输出数据进行比对,在相同训练轮次下,增加了比对的数据量,提高了比对效率。

10、在一种可能的实现方式中,检测命令和第二运行数据由第一设备与第二设备之间的远程过程调用(remote procedure call,rpc)通道传输。

11、第一设备基于rpc通道指示第二设备根据待处理数据运行模型,并将第二设备上算子的运行数据读取至第一设备。避免了通常技术中对该运行数据转发占用的带宽、以及存储占用的存储资源,提高了多个计算设备之间进行数据传输的效率,从而缩短了模型的差异检测时长。

12、在另一种可能的实现方式中,检测命令和第二运行数据由第一设备与第二设备之间的硬件通信信道传输。示例的,第一设备和第二设备可以挂载到一个主机或服务器上,并利用硬件通信信道进行通信,以降低数据或指令的传输时延,缩短模型的差异检测时长,提高了检测效率。

13、在一种可能的实现方式中,计算设备利用相似度来量化比对结果,在相似度小于或等于设定的相似度阈值的情况下,确定第一算子为模型在第一设备中运行的异常算子,从而实现模型的差异检测。

14、第二方面,提供了一种模型中算子的异常检测装置,该模型中算子的异常检测装置应用于第一设备,该模型中算子的异常检测装置包括用于执行第一方面或第一方面任一种可能设计中的模型中算子的异常检测方法的各个模块。示例的,该模型中算子的异常检测装置包括:运行模块、获取模块和确定模块;运行模块,用于第一设备将待处理数据输入模型,并获取模型中第一算子的第一运行数据。获取模块,用于第一设备向第二设备发送检测命令,以指示第二设备运行模型,在第二设备将待处理数据输入模型后,第一设备获取第一算子的第二运行数据。确定模块,用于第一设备将前述的第一运行数据和第二运行数据进行比对,在比对的结果符合预设的条件时,确定该第一算子为模型在第一设备中的异常算子。

15、有益效果可以参见第一方面中任一种可能实现方式中的描述,此处不再赘述。所述虚拟机迁移装置具有实现上述第一方面中任一种可能实现方式中的方法实例中行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

16、第三方面,提供一种芯片,包括处理器和供电电路,供电电路用于为所述处理器供电;处理器用于调用并运行计算机指令,以执行上述第一方面及其第一方面任意可能的实现方式中的方法。

17、第四方面,提供一种计算设备,包括处理器和存储器;存储器存储有指令,所述处理器调用所述指令实现上述第一方面及其第一方面任意可能的实现方式中的方法。

18、第五方面,提供一种交互系统,包括第一设备和第二设备;第一设备和第二设备用于基于待处理数据运行模型,执行上述第一方面及其第一方面任意可能的实现方式中的方法。

19、第六方面,提供一种计算机可读存储介质,存储介质中存储有计算机程序或指令,当计算机程序或指令被处理设备执行时,实现上述第一方面和第一方面中任一种可能实现方式中的方法。

20、第七方面,提供一种计算机程序产品,该计算程序产品包括计算机程序或指令,当该计算机程序或指令在处理设备上运行时,使得处理设备执行该计算机程序或指令,以实现上述第一方面和第一方面中任一种可能实现方式中的方法。

21、以上第二方面至第七方面的有益效果可参照第一方面或第一方面中任一种实现方式的描述,在此不予赘述。

22、本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1