短整形转半精度浮点指令处理装置、方法及相关产品与流程

文档序号:24045358发布日期:2021-02-23 18:28阅读:84来源:国知局
短整形转半精度浮点指令处理装置、方法及相关产品与流程

[0001]
本申请涉及计算机技术领域,尤其涉及一种短整形转半精度浮点指令处理装置、方法及相关产品。


背景技术:

[0002]
随着科技的不断发展,机器学习,尤其是神经网络算法的使用越来越广泛。其在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。但由于神经网络算法的复杂度越来越高,需要将张量等数据进行数据类型转换的需求不断增多。但是现有的短整形转半精度浮点指令和相关
[0003]
技术当中,无法高效的支持数据短整形转半精度浮点指令的灵活运行,执行效率低、执行速度慢。


技术实现要素:

[0004]
有鉴于此,本申请提出了一种短整形转半精度浮点指令处理装置、方法及相关产品,以提高短整形转半精度浮点指令的处理的效率和速度。
[0005]
根据本申请的第一方面,提供了一种短整形转半精度浮点指令处理装置,所述装置包括:
[0006]
控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0007]
执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0008]
根据本申请的第二方面,提供了一种机器学习运算装置,所述装置包括:
[0009]
一个或多个如第一方面所述的短整形转半精度浮点指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过i/o接口传递给其他处理装置;
[0010]
当所述机器学习运算装置包含多个所述短整形转半精度浮点指令处理装置时,所述多个所述短整形转半精度浮点指令处理装置间可以通过特定的结构进行连接并传输数据;
[0011]
其中,多个所述短整形转半精度浮点指令处理装置通过快速外部设备互连总线pcie总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述短整形转半精度浮点指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述短整形转半精度浮点指令处理装置共享内存或者拥有各自的内存;多个所述短整形转半精度浮点指令处理装置的互联方式是任意互联拓扑。
[0012]
根据本申请的第三方面,提供了一种组合处理装置,所述组合处理装置包括:
[0013]
如上述第二方面的机器学习运算装置、通用互联接口和其他处理装置;
[0014]
所述机器学习运算装置与所述其他处理装置进行交互,共同完成用户指定的操
作,
[0015]
其中,所述组合处理装置还包括:存储装置,该存储装置分别与所述机器学习运算装置和所述其他处理装置连接,用于保存所述机器学习运算装置和所述其他处理装置的数据。
[0016]
根据本申请的第四方面,提供了一种机器学习芯片,所述机器学习芯片包括上述第二方面所述的机器学习络运算装置或上述第三方面所述的组合处理装置。
[0017]
根据本申请的第五方面,提供了一种机器学习芯片封装结构,该机器学习芯片封装结构包括上述第四方面所述的机器学习芯片。
[0018]
根据本申请的第六方面,提供了一种板卡,该板卡包括上述第五方面所述的机器学习芯片封装结构。
[0019]
根据本申请的第七方面,提供了一种电子设备,所述电子设备包括上述第四方面所述的机器学习芯片或上述第六方面所述的板卡。
[0020]
根据本申请的第八方面,提供了一种短整形转半精度浮点指令处理方法,所述方法应用于短整形转半精度浮点指令处理装置,所述方法包括:
[0021]
对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0022]
在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0023]
在一些实施例中,所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
[0024]
在一些实施例中,所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、b超仪和/或心电图仪。
[0025]
本申请实施例所提供的短整形转半精度浮点指令处理装置,该装置包括控制模块和执行模块,控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在目的地址。本申请实施例所提供的短整形转半精度浮点指令处理装置的适用范围广,对短整形转半精度浮点指令的处理效率高、处理速度快。
[0026]
根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0027]
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
[0028]
图1示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。
[0029]
图1a、图1b示出了根据本申请一实施例的短整形转半精度浮点指令处理装置的框
图。
[0030]
图2a-图2e示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。
[0031]
图3示出根据本申请一实施例的短整形转半精度浮点指令处理装置的应用场景的示意图。
[0032]
图4a、图4b示出根据本申请一实施例的组合处理装置的框图。
[0033]
图5示出根据本申请一实施例的板卡的结构示意图。
[0034]
图6示出根据本申请一实施例的短整形转半精度浮点指令处理方法的流程图。
具体实施方式
[0035]
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0036]
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0037]
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0038]
图1示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。如图1所示,该装置包括控制模块11和执行模块12。
[0039]
控制模块11,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0040]
执行模块12,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0041]
在本实施例中,指令可以包括操作码和操作域。操作码和操作域可以根据需求,按照预设的组成顺序及格式组成指令。其中,操作码可以用于指示指令所要执行的操作。操作码可以有字符、代码或数字等各种形式表现形式,本申请对此不做限定。操作域可以包括执行指令所需数据的参数(例如来源、类型、地址等)及指令执行所需的其他参数等。
[0042]
在一种可能的实现方式中,短整形转半精度浮点指令的操作码可以用于指示将短整形型数据(张量)转换为半精度浮点型数据(张量)。短整形转半精度浮点指令的操作域可以包括源地址和目的地址。其中源地址为待转换张量的存储地址,待转换张量的数据类型为短整形型,目的地址为转换后张量的存储地址,转换后张量的数据类型为半精度浮点型。其中,半精度浮点型张量中各元素的数据类型为半精度浮点型,即半精度浮点型张量中各元素为16bit的半精度浮点数。短整形型张量中各元素的数据类型为16bit短整形。
[0043]
在一种可能的实现方式中,当所述短整形转半精度浮点指令处理装置位于片上(包括通用处理器和/或人工智能处理器所在的芯片)时,存储地址可以为片上存储器的地址(以下简称片上地址)或片外存储器的地址(以下简称片外地址),目的地址也可以为片上地址或片外地址。可以理解的是,当存储地址和目的地址均为片上地址时,短整形转半精度浮点指令处理装置的转换效率最高。
[0044]
在一种可能的实现方式中,控制模块解析短整形转半精度浮点指令的操作域,得到源地址和目的地址后,将源地址和目的地址发送至执行模块。以使执行模块可以根据源地址提取待转换的短整形型张量,并将提取到的短整形型张量转换为半精度浮点型张量,再将转换后的半精度浮点型张量存储在目的地址。执行模块可以利用传统的数据类型转换方法,将短整形型张量转换为半精度浮点型张量,本申请对数据类型转换方法不做限定。
[0045]
应当理解的是,本领域技术人员可以根据需要对短整形转半精度浮点指令的指令格式以及所包含的操作码和操作域进行设置,本申请对此不作限制。
[0046]
在本实施例中,该装置可以包括一个或多个控制模块,以及一个或多个执行模块,可以根据实际需要对控制模块和执行模块的数量进行设置。也可以根据需求,利用多个控制模块中的任一控制模块执行对于获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;并利用多个执行模块中的任一执行模块(或由控制模块执行的执行模块)在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。本申请对此不作限制。
[0047]
本申请实施例所提供的短整形转半精度浮点指令处理装置,该装置包括控制模块和执行模块,控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在目的地址。本申请实施例所提供的短整形转半精度浮点指令处理装置的适用范围广,对短整形转半精度浮点指令的处理效率高、处理速度快。
[0048]
在一种可能的实现方式中,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的元素数量;所述执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0049]
在一种可能的实现方式中,短整形型张量可以包括多个元素,短整形转半精度浮点指令可以用于转换短整形型张量中的部分元素。可以根据转换后运算的需求,确定需要转换的短整形型张量中的部分元素,也可以根据短整形转半精度浮点指令处理装置的处理效率,确定需要转换的短整形型张量中的部分元素。例如,当短整形转半精度浮点指令处理装置的处理效率较低时,在短整形型张量中确定较少的部分元素作为待转换元素,当效率较高时,确定较多的部分元素作为待转换元素。
[0050]
短整形转半精度浮点指令的操作域中还可以包括短整形型张量中的待转换元素的元素数量。控制模块解析短整形转半精度浮点指令后,可以得到操作域中的元素数量;执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,待转换元素的数量根据操作域中解析得到的元素数量确定,执行模块可以将待转换元素转换为半精度浮点型元素后存储在目的地址,完成短整形型张量的部分元素的转换。
[0051]
在一种可能的实现方式中,在神经网络的卷积运算中,输入神经元数据可以为短整形型张量,当输入神经元数据与卷积核进行卷积运算时,是输入神经元数据中的部分元素与卷积核依次进行卷积运算。可以将短整形型的输入神经元数据转换为半精度浮点型的输入神经元数据后,再与卷积核进行卷积运算。此时,可以根据短整形转半精度浮点指令的操作域中的元素数量,确定输入神经元数据中的部分元素为待转换元素,可以根据卷积核
确定短整形转半精度浮点指令的操作域中的元素数量,得到与卷积核对应的待转换元素,将待转换元素转换为半精度浮点型张量后,即可与卷积核进行卷积运算。
[0052]
在本实施例中,控制模块还用于得到短整形转半精度浮点指令的操作域中的元素数量;执行模块还用于根据元素数量在源地址提取短整形型张量中的待转换元素,将待转换元素转换为半精度浮点型元素后存储在目的地址。元素数量可以使得短整形转半精度浮点指令将待转换张量中的部分元素进行转换,使得数据类型转换更加灵活,转换效率更高。
[0053]
在一种可能的实现方式中,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的转换次数;所述执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址,所述执行模块根据所述转换次数重复执行上述步骤,且每次提取的待转换元素不重叠。
[0054]
在一种可能的实现方式中,可以根据短整形转半精度浮点指令的操作域中的转换次数,将待转换的短整形型张量中的元素执行多次转换后完成张量整体的数据类型转换,每次转换其中的部分元素。例如,转换次数为n次,短整形型张量中的元素数量为m,则每次转换的元素数量为m/n。利用转换次数,可以使得短整形转半精度浮点指令将待转换张量中的部分元素进行转换,使得数据类型转换更加灵活,转换效率更高。
[0055]
在一种可能的实现方式中,所述元素数量和所述转换次数的乘积等于所述张量中的元素总数量。
[0056]
在一种可能的实现方式中,短整形转半精度浮点指令的操作域中可以同时包括元素数量和转换次数。短整形转半精度浮点指令可以每次根据元素数量提取待转换的元素进行转换,并根据转换次数确定执行的次数后,完成半精度浮点张量的整体转换。短整形转半精度浮点指令的操作域中同时包括元素数量和转换次数,可以使得短整形转半精度浮点指令不用去计算每次需要提取的元素的数量,或去计算需要执行的次数,可以提高短整形转半精度浮点指令的执行效率。
[0057]
在一种可能的实现方式中,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的提取步长;所述执行模块,还用于根据所述元素数量和所述提取步长,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0058]
在一种可能的实现方式中,短整形转半精度浮点指令的操作域中可以包括提取步长。提取步长可以为将半精度浮点型张量进行多次转换时,每次转换的待转换元素之间的间隔步长。通过提取步长,可以实现将半精度浮点型张量中的部分元素而不是全部元素进行数据类型转换。
[0059]
在一种可能的实现方式中,当短整形转半精度浮点指令的操作域中包括元素数量和提取步长时,除第一次根据元素数量提取待转换元素,每次提取待转换元素时,都根据提取步长确定与上一次提取的待转换元素之间的间隔。
[0060]
在一种可能的实现方式中,提取步长可以为行数、列数、间隔元素的数量等。本申请对此不做限定。
[0061]
在本实施例中,短整形转半精度浮点指令操作域中的提取步长,可以实现将短整形型张量中的部分张量进行数据类型转换,可以提高短整形转半精度浮点指令的转换灵活
度。
[0062]
在一种可能的实现方式中,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的存储步长;所述执行模块,还用于根据所述元素数量,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后,根据所述存储步长存储在所述目的地址。
[0063]
在一种可能的实现方式中,短整形转半精度浮点指令操作域中还可以包括存储步长。存储步长可以用于将转换后的半精度浮点型元素,按照一定的间隔存储在目的地址中。
[0064]
在本实施例中,短整形转半精度浮点指令操作域中的存储步长,实现转换后的半精度浮点型元素在目的地址上的不连续存储,可以提高短整形转半精度浮点指令的执行灵活度。
[0065]
在一种可能的实现方式中,所述执行模块包括多个执行子模块,
[0066]
所述控制模块,还用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,并根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至执行子模块;
[0067]
目标执行子模块,用于在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任一所述执行子模块。
[0068]
在一种可能的实现方式中,执行模块可以包括多个执行子模块。控制模块可以将操作域中的源地址和目的地址划分为多个源子地址和多个所述目的子地址。源子地址的数量可以小于或等于执行子模块的数量,目的子地址的数量也可以小于或等于执行子模块的数量。当源子地址和目的子地址的数量小于执行子模块的数量时,部分执行子模块可以处于空闲状态,不参与数据类型转换。当源子地址和目的子地址的数量等于执行子模块的数量时,所有执行子模块均参与数据类型转换。
[0069]
在一种可能的实现方式中,对于参与数据类型转换的任一执行子模块,可以根据控制模块分配的与之对应的源子地址,提取到待转换的短整形型张量后,进行数据类型转换得到半精度浮点型张量,并将半精度浮点型张量存储在与之对应的目的子地址。
[0070]
在本实施例中,执行模块包括多个执行子模块,控制模块可以根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至执行子模块,执行子模块可以根据对应的源子地址提取短整形型张量后,进行数据类型转换得到半精度浮点型张量,并将半精度浮点型张量存储在对应的目的子地址。多个执行子模块可以实现并行的数据类型转换,提高了短整形型张量的转换效率。
[0071]
在一种可能的实现方式中,所述执行模块包括主执行子模块和多个从执行子模块,
[0072]
所述控制模块,还用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0073]
所述主执行子模块,用于根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至从执行子模块;
[0074]
所述目标从执行子模块,用于在对应的所述源子地址提取短整形型张量,转换为
半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任一所述从执行子模块。
[0075]
在一种可能的实现方式中,执行模块可以包括一个或多个主执行子模块以及多个从执行子模块,其中,一个主执行子模块可以连接多个从执行子模块。其中,主执行子模块与控制模块连接,用于接收控制模块发送的源地址和目的地址。主执行子模块可以将源地址和目的地址按进行划分得到多个源子地址和多个所述目的子地址。源子地址或目的子地址的数量可以与主执行子模块连接的从执行子模块的数量相等,或小于与主执行子模块连接的从执行子模块的数量。主执行子模块可以确定进行转换的从执行子模块,并按照确定进行转换的从执行子模块的数量划分源地址和目的地址。
[0076]
在一种可能的实现方式中,主执行子模块可以只将源地址进行划分,得到多个源子地址。各从执行子模块可以在对应的源子地址提取短整形型张量后进行转换,并将转换得到的半精度浮点型张量发送至主执行子模块,由主执行子模块统一发送至目的地址。
[0077]
在本实施例中,多个从执行子模块可以并行进行数据类型转换,提高了短整形型张量的转换效率。主执行子模块和从执行子模块的设置,也可以提高执行模块的执行效率。
[0078]
在一种可能的实现方式中,所述装置还包括:存储模块,用于存储所述半精度浮点型张量和/或所述短整形型张量。
[0079]
在一种可能的实现方式中,短整形转半精度浮点指令处理装置还可以包括存储模块,用于存储半精度浮点型张量和/或所述短整形型张量。将待转换的短整形型张量和/或转换后的半精度浮点型张量,存储于本地,短整形转半精度浮点指令处理装置可以提前将需要转换的数据传输与本地的存储模块后,待需要转换时直接从本地提取数据。也可以将转换后的数据存储本地,不用受到与外部存储装置之间的io数据量的限制,可以提高短整形转半精度浮点指令处理装置的处理效率。
[0080]
在一种可能的实现方式中,所述元素数量为所述张量的任一维度上的元素数量。
[0081]
在一种可能的实现方式中,张量为二维张量时,元素数量可以为二维张量x维度上的元素数量,也可以为y维度上的元素数量。例如,当二维张量存储在存储器中时,张量的x维度可以为存储器中的行,张量的y维度可以为存储器中的列。当元素数量为x维度时,即为存储器中的张量在行方向上的元素的数量。假设一行为200个元素,当元素数量为1000时,需要提取1000
÷
200=5行的数据。本申请不限制张量的维度的数量,其他数量维度的张量,可参照上述二维张量中的描述,不再赘述。
[0082]
在本实施例中,元素数量为所述张量的任一维度上的元素数量,可以使得短整形转半精度浮点指令能够根据需求准确的给出需要提取的原始的数量,且能够在设定好的维度提取,可以提高短整形转半精度浮点指令执行时待转换数据的提取效率,从而提高短整形转半精度浮点指令的执行效率。
[0083]
在一种可能的实现方式中,所述提取步长和所述存储步长的比特数为所述张量中任一维度的比特数的倍数。
[0084]
在一种可能的实现方式中,提取步长和所述存储步长的比特数为张量中任一维度的比特数的倍数。例如,存储器中存储的半精度浮点型张量为二维张量,提取步长和存储步长的比特数可以为存储器中的行的比特数的整数倍,使得短整形转半精度浮点指令处理装置在进行数据提取和数据存储时,能够整行的提取和存储。
[0085]
在本实施例中,提取步长和所述存储步长的比特数为张量中任一维度的比特数的倍数,可以避免执行过程中需要计算数据的提取位置或存储位置,可以提高短整形转半精度浮点指令处理的执行效率。
[0086]
在一种可能的实现方式中,所述存储步长的比特数大于需要存储的所述半精度浮点型元素的比特数。
[0087]
在一种可能的实现方式中,存储步长可以为两次存储首地址之间的间隔。此时,存储步长的比特数大于需要存储的所述半精度浮点型元素的比特数,避免出现两次存储数据的地址有重叠。
[0088]
在一种可能的实现方式中,所述控制模块,包括:
[0089]
指令存储子模块,用于存储指令,包括所述短整形转半精度浮点指令;
[0090]
指令处理子模块,用于对所述短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作码和操作域;
[0091]
队列存储子模块,用于存储指令队列,所述指令队列包括按照执行顺序依次排列的多个指令,包括短整形转半精度浮点指令。
[0092]
在一种可能的实现方式中,所述控制模块,还包括:
[0093]
依赖关系处理子模块,用于在确定所述多个指令中的短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系时,将所述短整形转半精度浮点指令缓存在所述指令存储子模块中,在所述第零指令执行完毕后,从所述指令存储子模块中提取所述短整形转半精度浮点指令发送至所述执行模块,
[0094]
其中,所述短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系包括:
[0095]
存储所述短整形转半精度浮点指令所需数据的第一存储地址区间与存储所述第零指令所需数据的第零存储地址区间具有重叠的区域。
[0096]
图1a示出了根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。在一种可能的实现方式中,如图1a所示,存储模块13可以用于存储短整形转半精度浮点指令、待转换的张量和转换后的张量。控制模块11包括指令存储子模块111,指令处理子模块112,依赖关系处理子模块114和队列存储子模块113。其中,指令存储子模块111可以用于存储提取到的短整形转半精度浮点指令。指令处理子模块112,可以用于对短整形转半精度浮点指令进行解析,得到短整形转半精度浮点指令的操作码和操作域,并得到操作域中的源地址和目的地址等参数。依赖关系处理子模块114可以用于确定短整形转半精度浮点指令与之前的第零指令之间的关联关系。队列存储子模块113可以用于存储指令队列,指令队列包括按照执行顺序依次排列的多个指令,包括短整形转半精度浮点指令。
[0097]
执行模块12可以用于在源地址提取短整形型张量,转换为半精度浮点型张量后存储在目的地址。
[0098]
图1b示出了根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。与图1a不同的是,图1b示出的短整形转半精度浮点指令处理装置中,执行模块12包括多个执行子模块120。
[0099]
如图1b所示,执行模块12可以包括多个执行子模块120。控制模块11中的指令处理子模块112可以用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半
精度浮点指令的操作域中的源地址和目的地址,并根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至执行子模块。执行子模块120,可以用于在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址。
[0100]
图2a示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。与图1a不同的是,图2a示出的短整形转半精度浮点指令处理装置中,执行模块12包括一个主执行子模块121和多个从执行子模块122。其中,主执行子模块121,用于根据源地址和目的地址确定多个源子地址和多个所述目的子地址,并将各源子地址和各目的子地址分配至从执行子模块;从执行子模块122,用于在对应的源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址。
[0101]
需要说明的是,本领域技术人员可以根据实际需要对主执行子模块和多个从执行子模块之间的连接方式进行设置,以实现对执行模块的架构设置,例如,执行模块的架构可以是“h”型架构、阵列型架构、树型架构等,本申请对此不作限制。
[0102]
图2b示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。在一种可能的实现方式中,如图2b所示,执行模块12还可以包括一个或多个分支执行子模块123,该分支执行子模块123用于转发主执行子模块121和从执行子模块122之间的数据和/或运算指令。其中,主执行子模块121与一个或多个分支执行子模块123连接。这样,执行模块中的主执行子模块、分支执行子模块和从执行子模块之间采用“h”型架构连接,通过分支执行子模块转发数据和/或运算指令,节省了对主执行子模块的资源占用,进而提高指令的处理速度。
[0103]
图2c示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。在一种可能的实现方式中,如图2c所示,多个从执行子模块122呈阵列分布。
[0104]
每个从执行子模块122与相邻的其他从执行子模块122连接,主执行子模块121连接多个从执行子模块122中的k个从执行子模块122,k个从执行子模块122为:第1行的n个从执行子模块122、第m行的n个从执行子模块122以及第1列的m个从执行子模块122。
[0105]
其中,如图2c所示,k个从执行子模块仅包括第1行的n个从执行子模块、第m行的n个从执行子模块以及第1列的m个从执行子模块,即该k个从执行子模块为多个从执行子模块中直接与主执行子模块连接的从执行子模块。其中,k个从执行子模块,用于在主执行子模块以及多个从执行子模块之间的数据以及指令的转发。这样,多个从执行子模块呈阵列分布,可以提高主执行子模块向从执行子模块发送数据和/或运算指令速度,进而提高指令的处理速度。
[0106]
图2d示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。在一种可能的实现方式中,如图2d所示,执行模块还可以包括树型子模块124。该树型子模块124包括一个根端口401和多个支端口402。根端口401与主执行子模块121连接,多个支端口402与多个从执行子模块122分别连接。其中,树型子模块124具有收发功能,用于转发主执行子模块121和从执行子模块122之间的数据和/或运算指令。这样,通过树型子模块的作用使得执行模块呈树型架构连接,并利用树型子模块的转发功能,可以提高主执行子模块向从执行子模块发送数据和/或运算指令速度,进而提高指令的处理速度。
[0107]
在一种可能的实现方式中,树型子模块124可以为该装置的可选结果,其可以包括
至少一层节点。节点为具有转发功能的线结构,节点本身不具备运算功能。最下层的节点与从执行子模块连接,以转发主执行子模块121和从执行子模块122之间的数据和/或运算指令。特殊地,如树型子模块具有零层节点,该装置则无需树型子模块。
[0108]
在一种可能的实现方式中,树型子模块124可以包括n叉树结构的多个节点,n叉树结构的多个节点可以具有多个层。
[0109]
举例来说,图2e示出根据本申请一实施例的短整形转半精度浮点指令处理装置的框图。如图2e所示,n叉树结构可以是二叉树结构,树型子模块包括2层节点01。最下层节点01与从执行子模块122连接,以转发主执行子模块121和从执行子模块122之间的数据和/或运算指令。
[0110]
在该实现方式中,n叉树结构还可以是三叉树结构等,n为大于或等于2的正整数。本领域技术人员可以根据需要对n叉树结构中的n以及n叉树结构中节点的层数进行设置,本申请对此不作限制。
[0111]
在该实现方式中,存储模块可以包括内存、缓存和寄存器中的一种或多种,缓存可以包括高速暂存缓存。可以根据需要将短整形型张量和半精度浮点型张量存储在存储模块的内存、缓存和/或寄存器中,本申请对此不作限制。
[0112]
在一种可能的实现方式中,短整形转半精度浮点指令的指令格式可以是:
[0113]
short2half(half*dst,short*src)
[0114]
其中,short2half是短整形转半精度浮点指令的操作码。(half*dst,short*src)是短整形转半精度浮点指令的操作域。其中,dst是目的地址,half表示目的地址存储张量为半精度浮点型张量,src是源地址,short表示源地址存储张量为短整形型8位整形张量。
[0115]
在一种可能的实现方式中,短整形转半精度浮点指令的指令格式可以是:short2half(half*dst,short*src,int32_numofele,int32_dststride,int32_srcstride,int32_numofsection)
[0116]
其中,numofele为元素数量,dststride为存储步长,srcstride为提取步长,numofsection为转换次数,int32表示各参数的数值类型为32位整数。numofele、dststride、srcstride、numofsection均为可选参数。
[0117]
应当理解的是,本领域技术人员可以根据需要对短整形转半精度浮点指令的操作码、指令格式中操作码和操作域的位置进行设置,本申请对此不作限制。
[0118]
在一种可能的实现方式中,该装置可以设置于图形处理器(graphics processing unit,简称gpu)、中央处理器(central processing unit,简称cpu)和嵌入式神经网络处理器(neural-network processing unit,简称npu)的一种或多种之中。
[0119]
需要说明的是,尽管以上述实施例作为示例介绍了短整形转半精度浮点指令处理装置如上,但本领域技术人员能够理解,本申请应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各模块,只要符合本申请的技术方案即可。
[0120]
应用示例
[0121]
以下结合“利用短整形转半精度浮点指令处理装置进行数据类型转换操作”作为一个示例性应用场景,给出根据本申请实施例的应用示例,以便于理解短整形转半精度浮点指令处理装置的流程。本领域技术人员应理解,以下应用示例仅仅是出于便于理解本申请实施例的目的,不应视为对本申请实施例的限制
[0122]
图3示出根据本申请一实施例的短整形转半精度浮点指令处理装置的应用场景的示意图。如图3所示,短整形转半精度浮点指令处理装置对短整形转半精度浮点指令进行处理的过程如下:
[0123]
在一种可能的实现方式中,控制模块解析对获取到的短整形转半精度浮点指令进行,得到所述短整形转半精度浮点指令的操作域中的源地址(图中的source)、目的地址(图中的destination)、元素数量(图中的numofele)、转换次数(图中未示出)、提取步长(图中的srcstride)和存储步长(图中的dststride)。源地址中存储的是短整形型张量(图中的short),目的地址中存储的是半精度浮点型张量(half)。执行模块,用于在所述源地址提取短整形型张量,每次提取的元素根据元素数量和提取步长确定,转换为半精度浮点型张量后,根据存储步长存储在目的地址。
[0124]
以上各模块的工作过程可参考上文的相关描述。
[0125]
这样,短整形转半精度浮点指令处理装置可以高效、快速地对短整形转半精度浮点指令进行处理。
[0126]
本申请提供一种机器学习运算装置,该机器学习运算装置可以包括一个或多个上述短整形转半精度浮点指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,执行指定的机器学习运算。该机器学习运算装置可以从其他机器学习运算装置或非机器学习运算装置中获得短整形转半精度浮点指令,并将执行结果通过i/o接口传递给外围设备(也可称其他处理装置)。外围设备譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口,服务器。当包含一个以上短整形转半精度浮点指令处理装置时,短整形转半精度浮点指令处理装置间可以通过特定的结构进行链接并传输数据,譬如,通过pcie总线进行互联并传输数据,以支持更大规模的神经网络的运算。此时,可以共享同一控制系统,也可以有各自独立的控制系统;可以共享内存,也可以每个加速器有各自的内存。此外,其互联方式可以是任意互联拓扑。
[0127]
该机器学习运算装置具有较高的兼容性,可通过pcie接口与各种类型的服务器相连接。
[0128]
图4a示出根据本申请一实施例的组合处理装置的框图。如图4a所示,该组合处理装置包括上述机器学习运算装置、通用互联接口和其他处理装置。机器学习运算装置与其他处理装置进行交互,共同完成用户指定的操作。
[0129]
其他处理装置,包括中央处理器cpu、图形处理器gpu、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为机器学习运算装置与外部数据和控制的接口,包括数据搬运,完成对本机器学习运算装置的开启、停止等基本控制;其他处理装置也可以和机器学习运算装置协作共同完成运算任务。
[0130]
通用互联接口,用于在机器学习运算装置与其他处理装置间传输数据和控制指令。该机器学习运算装置从其他处理装置中获取所需的输入数据,写入机器学习运算装置片上的存储装置;可以从其他处理装置中获取控制指令,写入机器学习运算装置片上的控制缓存;也可以读取机器学习运算装置的存储模块中的数据并传输给其他处理装置。
[0131]
图4b示出根据本申请一实施例的组合处理装置的框图。在一种可能的实现方式中,如图4b所示,该组合处理装置还可以包括存储装置,存储装置分别与机器学习运算装置
和所述其他处理装置连接。存储装置用于保存在机器学习运算装置和所述其他处理装置的数据,尤其适用于所需要运算的数据在本机器学习运算装置或其他处理装置的内部存储中无法全部保存的数据。
[0132]
该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的soc片上系统,有效降低控制部分的核心面积,提高处理速度,降低整体功耗。此情况时,该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口。
[0133]
本申请提供一种机器学习芯片,该芯片包括上述机器学习运算装置或组合处理装置。
[0134]
本申请提供一种机器学习芯片封装结构,该机器学习芯片封装结构包括上述机器学习芯片。
[0135]
本申请提供一种板卡,图5示出根据本申请一实施例的板卡的结构示意图。如图5所示,该板卡包括上述机器学习芯片封装结构或者上述机器学习芯片。板卡除了包括机器学习芯片389以外,还可以包括其他的配套部件,该配套部件包括但不限于:存储器件390、接口装置391和控制器件392。
[0136]
存储器件390与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)通过总线连接,用于存储数据。存储器件390可以包括多组存储单元393。每一组存储单元393与机器学习芯片389通过总线连接。可以理解,每一组存储单元393可以是ddr sdram(英文:double data rate sdram,双倍速率同步动态随机存储器)。
[0137]
ddr不需要提高时钟频率就能加倍提高sdram的速度。ddr允许在时钟脉冲的上升沿和下降沿读出数据。ddr的速度是标准sdram的两倍。
[0138]
在一个实施例中,存储器件390可以包括4组存储单元393。每一组存储单元393可以包括多个ddr4颗粒(芯片)。在一个实施例中,机器学习芯片389内部可以包括4个72位ddr4控制器,上述72位ddr4控制器中64bit用于传输数据,8bit用于ecc校验。
[0139]
在一个实施例中,每一组存储单元393包括多个并联设置的双倍速率同步动态随机存储器。ddr在一个时钟周期内可以传输两次数据。在机器学习芯片389中设置控制ddr的控制器,用于对每个存储单元393的数据传输与数据存储的控制。
[0140]
接口装置391与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)电连接。接口装置391用于实现机器学习芯片389与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中,接口装置391可以为标准pcie接口。比如,待处理的数据由服务器通过标准pcie接口传递至机器学习芯片289,实现数据转移。在另一个实施例中,接口装置391还可以是其他的接口,本申请并不限制上述其他的接口的具体表现形式,接口装置能够实现转接功能即可。另外,机器学习芯片的计算结果仍由接口装置传送回外部设备(例如服务器)。
[0141]
控制器件392与机器学习芯片389电连接。控制器件392用于对机器学习芯片389的状态进行监控。具体的,机器学习芯片389与控制器件392可以通过spi接口电连接。控制器件392可以包括单片机(micro controller unit,mcu)。如机器学习芯片389可以包括多个处理芯片、多个处理核或多个处理电路,可以带动多个负载。因此,机器学习芯片389可以处于多负载和轻负载等不同的工作状态。通过控制器件可以实现对机器学习芯片中多个处理
芯片、多个处理和/或多个处理电路的工作状态的调控。
[0142]
本申请提供一种电子设备,该电子设备包括上述机器学习芯片或板卡。
[0143]
电子设备可以包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
[0144]
交通工具可以包括飞机、轮船和/或车辆。家用电器可以包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机。医疗设备可以包括核磁共振仪、b超仪和/或心电图仪。
[0145]
图6示出根据本申请一实施例的短整形转半精度浮点指令处理方法的流程图。如图6所示,该方法应用于上述短整形转半精度浮点指令处理装置,该方法包括步骤s51和步骤s52。
[0146]
在步骤s51中,对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0147]
步骤s52,在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0148]
在一种可能的实现方式中,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0149]
得到所述短整形转半精度浮点指令的操作域中的元素数量;
[0150]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0151]
根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0152]
在一种可能的实现方式中,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0153]
得到所述短整形转半精度浮点指令的操作域中的转换次数;
[0154]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0155]
根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址,所述执行模块根据所述转换次数重复执行上述步骤,且每次提取的待转换元素不重叠。
[0156]
在一种可能的实现方式中,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0157]
得到所述短整形转半精度浮点指令的操作域中的提取步长;
[0158]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0159]
根据所述元素数量和所述提取步长,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0160]
在一种可能的实现方式中,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0161]
得到所述短整形转半精度浮点指令的操作域中的存储步长;
[0162]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0163]
根据所述元素数量,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后,根据所述存储步长存储在所述目的地址。
[0164]
在一种可能的实现方式中,所述方法应用于短整形转半精度浮点指令处理装置,所述短整形转半精度浮点指令处理装置包括控制模块和执行模块,所述执行模块包括多个执行子模块,所述方法还包括:
[0165]
控制模块根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至执行子模块;
[0166]
目标执行子模块在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任意执行子模块。
[0167]
在一种可能的实现方式中,所述方法应用于短整形转半精度浮点指令处理装置,所述短整形转半精度浮点指令处理装置包括控制模块和执行模块,所述执行模块包括主执行子模块和多个从执行子模块,所述方法还包括:
[0168]
由主执行子模块根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至从执行子模块;
[0169]
目标从执行子模块在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任一所述从执行子模块。
[0170]
在一种可能的实现方式中,所述方法还包括:
[0171]
存储所述半精度浮点型张量和/或所述短整形型张量。
[0172]
在一种可能的实现方式中,所述元素数量为所述张量的任一维度上的元素数量。
[0173]
在一种可能的实现方式中,所述元素数量和所述转换次数的乘积等于所述张量中的元素总数量。
[0174]
在一种可能的实现方式中,所述提取步长和所述存储步长的比特数为所述张量中任一维度的比特数的倍数。
[0175]
在一种可能的实现方式中,所述存储步长的比特数大于需要存储的所述半精度浮点型元素的比特数。
[0176]
在一种可能的实现方式中,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,包括:
[0177]
存储指令,包括所述短整形转半精度浮点指令;
[0178]
对所述短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作码和操作域;
[0179]
存储指令队列,所述指令队列包括按照执行顺序依次排列的多个指令,包括短整形转半精度浮点指令。
[0180]
在一种可能的实现方式中,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0181]
在确定所述多个指令中的短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系时,将所述短整形转半精度浮点指令缓存在所述指令存
储子模块中,在所述第零指令执行完毕后,从所述指令存储子模块中提取所述短整形转半精度浮点指令发送至所述执行模块,
[0182]
其中,所述短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系包括:
[0183]
存储所述短整形转半精度浮点指令所需数据的第一存储地址区间与存储所述第零指令所需数据的第零存储地址区间具有重叠的区域。
[0184]
需要说明的是,尽管以上述实施例作为示例介绍了短整形转半精度浮点指令处理方法如上,但本领域技术人员能够理解,本申请应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤,只要符合本申请的技术方案即可。
[0185]
本申请实施例所提供的短整形转半精度浮点指令处理方法的适用范围广,对短整形转半精度浮点指令的处理效率高、处理速度快。
[0186]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0187]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0188]
在本申请所提供的实施例中,应该理解到,所揭露的系统、装置,可通过其它的方式实现。例如,以上所描述的系统、装置实施例仅仅是示意性的,例如设备、装置、模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统或装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备、装置或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0189]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0190]
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
[0191]
集成的模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0192]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器
可以包括:闪存盘、只读存储器(英文:read-only memory,简称:rom)、随机存取器(英文:random access memory,简称:ram)、磁盘或光盘等。
[0193]
依据以下条款可更好地理解前述内容:
[0194]
a1、一种短整形转半精度浮点指令处理装置,所述装置包括:
[0195]
控制模块,用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0196]
执行模块,用于在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0197]
a 2、根据条款a 1所述的装置,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的元素数量;
[0198]
所述执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0199]
a 3、根据条款a 2所述的装置,
[0200]
所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的转换次数;
[0201]
所述执行模块,还用于根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址,所述执行模块根据所述转换次数重复执行上述步骤,且每次提取的待转换元素不重叠。
[0202]
a 4、根据条款a 2所述的装置,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的提取步长;
[0203]
所述执行模块,还用于根据所述元素数量和所述提取步长,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0204]
a 5、根据条款a 2至a 4中任一项所述的装置,所述控制模块,还用于得到所述短整形转半精度浮点指令的操作域中的存储步长;
[0205]
所述执行模块,还用于根据所述元素数量,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后,根据所述存储步长存储在所述目的地址。
[0206]
a 6、根据条款a 1所述的装置,所述执行模块包括多个执行子模块,
[0207]
所述控制模块,还用于对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,并根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至执行子模块;
[0208]
目标执行子模块,用于在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任一所述执行子模块。
[0209]
a 7、根据条款a 1所述的装置,所述执行模块包括主执行子模块和多个从执行子模块,
[0210]
所述控制模块,还用于对获取到的短整形转半精度浮点指令进行解析,得到所述
短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0211]
所述主执行子模块,用于根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至从执行子模块;
[0212]
所述目标从执行子模块,用于在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任一所述从执行子模块。
[0213]
a 8、根据条款a 1至a 7中任一项所述的装置,所述装置还包括:
[0214]
存储模块,用于存储所述半精度浮点型张量和/或所述短整形型张量。
[0215]
a 9、根据条款a 2所述的装置,所述元素数量为所述张量的任一维度上的元素数量。
[0216]
a 10、根据条款a 3所述的装置,
[0217]
所述元素数量和所述转换次数的乘积等于所述张量中的元素总数量。
[0218]
a 11、根据条款a 5所述的装置,所述提取步长和所述存储步长的比特数为所述张量中任一维度的比特数的倍数。
[0219]
a 12、根据条款a 5所述的装置,所述存储步长的比特数大于需要存储的所述半精度浮点型元素的比特数。
[0220]
a 13、根据条款a 1所述的装置,所述控制模块,包括:
[0221]
指令存储子模块,用于存储指令,包括所述短整形转半精度浮点指令;
[0222]
指令处理子模块,用于对所述短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作码和操作域;
[0223]
队列存储子模块,用于存储指令队列,所述指令队列包括按照执行顺序依次排列的多个指令,包括短整形转半精度浮点指令。
[0224]
a 14、根据条款a 11所述的装置,所述控制模块,还包括:
[0225]
依赖关系处理子模块,用于在确定所述多个指令中的短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系时,将所述短整形转半精度浮点指令缓存在所述指令存储子模块中,在所述第零指令执行完毕后,从所述指令存储子模块中提取所述短整形转半精度浮点指令发送至所述执行模块,
[0226]
其中,所述短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系包括:
[0227]
存储所述短整形转半精度浮点指令所需数据的第一存储地址区间与存储所述第零指令所需数据的第零存储地址区间具有重叠的区域。
[0228]
a 15、一种机器学习运算装置,所述装置包括:
[0229]
一个或多个如条款a 1-a 14任一项所述的短整形转半精度浮点指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过i/o接口传递给其他处理装置;
[0230]
当所述机器学习运算装置包含多个所述短整形转半精度浮点指令处理装置时,所述多个所述短整形转半精度浮点指令处理装置间可以通过特定的结构进行连接并传输数据;
[0231]
其中,多个所述短整形转半精度浮点指令处理装置通过快速外部设备互连总线
pcie总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述短整形转半精度浮点指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述短整形转半精度浮点指令处理装置共享内存或者拥有各自的内存;多个所述短整形转半精度浮点指令处理装置的互联方式是任意互联拓扑。
[0232]
a 16、一种组合处理装置,所述组合处理装置包括:
[0233]
如条款5所述的机器学习运算装置、通用互联接口和其他处理装置;
[0234]
所述机器学习运算装置与所述其他处理装置进行交互,共同完成用户指定的操作,
[0235]
其中,所述组合处理装置还包括:存储装置,该存储装置分别与所述机器学习运算装置和所述其他处理装置连接,用于保存所述机器学习运算装置和所述其他处理装置的数据。
[0236]
a 17、一种机器学习芯片,所述机器学习芯片包括:
[0237]
如条款a 15所述的机器学习运算装置或如条款a 16所述的组合处理装置。
[0238]
a 18、一种电子设备,所述电子设备包括:
[0239]
如条款a 17所述的机器学习芯片。
[0240]
a 19、一种板卡,所述板卡包括:存储器件、接口装置和控制器件以及如条款a 17所述的机器学习芯片;
[0241]
其中,所述机器学习芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;
[0242]
所述存储器件,用于存储数据;
[0243]
所述接口装置,用于实现所述机器学习芯片与外部设备之间的数据传输;
[0244]
所述控制器件,用于对所述机器学习芯片的状态进行监控。
[0245]
a 20、一种短整形转半精度浮点指令处理处理方法,所述方法应用于短整形转半精度浮点指令处理装置,所述方法包括:
[0246]
对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址;
[0247]
在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址。
[0248]
a 21、根据条款a 20所述的方法,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0249]
得到所述短整形转半精度浮点指令的操作域中的元素数量;
[0250]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0251]
根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0252]
22、根据条款21所述的方法,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0253]
得到所述短整形转半精度浮点指令的操作域中的转换次数;
[0254]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目
的地址,还包括:
[0255]
根据所述元素数量在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址,所述执行模块根据所述转换次数重复执行上述步骤,且每次提取的待转换元素不重叠。
[0256]
a 23、根据条款a 21所述的方法,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0257]
得到所述短整形转半精度浮点指令的操作域中的提取步长;
[0258]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0259]
根据所述元素数量和所述提取步长,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后存储在所述目的地址。
[0260]
a 24、根据条款a 21至a 23中任一项所述的方法,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0261]
得到所述短整形转半精度浮点指令的操作域中的存储步长;
[0262]
所述在所述源地址提取短整形型张量,转换为半精度浮点型张量后存储在所述目的地址,还包括:
[0263]
根据所述元素数量,在所述源地址提取短整形型张量中的待转换元素,将所述待转换元素转换为半精度浮点型元素后,根据所述存储步长存储在所述目的地址。
[0264]
a 25、根据条款a 20所述的方法,所述方法应用于短整形转半精度浮点指令处理装置,所述短整形转半精度浮点指令处理装置包括控制模块和执行模块,所述执行模块包括多个执行子模块,所述方法还包括:
[0265]
控制模块根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至执行子模块;
[0266]
目标执行子模块在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任意执行子模块。
[0267]
a 26、根据条款a 20所述的方法,所述方法应用于短整形转半精度浮点指令处理装置,所述短整形转半精度浮点指令处理装置包括控制模块和执行模块,所述执行模块包括主执行子模块和多个从执行子模块,所述方法还包括:
[0268]
由主执行子模块根据所述源地址和所述目的地址确定多个源子地址和多个所述目的子地址,并将各所述源子地址和各所述目的子地址分配至从执行子模块;
[0269]
目标从执行子模块在对应的所述源子地址提取短整形型张量,转换为半精度浮点型张量后存储在对应的所述目的子地址,所述目标执行子模块为任一所述从执行子模块。
[0270]
a 27、根据条款a 20至a 26中任一项所述的方法,所述方法还包括:
[0271]
存储所述半精度浮点型张量和/或所述短整形型张量。
[0272]
a 28、根据权利要求a 21所述的方法,所述元素数量为所述张量的任一维度上的元素数量。
[0273]
a 29、根据条款a 22所述的方法,
[0274]
所述元素数量和所述转换次数的乘积等于所述张量中的元素总数量。
[0275]
a 30、根据条款a 24所述的方法,所述提取步长和所述存储步长的比特数为所述张量中任一维度的比特数的倍数。
[0276]
a 31、根据条款a 24所述的方法,所述存储步长的比特数大于需要存储的所述半精度浮点型元素的比特数。
[0277]
a 32、根据条款a 30所述的方法,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,包括:
[0278]
存储指令,包括所述短整形转半精度浮点指令;
[0279]
对所述短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作码和操作域;
[0280]
存储指令队列,所述指令队列包括按照执行顺序依次排列的多个指令,包括短整形转半精度浮点指令。
[0281]
a 33、根据条款a 30所述的方法,所述对获取到的短整形转半精度浮点指令进行解析,得到所述短整形转半精度浮点指令的操作域中的源地址和目的地址,还包括:
[0282]
在确定所述多个指令中的短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系时,将所述短整形转半精度浮点指令缓存在所述指令存储子模块中,在所述第零指令执行完毕后,从所述指令存储子模块中提取所述短整形转半精度浮点指令发送至所述执行模块,
[0283]
其中,所述短整形转半精度浮点指令与所述短整形转半精度浮点指令之前的第零指令存在关联关系包括:
[0284]
存储所述短整形转半精度浮点指令所需数据的第一存储地址区间与存储所述第零指令所需数据的第零存储地址区间具有重叠的区域。
[0285]
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1