基于Caffe的数据处理方法、装置和相关产品与流程

文档序号：17665068发布日期：2019-05-15 22:38阅读：180来源：国知局

本申请涉及深度学习技术领域，特别是涉及一种基于caffe的数据处理方法、装置和相关产品。

背景技术：

深度学习是指多层神经网络上运用各种机器学习算法解决图像、文本等各种问题的算法集合。在进行深度学习相关的任务时，例如：处理图像领域的任务会用到卷积神经网络，卷积神经网络是一种深度前馈人工神经网络，已成功地应用于图像识别。

卷积神经网络中第一层为卷积层，用来提取图像中的一些特征，在卷积层提取特征前，需要对图像数据进行特征标准化(即归一化)，特征标准化指的是使图像数据的每一个维度具有零均值和单位方差。目前，在卷积神经网络中对图像数据进行特征标准化，可以通过中央处理器调用开放源代码计算机视觉库(opensourcecomputervisionlibrary,opencv)对图像数据进行均值和方差处理，并将处理后的图像数据作为卷积神经网络的输入数据，再由中央处理器根据该输入数据逐层对卷积神经网络的每层进行编译和运行操作。

但是，上述采用卷积神经网络进行图像数识别方法存在效率低下的问题。

技术实现要素：

基于此，有必要针对上述采用卷积神经网络进行图像数识别方法存在效率低下的技术问题，提供一种基于caffe的数据处理方法、装置和相关产品。

第一方面，本发明实施例提供了一种基于caffe的数据处理方法，所述方法包括：

获取配置命令；所述配置命令用于指示对caffe文件进行参数配置；

根据所述配置命令，在所述caffe文件中定义标准化参数和卷积神经网络cnn首层卷积层的算子类型，得到配置后caffe文件；所述标准化参数表示对cnn卷积层的输入数据进行特征标准化的参数；

对所述配置后caffe文件进行编译，得到可执行文件，并将所述可执行文件在人工智能处理器上运行；所述可执行文件用于指示所述人工智能处理器对所述cnn卷积层的输入数据进行特征标准化，并对所述特征标准化后的数据执行卷积运算。

在其中一个实施例中，所述配置后caffe文件还包括人工智能处理器逻辑和通用处理器逻辑；所述人工智能处理器逻辑表示执行所述caffe文件中人工智能处理器层时语句执行的顺序；所述通用处理器逻辑表示执行所述caffe文件中通用处理器层时语句执行的顺序；

则，将所述可执行文件在人工智能处理器上运行之前，所述方法包括：

根据切换指令在所述可执行文件中增加逻辑切换标识；所述逻辑切换标识用于指示所述cnn卷积层的运算为所述人工智能处理器逻辑。

在其中一个实施例中，在所述caffe文件中定义标准化参数和cnn首层卷积层的算子类型，得到配置后caffe文件，包括：

分别在所述caffe文件中的卷积层参数中添加所述标准化参数、在所述caffe文件中的工厂模式中定义所述cnn首层卷积层的算子类型，构成所述配置后caffe文件。

在其中一个实施例中，所述标准化参数为根据预设的模型训练得到的参数。

在其中一个实施例中，所述标准化参数包括：减均值参数和缩放参数；

所述减均值参数，表征对所述输入数据进行减均值操作；

所述缩放参数，表征对所述输入数据进行减均值操作之后的数据进行缩放操作。

在其中一个实施例中，所述减均值参数包括第一均值参数或者第二均值参数；

所述第一均值参数，表征对所述输入数据在同一个空间位置上的像素进行减均值；或者，

所述第二均值参数，表征对所述输入数据的通道进行减均值。

第二方面，本发明实施例提供一种基于caffe的数据处理方法，所述方法包括：

接收可执行文件，所述可执行文件为计算机设备根据配置后caffe文件进行编译得到文件；所述配置后的caffe文件包括标准化参数和cnn首层卷积层的算子类型；

根据所述可执行文件，对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算。

在其中一个实施例中，根据所述可执行文件，所述对输入数据进行特征标准化处理，包括：

根据可执行文件中携带的算子类型调用的对应函数和减均值参数，对所述输入数据进行减均值操作；

根据缩放参数对所述减均值操作后的数据进行缩放处理。

在其中一个实施例中，所述根据可执行文件中携带的算子类型调用的对应函数和减均值参数，对所述输入数据进行减均值操作，包括：

若所述减均值参数为第一减均值参数，则根据所述可执行文件中携带的算子类型调用的对应函数和所述第一减均值参数，对所述输入数据在同一个空间位置上的像素进行减均值操作。

在其中一个实施例中，所述根据可执行文件中携带的算子类型调用的对应函数和减均值参数，对所述输入数据进行减均值操作，包括：

若所述减均值参数为第二减均值参数，则根据所述可执行文件中携带的算子类型的调用对应函数和所述第二减均值参数，对所述输入数据中的通道进行减均值操作。

第三方面，本发明实施例提供一种基于caffe的数据处理装置，所述装置包括：

获取模块，用于获取配置命令；所述配置指令用于指示对caffe文件进行参数配置；

定义模块，用于根据所述配置指令，在所述caffe文件中定义标准化参数和cnn首层卷积层的算子类型，得到配置后caffe文件；所述标准化参数表示对cnn卷积层的输入数据进行特征标准化的参数；

处理模块，用于对所述配置后caffe文件进行编译，得到可执行文件，并将所述可执行文件在人工智能处理器上运行；所述可执行文件用于指示所述人工智能处理器对所述cnn卷积层的输入数据进行特征标准化，并对所述特征标准化后的数据执行卷积运算。

第四方面，本发明实施例提供一种基于caffe的数据处理装置，所述装置包括：

接收模块，用于接收可执行文件，所述可执行文件为计算机设备根据配置后caffe文件进行编译得到文件；所述配置后的caffe文件包括标准化参数和cnn首层卷积层的算子类型；

运算模块，用于根据所述可执行文件，对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算。

第五方面，本发明实施例提供一种基于caffe的数据处理装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面和第二方面任一项实施例中的方法步骤。

第六方面，本发明实施例提供一种组合处理装置，所述组合处理装置包括如上述第五方面实施例所述的基于caffe的数据处理装置、通用互联接口和除所述基于caffe的数据处理装置以外的其它处理装置；所述基于caffe的数据处理装置与所述其它处理装置进行交互。

第七方面，本发明实施例提供一种机器学习芯片，所述机器学习芯片包括如上述第六方面所述的组合处理装置。

第八方面，本发明实施例提供一种板卡，所述板卡包括如上述第七方面所述的机器学习芯片。

第九方面，本发明实施例提供一种电子设备，所述电子设备包括如上述第八方面所述的板卡。

本申请实施例提供的一种基于caffe的数据处理方法、装置和相关产品，计算机设备根据配置命令在caffe文件中定义标准化参数和cnn首层卷积层的算子类型，得到配置后caffe文件，然后对该配置后caffe文件编译为可执行文件，并将该可执行文件在人工智能处理器上运行，使得人工智能处理器对cnn卷积层的输入数据进行特征标准化，并对特征标准化后的数据执行卷积运算。由于本方法中，将cnn卷积层的输入数据的特征标准化放进了层里面进行，且，计算机设备在caffe文件中定义的算子类型为人工智能处理器可以直接操作的算子，这样，人工智能处理器就可以将输入数据的标准化处理和卷积运算融合在一起进行，大大提高了卷积神经网络进行图像数识别的效率，进一步地可以使深度学习相关应用任务更加高效。

附图说明

图1为一个实施例提供的一种基于caffe的数据处理方法的应用环境图；

图2为一个实施例提供的一种基于caffe的数据处理方法的流程示意图；

图3为一个实施例提供的一种基于caffe的数据处理方法的流程示意图；

图4为一个实施例提供的一种基于caffe的数据处理方法的流程示意图；

图5为一个实施例提供的一种基于caffe的数据处理装置的结构框图；

图6为一个实施例提供的一种基于caffe的数据处理装置的结构框图；

图7为一个实施例中一种组合处理装置的结构示意图；

图8为一个实施例中另一种组合处理装置的结构示意图；

图9为一个实施例中一种板卡的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的一种基于caffe的数据处理方法可以应用于如图1所示的应用环境中，该计算机设备可以是服务器，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该数据库用于存储基于caffe的数据处理方法的数据。该网络接口用于与外部的其他设备通过网络连接通信。该计算机程序被处理器执行时以实现一种基于caffe的数据处理方法。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。本申请的实施例提供的基于caffe的数据处理方法，旨在解决现有技术中采用卷积神经网络进行图像数识别方法存在效率低下的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是，本发明提供的一种基于caffe的数据处理方法，图2的执行主体为计算机设备，图3和图4的执行主体为人工智能处理器，其中，图2-图4的执行主体均还可以为基于caffe的数据处理装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为基于caffe的数据处理的部分或者全部。

下面以执行主体为计算机设备，对一种基于caffe的数据处理方法实施例进行说明。

在一个实施例中，图2提供了一种基于caffe的数据处理方法，本实施例涉及的是计算机设备对caffe文件进行配置，并将配置后的caffe文件编译为可执行文件在人工智能处理器上运行，以使人工智能处理器对卷积层的输入数据进行特征标准化，并对所述特征标准化后的数据执行卷积运算的具体过程。如图2所示，该方法包括：

s101，获取配置命令；所述配置命令用于指示对caffe文件进行参数配置。

其中，配置命令用于指示对caffe文件进行参数配置的命令，本实施例中，计算机设备在获取到该配置命令后，就可以对caffe文件进行参数配置。其中，计算机设备获取该配置命令的方式可以是，计算机设备直接接收用户输入的配置命令，也可以是计算机设备主动获取一个配置文件，然后从该配置文件中解析出配置命令，当然还有其他方式，本实施例对此并不做限定。

s102，根据所述配置命令，在所述caffe文件中定义标准化参数和卷积神经网络cnn首层卷积层的算子类型，得到配置后caffe文件；所述标准化参数表示对所述cnn卷积层的输入数据进行特征标准化的参数。

基于上述s101步骤中，计算机设备获取的配置命令，根据该配置命令，在caffe文件中定义标准化参数和卷积神经网络((convolutionalneuralnetwork)，简称cnn)首层卷积层的算子类型，得到配置后的caffe文件。其中，标准化参数表示对cnn卷积层的输入数据进行特征标准化的参数，例如：该标准化参数可以是均值参数或者缩放参数等，还可以是其它参数，本实施例对此不做限定。其中，cnn首层卷积层的算子类型表示对输入数据进行特征标准化时使用的算子，例如：convfirstop，其中convfirstop为cnml中的一个算子，即，第一层卷积操作。cnml也可以称为机器学习库，是一个深度学习推理的应用程序接口(applicationprograminterface，简称api)，即cnml可以为convfirstop算子的一系列操作提供api，根据该api，可以从cnml中直接调用convfirstop算子对应的函数。

s103，对所述配置后caffe文件进行编译，得到可执行文件，并将所述可执行文件在人工智能处理器上运行；所述可执行文件用于指示所述人工智能处理器对所述cnn卷积层的输入数据进行特征标准化，并对所述特征标准化后的数据执行首层卷积运算。

本实施例中，基于上述s102中得到的配置后的caffe文件，计算机设备对该配置后的caffe文件进行编译，得到一个可执行文件，并将该可执行文件在人工智能处理器上运行。人工智能处理器根据该可执行文件对cnn首层卷积层的输入数据进行特征标准化，并对特征标准化后的数据执行首层卷积运算。其中，人工智能处理器，例如可以是：机器学习单元(machinelearningunit，简称mlu)。以人工智能处理器为mlu为例，在实际应用中，mlu可以根据可执行文件中携带首层卷积层的算子(例如convfirstop)，根据cnml提供的convfirstop的api从cnml中调用convfirstop对应的函数，对cnn卷积层的输入数据进行特征标准化，并对所述标准化后的数据执行卷积运算。需要说明的是，当在cnn首层卷积层的算子类型定为convfirstop时，则在cnn卷积层输入数据进行特征标准化时，就可以使用人工智能处理器(mlu)进行推理。

本实施例提供的一种基于caffe的数据处理方法，计算机设备根据配置命令在caffe文件中定义标准化参数和cnn首层卷积层的算子类型，得到配置后caffe文件，然后对该配置后caffe文件编译为可执行文件，并将该可执行文件在人工智能处理器上运行，使得人工智能处理器对cnn卷积层的输入数据进行特征标准化，并对特征标准化后的数据执行卷积运算。由于本方法中，将cnn卷积层的输入数据的特征标准化放进了层里面进行，且，计算机设备在caffe文件中定义的算子类型为人工智能处理器可以直接操作的算子，这样，人工智能处理器就可以将输入数据的标准化处理和卷积运算融合在一起进行，大大提高了卷积神经网络进行图像数识别的效率，进一步地可以使深度学习相关应用任务更加高效。

在上述实施例的基础上，可选地，所述配置后caffe文件还包括人工智能处理器逻辑和通用处理器逻辑；所述人工智能处理器逻辑表示执行所述caffe文件中人工智能处理器层时语句执行的顺序；所述通用处理器逻辑表示执行所述caffe文件中通用处理器层时语句执行的顺序；则，将所述可执行文件在人工智能处理器上运行之前，所述方法包括：根据切换指令在所述可执行文件中增加逻辑切换标识；所述逻辑切换标识用于指示所述cnn卷积层的运算为所述人工智能处理器逻辑。

本实施例中，人工智能处理器以mlu为例，通用处理器以cpu为例，则配置后caffe文件还包括人工智能处理器逻辑和通用处理器逻辑，为配置后的caffe文件还包括mlu逻辑和cpu逻辑，其中，mlu逻辑表示的caffe文件中mlu层中各语句执行的顺序，cpu逻辑表示的是caffe文件中cpu层中各语句执行的顺序。在实际应用中，由于配置后的caffe文件还包括mlu逻辑和cpu逻辑，计算机设备可以根据切换指令在可执行文件中增加逻辑切换标识；该逻辑切换标识可以指示cnn卷积层的运算为以mlu逻辑来执行。其中，切换指令可以为用户手动输入的，携带了逻辑切换标识的指令，计算机设备在接收到该切换指令时，将其中携带的逻辑切换标识添加到可执行文件中。其中，示例地，该逻辑切换标识可以用0或1表示，当该逻辑切换标识为0或者为1时，计算机设备将cnn卷积层的运算为以mlu逻辑来执行。需要理解的是，如果没有根据逻辑切换标识进行逻辑切换，计算机设备会默认cnn首层卷积层的运算为以cpu逻辑来执行的，当然，也可以给cpu逻辑也设置另外一种逻辑切换标识，当需要以cpu逻辑来执行运算时，计算机设备根据增加的cpu逻辑切换标识进行逻辑切换。其中，逻辑切换标识可以是数字、字母或者数字与字母的组合形成的mlu或者cpu可以识别的标识，本实施例对逻辑切换标识的具体形式不做限定。

本实施例提供的一种基于caffe的数据处理方法，计算机设备在将可执行文件在人工智能处理器上运行之前，根据切换指令在可执行文件中增加逻辑切换标识，并根据该逻辑切换标识将cnn卷积层的运算切换为人工智能处理器逻辑，这样，通过设置逻辑切换标识自由在人工智能处理器和通用处理器之间进行切换，将适合人工智能处理器的运算切换给人工智能处理器，大大提高了卷积神经网络进行图像数识别的效率，进一步地，使得深度学习相关应用任务更加高效。

对于上述实施例中描述的在caffe文件中定义标准化参数和cnn首层卷积层的算子类型，得到配置后caffe文件，本申请实施例提供了一种基于caffe的数据处理方法，则在一个实施例中，上述s102步骤的一种可实现方式，包括：分别在所述caffe文件中的卷积层参数中添加所述标准化参数、在所述caffe文件中的工厂模式中定义所述cnn首层卷积层的算子类型，构成所述配置后caffe文件。

其中，caffe文件中的卷积层参数，即caffeproto中的convolutionparameter。caffe文件中的工厂模式，即layer_factory,例如：src/caffe/layer_factory.cpp。则本实施例中，计算机设备在caffe文件中的卷积层参数中添加标准化参数、在caffe文件中的工厂模式中定义cnn首层卷积层的算子类型，得到配置后的caffe文件，为在caffeproto中的convolutionparameter中添加标准化参数，在layer_factory中定义cnn首层卷积层的算子类型，然后得到配置后caffe文件。在本实施例中，计算机设备在确定的位置定义了标准化参数和cnn首层卷积层的算子类型，可以使人工智能处理器根据配置后caffe文件编译的可执行文件，对输入数据的标准化处理和卷积运算融合在一起进行，大大提高了卷积神经网络进行图像数识别的效率。

由于需要对标准化参数提供具体的数值，以便人工智能处理器在根据可执行文件对输入数据进行标准化处理时，可以顺利地完成对数据的特征标准化处理，则在一个实施例中，所述标准化参数的取值为根据预设的模型训练得到的数据。其中，标准化参数的取值为根据预设的模型训练得到的数据，该预设的模型表示用户提前构建的对训练集进行标准化参数训练的模型。当然，本实施例根据预设的模型训练标准化参数的取值只是一种列举方式，也可以是用户根据经验或者其他方法统计的大数据得到的数值，本实施例对此也不做限定。在本实施例中，计算机设备根据预设的模型训练对标准化参数进行取值，实现人工智能处理器根据该标准化参数对输入数据进行标准化处理，大大降低输入数据中各特征之间的差异性。

另外，特征标准化表示使得输入数据的每一个维度具有零均值和单位方差，则所述标准化参数包括：减均值参数和缩放参数；所述减均值参数表征对输入数据进行减均值操作；所述缩放参数表征所述输入数据进行减均值操作之后的数据进行缩放操作。可选地，所述减均值参数包括第一减均值参数或者第二减均值参数；所述第一减均值参数表征对输入数据在同一个空间位置上的像素进行减均值；或者，所述第二减均值参数表征对输入数据的通道进行减均值。

其中，对输入数据进行特征标准化处理即对输入数据每个维度上求均值和进行缩放，则标准化参数包括：减均值参数和缩放参数，其中，减均值参数表征对所有训练集进行减均值操作；缩放参数表征对所有训练集进行减均值操作之后的数据进行缩放操作，其中，减均值参数包括第一减均值参数和第二减均值参数，第一减均值参数表征对输入数据在同一个空间位置上的像素进行减均值，第二减均值参数表征对输入数据的通道进行减均值，示例地，第一减均值参数可以是mean_file参数；第二减均值参数可以是mean_value参数；需要说明的是，mean_file参数的定义可以是通过mean_file：mymean.binaryproto来指定均值文件。示例地，设定缩放参数为std参数，其取值为std＝0.017，则若减均值参数为mean_file参数，人工智能处理器对输入数据同一个空间位置上的像素进行减均值操作，并对减均值操作后的数据再缩放0.017，得到最终的数据即为输入数据特征标准化后的数据。另外，若减均值参数为mean_value参数，设定mean_value参数的具体取值为104、117、123，则人工智能处理器输入数据的通道进行减均值(所有r通道减去104、所有g通道减去117、所有b通道减去123)得到减均值后的数据，然后对该数据进行缩放0.017，得到最终的数据即为特征标准化后的输入数据，例如：第一层卷积层的可以定义为：

需要理解的是，人工智能处理器按照mean_file参数和mean_value参数对输入数据进行减均值操作是只选其一进行。又示例地，结合上述标准化参数的取值方法，在实际应用中先根据预设的模型训练得到标准化数据(即减均值参数和缩放参数)，设减均值参数为mean、缩放参数为std、则假设人工智能处理器上提供一个算子为convfirstop，则根据公式out＝((data-mean)/stdt)*filter+bias就可以实现对输入数据首先进行减均值运算，继而进行除缩放运算，最后得到输出数据。其中filter为卷积核，bias为偏置，皆由训练神经网络得到的。

本实施例中，人工智能处理器根据设定的减均值参数(mean_file参数或者mean_value参数)对输入数据进行减均值操作，然后读减均值操作后的数据进行缩放处理实现输入数据的标准化处理，大大降低输入数据中各特征之间的差异性。

下面以执行主体为人工智能处理器，对一种基于caffe的数据处理方法实施例进行说明。需要说明的是，由于人工智能处理器、标准化参数、cnn卷积层的算子类型、减均值参数、缩放参数等名词，以及一些数据之间的交互过程在上述实施例中已经进行了具体解释，这里在以下实施例中不再赘述。

在一个实施例中，图3提供了一种基于caffe的数据处理方法，本实施例涉及的是人工智能处理器根据可执行文件对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算的具体过程。如图3所示，该方法包括：

s201，接收可执行文件，所述可执行文件为计算机设备根据配置后caffe文件进行编译得到文件；所述配置后的caffe文件包括标准化参数和cnn首层卷积层的算子类型。

本实施例中，人工智能处理器以mlu为例，则mlu接收可执行文件。其中可执行文件为计算机设备根据配置后caffe文件进行编译得到文件，其中，配置后caffe文件表示在原caffe文件中定义了标准化参数和cnn首层卷积层的算子类型后的caffe文件。

s202，根据所述可执行文件，对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算。

本步骤中，基于上述s201步骤中，人工智能处理器接收的可执行文件，根据该可执行文件，人工智能处理器对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行首层卷积运算。示例地，以人工智能处理器是mlu为例，mlu可以根据可执行文件中携带首层卷积层的算子(例如convfirstop)，从cnml中调用convfirstop的api对cnn首层卷积层的输入数据进行特征标准化，并对特征标准化后的数据执行首层卷积运算。

本实施例提供的一种基于caffe的数据处理方法，人工智能处理器根据接收的可执行文件，对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算，该方法中，由于可执行文件为计算机设备根据配置了标准化参数和cnn首层卷积层算子类型的caffe文件编译的，且，将cnn卷积层的输入数据的特征标准化放进了层里面进行，使得人工智能处理器就可以将输入数据的标准化处理和卷积运算融合在一起进行，大大提高了卷积神经网络进行图像数识别的效率，进一步地，使得深度学习相关应用任务更加高效。

考虑到人工智能处理器对输入数据进行特征标准化处理是包括了减均值操作和缩放操作两个步骤，则在一个实施例中，如图4所示，上述s202包括：

s301，根据可执行文件中携带的算子类型调用的对应函数和减均值参数，对所述输入数据进行减均值操作。

本实施例中，人工智能处理器根据可执行文件中携带的算子类型调用的对应函数和减均值参数，对输入数据进行减均值操作，由于可执行文件是根据计算机设备根据配置了标准化参数(包括减均值参数和缩放参数)和cnn首层卷积层算子类型的caffe文件编译的，所以，人工智能处理器可以直接从该可执行文件中获取cnn首层卷积层算子和减均值参数，然后根据该算子调用对应的函数，并对输入数据进行减均值操作。

其中，定义的减均值参数可以是第一减均值参数或者第二减均值参数，所以该s301步骤包括了两种实现方式：

可选地，s301步骤的其中一种实现方式，包括：若所述减均值参数为第一减均值参数，则根据所述可执行文件中携带的算子类型调用的对应函数和所述第一减均值参数，对所述输入数据在同一个空间位置上的像素进行减均值操作。

其中，第一减均值参数，例如：mean_file参数的定义可以是通过mean_file：mymean.binaryproto来指定均值文件。示例地，若减均值参数为mean_file参数，人工智能处理器对输入数据在同一个空间位置上的像素进行减均值操作，即对所有图片的每个像素点进行减均值操作，得到的数据为输入数据减均值后的数据。

可选地，s301步骤的另外一种实现方式，包括：

若所述减均值参数为第二减均值参数，则根据所述可执行文件中携带的算子类型调用的对应函数和所述第二减均值参数，对所述输入数据的通道进行减均值操作。

其中，第二减均值参数，例如：mean_value参数有三个值，分别代表三个通道(即r通道，g通道和b通道)的均值，示例地，设定mean_value的取值为104、117、123，则人工智能处理器对输入数据的通道进行减均值，即，所有r通道减去104、所有g通道减去117、所有b通道减去123得到数据为输入数据减均值后的数据。

s302，根据缩放参数对所述减均值操作后的数据进行缩放处理。

本步骤中，基于上述s301步骤中人工智能处理器对输入数据进行的减均值操作，人工智能处理器再对该减均值后的数据，根据缩放参数进行缩放处理，得到最终的数据即为特征标准化后的输入数据。其中，缩放参数同上述减均值参数一样，是包括在标准化参数中的，人工智能处理器直接根据执行文件可以直接获取使用。

本实施例提供的一种基于caffe的数据处理方法，人工智能处理器根据可执行文件中携带的算子类型调用的对应函数和减均值参数先对输入数据进行减均值操作，然后对减均值后数据根据缩放参数进行缩放，得到最终的征标准化后的输入数据，大大降低了输入数据中各特征之间的差异性。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于caffe的数据处理装置，包括：获取模块10、定义模块11和处理模块12，其中：

获取模块10，用于获取配置命令；所述配置指令用于指示对caffe文件进行参数配置；

定义模块11，用于根据所述配置指令，在所述caffe文件中定义标准化参数和卷积神经网络cnn首层卷积层的算子类型，得到配置后caffe文件；所述标准化参数表示对所述cnn卷积层的输入数据进行特征标准化的参数；

处理模块12，用于对所述配置后caffe文件进行编译，得到可执行文件，并将所述可执行文件在人工智能处理器上运行；所述可执行文件用于指示所述人工智能处理器对所述cnn卷积层的输入数据进行特征标准化，并对所述特征标准化后的数据执行卷积运算。

本实施例提供的一种基于caffe的数据处理装置，其实现原理和技术效果与上述基于caffe的数据处理方法的实施例类似，在此不再赘述。

在一个实施例中，如图6所示，提供了一种基于caffe的数据处理装置，包括：接收模块13和运算模块14，其中：

接收模块13，用于接收可执行文件，所述可执行文件为计算机设备根据配置后caffe文件进行编译得到文件；所述配置后的caffe文件包括标准化参数和cnn首层卷积层的算子类型；

运算模块14，用于根据所述可执行文件，对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算。

本实施例提供的一种基于caffe的数据处理装置，其实现原理和技术效果与上述基于caffe的数据处理方法的实施例类似，在此不再赘述。

关于基于caffe的数据处理装置的具体限定可以参见上文中对于基于caffe的数据处理方法的限定，在此不再赘述。上述基于caffe的数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本申请实施例还提供一种基于caffe的数据装置，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取配置命令；所述配置命令用于指示对caffe文件进行参数配置；

根据所述配置命令，在所述caffe文件中定义标准化参数和cnn首层卷积层的算子类型，得到配置后caffe文件；所述标准化参数表示对所述cnn卷积层的输入数据进行特征标准化的参数；

或者，

接收可执行文件，所述可执行文件为计算机设备根据配置后caffe文件进行编译得到文件；所述配置后的caffe文件包括标准化参数和cnn卷积层的算子类型；

根据所述可执行文件，对输入数据进行特征标准化处理，并对特征标准化处理后的输入数据执行卷积运算。

本实施例提供的一种基于caffe的数据处理装置，其实现原理和技术效果与上述基于caffe的数据处理方法的实施例类似，在此不再赘述。

参照图7所示，本申请实施例还提供了一种组合处理装置，其包括上述基于caffe的数据处理装置、通用互联接口和除上述基于caffe的数据处理装置以外的其它处理装置；基于caffe的数据处理装置与其它处理装置进行交互，共同完成用户指定的计算操作。其中，其他处理装置，包括中央处理器cpu、图形处理器gpu、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为基于caffe的数据处理装置与外部数据和控制的接口，包括数据搬运，完成对本数据处理装置的开启、停止等基本控制；其他处理装置也可以和基于caffe的数据处理装置协作共同完成运算任务。通用互联接口，用于在所述基于caffe的数据处理装置与其他处理装置间传输数据和控制指令。该基于caffe的数据处理装置从其他处理装置中获取所需的输入数据，写入基于caffe的数据处理装置片上的共享存储器；可以从其他处理装置中获取控制指令，写入数据处理装置片上的机器学习装置；也可以读取基于caffe的数据处理装置的共享存储器中的数据并传输给其他处理装置。

可选的，参照图8所示，上述组合处理装置还可以包括存储装置，存储装置分别与所述基于caffe的数据处理装置和所述其他处理装置连接。存储装置用于保存在所述基于caffe的数据处理装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本基于caffe的数据处理装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的soc片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一个实施例中，本申请实施例还提供了一种机器学习芯片，其包括了上述基于caffe的数据处理装置和/或组合处理装置。

在一个实施例中，本申请实施例还提供了一种芯片封装结构，其包括了上述芯片。

在一个实施例中，本申请实施例还提供了一种板卡，其包括了上述芯片封装结构。参照图9所示，上述板卡除了包括上述芯片封装结构81以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件82、接口装置83和控制器件84；所述存储器件82与所述芯片封装结构81内的机器学习芯片811通过总线连接，用于存储数据，所述存储器件82可以包括多组存储单元821。每一组所述存储单元821与所述机器学习芯片811通过总线连接。可以理解，每一组所述存储单元821可以是ddrsdram(doubledataratesdram，双倍速率同步动态随机存储器)。

ddr不需要提高时钟频率就能加倍提高sdram的速度。ddr允许在时钟脉冲的上升沿和下降沿读出数据。ddr的速度是标准sdram的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个ddr4颗粒(芯片)。在一个实施例中，所述机器学习芯片内部可以包括4个72位ddr4控制器，上述72位ddr4控制器中64bit用于传输数据，8bit用于ecc校验。可以理解，当每一组所述存储单元中采用ddr4-3200颗粒时，数据传输的理论带宽可达到25600mb/s。在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。ddr在一个时钟周期内可以传输两次数据。在所述芯片中设置控制ddr的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置83与所述芯片封装结构81内的机器学习芯片811电连接。所述接口装置83用于实现所述机器学习芯片811与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置83可以为标准pcie(peripheralcomponentinterconnectexpress，一种高速串行计算机扩展总线标准)接口。比如，待处理的数据由服务器通过标准pcie接口传递至所述机器学习芯片，实现数据转移。优选的，当采用pcie3.0x16接口传输时，理论带宽可达到16000mb/s。在另一个实施例中，所述接口装置83还可以是其他的接口，本申请实施例并不限制上述其他的接口的具体表现形式，所述接口装置能够实现转接功能即可。另外，所述机器学习芯片811的计算结果仍由所述接口装置83传送回外部设备(例如服务器)。

所述控制器件84与所述机器学习芯片811电连接。所述控制器件84用于对所述芯片的状态进行监控。具体的，所述机器学习芯片811与所述控制器件84可以通过spi(serialperipheralinterface，串行外设接口)接口电连接。所述控制器件可以包括单片机(microcontrollerunit，mcu)。如所述机器学习芯片可以包括多个基于caffe的数据处理装置和/或组合处理装置，可以带动多个负载。因此，所述机器学习芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制器件84可以实现对所述机器学习芯片中多个数据处理装置和/或组合处理装置的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、b超仪和/或心电图仪。

本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的全部或部分处理过程是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：read-onlymemory，简称：rom)、随机存取器(英文：randomaccessmemory，简称：ram)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：北京中科寒武纪科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。