数据处理装置和服务器的制作方法

文档序号：11561123阅读：245来源：国知局

本实用新型涉及数据处理技术，尤其涉及一种数据处理装置和服务器。

背景技术：

目前，深度学习是机器学习研究中的一个新的领域，是所有高科技研究和开发中最热门的领域之一，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

深度学习的关键是DNN(Deep Neural Network，深度神经网络)，由于DNN具有深层结构、数千万参数需要学习，因此DNN的预测和训练过程需要巨大的计算能力。通常，通过部署在多个芯片上的计算节点构成DNN，提高DNN的计算能力。

在DNN训练过程中，经常需要CPU(中央处理单元)和DNN之间传输Broadcast(广播)消息和Gather(收集)消息。现有技术中，是将所有芯片串联，构成一维芯片链，再将CPU与一维芯片链中的首芯片连接，Broadcast消息由CPU从一维芯片链的首芯片依次传送到一维芯片链的末芯片；Gather消息分别则从一维芯片链的末芯片依次传输到首芯片，再传输给CPU。

在实现本实用新型的过程中，实用新型人发现，现有技术一维芯片链至少存在以下问题：

当一维芯片链包括的芯片个数较多时，Broadcast和Gather消息分别需要从一维芯片链的一端依次传输到另一端，需要经过较多芯片的转发，需要较长的消息传输时间，从而提升了DNN的数据处理时延，降低了DNN的数据处理效率。

技术实现要素：

本实用新型实施例所要解决的其中一个技术问题是，提供一种数据处理装置和服务器，以减少通信数据的传输时间，提高数据处理效率。

为解决上述技术问题，根据本实用新型实施例的一个方面，提供一种数据处理装置，包括M行节点芯片，每行节点芯片包括N个节点芯片；所述M行节点芯片中的首节点芯片依次连接，形成首列节点芯片；其中，M、N分别为大于1的整数；

所述首列节点芯片中的各首节点芯片，按照从第1行至第M行的顺序，依次传输处理第一通信数据；以及按照从第1行至第M行的顺序、或者从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据；

所述每行节点芯片中的各节点芯片，按照从首节点芯片至末节点芯片的顺序，依次传输处理所述第一通信数据；以及按照从末节点芯片至首节点芯片的顺序，依次传输各节点芯片产生的第二通信数据。

可选地，上述各实施例的数据处理装置中，所述第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口，通过所述第一外部接口接收主板发送的所述第一通信数据；

所述第M行节点芯片中的首节点芯片设置有与主板连接的第二外部接口，通过所述第二外部接口向主板发送收集到的所有节点芯片的第二通信数据；

所述首列节点芯片中的各首节点芯片，具体按照从第1行至第M行的顺序，依次传输各节点芯片产生的第二通信数据。

可选地，上述各实施例的数据处理装置中，还包括：

主机节点芯片，设置有与主板连接的第三外部接口，并分别与所述第1行和第M行节点芯片中的首节点芯片连接，通过所述第三外部接口接收主板发送的所述第一通信数

据并转发给第1行节点芯片中的首节点芯片，以及接收第M行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过所述第三外部接口转发给主板；

所述首列节点芯片中的各首节点芯片，具体按照从第1行至第M行的顺序，依次传输各节点芯片产生的第二通信数据。

可选地，上述各实施例的数据处理装置中，所述第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口，通过所述第一外部接口接收主板发送的所述第一通信数据，以及向主板发送收集到的所有节点芯片的第二通信数据；

所述首列节点芯片中的各首节点芯片，具体按照从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据。

可选地，上述各实施例的数据处理装置中，还包括：

主机节点芯片，设置有与主板连接的第三外部接口，并与所述第1行节点芯片中的首节点芯片连接，通过所述第三外部接口接收主板发送的所述第一通信数据并转发给第1行节点芯片中的首节点芯片，以及接收第1行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过所述第三外部接口转发给主板；

所述首列节点芯片中的各首节点芯片，具体按照从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据。

可选地，上述各实施例的数据处理装置中，所述外部接口包括PCIE接口。

可选地，上述各实施例的数据处理装置中，各节点芯片上分别设置有串行器/解串器SERDES接口；具有连接关系的节点芯片之间具体通过SERDES接口，采用SERDES通信通道连接；

或者

各节点芯片上分别设置有总线和接口标准PCIE接口；具有连接关系的节点芯片之间具体通过PCIE接口，采用PCIE通信通道连接。

可选地，上述各实施例的数据处理装置中，所述M行节点芯片中的末节点芯片依次连接，形成末列节点芯片，所述第1行节点芯片中的末节点芯片与所述第M行节点芯片中的末节点芯片连接。

可选地，上述各实施例的数据处理装置中，还包括分别与各节点芯片连接的存储单元。

根据本实用新型实施例的另一个方面，提供一种服务器，包括主板，所述主板上具有一个以上卡槽，还包括：一个以上如上任一实施例所述的数据处理装置；

所述数据处理装置中设置有外部接口的节点芯片以插接方式插入主板上的卡槽中时，设置有外部接口的节点芯片通过外部接口与主板进行数据交互。

基于本实用新型上述实施例的数据处理装置和服务器，数据处理装置包括M行节点芯片，每行节点芯片包括N个节点芯片，M行节点芯片中的首节点芯片依次连接，形成首列节点芯片；其中，首列节点芯片中的各首节点芯片按照从第1行至第M行的顺序，依次传输处理第一通信数据，以及按照从第1行至第M行的顺序、或者从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据；每行节点芯片中的各节点芯片，按照从首节点芯片至末节点芯片的顺序，依次传输处理该第一通信数据，以及按照从末节点芯片至首节点芯片的顺序，依次传输各节点芯片产生的第二通信数据。本实用新型实施例的数据处理装置采用了准二维结构，可以通过首列节点芯片将第一通信数据传输至各行节点芯片，在各行节点芯片中，按照从首节点芯片至末节点芯片的顺序依次将该第一通信数据(例如Broadcast消息)传输给各节点芯片进行处理，并按照从末节点芯片至首节点芯片的顺序，依次传输各节点芯片产生的第二通信数据(例如Gather消息)，然后由首列节点芯片中的各首节点芯片按照从第1行至第M行的顺序、或者从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据，相对于具有相同数量芯片的现有一维芯片链结构，本实用新型实施例极大地提高了通信数据的传输效率，有效降低了通信数据在芯片间传输所需的时间，从而提高了整个数据处理任务的数据处理效率。

上述说明仅是本实用新型技术方案的概述，为了能够更清楚了解本实用新型的技术手段，而可依照说明书的内容予以实施，并且为了让本实用新型实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本实用新型的具体实施方式对本实用新型的技术方案做进一步的详细描述。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本实用新型的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本实用新型数据处理装置一个实施例的结构示意图。

图2为本实用新型数据处理装置另一实施例的示意图。

图3为本实用新型数据处理装置又一实施例的示意图。

图4为本实用新型数据处理装置再一实施例的示意图。

图5为本实用新型服务器一个实施例的示意图。

具体实施方式

现在将参照附图来详细描述本实用新型的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本实用新型的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本实用新型及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本实用新型数据处理装置一个实施例的结构示意图。如图1所示，该实施例的数据处理装置包括M行节点芯片(Node Chip)，其中的每行节点芯片包括N个节点芯片；M行节点芯片中的首节点芯片依次连接，形成首列节点芯片。首列节点芯片中的各首节点芯片，用于按照从第1行至第M行的顺序，依次传输处理第一通信数据，以及按照从第1行至第M行的顺序、或者从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据。每行节点芯片中的各节点芯片，用于按照从首节点芯片至末节点芯片的顺序，依次传输处理第一通信数据，以及按照从末节点芯片至首节点芯片的顺序，依次传输各节点芯片产生的第二通信数据。其中，其中，M、N分别为大于1的整数。

上述数据处理装置具体可以看作一个准二维结构的芯片阵列，其中的节点芯片即作为芯片阵列中一个节点的芯片。在M行节点芯片中，各行节点芯片包括的节点芯片数量可以相同，也可以不同，即：不同行的N的取值可以相同，也可以不同。

基于本实用新型上述实施例的数据处理装置，包括M行节点芯片，每行节点芯片包括N个节点芯片，M行节点芯片中的首节点芯片依次连接，形成首列节点芯片；其中，首列节点芯片中的各首节点芯片按照从第1行至第M行的顺序，依次传输处理第一通信数据，以及按照从第1行至第M行的顺序、或者从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据；每行节点芯片中的各节点芯片，按照从首节点芯片至末节点芯片的顺序，依次传输处理该第一通信数据，以及按照从末节点芯片至首节点芯片的顺序，依次传输各节点芯片产生的第二通信数据。本实用新型实施例的数据处理装置采用了准二维结构，可以通过首列节点芯片将第一通信数据传输至各行节点芯片，在各行节点芯片中，按照从首节点芯片至末节点芯片的顺序依次将该第一通信数据(例如Broadcast消息)传输给各节点芯片进行处理，并按照从末节点芯片至首节点芯片的顺序，依次传输各节点芯片产生的第二通信数据(例如Gather消息)，然后由首列节点芯片中的各首节点芯片按照从第1行至第M行的顺序、或者从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据，相对于具有相同数量芯片的现有一维芯片链结构，本实用新型实施例极大地提高了通信数据的传输效率，有效降低了通信数据在芯片间传输所需的时间，从而提高了整个数据处理任务的数据处理效率。

另外，在另一实施例的数据处理装置中，第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口，第1行节点芯片中的首节点芯片可以通过该第一外部接口接入外部设备，例如服务器中的主板上，用于通过第一外部接口接收主板发送的第一通信数据，以及向主板发送收集到的所有节点芯片的第二通信数据。

图2为本实用新型数据处理装置另一实施例的示意图。该实施例中，首列节点芯片中的各首节点芯片，具体按照从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据。如图2所示，与图1所示的实施例相比，该实施例的数据处理装置还包括主机(Host)节点芯片，该主机节点芯片设置有与主板连接的第三外部接口，并与第1行节点芯片中的首节点芯片连接，主机节点芯片可以通过该第三外部接口接入外部设备，例如服务器中的主板上，用于通过第三外部接口接收主板发送的第一通信数据并转发给第1行节点芯片中的首节点芯片，以及接收第1行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过第三外部接口转发给主板。该实施例中，首列节点芯片中的各首节点芯片，具体按照从第M行至第1行的顺序，依次传输各节点芯片产生的第二通信数据。

图3为本实用新型数据处理装置又一实施例的示意图。该实施例中，首列节点芯片中的各首节点芯片，具体按照从第1行至第M行的顺序，依次传输各节点芯片产生的第二通信数据。如图3所示，与图1所示的实施例相比，该实施例的数据处理装置中，第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口，第1行节点芯片中的首节点芯片可以通过该第一外部接口接入外部设备，例如服务器中的主板上，用于通过第一外部接口接收主板发送的第一通信数据；第M行节点芯片中的首节点芯片设置有与主板连接的第二外部接口，第M行节点芯片中的首节点芯片可以通过该第二外部接口接入外部设备，例如服务器中的主板上，用于通过第二外部接口向主板发送收集到的所有节点芯片的第二通信数据。

图4为本实用新型数据处理装置再一实施例的示意图。该实施例中，首列节点芯片中的各首节点芯片，具体按照从第1行至第M行的顺序，依次传输各节点芯片产生的第二通信数据。如图4所示，与图3所示的实施例相比，该实施例的数据处理装置还包括主机节点芯片，该主机节点芯片设置有与主板连接的第三外部接口，可以通过该第三外部接口接入外部设备，例如服务器中的主板上，并分别与第1行和第M行节点芯片中的首节点芯片连接，用于通过第三外部接口接收主板发送的第一通信数据并转发给第1行节点芯片中的首节点芯片，以及接收第M行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过第三外部接口转发给主板。

在上述各数据处理装置实施例的另一个具体示例中，上述外部接口，例如第一外部接口、第二外部接口或第三外部接口，例如可以是PCIE(总线和接口标准)接口，以接入外部设备的PCIE插槽中。另外，外部接口也可以是其他接口，只要与接入的外部设备的接口类型匹配即可。

在本实用新型上述各数据处理装置实施例的一个具体示例中，第一通信数据例如可以是Broadcast消息，该Broadcast消息中例如可以包括但不限于以下任意一项或多项：深度学习网络模型配置参数，芯片配置参数，网络训练任务，汇报请求和请求汇报的任务，等。第二通信数据包括例如可以是Gather消息，该Gather消息中例如可以包括但不限于以下任意一项或多项：深度学习网络模型训练后参数，进行网络训练任务获得的训练结果，网络训练任务的处理状态，基于汇报请求汇报的任务，等。

例如，作为图1所示数据处理装置实施例的一个应用，第1行节点芯片中的首节点芯片通过第一外部接口接收到主板发送的Broadcast消息后，按照从第1行至第M行的顺序，依次在首列节点芯片中传输处理Broadcast消息；各行的首节点收到Broadcast消息后，分别按照从首节点芯片至末节点芯片的顺序，在本行节点芯片中依次传输Broadcast消息。各节点芯片收到Broadcast消息后，根据Broadcast消息进行相应的操作，例如，若Broadcast消息中包括深度学习网络模型配置参数或芯片配置参数，则进行相应的参数配置；若Broadcast消息中包括网络训练任务，则进行该网络训练任务相应的操作；若Broadcast消息中包括汇报请求和请求汇报的任务，则收集相应的汇报数据。各节点芯片执行完Broadcast消息后，或者基于其他的触发条件，需要反馈Gather消息时，各节点芯片按照Broadcast消息的反向传输路径，分别将自身产生的Gather消息连同上一节点芯片发送的Gather消息传输给下一节点芯片，按照从末节点芯片至首节点芯片的顺序，由各行中的节点芯片依次收集上一节点芯片发送的Gather消息并加入自身的Gather消息传输给下一节点芯片，各行的首节点芯片再按照从第M行至第1行的顺序，将自身的Gather消息并加入上一节点芯片发送的Gather消息传输给下一节点芯片，最终由第1行节点芯片中的首节点芯片收集到所有节点芯片的Gather消息后通过第一外部接口反馈给主板。

作为图2所示数据处理装置实施例的一个应用，主机节点芯片通过第三外部接口接收到主板发送的Broadcast消息后，将该Broadcast消息转发给第1行节点芯片中的首节点芯片，按照从第1行至第M行的顺序，依次在首列节点芯片中传输处理Broadcast消息；各行的首节点收到Broadcast消息后，分别按照从首节点芯片至末节点芯片的顺序，在本行节点芯片中依次传输Broadcast消息。各节点芯片收到Broadcast消息后，根据Broadcast消息进行相应的操作，例如，若Broadcast消息中包括深度学习网络模型配置参数或芯片配置参数，则进行相应的参数配置；若Broadcast消息中包括网络训练任务，则进行该网络训练任务相应的操作；若Broadcast消息中包括汇报请求和请求汇报的任务，则收集相应的汇报数据。各节点芯片执行完Broadcast消息后，或者基于其他的触发条件，需要反馈Gather消息时，各节点芯片按照Broadcast消息的反向传输路径，分别将自身产生的Gather消息连同上一节点芯片发送的Gather消息传输给下一节点芯片，按照从末节点芯片至首节点芯片的顺序，由各行中的节点芯片依次收集上一节点芯片发送的Gather消息并加入自身的Gather消息传输给下一节点芯片，各行的首节点芯片再按照从第M行至第1行的顺序，将自身的Gather消息并加入上一节点芯片发送的Gather消息传输给下一节点芯片，最终由第1行节点芯片中的首节点芯片收集到所有节点芯片的Gather消息后转发给主机节点芯片，由主机节点芯片通过第三外部接口反馈给主板。

作为图3所示数据处理装置实施例的一个应用，第1行节点芯片中的首节点芯片通过第一外部接口接收到主板发送的Broadcast消息后，按照从第1行至第M行的顺序，依次在首列节点芯片中传输处理Broadcast消息；各行的首节点收到Broadcast消息后，分别按照从首节点芯片至末节点芯片的顺序，在本行节点芯片中依次传输Broadcast消息。各节点芯片收到Broadcast消息后，根据Broadcast消息进行相应的操作，例如，若Broadcast消息中包括深度学习网络模型配置参数或芯片配置参数，则进行相应的参数配置；若Broadcast消息中包括网络训练任务，则进行该网络训练任务相应的操作；若Broadcast消息中包括汇报请求和请求汇报的任务，则收集相应的汇报数据。各节点芯片执行完Broadcast消息后，或者基于其他的触发条件，需要反馈Gather消息时，各行节点芯片中按照Broadcast消息的反向传输路径，分别将自身产生的Gather消息连同上一节点芯片发送的Gather消息传输给下一节点芯片，即：各行节点芯片按照从末节点芯片至首节点芯片的顺序，由各行中的节点芯片依次收集上一节点芯片发送的Gather消息并加入自身的Gather消息传输给下一节点芯片，各行的首节点芯片再按照从第1行至第M行的顺序，将自身的Gather消息并加入上一节点芯片发送的Gather消息传输给下一节点芯片，最终由第M行节点芯片中的首节点芯片收集到所有节点芯片的Gather消息后通过第二外部接口反馈给主板。

作为图4所示数据处理装置实施例的一个应用，主机节点芯片通过第三外部接口接收到主板发送的Broadcast消息后，将该Broadcast消息转发给第1行节点芯片中的首节点芯片，按照从第1行至第M行的顺序，依次在首列节点芯片中传输处理Broadcast消息；各行的首节点收到Broadcast消息后，分别按照从首节点芯片至末节点芯片的顺序，在本行节点芯片中依次传输Broadcast消息。各节点芯片收到Broadcast消息后，根据Broadcast消息进行相应的操作，例如，若Broadcast消息中包括深度学习网络模型配置参数或芯片配置参数，则进行相应的参数配置；若Broadcast消息中包括网络训练任务，则进行该网络训练任务相应的操作；若Broadcast消息中包括汇报请求和请求汇报的任务，则收集相应的汇报数据。各节点芯片执行完Broadcast消息后，或者基于其他的触发条件，需要反馈Gather消息时，各行节点芯片按照Broadcast消息的反向传输路径，分别将自身产生的Gather消息连同上一节点芯片发送的Gather消息传输给下一节点芯片，即：各行节点芯片中按照从末节点芯片至首节点芯片的顺序，由各行中的节点芯片依次收集上一节点芯片发送的Gather消息并加入自身的Gather消息传输给下一节点芯片，各行的首节点芯片再按照从第1行至第M行的顺序，将自身的Gather消息并加入上一节点芯片发送的Gather消息传输给下一节点芯片，最终由第M行节点芯片中的首节点芯片收集到所有节点芯片的Gather消息后转发给主机节点芯片，由主机节点芯片通过第三外部接口反馈给主板。

进一步地，再参见上述图2-图4，在基于上述图2-图4实施例的进一步实施例中，M行节点芯片中的末节点芯片依次连接，形成末列节点芯片，第1行节点芯片中的末节点芯片与第M行节点芯片中的末节点芯片连接，使得末列节点芯片构成一个回环结构，从而实现了在末列节点芯片之间的直接通信数据传输和信息交互。

在基于上述各数据处理装置实施例的另一个具体示例中，第一通信数据例如还可以是Distribute(分发)数据，该Distribute数据中可以包括待处理任务(例如计算任务)，例如待处理图片、待计算任务等。相应地，该示例中，各节点芯片还可用于按照预先设置的执行策略，对分发给自己的待处理任务进行处理；相应地，第二通信数据包括对待处理任务进行处理获得的数据处理结果。

作为本实用新型各实施例的一个具体示例而非限制，其中的执行策略可以通过Broadcast消息发送给各节点芯片，由各节点芯片配置在自身或者连接的存储单元中。具体的执行策略可以根据本次待处理DNN网络中数据处理任务的大小与单个节点芯片可支持的数据处理能力之间的关系，确定执行本次DNN网络中数据处理任务的节点芯片的数量及具体的节点芯片。该执行策略可以根据需求随时修改。

在本实用新型上述任一实施例的数据处理装置中，每个节点芯片具体可以包括多个计算单元，例如上千个计算单元。本实用新型实施例的数据处理装置可用于对包括但不限于DNN的数据处理任务进行处理。例如针对DNN，由于DNN是一层一层的，比如说有十层，下一层数据处理任务需要等到当前一层数据处理任务处理完之后才能开始处理，层间数据处理任务存在依赖关系，但同一层的数据处理任务可以并行处理，因此，本实用新型实施例中，同一行节点芯片中的节点芯片可以同时去处理DNN同一层的数据处理任务，例如这一层的数据处理任务包括十亿次运算操作，同一行节点芯片中包括四个节点芯片，可以将这一层的十亿次操作分为四部分让该行节点芯片中的四个节点分别去运算。

采用本实用新型实施例的数据处理装置对DNN的数据处理任务进行计算处理时，可以示例性而非限制性地采用以下执行策略：

通过一个节点芯片运算处理DNN中全部层的数据处理任务。该情况适用于单节点芯片模式，可适用于特别小型的DNN，一个节点芯片就足以高效完成一个DNN中所有的数据处理任务，这种情况下，DNN的数据处理任务数据由服务器下发给主机节点芯片(数据处理装置包括主机节点芯片时)或第1行的首节点芯片(数据处理装置不包括主机节点芯片时)，主机节点芯片或第1行的首节点芯片对DNN中全部层的数据处理任务进行运算处理，运算完毕之后再沿与任务数据相反的方向将处理结果数据回传给服务器。

通过一个节点芯片运算DNN中多个层的数据处理任务，通过多个节点芯片完成DNN中全部层的数据处理任务的运算处理。该情况适用于多节点芯片模式，可适用于小型的DNN，少数几个节点芯片(例如首列节点芯片或者第1行节点芯片)就可以高效完成一个DNN中所有的数据处理任务，这种情况下，DNN的数据处理任务数据由服务器下发给主机节点芯片(数据处理装置包括主机节点芯片时)或第1行的首节点芯片(数据处理装置不包括主机节点芯片时)，相应的主机节点芯片或第1行的首节点芯片再下发给其沿第一通信数据传输方向连接的一个节点芯片，对DNN中多个层的数据处理任务进行运算处理，并将运算得到的临时结果数据通过节点芯片间的互联链路传输给下一个节点芯片，此时该节点芯片便可处理下一个DNN中多个层的数据处理任务，下一个节点芯片开始对后续多个层的数据处理任务进行运算处理，依次类推，完成DNN的所有数据处理任务的运算处理后，将获得的数据处理结果按照图2～图4任一第二通信数据的传输方向回传给服务器。该情况下参与数据处理任务的节点芯片，可以是首列节点芯片或者第1行节点芯片中的若干或全部节点芯片。

通过首列节点芯片或者第1行节点芯片处理DNN的全部数据处理任务。具体地，通过首列节点芯片或者第1行节点芯片中的多个节点芯片，先处理DNN一个层的数据处理任务，本层的数据处理任务运算处理完成后再一起开始运算处理下一层的数据处理任务。该情况适用于节点矩阵为一维结构模式。DNN的数据处理任务数据由服务器下发给主机节点芯片(数据处理装置包括主机节点芯片时)或第1行的首节点芯片(数据处理装置不包括主机节点芯片时)，相应的主机节点芯片或第1行的首节点芯片，主机节点芯片(数据处理装置包括主机节点芯片时)或第1行的首节点芯片(数据处理装置不包括主机节点芯片时)，相应的主机节点芯片或第1行的首节点芯片再按照第一通信数据的传输方向下发到一维结构(首列节点芯片或者第1行节点芯片)的所有节点芯片，一层的数据处理任务运算处理结束之后，得到的临时结果数据暂存在节点芯片中，当所有层的数据处理任务均运算处理结束后，将最终的处理结果数据作为第二通信数据，按照图2～图4任一第二通信数据的传输方向回传给服务器。。

通过准二维结构处理DNN的全部数据处理任务。具体地，DNN的数据处理任务数据由服务器下发给主机节点芯片(数据处理装置包括主机节点芯片时)或第1行的首节点芯片(数据处理装置不包括主机节点芯片时)，相应的主机节点芯片或第1行的首节点芯片按照本实用新型上述任一实施例所述第一通信数据的传输方向将数据处理任务下发到各节点芯片，每行节点芯片处理DNN一层数据处理任务的一部分，每行节点芯片中的多个节点芯片并行处理，共同完成DNN一个层的数据处理任务，末列节点芯片间可通过互联链路对数据处理任务中获得的临时结果数据进行交互，本层的数据处理任务运算处理完成后，该行节点芯片便可处理下一个DNN中一个层的数据处理任务，下一行节点芯片采用类似方式对下一层的数据处理任务进行运算处理，依次类推，完成DNN的所有数据处理任务的运算处理后，沿本实用新型上述任一实施例所述第二通信数据的传输方向将处理结果数据回传给服务器。

进一步地，在本实用新型上述各实施例的数据处理装置中，各节点芯片上分别设置有SERDES(串行器/解串器)接口，具有连接关系的节点芯片之间具体通过SERDES接口，采用SERDES通信通道连接。

或者，在本实用新型上述各实施例的数据处理装置中，各节点芯片上分别设置有PCIE接口，具有连接关系的节点芯片之间具体通过PCIE接口，采用PCIE通信通道连接。

另外，具有连接关系的节点芯片之间也可采用其它高速率低延迟的通信通道进行连接。

SERDES是一种主流的TDM(时分多路复用)、P2P(点对点)的串行通信技术，即：在发送端多路低速并行信号被转换成高速串行信号，经过传输媒体(光缆或铜线)，最后在接收端高速串行信号重新转换成低速并行信号。这种点对点的串行通信技术充分利用传输媒体的信道容量，减少了所需的传输信道和器件引脚数目，突破了传统并行I/O接口的数据传输瓶颈，大大降低通信成本：一是采用差分信号传输代替单端信号传输，从而增强了抗噪声、抗干扰能力；二是采用时钟和数据恢复技术代替同时传输数据和时钟，从而解决了限制数据传输速率的信号时钟偏移问题。因此，本实用新型实施例中，在节点芯片之间采用SERDES通信通道，有效减少了数据传输延迟。

另外，在本实用新型任一实施例的数据处理装置中，针对DNN或类似数据流向具有特殊性的网络，具有连接关系的各节点芯片之间的通信通道可以是非对称的，也就是作为第一通信数据传输方向的发送方向(Tx)和作为第二通信数据传输方向的接收方向(Rx)的传输带宽不同。例如，针对DNN的数据处理任务，可以设置SERDES通信通道在数据处理任务发送方向Tx的传输带宽大于接收方向Rx的传输带宽，以便提高有效带宽的利用率。

进一步地，在本实用新型上述各实施例的数据处理装置中，还可以包括M*N个存储单元，每个存储单元分别与一个节点芯片连接，用于存储所连接节点芯片相关的数据，例如，DNN模型配置参数，芯片配置参数，数据处理任务，执行数据处理任务产生的中间数据或数据处理结果数据，等。

示例性地，该存储单元可以是DDR(双倍速率同步动态随机存储器)、LPDDR(低功率双倍速率同步动态随机存储器)、GDDR(图形双倍速率同步动态随机存储器)、HBM(高带宽存储器)、或者HMC(混合存储立方体存储器)，另外，也可以是其它类型的高速存储器。

图5为本实用新型服务器一个实施例的示意图。如图5所示，该实施例的服务器包括主板和一个以上的数据处理装置。其中，主板上具有一个以上卡槽，数据处理装置中设置有外部接口的节点芯片以插接方式插入主板上的卡槽中时，设置有外部接口的节点芯片通过外部接口与主板进行数据交互。

具体地，该数据处理装置可以采用上述图1～图4任一实施例的数据处理装置结构实现。图5所示的实施例中，仅示例性地示出了服务器包括两个数据处理装置的一个具体示例。

基于本实用新型上述实施例提供的服务器，包括多个本实用新型上述实施例的数据处理装置，每个数据处理装置的数据处理能力强大、传输效率高且易于扩展，可以在主板卡槽数量的范围内连接相应数量的数据处理装置，通过扩展各数据处理装置中节点芯片的数量即可增强其数据处理能力，因此服务器的数据处理能力不会受到主板卡槽数量的限制。

在本实用新型上述任一实施例服务器的一个具体示例中，节点芯片上的外部接口为PCIE接口时，主板上的卡槽具体为PCIE插槽。另外，节点芯片上的外部接口与主板上的卡槽也可以采用其他标准实现，只要二者类型匹配即可。

另外，在本实用新型服务器的又一服务器中，还可以包括与主板连接的、用于与其他服务器进行数据交互的外部通信接口。示例性地，外部通信接口可以是以太网接口，例如40/100G以太网接口，具体的选择可可以根据不同的应用场景灵活决定。例如，若要搭建一个云服务器中心，则外部通信接口相应设置为以太网接口。

综上所述，由于本实用新型实施例提出了一种新的拓扑结构，该拓扑结构可更适合诸如DNN或深度学习的大运算量硬件加速平台的优化实现。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本实用新型也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本实用新型的内容，并且上面对特定语言所做的描述是为了披露本实用新型的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本实用新型的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个实用新型方面中的一个或多个，在上面对本实用新型的示例性实施例的描述中，本实用新型的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本实用新型要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，实用新型方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本实用新型的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本实用新型的范围之内并且形成不同的实施例。例如，所公开的实施例的任意之一都可以以任意的组合方式来使用。

本实用新型实施例的各个部件可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本实用新型实施例的装置、系统、服务器中的一些或者全部部件的一些或者全部功能。本实用新型还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本实用新型的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本实用新型进行说明而不是对本实用新型进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在说明书中，不应将位于括号之间的任何参考符号构造成对本实用新型实施例的限制。单词“包含”不排除存在未列出的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本实用新型实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

显然，本领域的技术人员可以对本实用新型进行各种改动和变型而不脱离本实用新型的精神和范围。这样，倘若本实用新型的这些修改和变型属于本实用新型权利要求及其等同技术的范围之内，则本实用新型也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：桂文明
技术所有人：算丰科技（北京）有限公司
我是此专利的发明人

上一篇：一种具有写保护功能的双系统平板电脑的制造方法与工艺
上一篇：地方立法法条双屏式查询终端的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。