一种深度学习环境的搭建与优化方法和系统与流程

文档序号:17091776发布日期:2019-03-13 23:33阅读:437来源:国知局
一种深度学习环境的搭建与优化方法和系统与流程

本发明涉及人工智能技术领域,更具体地,特别是指一种深度学习环境的搭建与优化方法和系统。



背景技术:

随着深度学习算法和大数据的不断发展,ai(artificialintelligence,人工智能)已近逐渐渗透到各行各业,展示了其强大的优势。ai依赖于大数据、大模型以及深度学习算法,除此以外,ai算法的实现以及模型的训练和推理还依赖于计算平台的硬件,比如cpu、内存、gpu等硬件。ai模型的训练往往是一个耗时、耗力的过程,选择性能较高的计算平台进行模型训练可以提高效率、事半功倍,缩短算法的开发周期以及开发时间。此外,ai计算平台深度学习环境的快速搭建以及硬件参数、软件框架的自动调优,发挥计算平台的最大性能,成为夺占市场先机的重要一环。ai算法的实现和落地离不开计算平台,在ai计算平台上根据软件和硬件配置的不同,对深度学习环境的搭建以及硬件和软件的性能调优会有不同的方式。

目前,ai计算平台软硬件环境的检测以及深度学习环境的搭建主要是以单个服务器节点人工安装方式为主,对于同一种型号的不同机器,配置相同的软件环境则需要重复进行,对于类似型号甚至对于整个集群的安装配置,同样需要重复性的手工工作,例如,当需要配置几十台甚至上百台服务器时,存在重复软硬件环境检测、依赖库软件和深度学习框架重复安装、耗时费力等缺点。同时,ai计算平台的硬件参数的调优也需要借助人工经验,根据经验对计算平台的各种硬件参数进行手动调整,发挥硬件的最大性能,同样存在费时费力的问题。此外,ai计算平台的软件以及深度学习框架的调优同样存在经验、时间耗费等问题。

例如,深度学习环境的搭建需要根据计算平台的硬件配置以及系统环境,分别进行软件依赖库的安装、gpu驱动的安装、cuda(computeunifieddevicearchitecture,统一计算设备架构)的安装以及cudnn(nvidiadeepneuralnetworklibrary英伟达统一计算设备架构深度神经网络库)的安装,在前期环境搭建成功的基础之上,再进行深度框架的安装配置。此外,对于硬件参数的调优完全依赖于手动配置。对于软件框架的调优,也完全依赖于经验,以手动方式进行。因此,在整个深度学习环境搭建以及硬件、软件调优过程中,人力资源得不到解放,造成了极大地浪费,同时也花费较多的时间,在实际应用和生产中带来了极大的不方便和滞后。

因此,提供一种ai计算平台自动化检测、部署深度学习环境,以及自动优化ai计算平台性能的方案,乃是本领域的迫切需求。



技术实现要素:

有鉴于此,本发明实施例的目的在于提出一种深度学习环境的搭建与优化方法和系统,能够解决现有技术以人工方式进行深度学习环境的搭建以及硬件、软件的调优而导致人力资源成本和时间成本极大浪费的问题。

基于上述目的,本发明实施例的一方面提供了一种深度学习环境的搭建与优化方法,包括以下步骤:

1)获取人工智能计算平台的当前软件信息和当前硬件信息;

2)根据获取到的当前软件信息和当前硬件信息进行相应软件的安装或者更新以完成软硬件环境的搭建;

3)在搭建的软硬件环境下安装深度学习框架;

4)调整硬件参数来针对深度学习框架优化硬件性能;以及

5)根据软硬件环境的软件配置和深度学习框架的配置来优化深度学习框架的性能。

在一些实施方式中,当前软件信息包括软件版本,并且当前硬件信息包括硬件型号。

在一些实施方式中,步骤2)包括以下子步骤:

判断硬件型号与相应的软件版本是否匹配;

当判断结果为匹配时,即表示已完成软硬件环境的搭建;当判断结果为不匹配时,进行相应软件的安装或者更新,然后循环回到步骤1)。

在一些实施方式中,深度学习框架包括tensorflow、caffe、cntk、pytorch以及mxnet的至少一种。

在一些实施方式中,步骤2)还包括:对硬件性能进行基准测试。

在一些实施方式中,对硬件性能进行基准测试包括至少进行带宽测试以及点对点通信测试。

在一些实施方式中,步骤4)包括调整cpu、内存、硬盘、gpu以及bios的参数。

本发明实施例的另一方面,还提供了一种深度学习环境的搭建与优化系统,包括:

获取模块,用于获取人工智能计算平台的当前软件信息和当前硬件信息;

软件安装/更新模块,用于根据获取模块获取到的当前软件信息和当前硬件信息进行相应软件的安装或者更新以完成软硬件环境的搭建;

深度学习框架安装模块,用于在搭建的软硬件环境下安装深度学习框架;

硬件性能优化模块,用于调整硬件参数来针对深度学习框架优化硬件性能;以及

深度学习框架性能优化模块,用于根据软硬件环境的软件配置和深度学习框架的配置来优化深度学习框架的性能。

在一些实施方式中,当前软件信息包括软件版本,并且当前硬件信息包括硬件型号。

在一些实施方式中,软件安装/更新模块判断硬件型号与相应的软件版本是否匹配,如果不匹配,则进行相应软件的安装或者更新。

本发明具有以下有益技术效果:本发明实施例提供的一种深度学习环境的搭建与优化方法和系统通过对计算平台软件以及硬件环境的自动检测,实现基于当前硬件的深度学习环境定制化搭建,同时自动调节计算平台的硬件参数,从而发挥该ai计算平台的最大性能,满足应用需求。该过程不需要人工干预,根据检测获取到的当前ai服务器的软硬件环境信息,自动实现深度学习软件环境部署以及软、硬件参数的优化,极大地节约了人力资源成本和时间成本,并且实用性强,使用范围广,易于推广。通过该深度学习环境的搭建与优化方法和系统可以快速的给出不同客户节点需求的定制化解决方案,使ai服务器有更好的行业针对性和市场竞争力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的深度学习环境的搭建与优化方法的示意性流程图;

图2为根据本发明另一个实施例的深度学习环境的搭建与优化方法的示意性流程图;

图3为根据本发明一个实施例的深度学习环境的搭建与优化系统的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

基于上述目的,本发明实施例的第一个方面,提出了一种深度学习环境的搭建与优化方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示,该方法可以包括以下步骤:步骤s101,获取人工智能计算平台的当前软件信息和当前硬件信息;步骤s102,根据获取到的当前软件信息和当前硬件信息进行相应软件的安装或者更新以完成软硬件环境的搭建;步骤s103,在搭建的软硬件环境下安装深度学习框架;步骤s104,调整硬件参数来针对深度学习框架优化硬件性能;以及步骤s105,根据软硬件环境的软件配置和深度学习框架的配置来优化深度学习框架的性能。

在步骤s101,获取人工智能计算平台的当前硬件信息例如可以包括:自动检测计算平台的cpu型号、主频、核数、支持的指令集等;自动检测主板型号、bios的种类、芯片组类型、接口信息等;自动检测内存的容量、内存型号、频率及带宽信息等;自动检测硬盘的容量、硬盘输入输出系统每秒执行操作的次数等;以及自动检测pcie总线的种类和个数等。获取人工智能计算平台的当前软件信息例如可以包括:自动检测当前系统中安装的相关软件的版本。

在一个优选实施例中,步骤s102还可以包括:对硬件性能进行基准(benchmark)测试。benchmark是一种进行性能调优时所使用的工具,其在计算机领域应用最成功的就是性能测试,主要测试负载的执行时间、传输速度、吞吐量、资源占用率等。benchmark可以通过压力测试挖掘整个系统的性能状况。在本发明中,对硬件性能进行基准测试包括至少进行带宽测试以及点对点通信测试。

在一个优选实施例中,当前软件信息包括软件版本,并且当前硬件信息包括硬件型号。上述步骤s102可以包括以下子步骤:判断硬件型号与相应的软件版本是否匹配;当判断结果为匹配时,即表示已完成软硬件环境的搭建;当判断结果为不匹配时,进行相应软件的安装或者更新,然后循环回到步骤s101。图2为该实施例的示意性流程图。如图2中所示,在步骤s201和步骤s202,检测计算平台的硬件型号(例如,gpu型号)以及检测相应软件的版本(例如,gpu驱动版本、cuda版本、cudnn版本、python版本以及pip版本),然后,在步骤s203,判断该硬件型号与相应的软件版本是否匹配(例如,gpu型号与gpu驱动、cuda版本是否匹配,或者gpu型号与gpu驱动、cuda、cudnn版本是否匹配),如果不匹配,则进行相应软件的安装或者更新(步骤s204),之后循环回到步骤s201和步骤s202再进行软硬件环境的检测,直到该硬件型号与相应的软件版本匹配,即完成软硬件环境的搭建。在步骤s203,如果判断的结果为匹配,则执行步骤s205,在搭建的软硬件环境下安装深度学习框架。接下来,在步骤s206,通过调整硬件参数来优化硬件性能,并且在步骤s207,根据软硬件环境的软件配置和深度学习框架的配置来优化深度学习框架的性能。其中,可以预先设定软件以及依赖库版本对应关系列表,以供在步骤s203进行判断时使用。

在一个优选实施例中,深度学习框架可以包括tensorflow、caffe、cntk、pytorch以及mxnet的至少一种。

在一个优选实施例中,通过调整硬件参数来优化硬件性能包括调整cpu、内存、硬盘、gpu以及bios的参数,具体地,可以包括:自动将cpu频率设置为最大频率,按照cpu核的工作模式进行设置,并清空缓存、回收内存数据;自动进行内存带宽参数设置,对内存的使用频率以及超线程进行设置;自动将硬盘的输入输出设置为默认读写大小;自动进行gpu硬件参数设置,启用boost、内存纠错设置;自动进行bios参数设置,关闭超线程,并将内存通道对应一条内存。

需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(read-onlymemory,rom)或随机存取存储器(randomaccessmemory,ram)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。

基于上述目的,本发明实施例的第二个方面,提出了深度学习环境的搭建与优化系统的一个实施例。图3为该系统的示意性框图。

如图3中所示,该系统300可以包括:获取模块301,用于获取人工智能计算平台的当前软件信息和当前硬件信息;软件安装/更新模块302,用于根据获取模块获取到的当前软件信息和当前硬件信息进行相应软件的安装或者更新以完成软硬件环境的搭建;深度学习框架安装模块303,用于在搭建的软硬件环境下安装深度学习框架;硬件性能优化模块304,用于调整硬件参数来针对深度学习框架优化硬件性能;以及深度学习框架性能优化模块305,用于根据软硬件环境的软件配置和深度学习框架的配置来优化深度学习框架的性能。

在一个优选实施例中,当前软件信息可以包括软件版本,并且当前硬件信息可以包括硬件型号。软件安装/更新模块302判断该硬件型号与相应的软件版本是否匹配,如果不匹配,则进行相应软件的安装或者更新。

结合以上说明可以领会的是,本发明提出的深度学习环境的搭建与优化方法和系统的实施例可以较方便的扩展到相关领域,目前各行业中的ai计算平台性能自动优化工具较为稀少,大多数采用人工进行深度学习环境的搭建以及gpu等硬件参数的调优,随着人工智能的不断发展,ai计算平台深度学习环境的快速搭建以及硬件自动调优至关重要;后期的ai计算平台的性能自动优化可能不止出现于一台机器中,还有可能出现于集群中,这种自动优化方式将会极大地节省人力物力,提高生产和使用效率。

需要特别指出的是,上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述方法的其他实施例中。另外,除了上述模块之外,该系统还可以包括能够实现上述所有方法实施例的步骤的模块或子模块。

此外,典型地,本发明实施例公开所述的系统、设备等可为各种电子终端设备,例如手机、个人数字助理(pda)、平板电脑(pad)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的系统、设备。

此外,上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在asic中。asic可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例,上述本发明实施例公开的顺序仅仅为了描述,不代表实施例的优劣。但是应当注意,以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1