一种基于泛化界的神经网络架构搜索方法

文档序号:35396668发布日期:2023-09-09 16:37阅读:22来源:国知局
一种基于泛化界的神经网络架构搜索方法

本发明涉及人工智能领域,更具体来说是深度学习方向的一种基于泛化界的神经网络架构搜索方法,在图像分类、目标检测和语义分割等任务上均可以应用。


背景技术:

1、深度学习,作为机器学习领域中的一个研究方向,其本质是对观察数据进行分层特征表示,实现将低级特征进一步抽象成高级特征表示,而这一切都是通过神经网络来执行的。但是直到近十年,深度学习才再度成为人工智能研究的焦点领域,这主要得益于计算机算力的增强、大规模的可用数据集以及全新的算法和技术。深度学习在图像的检测与识别,语义分割,语音识别等领域均取得了重大突破,推动人工智能的发展向前迈进一大步。

2、而深度学习成功的原因可以归功于强大的特征提取能力,其中网络结构的设计对数据特征的表示和最终模型的表现起到了至关重要的作用。为了获取数据的更好的特征表示,研究人员设计了多种多样的复杂的网络架构,早期的神经网络是由研究人员基于先验知识以及专家经验并经过不断试错而得到的,这导致神经网络的性能在很大程度上受限于人为的认知水平,网络结构的设计也很难跳出原有思考模式并设计出一个最优的网络。随着数据量的增大,特征提取网络也越来越深,当面临不同的实际任务时,也需要选择不同的网络结构才能解决,一个很自然的想法就是能否尽量减少人工的干预,设计算法能够自动寻找最合适的网络架构,因此,神经网络架构搜索出现了,即从由众多神经网络组成的搜索空间中搜索出用于指定任务的最优秀的一个神经网络的技术。

3、早期的一些搜索算法,无论是基于强化学习的方法提出使用控制器来构建候选架构,这些架构会被评估然后根据表现反馈给控制器;还是后面提出的基于进化算法(本质上是一种有向的随机搜索)的算法通过交叉和突变环节在超网中不断发现更加优异的网络,这些方法虽然保证了架构的多样性和最终网络的性能,但是都需要巨大的计算资源并且搜索时间过长,昂贵的代价不是普通的深度学习从业人员所能负担得起的。后面又提出了基于可微分的方法,将之前被视为离散空间的黑盒优化问题的网络结构搜索转化为连续空间的优化问题,采用梯度下降法求解,虽然不需要评估大量架构,但是由于反向传播过程中需要将整个超网放在内存中,因此会占用大量的内存,而且架构缺乏多样性且缺乏解释性。这些方法无疑都限制了神经网络架构搜索的发展与实际的应用。因此,现有的方法还需要改进和提高。

4、如果从预测的角度来看待神经网络架构搜索过程,不用直接训练而通过尝试预测网络的准确性或者排名,无疑可以大大减少评估过程带来的沉重成本。本发明从神经网络的泛化界出发,以此为指标对初始架构进行评估,来衡量网络架构的最终性能,提出了一种更加高效更加便捷的神经网络架构搜索方法,并且以图像分类任务为例证明了良好效果。


技术实现思路

1、当我们使用神经网络架构搜索技术进行特定的机器学习任务,比如说图像分类任务,技术人员往往需要对已有的网络架构进行大量实验,从而选择出性能最优的神经网络架构模型。但是我们不仅希望搜索得到的神经网络结构是最优的,还要尽可能使搜索过程所花费的代价和时间都比较小。搜索过程代价巨大的原因在于需要对海量架构进行训练和评估,并且迭代多次。如果能够减少训练过程,甚至不训练无疑可以大大降低搜索成本。本发明基于此提出了一种免训练的神经网络架构搜索方法,该方法对选取的特定搜索空间中的所有网络架构计算pac-bayes bound值来限制泛化误差上界,进而用泛化误差来衡量网络架构的最终性能,搜索得到最佳架构,旨在解决现有技术中神经网络架构搜索耗时长的问题。

2、本发明专利总体分为四大部分:

3、(1)设置分类任务的数据集,设置神经网络架构的搜索空间,该空间中包含期望的网络模型。

4、(2)对搜索空间中的不同候选架构进行采样,计算每一个候选架构的泛化误差上界,以此为评价指标来衡量网络架构性能。

5、(3)计算不同架构的泛化误差值和最终分类准确率之间的相关系数,验证指标的正确性。

6、(4)在整个搜索空间中进行搜索,选择出最优的神经网络架构,并且对选出的网络架构进行训练,实现图像分类的任务。

7、本发明提出的方法具体技术方案如下:

8、1.选定统一的神经网络架构搜索比较平台nas-bench-201搜索空间,该空间是基于cell结构的块状结构,具有固定的搜索空间,并为几乎所有最新的nas算法提供统一的基准。采用模块重复堆叠的方案,将离散的网络架构连续化松弛,构成连续的搜索空间,该搜索空间中包含所有候选网络模型。搜索空间被建模成有向无环图,代表卷积神经网络中的模块,有向无环图中的节点代表特征图信息,边代表操作。通过设置有向无环图中的节点数量以及操作集合来控制搜索空间的大小。不同架构之间cell块除外的结构设定是一致的,因此cell结构的种类即对应候选结构的种类。具体的,该cell架构中有四个节点和五个相关操作,对节点进行编号,编号靠前的节点都有一条到编号靠后节点的连接边,因此一共有6条边,操作集合为5种操作,包括卷积核为1的卷积操作,卷积核为3的卷积操作,平均池化操作,跳跃连接,以及zero操作。有向无环图中,每个中间节点和其每一个后继中间节点均有5条有向连接边,每条有向连接边代表操作集合中的一种操作,中间节点的特征信息是由其所有前驱节点通过对应有向边操作得到的特征提取结果共同构成。因此,搜索空间被表示成有向无环图总共产生56即15625个cell候选对象,也就是搜索空间中有15625个候选架构。

9、2.得到特定的搜索空间后针对图像分类任务准备数据集,来验证具体架构在分类任务中的表现。

10、3.考虑到候选架构数量过多,对候选架构进行采样来计算不同神经网格架构的泛化误差上界,进而计算泛化误差上界的值与神经网络分类效果之间的相关系数。本发明的实验中采样了436个架构,泛化误差上界和最终分类准确率的相关性如附图3所示。

11、4.验证了所选评价指标的正确性之后,对整个神经网络架构搜索空间进行搜索,每一次选出不同的候选网络架构,计算其泛化误差上界来对架构进行排名,如果候选架构的泛化误差上界小于之前保存的架构,我们认为泛化误差上界小的架构性能优于泛化误差上界更大的架构,因此就更新候选架构,直至整个搜索空间遍历完毕,我们得到了泛化误差上界最小的架构,该候选架构即本轮搜索得到的最优架构。重复固定轮次减小误差,最终得到多轮搜索过后的最优神经网格架构。

12、5.将搜索出的架构模型作为针对此次图像分类数据集的深度神经网络建模结果。利用深度学习中图像分类的常用优化技巧,训练选出的网络架构,实现图像的分类任务。

13、6.提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的基于泛化界的神经网络架构搜索方法的步骤。

14、有益效果

15、本发明提出一种基于泛化界的神经网络架构搜索方法,能够搜索到性能更优的神经网络架构模型。与现有技术相比,本发明提供的方法在验证了所选指标的正确性后,用不同架构之间的泛化界衡量不同网络架构模型的性能,最终得到单一的神经网络架构,可以通过免训练的方式实现神经网络架构搜索,在保证搜索出来的网络架构优良性能的同时,显著降低了计算量,减少神经网络架构搜索的巨大消耗。极大地减少了计算资源的浪费,为技术人员节省大量时间。同时,该方法能够为非技术人员或专业能力有限的人员带来便利,更加简单方便地应用到包括图像分类任务在内的其他人工智能领域。

16、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1