基于信息论的强化学习泛化性网络

文档序号:32870498发布日期:2023-01-07 03:36阅读:来源:国知局

技术特征:
1.一种基于信息论的强化学习泛化性网络,其特征在于,该方法包括以下几个步骤:(1)获取环境信息,并转换为状态空间作为算法的输入;(2)拓展强化学习神经网络,增大神经网络的容量和规模;(3)定量分析神经网络规模对算法泛化性能的影响;(4)根据信息论理论,采用半密集跨层连接的方式,加强对样本信息的利用率;(5)采用通道压缩的方法,对神经网络中的特征信息进行降维,抑制过拟合;(6)生成泛化性策略,选择和输出动作。2.如权利要求1所示述的一种基于信息论的强化学习泛化性网络,其特征在于:所述步骤(2)中拓展强化学习的神经网络:神经网络的规模直接决定了其抽象和表征能力,高容量的网络模型更有利于算法泛化性能的提高。当网络近似同一个函数时,通过增加深度和减少宽度,可以大幅减少神经元的使用数量。假设φ是一个非线性函数,q是一个正整数,p(x)是一个多元多项式。定义n
k
(p,θ)是当神经网络近似非线性φ函数时,神经网络隐藏层所需的最小神经元数量(不包括输入和输出),可表示为:为了获得最优值,引入拉格朗日乘数计算求得:其中bi是第i个隐藏层的单元数,λ是权重系数。l是拉格朗日计算。然后对其进行微分求解,化简并重新排列就得到:b
i
=b
i-1
+log2(b
i-1-1/(log2))根据bi与输入m在不同q值上的关系,当隐藏层数q增加时,乘积多项式的近似成本迅速下降。因此,我们发现网络深度比宽度更值得研究。所以我们定量定性地研究了网络深度对强化学习泛化性的影响,通过扩大深度来拓展网络规模和容量。3.如权利要求1所示述的一种基于信息论的强化学习泛化性网络,其特征在于:所述步骤(4)中根据信息论理论,采用半密集跨层连接的方式:虽然拓展网络结构可以直观提升网络模型的容量和性能表现,但也伴随着训练不稳定,特征信息利用率低和梯度弥散等问题。为了扬长避短,我们提出了一种半密集网跨层连接方式,将初始特征信息与每个隐藏层的初始输入进行拼接输入。由信息论可知,变量x与变量y间的互信息量为:i(x,y)。假设神经网络的初始输入为x,隐藏层第一层输入x1,隐藏层的第n层的输入是x
n
,最终输出为y。它们之间互信息量的一个非常重要的性质是数据处理链(dpi),如果将整个神经网络看作数据的编解码过程,则整个的数据传播过程的dpi链为:x

x1→
x2...

x
n

y它们之间的互信息量大小满足以下关系:i(x;x1)≥i(x2;x1)≥

≥i(y;x
n
)h(x)≥i(x;x1)≥i(x;x2)≥

≥i(x;x
n
)≥i(x;y)这说明神经网络在训练过程中不断压缩和抛弃信息数据,导致后面能学到的特征信息
量越来越少。但通过跨层连接的方式,实现了对初始特征信息的重复学习,保证了隐藏层能学到更多有效特征。该方法增加了隐藏层与输出层的互信息量,符合神经网络的优化方向。这种半密集跨层连接连接方式能提高隐藏层对样本数据的利用率,加强对深层特征的学习,同时能避免全密集连接带来的过度学习,有利于提高模型的泛化能力。4.如权利要求1所示述的一种基于信息论的强化学习泛化性网络,其特征在于:所述步骤(5)中采用通道压缩的方法,对神经网络中的特征信息进行降维:为了学到输入数据的隐含特征和提升泛化效果,我们提出了一种通道压缩降维的方法。该方法类似于一种自编码器,能够通过限制网络隐藏层的通道数,对特征信息进行压缩降维。但要注意的是,降维程度过大会导致特征信息映射到隐空间时丢失过多信息,产生较大误差。隐藏层单元的数量需要控制在一个合适的范围,通常隐藏层单元的个数设置为小于原始输入数据维度,大于或等于输入数据的维度的秩:n=rank(x)+α(dim(x)-rank(x)),α∈[0,1]其中,n代表隐藏层单元数,x是神经网络的输入,rank(x)是求解矩阵x的秩,dim(x)是输入样本,α是权重系数。有些算法在输入数据中加入噪声来提高算法的泛化性,但含有噪声的输入矩阵是满秩的,所以要用衰减因子进行约束。n=βdim(x),β∈(0,1)β是衰减系数,取值范围为(0,1)。需要注意的是,整个网络的深度和宽度(特征维度数)要做到平衡。只有等比例的增大深度和维度才能最大限度的提升网络的性能。通过减少通道数对特征信息强制降维,不仅可以避免半密集连接可能带来的过拟合,也能帮助强化学习算法学习更多的新特征来提升泛化能力。

技术总结
随着强化学习逐渐被应用到更多领域,其存在的泛化性差的问题也逐渐受到关注。智能体的泛化性能决定了其能否应对各种突发情况,能否在更广泛的真实场景应用,甚至能否设计出真正的通用人工智能。因此对于强化学习泛化性能的研究是很有意义的。本发明是针对强化学习泛化性能差的问题,提出了一种基于信息论的强化学习泛化性网络。该网络型首先拓展了现有网络结构,利用高容量网络增强算法的表征能力;然后从信息论的角度探讨了特征信息在高容量网络中的传递问题,提出半密集跨层连接方式,对特征信息进行跨层重用;最后提出通道压缩降维的方法,通过压缩隐藏层通道数,来对特征信息压缩和降维。本发明可广泛用于提升强化学习算法的泛化性能。的泛化性能。的泛化性能。


技术研发人员:杨嘉琛 霍紫强 肖太秋 肖帅 温家宝
受保护的技术使用者:天津大学
技术研发日:2022.09.28
技术公布日:2023/1/6
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1