用于参数化二元神经网络的自动机器学习策略网络的制作方法

文档序号：30710288发布日期：2022-07-10 08:16阅读：来源：国知局

技术特征：
1.一种装置，包括：处理器电路；以及存储指令的存储器，所述指令当被所述处理器电路执行时使得所述处理器电路：接收从策略神经网络采样的二元神经网络的多个二元权重值，所述策略神经网络包括以θ值为条件的后验分布；基于训练数据和接收到的多个二元权重值确定所述二元神经网络的前向传播的误差；基于所述二元神经网络的后向传播来为所述多个二元权重值计算各自的梯度值；并且利用基于所述梯度值、所述多个二元权重值以及缩放因子计算的奖励值来更新所述策略神经网络的所述后验分布的θ值。2.如权利要求1所述的装置，其中所述后验分布被以下各项中的一个或多个所共享：所述策略神经网络的层，所述策略神经网络的滤波器，所述策略神经网络的核，以及所述策略神经网络的权重。3.如权利要求1所述的装置，其中所述策略神经网络包括多个后验分布，其中每个后验分布是以各自的θ值为条件的，其中所述二元神经网络的第一核的二元权重值是从所述多个后验分布中的以第一θ值为条件的第一后验分布采样的，其中所述二元神经网络的第一滤波器的二元权重值是从所述多个后验分布中的以第二θ值为条件的第二后验分布采样的，其中所述二元神经网络的第一层的二元权重值是从所述多个后验分布中的以第三θ值为条件的第三后验分布采样的。4.如权利要求1所述的装置，其中所述策略网络包括多个隐藏层，其中所述策略网络的隐藏层不是完全连接层，其中每个隐藏层包括一组或多组神经元。5.如权利要求1所述的装置，所述存储器存储指令，所述指令当被所述处理器电路执行时使得所述处理器电路：基于被应用到由所述二元神经网络针对所述训练数据生成的输出的损失函数和被应用到所述训练数据的标签，来确定所述二元神经网络的所述前向传播的误差。6.如权利要求1所述的装置，所述存储器存储指令，所述指令当被所述处理器电路执行时使得所述处理器电路：基于所述梯度值、所述多个二元权重值和所述缩放因子来计算所述奖励值；并且利用强化算法、期望奖励值和计算出的奖励值来更新所述θ值。7.如权利要求1所述的装置，其中所述策略神经网络的输入层接收所述θ值的初始状态作为输入，其中相应的多个二元权重值是针对所述二元神经网络的多个层中的每一层从所述策略神经网络采样的。8.一种非暂态计算机可读存储介质，包括指令，所述指令当被计算设备的处理器执行时，使得所述处理器：接收从策略神经网络采样的二元神经网络的多个二元权重值，所述策略神经网络包括以θ值为条件的后验分布；基于训练数据和接收到的多个二元权重值确定所述二元神经网络的前向传播的误差；基于所述二元神经网络的后向传播来为所述多个二元权重值计算各自的梯度值；并且利用基于所述梯度值、所述多个二元权重值以及缩放因子计算的奖励值来更新所述策略神经网络的所述后验分布的θ值。
9.如权利要求8所述的非暂态计算机可读存储介质，其中所述后验分布被以下各项中的一个或多个所共享：所述策略神经网络的层，所述策略神经网络的滤波器，所述策略神经网络的核，以及所述策略神经网络的权重。10.如权利要求8所述的非暂态计算机可读存储介质，其中所述策略神经网络包括多个后验分布，其中每个后验分布是以各自的θ值为条件的，其中所述二元神经网络的第一核的二元权重值是从所述多个后验分布中的以第一θ值为条件的第一后验分布采样的，其中所述二元神经网络的第一滤波器的二元权重值是从所述多个后验分布中的以第二θ值为条件的第二后验分布采样的，其中所述二元神经网络的第一层的二元权重值是从所述多个后验分布中的以第三θ值为条件的第三后验分布采样的。11.如权利要求8所述的非暂态计算机可读存储介质，其中所述策略网络包括多个隐藏层，其中所述策略网络的隐藏层不是完全连接层，其中每个隐藏层包括一组或多组神经元。12.如权利要求8所述的非暂态计算机可读存储介质，包括指令，所述指令当被所述处理器执行时使得所述处理器：基于被应用到由所述二元神经网络针对所述训练数据生成的输出的损失函数和被应用到所述训练数据的标签，来确定所述二元神经网络的所述前向传播的误差。13.如权利要求8所述的非暂态计算机可读存储介质，包括指令，所述指令当被所述处理器执行时使得所述处理器：基于所述梯度值、所述多个二元权重值和所述缩放因子来计算所述奖励值；并且利用强化算法、期望奖励值和计算出的奖励值来更新所述θ值。14.如权利要求8所述的非暂态计算机可读存储介质，其中所述策略神经网络的输入层接收所述θ值的初始状态作为输入，其中相应的多个二元权重值是针对所述二元神经网络的多个层中的每一层从所述策略神经网络采样的。15.一种方法，包括：由在计算机处理器上执行的二元神经网络接收从策略神经网络采样的多个二元权重值，所述策略神经网络包括以θ值为条件的后验分布；基于训练数据和接收到的多个二元权重值确定所述二元神经网络的前向传播的误差；基于所述二元神经网络的后向传播来为所述多个二元权重值计算各自的梯度值；并且利用基于所述梯度值、所述多个二元权重值以及缩放因子计算的奖励值来更新所述策略神经网络的所述后验分布的θ值。16.如权利要求15所述的方法，其中所述后验分布被以下各项中的一个或多个所共享：所述策略神经网络的层，所述策略神经网络的滤波器，所述策略神经网络的核，以及所述策略神经网络的权重。17.如权利要求15所述的方法，其中所述策略神经网络包括多个后验分布，其中每个后验分布是以各自的θ值为条件的，其中所述二元神经网络的第一核的二元权重值是从所述多个后验分布中的以第一θ值为条件的第一后验分布采样的，其中所述二元神经网络的第一滤波器的二元权重值是从所述多个后验分布中的以第二θ值为条件的第二后验分布采样的，其中所述二元神经网络的第一层的二元权重值是从所述多个后验分布中的以第三θ值为条件的第三后验分布采样的。18.如权利要求15所述的方法，其中所述策略网络包括多个隐藏层，其中所述策略网络
的隐藏层不是完全连接层，其中每个隐藏层包括一组或多组神经元。19.如权利要求15所述的方法，还包括：基于被应用到由所述二元神经网络针对所述训练数据生成的输出的损失函数和被应用到所述训练数据的标签，来确定所述二元神经网络的所述前向传播的误差。20.如权利要求15所述的方法，还包括：基于所述梯度值、所述多个二元权重值和所述缩放因子来计算所述奖励值；并且利用强化算法、期望奖励值和计算出的奖励值来更新所述θ值。

技术总结
系统、方法、装置和计算机程序产品接收从策略神经网络采样的二元神经网络的多个二元权重值，该策略神经网络包括以θ值为条件的后验分布。可以基于训练数据和接收到的多个二元权重值确定二元神经网络的前向传播的误差。可以基于二元神经网络的后向传播来为多个二元权重值计算各自的梯度值。可以利用基于梯度值、多个二元权重值以及缩放因子计算的奖励值来更新后验分布的θ值。来更新后验分布的θ值。来更新后验分布的θ值。

技术研发人员：姚安邦周傲军孙大伟古典陈玉荣
受保护的技术使用者：英特尔公司
技术研发日：2019.06.05
技术公布日：2022/7/9

完整全部详细技术资料下载

当前第2页1 2