一种控制的方法及设备与流程

文档序号:17933794发布日期:2019-06-15 01:09阅读:122来源:国知局
一种控制的方法及设备与流程
本发明涉及设备节能
技术领域
,特别涉及一种控制的方法及设备。
背景技术
:目前,空调已成为家庭或公共场所中不可或缺的改善内部环境质量的设备,但同时空调也是耗能较大的设备之一,现有空调节能控制主要在控制理论中对个别控制参数进行范围划定控制,控制较为粗糙,随着人工智能技术的发展,越来越多的设备中应用了智能算法对大规模数据进行分析从而实现精确控制。但目前在空调节能方面,如何通过对大规模数据进行分析实现精确的节能控制成为本领域急需解决的问题。技术实现要素:本发明提供一种控制的方法及设备,用以解决现有技术中对空调等设备的节能控制不精准,且不能同时保证空调运行的节能和服务质量均衡的问题。第一方面,本发明实施例提供的一种设备控制的方法,该方法包括:根据设备当前运行环境,确定设备当前运行状态的当前运行状态参考值;将所述当前运行状态参考值输入通过q深度学习构建的节能调控模型,所述节能调控模型用于根据当前运行状态参考值预测当前运行状态下,设备执行下一个不同的动作对应的q值,并输出最大q值对应的动作,所述动作包括控制对象和控制参数;确定所述节能调控模型输出的动作为下一个动作,并控制所述设备在执行完当前动作后,执行所述确定的下一个动作。上述方法中,根据设备的当前运行状态参考值,利用构建好的节能调控模型以及贪心算法,为上述设备选择执行效果最好的下一个动作执行,能实现满足设定要求(如设备节能,设备运行效带来的益最佳等)的对设备的精准的控制。在一种可选的实现方式中,通过q深度学习构建的节能调控模型,包括:构建第一网络模型和第二网络模型,并随机初始化第一网络模型和第二网络模型的模型参数;触发获取样本数据时,获取设备的当前运行状态参考值并输入到第一网络模型,确定第一网络模型输出的最大q值对应的动作为下一个动作,确定设备执行当前动作结束时,根据设备的运行环境确定所述设备的下一个运行状态及对应的下一个运行状态参考值,并根据预设方法获得所述设备执行所述当前动作获得的奖励,同时将所述当前运行状态参考值、下一个运行状态参考值、下一个动作、奖励作为一条样本数据存入样本数据集,并判断获取的样本数据量是否达到预设条数,若是,结束样本数据的获取,否则,将下一运行状态参考值作为当前运行状态参考值,重新触发获取样本数据;根据所述样本数据集,基于第一网络模型和第二网络模型生成节能调控模型。上述方法中,根据设备的当前运行状态以及当前动作获取生成节能调控模型的样本数据,使获得的样本数据更精准,以便获得与上述设备实际运行情况贴合的节能调控模型。在一种可选的实现方式中,根据获取的样本数据集,基于第一网络模型和第二网络模型生成节能调控模型,包括:确定触发模型参数更新时,从所述样本数据集中选取第一预设数量的样本数据,将每条样本数据的当前运行状态参考值输入第一网络模型,将对应的下一个运行状态参考值输入第二网络模型;根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新所述第一网络模型的模型参数;确定第一网络模型的模型参数更新次数未达到第一预设次数时,重新触发模型参数更新,否则,将第二网络模型的模型参数更新为第一网络模型的模型参数,并判断第二网络的模型参数更新次数是否达到第二预设次数;确定第二网络模型的模型参数更新次数达到第二预设次数时,将所述第二网络模型作为所述节能调控模型,否则,重新触发获取样本数据。上述方法中,通过不同的样本数据更新第一网络模型和第二网络模型的模型参数,使第一网络模型输出的预测动作值逐渐靠近第二网络模型输出的真实动作值,确定满足将满足条件的第二网络模型作为节能调控参数,使第二网络模型的预测效果与上述设备实际的最佳动作选择更靠近,得到预测动作精准的节能调控参数。在一种可选的实现方式中,根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新所述第一网络模型的模型参数,包括:计算每条样本数据对应的第一网络模型和第二网络模型输出的最大q值的差值,并确定所述第一预设数量的样本数据对应的最大q值的差值的均值;计算所述第一预设数量的样本数据对应的奖励的均值;根据所述差值的均值及所述奖励的均值,更新所述第一网络模型的模型参数。在一种可选的实现方式中,根据所述设备执行所述当前动作前后的设备运行环境的改变,以及所述设备执行所述当前动作对应的功耗,确定所述设备执行所述当前动作获得的奖励。上述方法中,根据设备在不同运行状态下执行不同动作的运行环境的改变和对应功耗计算奖励,从而将设备运行时的综合效益进行量化,便于选出运行环境改变最佳,同时功耗最小的动作,从而对设备进行精确的节能调控。在一种可选的实现方式中,所述不同的动作由当前运行状态对应的控制参数范围确定,所述节能调控模型输出最大q值对应的动作后,还包括:若输出的动作的控制参数大于当前运行状态对应的控制参数范围的最大值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最大值,若输出的动作的控制参数小于当前运行状态对应的控制参数范围的最小值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最小值。上述方法中,在使用节能调控模型时,可以根据模型的输出,进行节能调控模型的优化。在一种可选的实现方式中,所述设备为空调时,所述设备运行环境包括设备运行的外部环境及所述设备指定部件的运行信息,所述当前运行状态参考值包括:环境温度、压缩机转速、外风机转速。在一种可选的实现方式中,所述设备为空调时,所述动作包括的控制对象为冷流的调节阀,所述控制参数为所述冷流的调节阀的阀开度量。上述方法中,设备为空调时,可以运用上述节能调控模型,根据空调运行带来的环境温度的改变以及压缩机和外风机的功耗,选择节能效果最好,同时带来环境温度改变最佳的冷流的调节阀的阀开度量。第二方面,本发明实施例提供的一种设备,该设备包括处理器和存储器,其中,所述处理器存储可执行程序,所述处理器用于执行可执行程序时实现如下步骤:根据设备当前运行环境,确定设备当前运行状态的当前运行状态参考值;将所述当前运行状态参考值输入通过q深度学习构建的节能调控模型,所述节能调控模型用于根据当前运行状态参考值预测当前运行状态下,设备执行下一个不同的动作对应的q值,并输出最大q值对应的动作,所述动作包括控制对象和控制参数;确定所述节能调控模型输出的动作为下一个动作,并控制所述设备在执行完当前动作后,执行所述确定的下一个动作。第三方面,本申请还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理单元执行时实现第一方面所述方法的步骤。另外,第二方面和第三方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例一提供的一种设备节能控制的方法示意图;图2为本发明实施例一提供的第一网络与第二网络的结构示意图;图3为本发明实施例一提供的一个构建设备的运行状态和动作的映射表的完整方法示意图;图4为本发明实施例一提供的一种控制空调节能的方法另示意图;图5为本发明实施例一提供的建立空调的运行状态和动作的映射表的过程示意图;图6本发明实施例一提供的对空调的调节阀进行节能控制流程示意图;图7为本发明实施例二提供的一种节能控制的设备示意图;图8为本发明实施例二提供的一种节能控制的装置示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。下面对文中出现的一些词语进行解释:1、本发明实施例中字符“/”描述关联对象的关联关系,一般表示前后关联对象是一种“或”的关系。2、本发明实施例中术语“设备”为有不同运行环境/运行状态,且同一运行环境/运行状态下执行不同动作,且执行不同动作会影响运行功耗的设备,如空调、冰箱、电视等,也可以为任一上述设备的某一部件,如空调的外风机、空调的压缩机等。本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。目前,空调已成为家庭或公共场所中不可或缺的设备,但同时空调也是耗能较大的设备之一,现有空调节能控制主要通过对空调的个别控制参数进行范围划分,根据划分后的不同范围的控制参数对空调进行控制的,以达到节能的目的,但这种对个别控制参数划分范围的方法控制空调节能不准确,较易出现空调实现节能效果好但改善环境温度较差,或者空调改善环境温度较好但节能效果差的情况。随着人工智能技术的发展,越来越多的设备控制中应用了智能算法对大规模数据进行分析从而实现精确控制,且强化学习越来越受到人们的关注,其在人工智能领域包括工业调度、路径规划方面得到使用,特别是用来解决随机性或不确定性动态系统最优化这些决策类问题,效果更为显著。基于上述场景,本发明提供一种节能控制的方法和设备。为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。针对上述场景,下面结合说明书附图对本发明实施例做进一步详细描述。实施例一:如图1所示,本实施例提供一种设备节能控制的方法,具体包括以下步骤:步骤101,根据设备当前运行环境,确定设备当前运行状态的当前运行状态参考值;作为一种可选的实施方式,可以根据设备的运行环境提取设备的不同运行状态的状态参考数据,根据状态参考数据确定设备的不同的运行状态,如上述设备为空调时,上述设备运行环境包括设备运行的外部环境及上述设备指定部件的运行信息,上述当前运行状态参考值包括:环境温度、压缩机转速、外风机转速。步骤102,将上述当前运行状态参考值输入通过q深度学习构建的节能调控模型,上述节能调控模型用于根据当前运行状态参考值预测当前运行状态下,设备执行下一个不同的动作对应的q值,并输出最大q值对应的动作,上述动作包括控制对象和控制参数;上述q值为设备在任一运行状态下执行任一动作时,深度q学习网络dqn输出的评价执行的动作的评价参考值;作为一种可选的实施方式,上述设备为空调时,上述动作包括的控制对象为冷流的调节阀,上述控制参数为上述冷流的调节阀的阀开度量。步骤103,确定上述节能调控模型输出的动作为下一个动作,并控制上述设备在执行完当前动作后,执行上述确定的下一个动作;上述方法中,根据设备的当前运行状态参考值,利用构建好的节能调控模型以及贪心算法,为上述设备选择执行效果最好的下一个动作执行,能实现满足设定要求(如设备节能,设备运行效带来的益最佳等)的对设备的精准的控制。作为一种可选的实施方式,基于q深度学习原理,按照如下方法构建节能调控模型:(一)构建第一网络模型和第二网络模型,并随机初始化第一网络模型和第二网络模型的模型参数;上述第一网络与第二网络的结构相同,如图2所示,均包含输入层网络、处理层网络和输出层网络,其中,输入层网络用以输入设备的当前运行状态参考值,处理层网络用以对输入的设备的当前运行状态参考值进行处理和特征提取,输出层用以输出设备在当前运行状态参考值下执行选定的动作所对应的q值,在图2中,将设备可选择的动作记为动作n,所述n为正整数;上述第一网络和第二网络参数包括第一网络和第二网络中的每一层网络的偏置和权重。(二)触发获取样本数据时,获取设备的当前运行状态参考值并输入到第一网络模型,确定第一网络模型输出的最大q值对应的动作为下一个动作,确定设备执行当前动作结束时,根据设备的运行环境确定上述设备的下一个运行状态及对应的下一个运行状态参考值,并根据预设方法获得上述设备执行上述当前动作获得的奖励,同时将上述当前运行状态参考值、下一个运行状态参考值、下一个动作、奖励作为一条样本数据存入样本数据集,并判断获取的样本数据量是否达到预设条数,若是,结束样本数据的获取,否则,将下一运行状态参考值作为当前运行状态参考值,重新触发获取样本数据;在上述方法中,通过如下方式获得上述设备执行上述当前动作获得的奖励:根据上述设备执行上述当前动作前后的设备运行环境的改变,以及上述设备执行上述当前动作对应的功耗,确定上述设备执行上述当前动作获得的奖励;且上述奖励包括奖励/惩罚,即对任一运行状态下执行任一动作反馈评价的好/坏;在本实施例中,上述设备为空调,上述设备运行环境包括设备运行的外部环境及上述设备指定部件的运行信息,上述动作包括的控制对象为冷流的调节阀,上述控制参数为上述冷流的调节阀的阀开度量,当上述空调控制调节阀按照指定阀开度量运行时,可以但不局限于根据如下方法确定对应的奖励:确定空调控制调节阀按照指定阀开度量运行前后,空调所在室内温度的变化值a1、室外温度的变化值a2、外风机的功耗值a3、压缩机的功耗值a4;计算上述a1、a2、a3和a4的加权平均值,将上述加权平均值作为上述对应的奖励。对上述将样本数据保存到样本数据集的形式不做过多限定,本领域的技术人员可根据实际情况设置,在本实施例中,将上述样本数据集的数据保存进一个预设的存储记忆表中,上述存储记忆表形式可以但不局限于为如下表1所示:表1:动作1动作2动作3…动作a运行状态参考值1q11q12q13…q1a运行状态参考值2q21q22q23…q2a………………运行状态参考值sqs1qs2qs3qsa上述表1中,s(s为正整数)为上述设备的当前运行状态参考值对应的序号,a(a为正整数)为上述设备执行的动作对应的序号,qsa(s和a均为正整数)为上述设备在运行状态s下执行动作a对应的q值,其中在保存qsa的空格中,保存有样本数据的下一个运行状态参考值、和奖励;上述运行状态参考值s对应每条样本数据中的当前运行状态参考值,上述动作a对应当前运行状态下,设备执行的下一个动作。对上述预设条数不做过多限定,本领域的技术人员可根据实际需求设置,在本实施例中,上述预设条数为2000,在利用上述存储记忆表保存样本数据时,可以在初始化上述存储记忆表时,将上述存储记忆表的存储样本数据的数量设置为2000条。(三)根据上述样本数据集,基于第一网络模型和第二网络模型生成节能调控模型。确定触发模型参数更新时,从上述样本数据集中选取第一预设数量的样本数据,将每条样本数据的当前运行状态参考值输入第一网络模型,将对应的下一个运行状态参考值输入第二网络模型;根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新上述第一网络模型的模型参数;确定第一网络模型的模型参数更新次数未达到第一预设次数时,重新触发模型参数更新,否则,将第二网络模型的模型参数更新为第一网络模型的模型参数,并判断第二网络的模型参数更新次数是否达到第二预设次数;确定第二网络模型的模型参数更新次数达到第二预设次数时,将上述第二网络模型作为上述节能调控模型,否则,重新触发获取样本数据。在上述方法中,根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新上述第一网络模型的模型参数时,计算每条样本数据对应的第一网络模型和第二网络模型输出的最大q值的差值,并确定上述第一预设数量的样本数据对应的最大q值的差值的均值;计算上述第一预设数量的样本数据对应的奖励的均值;根据上述差值的均值及上述奖励的均值及相应的评价函数,更新上述第一网络模型的模型参数。对上述第一预设次数和第二预设次数不做过多限定,本领域的技术人员可根据实际情况设置,在本实施例中,上述第一预设次数和第二预设次数均为50,集从存储记忆表中保存的2000条样本数据中,每次随机选取50条数据用来更新第一网络模型的模型参数,当第一网络模型的模型参数更新50次后,将第一网络模型的模型参数赋予第二网络模型的模型参数,当第二网络模型的模型参数更新50次后,将上述更新后的第二网络模型作为节能调控模型。上述方法中,在本实施例中,若重新触发获取样本数据时,上述存储记忆表存储的样本数据的数量达到预设的2000条时,在向存储记忆表中保存样本数据时,依次替换掉最远一次保存的样本数据。作为一种可选的实施方式,上述不同的动作由当前运行状态对应的控制参数范围确定,上述节能调控模型输出最大q值对应的动作后,若输出的动作的控制参数大于当前运行状态对应的控制参数范围的最大值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最大值,若输出的动作的控制参数小于当前运行状态对应的控制参数范围的最小值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最小值。如在本实施例中,上述设备为空调,上述动作包括的控制对象为冷流的调节阀,上述控制参数为上述冷流的调节阀的阀开度量,若将上述空调的当前运行状态参考值输入上述节能调控模型,得到输出最大q值对应的动作,确定上述动作对应的阀开度量大于当前运行状态对应的阀开度范围的最大值时,将当前运行状态对应的阀开度范围的最大值更新为上述动作对应的阀开度量;确定上述动作对应的阀开度量小于当前运行状态对应的阀开度范围的最小值时,将当前运行状态对应的阀开度范围的最小值更新为上述动作对应的阀开度量。上述方法中,在空调冷流的调节阀的控制学习中,在基于深度q学习策略学习的基础上,加入对不同运行状态对应的阀开度范围的约束,以防止算法求取的值过大而影响空调的控制,上述不同运行状态对应的阀开度范围可以但不局限于由专家经验获取。如图3所示,以下给出本发明提供的一个通过深度q学习网络构建节能调控模型的完整方法:步骤301,构建第一网络模型和第二网络模型,并初始化第一网络模型和第二网络模型的模型参数;步骤302,根据设备的当前运行状态参考值,利用第一网络模型获取样本数据保存到样本数据集;步骤303,判断获取的样本数据量是否达到预设条数,若达到,进入步骤304,否则进入步骤303;步骤304,从上述样本数据集中选取第一预设数量的样本数据,将每条样本数据的当前运行状态参考值输入第一网络模型,将对应的下一个运行状态参考值输入第二网络模型;步骤305,根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新上述第一网络模型的模型参数;步骤306,判断第一网络模型的模型参数更新次数是否达到第一预设次数,若达到,进入步骤307,否则进入步骤304;步骤307,将第二网络模型的模型参数更新为第一网络模型的模型参数;步骤308,判断第二网络模型的模型参数更新次数是否达到第二预设次数,若达到,进入步骤309,否则进入步骤302;步骤309,将上述第二网络模型作为上述节能调控模型输出。当上述设备节能控制的方法应用于空调时,上述设备为空调,上述设备运行环境包括设备运行的外部环境及上述设备指定部件的运行信息,上述动作包括的控制对象为冷流的调节阀,上述控制参数为上述冷流的调节阀的阀开度量则用本实施例提供的方法控制空调的整体原理如图4所示,其中,空调状态参数即为上述空调的运行状态参考值,反映上述设备的运行状态,评价函数即为上述用于更新第一网络模型的模型参数的评价函数;构建节能调控模型示意图如图5所示,其中,dqn误差函数即为上述用于更新第一网络模型的模型参数的评价函数;对空调冷流的调节阀进行节能控制流程如图6所示,首先通过调节阀规划将空调冷流的调节阀值大小离散为对应n个固定调节阀值大小的动作,如图2所示,n作为dqn模型的第一网络模型和第二网络模型的输出节点数,在调节阀规划后对dqn模型进行训练学习,对dqn模型输出的预测选取的动作进行动作大小范围约束,对超出空调当前运行状态下调节阀值范围的动作进行调整,对没有超出空调当前运行状态下调节阀值范围的动作不做调整,在调整后输出最终预测的动作估计值控制空调。需要说明的是,本发明实施例中所列举的一种空调节能控制的方法只是举例说明,任何一种可以进行设备节能控制的方式都适用于本发明实施例。实施例二:如图7所示,基于相同的发明构思,本发明实施例中还提供了一种节能控制的设备,该设备包括处理器701和存储器702,上述存储器存储可执行程序,上述处理器用于执行可执行程序时实现如下步骤:根据设备当前运行环境,确定设备当前运行状态的当前运行状态参考值;将上述当前运行状态参考值输入通过q深度学习构建的节能调控模型,上述节能调控模型用于根据当前运行状态参考值预测当前运行状态下,设备执行下一个不同的动作对应的q值,并输出最大q值对应的动作,上述动作包括控制对象和控制参数;确定上述节能调控模型输出的动作为下一个动作,并控制上述设备在执行完当前动作后,执行上述确定的下一个动作。上述处理器具体用于,构建第一网络模型和第二网络模型,并随机初始化第一网络模型和第二网络模型的模型参数;触发获取样本数据时,获取设备的当前运行状态参考值并输入到第一网络模型,确定第一网络模型输出的最大q值对应的动作为下一个动作,确定设备执行当前动作结束时,根据设备的运行环境确定上述设备的下一个运行状态及对应的下一个运行状态参考值,并根据预设方法获得上述设备执行上述当前动作获得的奖励,同时将上述当前运行状态参考值、下一个运行状态参考值、下一个动作、奖励作为一条样本数据存入样本数据集,并判断获取的样本数据量是否达到预设条数,若是,结束样本数据的获取,否则,将下一运行状态参考值作为当前运行状态参考值,重新触发获取样本数据;根据上述样本数据集,基于第一网络模型和第二网络模型生成节能调控模型。上述处理器具体用于,确定触发模型参数更新时,从上述样本数据集中选取第一预设数量的样本数据,将每条样本数据的当前运行状态参考值输入第一网络模型,将对应的下一个运行状态参考值输入第二网络模型;根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新上述第一网络模型的模型参数;确定第一网络模型的模型参数更新次数未达到第一预设次数时,重新触发模型参数更新,否则,将第二网络模型的模型参数更新为第一网络模型的模型参数,并判断第二网络的模型参数更新次数是否达到第二预设次数;确定第二网络模型的模型参数更新次数达到第二预设次数时,将上述第二网络模型作为上述节能调控模型,否则,重新触发获取样本数据。上述处理器具体用于,计算每条样本数据对应的第一网络模型和第二网络模型输出的最大q值的差值,并确定上述第一预设数量的样本数据对应的最大q值的差值的均值;计算上述第一预设数量的样本数据对应的奖励的均值;根据上述差值的均值及上述奖励的均值,更新上述第一网络模型的模型参数。上述处理器具体用于,根据上述设备执行上述当前动作前后的设备运行环境的改变,以及上述设备执行上述当前动作对应的功耗,确定上述设备执行上述当前动作获得的奖励。上述不同的动作由当前运行状态对应的控制参数范围确定,上述节能调控模型输出最大q值对应的动作后,上述处理器还用于,若输出的动作的控制参数大于当前运行状态对应的控制参数范围的最大值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最大值,若输出的动作的控制参数小于当前运行状态对应的控制参数范围的最小值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最小值。上述设备为空调时,上述设备运行环境包括设备运行的外部环境及上述设备指定部件的运行信息,上述当前运行状态参考值包括:环境温度、压缩机转速、外风机转速。上述设备为空调时,上述动作包括的控制对象为冷流的调节阀,上述控制参数为上述冷流的调节阀的阀开度量。如图8所示,基于相同的发明构思,本发明实施例中还提供了一种节能控制的装置,该装置包括:状态获取单元801,用于根据设备当前运行环境,确定设备当前运行状态的当前运行状态参考值;动作确定单元802,用于将上述当前运行状态参考值输入通过q深度学习构建的节能调控模型,上述节能调控模型用于根据当前运行状态参考值预测当前运行状态下,设备执行下一个不同的动作对应的q值,并输出最大q值对应的动作,上述动作包括控制对象和控制参数;动作执行单元803,用于确定上述节能调控模型输出的动作为下一个动作,并控制上述设备在执行完当前动作后,执行上述确定的下一个动作。上述动作确定单元802,用于构建第一网络模型和第二网络模型,并随机初始化第一网络模型和第二网络模型的模型参数;触发获取样本数据时,获取设备的当前运行状态参考值并输入到第一网络模型,确定第一网络模型输出的最大q值对应的动作为下一个动作,确定设备执行当前动作结束时,根据设备的运行环境确定上述设备的下一个运行状态及对应的下一个运行状态参考值,并根据预设方法获得上述设备执行上述当前动作获得的奖励,同时将上述当前运行状态参考值、下一个运行状态参考值、下一个动作、奖励作为一条样本数据存入样本数据集,并判断获取的样本数据量是否达到预设条数,若是,结束样本数据的获取,否则,将下一运行状态参考值作为当前运行状态参考值,重新触发获取样本数据;根据上述样本数据集,基于第一网络模型和第二网络模型生成节能调控模型。上述动作确定单元802,用于确定触发模型参数更新时,从上述样本数据集中选取第一预设数量的样本数据,将每条样本数据的当前运行状态参考值输入第一网络模型,将对应的下一个运行状态参考值输入第二网络模型;根据第一网络模型和第二网络模型输出的最大q值的差值以及样本数据集中的奖励,更新上述第一网络模型的模型参数;确定第一网络模型的模型参数更新次数未达到第一预设次数时,重新触发模型参数更新,否则,将第二网络模型的模型参数更新为第一网络模型的模型参数,并判断第二网络的模型参数更新次数是否达到第二预设次数;确定第二网络模型的模型参数更新次数达到第二预设次数时,将上述第二网络模型作为上述节能调控模型,否则,重新触发获取样本数据。上述动作确定单元802,用于计算每条样本数据对应的第一网络模型和第二网络模型输出的最大q值的差值,并确定上述第一预设数量的样本数据对应的最大q值的差值的均值;计算上述第一预设数量的样本数据对应的奖励的均值;根据上述差值的均值及上述奖励的均值,更新上述第一网络模型的模型参数。上述动作确定单元802,用于根据上述设备执行上述当前动作前后的设备运行环境的改变,以及上述设备执行上述当前动作对应的功耗,确定上述设备执行上述当前动作获得的奖励。上述不同的动作由当前运行状态对应的控制参数范围确定,上述节能调控模型输出最大q值对应的动作后,上述动作确定单元802,还用于若输出的动作的控制参数大于当前运行状态对应的控制参数范围的最大值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最大值,若输出的动作的控制参数小于当前运行状态对应的控制参数范围的最小值,将输出的动作的控制参数设置为当前运行状态对应的控制参数范围的最小值。上述设备为空调时,上述设备运行环境包括设备运行的外部环境及上述设备指定部件的运行信息,上述当前运行状态参考值包括:环境温度、压缩机转速、外风机转速。上述设备为空调时,上述动作包括的控制对象为冷流的调节阀,上述控制参数为上述冷流的调节阀的阀开度量。实施例三:本发明实施例还提供一种计算机可读非易失性存储介质,包括程序代码,当所述程序代码在计算终端上运行时,所述程序代码用于使所述计算终端执行上述本发明实施例一提供的方法的步骤。以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置,以产生机器,使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地,本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令执行系统、装置或设备使用。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1