基于Q学习的路桥隧养护自主决策方法与流程

文档序号:25218344发布日期:2021-05-28 14:17阅读:142来源:国知局
基于Q学习的路桥隧养护自主决策方法与流程

本发明涉及路桥隧养护技术领域,特别涉及基于q学习的路桥隧养护自主决策方法。



背景技术:

健康的路桥隧状态是保障物资流通高效、群众出行通畅的前提。因此,科学地制定路桥隧养护决策以保证路桥隧处于健康状态具有重要意义。

然而,作为路桥隧主管及运营单位,其关心的问题是如何平衡路桥隧状态和养护费用二者的关系,即希望花费较少的养护费用同时能维持路桥隧健康的状态。

现有路桥隧养护决策方法多基于各种类型的健康状态指标,而很少能综合考虑所需的费用。实践中,为了统筹考虑路桥隧健康状态和养护费用,最终决策可能需要依赖专家的主观经验和判断。

因此,在路桥隧养护决策问题中,如何节约养护成本和摆脱主观判断制约,实现路桥隧养护的自主决策成为本领域技术人员急需解决的技术问题。



技术实现要素:

有鉴于现有技术的上述缺陷,本发明提供基于q学习的路桥隧养护自主决策方法,实现的目的是维持路桥隧处于健康的状态且花费最少的养护费用为目标,制定适宜的路桥隧养护自主决策方案,获取最大化的经济社会效益。

为实现上述目的,本发明公开了基于q学习的路桥隧养护自主决策方法;步骤如下:

步骤1、建立路桥隧健康状态评价的指标体系;

步骤2、按照指标体系,对路桥隧的健康状态进行评价,记t时刻的指标向量为xt;其中,对于连续的所述指标向量进行离散化;

步骤3、采集路桥隧健康状态数据{x.},并记录相应时刻的养护决策及因养护决策产生的费用y.,形成路桥隧的健康状态与养护费用的历史数据集;其中,若t时刻决策不进行养护,则在所述健康状态与养护费用的历史数据集中,所述t时刻的历史养护费用yt=0;

步骤4、判断是否已有q学习模型,没有则进入步骤5;有则进一步判断是否对所述q学习模型进行周期性更新;若需要更新所述q学习模型,则进入步骤5,否则进入步骤6;

步骤5、基于路桥隧的所述健康状态与养护费用的历史数据集,重新训练所述q学习模型;

步骤6、利用所述q学习模型,根据健康状态指标xt,获得养护决策at;

步骤7、执行所述养护决策at,进入步骤2,根据状态转移重新获得路桥隧健康状态评价xt+1。

优选的,所述步骤5包括以下步骤:

步骤5.1、建立路桥隧健康状态指标和养护决策的q表;

步骤5.2、随机选择路桥隧健康状态x0开始新一回合训练;

步骤5.3、对于任一所述健康状态xi,i=0、1、2...t,t是指定的决策周期上限,使用ε-greedy策略制定决策动作ai,i=0、1、2...t,t是指定的决策周期上限;

步骤5.4、根据所述决策动作ai的执行获得新的健康状态xi+1和产生的养护费用yi;为使在指定决策周期内花费的养护费用最低,记此次决策的奖励为r(xi,ai)=-yi;

步骤5.5、更新q值,具体如下:

q(xi,ai)←(1-a)q(xi,ai)+a(r(xi,ai)+γmax{q(xi+1,ai)});

其中,a为学习率,且a∈[0,1];

γ为奖励折扣因子,且γ=[0,1];

步骤5.6、当此回合训练数未超过决策周期上限,即i≤t时,则状态转移,即xi←xi+1,返回步骤5.3;否,则返回步骤5.2,开始新的一回合训练,直至所述q表收敛,则结束训练。

更优选的,在所述步骤5.3中,所述决策动作ai包括不进行养护、日常养护、小修、中修、大修和改扩建。

本发明的有益效果:

本发明综合考虑了路桥隧健康状态指标和养护费用,实现在养护费用最少的目标下进行路桥隧养护决策。

本发明通过建立有效的q学习模型,摆脱人工经验依赖,可以进行路桥隧养护的自主决策。

本发明设立q学习模型周期性更新机制,通过持续的数据采集和赋能,使其决策更加科学合理。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1示出本发明一实施例的流程图。

图2示出本发明一实施例中q学习模型训练中的变量关系示意图。

具体实施方式

实施例

如图1所示,基于q学习的路桥隧养护自主决策方法;步骤如下:

步骤1、建立路桥隧健康状态评价的指标体系;

步骤2、按照指标体系,对路桥隧的健康状态进行评价,记t时刻的指标向量为xt;其中,对于连续的指标向量进行离散化;

步骤3、采集路桥隧健康状态数据{x.},并记录相应时刻的养护决策及因养护决策产生的费用y.,形成路桥隧的健康状态与养护费用的历史数据集;其中,若t时刻决策不进行养护,则在健康状态与养护费用的历史数据集中,t时刻的历史养护费用yt=0;

步骤4、判断是否已有q学习模型,没有则进入步骤5;有则进一步判断是否对q学习模型进行周期性更新;若需要更新q学习模型,则进入步骤5,否则进入步骤6;

步骤5、基于路桥隧的健康状态与养护费用的历史数据集,重新训练q学习模型;

步骤6、利用q学习模型,根据健康状态指标xt,获得养护决策at;

步骤7、执行养护决策at,进入步骤2,根据状态转移重新获得路桥隧健康状态评价xt+1。

本发明综合考虑了路桥隧健康状态指标和养护费用,设立q学习模型周期性更新机制,通过持续的数据采集和赋能,使其决策更加科学合理,实现在养护费用最少的目标下进行路桥隧养护决策。

如图2所示,在某些实施例中,步骤5包括以下步骤:

步骤5.1、建立路桥隧健康状态指标和养护决策的q表;

步骤5.2、随机选择路桥隧健康状态x0开始新一回合训练;

步骤5.3、对于任一健康状态xi,i=0、1、2...t,t是指定的决策周期上限,使用ε-greedy策略制定决策动作ai,i=0、1、2...t,t是指定的决策周期上限;

步骤5.4、根据决策动作ai的执行获得新的健康状态xi+1和产生的养护费用yi;为使在指定决策周期内花费的养护费用最低,记此次决策的奖励为r(xi,ai)=-yi;

步骤5.5、更新q值,具体如下:

q(xi,ai)←(1-a)q(xi,ai)+a(r(xi,ai)+γmax{q(xi+1,ai)});

其中,a为学习率,且a∈[0,1];

γ为奖励折扣因子,且γ=[0,1];

步骤5.6、当此回合训练数未超过决策周期上限,即i≤t时,则状态转移,即xi←xi+1,返回步骤5.3;否,则返回步骤5.2,开始新的一回合训练,直至q表收敛,则结束训练。

在某些实施例中,在步骤5.3中,决策动作ai包括不进行养护、日常养护、小修、中修、大修和改扩建。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1