一种路线规划方法、装置、设备及存储介质与流程

文档序号:26009800发布日期:2021-07-23 21:29阅读:146来源:国知局
一种路线规划方法、装置、设备及存储介质与流程

本发明实施例涉及通信技术领域,尤其涉及一种路线规划方法、装置、设备及存储介质。



背景技术:

变电站是指电力系统中对电压和电流进行变换,接受电能及分配电能的场所,其运行状态和电力系统的正常运行息息相关。因此变电站内部工作人员的安全操作以及快速高效的规避危险区域到达工作地点对电力系统的稳定、高效的运行具有非常重要的意义。变电站工作环境的特殊性,导致变电站内部的工作区域对不同类型的工作人员开放的权限是不同的,而且由于不同情况的发生会使限制区域发生改变,因此工作人员从出发点到目的工作地点有着非常多的限制。于是变电站工作人员如何在诸多的限制当中快速规划出最优到达目的工作地点的路线成为急需解决的问题。

目前国内常见的路线规划方法主要可以分为以下几种:(1)人工势场法(artificialpotentialfieldmethod),它的基本思想是将搜索环境设计成一种抽象的人造引力场,目标点对于搜索过程产生“引力”效果,障碍物对搜索过程产生“斥力”效果,最后通过求合力来控制搜索过程。人工势场法规划出来的路径往往较为平滑且安全性较高,但是缺点是该方法存在陷入局部最优解的问题。(2)栅格法(gird),即通过对地图的分割,将规模较大的地图分割为若干大小相等的正方形方格,并对每个方格进行编号标注,例如,包含障碍物的方格标注为1,不包含障碍物的方格(也叫自由栅格)标注为0。在此基础上结合搜索算法进行路径搜索。(3)蚁群算法(antcolonyalgorithm),简称aca,它由m.dorigo于1992年提出,设计灵感来源于对自然界中蚂蚁觅食行为的研究,每只蚂蚁在觅食过程中会在所经过的路径上留下信息素,信息素会随着时间挥发,并且信息素的浓度会影响蚂蚁的路径选择,蚂蚁会优先选择信息素浓度较大的路径去搜索食物,这种信息素机制会造成较短路径上由于单位时间内经过的蚂蚁数量较多而挥发的信息素量较少,起到正反馈的作用,从而搜索到最短路径。算法通过迭代的方式来模拟蚁群觅食的行为,蚁群算法有着较好的全局搜索能力,并且可以并行计算,能够较为容易的通过计算机语言实现,但是缺点在于计算量较大,并且容易陷入局部最优解。(4)粒子群算法(particleswarmoptimization,pso),同蚁群算法一样,粒子群算法也是一种迭代算法,它的设计灵感则来源于鸟群觅食行为,是一种基于群体协作的随机搜索算法。通过从解空间中的某一随机解出发,通过追随当前搜索到的较优解来逐步迭代逼近全局最优解。粒子群算法的优点在于算法简洁,容易通过计算机语言实现,具有较好的鲁棒性,且对种群的大小并不十分敏感,能够较快的收敛到解,但是缺点在于容易陷入局部最优解。

但上述主流方法有以下比较明显的缺陷:(1)在人工势场法中,当物体离目标点比较远时,引力将变的特别大,相对较小的斥力在甚至可以忽略的情况下,物体路径上可能会碰到障碍物;而当目标点附近有障碍物时,斥力将非常大,引力相对较小,物体很难到达目标点;在某个点,引力和斥力刚好大小相等,方向想反,则物体容易陷入局部最优解或震荡。(2)栅格法中,栅格大小的选取是影响规划算法性能的一个很重要的因素。栅格较小的话,由栅格地图所表示的环境信息将会非常清晰,但由于需要存储较多的信息,会增大存储开销,同时干扰信号也会随之增加,规划速度会相应降低,实时性得不到保证;反之,由于信息存储量少,抗干扰能力有所增强,规划速随之增快,但环境信息划分会变得较为模糊,不利于有效路径的规划。(3)蚁群算法收敛速度慢、易陷入局部最优。蚁群算法中初始信息素匮乏。蚁群算法一般需要较长的搜索时间,其复杂度可以反映这一点;而且该方法容易出现停滞现象,即搜索进行到一定程度后,所有个体发现的解完全一致,不能对解空间进一步进行搜索,不利于发现更好的解。(4)pso算法存在的问题主要的是它容易产生早熟收敛(尤其是在处理复杂的多峰搜索问题中)、局部寻优能力较差等。pso算法陷入局部最小,主要归咎于种群在搜索空间中多样性的丢失。



技术实现要素:

本发明实施例提供一种路径规划方法、装置、设备及存储介质,以实现能够提供一种快速、准确、操作简单、成本低的基于深度强化学习的变电站工作人员实时路线规划方法。

第一方面,本发明实施例提供了一种路线规划方法,包括:

获取变电站工作人员的环境信息和变电站的空间信息;

根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;

将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本。

第二方面,本发明实施例还提供了一种路线规划装置,该装置包括:

获取模块,用于获取变电站工作人员的环境信息和变电站的空间信息;

第一确定模块,用于根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;

第二确定模块,用于将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本。

第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的路线规划方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的路线规划方法。

本发明实施例通过获取变电站工作人员的环境信息和变电站的空间信息;根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本,以实现能够提供一种快速、准确、操作简单、成本低的基于深度强化学习的变电站工作人员实时路线规划方法。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种路线规划方法的流程图;

图1a是本发明实施例一中的场景解析网络图示;

图2是本发明实施例二中的一种路线规划装置的结构示意图;

图3是本发明实施例三中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

实施例一

图1为本发明实施例一提供的一种路线规划方法的流程图,本实施例可适用于路线规划的情况,该方法可以由本发明实施例中的路线规划装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:

s110,获取变电站工作人员的环境信息和变电站的空间信息。

s120,根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态。

s130,将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本。

可选的,通过所述训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型包括:

将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一预测结果;

将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二预测结果;

根据所述第一预测结果和第一状态样本对应的第一动作形成的第一目标函数训练所述第一待训练深度循环神经网络模型的参数,根据所述第二预测结果和第二状态样本对应的第二动作形成的第二目标函数训练所述第二待训练深度循环神经网络模型的参数;

返回执行将将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一预测结果,将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二预测结果的操作,直至得到目标深度循环神经网络模型。

可选的,通过所述训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型包括:

将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一动作的预测值;

将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二动作的预测值;

根据所述第一动作的预测值、所述第二动作的预测值、第一动作的回报值和第二动作的回报值构建的损失函数训练所述第一待训练深度循环神经网络模型的参数和第二待训练深度循环神经网络模型的参数;

返回执行将将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一预测结果,将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二预测结果的操作,直至得到目标深度循环神经网络模型。

可选的,还包括:

获取工作人员的第一状态;

根据所述第一状态从动作集中选取任一动作确定为第一动作;

若根据所述第一动作确定工作人员执行第一动作后遇到障碍物和/或不能通行标记,则生成惩罚值,并将所述惩罚值确定为所述第一动作的回报值;

若根据所述第一动作确定工作人员执行第一动作后接近目的地或者达到目的地,则生成奖励值,并将所述奖励值确定为所述第一动作的回报值;

采集工作人员执行第一动作后的环境信息;

根据所述环境信息确定执行第一动作后的下一个状态,确定为第二状态;

根据所述第二状态从动作集中选取任一动作确定为第二动作;

若根据所述第二动作确定工作人员执行第二动作后遇到障碍物或者不能通行标记,则生成惩罚值,并将所述惩罚值确定为所述第二动作的回报值;

若根据所述第二动作确定工作人员执行第二动作后接近目的地或者达到目的地,则生成奖励值,并将所述奖励值确定为所述第二动作的回报值;

根据所述第一状态、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值生成训练样本集。

可选的,所述变电站的空间信息包括:变电站工作人员对应的限制区域和工作区域。

在一个具体的例子中,获取变电站精准的空间信息,其中,空间信息包括:工作人员对应的限制区域以及目的工作地点等信息;工作人员采集周围环境的图像信息;根据采集的图像信息和空间信息确定工作人员的目标状态;将目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,工作人员通过获得的行走方向信息,最终到达目的工作地点。

采集待规划工作人员与环境进行交互的历史经验,并存储在经验回放存储器中,所述历史经验为(s,a,r,s’,a’,r’),s为第一状态,a为第一动作,r为第一动作a的回报值,s’为执行第一动作a后的下一个状态,也就是第二状态,a’为第二动作,r’为第二动作a’的回报值;所述历史经验的获取过程为:工作人员根据第一状态s,从可行的动作集中任意选择一个第一动作a,工作人员通过系统对第一动作a进行评估,如果工作人员执行第一动作a后遇到障碍物或不能通行的标记,则给予惩罚值,如果工作人员执行第一动作a后更加接近目的地或到达目的地时,则给予奖励值;工作人员采集执行第一动作a后的环境图像,并输入到场景解析网络后,得到状态s’;经验回放储存器中随机采样信息(s,a,r,s’,a’,r’),持续采集待规划工作人员与环境进行交互的历史经验,并存储到经验回放存储器中,得到训练样本集d。

将第一状态s代入第一待训练深度循环神经网络模型中进行前馈操作得到第一动作a对应的预测q值;将第二状态s’代入第二待训练深度循环神经网络模型中进行前馈操作计算第二动作a’对应的预测q’值,w-为待训练深度循环神经网络模型的权重;γ为折扣因子;构建损失函数为:

l(w)=es,a,r,s′,a′,r′~d[(r+γq'-q)2];

其中,e表示数学期望,d为训练样本集。

应用随机梯度下降方法进行第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型权重的迭代更新,其中,第一待训练深度循环神经网络模型的权重实时更新,而第二待训练深度循环神经网络模型中的权重每隔设定时间步进行更新;当达到迭代步数后,得到训练完成的目标深度循环神经网络模型;

获得n个不同网络架构的深度循环神经网络模型,对于第i个模型,采用以下公式计算第i个模型的权重系数θi:

其中,qij表示第i个模型在样本集d上训练时得到的平均回报;将n个深度循环神经网络模型融合,对于第一状态s的融合决策第一动作a为:

在一个具体的例子中,如图1a所示,一种为基于深度强化学习的变电站工作人员实时路线规划方法包括以下步骤:获取变电站精准的空间信息,其中,空间信息包括:工作人员对应的限制区域以及目的工作地点等信息,为后续工作人员进行路线规划提供必要的信息。工作人员通过相机采集周围环境的信息。将采集的图像信息输入到场景解析网络当中,得到对应的解析结果图。场景解析网络包括卷积神经网络特征学习层,条件随机场结构化学习层,基于深度置信网络的特征融合层。其中,特征学习层是卷积神经网络对相机采集的图像进行特征学习,产生图像每个像素上对应的高层信息特征。该网络通过每一层的卷积操作和池化操作学习不同尺度的视觉表达,这说明该网络可以捕获到丰富的形状和纹理高层信息,这里将这些高层信息称作为深度高层特征(deephierarchicalfeatures,dhh);结构学习层是为了提高深度学习对结构化信息的学习能力,我们将crf嵌入到网络里将其作为网络的一层去显示的学习物体在图像中的空间位置关系。用dhf作为输入训练该crf图模型,参数训练完毕后,根据参数给出每个像素的最优化标签。然后结合产生的像素标签对局部区域编码产生基于空间关系的推理特征(spatiallyfeatures,sif);特征融合层是用深度置信网络将dhf和sif融合,有效的探索彼此之间的非线性关系从而生成更具有表达能力的高层特征。

应用随机梯度下降方法进行第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型权重的迭代更新;当达到迭代步数后,得到训练完成的目标深度循环神经网络模型。

网络参数训练完毕后,智能系统完成优化过程,目标深度循环神经网络模型训练完成后,根据工作人员采集到的图像信息和变电站的空间信息确定变电站工作人员的目标状态,将目标状态输入目标深度循环神经网络模型中,得到行走方向信息。工作人员通过获得的行走方向信息,最终到达目的工作地点。

本实施例的技术方案,通过获取变电站工作人员的环境信息和变电站的空间信息;根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本,以实现能够提供一种快速、准确、操作简单、成本低的基于深度强化学习的变电站工作人员实时路线规划方法。

实施例二

图2为本发明实施例二提供的一种路线规划装置的结构示意图。本实施例可适用于路线规划的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供路线规划功能的设备中,如图2所示,所述路线规划装置具体包括:获取模块210、第一确定模块220和第二确定模块230。

其中,获取模块,用于获取变电站工作人员的环境信息和变电站的空间信息;

第一确定模块,用于根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;

第二确定模块,用于将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本。

可选的,所述第二确定模块具体用于:

将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一预测结果;

将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二预测结果;

根据所述第一预测结果和第一状态样本对应的第一动作形成的第一目标函数训练所述第一待训练深度循环神经网络模型的参数,根据所述第二预测结果和第二状态样本对应的第二动作形成的第二目标函数训练所述第二待训练深度循环神经网络模型的参数;

返回执行将将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一预测结果,将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二预测结果的操作,直至得到目标深度循环神经网络模型。

可选的,所述第二确定模块具体用于:

将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一动作的预测值;

将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二动作的预测值;

根据所述第一动作的预测值、所述第二动作的预测值、第一动作的回报值和第二动作的回报值构建的损失函数训练所述第一待训练深度循环神经网络模型的参数和第二待训练深度循环神经网络模型的参数;

返回执行将将所述第一状态样本输入第一待训练深度循环神经网络模型,得到第一预测结果,将所述第二状态样本输入第二待训练深度循环神经网络模型,得到第二预测结果的操作,直至得到目标深度循环神经网络模型。

上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。

本实施例的技术方案,通过获取变电站工作人员的环境信息和变电站的空间信息;根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本,以实现能够提供一种快速、准确、操作简单、成本低的基于深度强化学习的变电站工作人员实时路线规划方法。

实施例三

图3为本发明实施例三中的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture,isa)总线,微通道体系结构(microchannelarchitecture,mca)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation,vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect,pci)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory,ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(只读光盘(compactdisc-readonlymemory,cd-rom)、数字视盘(digitalvideodisc-readonlymemory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(localareanetwork,lan),广域网wideareanetwork,wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(redundantarraysofindependentdisks,raid)系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的路线规划方法:

获取变电站工作人员的环境信息和变电站的空间信息;

根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;

将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本。

实施例四

本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的路线规划方法:

获取变电站工作人员的环境信息和变电站的空间信息;

根据所述变电站工作人员的环境信息和所述变电站的空间信息确定变电站工作人员的目标状态;

将所述目标状态输入到目标深度循环神经网络模型,得到变电站工作人员的行走方向信息,其中,所述目标深度循环神经网络模型通过训练样本集迭代训练第一待训练深度循环神经网络模型和第二待训练深度循环神经网络模型得到,所述训练样本集包括:第一状态样本、第一状态样本对应的第一动作、所述第一动作的回报值、第二状态样本、第二状态样本对应的第二动作和所述第二动作的回报值,其中,所述第二状态样本为执行所述第一动作后的下一个状态样本。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如http(hypertexttransferprotocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,adhoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1