一种强化学习型液压机械臂集成控制方法及装置

文档序号:33474161发布日期:2023-03-15 09:35阅读:80来源:国知局
一种强化学习型液压机械臂集成控制方法及装置

1.本发明涉及工业机械臂控制技术领域,特别是指一种强化学习型液压机械臂集成控制方法及装置。


背景技术:

2.目前,地下矿产开采存在人员劳动强度大、装备协作能力弱、开采效率低等问题,迫切需要提高矿山智能化作业水平。进行深部开采作业时,矿井中高温高湿的恶劣环境对人员安全舒适、长期高效开展工作带来了极大的挑战,而采矿作业中发生的事故也造成了严重的人员伤亡与大量的经济损失,因此对矿山生产无人、少人化以及矿山装备的智能化提出了更高的要求。矿山智能化包括了矿山生产过程的监测与设备、人员智能调度,以及矿山装备的智能作业。作为采矿生产的关键设备,液压机械臂的作业控制也在向着智能化、无人化的方向发展。其中液压机械臂智能作业的实现包括了自动定位控制和智能避障两个功能模块。
3.目前常用的液压机械臂控制方式是一种分层式的控制架构,其控制过程为:上位为动作决策层,根据目标作业位姿,基于逆运动学求解各个关节的期望位置,并一次性发送给到下位控制器;下位为跟踪控制层,基于机械臂与油缸的动力学模型,控制各关节依次到达最终位置,最终实现机械臂的控制目标。这种一次性求解所有关节变量、控制所有关节一步到位的控制方式相对简单直接,但是多自由度机械臂存在逆运动学求解困难、部分求解方法存在误差的问题,而关节大幅动作的过程中可能发生干涉与碰撞,并且各关节依次执行动作的方式也会降低设备运行效率。
4.随着近些年人工智能技术的发展,借由现有的机器学习算法,已经在舵机机械臂、足式机器人等多种控制场景中实现了多关节协调运动控制的目标。但对于矿山作业场景而言,作业设备的自重与负载均较大,因此通常使用液压油缸作为机械臂的关节动力源。相较于线性输出、控制简单的舵机机械臂,需要针对液压机械臂的结构特点与运行方式建立专用的控制方式与控制系统。


技术实现要素:

5.本发明针对对于矿山作业场景而言,作业设备的自重与负载均较大,因此通常使用液压油缸作为机械臂的关节动力源。相较于线性输出、控制简单的舵机机械臂,需要针对液压机械臂的结构特点与运行方式建立专用的控制方式与控制系统的问题,提出了本发明。
6.为解决上述技术问题,本发明提供如下技术方案:
7.一方面,本发明提供了一种强化学习型液压机械臂集成控制方法,该方法由电子设备实现,该方法包括:
8.s1、获取待控制的液压机械臂的当前位姿与目标位姿。
9.s2、根据当前位姿与目标位姿,计算得到位姿差距。
10.s3、将位姿差距输入到构建好的基于强化学习的控制策略模型。
11.s4、根据位姿差距以及基于强化学习的控制策略模型,完成液压机械臂的控制任务。
12.可选地,s1中的获取待控制的液压机械臂的当前位姿,包括:
13.s11、获取液压机械臂各个关节油缸的当前状态。
14.s12、根据各个关节油缸的当前状态,得到机械臂结构的几何关系。
15.s13、通过油缸位移传感器采集关节油缸的位移信号,根据几何关系以及位移信号,得到液压机械臂各个关节的当前状态。
16.s14、根据各个关节的当前状态以及d-h正运动学方法,得到待控制的液压机械臂的当前位姿。
17.可选地,s3中的基于强化学习的控制策略模型的构建过程包括:
18.s31、将液压机械臂各个关节油缸的伸长量作为智能体动作。
19.s32、将液压机械臂的当前位姿作为环境状态。
20.s33、基于智能体动作以及环境状态,设计液压机械臂的动作约束,设计液压机械臂的状态约束。
21.可选地,设计液压机械臂的动作约束,包括:
22.设计收敛奖励,用于保证控制策略的迭代收敛速度。
23.设计收敛奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿到达目标位姿、或接近目标位姿、或远离目标位姿,设计相对应的稀疏收敛奖励。
24.设计步长奖励,用于保证液压机械臂动作连续以及平顺。
25.设计步长奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿逼近目标位姿的步长大小,设计相对应的步长奖励。
26.可选地,设计液压机械臂的状态约束,包括:
27.设计代价函数。
28.基于代价函数,对选定的液压机械臂结构建立包络盒模型。
29.可选地,s4中的根据位姿差距以及基于强化学习的控制策略模型,完成液压机械臂的控制任务,包括:
30.s41、根据位姿差距以及基于强化学习的控制策略模型,得到液压机械臂各个关节油缸的动作信号。
31.s42、根据动作信号控制液压机械臂的各个关节运动,得到新的当前位姿。
32.s43、判断新的当前位姿是否达到目标位姿,若是,则完成液压机械臂的控制任务;若否,则根据新的当前位姿以及目标位姿,得到位姿差距,转去执行s41。
33.可选地,s42中的根据动作信号控制液压机械臂的各个关节运动,包括:
34.根据动作信号控制液压机械臂的各个关节同时且连续运动。
35.另一方面,本发明提供了一种强化学习型液压机械臂集成控制装置,该装置应用于实现强化学习型液压机械臂集成控制方法,该装置包括:
36.获取模块,用于获取待控制的液压机械臂的当前位姿与目标位姿。
37.计算模块,用于根据当前位姿与目标位姿,计算得到位姿差距。
38.输入模块,用于将位姿差距输入到构建好的基于强化学习的控制策略模型。
39.输出模块,用于根据位姿差距以及基于强化学习的控制策略模型,完成液压机械臂的控制任务。
40.可选地,获取模块,进一步用于:
41.s11、获取液压机械臂各个关节油缸的当前状态。
42.s12、根据各个关节油缸的当前状态,得到机械臂结构的几何关系。
43.s13、通过油缸位移传感器采集关节油缸的位移信号,根据几何关系以及位移信号,得到液压机械臂各个关节的当前状态。
44.s14、根据各个关节的当前状态以及d-h正运动学方法,得到待控制的液压机械臂的当前位姿。
45.可选地,输入模块,进一步用于:
46.s31、将液压机械臂各个关节油缸的伸长量作为智能体动作。
47.s32、将液压机械臂的当前位姿作为环境状态。
48.s33、基于智能体动作以及环境状态,设计液压机械臂的动作约束,设计液压机械臂的状态约束。
49.可选地,输入模块,进一步用于:
50.设计收敛奖励,用于保证控制策略的迭代收敛速度。
51.设计收敛奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿到达目标位姿、或接近目标位姿、或远离目标位姿,设计相对应的稀疏收敛奖励。
52.设计步长奖励,用于保证液压机械臂动作连续以及平顺。
53.设计步长奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿逼近目标位姿的步长大小,设计相对应的步长奖励。
54.可选地,输入模块,进一步用于:
55.设计代价函数。
56.基于代价函数,对选定的液压机械臂结构建立包络盒模型。
57.可选地,输出模块,进一步用于:
58.s41、根据位姿差距以及基于强化学习的控制策略模型,得到液压机械臂各个关节油缸的动作信号。
59.s42、根据动作信号控制液压机械臂的各个关节运动,得到新的当前位姿。
60.s43、判断新的当前位姿是否达到目标位姿,若是,则完成液压机械臂的控制任务;若否,则根据新的当前位姿以及目标位姿,得到位姿差距,转去执行s41。
61.可选地,输出模块,进一步用于:
62.根据动作信号控制液压机械臂的各个关节同时且连续运动。
63.一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述强化学习型液压机械臂集成控制方法。
64.一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述强化学习型液压机械臂集成控制方法。
65.本发明实施例提供的技术方案带来的有益效果至少包括:
66.上述方案中,第一方面提供一种强化学习型液压机械臂集成式控制策略。该方法
可以通过改良分层控制中各个关节依次、一次性到达预期关节变量,最终控制机械臂末端到达目标位姿的方式,一定程度上提升了液压机械臂的运行速度,进而提高了无人矿山以及其他生产场景中液压机械臂的作业效率。
67.本发明为了达到第一方面中提到的目标,提出了一种区别于现有的分层式控制的架构,集成式控制不再区分上下位。通过在作业过程中判断机械臂末端当前位姿与目标位姿的差距,由策略网络选择最优的动作,不断调整机械臂状态使其逐渐接近目标位姿。采用多关节同时、步进动作的控制形式,在有效提升机械臂运行效率的基础上,也使得机械臂的运动轨迹更加平滑顺畅。
68.本发明第二方面提供了一种液压机械臂的控制策略网络自学习方法,基于强化学习算法自学习得到。强化学习是一种通过与环境不断交互、试错,利用交互数据实现策略学习的机器学习算法。在学习过程中,策略网络对当前动作进行评估,并在之后的决策中选择回报更高的行为,最终优化控制策略。
69.为了解决本发明第二方面中控制策略的自学习过程,针对机械臂以液压油缸作为驱动的特点,构建了液压机械臂的强化学习框架。基于强化学习的基本元素规定动作与状态,通过不断与环境交互试探,根据环境反馈的奖励不断优化机械臂的控制策略。
70.本发明第三方面提供了液压机械臂的动作约束与状态约束。动作约束通过设计合理的奖励函数实现,在保证机械臂控制策略自学习的收敛速度的前提下,保证了液压机械臂的作业轨迹的平顺,提升机械臂的作业效率。状态约束通过设计合理的代价函数实现,为关键机构建立防碰撞、防干涉检测机制,在策略网络的训练过程中避免危险行为的出现,有效提升了液压机械臂的作业安全性能。
附图说明
71.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
72.图1是本发明实施例提供的强化学习型液压机械臂集成控制方法流程示意图;
73.图2是本发明实施例提供的液压机械臂集成式控制的总体框架和流程框图;
74.图3是本发明实施例提供的机械臂强化学习型控制策略自学习结构示意图;
75.图4是本发明实施例提供的液压机械臂关节运动形式与关节结构示意图;
76.图5是本发明实施例提供的液压机械臂动作约束与状态约束示意图;
77.图6是本发明实施例提供的强化学习型液压机械臂集成控制装置框图;
78.图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
79.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
80.如图1所示,本发明实施例提供了一种强化学习型液压机械臂集成控制方法,该方法可以由电子设备实现。如图1所示的强化学习型液压机械臂集成控制方法流程图,该方法
的处理流程可以包括如下的步骤:
81.s1、获取待控制的液压机械臂的当前位姿与目标位姿。
82.可选地,上述步骤s1可以包括如下步骤s11-s14:
83.s11、获取液压机械臂各个关节油缸的当前状态。
84.s12、根据各个关节油缸的当前状态,得到机械臂结构的几何关系。
85.s13、通过油缸位移传感器采集关节油缸的位移信号,根据几何关系以及位移信号,得到液压机械臂各个关节的当前状态。
86.s14、根据各个关节的当前状态以及d-h正运动学方法,得到待控制的液压机械臂的当前位姿。
87.一种可行的实施方式中,如图2所示,由于直接控制对象为机械臂关节油缸,在机械臂当前状态的估计过程中,首先需要根据机械臂结构的几何关系与油缸位移传感器采集信号得到各个关节状态。随后为了进一步得到机械臂末端的当前位姿,需要为机械臂建立坐标系系统,并依据d-h方法完成从基坐标系到机械臂末端坐标系的转换,如下式(1)所示:
88.(1)
89.(2)
90.其中,、、、为机械臂的基本尺寸参数,为机械臂末端的坐标,、以及分别反映了机械臂末端坐标系坐标轴与基坐标系坐标轴之间两两夹角值。
91.进一步地,为了便于求解当前姿态与目标姿态之间的差距,需要将坐标轴夹角转换为欧式坐标系下的角度,其具体表达式如下式(3)所示:
92.(3)
93.s2、根据当前位姿与目标位姿,计算得到位姿差距。
94.s3、将位姿差距输入到构建好的基于强化学习的控制策略模型。
95.可选地,上述步骤s3可以包括如下步骤s31-s33:
96.s31、将液压机械臂各个关节油缸的伸长量作为智能体动作。
97.s32、将液压机械臂的当前位姿作为环境状态。
98.一种可行的实施方式中,针对液压机械臂的直接作动机构为液压缸的特点,构建机械臂控制的强化学习框架,定义液压缸伸长量为动作、机械臂末端位姿为状态。
99.如图3所示,为液压机械臂的强化学习框架,机械臂控制中策略网络的获取主要是基于探索试探机制得到。
100.如图4所示,液压机械臂的关节运动由关节油缸的动作实现。大臂、小臂的俯仰与横摆通过俯仰/横摆油缸组实现,每组包含两个油缸,油缸同时伸长、缩短完成俯仰动作,一个伸长另一个缩短完成横摆动作。大臂、小臂的伸缩动作则直接通过推进油缸完成。
101.具体地,强化学习的核心要素包括环境状态、智能体动作和奖励,针对液压机械臂的强化学习过程,做出以下规定:智能体动作定义为机械臂各个油缸的伸长量,环境状态定义为机械臂末端当前位姿,即:
102.(4)
103.(5)
104.本发明实施例中描述的强化学习策略以神经网络为载体,基于在线或离线数据完成策略的迭代优化。在一些实施例中,自学习所得到的策略近似目标最优控制策略,可以将该控制策略用于在线应用,以实现液压机械臂自主定位、作业等具体的控制任务。
105.s33、基于智能体动作以及环境状态,设计液压机械臂的动作约束,设计液压机械臂的状态约束。
106.可选地,设计液压机械臂的动作约束,包括:
107.设计收敛奖励,用于保证控制策略的迭代收敛速度。
108.设计收敛奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿到达目标位姿、或接近目标位姿、或远离目标位姿,设计相对应的稀疏收敛奖励。
109.设计步长奖励,用于保证液压机械臂动作连续以及平顺。
110.设计步长奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿逼近目标位姿的步长大小,设计相对应的步长奖励。
111.可选地,设计液压机械臂的状态约束,包括:
112.设计代价函数。
113.基于代价函数,对选定的液压机械臂结构建立包络盒模型。
114.一种可行的实施方式中,对机械臂关键部位建立包络盒,进入碰撞检测区域时做出躲避动作,并以作为累计代价避免再次发生危险动作,实现机械臂的避障、防干涉功能。
115.如图5所示,为本公开实施例提供的一种液压机械臂的动作约束与状态约束的示意框图。强化学习型机械臂控制方法中,策略倾向于选择累计奖励更高、累计代价更小的动作序列,需要针对动作与状态的特点设计奖励函数与代价函数。
116.进一步地,为了保证更快的收敛和更优的动作路径,需要在机械臂控策略自学习的过程中对动作做出约束,因此设计奖励函数:其一,若当前动作使得机械臂末端更加接近目标位姿,即可得到正向反馈,收敛奖励模块保证了控制策略的收敛;其二,若当前油缸动作使得机械臂末端以较小的步长逼近目标,即可得到更大的回报,步长奖励模块保证了机械臂动作的连续、平滑。
117.另外为了保证液压机械臂的安全作业过程,需要对机械臂策略制定状态约束,在控制过程中实现机械臂避障防撞、避免自身结构干涉的功能,具体实现过程如图5所示,建立实现防撞、防干涉的代价函数,如下式(6)所示:
118.(6)
119.其中,表示代价函数中碰撞代价的增益系数;表示控制过程中触发避障检测的次数。
120.进一步地,为易发生干涉碰撞的机械臂结构建立包络盒模型,在运行过程中重点检测关键结构的位置关系,若障碍物或自身结构进入到避障检测区域,策略网络会根据距离关系采取不同程度的避障动作,并累计代价以避免机械臂策略再次选择危险动作。
121.具体地,检测区:发现障碍,采取避障动作;避让区:安全缓冲区,大幅避障动作;障碍区:危险区域,终止任务。避障检测函数如下式(7)所示:
122.(7)
123.其中,、表示避障检测函数的稀疏调整系数;表示检测区域半径;表示避让区域半径;表示障碍区域半径。
124.s4、根据位姿差距以及基于强化学习的控制策略模型,完成液压机械臂的控制任务。
125.可选地,上述步骤s4可以包括如下步骤s41-s43:
126.s41、根据位姿差距以及基于强化学习的控制策略模型,得到液压机械臂各个关节油缸的动作信号。
127.s42、根据动作信号控制液压机械臂的各个关节同时且连续运动,得到新的当前位姿。
128.s43、判断新的当前位姿是否达到目标位姿,若是,则完成液压机械臂的控制任务;若否,则根据新的当前位姿以及目标位姿,得到位姿差距,转去执行s41。
129.一种可行的实施方式中,在实际作业场景中,以给定的末端位姿作为机械臂的具体控制目标。在控制液压机械臂的过程中,不断求解当前状态与目标状态之间的位姿差距,策略网络基于此做出决策,向各个油缸发送动作信号,进而控制机械臂各关节同时运动。不断更新油缸与关节状态,直至调整到达目标位姿,完成控制任务。按照上述循环控制过程,实现了液压机械臂向目标位姿的逐步逼近与连续动作。
130.对于本发明的具体的实施过程,基于在线与离线数据进行液压机械臂控制策略自学习,通过高性能计算设备完成策略迭代与优化,并存储于计算机可读存储介质。此步骤可依托不同机械臂设备、不同作业场景积累的数据提前完成。在作业控制过程中,机械臂控制器运行存储器中的策略网络,读取并执行动作信号,完成液压机械臂的自主定位控制。此步骤依托机载控制器处理器完成,对性能无较高要求,且具有较好的控制实时性。
131.本发明的集成式控制架构不再采用传统的上层求解逆运动学、下层各关节单独跟踪控制的方式,而是基于控制策略实现机械臂各关节同时、连续作动。其中,控制策略的自学习通过液压机械臂作业过程中探索试错的方式实现,并更新迭代不断优化策略。在策略自学习过程中,规定机械臂的动作约束与状态约束,保证机械臂动作的平顺与作业过程的安全性。
132.本发明实施例中,第一方面提供一种强化学习型液压机械臂集成式控制策略。该方法可以通过改良分层控制中各个关节依次、一次性到达预期关节变量,最终控制机械臂末端到达目标位姿的方式,一定程度上提升了液压机械臂的运行速度,进而提高了无人矿山以及其他生产场景中液压机械臂的作业效率。
133.本发明为了达到第一方面中提到的目标,提出了一种区别于现有的分层式控制的架构,集成式控制不再区分上下位。通过在作业过程中判断机械臂末端当前位姿与目标位姿的差距,由策略网络选择最优的动作,不断调整机械臂状态使其逐渐接近目标位姿。采用多关节同时、步进动作的控制形式,在有效提升机械臂运行效率的基础上,也使得机械臂的运动轨迹更加平滑顺畅。
134.本发明第二方面提供了一种液压机械臂的控制策略网络自学习方法,基于强化学习算法自学习得到。强化学习是一种通过与环境不断交互、试错,利用交互数据实现策略学习的机器学习算法。在学习过程中,策略网络对当前动作进行评估,并在之后的决策中选择回报更高的行为,最终优化控制策略。
135.为了解决本发明第二方面中控制策略的自学习过程,针对机械臂以液压油缸作为驱动的特点,构建了液压机械臂的强化学习框架。基于强化学习的基本元素规定动作与状态,通过不断与环境交互试探,根据环境反馈的奖励不断优化机械臂的控制策略。
136.本发明第三方面提供了液压机械臂的动作约束与状态约束。动作约束通过设计合理的奖励函数实现,在保证机械臂控制策略自学习的收敛速度的前提下,保证了液压机械臂的作业轨迹的平顺,提升机械臂的作业效率。状态约束通过设计合理的代价函数实现,为关键机构建立防碰撞、防干涉检测机制,在策略网络的训练过程中避免危险行为的出现,有效提升了液压机械臂的作业安全性能。
137.如图6所示,本发明实施例提供了一种强化学习型液压机械臂集成控制装置600,该装置600应用于实现强化学习型液压机械臂集成控制方法,该装置600包括:
138.获取模块610,用于获取待控制的液压机械臂的当前位姿与目标位姿。
139.计算模块620,用于根据当前位姿与目标位姿,计算得到位姿差距。
140.输入模块630,用于将位姿差距输入到构建好的基于强化学习的控制策略模型。
141.输出模块640,用于根据位姿差距以及基于强化学习的控制策略模型,完成液压机械臂的控制任务。
142.可选地,获取模块610,进一步用于:
143.s11、获取液压机械臂各个关节油缸的当前状态。
144.s12、根据各个关节油缸的当前状态,得到机械臂结构的几何关系。
145.s13、通过油缸位移传感器采集关节油缸的位移信号,根据几何关系以及位移信号,得到液压机械臂各个关节的当前状态。
146.s14、根据各个关节的当前状态以及d-h正运动学方法,得到待控制的液压机械臂的当前位姿。
147.可选地,输入模块630,进一步用于:
148.s31、将液压机械臂各个关节油缸的伸长量作为智能体动作。
149.s32、将液压机械臂的当前位姿作为环境状态。
150.s33、基于智能体动作以及环境状态,设计液压机械臂的动作约束,设计液压机械
臂的状态约束。
151.可选地,输入模块630,进一步用于:
152.设计收敛奖励,用于保证控制策略的迭代收敛速度。
153.设计收敛奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿到达目标位姿、或接近目标位姿、或远离目标位姿,设计相对应的稀疏收敛奖励。
154.设计步长奖励,用于保证液压机械臂动作连续以及平顺。
155.设计步长奖励包括:根据液压机械臂的动作控制液压机械臂的当前位姿逼近目标位姿的步长大小,设计相对应的步长奖励。
156.可选地,输入模块630,进一步用于:
157.设计代价函数。
158.基于代价函数,对选定的液压机械臂结构建立包络盒模型。
159.可选地,输出模块640,进一步用于:
160.s41、根据位姿差距以及基于强化学习的控制策略模型,得到液压机械臂各个关节油缸的动作信号。
161.s42、根据动作信号控制液压机械臂的各个关节运动,得到新的当前位姿。
162.s43、判断新的当前位姿是否达到目标位姿,若是,则完成液压机械臂的控制任务;若否,则根据新的当前位姿以及目标位姿,得到位姿差距,转去执行s41。
163.可选地,输出模块640,进一步用于:
164.根据动作信号控制液压机械臂的各个关节同时且连续运动。
165.本发明实施例中,第一方面提供一种强化学习型液压机械臂集成式控制策略。该方法可以通过改良分层控制中各个关节依次、一次性到达预期关节变量,最终控制机械臂末端到达目标位姿的方式,一定程度上提升了液压机械臂的运行速度,进而提高了无人矿山以及其他生产场景中液压机械臂的作业效率。
166.本发明为了达到第一方面中提到的目标,提出了一种区别于现有的分层式控制的架构,集成式控制不再区分上下位。通过在作业过程中判断机械臂末端当前位姿与目标位姿的差距,由策略网络选择最优的动作,不断调整机械臂状态使其逐渐接近目标位姿。采用多关节同时、步进动作的控制形式,在有效提升机械臂运行效率的基础上,也使得机械臂的运动轨迹更加平滑顺畅。
167.本发明第二方面提供了一种液压机械臂的控制策略网络自学习方法,基于强化学习算法自学习得到。强化学习是一种通过与环境不断交互、试错,利用交互数据实现策略学习的机器学习算法。在学习过程中,策略网络对当前动作进行评估,并在之后的决策中选择回报更高的行为,最终优化控制策略。
168.为了解决本发明第二方面中控制策略的自学习过程,针对机械臂以液压油缸作为驱动的特点,构建了液压机械臂的强化学习框架。基于强化学习的基本元素规定动作与状态,通过不断与环境交互试探,根据环境反馈的奖励不断优化机械臂的控制策略。
169.本发明第三方面提供了液压机械臂的动作约束与状态约束。动作约束通过设计合理的奖励函数实现,在保证机械臂控制策略自学习的收敛速度的前提下,保证了液压机械臂的作业轨迹的平顺,提升机械臂的作业效率。状态约束通过设计合理的代价函数实现,为关键机构建立防碰撞、防干涉检测机制,在策略网络的训练过程中避免危险行为的出现,有
效提升了液压机械臂的作业安全性能。
170.图7是本发明实施例提供的一种电子设备700的结构示意图,该电子设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)701和一个或一个以上的存储器702,其中,存储器702中存储有至少一条指令,至少一条指令由处理器701加载并执行以实现下述强化学习型液压机械臂集成控制方法:
171.s1、获取待控制的液压机械臂的当前位姿与目标位姿。
172.s2、根据当前位姿与目标位姿,计算得到位姿差距。
173.s3、将位姿差距输入到构建好的基于强化学习的控制策略模型。
174.s4、根据位姿差距以及基于强化学习的控制策略模型,完成液压机械臂的控制任务。
175.在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述强化学习型液压机械臂集成控制方法。例如,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
176.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
177.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1