本发明涉及机器人安全控制,具体涉及一种基于高斯过程非保守概率误差界的机器人安全控制方法。
背景技术:
1、安全控制对于机器人的各类应用至关重要,例如使移动机器人能够在危险环境中执行救援任务,以及使无人机在茂密的丛林中进行生物多样性监测等。近年来,基于控制障碍函数(control barrier function)的方法在控制和机器人领域内备受关注,用于设计有安全保证的可靠控制器。基于控制障碍函数的方法在设计简单而有效的安全控制器方面具有优势和坚实的理论基础。
2、然而,在实际机器人应用中,动态系统的建模往往不准确,而基于控制障碍函数的方法依赖于准确的动力学模型,因此在设计鲁棒控制器时需要考虑模型不确定性或残余动力学。许多现有技术从不同角度探索设计鲁棒控制器,其中一种观点是通过学习和补偿残余动力学,并通过引入表征不确定性的概率误差界来实现基于控制屏障函数的鲁棒安全控制。然而,此前的技术方案所提出的高斯过程的概率误差界均过于保守无法应用于真实的机器人上,迄今为止尚没有满足机器人应用要求的非保守的概率误差界。
技术实现思路
1、为解决上述技术问题,本发明提供一种基于高斯过程非保守概率误差界的机器人安全控制方法。
2、为解决上述技术问题,本发明采用如下技术方案:
3、一种基于高斯过程非保守概率误差界的机器人安全控制方法,包括以下步骤:
4、步骤一,基于传感器测量机器人的状态与状态变化率,利用高斯过程在线学习机器人动力学模型:
5、给定机器人动力学模型,其中、均为已知并且满足李普希兹连续的系统函数,是未知的动力学残差项;机器人的状态与机器人的状态变化率通过传感器测量得到,与的差值是的噪声观测值;
6、构建在线数据集,其中,上标表示在线数据集的容量,表示中第个机器人状态,表示第个噪声观测值;随时间递增,迭代在线数据集,并在线训练机器人动力学模型,输出后验均值与后验方差;
7、步骤二:基于在线数据集,利用逆韦伯分布,分别估计未知的动力学残差项、后验均值和后验方差的李普希兹常数、和:
8、提取在线数据集中的机器人状态数据,并使用随机方法将机器人状态数据中的元素两两组合,且每个组合中的两个机器人状态的距离不超过设定阈值,构成新的集合,;
9、过程a:通过差分法求解从集合中提取的个元素的函数变化率,并在个函数变化率中选择最大值;
10、将过程a重复次,获取与个过程a的结果最接近的逆韦伯分布,所述逆韦伯分布的位置参数即为李普希兹常数、和的估计;
11、步骤三:基于后验方差与所估计的李普希兹常数、与,计算非保守概率误差界,以评估机器人动力学模型的不确定性对安全的威胁程度;
12、步骤四:基于非保守概率误差界与控制屏障函数构建实现安全控制的二次规划方程,并通过前馈控制器补偿动力学残差项,实现对机器人的安全控制:
13、给定初始的标称控制量,通过设计控制屏障函数构建二次规划方程,以修正标称控制量;同时在二次规划方程的约束不等式中引入非保守概率误差界,进一步修正标称控制量,输出优化后的控制量;
14、通过对机器人动力学模型在线学习获得的后验均值,构建前馈控制器:,补偿模型残差项,其中,表示伪逆;补偿后的控制量作为最终控制量直接作用于机器人的控制。
15、进一步地,步骤一中,所述构建在线数据集,随时间递增,迭代在线数据集,并在线训练机器人动力学模型,输出后验均值与后验方差,具体包括:
16、(1)初始化时间参数,为时间窗口大小;初始化机器人状态,初始化在线数据集;
17、(2)当时刻时,采集当前时刻的噪声观测值,并更新在线数据集;
18、(3)当时刻时,预测当前机器人状态的动力学残差项的后验均值和后验方差:
19、;
20、;
21、;
22、其中,是在线数据集中的噪声观测值组成的集合,表示测量噪声的方差,为传感器参数表上可获取的数据,表示单位矩阵,、、分别表示核函数的标量形式、向量形式、矩阵形式;核函数的标量形式,其中表示与机器人状态相同或者不同的机器人状态,、表示核函数的两个超参数;若能被整除,采集噪声观测值,删除在线数据集中最底部的动力学样本,嵌入新的动力学样本,完成一次在线数据集的更新;循环在线数据集的更新过程,获取后验均值与后验方差。
23、进一步地,步骤二中,所述过程a:通过差分法求解从集合中提取的个元素的函数变化率,并在个函数变化率中选择最大值,将过程a重复次,获取与个过程a的结果最接近的逆韦伯分布,所述逆韦伯分布的位置参数即为李普希兹常数、和的估计,具体包括以下步骤:
24、s21,所述过程a为:从集合中提取个元素,通过差分法求解个元素对应的函数变化率:
25、;
26、其中,代指、或;并在个函数变化率中选择最大值:;
27、s22,将过程a重复次,基于个最大值拟合逆韦伯分布,逆韦伯分布的分布函数为:
28、;
29、其中是位置参数,是形状参数,是规模参数;将逆韦伯分布的位置参数输出作为对应李普希兹常数的估计;
30、s23,重复执行步骤s21与步骤s22,分别计算得到对李普希兹常数、和的估计。
31、进一步地,步骤三中,所述基于后验方差与所估计的李普希兹常数、与,计算非保守概率误差界,具体包括:
32、首先做如下计算:
33、;
34、;
35、其中表示与方差有关的不确定性,表示数据离散化导致的不确定性,表示状态空间,所述状态空间为立方体空间,边长为,表示概率;表示给定网格系数和状态空间下的状态点数,,表示机器人状态的维度;
36、通过和获得非保守概率误差界:
37、;
38、表示后验标准差;所述非保守概率误差界具有能够在概率层面保障误差的上限:
39、;
40、表示事件发生的概率。
41、进一步地,步骤四中,所述给定初始的标称控制量,通过设计控制屏障函数构建二次规划方程,以修正标称控制量,同时在二次规划方程的约束不等式中引入非保守概率误差界,进一步修正标称控制量,输出优化后的控制量,具体包括:
42、构造控制屏障函数,控制屏障函数的安全约束不等式为:
43、;
44、其中,为拓展函数,其中、为李导数,且
45、,;
46、基于控制屏障函数构建带有非保守概率误差界约束的二次规划方程,输出优化后的控制量:
47、;
48、;
49、其中,表示所有控制量构成的空间。
50、与现有技术相比,本发明的有益技术效果是:
51、1.本发明基于控制屏障函数设计控制器的方法,能够有效构造二次规划安全控制器,解决了机器人任务执行过程中的基本安全问题,从而拓宽机器人的应用场景。
52、2.本发明基于高斯过程在线学习动力学模型的方法,用于应对动力学未知或不准确对安全带来的危害,该技术具有显著的数据高效性,在扩展适用场景的同时,降低求解的运算量和时间,从而推动机器人算法的落地。
53、3.本发明在线计算非保守的概率误差界的方法,显著提高了机器人应对不确定性的能力,提升了机器人与扰动下运行时的鲁棒性,从而能够增强在信息不确定场景下的机器人的安全性。