本发明实施例涉及辅助性机械臂,尤其涉及一种机械臂运动轨迹训练方法、装置、计算机设备及存储介质。
背景技术:
1、辅助性机械臂的使用,如机器人生活辅助是一个具有挑战性的问题,可以极大的改善老年人和残疾人的生活质量,使机械臂能够学习执行复杂任务的运动技能是人工智能领域的主要目标之一。
2、然而,现有的方法需要大量的交互以学习最优轨迹,这在辅助性机械臂的实际场景中并不适用。为了在短的学习时间取得较好的效果,目前常常采用有限差分梯度策略,这限制了算法在不同的环境设置下的泛化能力,例如受试者姿势的重大变化或者使用不同的衣服等等。
技术实现思路
1、本发明实施例提供一种机械臂运动轨迹训练方法、装置、计算机设备及存储介质,以实现机械臂运动轨迹的稳健学习,确保能够在较少的交互中学会适应未知环境。
2、第一方面,本发明实施例提供了一种机械臂运动轨迹训练方法,该方法包括:
3、基于ard核函数,使用伽马过程建立从潜在空间向机器人空间的映射函数模型;其中,所述潜在空间的维度低于所述机器人空间的维度;
4、根据所述映射函数模型对所述潜在空间进行部署;
5、基于动态运动原语生成所述潜在空间机械臂运动的策略搜索框架;
6、采用强化学习算法,使用预设运动轨迹数据集对所述潜在空间进行训练。
7、可选的,所述根据所述映射函数模型对所述潜在空间进行部署,包括:
8、基于贝叶斯公式确定所述映射函数模型的边际似然;
9、最大化所述边际似然,以确定所述映射函数模型中的未知潜点最优值和超参数最优值。
10、可选的,所述边际似然包括:
11、
12、其中,x表示所述映射函数模型中需要推断的未知潜点,θ表示所述映射函数模型中需要推断的超参数,k表示由潜点构成的核矩阵;
13、所述最大化所述边际似然,包括:
14、
15、其中,表示所述未知潜点最优值,表示所述超参数最优值。
16、可选的,所述映射函数模型包括:
17、yi=f(xi)+ε
18、其中,yi表示所述机器人空间的训练样本,xi表示所述潜在空间的训练样本,ε表示服从伽马分布ε~ga(μ,η-1i)的噪声,f=[f(x1),...,f(xn)]t表示具有伽马过程先验的非线性函数。
19、可选的,在所述根据所述映射函数模型对所述潜在空间进行部署之后,还包括:
20、基于贝叶斯公式对未知数据进行推测。
21、可选的,所述策略搜索框架的策略表示为:
22、
23、其中,g表示目标状态,y表示当前系统状态,y0表示系统初始状态,v表示当前运行速度,a表示第一常数,b表示第二常数,f表示使用局部加权回归学习的非线性强迫项。
24、可选的,所述强化学习算法的代价函数为:
25、
26、其中,r(τ)表示轨迹τ的总回报,vi,j表示第i维的第j个通过点,表示t时刻在第i维的重构轨迹,ζi,j表示第i维的第j个通过点的代价函数权重。
27、第二方面,本发明实施例还提供了一种机械臂运动轨迹训练装置,该装置包括:
28、映射函数模型建立模块,用于基于ard核函数,使用伽马过程建立从潜在空间向机器人空间的映射函数模型;其中,所述潜在空间的维度低于所述机器人空间的维度;
29、潜在空间部署模块,用于根据所述映射函数模型对所述潜在空间进行部署;
30、策略搜索框架生成模块,用于基于动态运动原语生成所述潜在空间机械臂运动的策略搜索框架;
31、潜在空间训练模块,用于采用强化学习算法,使用预设运动轨迹数据集对所述潜在空间进行训练。
32、第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
33、一个或多个处理器;
34、存储器,用于存储一个或多个程序;
35、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的机械臂运动轨迹训练方法。
36、第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的机械臂运动轨迹训练方法。
37、本发明实施例提供了一种机械臂运动轨迹训练方法,首先基于ard核函数,使用伽马过程建立从低维度的潜在空间向高维度的机器人空间的映射函数模型,然后根据该映射函数模型对潜在空间进行部署,再基于动态运动原语生成潜在空间机械臂运动的策略搜索框架,从而采用强化学习算法,使用预设运动轨迹数据集对潜在空间进行训练。本发明实施例所提供的机械臂运动轨迹训练方法,通过在较低维度的潜在空间学习机械臂的运动技能,再映射到机器人空间,实现了数据的高效稳健学习,帮助机械臂适应不同的环境,有效规避了常规算法在不同环境下的低泛化能力,能够在少量学习案例的情况下适应大部分生活辅助场景,使得机械臂的路径优化更灵活,从而更好的为用户提供辅助功能。
1.一种机械臂运动轨迹训练方法,其特征在于,包括:
2.根据权利要求1所述的机械臂运动轨迹训练方法,其特征在于,所述根据所述映射函数模型对所述潜在空间进行部署,包括:
3.根据权利要求2所述的机械臂运动轨迹训练方法,其特征在于,所述边际似然包括:
4.根据权利要求1所述的机械臂运动轨迹训练方法,其特征在于,所述映射函数模型包括:
5.根据权利要求1所述的机械臂运动轨迹训练方法,其特征在于,在所述根据所述映射函数模型对所述潜在空间进行部署之后,还包括:
6.根据权利要求1所述的机械臂运动轨迹训练方法,其特征在于,所述策略搜索框架的策略表示为:
7.根据权利要求1所述的机械臂运动轨迹训练方法,其特征在于,所述强化学习算法的代价函数为:
8.一种机械臂运动轨迹训练装置,其特征在于,包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的机械臂运动轨迹训练方法。