1.一种自平衡高空作业台,其特征在于,包括:
小臂;
驱动电机,其设置在所述小臂一端,位于所述小臂的内部;
行星减速机构,其一端连接所述驱动电机的输出端;
制动机构,其设置在所述驱动电机和所述行星减速机构之间;
作业平台,其与所述行星减速机构的另一端固定连接。
2.根据权利要求1所述的自平衡高空作业台,其特征在于,所述行星减速机构包括:
太阳轮,其与所述驱动电机的输出端固定连接;
至少两个行星轮,其与所述太阳轮啮合;
行星架,其固定连接所述行星轮;
齿圈,其与所述作业平台固定连接,所述齿圈具有内齿,并与所述行星轮相啮合。
3.根据权利要求2所述的自平衡高空作业台,其特征在于,所述行星减速机构为2k-h轮系。
4.根据权利要求3所述的自平衡高空作业台,其特征在于,所述减速机构的减速比为13。
5.根据权利要求2所述的自平衡高空作业台,其特征在于,所述制动机构包括:
制动器,其设置在所述小臂的内壁上;
制动盘,其固定设置在在所述驱动电机输出轴上。
6.根据权利要求5所述的自平衡高空作业台,其特征在于,还包括:
运算与控制单元,其与所述驱动电机、所述制动机构以及所述作业平台电连接。
7.一种自平衡高空作业台的控制方法,其特征在于,通过ddpg网络根据作业平台的位置信息控制驱动电机,使驱动电机带动作业平台进行相应运动,具体包括:
建立并训练ddpg网络,保存训练所得权重参数;
将训练好的ddpg网络移植到运算与控制单元中,对作业平台的位置进行控制。
8.根据权利要求7所述的自平衡高空作业台的控制方法,其特征在于,还包括:
在训练过程中,ddpg网络根据通过传感器获取作业平台与水平面的夹角信息、作业平台角速度、作业平台载荷,决策出当前动作并执行;
奖励函数针对当前状态给出奖励标量,并通过ddpg网络采集下一时刻的状态信息,得出最优的神经网络权重后进行复制。
9.根据权利要求8所述的自平衡高空作业台的控制方法,其特征在于,所述ddpg网络的状态空间st包括:
其中,θ表征作业平台与水平面归一化的夹角关系,θ∈(-1,1];
当θ=0度时,作业平台呈水平姿态;
10.根据权利要求9所述的自平衡高空作业台的控制方法,其特征在于,本发明的奖励函数为:
reward=reward1+reward2
其中,
式中,m0,m1为阈值常数,m0=1,m1=1,reward1为第一奖励分量,reward2为第二奖励分量,done为训练结束标志;
当done=1,θ>m0、
或当前回合步长超过1000时,本回合训练终止,此时,reward2=-100。