控制机器人的方法和装置以及机器人与流程

文档序号：35911130发布日期：2023-10-29 13:24阅读：52来源：国知局

本公开涉及机器人，并且更具体地涉及一种控制机器人的方法、装置和设备、机器人以及计算机可读存储介质。

背景技术：

1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2、机器人是一种能够半自主或全自主工作的智能机器，能够通过编程和自动控制来执行诸如作业或移动等任务。利用人工智能技术实现控制的机器人又称为智能机器人，例如足式机器人，其由多个关节、电机和传感器组成，能够模仿人类或动物步行方式。近年来，已经发展了基于强化学习来训练智能机器人的方法，通过使机器人与环境不断交互学习，最终获得用于控制机器人的策略。然而，由于仿真世界与真实世界之间存在现实差异(reality gap)，在将强化学习策略迁移到真实机器人上时会存在各种潜在问题；另外，机器人在实际操作时，根据其自身的传感器数据构建周围的高程图信息，但由于传感器数据的噪声等原因，生成的地形会存在很多毛刺和尖峰，原本的平面地形也可能变得崎岖不平。以上这些因素会导致机器人(例如足式机器人)在行走时，容易发生碰撞、踏空、摔倒等故障，尤其是在面对诸如楼梯、台阶、栏杆等存在高度突变的地形时。

技术实现思路

1、针对以上问题，本公开提供了一种控制机器人的方法、装置和设备、一种机器人以及一种计算机可读存储介质。

2、根据本公开实施例的一个方面，提供了一种控制机器人的方法，包括：在仿真空间中生成与物理空间中的障碍物对应的虚拟障碍物以及与所述机器人对应的虚拟机器人；生成包裹所述虚拟障碍物的一个或多个边缘的虚拟膨胀体，所述虚拟膨胀体是仅在所述仿真空间中存在的几何结构；针对具有所述虚拟膨胀体的所述虚拟障碍物，在所述仿真空间中对所述虚拟机器人进行强化学习训练，以获得用于所述机器人的控制策略；以及在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作。

3、根据本公开实施例的示例，其中，生成包裹所述虚拟障碍物的一个或多个边缘的虚拟膨胀体包括：在所述虚拟障碍物的边缘与所述虚拟机器人存在碰撞可能性的情况下，生成包裹所述虚拟障碍物的所述边缘的虚拟膨胀体。

4、根据本公开实施例的示例，其中，生成包裹所述虚拟障碍物的所述边缘的虚拟膨胀体包括：基于所述虚拟障碍物的所述边缘的形状和尺寸，生成具有与所述边缘的所述形状和尺寸对应的形状和尺寸的虚拟膨胀体。

5、根据本公开实施例的示例，其中，针对具有所述虚拟膨胀体的所述虚拟障碍物，在所述仿真空间中对与机器人对应的虚拟机器人进行强化学习训练以获得用于所述机器人的控制策略包括：在每个时间步处检测所述虚拟机器人与所述虚拟障碍物的虚拟膨胀体之间的碰撞结果；基于所述碰撞结果，生成对所述虚拟机器人在所述时间步处的动作的奖励；以及基于在各个时间步处的奖励，对所述虚拟机器人进行强化学习训练以获得用于所述机器人的控制策略。

6、根据本公开实施例的示例，其中，基于所述碰撞结果，生成对所述虚拟机器人在所述时间步处的动作的奖励包括：在所述碰撞结果指示所述虚拟机器人与所述虚拟膨胀体之间发生碰撞时，生成对所述虚拟机器人在所述时间步处的动作的负奖励。

7、根据本公开实施例的示例，其中，在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作包括：在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作，以使得所述机器人不与所述障碍物周围和所述虚拟膨胀体对应的位置接触。

8、根据本公开实施例的示例，其中，所述虚拟障碍物为虚拟台阶，并且生成包裹所述虚拟障碍物的一个或多个边缘的虚拟膨胀体包括：生成包裹所述虚拟台阶的预定宽度的水平面和所述虚拟台阶的垂直面的虚拟膨胀体，并且在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作包括：在所述物理空间中利用所述控制策略控制所述机器人在不碰撞台阶的垂直面或踏空台阶的情况下在所述台阶上行走。

9、根据本公开实施例的示例，其中，所述虚拟障碍物为虚拟路障，并且生成包裹所述虚拟障碍物的一个或多个边缘的虚拟膨胀体包括：生成包裹所述虚拟路障的外表面的虚拟膨胀体，并且在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作包括：在所述物理空间中利用所述控制策略控制所述机器人在不碰撞路障的情况下跨越所述路障或从所述路障下穿过。

10、根据本公开实施例的示例，其中，所述虚拟障碍物为虚拟物体立面，并且生成包裹所述虚拟障碍物的一个或多个边缘的虚拟膨胀体包括：生成包裹所述虚拟物体立面的面向所述虚拟机器人的表面的虚拟膨胀体，并且在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作包括：在所述物理空间中利用所述控制策略控制所述机器人在不碰撞物体立面的情况下在所述物体立面附近行走。

11、根据本公开实施例的另一方面，提供了一种控制机器人的装置，包括：仿真单元，被配置为：在仿真空间中生成与物理空间中的障碍物对应的虚拟障碍物以及与所述机器人对应的虚拟机器人；生成包裹所述虚拟障碍物的一个或多个边缘的虚拟膨胀体，所述虚拟膨胀体是仅在所述仿真空间中存在的几何结构；针对具有所述虚拟膨胀体的所述虚拟障碍物，在所述仿真空间中对所述虚拟机器人进行强化学习训练，以获得用于所述机器人的控制策略；以及控制单元，被配置为在所述物理空间中利用所述控制策略控制所述机器人针对所述障碍物的动作。

12、根据本公开实施例的另一方面，提供了一种机器人，包括控制器，所述控制器被配置为根据如上所述的控制机器人的方法来控制所述机器人的动作。

13、根据本公开实施例的另一方面，提供了一种控制机器人的设备，包括：一个或多个处理器；以及一个或多个存储器，其中所述存储器中存储有计算机可读指令，所述计算机可读指令在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行上述各个方面中所述的方法。

14、根据本公开实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如本公开上述各个方面中任一项所述的方法。

15、根据本公开实施例的另一方面，提供了一种计算机程序产品，其中包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如本公开上述各个方面中任一项所述的方法。

16、利用根据本公开上述各个方面的控制机器人的方法、装置和设备、计算机可读存储介质以及计算机程序产品，通过在仿真空间中在虚拟障碍物的易碰撞边缘处设置虚拟膨胀体，可以通过虚拟膨胀体将碰撞约束信息隐式地加入到强化学习训练中，使得训练得到控制策略具有一定的安全裕度，能够控制机器人远离障碍物的易碰撞边缘，从而提高将控制策略部署到真机的效果，并提高机器人的稳定性和安全性，在诸如台阶、路障、物体立面等存在高度突变的地形中能够取得尤其显著的效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张亦正
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、平老师：1.功能涂层设计与应用 2.柔性电子器件设计与应用 3.结构动态参数测试与装置研发 4.智能机电一体化产品研发 5.3D打印工艺与设备
2、潘老师：1.机电一体化装备及其控制技术 2.多传感器信息融合与质量评定
3、王老师：机械制造
4、袁老师：1.薄膜气敏传感器 2.薄膜太阳能电池
5、李老师：新型电力电子技术在微网中的应用
如您是高校老师，可以点此联系我们加入专家库。