一种基于场景分析的智能机器人及其运动控制方法与流程

文档序号:15214730发布日期:2018-08-21 16:43阅读:165来源:国知局

本发明涉及机器人技术领域,尤其涉及一种基于场景分析的智能机器人及其运动控制方法。



背景技术:

机器人作为没有一个自主意识的工具,只能用来解决一些标准化程度很高的工作,越单一动作的工作机器人替代的可能性就越高,其最初的应用也就是在汽车制造。经过几十年的发展,机器人技术不断完善,智能化程度也越来越高,其应用也从制造业拓展到了消费市场。

消费级机器人,主流的有两种形式:一种以运动性能为主,用手机或控制器进行控制;另一种以智能系统为主,但多数只是搭载在普通的小车,或固定的结构上。目前市面上还不存在即能智能地与人交互,又具备良好的自主运动性能的消费级机器人。



技术实现要素:

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于场景分析的智能机器人及其运动控制方法,分别能自主工作、人工操作及人机互动,智能化程度高,可以根据周围环境的不同做出相应的反应。

为实现上述目的,本发明提供了一种基于场景分析的智能机器人,包括机器人视觉模块、听觉模块、触觉模块、场景分析模块、运动输出模块,所述视觉模块、听觉模块、触觉模块均与场景分析模块连接,所述场景分析模块输出端与运动输出模块连接,其中:视觉模块包括依次连接的图像读取子模块、图像处理子模块、目标物检测子模块;听觉模块包括依次连接的环境噪音处理子模块、特征信号检测子模块、听觉信息汇总子模块;触觉模块包括依次连接的触觉传感子模块、触觉信息汇总模块;场景分析模块包含依次连接的传感器信息融合子模块、优先级筛选子模块、动作生成子模块。

进一步地,所述视觉模块的目标物检测子模块包括人体检测模块、物体检测模块、障碍物检测模块以及与人体检测模块、物体检测模块、障碍物检测模块连接的视觉信息汇总模块。

进一步地,所述触觉模块的触觉传感子模块包括压力传感器和触摸传感器,压力传感器布置在机器人末端执行器,触摸传感器布置在机器人基体表面。

进一步地,所述运动输出模块包括电机以及检测电机位置的位置传感器。

一种基于场景分析的智能机器人运动控制方法,其特征在于:

视觉模块获得画面信息,包括:检测与人相关的信息、检测除人体之外其他物体的信息、检测机器人前方是否存在障碍;

听觉模块获得听觉信息,包括:将检测的环境的声音信号滤波预处理、检测声音分类,并对不同分类的声音提取语义信息;

触觉模块获得触觉信息,包括:机器人抓取物体的信息,以及是否被触摸的信息;

场景分析模块综合视觉模块、听觉模块、触觉模块信息,进行融合、优先级排列,通过深度神经网络模型生成场景语义信息,根据场景语义信息,生成机器人相应动作;

运动输出模块,将机器人动作分布到各个电机的运动。

进一步地,所述视觉模块获得画面信息,具体包括:

摄像头以30fps的速率捕获图像,并不断更新缓存区的图像数据,之后各个模块以多线程的形式,同时调用缓存区中同一帧图像;

人体检测模块主要检测与人相关的信息;首先检测画面中是否有人,如果无人,则直接返回结果;如果有人,则检测人体的姿势,以及手势信息;同时检测是否有人脸,如果有人脸则检测包括但不限于人脸的表情、人脸是否认识、人脸性别、人脸年龄的信息;之后,将所有人体检测模块的信息传送到视觉信息汇总模块;

物体检测模块主要检测除人体之外其他物体的信息,系统预先存储常见物体的特征并且已标记,物体检测模块在采集到的图像上进行搜索,寻找是否存在已标记的物体,如果检测到有标记的物体,将检测到的物体标号以及在画面中的位置信息传送到视觉信息汇总模块;

障碍检测模块主要检测机器人前方是否存在障碍,此模块根据图像连续性信息,检测图像中是否有疑似障碍物,并返回其在图像中的位置以及大小信息至视觉信息汇总模块;

视觉信息汇总模块接收到人体检测模块、物体检测模块、障碍物检测模块输入的信息,按照一定格式,将信息排序之后,传送到场景分析模块进行分析。

进一步地,所述听觉模块获得听觉信息,具体步骤包括:

麦克风捕捉到环境的声音信号之后,首先经过环境噪音处理子模块滤波预处理操作,过滤掉环境噪声;

通过特征信号检测子模块检测人声以及其他已存储的声音;

对于已存储的特定声音,系统内已经存储了对应的语义信息,该信息直接发送到听觉信息汇总子模块;对于人声,根据特征信号检测子模块的特征模型提取出人声包含的关键字,将该文本信息发送到听觉信息汇总子模块;

听觉信息汇总子模块将所有声音信息汇总,按照固定的格式发送至场景分析模块进行分析。

进一步地,所述触觉模块获得触觉信息,具体包括:

压力传感器布置在机器人末端执行器,通过电压信息判断手爪是否抓取物体以及物体的重量;

触摸传感器布置在机器人基体表面,通过判断各个部位的电压脉冲变化,得出机器人是否被触摸,以及触摸位置信息。

进一步地,所述场景分析模块综合视觉模块、听觉模块、触觉模块信息,进行融合、优先级排列,通过深度神经网络模型生成场景语义信息,根据场景语义信息,生成机器人相应动作,具体为:

视觉模块、听觉模块、触觉模块在处理数据前,在待处理数据上标记时间戳,场景分析模块在得到信息后,首先通过时间戳校验数据,并将所有数据按最新的时间同步;

时间同步后,将视觉模块、听觉模块、触觉模块检测处理后存在相关性的信息进行融合;

对融合后的信息进行优先级排列,按照优先级从高到低为人、动物、障碍物、其他物体的优先级顺序筛选融合信息;

根据优先级顺序对融合信息筛选后,通过预先训练好的深度神经网络模型,生成当前场景语义信息,再按照一定的规则转换为机器人执行动作的指令,发送给动作生成子模块。

本发明的有益效果是:

1、通过多传感器的融合完成对场景的识别,而非单一的视觉或语音识别。

2、在获得场景信息之后,机器人能够做出肢体动作上的反应,而非单一的语音或屏幕反应。

3、场景识别中对人的识别,对物体的识别,以及对环境的识别统一合成场景信息,增强了识别的适应性。

4、增强了机器人的自主性与交互性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的整体结构框图。

图2是本发明的视觉模块工作流程图。

图3是本发明的听觉模块工作流程图。

图4是本发明的触觉模块工作流程图。

图5是本发明的场景分析模块工作流程图。

图6是本发明的运动输出模块工作流程图。

具体实施方式

如图1所示,一种基于场景分析的智能机器人,包括机器人视觉模块、听觉模块、触觉模块、场景分析模块、运动输出模块,所述视觉模块、听觉模块、触觉模块均与场景分析模块连接,所述场景分析模块输出端与运动输出模块连接,其中:视觉模块包括依次连接的图像读取子模块、图像处理子模块、目标物检测子模块;听觉模块包括依次连接的环境噪音处理子模块、特征信号检测子模块、听觉信息汇总子模块;触觉模块包括依次连接的触觉传感子模块、触觉信息汇总模块;场景分析模块包含依次连接的传感器信息融合子模块、优先级筛选子模块、动作生成子模块。

本实施例中,所述视觉模块的目标物检测子模块包括人体检测模块、物体检测模块、障碍物检测模块以及与人体检测模块、物体检测模块、障碍物检测模块连接的视觉信息汇总模块。

本实施例中,所述触觉模块的触觉传感子模块包括压力传感器和触摸传感器,压力传感器布置在机器人末端执行器,触摸传感器布置在机器人基体表面。

本实施例中,所述运动输出模块包括电机以及检测电机位置的位置传感器。

如图2-6所示,一种基于场景分析的智能机器人运动控制方法:

视觉模块获得画面信息,包括:检测与人相关的信息、检测除人体之外其他物体的信息、检测机器人前方是否存在障碍;

听觉模块获得听觉信息,包括:将检测的环境的声音信号滤波预处理、检测声音分类,并对不同分类的声音提取语义信息;

触觉模块获得触觉信息,包括:机器人抓取物体的信息,以及是否被触摸的信息;

场景分析模块综合视觉模块、听觉模块、触觉模块信息,进行融合、优先级排列,通过深度神经网络模型生成场景语义信息,根据场景语义信息,生成机器人相应动作;

运动输出模块,将机器人动作分布到各个电机的运动。

本实施例中,所述视觉模块获得画面信息,具体包括:

摄像头以30fps的速率捕获图像,并不断更新缓存区的图像数据,之后各个模块以多线程的形式,同时调用缓存区中同一帧图像;

人体检测模块主要检测与人相关的信息;首先检测画面中是否有人,如果无人,则直接返回结果;如果有人,则检测人体的姿势,以及手势信息;同时检测是否有人脸,如果有人脸则检测包括但不限于人脸的表情、人脸是否认识、人脸性别、人脸年龄的信息;之后,将所有人体检测模块的信息传送到视觉信息汇总模块;

物体检测模块主要检测除人体之外其他物体的信息,系统预先存储常见物体的特征并且已标记,物体检测模块在采集到的图像上进行搜索,寻找是否存在已标记的物体,如果检测到有标记的物体,将检测到的物体标号以及在画面中的位置信息传送到视觉信息汇总模块;

障碍检测模块主要检测机器人前方是否存在障碍,此模块根据图像连续性信息,检测图像中是否有疑似障碍物,并返回其在图像中的位置以及大小信息至视觉信息汇总模块;

视觉信息汇总模块接收到人体检测模块、物体检测模块、障碍物检测模块输入的信息,按照一定格式,将信息排序之后,传送到场景分析模块进行分析。

本实施例中,所述听觉模块获得听觉信息,具体步骤包括:

麦克风捕捉到环境的声音信号之后,首先经过环境噪音处理子模块滤波预处理操作,过滤掉环境噪声;

通过特征信号检测子模块检测人声以及其他已存储的声音;

对于已存储的特定声音,系统内已经存储了对应的语义信息,该信息直接发送到听觉信息汇总子模块;对于人声,根据特征信号检测子模块的特征模型提取出人声包含的关键字,将该文本信息发送到听觉信息汇总子模块;

听觉信息汇总子模块将所有声音信息汇总,按照固定的格式发送至场景分析模块进行分析。

本实施例中,所述触觉模块获得触觉信息,具体包括:

压力传感器布置在机器人末端执行器,通过电压信息判断手爪是否抓取物体以及物体的重量;

触摸传感器布置在机器人基体表面,通过判断各个部位的电压脉冲变化,得出机器人是否被触摸,以及触摸位置信息。

本实施例中,所述场景分析模块综合视觉模块、听觉模块、触觉模块信息,进行融合、优先级排列,通过深度神经网络模型生成场景语义信息,根据场景语义信息,生成机器人相应动作,具体为:

视觉模块、听觉模块、触觉模块在处理数据前,在待处理数据上标记时间戳,场景分析模块在得到信息后,首先通过时间戳校验数据,并将所有数据按最新的时间同步;

时间同步后,将视觉模块、听觉模块、触觉模块检测处理后存在相关性的信息进行融合;

对融合后的信息进行优先级排列,按照优先级从高到低为人、动物、障碍物、其他物体的优先级顺序筛选融合信息;

根据优先级顺序对融合信息筛选后,通过预先训练好的深度神经网络模型,生成当前场景语义信息,再按照一定的规则转换为机器人执行动作的指令,发送给动作生成子模块。

以下具体说明本发明原理:

如图2所示,视觉模块获得的信息包括:画面中是否有人,画面中是否有机器人已经记忆的物体。如有人,是否有人脸。如有人脸,人脸是否已经认识,是否具有情绪。人以及目标物体相对于机器人的姿态。

视觉处理主要是指从摄像头捕捉到图像到获取图像中语义信息的过程。首先,摄像头以30fps的速率捕获图像,并不断更新缓存区的图像数据。之后,各个模块以多线程的形式,同时调用缓存区中同一帧图像。

人体检测模块主要检测与人相关的信息。首先检测画面中是否有人,如果无人,则直接返回结果。如果有人,则检测人体的姿势,以及手势信息。同时检测是否有人脸,如果有人脸则检测人脸的表情,人脸是否认识,人脸性别,人脸年龄等信息。之后,将所有人体检测模块的信息传送到视觉信息汇总模块。

物体检测模块主要检测除人体之外其他物体的信息。系统预先以及存储了常见物体的特征,在物体检测模块,通过在图像上进行搜索,寻找是否存在已标记的物体,如宠物,花盆,桌子,垃圾桶等。之后,将检测到的物体标号,以及在画面中的位置信息传送到视觉信息汇总模块。

障碍检测模块主要检测机器人前方是否存在障碍。此模块根据图像连续性信息,检测图像中是否有疑似障碍物,并返回其在图像中的位置以及大小信息至视觉信息汇总模块。

视觉信息汇总模块接收到各个模块输入的信息,按照一定格式,将信息排序之后,传送到场景分析模块进行分析。

如图3所示,听觉模块获得的信息包括:环境中是否有机器人已经记忆的声音信号,是否具有人声信号,声音信号是否含有语义信息。听觉处理主要指从麦克风收集到声音数据到获取到声音中语义和文本信息的过程。

麦克风捕捉到环境的声音信号之后,首先经过滤波等预处理操作,过滤掉环境噪声,之后,通过特定频率检测人声以及其他已存储的声音(如猫叫,狗叫等)。对于已存储的特定声音,系统内已经存储了对应的语义信息,该信息直接发送到听觉信息汇总模块。对于人声,根据特征模型提取出人声包含的关键字,将该文本信息发送到听觉信息汇总模块。之后听觉信息汇总模块将所有信息汇总,按照固定的格式发送至场景分析模块进行分析。

如图4所示,触觉模块获得的信息包括:机器人是否被触摸,被触摸的次数以及时间。触觉处理是指从压力传感器和触摸传感器获取的数据的得出与机器人直接接触的物体信息。

压力传感器布置在机器人末端执行器,即机器人手部。用于通过电压信息判断手爪是否抓取物体,物体的重量等。

触摸传感器布置在机器人基体表面,通过判断各个部位的电压脉冲变化,得出机器人是否被触摸,以及触摸位置信息。

触觉信息汇总模块将抓取信息和触摸信息汇总,按照固定的格式发送至场景分析模块进行分析。

如图5所示,场景分析模块的作用在于综合各模块信息,进行优先级排列与融合;通过人工智能算法判断目前所处场景;根据场景序号,生成相应动作。

场景分析主要是指对视觉、听觉、触觉得到的信息进行汇总,融合,筛选,并最终得出对当前场景最佳的语义描述的过程。

每个模块处理数据的速度不同,因此同时传入场景分析模块的视觉,听觉,触觉信息不同步。为了解决这个问题,每个模块在处理数据前,都会在待处理数据上标记时间戳。场景分析模块在得到信息后,首先通过时间戳校验数据,并将所有数据按最新的时间同步。

由于各个模块中的信息会存在相关性,所以要对信息进行融合。如画面中检测到有开心的表情,同时听到有笑声,这两条信息将同时融合为开心的情绪。

同时,各个模块获得的信息非常多,无法进行实时处理,所以要对信息进行优先级排列。各模块信息进行综合后,可以分为人,动物,障碍物,其他物体四类,之后按照人>动物>障碍物>其他物体的优先级选择信息。

根据优先级对信息筛选后,通过预先训练好的深度神经网络模型,生成按照主语+谓语(+宾语)的一条信息。如人摸机器人,人笑,障碍物出现等。之后将当前场景语义信息,按照一定的规则转换为机器人需要执行的指令,发送给执行模块。

如图6所示,运动输出主要是将其他模块生成的机器人动作指令传递到运动控制器,运动控制器生成电机所需的电参数传递给执行电机,电机带动执行机构完成相应机器人动作。

为了让机器人精确运动,各个电机都带有位置检测传感器,采集机器人的实时姿态信息。由于机器人不同部位存关联性,为了保证机器人动作和预期一致,运动控制器还要输出各执行电机工作的先后时间。

综上,本发明具有以下优势:

1、通过多传感器的融合完成对场景的识别,而非单一的视觉或语音识别。

2、在获得场景信息之后,机器人能够做出肢体动作上的反应,而非单一的语音或屏幕反应。

3、场景识别中对人的识别,对物体的识别,以及对环境的识别统一合成场景信息,增强了识别的适应性。

4、增强了机器人的自主性与交互性。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1