一种利用视觉进行非接触式人机交互的系统的制作方法

文档序号:6471259阅读:289来源:国知局
专利名称:一种利用视觉进行非接触式人机交互的系统的制作方法
技术领域
本发明涉及一种非接触式的人机交互系统,属于人机交互领域,尤其涉及一种利 用视觉进行非接触式人机交互的系统,用于实现人与机器人之间自然、和谐的交流。
背景技术
机器人技术发展至今,正在朝着更加智能化、拟人化的方向深入,并且人们都期 望机器人能真正融入日常生活,在各个方面成为人们的生活伙伴。
人机交互技术,作为人与机器(机器人)之间信息交流的接口技术,是人与机器 人之间信息沟通的桥梁;是使机器人能更好的融入人们生活的关键。因此,人们付出 了近半个多世纪的努力,注入了大量精力来研究开发更加自然、和谐的人机交互方式。 如今,随着多模态人机交互的提出与深入发展,已经进入了第四代阶段。新一代人机 交互的输入方式不再局限于传统意义上的接触式,如键盘、鼠标、触摸屏及操纵杆等, 而更多的是一些新发展起来的与计算机无接触的方式,如语音、手势、脑波和视线等。 其中将视线信息作为输入的交互技术,以其独具的直接性、自然性和双向性成为了最 具潜力的新一代人机接口技术。
这种与人无接触的方式使得在一些不具备接触条件下的交互成为可能。比如在某 些场合下,由于危险或不便使得使用者无法与机器进行接触,这样的无接触方式就具 有更大的优势。还有,对于行动不便或那些没有机器操作经验的人来说,这样的方式 更自然、直接且容易适应并掌握。如专利文献ZL200410025125.6中公开的一种人机 交互方法就是以视觉、语音以及手动操作相结合的多通道方式实现人机交互的。此种 交互方法以视觉通道为主来输入信息,使用者通过视觉过程来选择目标,而要激活目 标则要通过语音或手动操作,是传统交互方式的一种改进。
这里提出的利用视觉进行交互的方式是完全依靠视觉通道,使用者只利用视觉活 动来实现与机器人信息交互。目前此种方式的交互技术更多的停留在人对机器的单方 向信息输入,具体表现为人对机器的控制,而没有真正体现人与机器之间的信息交流 与互动,因为机器本身缺乏对人的行为的"理解"与"思考",只是一味地服从命令。 造成此种境况的原因主要是这种交互方式存在一个公认的技术瓶颈"米达斯"接触问题。这个问题最早由Jacob于1990年在他发表的名为"What You Look At Is What You Get: Eye Movement-Based Interaction Techniques," Proc. ACM CHI'90 Human Factors in Computing Systems Conference, pp. 11-18, Addison-Wesley/ACM Press"的文
章中提出的。他指出将视线落点信息作为交互的输入信息与传统的将手动鼠标位置 信息输入的方式不同,眼睛不像手一样能靠"点击"来明确触发命令和表达意图。以 他当时提出的方法,视线只要落在了某个按钮上就会触发命令,机器不能有效的区分 有意眼动命令与无意眼动命令,这使得操作者的每一次眼动都会触发一条命令,而有 时人只想随意浏览而无意触发命令,这样就会给操作者带来一些困扰,阻碍此种交互 方式的广泛应用。

发明内容
本发明的目的是提供一种新的利用视觉进行人机交互的系统。这种交互系统只利 用视觉通道,完全实现了交互过程中信息在视觉通道上的双向流通,目卩,人通过视觉 注意来表达意向,机器人通过机器视觉来接收信息并通过分析"理解"人的目的;然 后机器人通过能给人产生视觉刺激的方式发回反馈信息,人再通过视觉系统接收机器 人传达的信息进行判断,再继续向机器人发出信息。这样使交互过程融入了机器人本 身的智能,真正达到了交互的目的。同时,这样的交互系统能克服"米达斯"接触 问题,提高了这种交互方式的可操作性和可靠性,实现了自然、和谐的人机交互。
本发明提供了一种利用视觉进行非接触式人机交互的系统,该系统包括机器视 觉单元、信息处理分析单元和交互信息显示单元。
机器视觉单元是利用发出特殊波长的主动光源均匀照射使用者面部,结合配套的 敏感相机,持续获得此光照环境下的使用者的面部图像。
信息处理分析单元是由使用者面部图像检测出其视线方向,分析其眼动状态并提 取出蕴含意图的信息,识别意图信息做出相应的反馈决策。
交互信息显示单元是以能给人产生视觉剌激的方式为使用者提供机器人的反馈 信息,并作为机器人与使用者交互最直接的平台,成为二者之间信息互通的结合部。
机器视觉单元将获取的使用者面部图像持续传送至信息处理分析单元,信息处理 分析单元又将反馈决策以命令形式发送至交互信息显示单元。
所述机器视觉单元包括
两个发出特定波长的近红外光的主动光源,用于均匀地照射使用者的面部。配套相机,用于持续接收使用者面部反射回的由所述光源发出的光线,形成在此 光照条件下使用者面部的图像。
两个近红外光源对称地分置于相机两侧,且两光源各自的俯仰角度和和转动角度 均分别可调,用于更大范围地均匀照射使用者面部,同时与配套相机位于同一活动的 平台上形成一个整体, 一起移动和转动。
所述信息处理分析单元包括视线检测模块、状态分析及意图提取模块、决策模 块、交互信息产生模块和记忆模块。
视线检测模块检测出使用者当前的视线信息,同时将视线信息输送至状态分析及 意图提取模块和记忆模块。
状态分析及意图提取模块同时连接至视线检测模块和记忆模块,根据视线检测模 块传入的使用者当前视线信息和记忆模块传入的历史视线信息,从中提取出使用者当 前的意图信息同时输送至决策模块和记忆模块。
决策模块同时连接至状态分析及意图提取模块和记忆模块,接收状态分析及意图 提取模块传入的使用者当前的意图信息,并同时接收记忆模块传入的历史意图信息和 任务管理参量,从中分析出使用者的真正意图做出相应的反馈决策向所述交互信息产 生模块发出指令、更新任务管理参量输送至记忆模块。
任务管理参量是以数字形式表示当前任务执行状态的用于为决策提供参考的变量。
交互信息产生模块连接至决策模块,执行决策模块传入的指令并控制交互信息显 示单元的行动。
记忆模块同时连接至视线检测模块、状态分析及意图提取模块和决策模块,存储 历史视线方向信息、眼动状态信息、历史意图信息和任务管理参量。
视线检测模块是根据机器视觉单元提供的使用者面部图像,利用图像处理方法提 取出表征视线方向的参量,利用一个参数可自调整的映射模型将视线方向参量映射成 实际视线方向,并利用相应的空间几何模型计算出相应的视线落点位置,将视线方向 和落点位置一起作为视线信息同时输送至状态分析及意图提取模块和记忆模块。
参数可自调整的映射模型的参数可根据使用者头部相对于相机的不同位置进行 有规律地自调整,以适应使用者在一定范围内的自然头动。
状态分析及意图提取模块是计算视线检测模块传入的当前视线方向与记忆模块
7输入的历史视线方向的差作为眼动速率用于识别当前眼动状态,滤除无意图信息的眼 跳状态,再根据历史视线落点位置分布情况进一步进行鉴别,对确定为注视的状态, 计算注视状态时段内所有的视线落点位置均值和方差、还有所有眼动速率的均值和方 差及持续注视状态的具体时长,其中视线落点位置均值又称为注视位置,将上述这五 个数据共同作为蕴含使用者意图的信息分别输送至决策模块和记忆模块。
决策模块是根据状态分析及意图提取模块传入的当前意图信息中包含的注视位 置进行有效性判别,判别为无效的认为是非眼动命令,判别为有效的认为是眼动命令, 并针对两不同判别结果进行第一层分类决策;根据状态分析及意图提取模块传入的当 前意图信息和记忆模块传入的历史意图信息计算当前意图与历史意图的位置关联度 和状态持续度,通过对这两个指标的测评进行第二层分类决策;再结合记忆模块传入 的任务管理参量进行第三层分类决策;最终将相应的响应策略分为三种响应、半响 应和不响应,根据不同响应策略向交互信息产生模块发出指令,同时更新任务管理参 量传输至记忆模块。
三种不同响应策略中所述半响应是指一种介于响应与不响应之间的不确定的决 策状态,此不确定的决策状态有两层含义 一是暂时判断不准是有意眼动命令还是由 特殊原因所致的长时视线停留,此种情况下主要采取询问并等待的策略,通过发出询 问来寻求使用者给与更多的反馈,从而进一步做出确定的决策;二是已有处于响应状 态的任务而新的命令所要激发的任务会与之冲突,此种情况下主要采取等待的策略, 待正在响应的任务结束再执行新的响应。
交互信息产生模块是根据决策模块转入的三种不同决策指令,产生不同的交互信 息并以命令的形式发送至所述交互信息显示单元,控制其显示出不同的效果给使用者 以不同的视觉刺激。
本系统利用视觉进行非接触式人机交互时,采用如下方法
(a) 使用者在机器人的视觉范围内通过视觉活动来将交互信息传递给机器人;
(b) 机器人通过机器视觉单元获得使用者的面部图像,并将其输送给信息处理分 析单元;
(c) 在信息处理分析单元,首先根据输入的面部图像检测出使用者当前的视线方 向信息并作为眼动状态参考信息加以保存;
(d) 根据检测出的当前视线方向信息,结合已有的一段时间内的眼动状态参考信息,分析出使用者当前的眼动状态,同时提取出蕴含使用者意图的信息并作为意图参 考信息加以保存;
(e) 将提取出的使用者意图信息与已有的一段时间内的意图参考信息相结合进 行决策,然后由交互产生信息控制部分根据不同的决策结果发出不同的命令,从而控 制交互信息显示单元向使用者反馈不同的交互信息;
(f) 使用者获得机器人的反馈信息后,再继续通过视觉活动来向机器人表达意向。
本发明与现有的交互系统相比,可操作性强。充分利用视觉通道获取、表达信息 的自然性、直接性和便捷性,使人机交互过程更简便、迅速、易操作且对信息通道带 宽要求较低。同时,充分发挥机器人自身的智能使交互过程的可靠性更强、对人干扰 更小、要求更少、适用人群更广泛,无论使用者有无专业知识都不受影响。而且,这 种交互方式适用的领域也很广泛,如数字家庭环境中对家电等其它设备的辅助控制; 驾驶环境中对驾驶员行为的评价和辅助控制;还有网络和虚拟现实环境中对参与主体
的快速需求反应等。以上优势使得此种交互方式极有潜力应用于人们日常生活中的各
个方面。


图1为根据本发明的交互系统的一个实施例的总体结构及信息流向示意图。 图2为图1所示实施例的系统实物示意图。 图3为图1中视线检测模块的流程示意图。 图4为图1中状态分析及意图提取模块的流程示意图。 图5为图1中决策模块的流程示意图;
具体实施例方式
参照附图,结合对实施方式的详细描述将能够更加清楚地了解本发明。 参照图1至图2,其中图1示出了根据本发明的利用视觉进行非接触式人机交互 的系统的一个实施例的总体结构及信息流向示意图;图2示出了该实施例的系统实物 示意图。如图1所示,交互过程体现为信息在使用者1与机器人2之间的流通过程。 其中机器人2包含三个基本单元机器视觉单元21、信息处理分析单元22和交互信 息显示单元23。机器视觉单元21用于获取使用者1的面部图像信息;信息处理分析 单元用于22检测使用者当前的视线信息,分析其意图并决策反馈信息;交互信息显示单元23用于以视觉刺激的方式向使用者发出反馈信息,从而使信息流回使用者。 其中,信息处理分析单元22包含五个模块,分别为视线检测模块30、眼动分析及 意图提取模块40、决策模块50、交互信息产生模块60和记忆模块70。通过这五个模 块的相互配合使机器人能自主地与使用者进行交互。具体信息流动过程说明如下-
首先由机器视觉单元21捕获使用者在特定光照条件下的面部图像。根据本具体 实施例,特定光照条件设定为近红外光照环境,选择这一环境正是由于近红外光对于 人眼是不可见的,这样对人的干扰小,而配套的相机对此种光线使敏感的,且在此光 照环境下人眼所呈现出来的光学特性也有利于通过图像处理技术快速检测出人的视 线方向,这样能达到既对人无干扰又能快速、准确地实现功能的要求。
如图2所示,机器视觉单元实物为一个近红外敏感相机211与两个主动近红外光 源212和212'封装成的装置。光源212和212 '分立在相机211的两侧,以对称的角 度发出人眼不可见的近红外光均匀照亮人的面部,并在人眼角膜外层形成两个第一普 尔钦斑(Purkinje Image)。如图中右上方的放大示意图所示,其中呈现为最暗的一 个规则区域是瞳孔221,同时呈现为最亮的并成对出现的规则区域是普尔钦斑222和 222',因此以下将称这对普尔钦斑为亮点区域。
如图1中所示,由机器视觉单元21获得的面部图像以每秒25帧的帧率传入信息 处理分析单元22中的视线检测模块30。该模块先通过图像处理的方法在传入的图像 中提取出表征视线方向的参量,再根据一套映射模型及算法计算出视线方向及相应的 视线落点位置。由于交互过程中使用者头部的自然活动会影响视线方向的准确计算, 所以上述视线方向计算方法采取一种根据当前头部位置自调整的策略来适应使用者 的自然头动,从而确保视线方向计算的准确性。计算出的视线方向和落点信息一起组 成当前视线信息传至状态分析及意图提取模块40并同时将该视线信息作为为后续提 供参考的历史状态信息存入记忆模块70中的状态记忆区71。
状态分析及意图提取模块40综合利用当前视线信息和从状态记忆区71查询到的 截止到当前的一段时间内的历史状态信息先识别出当前的眼动状态,对识别出的不同 眼动状态采取不同处理方式。对确定真正蕴含使用者意图信息的眼动状态进行进一步 的处理,从中提取出使用者当前的意图信息,并将其传至决策模块50同时将其作为 为为后续提供参考的历史意图信息存入记忆模块70中的意图记忆区72。
决策模块50根据状态分析及意图提取模块传入的使用者当前的意图信息与从意图记忆区查询到的截止到当前的一段时间内的历史意图信息分析出使用者的真正意 图并做出具体的反馈决策,向交互信息产生模块60发出相应的指令。
交互信息产生模块60是执行决策模块发出的命令并控制交互信息显示单元行动 的控制模块。在本具体实施例中,本模块为一套图形显示驱动程序。
记忆模块70是一段专用的存贮空间,用于存贮和更新信息处理、决策过程中的 各种历史参考信息,信息的存贮形式以队列式为主。按存贮信息类型不同主要分为两 大区域状态记忆区71和意图记忆区72。
参照图3,其示出了图1中视线检测模块30实现功能的具体步骤流程。在步骤 31先接收机器视觉单元21传入的使用者面部图像,然后在步骤32中利用模板匹配的 方法完成在图像平面上的瞳孔和亮点的搜索。若搜索失败,则进入步骤33放弃继续 处理此帧图像回到步骤31;若搜索成功,则表示此帧为有效图像。此时对所有搜索到 的被认为是瞳孔边缘的像素数据应用椭圆拟合的方法以定位这些搜索到的瞳孔的中 心位置,在距各瞳孔中心位置合理的范围内进一步划定该瞳孔对应的亮点区域的范 围,并求取亮点区域的重心位置。将每个瞳孔对应的亮点区域重心位置作为所对应眼 球的位置信息并和该瞳孔中心的位置信息一起同时传入步骤35;同时将上述两位置信 息再和各亮点区域的尺寸一起作为所对应眼球的姿态信息传入步骤36。
在步骤35,根据步骤32传入的瞳孔中心位置信息的个数判断当前图像中存在的 人眼个数。若判断出当前图像中只存在一只眼睛,则说明相应的另一只眼已离开了相 机有效视野范围,这里不考虑一眼睁一眼闭的情况,所以将此单只眼球的位置信息即 此眼所对应的亮点区域中心的位置传入步骤34以估算出另一只眼球的位置。
在步骤34,先根据此单眼在图像平面中所处的位置判断是左眼或右眼。 一般地, 位于图像左半区的为右眼,同理位于右半区的是左眼。若判断出为左眼则相应的右眼 可通过左眼位置加上一定距离获得,反之若判断为右眼则相应的左眼通过减去一定的 距离获得。这里的一定距离是两眼实际距离表现在图像平面上的像素距离,统一用变 量w表示,它是随人的面部平面距相机的实际距离d而变化的,w与d之间的对应关系在 视觉系统标定时即可获得,基本上满足w与d的平方成反比的关系。当前d的值可通过 将已知眼在图像平面的位置代入相机标定时确定的空间点映射到图像上对应点的变 换关系式中来获得,继而得到对应的w值以估算出另一只位于相机视野外的眼睛在图 像平面的虚拟位置,并将两只眼睛的位置信息传至步骤37。若在步骤35判断出当前图像中同时存在两只眼睛,则直接将两只眼睛的位置信 息传入步骤37。在步骤37中,先求传入的两只眼睛在图像平面的位置均值,将此均 值位置代入相机标定时确定的空间点映射到图像上对应点的变换关系式中求出其对 应的实际位置,并与已知的相机的实际位置对比求差,将此实际位置差作为人的面部 相对于相机的实际位置信息传至步骤39。
在步骤36,先根据步骤32传入的各亮点区域的尺寸分析其对应的眼球姿态是否 正常。这里,眼球姿态是否正常可具体表现为其对应的亮点区域尺寸是否在一个适当 的范围内,若不在范围内则说明相应的眼球姿态不正常。此时要进行一个综合判断 若传入的是两个眼球的信息,分析为姿态不正常的眼球也是两个,则直接将与两眼球 相关的信息都传至步骤38;若传入的是两个眼球的信息,分析为姿态不正常的眼球是 一个,则将姿态正常的眼球相关信息传至步骤39;若传入的是一个眼球的信息,分析 为姿态不正常的眼球也是一个,则直接将此眼球相关信息传入步骤38;若传入的是一 个眼球的信息,分析为姿态不正常的眼球是零个,则将此姿态正常的眼球相关信息传 入步骤39。
在步骤38,根据上述不同情况传入的信息量不同做如下分类处理若传入的是两 只眼睛所对应的信息,则求取两眼各自对应的亮点区域的重心位置的均值作为为后续 提供参考的历史位置信息存入状态记忆区71;若传入的是一只眼睛所对应的信息,则 向状态记忆区71存入一个事先约定的特殊值以表示此种特殊情况为后续提供参考。
在步骤39,先从步骤36传入的眼球相关信息中获取蕴含视线方向信息的参量, 这里将在同一眼睛区域内的由亮点区域重心指向瞳孔中心的向量作为表征此眼视线 方向的参量。若步骤36传入的是两个眼球的相关信息,则分别求取表征两眼各自的 视线方向参量,然后取它们的均值作为真正的视线方向参量;若步骤36传入的只有 一个眼球的相关信息则直接求取表征该眼球的视线方向参量作为真正的视线方向参 量。
在将视线方向参量映射为实际视线方向角度的过程中,由于使用者头部的自然活 动导致其面部相对于相机的位置不同,因而此映射关系也不同,所以这里采用的是一 个参数可自调整的映射模型-="K+",其中-表示要求取的视线方向角度;K 表示视线方向参量;"和-均为可自调整的参数,它们自调整的规律与使用者面部 相对于相机的实际位置有关,且主要是与面部距相机的深度距离有关。可调参数"和"均与面部距相机的深度距离d成二次多项式关系。因此,先由步骤37传入的面 部相对于相机的实际位置信息计算出相应的。和"参数的值,然后将。、#及前 期处理好的视线方向参量Z同时代入上述映射模型计算出相应的视线方向角度作为实 际视线方向。继而根据具体实施例中的具体应用环境,利用空间几何关系计算出相应 视线落点位置。
将计算出的当前视线方向、相应视线落点位置传至状态分析及意图提取模块40; 同时求取两眼各自对应的亮点区域重心位置的均值,再与计算出的当前视线方向、相 应视线落点位置一起作为为后续提供参考的历史位置信息存入状态记忆区71。
参照图4,其示出了图1中状态分析及意图提取模块40的具体流程。先由步骤 41接收视线检测模块30传入的当前视线方向及落点信息,然后进入步骤42对输入的
信息进行初步识别,判断是否为干扰。这里指的干扰有以下三种类型 一是由获取图
像的硬件设备在偶然情况下产生的带有噪声的图像经视线检测模块处理后得到不正
常的数据信息;二是由于使用者头部迅速大幅度摇摆而引起图像拖尾现象,从而导致 得到不正常的数据信息;三是由于使用者眼睛进行大幅度扫视或跳跃所导致的得到了 超出预置范围的数据信息。倘若在步骤42判断出属以上任何一类干扰,则进入步骤 43放弃此数据等待新数据,回到步骤41;倘若均不属于此三类干扰,则初步认定为 有效数据信息,进入步骤44。
在步骤44,将传入的当前视线方向与从记忆模块70中的状态记忆区71査询到的 上一历史视线方向进行比较求取差值作为视线方向变化速率,这里称之为眼动速率。 若该速率大于预置阈值则判别为眼跳状态,直接将此求出的眼动速率作为为后续提供 参考的历史眼动速率信息存入状态记忆区71,进入步骤43返回步骤41;若眼动速率 小于预置阈值则判别为准注视状态进入步骤45。
在步骤45,对准注视状态进行进一步鉴别。将传入的当前眼动速率与从状态记忆 区查询到的截止到当前一段持续时间内的历史眼动速率进行比对,若速率变化不大且 在标准范围内就继续将传入的当前视线落点位置与从状态记忆区查询到的截止到当 前一段持续时间内的历史落点位置进行一起利用概率统计的方法求取这些落点的分 布方差,若该方差小于规定阈值则可肯定眼睛正处于注视状态。若上述速率变化不在 标准范围内或落点分布方差大于规定阈值则都认为不是注视状态,将当前的眼动速率 作为为后续提供参考的历史眼动速率信息存入状态记忆区71,进入步骤43返回步骤41;若确定为注视状态则也先将当前眼动速率存入状态记忆区71,同时将延续至当前 的被认为是注视状态的时段内的所有眼动速率和落点位置信息输入步骤46。
在步骤46,计算在这一持续注视状态时段内所有落点位置均值和方差、所有眼动
速率的均值和方差及持续注视状态的具体时长,这里将落点位置均值称为注视位置。
将以上这五个数据信息一起作为蕴含使用者意图的信息传送给决策模块50,并同时作 为为后续提供参考的历史意图信息存入记忆模块70中的意图记忆区72。
参照图5,其示出了图1中决策模块50的具体流程。先由步骤51接受状态分析 及意图提取模块40传入的意图信息,然后进入步骤52。在步骤52对意图信息中包含 的落点均值位置进行有效性判断。结合实际具体的实施例,先对落点的有效范围进行 依次界定,这些有效范围之间均为无交集的。倘若注视位置落在所有有效范围以外, 则将输入的意图信息视为非眼动命令,直接进入步骤58做出不响应决策;若注视位 置落入有效范围内,则进入步骤53。
在步骤53,将传入的意图信息中包含的注视位置及位置分布方差与从意图记忆区 72査询到的上一历史注视位置及位置分布方差进行比对,按公式
,=^^|^求取它们之间的关联程度,这里称之为位置关联度。其中Ep,.、 Ep—last
分别表示当前注视位置和历史注视位置;oP,、 Op^t分别表示当前位置分布方差和 历史位置分布方差。若求出的位置关联度低于预置的阈值,则认为是无意眼动命令, 进入步骤58做出不响应决策;若位置关联度大于预置阈值,则认为可能是有意眼动 命令再进行进一步的判断。将传入的意图信息中包含的眼动速率变化均值及方差与从 意图记忆区72查询到的上一历史眼动速率变化均值及方差进行比对,按公式
% - 。|^ ^**;求取状态持续度。其中Ev—nOT、 Ev—^分别表示当前眼动速率变化均
V双^ *蹿秘.豕s蓉
值和历史眼动速率变化均值;ov_ 。 、 dast分别表示当前眼动速率变化分布方差和历 史眼动速率变化分布方差,Tf表示注视状态的持续时长。若求出的状态持续度低于预 置阈值,则认为是疑似有意眼动命令,进入步骤56做出半响应决策。此时表明操作 者有可能是在传达有意命令,但也有可能只是因为感兴趣而使得视线在此区域驻留稍 长其实并无意发出命令,由于这种状况需进一步判断所以做出半响应决策。若状态关 联度高于预置阈值,则认为是有意眼动命令,进入步骤54进行进一步的决策。在步骤54,根据在意图记忆区中查寻到的任务管理参量得值来判断是否有任务正 处在响应状态,若没有则进入步骤57做出响应决策。若有,则说明再响应可能会发 生冲突,所以进入步骤55分析两个任务之间的关系,判断是否可以同时响应。若可 以,则进入步骤57做出响应决策;若不可以,则进入步骤56做出半响应决策。
上述半响应决策是一种介于响应与不响应之间的不确定的决策状态。决策状态有 以下两层含义 一是暂时判断不准是有意命令还是由特殊原因所致的长时视线驻留, 所以机器人主要釆取询问并等待的策略,通过发出询问来寻求使用者给与更多的反 馈,从而进一步做出确定的决策;二是已有处于响应状态的任务而新的命令所要激发 的任务会与之冲突,此时机器人主要采取等待的策略,待正在响应的任务结束再执行 新的响应。
无论做出何种决策,都会进入步骤59以生成发给交互信息产生模块60的指令。 并同时根据响应、不响应、半响应这三种不同的决策状态生成相应的任务管理参量并 作为影响后续决策的历史信息存入意图记忆区,用于在步骤54辅助决策。
交互信息产生模块60为基于现有图形显示技术的控制程序,根据决策模块发来 的控制指令产生不同的图形、图像显示效果。结合本具体实施例,若决策为"半响应" 则使视线落点均值位置所落入的有效范围内的"按钮"进行反色闪烁,以询问使用者 是否确实想激活该按钮所对应的功能;若使用者继续注视该按钮直到决策为响应,则 执行按钮所对应的功能;若使用者无意激活该按钮则可通过将视线移开该区域的方式 致使决策为不响应,此时将无任何变化刺激使用者,让其一般浏览行为过程不受干扰。
1权利要求
1、一种利用视觉进行非接触式人机交互的系统,其特征在于,该系统包括机器视觉单元、信息处理分析单元和交互信息显示单元,其中机器视觉单元是利用特殊波长的主动光源均匀照射使用者面部,结合配套的敏感相机,持续获得此光照环境下的使用者的面部图像;信息处理分析单元是由使用者面部图像检测出其视线方向,分析其眼动状态并提取出蕴含意图的信息,识别意图信息做出相应的反馈决策;交互信息显示单元是以能给人产生视觉刺激的方式为使用者提供机器人的反馈信息;机器视觉单元将获取的使用者面部图像持续传送至信息处理分析单元,信息处理分析单元又将反馈决策以命令形式发送至交互信息显示单元。
2、 如权利要求1所述的利用视觉进行非接触式人机交互的系统,其特征在于, 所述机器视觉单元包括两个发出特定波长的近红外光的主动光源,用于均匀地照射 使用者的面部;配套相机,用于持续接收使用者面部反射回的由所述光源发出的光线, 形成在此光照条件下使用者面部的图像;两个近红外光源对称地分置于相机两侧,且 两光源各自的俯仰角度和和转动角度均分别可调,用于更大范围地均匀照射使用者面 部,同时与配套相机位于同一活动的平台上形成一个整体,可一起移动和转动。
3、 如权利要求1所述的利用视觉进行非接触式人机交互的系统,其特征在于, 所述信息处理分析单元包括视线检测模块、状态分析及意图提取模块、决策模块、 交互信息产生模块和记忆模块;视线检测模块检测出使用者当前的视线信息,同时将 视线信息输送至状态分析及意图提取模块和记忆模块;状态分析及意图提取模块同时 连接至视线检测模块和记忆模块,根据视线检测模块传入的使用者当前视线信息和记 忆模块传入的历史视线信息,从中提取出使用者当前的意图信息同时输送至决策模块 和记忆模块;决策模块同时连接至状态分析及意图提取模块和记忆模块,接收状态分 析及意图提取模块传入的使用者当前的意图信息,并同时接收记忆模块传入的历史意 图信息和任务管理参量,从中分析出使用者的真正意图做出相应的反馈决策向所述交 互信息产生模块发出指令、更新任务管理参量输送至记忆模块;交互信息产生模块连 接至决策模块,执行决策模块传入的指令并控制交互信息显示单元的行动;记忆模块 同时连接至视线检测模块、状态分析及意图提取模块和决策模块,存储历史视线方向 信息、眼动状态信息、历史意图信息和任务管理参量。
4、 如权利要求3所述的利用视觉进行非接触式人机交互的系统,其特征在于, 任务管理参量是以数字形式表示当前任务执行状态的用于为决策提供参考的变量。
5、 如权利要求3所述的利用视觉进行非接触式人机交互的系统,其特征在于, 视线检测模块是根据机器视觉单元提供的使用者面部图像,利用图像处理方法提取出 表征视线方向的参量,利用一个参数可自调整的映射模型将视线方向参量映射成实际 视线方向,并利用相应的空间几何模型计算出相应的视线落点位置,将视线方向和落 点位置一起作为视线信息同时输送至状态分析及意图提取模块和记忆模块。
6、 如权利要求5所述的利用视觉进行非接触式人机交互的系统,其特征在于, 参数可自调整的映射模型的参数可根据使用者头部相对于相机的不同位置进行有规 律地自调整。
7、 如权利要求3所述的利用视觉进行非接触式人机交互的系统,其特征在于, 状态分析及意图提取模块是计算视线检测模块传入的当前视线方向与记忆模块输入 的历史视线方向的差作为眼动速率用于识别当前眼动状态,滤除无意图信息的眼跳状 态,再根据历史视线落点位置分布情况进一步进行鉴别,对确定为注视的状态,计算 注视状态时段内所有的视线落点位置均值和方差、还有所有眼动速率的均值和方差及 持续注视状态的具体时长,其中视线落点位置均值又称为注视位置,将上述这五个数 据共同作为蕴含使用者意图的信息分别输送至决策模块和记忆模块。
8、 如权利要求3所述的利用视觉进行非接触式人机交互的系统,其特征在于, 决策模块是根据状态分析及意图提取模块传入的当前意图信息中包含的注视位置进 行有效性判别,判别为无效的认为是非眼动命令,判别为有效的认为是眼动命令,并 针对两不同判别结果进行第一层分类决策;根据状态分析及意图提取模块传入的当前意图信息和记忆模块传入的历史意图信息计算当前意图与历史意图的位置关联度和 状态持续度,通过对这两个指标的测评进行第二层分类决策;再结合记忆模块传入的 任务管理参量进行第三层分类决策;最终将相应的响应策略分为三种响应、半响应 和不响应,根据不同响应策略向交互信息产生模块发出指令,同时更新任务管理参量 传输至记忆模块。
9、 如权利要求8所述的利用视觉进行非接触式人机交互的系统,其特征在于, 所述半响应是指一种介于响应与不响应之间的不确定的决策状态,此不确定的决策状态有两层含义 一是暂时判断不准是有意眼动命令还是由特殊原因所致的长时视线停留,此种情况下主要采取询问并等待的策略,通过发出询问来寻求使用者给与更多的 反馈,从而进一步做出确定的决策;二是已有处于响应状态的任务而新的命令所要激 发的任务会与之冲突,此种情况下主要采取等待的策略,待正在响应的任务结束再执 行新的响应。
10、如权利要求3所述的利用视觉进行非接触式人机交互的系统,其特征在于, 交互信息产生模块是根据决策模块转入的三种不同决策指令,产生不同的交互信息并 以命令的形式发送至所述交互信息显示单元,控制其显示出不同的效果给使用者以不 同的视觉刺激。
全文摘要
一种利用视觉进行非接触式人机交互的系统,属于人机交互领域。通过一种信息在视觉通道上流通的方式实现人与机器人之间的非接触式交互。该系统包括机器视觉单元,用于获取特定光照条件下的使用者面部图像;信息处理分析单元,用于处理面部图像并计算使用者的视线方向,分析使用者眼动状态提取出蕴含使用者意图的信息,识别意图信息决策机器人应反馈的交互信息;交互信息显示单元,用于以能给人产生视觉刺激的方式为使用者提供机器人的反馈信息,并作为机器人与使用者交互的最直接的平台。本发明充分利用视觉通道获取、表达信息的自然性、直接性和便捷性,使人机交互过程更简便、迅速、易操作,且对信息通道带宽要求较低。
文档编号G06F3/01GK101441513SQ20081022743
公开日2009年5月27日 申请日期2008年11月26日 优先权日2008年11月26日
发明者王志良, 莹 黄 申请人:北京科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1