一种人体动作识别的增强现实系统及方法与流程

文档序号:18901703发布日期:2019-10-18 22:01阅读:419来源:国知局
一种人体动作识别的增强现实系统及方法与流程

本发明涉及一种人机交互系统,尤其涉及一种人体动作识别的增强现实系统。



背景技术:

人体动作识别是近年来计算机视觉领域的一个研究热点,尤其是在人机交互、虚拟增强现实等领域应用广泛。但是目前现有的人体动作识别应用多为体感游戏,显示屏幕中展示的是纯虚拟场景,与现实中的真实影像没有交互结合,缺少沉浸感。

同时,目前捕捉人体动作的主流设备大多是kinect设备,kinect设备采用tof(timeofflight)原理,该设备通过向待识别目标发送连续的激光脉冲,然后通过传感器接受返回的光,计算相应的相位差,从而判断待识别目标的方位。kinect设备具有较高的精度、灵敏度和分辨率,但是其检测距离有限,对使用环境的要求较高,同时通过kinect设备采集的影像也没有与现实中的真实影像结合。此外,kinect设备成本较高,需要特殊的连接接口,降低了设备的通用性能。

鉴于现有的行为肢体识别技术中的缺陷,亟需一种可以有效识别人体行为肢体、提高用户体验、成本较低、通用性更好的解决方案。



技术实现要素:

本发明的目的在于提出一种新的人体动作识别的增强现实系统,以有效识别人体行为肢体,提高用户体验,降低成本,形成更好的通用性。

一方面,本发明提出了一种人体动作识别的增强现实系统。该系统包括:图像采集装置、智能处理终端以及图像显示装置。其中,图像采集装置包括单目摄像机;智能处理终端包括数据输入单元、系统控制和调度单元、数据处理和计算单元、图像输出单元。

进一步地,单目摄像机可以采用单目uvc摄像机,所述摄像机采集的数据通过usb传递至智能处理终端,通过uvc协议实现在linux、windows、macos操作系统的电脑上的即插即拔。此外,所述摄像机采集的数据还可以通过wifi模块或者蓝牙模块传输至智能处理终端。

进一步地,智能处理终端可以采用安卓系统的主板,由usb接口输入,通过系统控制和调度单元对系统资源进行分配和调度,以提高整个系统的运行速度。所述采集到的数据经usb接口输入至智能处理终端后,由图像处理和计算单元进行处理,最终经图像输出单元传输至图像显示装置。

进一步地,图像输出单元可以选择为hdmi输出电路。

另一方面,本发明还提供了一种人体动作识别的增强现实交互方法。该方法包括以下步骤:

s1,采用图像采集装置对人体的肢体图像进行采集;

s2,通过智能处理终端对采集的人体肢体图像进行处理,并将图像采集装置获得的现实真实图像传输给图像显示装置;

s3,通过智能处理终端,对所述肢体图像进行人体轮廓及关节特征点进行识别提取;

s4,通过智能处理终端,将所述特征点进行真伪优化;

s5,通过智能终端,虚拟特效,对虚拟模型的方位进行处理;

s6,将所述虚拟模型传输给图像显示装置。

其中,s1步骤中,按帧数采集图像,形成一组序列。

s3步骤中,采用肢体图像识别sdk开发包,对人体轮廓及关节特征点进行识别提取。特征点数量优选为10-30个,如肩部、颈部、肘部、腕部、胯部等。由于图像采集设备传输的图像为密集型数据,不利于计算,设置单独的图形处理器将接收到的图像数据通过gibbs采样算法抽取近似的图形样本序列。设定条件,选取可信度高的特征点数据。所述设定的条件为:相邻关节点的距离变化在正确阈内,相邻关节点向量夹角在等间隔帧内的变化量在可接受阈内,则数据可信;反之,则将不可信。将不可信的帧去除,取后续的n帧继续判断。

s4步骤中,智能处理终端包括图像数据源存储模块和修正计算模块。图像采集模块传输至智能处理终端的图像数据经过修正计算模块进行修正计算,然后设置为数据模板,将该数据模板存储在图像数据源存储模块。利用这些数据模板,与后来的图像数据进行匹配,近似度达到一定阈值,则直接采用存储的数据模板,一加快数据的访问速度。修正计算模块的修正计算方式为线性或二次曲线插值方法。

进一步地,所述修正计算方式为:相邻间隔的帧之间所述特征点修正插值函数,如第一帧特征点坐标p(x0,y0)。第三帧特征点为p(x1,y1),第二帧特征点坐标位置的修正公式如下:

l1(x)=l0(x)y0+l1(x)y1

l0(x)和l1(x)为线性插值基函数,分别为:

相邻特征点之间的轨迹修正插值为二次插值,如肩关节坐标点p(x0,y0),肘关节p(x1,y1),腕关节p(x2,y2),则绑定手部的模型或特效坐标p(x,y)公式如下:

l2(x)=l0(x)y0+l1(x)y1+l2(x)y2

其中满足:l2(x0)=y0,l2(x1)=y1,l2(x2)=y2。

l0(x),l1(x),l2(x)为二次插值基函数,分别为:

s5步骤中,将s3步骤中识别提取的特征点以及s4步骤中的数据模板中的特征点进行交互判断,使得特征点的运动立体化,从而模拟人体的真实运动状态。同时,将智能处理终端中预设的模型加入到特征点的坐标上,形成了模型与人体的肢体图像的绑定,并用模型对人体的肢体图像中的特征点进行遮盖或者其它形式的互动。进一步地,可以采用图像引擎或者其它相关插件对所述特征点进行特效渲染,从而形成更好的视觉效果。

另一方面,本发明还提供了一种多人协同动作识别的增强现实交互方法。该方法包括以下步骤:

s1,采用图像采集装置对人体的肢体图像进行采集;

s2,通过智能处理终端对采集的人体肢体图像进行处理,并将图像采集装置获得的现实真实图像传输给图像显示装置;

s3,通过智能处理终端,对所述肢体图像进行人体轮廓及关节特征点进行识别提取;

s4,通过智能处理终端,将所述特征点进行真伪优化;

s5,通过智能处理终端,对所述特征点进行分组处理;

s6,通过智能处理终端,对所述特征点进行交互碰撞判断;

s7,通过智能终端,虚拟特效,对虚拟模型的方位进行处理;

s8,将所述虚拟模型传输给图像显示装置。

其中,s1步骤中,按帧数采集图像,形成一组序列。

s3步骤中,采用肢体图像识别sdk开发包,对人体轮廓及关节特征点进行识别提取。特征点数量优选为10-30个,如肩部、颈部、肘部、腕部、胯部等。由于图像采集设备传输的图像为密集型数据,不利于计算,设置单独的图形处理器将接收到的图像数据通过gibbs采样算法抽取近似的图形样本序列。设定条件,选取可信度高的特征点数据。所述设定的条件为:相邻关节点的距离变化在正确阈内,相邻关节点向量夹角在等间隔帧内的变化量在可接受阈内,则数据可信;反之,则将不可信。将不可信的帧去除,取后续的n帧继续判断。

s4步骤中,智能处理终端包括图像数据源存储模块和修正计算模块。图像采集模块传输至智能处理终端的图像数据经过修正计算模块进行修正计算,然后设置为数据模板,将该数据模板存储在图像数据源存储模块。利用这些数据模板,与后来的图像数据进行匹配,近似度达到一定阈值,则直接采用存储的数据模板,一加快数据的访问速度。修正计算模块的修正计算方式为线性或二次曲线插值方法。

进一步地,所述修正计算方式为:相邻间隔的帧之间所述特征点修正插值函数,如第一帧特征点坐标p(x0,y0)。第三帧特征点为p(x1,y1),第二帧特征点坐标位置的修正公式如下:

l1(x)=l0(x)y0+l1(x)y1

l0(x)和l1(x)为线性插值基函数,分别为:

相邻特征点之间的轨迹修正插值为二次插值,如肩关节坐标点p(x0,y0),肘关节p(x1,y1),腕关节p(x2,y2),则绑定手部的模型或特效坐标p(x,y)公式如下:

l2(x)=l0(x)y0+l1(x)y1+l2(x)y2

其中满足:l2(x0)=y0,l2(x1)=y1,l2(x2)=y2。

l0(x),l1(x),l2(x)为二次插值基函数,分别为:

s5步骤中,对多人的肢体图像数据进行分组。将图像采集装置的采集区域进行划分,针对不同采集区域采集的图像数据,进行初始识别,标记为不同的组,从而形成多组序列数据。

s6步骤中,对s5中不同的序列数据进行监视,如果不同的序列数据运动至较为接近的范围内,则判定为多人之间进行了接触。

s7步骤中,将s3-s6步骤中的特征点进行交互判断,使得特征点的运动立体化,从而模拟人体的真实运动状态。同时,将智能处理终端中预设的模型加入到特征点的坐标上,形成了模型与人体的肢体图像的绑定,并用模型对人体的肢体图像中的特征点进行遮盖或者其它形式的互动。

进一步地,可以采用图像引擎或者其它相关插件对所述特征点进行特效渲染,从而形成更好的视觉效果。

进一步地,如果s6步骤中判定多人之间进行了接触,但图像显示装置并未显示多人进行了接触,则通过图像引擎或者其它相关插件进行特效修正,比如增加爆破动画或者爆破音效等。

本发明通过采用单目摄像机以及采用uvc协议与智能处理终端连接,利用现有大量智能设备的操作系统(安卓等)的计算能力,使得所有的计算都在本地完成,无需将数据传输至中心服务器,降低了硬件系统的成本,同时,如今的主流操作系统都已提供uvc设备驱动,因此采用uvc协议的单目摄像头在不需要安装任何的驱动程序下即可在智能处理终端中正常使用,从而使得整个系统的通用性更好,便于使用。

本发明通过少量的人体轮廓及关节特征点,通过对数据进行修正计算以及存储数据模板,降低了整个系统的计算量,从而使得整个识别过程时间变短,在0.5秒即可完成。

此外,传统视频图像的采样大多采用直接取样,即间隔相同的帧数进行数据抽取,然后线性差值补漏;或者采用重要性采样,在密度大的地方多采样,然后进行曲线模拟。这些采样方式会在肢体识别视频流中造成较大误差,比如特征点位置发生异常偏差,则差值结果或模拟曲线也会随之产生偏差。对这些特征点进行可信度筛选,从而使得特征点数据可信度较高,从而最终减少由于特征点的不规则运动引起最终显示图像的跳跃。

本发明还通过系统内预设模型与图像采集装置采集的现实真实图像进行绑定,使得用户获得良好的沉浸式体验,同时通过单目摄像机还可以实现多人的互动,实现了人机交互、人人交互的综合体验。

附图说明

图1是本发明中的多人协同动作识别的增强现实交互方法示意图;

图2是本发明中的真伪特征点变化示意图:(a)相邻帧间向量夹角和关节距离变化在可接受阈内;(b)相邻帧间向量夹角和关节距离变化在不可接受阈内;

图3是本发明中的接触判断示意图,圆形区域即判定为发生接触。

具体实施方式

结合图1,一种多人协同动作识别的增强现实交互方法。该方法包括以下步骤:

s1,采用单目uvc摄像头按帧数对人体的肢体图像进行采集。

s2,通过智能处理终端对采集的人体肢体图像进行处理,并将单目uvc摄像头获得的现实真实图像传输给显示器。

s3,通过智能处理终端,对所述肢体图像进行人体轮廓及关节特征点进行识别提取。采用肢体图像识别sdk开发包,对人体轮廓及关节特征点进行识别提取。特征点数量可以选择18个,如肩部、颈部、肘关节、腕关节、胯关节、膝关节等。由于图像采集设备传输的图像为密集型数据,不利于计算,设置单独的图形处理器将接收到的图像数据通过gibbs采样算法抽取近似的图形样本序列。设定条件,选取可信度高的特征点数据。参见图2,所述设定的条件为:相邻关节点的距离变化在正确阈内,相邻关节点向量夹角在等间隔帧内的变化量在可接受阈内,则数据可信(参见图2(a));反之,则将不可信(参见图2(b))。将不可信的帧去除,取后续的n帧继续判断。

s4,通过智能处理终端,将所述特征点进行真伪优化。智能处理终端包括图像数据源存储模块和修正计算模块。图像采集模块传输至智能处理终端的图像数据经过修正计算模块进行修正计算,然后设置为数据模板,将该数据模板存储在图像数据源存储模块。利用这些数据模板,与后来的图像数据进行匹配,近似度达到一定阈值,则直接采用存储的数据模板,一加快数据的访问速度。修人体的动作具有较大的连贯性和近似性,因此通过对特征点进行真伪优化,可以减少数据的计算量,缩短系统延迟时间。

正计算模块的修正计算方式为:相邻间隔的帧之间所述特征点修正插值函数,如第一帧特征点坐标p(x0,y0)。第三帧特征点为p(x1,y1),第二帧特征点坐标位置的修正公式如下:

l1(x)=l0(x)y0+l1(x)y1

l0(x)和l1(x)为线性插值基函数,分别为:

相邻特征点之间的轨迹修正插值为二次插值,如肩关节坐标点p(x0,y0),肘关节p(x1,y1),腕关节p(x2,y2),则绑定手部的模型或特效坐标p(x,y)公式如下:

l2(x)=l0(x)y0+l1(x)y1+l0(x)y2

其中满足:l2(x0)=y0,l2(x1)=y1,l2(x2)=y2。

l0(x),l1(x),l2(x)为二次插值基函数,分别为:

s5,通过智能处理终端,对所述特征点进行分组处理。对多人的肢体图像数据进行分组。将单目uvc摄像机的采集区域进行划分,针对不同采集区域采集的图像数据,进行初始识别,标记为不同的组,从而形成多组序列数据。

s6,通过智能处理终端,对所述特征点进行交互碰撞判断。参见图3,对s5中不同的序列数据进行监视,如果不同的序列数据运动至较为接近的范围内,则判定为多人之间进行了接触。

s7,通过智能终端,虚拟特效,对虚拟模型的方位进行处理。将s3-s6步骤中的特征点进行交互判断,使得特征点的运动立体化,从而模拟人体的真实运动状态。同时,实时计算特征点的坐标位置,将智能处理终端中预设的模型加入到特征点的坐标上,形成了模型与人体的肢体图像的绑定,并用模型对人体的肢体图像中的特征点进行遮盖或者其它形式的互动,并且在绑定后,所绑定的虚拟物品会随着特征点的移动而跟随移动,可以全方位的展示虚拟物品。在虚拟物品与特征点实现绑定后,需要对绑定状态进行进一步的确定,确定虚拟物品与特征点的坐标实现了重合,比如虚拟衣服是否穿在了试穿者的身上,有没有出现虚拟衣服自然形态的错误,有没有身体的某一部分未被虚拟衣物覆盖。

进一步地,可以采用图像引擎或者其它相关插件对所述特征点进行特效渲染,从而形成更好的视觉效果。

进一步地,如果s6步骤中判定多人之间进行了接触,但图像显示装置并未显示多人进行了接触,则通过图像引擎或者其它相关插件进行特效修正,比如增加爆破动画或者爆破音效等。

s8,将所述虚拟模型传输给图像显示装置。

本发明中的人体动作识别的增强现实系统以及方法,可以用于家庭娱乐、竞技游戏等,还可以用于商品销售,如真人模拟试衣,可以实现衣服随人体动作而做出相应变化,人在转身的同时,虚拟衣物也随着人一起转动;还可以借助人体识别的立体坐标数据,与ar应用中预置的形体坐标相比较,用于瑜伽动作训练的反馈,直观地观察动作是否标准;还可以用于真人动作类的互动游戏,比如现在的切水果游戏,只有人手部运动轨迹的显示,游戏者本身的图像并没有显示在屏幕上,或者仅显示虚拟的卡通人物,采用本发明的技术,可以将真实人像实时显示在电视屏幕上,可以同步显示人手部及其他肢体部分的运动,并且游戏者的实时表情也会显示在屏幕上,同时ar应用后台还会处理特征点与游戏中画面或者物体的位置,从而达到手到哪里,切水果的刀峰就会在哪里的效果。本发明还可以应用在滑雪、赛车、足球等诸多动作类游戏上,大大增强了游戏的娱乐性和带入感,实现人机交互、人人交互,给用户带来良好的沉浸式体验。

上述仅为本发明的较佳实施例而已,并非用来限定本发明实施的范围,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1