一种基于超声定位的三维笔势识别方法与流程

文档序号:12461765阅读:245来源:国知局
一种基于超声定位的三维笔势识别方法与流程

本发明属于人机交互领域,具体涉及一种基于超声定位的三维笔势识别方法。



背景技术:

信息技术的高速发展为人类生产、生活带来了广泛而深刻的影响,也促进了人机交互技术的发展,传统的基于windows、icons、menu、point device模式(简称WIMP)的人机交互方式需要频繁地切换鼠标、键盘、界面工具按钮,交互连续性差,已难以满足人们的需要。而笔式交互符合人类自然交互特性,具有较好的连续性和自然性,但笔式交互多基于传统的纸笔隐喻,只能在二维平面实现交互,在空间应用中显示出局限性,因此将二维笔势交互和三维真实场景交互相结合产生的三维笔势交互技术具有重要的研究价值。三维笔势交互技术将物理距离引入笔势交互,可在一定距离范围内实现笔与显示终端的交互,以更加自然和谐的方式进行终端操作,不受使用环境和用户行为的限制,具有广阔的应用前景。

在笔式交互方面,国内相关专利大都在二维笔式交互及其相关技术方面进行研究。中国专利“平面三自由度笔式力觉交互装置”(申请号CN201110221211.4)公开了一种平面三自由度笔式力觉交互装置,可以应用到游戏、教学、绘画练习等领域中,使用户通过握持交互笔直接在设备屏幕上进行操作的同时感受相应的反馈力和扭矩,实现了平面视觉和力觉显示的融合。中国专利“基于手写输入状态自适应判断处理的笔式交互方法及系统”(申请号CN201510018914.5)公开了一种基于手写输入状态自适应判断处理的笔式交互方法,在用户进行手绘图形输入和手写文字输入的过程中,自动判断用户当前输入状态并进行实时处理,简化了用户操作流程,使用户自然、高效地完成笔式交互。中国专利“基于投影跟踪的笔式交互系统”(申请号CN201010199301.3)公开了一种基于投影的笔式交互系统,通过红外投影扫描模块、无线通信接收模块、投影仪和交互笔的协同工作来完成笔式交互,在实现大范围、准确交互的同时实现逼真的毛笔书写交互效果。田丰等人在论文《UPIL:以用户为中心的笔式交互系统设计》中提出了一种以用户为中心的笔式交互系统的设计方法,提高了笔式交互系统的可用性。但这些设计方法均只考虑二维平面情况,将笔式交互技术限制在平面操作上,未提出适用于三维空间的笔式交互识别、笔迹跟踪等方法,限制了用户操作的自然性和灵活性。

手势是三维空间的一种自然直接的人机交互方式,在手势交互方面,国内已有相关专利进行研究。中国专利“手势识别装置、手势识别方法及手势识别系统”(申请号CN201510587921.7)公开了一种手势识别装置、方法及系统,该系统通过传感器识别运动手指相对于其他手指的运动信息和装置需要的输入方式,并由输入方式生成单元对应生成键盘输入位置、功能键、鼠标移动等,实现快速、准确的模拟输入内容。中国专利“一种手势识别方法及装置”(申请号CN201610195737.2)公开了一种手势识别方法,通过手部视频获得待识别手势的密度分布特征向量,通过计算该向量与预设标准手势库特征向量的欧氏距离来确定目标手势,有效提高手势识别的准确性。中国专利“红外手势识别装置的控制方法、装置和设备”(申请号CN201610286718.0)公开了一种红外手势识别装置的控制方法、红外手势识别装置和设备,提高了手势识别的准确率和可靠性,提升用户使用体验。这些设计方法虽然都是三维空间情况的人手活动,但都集中于手势交互活动,并未考虑笔势交互在三维空间中的应用,而手势交互存在多义性、多样性及时空上的差异性等固有缺陷,导致手势识别系统识别率低,实时性较差。

三维笔势交互是手势活动的一种,相对于手指关节多、灵活性强等特点,三维笔式交互只需要改变笔的运动位移、旋转角度等参量,可通过对笔的控制克服多义性、多样性等缺陷,精度较高。目前国内对三维笔势交互技术的研究仍处于起步阶段,三维笔势交互装置、定位方法和笔势识别方法等均未被充分研究。



技术实现要素:

本发明提供一种基于超声定位的三维笔势识别方法,目的是设计适合三维笔势交互装置使用的定位方法和笔势识别方法,采用超声定位技术提高三维笔势装置的定位精度;通过将三维笔势空间轨迹的三维坐标转化为二维投影坐标矩阵并与系统三维笔势库中对应的二维投影坐标矩阵进行匹配,实现系统对三维笔势的识别;利用系统三维笔势库的自适应学习机制适应用户的输入习惯,减少用户习惯对三维笔势识别效果的影响。

本发明采用的技术方案是:包括下列步骤:

步骤(1)三维笔势数据采集:利用超声定位技术采集用户在输入三维笔势时在空间划过轨迹的三维坐标;

步骤(2)笔势投影数据计算:计算用户输入的三维笔势空间轨迹的三维坐标在xOy、zOx和yOz三个平面上的投影坐标,并进行平滑处理,去除因用户手的抖动或环境噪声造成的微小偏差;

步骤(3)三维笔势匹配:分别在xOy、zOx和yOz三个平面上对平滑处理后的三维笔势投影坐标与系统三维笔势库中对应的投影坐标进行匹配,若两者匹配程度超过90%则认为匹配成功,执行三维笔势对应的指令;

步骤(4)三维笔势库自适应学习:根据用户三维笔势习惯对系统三维笔势库进行自适应更新,使系统逐步适应用户的输入习惯。

进一步地,所述步骤(1)中的三维笔势数据采集的具体实现过程如下:采用超声定位技术,首先由红外同步装置发送同步接收信号,为超声波接收器提供时间基准,之后通过笔势交互设备前端安装的超声波发生器发送超声波,通过显示终端上安装的3个超声波接收器同步接收超声波信号,从而定位出用户输入三维笔势时在空间划过轨迹的三维坐标S(xS,yS,zS):

zS≥0

其中A(xA,0,0)、B(0,yB,0)、C(xC,0,0)分别为显示终端上安装的3个超声波接收器的三维坐标,l1、l2、l3分别为笔尖位置与3个超声波接收器之间的距离,可通过超声波接收器获得。

由于人类手势活动一般在10Hz左右,而笔势交互是较为真实的手势活动,根据奈奎斯特定律可知,当采样频率fS大于信号中最高频率fmax的2倍时采样之后的数字信号可完整地保留原始信号中的信息,不失真地恢复出原始的模拟信号,工程应用中应保证采样频率为信号最高频率的5~10倍,因此本发明确定超声波传感器发送信号频率为60Hz,即信号每隔16ms发送一次,在保证接收信号连续性的同时降低装置能耗。

进一步地,所述步骤(2)中的笔势投影数据计算的具体实现过程如下:首先令用户输入的三维笔势空间轨迹的三维坐标zS=0,计算三维笔势空间轨迹在xOy平面的投影坐标,并将该投影坐标以二维投影坐标矩阵S1(xS,yS)的形式存储;令用户输入的三维笔势空间轨迹的三维坐标yS=0,计算三维笔势空间轨迹在zOx平面的投影坐标,并将该投影坐标以二维投影坐标矩阵S2(xS,zS)的形式存储;令用户输入的三维笔势空间轨迹的三维坐标xS=0,计算三维笔势在yOz平面的投影坐标,并将该投影坐标以二维投影坐标矩阵S3(yS,zS)的形式存储:

之后采用Savitzky-Golay平滑滤波器对3个二维投影坐标矩阵进行平滑处理,得到平滑处理后的二维投影坐标矩阵,去除因用户手的抖动或环境噪声造成的轨迹偏差。为保证系统实时性,本发明采用3×3的Savitzky-Golay平滑滤波器模板对S1(xS,yS)、S2(xS,zS)、S3(yS,zS)分别进行处理,通过移动窗口将投影矩阵与滤波器模板卷积,利用最小二乘法进行最佳拟合,本发明采用的3×3卷积模板a(k)具体为:

进一步地,所述步骤(3)中的三维笔势匹配的具体实现过程如下:将系统三维笔势库中每个笔势的3个二维投影坐标矩阵作为模板矩阵;将用户输入并经平滑处理后的二维投影坐标矩阵作为目标矩阵;将用户输入的三维笔势有效区域从平滑处理后的二维投影坐标矩阵中分割出来,并缩放到与模板矩阵相同的尺寸,作为三维笔势匹配的子目标矩阵;通过计算模板矩阵和子目标矩阵的归一化互相关函数对两者的相关性进行表征,并将归一化互相关函数值作为两者之间的匹配程度,若匹配程度超过90%则认为匹配成功,执行三维笔势对应的指令。

系统三维笔势库内存储系统预先设定的三维笔势信息,可实现的基本功能包括:放大、缩小、上翻、下翻、撤销、关闭、打开、前进、后退、最大化窗口和最小化窗口,每个三维笔势均以3个二维投影坐标矩阵方式被记录。

将三维笔势库中每个笔势的m×m阶二维投影坐标矩阵Sn作为模板矩阵An;将用户输入并经过平滑处理的M×N阶二维投影坐标矩阵作为目标矩阵Bn;三维笔势匹配首先需要将用户输入的三维笔势有效区域从平滑处理后的M×N阶二维投影坐标矩阵Bn中分割出来,之后将分割出的矩阵缩放为与模板矩阵An相同的尺寸,即m×m阶,将缩放后的矩阵作为子目标矩阵Cn,其中n=1、2、3时分别表示三维笔势空间轨迹在xOy、zOx和yOz三个平面的二维投影坐标矩阵;通过计算模板矩阵An和子目标矩阵Cn的归一化互相关函数对两者的相关性进行表征,并将归一化互相关函数值作为两者之间的匹配程度Rn,实现模板匹配过程,模板矩阵An和子目标矩阵Cn的互相关函数的归一化形式如下所示:

本发明选取模板矩阵和子目标矩阵的匹配程度阈值为90%,仅当用户输入的三维笔势的3个二维投影坐标矩阵与模板矩阵匹配程度均达到90%时,系统判定该三维手势匹配成功,执行三维笔势对应的指令。匹配程度阈值90%建立在大量实验基础上,当设定系统的匹配程度阈值为90%时可保证系统实时性,且用户绝大多数三维笔势输入意图被系统识别。模板矩阵尺寸对系统处理速度和笔势识别精度均有影响,模板过大将导致计算量增大,影响系统实时性,模板过小将降低三维笔势的识别效果。本发明采用32×32的二维投影坐标矩阵作为系统三维笔势库的模板矩阵An,可同时保证系统实时性和笔势识别精度。

进一步地,所述步骤(4)中的三维笔势库自适应学习的具体实现过程如下:当用户第一次输入的三维笔势B1(b1,b2,b3)与系统三维笔势库中的三维笔势A(a1,a2,a3)的匹配程度低于90%时,系统无法识别该笔势,不响应用户指令,则系统进入三维笔势库自适应学习阶段,根据用户三维笔势习惯对三维笔势库进行自适应更新。Bi为用户第i次输入的三维笔势信息;a1、a2、a3为系统三维笔势库中的三维笔势在xOy、zOx和yOz三个平面的投影坐标矩阵;b1、b2、b3为用户第一次输入的三维笔势在xOy、zOx和yOz三个平面的投影坐标矩阵。

当用户第一次输入的三维笔势B1(b1,b2,b3)与系统三维笔势库中的三维笔势A(a1,a2,a3)的匹配程度低于90%时,系统无法识别该笔势,则该笔势信息暂存入系统临时三维笔势库中,并由用户重新输入三维笔势B2(b1,b2,b3),系统计算用户第二次输入的三维笔势B2(b1,b2,b3)与系统三维笔势库中的三维笔势A(a1,a2,a3)、用户第二次输入的三维笔势B2(b1,b2,b3)与用户第一次输入的三维笔势B1(b1,b2,b3)(或三维笔势的某二维投影坐标矩阵)的匹配程度,并将匹配程度超过90%的三维笔势(或三维笔势的某二维投影坐标矩阵)记录入系统三维笔势库中,代替当前系统三维笔势库中的三维笔势(或三维笔势的某二维投影坐标矩阵),使系统逐步适应用户的输入习惯。

系统临时三维笔势库内存储用户输入的三维笔势,其放大、缩小、上翻、下翻、撤销、关闭、打开、前进、后退、最大化窗口和最小化窗口功能与系统三维笔势库对应,每个三维笔势均以3个二维投影坐标矩阵方式被记录。

本发明具有以下的优点:

1、三维笔势交互装置可实现笔与显示终端的非接触交互,以更加自然、和谐的方式进行终端操作;

2、采用超声定位技术确定输入三维笔势时在空间划过轨迹的三维坐标,具有定位精度高,实时性好等优势,克服了手势活动的多义性和多样性缺陷;

3、将空间笔势信息转换为二维投影信息进行处理,降低计算复杂度,提高了系统三维笔势的识别速度;

4、采用模板匹配方法将用户输入的笔势信息与三维笔势库信息进行匹配,识别精度高,处理速度快;

5、使用归一化互相关函数值作为匹配程度,对用户输入的笔势信息进行描述,实现三维笔势库的自动更新,可适应不同用户的输入习惯,减少用户习惯对手势识别效果的影响,提高三维笔势交互系统的用户体验。

附图说明

图1是基于超声定位的三维笔势识别方法框架;

图2A是使用三维笔势交互装置关闭页面的操作示意图;

图2B是超声定位技术原理图;

图3A是三维“撤销”笔势的投影计算示意图;

图3B是三维“撤销”笔势在xOy平面的投影;

图3C是三维“撤销”笔势在zOx平面的投影;

图3D是三维“撤销”笔势在yOz平面的投影;

图4A是以“撤销”操作为例的三维笔势匹配示意图;

图4B是三维笔势模板匹配原理示意图。

具体实施方式

下面结合附图与三维“撤销”笔势为例的实施例对本发明进行详细阐述。

徐礼爽、田丰等人在论文《再现双向适应的笔手势界面框架研究》中将“用笔画出来的符号来调用计算机命令的技术”称为“笔手势”,但该概念多指平面笔势交互情况,因此本发明将三维空间“用笔画出来的符号调用计算机命令的技术”称之为“三维笔势”。

图1是基于超声定位的三维笔势识别方法框架,所述方法主要包括:

步骤102三维笔势数据采集:利用超声定位技术采集用户在输入三维笔势101时在空间划过轨迹的三维坐标;

步骤103笔势投影数据计算:计算用户输入101的三维笔势空间轨迹的三维坐标在xOy、zOx和yOz三个平面上的投影坐标,并进行平滑处理,去除因用户手的抖动或环境噪声造成的微小偏差;

步骤104三维笔势匹配:分别在xOy、zOx和yOz三个平面上对平滑处理后的三维笔势投影坐标与系统三维笔势库中的坐标数据进行匹配,若两者匹配程度超过90%则认为匹配成功,执行三维笔势对应的指令;

步骤105三维笔势库自适应学习:根据用户三维笔势习惯对系统三维笔势库进行自适应更新,使系统逐步适应用户的输入习惯。

所述三维笔势库106内存储出厂前系统预先设定的三维笔势信息,可实现的基本功能包括:放大、缩小、上翻、下翻、撤销、关闭、打开、前进、后退、最大化窗口、最小化窗口,每个三维笔势均以3个二维投影坐标矩阵方式被记录。

图2A是使用三维笔势交互装置关闭页面的操作示意图,用户在空间输入代表“关闭”指令的三维笔势201,通过3个超声波接收器202、203、204采集用户输入三维笔势时在空间划过轨迹的三维坐标,计算空间划过轨迹的三维坐标在xOy、zOx和yOz三个平面的投影坐标,并进行平滑处理,去除因用户手的抖动或环境噪声造成的微小偏差;将平滑处理后的三维笔势投影坐标与系统三维笔势库中的坐标数据进行匹配,匹配成功则执行对应指令,关闭当前页面,返回主页面。本发明涉及的笔势交互系统使用电子白板205作为显示终端,可连接电子设备并通过投影仪206实现图像显示、实时放映等功能。

图2B是超声定位技术原理图,本发明采用超声定位技术,首先由红外同步装置发送同步接收信号,为超声波接收器提供时间基准,并以显示终端上安装的3个超声波同步接收器202、203、204为基准建立空间坐标系208、209、210,通过笔势交互设备前端安装的超声波发生器207发送超声波,通过显示终端上安装的3个超声波同步接收器202、203、204接收超声波信号,从而定位出用户输入三维笔势时在空间划过轨迹的三维坐标S(xS,yS,zS):

zS≥0

其中A(xA,0,0)、B(0,yB,0)、C(xC,0,0)分别为显示终端205上安装的3个超声波接收器的三维坐标,l1、l2、l3分别为笔尖位置与3个超声波接收器之间的距离,可通过超声波接收器获得。

由于人类手势活动一般在10Hz左右,而笔势交互是较为真实的手势活动,根据奈奎斯特定律可知,当采样频率fS大于信号中最高频率fmax的2倍时采样之后的数字信号可完整地保留原始信号中的信息,不失真地恢复出原始信号,工程应用中应保证采样频率为信号最高频率的5~10倍,因此本发明确定超声波传感器发送信号频率为60Hz,即信号每隔16ms发送一次,在保证接收信号连续性的同时降低装置能耗。

图3A是三维“撤销”笔势的投影计算示意图,图3B是三维“撤销”笔势在xOy平面的投影;图3C是三维“撤销”笔势在zOx平面的投影;图3D是三维“撤销”笔势在yOz平面的投影;首先令用户输入的三维笔势空间轨迹的三维坐标zS=0,计算三维笔势空间轨迹在xOy平面的投影坐标2111,并将该投影坐标以二维投影坐标矩阵S1(xS,yS)的形式存储;令用户输入的三维笔势空间轨迹的三维坐标yS=0,计算三维笔势在zOx平面的投影坐标2112,并将该投影坐标以二维投影坐标矩阵S2(xS,zS)的形式存储;令用户输入的三维笔势空间轨迹的三维坐标xS=0,计算三维笔势在yOz平面的投影坐标2113,并将该投影坐标以二维投影坐标矩阵S3(yS,zS)的形式存储:

之后采用Savitzky-Golay平滑滤波器对3个二维投影坐标矩阵进行平滑处理,得到平滑处理后的二维投影坐标矩阵,去除因用户手的抖动或环境噪声造成的轨迹偏差。为保证系统实时性,本发明采用3×3的Savitzky-Golay平滑滤波器模板对三维笔势空间轨迹的三维坐标在xOy、zOx和yOz三个平面的投影坐标S1(xS,yS)、S2(xS,zS)、S3(yS,zS)211分别进行处理,通过移动窗口将投影矩阵与滤波器模板卷积,利用最小二乘法进行最佳拟合,本发明采用的3×3卷积模板a(k)具体为:

图4A是以“撤销”操作为例的三维笔势匹配示意图,笔势匹配的具体实现过程如下:将系统三维笔势库中每个笔势的3个二维投影坐标矩阵作为模板矩阵;将用户输入并经平滑处理后的二维投影坐标矩阵作为目标矩阵402;将用户输入的三维笔势有效区域从平滑处理后的二维投影坐标矩阵401中分割出来403,并缩放到与模板矩阵相同的尺寸,作为三维笔势匹配的子目标矩阵404;通过计算模板矩阵405和子目标矩阵的归一化互相关函数对两者的相关性进行表征,并将归一化互相关函数值作为两者之间的匹配程度,若匹配程度超过90%则认为匹配成功,执行“撤销”指令。

将三维笔势库中每个笔势的m×m阶二维投影坐标矩阵Sn作为模板矩阵An405;将用户输入并经过平滑处理的M×N阶二维投影坐标矩阵作为目标矩阵Bn402;三维笔势匹配首先需要将用户输入的三维笔势有效区域从平滑处理后的M×N阶二维投影坐标矩阵Bn中分割出来,之后将分割出的矩阵缩放为与模板矩阵An相同尺寸的矩阵,即m×m阶,将缩放后的矩阵作为子目标矩阵Cn,其中n=1、2、3时分别表示三维笔势空间轨迹在xOy、zOx和yOz三个平面的二维投影坐标矩阵。通过计算模板矩阵An和子目标矩阵Cn的归一化互相关函数对两者的相关性进行表征,并将归一化互相关函数值作为两者之间的匹配程度Rn,实现模板匹配过程。模板矩阵An和子目标矩阵Cn的互相关函数的归一化形式如下所示:

本发明选取模板矩阵和子目标矩阵的匹配程度阈值为90%,当且仅当用户输入的三维笔势的3个二维投影坐标矩阵与模板矩阵匹配程度均达到90%时,系统判定该三维手势匹配成功,执行三维笔势对应的指令。匹配程度阈值90%建立在大量实验基础上,当设定系统的匹配程度阈值为90%时可保证系统实时性,且用户绝大多数三维笔势输入意图被系统识别。模板矩阵的大小对系统处理速度和笔势识别精度均有影响,模板过大将导致计算量增大,影响系统实时性,模板过小将降低三维笔势的识别效果。本发明采用32×32大小的二维投影坐标矩阵Sn作为系统三维笔势库的模板矩阵An401,可同时保证系统实时处理速度和笔势识别精度。

当用户第一次输入的三维笔势B1(b1,b2,b3)与系统三维笔势库中的三维笔势A(a1,a2,a3)的匹配程度低于90%时,系统无法识别该笔势,不响应用户指令,则系统进入三维笔势库自适应学习阶段,根据用户三维笔势习惯对三维笔势库进行自适应更新。Bi为用户第i次输入的三维笔势信息;a1、a2、a3为系统三维笔势库中的三维笔势在xOy、zOx和yOz三个平面的投影坐标矩阵;b1、b2、b3为用户第一次输入的三维笔势在xOy、zOx和yOz三个平面的投影坐标矩阵。

当用户第一次输入的三维笔势B1(b1,b2,b3)与系统三维笔势库中的三维笔势A(a1,a2,a3)的匹配程度低于90%时,系统无法识别该笔势,则该笔势信息暂存入系统临时三维笔势库中,并由用户重新输入三维笔势B2(b1,b2,b3),系统计算用户第二次输入的三维笔势B2(b1,b2,b3)与系统三维笔势库中的三维笔势A(a1,a2,a3)、用户第二次输入的三维笔势B2(b1,b2,b3)与用户第一次输入的三维笔势B1(b1,b2,b3)(或三维笔势的某二维投影坐标矩阵)的匹配程度,并将匹配程度超过90%的三维笔势(或三维笔势的某二维投影坐标矩阵)记录入系统三维笔势库中,代替当前系统三维笔势库中的三维笔势(或三维笔势的某二维投影坐标矩阵),使系统逐步适应用户的输入习惯。

系统临时三维笔势库内存储用户输入的三维笔势,其放大、缩小、上翻、下翻、撤销、关闭、打开、前进、后退、最大化窗口、最小化窗口功能与系统三维笔势库对应,每个三维笔势均以3个二维投影坐标矩阵方式被记录。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1