手势辨识模块及手势辨识方法

文档序号：6492117阅读：472来源：国知局

手势辨识模块及手势辨识方法
【专利摘要】本发明公开了一种手势辨识模块，用来辨识一使用者的一手势，包含有一影像撷取单元，用来依序撷取一第一手势的影像的一第一像素值、一第二像素值、一第三像素值及一第四像素值；一运算单元，耦接于该影像撷取单元，用来根据该第一像素值及该第二像素值间的一第一像素差值，决定可框选该第一像素差值的一第一最小包围形状，以及根据该第三像素值及该第四像素值间的一第二像素差值，决定可框选该第二像素差值的一第二最小包围形状；以及一判断单元，耦接于该运算单元，用来根据该第一最小包围形状及该第二最小包围形状间一关系，判断该第一手势。
【专利说明】手势辨识模块及手势辨识方法
【技术领域】
[0001]本发明涉及一种手势辨识模块及手势辨识方法，特别涉及一种具有低复杂度及高准确度的手势辨识模块及手势辨识方法。
【背景技术】
[0002]随着宽频网络的进步及普及，使用者可通过电脑或机顶盒(Set-top Box)来观看数字内容及多媒体信息。一般而言，使用者必须通过键盘、鼠标或遥控器等输入装置，来输入指令至电脑或机顶盒，才可对电脑或机顶盒进行控制，例如选择或拨放数字内容及多媒体信息等。也就是说，当使用者不使用(或不便于使用)上述的输入装置时，便难以对电脑或机顶盒进行控制，使电脑或机顶盒的便利性受到限制。
[0003]另一方面，由于影像辨识技术已经逐渐成熟，不仅有电玩厂商推出具有影像辨识的游乐器材，有电脑厂商推出具有影像辨识的周边装置，也有家电厂商推出具有影像辨识的液晶电视，以提供使用者通过影像辨识，对游乐器材、电脑或液晶电视进行控制。以影像辨识中较广为使用的手势辨识来说，在通过手势辨识对上述装置进行控制时，使用者需要在侦测器(如摄影机)前做出预先定义的手势，以供装置判断使用者所欲输入的指令，以及执行对应于该指令的运作。
[0004]然而，手势辨识的准确度容易受到使用者及/或环境等因素的影响，例如手势辨识会受影像的解析度、手势的完整度、光源是否充足及/或背景的复杂程度等因素的影响，使装置难以撷取足够清晰的影像，并做出错误的判断，进而执行错误的指令或甚至不执行任何指令。虽然可通过使用更复杂的影像辨识演算法或更昂贵的侦测单器来改善手势辨识的准确度，但制造成本也会随的提高，进而影响相关产品的销售量。因此，如何以较低的成本改善手势辨识的准确度是一亟待解决的问题。

【发明内容】

[0005]因此，本发明的主要目的即在于提供一种手势辨识模块及手势辨识方法，以解决上述问题。
[0006]本发明揭露一种手势辨识模块，用来辨识一使用者的一手势，该手势辨识模块包含有一影像撷取单元，用来依序撷取该使用者的一第一手势的影像的一第一像素(pixel)值、一第二像素值、一第三像素值及一第四像素值；一运算单元，耦接于该影像撷取单元，用来根据该第一像素值及该第二像素值间的一第一像素差值，决定可框选该第一像素差值的一第一最小包围形状，以及根据该第三像素值及该第四像素值间的一第二像素差值，决定可框选该第二像素差值的一第二最小包围形状，其中该第一最小包围形状与该第二最小包围形状的形状或框选方式相同；以及一判断单元，耦接于该运算单元，用来根据该第一最小包围形状及该第二最小包围形状间的一关系，判断该第一手势。
[0007]本发明另揭露一种辨识一使用者的一手势的方法，用于一手势辨识模块中，该方法包含有依序撷取该使用者的一第一手势的影像的一第一像素(pixel)值、一第二像素值、一第三像素值及一第四像素值；根据该第一像素值及该第二像素值间的一第一像素差值，决定可框选该第一像素差值的一第一最小包围形状，以及根据该第三像素值及该第四像素值间的一第二像素差值，决定可框选该第二像素差值的一第二最小包围形状，其中该第一最小包围形状与该第二最小包围形状的形状或框选方式相同；以及根据该第一最小包围形状及该第二最小包围形状间的一关系，判断该第一手势。
【专利附图】

【附图说明】
[0008]图1为本发明实施例一手势辨识模块的示意图。
[0009]图2为本发明实施例手指的影像的像素差值示意图。
[0010]图3为本发明实施例手势的影像的像素差值示意图。
[0011]图4为本发明实施例手势的影像的像素差值示意图。
[0012]图5为本发明实施例一流程的示意图。
[0013]其中，附图标记说明如下:
[0014]10:手势辨识模块
[0015]100:影像撷取单元
[0016]102:运算单元
[0017]104:判断单元
[0018]200、210、300、302、310、312、400、402、404、406、420、422、424、426:手势
[0019]202、212、304、306、314、316:像素值
[0020]220、308、318、408、410、428、430:像素差值
[0021]320、330、412、414、432、434:最小矩形
[0022]50:流程
[0023]500、502、504、506、508:步骤
[0024]tl?t8:时间点
【具体实施方式】
[0025]请参考图1，图1为本发明实施例一手势辨识模块10的示意图，其由一影像撷取单元100、一运算单元102及一判断单元104所组成。详细来说，影像撷取单元100用来依序撷取(或侦测)使用者的手势的影像的一第一像素(pixel)值、一第二像素值、一第三像素值及一第四像素值。运算单元102耦接于影像撷取单元100，用来根据第一像素值及第二像素值间的一第一像素差值，决定可框选第一像素差值的一第一最小包围形状，以及根据第三像素值及第四像素值间的一第二像素差值，决定可框选第二像素差值的一第二最小包围形状，其中该第一最小包围形状及该第二最小包围形状的形状或框选方式相同。判断单元104耦接于运算单元102，用来根据第一最小包围形状及第二最小包围形状间的一关系，判断使用者的手势。简单来说，于影像撷取单元100撷取使用者所做出的手势后，运算单元102会根据撷取到的多个像素值进行运算以及产生运算结果，使判断单元104可根据运算结果判断使用者的手势。
[0026]需注意的是，图1中的手势辨识模块10用来举例说明本发明。实际上，也可将影像撷取单元100、运算单元102及判断单元104整合为单一手势辨识单元(如手势辨识芯片)，不限于此。此外，手势辨识模块10可耦接于各种装置，如鼠标、键盘、机顶盒(Set-topbox)、体感游戏机、手持行动装置、液晶电视或智能型电视等，以根据手势辨识模块10所得的辨识结果，触发预先设定的指令，进而对装置进行控制。此外，实现影像撷取单元100的方式有很多种，例如可使用电荷稱合元件(charge-coupled device, CCD)或互补式金属氧化物半导体(complementary metal-oxi de-semi conductor, CMOS)等影像感测兀件来实现影像撷取单元100。
[0027]请参考图2，图2为本发明实施例手指的影像的像素差值示意图，其中以手指的直立及弯曲为范例，说明像素差值的计算方式。于图2中，于手指从时间点tl的直立改为时间点t2的弯曲后，影像撷取单元100会于时间点tl撷取到直立手势200的影像的像素值202，以及于时间点t2撷取到弯曲手势210的影像的像素值212。因此，根据像素值202及212，运算单元102可获得(如通过计算)一像素差值220。需注意的是，影像撷取单元所撷取及记录手指的像素值的方式可以有很多种。举例来说，可使用灰阶(grayscale)来记录像素值，像素值的范围可为8比特(即像素值介于O?255之间)、10比特(即像素值介于O?1023之间)或12比特(即像素值介于O?4095之间)，不限于此，只要可用来区别所撷取影像的差异即可。
[0028]请参考图3，图3为本发明实施例手势的影像的像素差值示意图，其以使用者的抓取手势(grab gesture)为范例说明本发明的概念。于图3中，于时间点tl?t4，手掌逐渐从直立(或张开、半张开)改为握拳(或半握拳)后，影像撷取单元100会先分别于时间点tl及t2撷取到手势300及302的影像的像素值304及306，以及根据像素值304及306，运算单元102可获得一像素差值308。接着，影像撷取单元100会分别于时间点t3及t4撷取到手势310及312的影像的像素值314及316，以及根据像素值314及316，运算单元102可获得一像素差值318。进一步地，运算单元102决定可框选(所有)像素差值308的一最小矩形320，以及决定可框选(所有)像素差值318的一最小矩形330。因此，根据最小矩形320及330间的关系，判断单元104可判断使用者的手势。以图3为例，判断单元104可于最小矩形320的面积大于最小矩形330的面积时，判断使用者的手势抓取手势，即判断使用者于时间点tl?t4间，用手掌做了抓取的动作。或者，为了避免误判，例如手掌仅有些微的晃动，而未做抓取的动作，可设定一门限值来避免判断单元104误判手势。例如，判断单元104可于最小矩形320的面积大于最小矩形330的面积及一第一预先设定值的一总和时，判断使用者的手势为抓取手势。
[0029]需注意的是，以上是以图3为例，即以使用者的抓取手势举例说明本发明的概念。当使用者所做的动作为释放手势(release gesture)时,影像撷取单元100、运算单元102及判断单元104也会根据以上所述的步骤，判断使用者的手势。举例来说，判断单元104会于最小矩形320的面积小于最小矩形330的面积时，判断使用者的手势为释放手势，即判断使用者于时间点tl?t4间，用手掌做了释放的动作。或者，判断单元104为了避免误判手势，可于最小矩形330的面积大于最小矩形320的面积及一第二预先设定值的一总和时，判断使用者的手势为释放手势，其中第一预先设定值(用于判断抓取手势的门限值)及第二预先设定值(用于判断释放手势的门限值)可相同或不同。
[0030]因此，根据以上所述，本发明可以较低的成本改善手势辨识的准确度，解决现有技术难以同时兼顾成本及准确度的问题。[0031]需注意的是，通过本发明所提供的手势辨识模块10，使用者可使用手掌来对各种装置进行控制。举例来说，当手势辨识模块10连接并应用在如液晶电视或智能型电视上时，使用者可使用抓取手势来模拟电脑鼠标左键的点选动作，以选择显示于荧幕上的图形界面图标或选单，例如可于点选后进而执行或移动该图形界面图标或选单。或者，抓取手势也可模拟电脑鼠标右键的点击，以开启功能选单。惟本发明的概念不限于此，抓取手势所对应的输入指令可依应用产品的需要而预先定义及设计，或是提供使用者自行更改及设定，且本发明可模拟的输入装置也不限于电脑鼠标。
[0032]另一方面，于第3图中，手势辨识模块10会依序地于4个时间点撷取手掌的手势的影像。实际上，手势辨识模块10也可依序地于3个时间点撷取手掌的手势的影像。也就是说，时间点t2及时间点t3指同一时间点，即像素值306可等于像素值314而为同一影像的像素值。此外，不同时间点间的间隔长度可由手势辨识模块10的制造商设定及储存于手势辨识模块10中。或者，可由使用者根据个人偏好来自行设定时间点间的间隔长度，不限于此。
[0033]除此之外，在对手势辨识模块10的运作方式稍做变化后，手势辨识模块10也可依序地于更多的时间点撷取手势。请参考图4，图4为本发明实施例手势的影像的像素差值示意图，其以使用者的抓取手势及释放手势为范例说明本发明的概念。于图4中，影像撷取单元100先分别于时间点tl?t4撷取手势400?406的影像，以分别获得其第一至第四像素值(未绘示于图中)，使运算单元102可根据第一至第四像素值获得第一像素差值408及第二像素差值410，以及可框选(所有)第一像素差值408的最小矩形412及可框选(所有)第二像素差值410的最小矩形414。接着，影像撷取单元100分别于时间点t5?t8撷取手势420?426的影像，以分别获得第五至第八像素值(未绘示于图中)，使运算单元102可根据该像素值获得第三像素差值428及第四像素差值430，以及可框选(所有)第三像素差值428的最小矩形432及可框选(所有)第四像素差值430的最小矩形434。因此，于本实施例中，由于最小矩形412的面积大于最小矩形414的面积以及最小矩形432的面积小于最小矩形434的面积，判断单元104可判断使用者于时间点tl?t8中，依序做了抓取手势及释放手势。与前述实施例相同，本实施例其中的第二像素值可等于第三像素值而为同一影像的像素值，而第六像素值可等于第七像素值而为同一影像的像素值。
[0034]根据上述实施例，当手势辨识模块10连接并应用在如液晶电视或智能型电视上时，使用者可使用抓取手势来模拟电脑鼠标左键的点选动作，以选择显示于荧幕上的图形界面图标或选单，例如可于点选后进而执行或移动该图形界面图标或选单。或者，抓取手势也可模拟电脑鼠标右键的点击，以开启功能选单。惟本发明的概念不限于此，抓取手势所对应的输入指令可依应用产品的需要而预先定义及设计，或是提供使用者自行更改及设定，且本发明可模拟的输入装置也不限于电脑鼠标。
[0035]此外，本实施例是使用4个像素差值来判断抓取手势及释放手势。实际上，也可使用3个像素差值来判断抓取手势及释放手势，即仅使用影像撷取单元100于时间点tl?t4间以及时间点t7?t8间所获得的像素差值来判断抓取手势及释放手势。更进一步地，本领域具通常知识者当可根据系统需求，做不同的变化或修饰，使用各种数量的时间点所撷取的手势的像素值来判断手势，或者使用不同的手势组合(或趋势)来触发各种指令以控制装置，而不限于此。[0036]根据以上所述，图1所绘示手势辨识模块10的运作方式可归纳为一流程50，其包含以下步骤:
[0037]步骤500:开始。
[0038]步骤502:依序撷取一使用者的一手势的影像的一第一像素值、一第二像素值、一第三像素值及一第四像素值。
[0039]步骤504:根据该第一像素值及该第二像素值间的一第一像素差值，决定可框选该第一像素差值的一第一最小包围形状，以及根据该第三像素值及该第四像素值间的一第二像素差值，决定可框选该第二像素差值的一第二最小包围形状，其中该第一最小包围形状及该第二最小包围形状的形状或框选方式相同。
[0040]步骤506:根据该第一最小包围形状及该第二最小包围形状间的一关系，判断该手势。
[0041]步骤508:结束。
[0042]流程50的详细说明及相关变化可参考前述，于此不赘述。
[0043]值得一提的是，前述最少能框选(所有)第一像素差值以及框选(所有)第二像素差值是以矩形为例，本领域具通常知识者当知也可更改设计为椭圆形或多边形等几何形的包围形状来框选像素差值，也可以是如一般绘图影像处理软体常见的套索方式的不规则形状来进行框选出包围形状。惟框选(所有)第一像素差值的包围形状或框选方式需相同于框选(所有)第二像素差值的包围形状或框选方式，才有利于在同一条件基础下比较的面积大小。
[0044]综上所述，本发明提供一种手势辨识模块及手势辨识方法，可以较低的成本改善手势辨识的准确度，解决现有技术难以同时兼顾成本及准确度的问题。
[0045]以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。
【权利要求】
1.一种手势辨识模块，用来辨识一使用者的一手势，该手势辨识模块包含有: 一影像撷取单元，用来依序撷取该使用者的一第一手势的影像的一第一像素值、一第二像素值、一第三像素值及一第四像素值；一运算单元，耦接于该影像撷取单元，用来根据该第一像素值及该第二像素值间的一第一像素差值，决定可框选该第一像素差值的一第一最小包围形状，以及根据该第三像素值及该第四像素值间的一第二像素差值，决定可框选该第二像素差值的一第二最小包围形状，其中该第一最小包围形状及该第二最小包围形状的形状或框选方式相同；以及一判断单元，耦接于该运算单元，用来根据该第一最小包围形状及该第二最小包围形状间的一关系，判断该第一手势。
2.如权利要求1所述的手势辨识模块，其中当该第一最小包围形状的一面积大于该第二最小包围形状的一面积时，该判断单元判断该第一手势为一抓取手势，以及该第一最小包围形状的该面积小于该第二最小包围形状的该面积时，该判断单元判断该第一手势为一释放手势。
3.如权利要求2所述的手势辨识模块，其中当该第一最小包围形状的该面积大于该第二最小包围形状的该面积及一第一预先设定值的一总和时，该判断单元判断该第一手势为该抓取手势，以及该第二最小包围形状的该面积大于该第一最小包围形状的该面积及一第二预先设定值的一总和时，该判断单元判断该第一手势为该释放手势。
4.如权利要求2 所述的手势辨识模块，其中当该第一手势为该抓取手势时，模拟一电脑输入装置的一点选动作或是一功能选单开启动作。
5.如权利要求2所述的手势辨识模块，另执行以下步骤: 于撷取该第四像素值后，该影像撷取单元依序撷取该使用者的一第二手势的影像的一第五像素值、一第六像素值、一第七像素值及一第八像素值；根据该第五像素值及该第六像素值间的一第三像素差值，该运算单元决定可框选该第三像素差值的一第三最小包围形状，以及根据该第七像素值及该第八像素值间的一第四像素差值，该运算单元决定可框选该第四像素差值的一第四最小包围形状，其中该第三最小包围形状及该第四最小包围形状的形状或框选方式相同；以及根据该第三最小包围形状及该第四最小包围形状间的一关系，该判断单元判断该第二手势。
6.如权利要求5所述的手势辨识模块，其中当该第三最小包围形状的一面积大于该第四最小包围形状的一面积时，该判断单元判断该第二手势为该抓取手势，以及该第三最小包围形状的该面积小于该第四最小包围形状的该面积时，该判断单元判断该第二手势为该释放手势。
7.如权利要求6所述的手势辨识模块，其中当该第一手势为该抓取手势以及该第二手势为该释放手势时，模拟一电脑输入装置的一点击动作或一功能选单开启动作。
8.如权利要求1所述的手势辨识模块，其中该第三像素值可等于该第二像素值而为同一影像的像素值。
9.如权利要求1所述的手势辨识模块，其中该第一最小包围形状及该第二最小包围形状为几何形。
10.如权利要求9所述的手势辨识模块，其中该几何形为矩形。
11.如权利要求1所述的手势辨识模块，其中该第一最小包围形状及该第二最小包围形状以一套索方式产生的不规则形状。
12.—种辨识一使用者的一手势的方法，用于一手势辨识模块中，该方法包含有: 依序撷取该使用者的一第一手势的影像的一第一像素值、一第二像素值、一第三像素值及一第四像素值；根据该第一像素值及该第二像素值间的一第一像素差值，决定可框选该第一像素差值的一第一最小包围形状，以及根据该第三像素值及该第四像素值间的一第二像素差值，决定可框选该第二像素差值的一第二最小包围形状，其中该第一最小包围形状及该第二最小包围形状的形状或框选方式相同；以及根据该第一最小包围形状及该第二最小包围形状间的一关系，判断该第一手势。
13.如权利要求12所述的方法，其中当该第一最小包围形状的一面积大于该第二最小包围形状的一面积时，判断该第一手势为一抓取手势，以及该第一最小包围形状的该面积小于该第二最小包围形状的该面积时，判断该第一手势为一释放手势。
14.如权利要求13所述的方法，其中当该第一最小包围形状的该面积大于该第二最小包围形状的该面积及一第一预先设定值的一总和时，判断该第一手势为该抓取手势，以及该第二最小包围形状的该面积大于该第一最小包围形状的该面积及一第二预先设定值的一总和时，判断该第一手势为该释放手势。
15.如权利要求1 3所述的方法,其中当该第一手势为该抓取手势时,模拟一电脑输入装置的一点选动作或是一功能选单开启动作。
16.如权利要求13所述的方法，还包含有: 于撷取该第四像素值后，依序撷取该使用者的一第二手势的影像的一第五像素值、一第六像素值、一第七像素值及一第八像素值；根据该第五像素值及该第六像素值间的一第三像素差值，决定可框选该第三像素差值的一第三最小包围形状，以及根据该第七像素值及该第八像素值间的一第四像素差值，决定可框选该第四像素差值的一第四最小包围形状，其中该第三最小包围形状及该第四最小包围形状的形状或框选方式相同；以及根据该第三最小包围形状及该第四最小包围形状间的一关系，判断该第二手势。
17.如权利要求16所述的方法，其中当该第三最小包围形状的一面积大于该第四最小包围形状的一面积时，判断该第二手势为该抓取手势，以及该第三最小包围形状的该面积小于该第四最小包围形状的该面积时，判断该第二手势为该释放手势。
18.如权利要求17所述的方法，其中当该第一手势为该抓取手势以及该第二手势为该释放手势时，模拟一电脑输入装置的一点击动作或一功能选单开启动作。
19.如权利要求12所述的方法，其中该第三像素值等于该第二像素值而为同一影像的像素值。
20.如权利要求12所述的方法，其中该第一最小包围形状及该第二最小包围形状为几何形。
21.如权利要求17所述的方法，其中该几何形为矩形。
22.如权利要求12所述的方法，其中该第一最小包围形状及该第二最小包围形状以一套索方式产生的不规则形状。
【文档编号】G06K9/00GK103838364SQ201210505837
【公开日】2014年6月4日申请日期:2012年11月30日优先权日:2012年11月21日
【发明者】谢昇宪, 魏守德, 刘品宏, 郭哲佑申请人:纬创资通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢昇宪;魏守德;刘品宏;郭哲佑
技术所有人：纬创资通股份有限公司
我是此专利的发明人

上一篇：一种点餐系统的制作方法
上一篇：一种移动终端及其快捷操作的实现方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。