手势辨识与控制方法及其装置与流程

文档序号：11827978阅读：340来源：国知局

技术领域

本发明是有关于一种辨识与控制方法及其装置，且特别是有关于一种手势辨识与控制方法及其装置。

背景技术：

传统的人机互动介面为滑鼠、键盘和摇杆，随着科技发展日新月异，为了使人机互动可以更加便利，于是有了触控、声控等技术的出现。为了使人机互动可以更加人性化，体感控制提供了一种全新的输入方式，其中之一为手势辨识，由于手势是人与人在日常生活中常用的沟通方式之一，是一种相当直觉且方便的示意方式。手势辨识应用于人机介面设计、医疗复健、虚拟实境、数字艺术创作与游戏设计等领域近来渐渐受到消费者的瞩目。

辨识手势的信息主要有两种：一是动态手势，另一则是静态手势。动态手势信息包括手部移动轨迹、位置信息与时序关系，静态手势信息则主要为手形变化，通过分析手势信息并根据不同的手势，来达到人机互动的功能。手势辨识的方法之一为利用深度摄影机来取得具有深度信息的影像，每张影像必须做前置处理，如影像二值化和清除影像背景、消除杂讯等，再从一连串影像中撷取并分析出使用者手部位置及手势等相关讯息。再利用手部位置的影像坐标数值来控制显示器的游标的移动。由于前置处理需花费较长时间，使得移动游标的速度与精确度难以与滑鼠相较。因此，对于强调即时人机互动的手势控制介面来说实为待加强的一环。

技术实现要素：

有鉴于此，本发明提供一种手势辨识与控制方法及手势辨识与控制装置，通过分析手部骨架信息而可直接输出控制信号至多媒体影音装置，减少使用者利用手势控制游标的步骤。

本发明提出一种手势辨识与控制方法，包括下列步骤。先撷取具有深度信息的待处理影像，此待处理影像包括人形影像。分析人形影像，以获得具有第一骨架与第二骨架的手部骨架信息。判断第一骨架与第二骨架是否具有交点。若是，则继续判断第一骨架与第二骨架所形成的夹角是否在第一预设角度范围内。当夹角在第一预设角度范围内，则据以输出控制信号。

在本发明的一实施例中，上述的手势辨识与控制方法更包括依据交点在第一骨架中的位置来计算第一比例值，并依据交点在第二骨架中的位置来计算第二比例值。当第一比例值与第二比例值的至少其中之一小于第一临界值，则输出用以表示暂停功能的暂停控制信号。当第一比例值与第二比例值皆属于预设比例区间之内，则输出用以表示停止功能的停止控制信号。

在本发明的一实施例中，其中当第一骨架与第二骨架不具有交点，则上述的手势辨识与控制方法更包括判断第一骨架与第二骨架的延伸线上是否具有延伸交点。若是，则判断延伸交点的夹角是否在第二预设角度范围内。当延伸交点的夹角在第二预设角度范围内，则据以输出另一控制信号。

在本发明的一实施例中，上述的手势辨识与控制方法更包括计算第一骨架与第二骨架的中点连线长度。并依据此中点连线长度的变化，据以产生对应的另一控制信号。

在本发明的一实施例中，上述的依据中点连线长度的变化，据以输出对应的另一控制信号的步骤包括当中点连线长度增加时，输出用以表示提高音量功能的第一音量控制信号；当中点连线长度缩小时，输出用以表示降低音量功能的第二音量控制信号。

本发明另提出一种手势辨识与控制方法，包括下列步骤。先撷取具有深度信息的待处理影像。接着采用斑点检测(Blob detection)法分析此待处理影像，据以判断待处理影像的连通域个数。当连通域个数为二个，则分析待处理影像的第一连通域的第一重心位置与第二连通域的第二重心位置。并且依据第一与第二重心位置之间的重心连线长度的变化，据以输出对应的控制信号。

本发明又提出一种手势辨识与控制装置，其包括影像撷取单元、储存单元以及处理单元。其中，影像撷取单元用以撷取具有深度信息的待处理影像，此待处理影像包括人形影像。储存单元用以储存待处理影像以及电脑可读写软件。处理单元用以执行电脑可读写软件的多个指令，其中所述多个指令包括：分析人形影像，以获得具有第一骨架与第二骨架的手部骨架信息。判断第一骨架与第二骨架是否具有交点。若是，判断第一骨架与第二骨架所形成的夹角是否在第一预设角度范围内。当夹角在第一预设角度范围内，则据以输出控制信号。

基于上述，本发明所提供的手势辨识与控制方法及其装置直接通过分析手部骨架信息来直接输出控制信号至多媒体影音装置，以使多媒体影音装置直接根据此控制信号执行预设程序。如此一来，利用手势操控达到类似快捷键的功能，减少使用者利用手势控制多媒体影音装置的显示屏幕的游标的步骤。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

附图说明

图1是依照本发明一实施例所绘示的手势辨识与控制装置的方块图。

图2是依照本发明一实施例所绘示的手势辨识与控制方法的流程图。

图3(a)至图3(c)绘示的为第一种至第三种手部骨架的简单示意图。

图4(a)是图3(a)的手部骨架放大示意图。

图4(b)是图3(b)的手部骨架放大示意图。

图5(a)至图5(c)绘示的为第一骨架与第二骨架的中点连线长度的变化示意图。

图6是依照本发明另一实施例所绘示的手势辨识与控制方法的流程图。

图7(a)至图7(c)是依照本发明另一实施例所绘示的连通域个数的示意图。

附图标号：

100：手势辨识与控制装置

110：影像撷取单元

120：储存单元

130：处理单元

310、320、330：手部骨架

312、322、332：第一骨架

314、324、334：第二骨架

710、720、730：待处理影像

A～H：骨架端点

d1、d2、d3：中点连线长度

b1：第一连通域

b2：第二连通域

S210～S280：一实施例的手势辨识与控制方法的各步骤

S610～S670：另一实施例的手势辨识与控制方法的各步骤。

具体实施方式

图1是依照本发明一实施例所绘示的手势辨识与控制装置的方块图。请参照图1，在一实施例中，手势辨识与控制装置100例如可通过有线或无线的方式连结至具有显示屏幕的多媒体影音装置(未绘示)，多媒体影音装置例如是智能型电视。在另一实施例中，手势辨识与控制装置100例如是内嵌整合于多媒体影音装置的内部。举例来说，手势辨识与控制装置100例如是机上盒(Set-top box，STB)而可外接于智能型电视。手势辨识与控制装置100负责接收并辨别使用者的手势变化，据以产生相对应的控制信号，并且将控制信号传送至智能型电视，以控制智能型电视执行对应于手势的预设程式。如此一来，便能减少使用者利用手势控制多媒体影音装置的显示屏幕的游标的繁杂步骤。

以下针对手势辨识与控制装置100进行说明。手势辨识与控制装置100包括影像撷取单元110、储存单元120以及处理单元130。其功能分述如下：

影像撷取单元110包括深度摄影机，而可用以撷取二维(two-dimensional，2D)影像以及三维(three-dimensional，3D)影像。深度摄影机可用以判断物体与摄影机之间的距离，进而得出拍摄画面中物体远近的深度影像(depth image)，或称为深度图(depth map)。深度影像为一种采用灰阶值0～255来表示距离资料的影像，而可将对应的2D影像立体化，因此，3D影像为二维影像加上深度影像信息，称为“2D+D”(2D+Depth)。深度摄影机例如是时差测距(Time-of-flight)摄影机、立体视觉(Stereo vision)深度摄影机、激光斑点(Laser speckle)摄影机或雷测追踪(Laser tracking)摄影机等，不限于上述。

储存单元120可为任意型式的固定式或可移动式随机存取存储器(Random Access Memory，RAM)、唯读存储器(Read-Only Memory，ROM)、快闪存储器(Flash memory)、硬碟或其他类似装置，而可用以储存电脑可读写软件、影像及其他信息。

处理单元130例如是中央处理单元(Central Processing Unit，CPU)，或是其他可程式化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor，DSP)等装置，而可用以载入电脑可读写软件以执行多个指令。

图2是依照本发明一实施例所绘示的手势辨识与控制方法的流程图。本实施例的方法适用于图1的手势辨识与控制装置100。在本实施例中，手势辨识与控制装置100例如耦接至智能型电视。以下即搭配手势辨识与控制装置100中的各构件说明本实施例的详细步骤：

在步骤S210中，影像撷取单元110撷取具有深度信息的待处理影像，待处理影像包括人形影像。其中，影像撷取单元110例如可同时或先后拍摄二维影像以及三维影像。

于步骤S220，处理单元130分析人形影像，以获得具有第一骨架与第二骨架的手部骨架信息。在此步骤中，处理单元130至少可采用两种不同的分析方法来取得手部骨架信息，手部骨架信息例如包括手部骨架的长度、形状、对应于待处理影像中的坐标位置、深度信息等，不限于上述。其中，处理单元130如何利用人形影像来取得手部骨架信息的分析方法容后详述。

取得手部骨架信息之后，便可接续步骤S230，处理单元130依据手部骨架信息来判断第一骨架与第二骨架是否具有交点。举例来说，图3(a)至图3(c)绘示为第一种至第三种手部骨架的简单示意图。请参照图3(a)，手部骨架310包括第一骨架312以及第二骨架314，其分别对应至人形影像的左手与右手，其中，第一骨架312与第二骨架314具有一个交点N1。同理，请参照图3(b)，手部骨架320包括第一骨架322以及第二骨架324，且具有一个交点N2。再请参照图3(c)，手部骨架330包括第一骨架332以及第二骨架334，手部骨架330并未具有交点。

若第一骨架与第二骨架具有交点，则接续步骤S240；若第一骨架与第二骨架不具有交点，则接续步骤S260。

在步骤S240中，处理单元130继续判断第一骨架与第二骨架所形成的夹角是否在第一预设角度范围内。详细地说，第一骨架与第二骨架所形成的夹角例如可预设为开口向下的夹角，且第一预设角度范围例如设定为80度～100度，但不限于此，其可由本领域具通常知识者依据实际应用情况设定之。以图3(a)为例，处理单元130例如可判断第一骨架312与第二骨架314所形成的夹角θ1是否在80度～100度范围内。以图3(b)为例，处理单元130例如可判断第一骨架322与第二骨架324所形成的夹角θ2是否在80度～100度范围内。

当夹角在第一预设角度范围内，则接续步骤S250，处理单元130依据交点所在位置的比例值，据以输出控制信号。详细地说，处理单元130先依据交点在第一骨架中的位置来计算第一比例值，并依据交点在第二骨架中的位置来计算第二比例值。当第一比例值与第二比例值的至少其中之一小于第一临界值，则输出用以表示暂停功能的暂停控制信号。当第一比例值与第二比例值皆属于预设比例区间之内，则输出用以表示停止功能的停止控制信号。其中，第一临界值例如可设定为0.2；预设比例区间R1例如设定为0.3≦R1≦0.7。

图4(a)是图3(a)的手部骨架放大示意图。请参照图4(a)，处理单元130会先以端点A为起点计算端点A与交点N1之间的长度，并除以端点A、B之间的长度，以计算第一比例值。在本实施例中，第一比例值例如为0.3。此外，处理单元130再以端点C为起点计算端点C与交点N1之间的长度，并除以端点C、D之间的长度，以计算第二比例值。在本实施例中，第二比例值例如为0.05。假设在本实施例中，第一临界值设定为0.2，处理单元130判断第二比例值小于第一临界值，因此输出用以表示暂停功能的暂停控制信号至智能型电视。智能型电视在接收到此暂停控制信号之后，便可直接执行暂停播放的指令。

图4(b)是图3(b)的手部骨架放大示意图。请参照图4(b)，处理单元130会先以端点E为起点计算端点E与交点N2之间的长度，并除以端点E、F之间的长度，以计算第一比例值。在本实施例中，第一比例值例如为0.45。此外，处理单元130再以端点G为起点计算端点G与交点N2之间的长度，并除以端点G、H之间的长度，以计算第二比例值。在本实施例中，第二比例值例如为0.5。假设在本实施例中，预设比例区间R1设定为0.3≦R1≦0.7，处理单元130判断第一比例值与第二比例值皆属于预设比例区间R1之内，因此输出用以表示停止功能的停止控制信号至智能型电视。智能型电视在接收到此停止控制信号之后，便可直接执行停止播放的指令。

再回到图2的步骤S230，若处理单元130判断第一骨架与第二骨架不具有交点，则接续步骤S260，处理单元130判断第一骨架与第二骨架的延伸线上是否具有延伸交点。由于使用者所执行的平行操作手势可能会有些微差距，并非刚好完全平行。因此若第一骨架与第二骨架的延伸线上具有延伸交点，则处理单元130进一步判断延伸交点所形成的夹角是否在第二预设角度范围内，第二预设角度范围例如是10度～-10度范围内(步骤S270)。倘若延伸交点所形成的夹角在第二预设角度范围之内，则处理单元130仍判定为平行操作手势而接续步骤S280。若延伸交点所形成的夹角不在第二预设角度范围之内，则回到步骤S210，重新撷取待处理影像。

在步骤S280中，处理单元130计算第一骨架与第二骨架的中点连线长度，并依据此中点连线长度的变化，据以产生对应的控制信号。举例来说，当中点连线长度增加时，处理单元130输出用以表示提高音量功能的第一音量控制信号至智能型电视；当中点连线长度缩小时，输出用以表示降低音量功能的第二音量控制信号至智能型电视。智能型电视接收到音量控制信号则对应执行提高音量或降低音量的指令。

至于提高音量或降低音量的多寡亦可由中点连线长度来进行控制，以下将以图5(a)至图5(c)来说明如何利用中点连线长度来对应控制音量调节幅度。图5(a)至图5(c)绘示的为第一骨架与第二骨架的中点连线长度的变化示意图。

倘若处理单元130判断第一骨架与第二骨架的中点连线长度由图5(a)转换至图5(b)，也就是图5(a)的中点连线长度d1缩小为图5(b)的中点连线长度d2。在一实施例中，若使用者的双手距离保持不变，也就是中点连线长度持续维持在图5(b)的中点连线长度d2，则处理单元130可输出代表持续降低音量的音量控制信号，直至使用者的双手结束平行调控姿势。在另一实施例中，处理单元130可经由事先预设的中点连线长度与音量控制的对应关系来输出音量控制信号。举例来说，若中点连线长度为100公分时对应至音量100％，中点连线长度为50公分时对应至音量50％，依此类推。依据中点连线长度的比例关系来对应调整音量。在又一实施例中，当中点连线长度由图5(a)转换至图5(b)时，处理单元130可输出缩小一格音量的音量控制信号；当中点连线长度由图5(a)转换至图5(c)时，处理单元130可输出提高一格音量的音量控制信号。由中点连线长度来调节音量的方式不限于上述，可以对于实际的需求而酌予变更上述实施例的内容。

接下来则举例说明在图2的步骤S220中，处理单元130如何利用人形影像来取得手部骨架信息的两种分析方法。

第一种分析方法主要是利用人脸辨识技术来进行分析。详细地说，处理单元130先利用影像撷取单元110所取得的二维影像进行人脸检测，以判断人脸在二维影像中的位置信息，并将此位置信息储存于储存单元120。接着，处理单元130根据二维影像中的人脸位置信息来对应至三维影像，藉以从三维影像中取得人脸位置的深度信息。然后，处理单元130便可利用人脸位置的深度信息为基准，辅以找出预设深度区间的双手影像，预设深度区间可由本领域具通常知识者依实际应用情况设定之。举例来说，由于使用者的双手通常会位于使用者脸部的前方，因此，预设深度区间例如可设定为人脸位置的深度往深度较浅的方向的一段深度区间。处理单元130找出预设深度区间的双手影像之后，便可根据双手影像获得双手的手部骨架信息。

第二种分析方法主要是利用全身骨架技术来进行分析。详细地说，处理单元130例如可直接利用影像撷取单元110所撷取的三维影像找出人形的全身骨架，接着，处理单元130再根据全身骨架来找出双手的手部骨架信息。举例来说，处理单元130可先寻找全身骨架的预设特征，据以判断为双手骨架，预设特征例如设定为由一端点起算第某节的骨架，预设特征可由本领域具通常知识者依实际应用情况设定之。

图6是依照本发明另一实施例所绘示的手势辨识与控制方法的流程图。本实施例的方法亦适用于图1的手势辨识与控制装置100，以下请配合参照图6与图1：

在步骤S610中，影像撷取装置110撷取具有深度信息的待处理影像。于步骤S620，处理单元130采用斑点检测(Blob detection)法分析待处理影像，据以判断待处理影像的连通域个数。举例来说，图7(a)至图7(c)是依照本发明另一实施例所绘示的连通域个数的示意图。图7(a)的待处理影像710具有第一连通域b1以及第二连通域b2；图7(b)与图7(c)的待处理影像720以及730则仅具有一个连通域。

于步骤S630，当连通域个数为二个，则处理单元130分析待处理影像的第一连通域b1的第一重心位置与第二连通域b2的第二重心位置。接着，在步骤S640中，依据第一重心位置以及第二重心位置之间的重心连线长度的变化，据以输出对应的控制信号。举例来说，当重心连线长度增加时，处理单元130输出用以表示提高音量功能的第一音量控制信号；当重心连线长度缩小时，输出用以表示降低音量功能的第二音量控制信号。步骤S640类似于前一实施例的步骤S280，因此利用重心连线长度来控制提高音量或降低音量的多寡的详细步骤相同或类似于前一实施例的中点连线长度的说明，在此不赘述。

回到图6的步骤S620，当连通域个数为一个，则接续步骤S650，处理单元130分析待处理影像，以获得具有第一骨架与第二骨架的手部骨架信息。由于已知连通域个数为一个，对应图7(b)与图7(c)所示，第一骨架与第二骨架一定会产生交点。故在本实施例中，可省略判断第一骨架与第二骨架是否具有交点的步骤。接续步骤S660，处理单元130直接判断第一骨架与第二骨架所形成的夹角是否在第一预设角度范围内。此步骤例如可用来滤除连通域个数为一个但仅为单一手掌的手势操作。若步骤S660判断为否，则回到步骤S610。当夹角在第一预设角度范围内，则接续步骤S670，处理单元130依据交点所在位置的比例值，据以输出控制信号。其中，控制信号例如包括用以表示暂停功能的暂停控制信号或是用以表示停止功能的停止控制信号。本实施例的步骤S650、S660、S670相同或类似于前一实施例的步骤S220、S240、S250，故在此不重复赘述。

本实施例与前述实施例不同的地方在于先利用斑点检测法来快速判断待处理影像中的连通域个数，若连通域个数为二个，则可直接判定使用者的双手进行平行手势操控，而可直接分析连通域的重心的距离变化进而输出控制信号。藉此可省略部份分析手部骨架信息的运算，减少辨别手势操控的所需时间。

综上所述，本发明利用深度信息以及相应的人体骨架检测功能，便能省去许多现有手势辨识所需的步骤，例如节省消除背景以及减少需要过滤的杂讯，从而减少辨识手势所需花费的时间。并且，直接通过分析手部骨架信息来直接输出控制信号至多媒体影音装置，以使多媒体影音装置直接根据此控制信号执行预设程序。如此一来，利用手势操控达到类似快捷键的功能，减少使用者利用手势控制多媒体影音装置的显示屏幕的游标的步骤，以达到更为方便且迅速的即时人机互动。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视申请专利范围所界定者为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周家德;魏守德;邱炜杰;黄智皓;
技术所有人：纬创资通股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。