一种视频流图像帧的识别系统及其方法

文档序号：6382111阅读：205来源：国知局

专利名称：一种视频流图像帧的识别系统及其方法
技术领域：
本发明涉及手势视频流识别技术领域，具体的涉及一种视频流图像帧的识别系统及方法。
背景技术：
手势作为人类最自然的表达方式之一，在日常生活中得到了广泛的应用。其中，手语是用手势表示意思的语言，但对不熟悉手语的普通人来说，理解手语是非常困难的，所以如果有能够对手语进行翻译的技术，将大大方便聋哑人与正常人之间的交流。在手势及手语的识别中，一个关键环节便是手势跟踪。按现有技术，手势识别根据外围设备采集手势图像方式的不同可以分为:基于数据手套的手势识别和基于计算机视觉的手势识别。基于数据手套的手势识别是通过数据手套和位置跟踪来测量手势运动的轨迹和时序信息，其优点是识别率高，缺点是输入设备昂贵,并且要求打手势的人必须穿戴复杂的数据手套。而基于计算机视觉的手势识别，一般采用单目普通摄像头下的目标跟踪原理，其过程中比较难解决的一个问题就是遮挡，当一个目标物被另一个物体部分遮挡或完全遮挡时，跟踪的特征就会不完整或者消失，进而导致跟踪过程中断，此时需要重新检测目标物进行跟踪的重新初始化，非常不方便。为了解决这个问题，可以采用多个摄像头进行跟踪，但是跟踪算法会变得比较复杂，增加了技术难度和不稳定性。所以，基于计算机视觉的手势识别会使能够识别的手势种类受到很大的限制。为了解决上述问题，专利号为200810068423.1的中国专利“一种数据流图像帧的分割识别方法及其装置”，提供了积累一定的周期图像数据，通过判断区域图像是否满足识别区域的边界条件来进行模式识别，再通过特征值提取来进行模式比对从而得出想要的结果。该篇专利虽然提供了一定的技术解决方案，但如果实际进行应用则依然存在较多的缺陷，如识别种类少、识别速度慢、匹配精度不够等。

发明内容
本发明的目的在于克服现有技术的不足，提供一种视频流图像帧的识别系统及方法，主要通过对图像帧的分割，再通过逐帧递增的方式将帧与常规常规帧匹配库进行匹配，从而避免了对来的图像数据进行提取关键帧的步骤，再通过联想功能进行联想，进而有效的缩短了识别匹配时间。本发明通过以下技术方案实现:
一种视频流图像帧的识别系统，包括匹配单元、联想匹配单元、常规帧匹配库、语句缓存区、一级缓冲区和二级缓冲区；其中，一级缓冲区和二级缓冲区与相连；匹配单元与联想匹配单元、常规帧匹配库、语句缓存区、一级缓冲区、二级缓冲区相连；同时联想匹配单元与常规帧匹配库、语句缓存区、一级缓冲区、二级缓冲区相连。具体的，一级缓冲区接收联想手势形成的数据包并将其分割转存为连续的图像帧，匹配单元从一级缓冲区内依次取出图像帧存入二级缓冲区，并将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，在匹配单元匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区，并启动联想匹配单元进行双线匹配识别。其中，常规帧匹配库将每种相同帧数构成的手语分类存储，依次形成一帧匹配库、二中贞匹配库、......N-1巾贞匹配库和N巾贞匹配库。举例来说，如:“我”、“你”、“他”，假如都由2个帧就可以构成，那么将这些由2个帧组成的手势都归纳在“二帧匹配库”中，其他以此类推。其中，匹配单元将一级缓冲区内的图像帧从第一个图像帧开始依次递增存入二级缓冲区内，其中，当二级缓冲区内每存入新的一个图像帧时，匹配单元将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区。其中，在匹配单元匹配成功后，根据联想手势需要的帧数和二级缓冲区内存储的图像帧联想出三组词帧值(依次设为Ml、M2、M3)，清空二级缓冲区；接着开始匹配过程，通过三组词帧值依次读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理；反复执行上述匹配过程，直至三组词帧值都不能匹配成功时，联想匹配单元结束双线匹配识别。其中，匹配单元即时检测语句缓存区内所存储的图像帧，当语句缓存区内所存储的图像帧能够形成完整的句式时，由匹配单元优化并输出结果。根据上述系统所实现的一种视频流图像帧的识别方法，包括以下步骤:
1)匹配单元运行；
2)对当前接收到的数据包分割成连续的图像帧，将分割完成的连续图像帧存储在一级缓冲区中；
3)将一级缓冲区内的连续图像帧从还未进行匹配的第一帧开始依次递增存入二级缓冲区，再与常规帧匹配库进行匹配处理，如匹配成功则进行步骤5，如匹配不成功则进行步骤4;
4)将匹配不成功的图像帧加上其后面的一个图像帧一起，与常规帧匹配库进行再一次匹配；如匹配成功则进行步骤5，如匹配不成功则再一次进行步骤4 ；
5)将匹配成功的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时，进行步骤8 ;
6)联想匹配单元进行双线匹配识别；
7)根据联想手势需要的帧数和二级缓冲区内存储的图像帧联想出三组词帧值(依次设为Ml、M2、M3)，清空二级缓冲区；接着开始匹配过程，通过三组词帧值依次读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行步骤8 ;反复执行上述的匹配过程，直至三组词帧值都不能匹配成功时，联想匹配单元结束双线匹配识别，清空二级缓冲区，返回步骤3 ；
8)对语句缓存区内所存储的图像帧进行优化排列处理；
9)输出结果。
其中，所述的步骤8中，因为手语语法与人们正常的说话语法不同，所以需要进行优化处理，如:手语打的比如:一杯可乐，应该打可乐一(杯)，这个时候就需要用到优化把
可乐一翻译成一杯可乐。其中，所述的步骤7中包括如下匹配过程:
7.1)将词帧值Ml发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.2，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则继续进行步骤7.1 ；
7.2)如不能匹配成功，则将词帧值M2发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.3 ;如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则进行步骤7.1 ； 7.3)如不能匹配成功，则将词帧值M3发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.4 ;如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则进行步骤7.1 ；
7.4)联想匹配单元结束双线匹配识别，清空二级缓冲区，返回所述步骤3。与现有技术相比，本发明具有以下有益效果:
本发明提供了新的视觉手势识别方案，利用逐帧递增与常数帧库进行匹配处理，不需要提取特征值，而是通过逐一对应数据帧库进行匹配，而当识别出后由联想识别功能直接截取帧数进匹配，大大减少了计算机的工作量，显著提高了运算速度和匹配精度，有效解决了基于计算机视觉手势方式识别种类少、识别速度慢的问题，能够适用于各个领域中，应用前景广泛，具备突出的效率性。

下面将结合实施例和附图对本发明作进一步的详细描述:
图1为本发明一具体实施例的系统结构示意图2为本发明一具体实施例的方法流程示意图3为本发明一具体实施例的方法细致流程示意图4为本发明一具体实施例的联想匹配单元的流程示意图5为为本发明一具体实施例的常规帧匹配库的结构示意图。
具体实施例方式下面结合实施例及附图，对本发明作进一步的详细说明，但理应理解本发明的实施方式并不限于此。如图1所示为本发明的一种视频流图像帧的识别系统，包括匹配单元、联想匹配单元、常规帧匹配库、语句缓存区、一级缓冲区和二级缓冲区；其中，一级缓冲区和二级缓冲区与相连；匹配单元与联想匹配单元、常规帧匹配库、语句缓存区、一级缓冲区、二级缓冲区相连；同时联想匹配单元与常规帧匹配库、语句缓存区、一级缓冲区、二级缓冲区相连。具体的，如图2所示，一级缓冲区接收联想手势形成的数据包并将其分割转存为连续的图像帧，匹配单元从一级缓冲区内依次取出图像帧存入二级缓冲区，并将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，在匹配单元匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区，并启动联想匹配单元进行双线匹配识别。其中，如图5所示，常规帧匹配库将每种相同帧数构成的手语分类存储，依次形成一中贞匹配库、二巾贞匹配库、......N-1巾贞匹配库和N巾贞匹配库。举例来说:“我”、“你”、“他”，假如都由2个帧就可以构成，那么将这些由2个帧组成的手势都归纳在“二帧匹配库”中，其他类型的帧按现有技术和行业知识，以此类推。其中，匹配单元将一级缓冲区内的图像帧从第一个图像帧开始依次递增存入二级缓冲区内，其中，当二级缓冲区内每存入新的一个图像帧时，匹配单元将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区。具体的，如图4所示，在匹配单元匹配成功后，根据联想手势需要的帧数和二级缓冲区内存储的图像帧联想出三组词帧值(可依次设为Ml、M2、M3)，清空二级缓冲区；接着开始匹配过程，通过三组词帧值依次读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理；反复执行上述匹配过程，直至三组词帧值都不能匹配成功时，联想匹配单元结束双线匹配识别。其中，匹配单元即时检测语句缓存区内所存储的图像帧，当语句缓存区内所存储的图像帧能够形成完整的句式时，由匹配单元优化并输出结果。如图2 图3所示，根据上述系统所实现的一种视频流图像帧的识别方法，包括以下步骤:
1)运行匹配单元；
2)对当前接收到的数据包分割成连续的图像帧，将分割完成的连续图像帧存储在一级缓冲区中；
3)将一级缓冲区内的连续图像帧从还未进行匹配的第一帧开始依次递增存入二级缓冲区，再与常规帧匹配库进行匹配处理，如匹配成功则进行步骤5，如匹配不成功则进行步骤4;
4)将匹配不成功的图像帧加上其后面的一个图像帧一起，与常规帧匹配库进行再一次匹配；如匹配成功则进行步骤5，如匹配不成功则再一次进行步骤4 ；
5)将匹配成功的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时，进行步骤8 ;
6)联想匹配单元进行双线匹配识别；
7)根据联想手势需要的帧数和二级缓冲区内存储的图像帧联想出三组词帧值(依次设为Ml、M2、M3)，清空二级缓冲区；接着开始匹配过程，通过三组词帧值依次读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行步骤8;反复执行上述的匹配过程，直至三组词帧值都不能匹配成功时，联想匹配单元结束双线匹配识别，清空二级缓冲区，返回步骤3 ；
8)对语句缓存区内所存储的图像帧进行优化排列处理；
9)输出结果。其中，所述的步骤8中，因为手语语法与人们正常的说话语法不同，所以需要进行优化处理，如:手语打的比如:一杯可乐，应该打“可乐一(杯)”，如二包吃的，应该打“吃的二 (包)”这个时候就需要用到优化把可乐一翻译成一杯可乐。其中，所述的步骤7中包括如下匹配过程:
7.1)将词帧值Ml发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.2，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则继续进行步骤7.1 ；
7.2)如不能匹配成功，则将词帧值M2发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.3 ;如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则进行步骤7.1 ；
7.3)如不能匹配成功，则将词帧值M3发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.4 ;如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则进行步骤7.1 ；
7.4)联想匹配单元结束双线匹配识别，清空二级缓冲区，返回所述步骤3。
权利要求
1.一种视频流图像帧的识别系统，其特征在于包括匹配单元、联想匹配单元、常规帧匹配库、语句缓存区、一级缓冲区和二级缓冲区；其中，一级缓冲区和二级缓冲区与相连；匹配单元与联想匹配单元、常规帧匹配库、语句缓存区、一级缓冲区、二级缓冲区相连；同时联想匹配单元与常规帧匹配库、语句缓存区、一级缓冲区、二级缓冲区相连；具体的，一级缓冲区接收联想手势形成的数据包并将其分割转存为连续的图像帧，匹配单元从一级缓冲区内依次取出图像帧存入二级缓冲区，并将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，在匹配单元匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区，并启动联想匹配单元进行双线匹配识别。
2.根据权利要求1所述的视频流图像帧的识别系统，其特征在于所述的常规帧匹配库将每种相同帧数构成的手语分类存储，依次形成一帧匹配库、二帧匹配库、……N-1帧匹配库和N巾贞匹配库。
3.根据权利要求1所述的视频流图像帧的识别系统，其特征在于所述的匹配单元将一级缓冲区内的图像帧从第一个图像帧开始依次递增存入二级缓冲区内，其中，当二级缓冲区内每存入新的一个图像帧时，匹配单元将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区。
4.根据权利要求1所述的视频流图像帧的识别系统，其特征在于在所述的匹配单元匹配成功后，根据联想手势需要的帧数和二级缓冲区内存储的图像帧联想出三组词帧值(依次设为Ml、M2、M3)，清空二级缓冲区；接着开始匹配过程，通过三组词帧值依次读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理；反复执行上述匹配过程，直至三组词帧值都不能匹配成功时，联想匹配单元结束双线匹配识别。
5.根据权利要求1所述的视频流图像帧的识别系统，其特征在于所述的匹配单元即时检测语句缓存区内所存储的图像帧，当语句缓存区内所存储的图像帧能够形成完整的句式时，由匹配单元优化并输出结果。
6.根据权利要求1所述的系统实现的视频流图像帧的识别方法，其特征在于包括以下步骤: 1)匹配单元运行； 2)对当前接收到的数据包分割成连续的图像帧，将分割完成的连续图像帧存储在一级缓冲区中； 3)将一级缓冲区内的连续图像帧从还未进行匹配的第一帧开始依次递增存入二级缓冲区，再与常规帧匹配库进行匹配处理，如匹配成功则进行步骤5，如匹配不成功则进行步骤4; 4)将匹配不成功的图像帧加上其后面的一个图像帧一起，与常规帧匹配库进行再一次匹配；如匹配成功则进行步骤5，如匹配不成功则再一次进行步骤4 ； 5)将匹配成功的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时，进行步骤8 ; 6)联想匹配单元进行双线匹配识别； 7)根据联想手势需要的帧数和二级缓冲区内存储的图像帧联想出三组词帧值(依次设为Ml、M2、M3)，清空二级缓冲区；接着开始匹配过程，通过三组词帧值依次读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行步骤8 ;反复执行上述的匹配过程，直至三组词帧值都不能匹配成功时，联想匹配单元结束双线匹配识别，清空二级缓冲区，返回步骤3 ; 8)对语句缓存区内所存储的图像帧进行优化排列处理； 9)输出结果。
7.根据权利要求6所述的视频流图像帧的识别方法，其特征在于所述的步骤7中包括如下匹配过程: 7.1)将词帧值Ml发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.2，如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则继续进行步骤7.1 ； 7.2)如不能匹配成功，则将词帧值M2发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.3 ;如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则进行步骤7.1 ； 7.3)如不能匹配成功，则将词帧值M3发往一级缓存区，读取一级缓冲区内未匹配的图像帧，将所读取的图像帧存入二级缓冲区并与常规帧匹配库进行匹配，如匹配不成功则进行步骤7.4 ;如匹配成功则将二级缓冲区内存储的图像帧送往语句缓存区进行待处理，当语句缓存区内所存储的图像帧能够形成完整的句式时则进行所述的步骤8，否则进行步骤7.1 ； 7.4)联想匹配单元结束双线匹配识别。
全文摘要
本发明提供了一种视频流图像帧的识别系统及其方法，其中，一级缓冲区接收联想手势形成的数据包并将其分割转存为连续的图像帧，匹配单元从一级缓冲区内依次取出图像帧存入二级缓冲区，并将二级缓冲区内存储的图像帧与常规帧匹配库进行匹配，在匹配单元匹配成功后将二级缓冲区内存储的图像帧存入语句缓存区，并启动联想匹配单元进行双线匹配识别。本发明提供了新的视觉手势识别方案，利用逐帧递增与常数帧库进行匹配处理，不需要提取特征值，而是通过逐一对应数据帧库进行匹配，而当识别出后由联想识别功能直接截取帧数进匹配，大大减少了计算机的工作量，显著提高了运算速度和匹配精度。
文档编号G06K9/00GK103226692SQ20121048091
公开日2013年7月31日申请日期2012年11月22日优先权日2012年11月22日
发明者王磊, 郑伟龙, 张文山, 姚以鹏, 陈曦申请人:广东科学中心

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王磊;郑伟龙;张文山;姚以鹏;陈曦
技术所有人：广东科学中心
我是此专利的发明人

上一篇：具有触摸屏的电子装置及选取字符的方法
上一篇：单据水印生成装置和单据水印生成方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。