一种基于深度神经网络和混合高斯模型的手势识别交互方法及装置

文档序号:35922048发布日期:2023-11-04 07:47阅读:39来源:国知局
一种基于深度神经网络和混合高斯模型的手势识别交互方法及装置

本发明涉及一种手势识别交互系统,特别是涉及一种基于深度神经网络和混合高斯模型的手势识别交互方法及装置。


背景技术:

1、手势是人类日常交流的重要方式之一,帮助人类进行更有效的沟通,能够表达包括意图、情感等大量丰富的含义。随着计算机技术的发展和人类交互体验需求的提高,手势逐渐在人机交互领域扮演越来越重要的角色,被应用于虚拟现实、智能助理、服务机器人等场景,具有广阔的应用前景和需求。然而,由于手势的多样性和复杂性,这仍是一个持续的挑战。

2、手势识别交互面临着许多的难点。首先,手势的种类丰富,并根据使用场景和文化背景发生变化,手势识别算法需要花费大量的时间学习如何识别不同种类的手势。每个用户之间的手势是具有个性化差异的,导致手势识别算法需要自适应不同用户的手势习惯。手势既可能是静态的,也可能是动态的,动态手势识别难度更大,可能存在运动模糊,并涉及对时序特征的利用。理解用户意图是手势交互的最终目标,手势与用户意图之间存在一定的跨越,识别手势的同时还要求准确理解和推断用户意图。此外,手势识别还容易受到背景环境的影响,用户可能在不同的环境背景下进行手势交互,算法需要鲁棒地应对不同环境的噪声。

3、早期的手势识别算法采用数据手套的方式采集手势动作并进行分类,虽然能够提供准确和快速的结果,但是需要穿戴额外的设备给使用者带来了很多不便。随着深度学习技术的发展,手势识别算法逐渐使用图像作为输入,通过rgb摄像头、深度传感器等采集手势动作,这大大地提高了算法的实用性,将手势交互拓展到更多的使用场景。深度神经网络在目标检测、图像分类等任务上成为主流方法,二维卷积神经网络被用于处理静态图像,三维卷积神经网络被用于处理视频数据。研究者也逐渐将这些技术应用于手势识别领域。然而,深度神经网络依赖于大规模数据集的训练,数据集的数量和质量对深度神经网络算法的表现影响很大,如果在小规模数据集上直接训练则会产生令人无法满意的结果。而现有的手势识别数据集规模较小,如何高效地在小规模手势识别数据集训练深度神经网络成为一个待解决的挑战。此外,深度神经网络的可解释性差、可拓展性差,相当于一个黑箱模型,而且面对新的手势类别往往需要进行重新训练,如何提高深度数据网络的可解释性和可拓展性也是一个难题。混合高斯模型通过组合多个高斯分布的方式来建模复杂数据的分布,可解释性强,但是往往依赖人工设计的特征,存在繁琐耗时、通用性差的问题。因此,如何将深度神经网络和混合高斯模型的优势相结合是个值得探索的方向。


技术实现思路

1、针对手势识别交互任务的存在的难点和需求,本发明提供了一种实用性强、鲁棒性高、可拓展性强、可解释性强、准确率高、使用方便、成本低,便于推广使用的基于深度神经网络和混合高斯模型的手势识别交互方法及装置。本发明使用深度相机视频作为输入,通过深度神经网络提取手势动作特征,采用混合高斯模型建模不同手势类别的特征分布,并根据输入特征的在分布中的概率进行识别分类,提高了手势识别算法的可解释性。用户能够通过静态或动态手势进行交互,下发任务指令,并能够适用于多个不同用户。

2、本发明所采用的具体技术方案是:

3、本发明公开了一种基于深度神经网络和混合高斯模型的手势识别交互方法,包括:

4、使用深度相机采集手势动作的深度视频数据;

5、获取的深度视频数据使用滑动窗口、去除背景、数据归一化、缩放大小、中心裁切进行数据预处理,得到预处理数据;

6、获取的预处理数据使用深度神经网络提取手势动作特征;

7、获取的手势动作特征通过混合高斯模型建模手势概率分布,根据深度神经网络获取的手势动作特征计算属于不同手势类别的手势概率;

8、获取的手势概率通过可视化为用户提供反馈,可视化的内容还包括实时的深度图像;

9、获取的手势概率若高于一定阈值,则认为用户进行了手势交互,并根据手势判断用户意图,下发对应的任务指令。

10、作为进一步地改进,本发明所述的深度神经网络是三维卷积神经网络,三维卷积神经网络同时在空间维度和在时间维度进行卷积运算,提取的手势动作特征包括来自静态图像的空间特征和来自时间序列的时序特征。

11、作为进一步地改进,本发明所述的混合高斯模型对不同手势类别的特征分布使用不同的混合高斯模型表示,每个混合高斯模型由多个高斯分布组成。

12、作为进一步地改进,本发明所述的深度神经网络和混合高斯模型都是可微分的,整个计算过程是可以计算梯度的,并能够联合优化。

13、作为进一步地改进,本发明所述的手势识别交互方法使用的深度神经网络和混合高斯模型是从深度视频中实时提取手势的动作特征,并计算手势动作类别的概率。

14、本发明还公开了一种基于深度神经网络和混合高斯模型的手势识别交互装置,包括:

15、数据采集模块,用于使用深度相机采集手势动作的深度视频数据;

16、预处理模块,用于获取的深度视频数据使用滑动窗口、去除背景、数据归一化、缩放大小、中心裁切进行数据预处理,得到预处理数据;

17、深度神经网络模块,用于获取的预处理数据使用深度神经网络提取手势动作特征;

18、混合高斯模型模块,用于获取的手势动作特征通过混合高斯模型建模手势概率分布,根据深度神经网络获取的手势动作特征计算属于不同手势类别的手势概率;

19、可视化模块,用于获取的手势概率通过可视化为用户提供反馈,可视化的内容还包括实时的深度图像;

20、任务模块,用于获取的手势概率若高于一定阈值,则认为用户进行了手势交互,并根据手势判断用户意图,下发对应的任务指令;

21、数据采集模块的输出与数据预处理模块相连,数据预处理模块的输出与深度神经网络模块相连,深度神经网络模块的输出与混合高斯模型模块相连,混合高斯模型模块的输出与可视化模块相连,可视化模块与任务模块相连。

22、作为进一步地改进,本发明所述的预处理模块根据深度数据将深度大于一定阈值的背景噪声过滤,去除环境背景干扰的影响,提高手势识别的鲁棒性。

23、作为进一步地改进,本发明所述的预处理模块的输入是通过滑动窗口得到的相邻帧的深度图像序列;去除背景的深度图像序列会进行统一的数据归一化、缩放大小和中心裁切处理,以作为深度神经网络的输入。

24、作为进一步地改进,本发明所述的深度神经网络模块是三维卷积神经网络,三维卷积神经网络以深度图像序列作为输入,同时在空间维度和在时间维度进行卷积运算,通过多层的卷积,提取手势动作特征。

25、作为进一步地改进,本发明所述的混合高斯模型模块,若计算的最大概率超过一定阈值,则认为出现该最大概率的手势,若所有的概率都低于阈值,则认为没有出现手势;深度神经网络模块将输入的深度图像序列转化为动作特征,混合高斯模型模块对不同类别手势动作特征的概率分布建模,整个过程的梯度是可传递的,使得两个模块能够进行联合优化。

26、本发明具有以下有益效果:

27、1)手势识别交互系统能够满足用户与计算机设备交互的应用需求,用户能够通过静态或动态手势进行交互,提升了人类交互体验,可应用于虚拟现实、智能助理、服务机器人等场景。

28、2)手势识别交互系统采用深度相机获取手势动作数据,可以减少使用数据手套的麻烦,使其在现实生活中更容易应用推广,降低成本,同时深度图像作为输入能够使深度神经网络更加鲁棒地面对环境背景带来的噪声。

29、3)手势识别交互系统采用深度神经网络来提取手势动作的特征,可以减少人工设计特征向量的麻烦,使提取的特征更具通用性,同时提高算法设计的效率。

30、4)手势识别交互系统使用三位卷积神经网络提取动作特征,提取的特征同时包括了手势的来自静态图像的空间特征和来自时间序列的时序特征,有助于实现更准确的手势识别分类。

31、5)手势识别交互系统采用混合高斯模型建模不同手势类别的分布,提高了手势识别算法的可解释性。深度神经网络的作用是特征提取器,混合高斯模型的作用是学习在提取的特征上的概率分布。

32、6)手势识别交互系统使用的混合高斯模型可拓展性强,由于每种手势对应一个混合高斯模型,如果需要增加新的手势指令,不需要对整个模型进行重新训练,只需要对增加的手势的混合高斯模型的参数进行学习。

33、7)手势识别交互系统使用的混合高斯模型在拟合手势特征分布的过程中,减少了需要学习的参数,避免在小规模手势识别数据集上过拟合,提高了手势识别算法的准确率,使其能够更好地在多个不同用户上泛化。

34、8)手势识别交互系统使用预训练的深度神经网络和可微分的混合高斯模型进行端到端的训练。预训练的深度神经网络能够降低了训练的难度,有助于手势识别模型收敛到更好的效果。

35、9)可微分的混合高斯模型能够根据深度神经网络提取的特征计算手势的概率分布,并且整个过程是可以计算梯度的,这使得手势识别的损失函数能够同时优化混合高斯模型的参数。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1