本发明涉及人机交互领域,更具体地说是一种基于热成像的夜间实时手势识别系统。
背景技术:
人机交互是指通过计算机输入输出设备,以有效的方式实现人与计算机对话的技术。它包括机器通过输出或显示设备给人提供有关信息,人们通过输入设备给机器输入有关信息,人通过输入设备给机器输入有关信息并回答问题等。人机交互技术是计算机用户界面设计中的重要内容之一。它与认知学、人机工程学、心理学等学科领域有密切的联系。
热成像设备是通过非接触探测红外能量,并将其转换为电信号,进而在显示器上生成热图像和温度值,并可以对温度值进行计算的一种检测设备。
现有技术中的手势识别方法分为两种,一种是基于数据手套的手势识别方法,一种是基于计算机视觉的手势识别方法。第一种方法借助传感器,需要的成本比较高,不便于广泛使用。第二种方式,基于计算机视觉,需要在光线明亮的环境下采集手势图片,外界光线昏暗或是黑暗情况下,采集到的手势图片就是模糊不清,增加识别难度,导致识别率下降。
技术实现要素:
本发明是为避免上述现有技术的不足,提供一种基于热成像的夜间实时手语识别系统,利用热成像技术,将人体散发出的热量通过热成像技术形成热像图,以节约采用数据带来的成本,解决夜间灯光昏暗或是黑暗情况下采集手势图片模糊不清的问题。
本发明为解决技术问题采用如下技术方案:
本发明基于热成像的夜间实时手语识别系统的特点是:所述手语识别系统包括红外热像仪,cnn-elm识别系统和显示器;利用同种手势不同姿态的热像手势图片构成训练集,使用卷积神经网络cnn提取手势图片特征值,将提取到的特征值置于极限学习机elm中进行训练,获取训练后的权重;识别过程中先利用红外热像仪捕捉到手势图片,cnn提取手势图片的特征值,再用elm训练后的权重去评估提取到的特征值,取评估概率数组中的最大值对应的标签作为识别的结果。
本发明基于热成像的夜间实时手语识别系统的特点也在于:所述识别系统按如下步骤实现基于热成像的夜间实时手语识别:
步骤1、利用所述红外热像仪针对每个标准手势的不同姿态采集手势图片,获得共有n张手势图片的图片集,以所述图片集构成训练集x_train,x_train={x1,x2,…,xn};xi为训练集中第i个训练图片,i=1,2,…,n,xi∈rw×h,r表示训练集中的图片,w为图片宽度,h为图片高度;
步骤2、制作训练集标签y_train,y_train={y1,y2,…,yn};yi为第i个训练图片xi对应的标签;
步骤3、构建cnn网络模型
采用keras框架构建卷积神经网络cnn的网络模型,所述网络模型包括:卷积层,池化层和全连接层;以所述训练集x_train和训练集标签y_train作为所述网络模型的输入,得到输出权重βcnn;
步骤4、利用所述输出权重βcnn提取训练集x_train在第一层全连接层输出的特征值f,所述特征值f由式(1)表征:
f={(v1,y1),(v2,y2),…(vn,yn)}(1),
其中,vi为训练集中第i个训练图片xi的特征值;
步骤5、构建极限学习机elm网络模型
由式(2)表征具有l个隐藏节点的单隐藏神经网络:
其中,g()为激活函数,wj为第j个隐藏节点的输入权重,βj为第j个隐藏节点的输出权重,θj是第j个隐藏节点的偏置,j=1,2,…,l,wj·vi表示wj和vi的内积,oi是特征值vi的期望输出;
单隐层神经网络学习的目标是使得输出的误差最小,理想的状态是每个特征值的期望输出和标签相同,由式(3)所表征:
根据式(3)获得式(4),即存在有wj、βj和θj使得等式(4)成立:
将式(4)用矩阵表示为式(5):
hβ=y(5),
其中,h是隐层节点输出,β为输出权重,y为期望输出;
式(5)中隐层节点输出h包含输入权重wj,第j个隐藏层节点的偏置θj以及第i个训练图片xi的特征值vi,如式(6)所表征:
将满足式(7)中右式最小值时的wj、θj和βj一一对应标记为
利用
β=hτy(8),
其中,hτ是矩阵h的moore-penrose广义逆;
步骤6、手势识别:由红外热像仪拍摄获得待识别手势图片,利用输出权重βcnn提取待识别手势图片的特征值v;再利用输出权重β针对特征值v进行分类评估;若评估概率数组中的最大值高于80%,视为识别正确;反之,则视为手势识错误。
与已有技术相比,本发明有益效果体现在:
1、发明采用红外热像仪捕捉实时手语,在灯光昏暗、背景噪声大的情况下仍能清楚识别手势;
2、本发明利用卷积神经网络(convolutionalneuralnetwork,cnn),并结合极限学习机(extremelearningmachine,elm)进行训练识别,利用大量同种手势不同姿态的热像图做成训练集,利用卷积神经网络提取手势图片特征值,再将提取到的特征值置于极限学习机中训练识别,相比单纯的使用cnn网络,本发明cnn-elm识别系统将cnn中的softmax分类器更改成elm分类器,有效提高识别速率和精度,满足了手势表达的实时性要求。
附图说明
图1为本发明中所cnn-elm结构图;
图2为本发明整体结构流程图;
具体实施方式
本实施例中基于热成像的夜间实时手语识别系统包括红外热像仪,cnn-elm识别系统和显示器;利用同种手势不同姿态的热像手势图片构成训练集,使用卷积神经网络cnn提取手势图片特征值,将提取到的特征值置于极限学习机elm中进行训练,获取训练后的权重;识别过程中先利用红外热像仪捕捉到手势图片,cnn提取手势图片的特征值,再用elm训练后的权重去评估提取到的特征值,取评估概率数组中的最大值对应的标签作为识别的结果。
本实施例中识别系统按如下步骤实现基于热成像的夜间实时手语识别:
步骤1、利用红外热像仪针对每个标准手势的不同姿态采集手势图片,获得共有n张手势图片的图片集,以图片集构成训练集x_train,x_train={x1,x2,…,xn};xi为训练集中第i个训练图片,i=1,2,…,n,xi∈rw×h,r表示训练集中的图片,w为图片宽度,h为图片高度。
步骤2、制作训练集标签y_train,y_train={y1,y2,…,yn};yi为第i个训练图片xi对应的标签。
步骤3、构建cnn网络模型
采用keras框架构建卷积神经网络cnn(convolutionalneuralnetwork)的网络模型,网络模型包括:卷积层,池化层和全连接层;以训练集x_train和训练集标签y_train作为网络模型的输入,得到输出权重βcnn。
步骤4、利用输出权重βcnn提取训练集x_train在第一层全连接层输出的特征值f,特征值f由式(1)表征:
f={(v1,y1),(v2,y2),…(vn,yn)}(1),
其中,vi为训练集中第i个训练图片xi的特征值。
步骤5、构建极限学习机elm(extremelearningmachine)网络模型
由式(2)表征具有l个隐藏节点的单隐藏神经网络:
其中,g()为激活函数,wj为第j个隐藏节点的输入权重,βj为第j个隐藏节点的输出权重,θj是第j个隐藏节点的偏置,j=1,2,…,l,wj·vi表示wj和vi的内积,oi是特征值vi的期望输出;
单隐层神经网络学习的目标是使得输出的误差最小,理想的状态是每个特征值的期望输出和标签相同,由式(3)所表征:
根据式(3)获得式(4),即存在有wj、βj和θj使得等式(4)成立:
将式(4)用矩阵表示为式(5):
hβ=y(5),
其中,h是隐层节点输出,β为输出权重,y为期望输出;
式(5)中隐层节点输出h包含输入权重wj,第j个隐藏层节点的偏置θj以及第i个训练图片xi的特征值vi,如式(6)所表征:
将满足式(7)中右式最小值时的wj、θj和βj一一对应标记为
利用
β=hτy(8),
其中,hτ是矩阵h的moore-penrose广义逆;
步骤6、利用步骤5得到的输出权重β预测红外热像仪捕捉到的手势图像,若预测的概率大于80%,则将预测结果显示在显示器上;否则显示“请使用规范手势”字样。
具体实施中,利用红外热像仪针对数字手势0、1、2、3、4、5、6、7、8和9采集手势图片,每个手势分别收集2000张图片,共计20000张手势图片构成训练集x_train,并有:n=20000,每个图像的大小为224×224;
则有训练集标签y_train为:y_train={y1,y2,…,yn},且yi∈(0,9)。
构建cnn网络模型:
用keras框架构建八层网络模型,其中三层卷积层conv,卷积核个数为32,大小为3×3,三层最大池化层pooling,大小为2×2,两层全连接层dense,其中第一个dense层参数设置为100,第二个dense层设置为10,用cnn网络模型对训练集x_train和训练集标签y_train开始训练,得到输出权重βcnn;利用输出权重βcnn提取第一个dense的特征值f;再通过构建极限学习机elm(extremelearningmachine)网络模型获得输出权重β;最后,利用输出权重β预测红外热像仪捕捉到的手势图像,并显示结果。
图1所示为本发明中cnn-elm训练流程图,取同种手势不同姿态作为训练集,利用cnn提取训练集的特征值,再将提取到的特征值置于elm中训练,得到训练权重。
图2所示为本发明手势识别流程图,将红外热像仪捕捉的外界的手势,截取手语动作中的关键帧,置于cnn-elm神经网络中识别,再将最终的识别结果显示在显示器上。