一种基于eSC和HOG的自适应HMM的手语识别方法

文档序号:10535301阅读:365来源:国知局
一种基于eSC和HOG的自适应HMM的手语识别方法
【专利摘要】本发明公开了一种基于eSC和HOG的自适应HMM的手语识别方法,包括:步骤S1、对手语的轨迹进行基于密度的采样处理,再进行形状上下文特征的提取并结合金字塔处理方法,获得包含了空间和时间上信息的eSC特征;步骤S2、对于手型特征,通过从图像数据中提取出包含手的矩形框,在框中进行HOG特征的提取,从而实现对手型特征的描述;步骤S3、基于提取出的eSC特征与HOG特征建立自适应HMM模型;步骤S4、对于待识别的数据,通过步骤S1与步骤S2提取出eSC特征与HOG特征,再基于所述自适应HMM模型对待识别的数据中提取出的eSC特征与HOG特征进行识别,获得识别结果。通过采用本发明公开的方法能够显著的提高手语识别正确率。
【专利说明】
一种基于eSC和HOG的自适应HMM的手语识别方法
技术领域
[0001] 本发明涉及多媒体技术中的手语识别领域,尤其涉及一种基于eSC和H0G的自适应 HMM的手语识别方法。
【背景技术】
[0002] 在手语识别领域,有两个至关重要的问题。一是如何获取并设计鲁棒高效的手语 动作特征,二是如何对手语动作特征建立鲁棒的识别模型。
[0003] 对于第一个问题,从上世纪开始就有学者引入数据手套传感器,对每个手指的位 置、形变等进行精细记录。但数据手套不仅昂贵,还需测试者穿戴复杂设备,为此又有学者 引入颜色手套,根据手套的颜色从视觉上跟踪并分割手型,但它还是需要测试者进行穿戴。 近年来,随着体感设备例如微软的Kinect,英特尔的Real-Sense,以及Leap-Mot ion等等地 出现,使得测试者无需穿戴任何设备,并且能够记录手的坐标信息,以及记录RGB视频文件。 所以现在的学者大多基于体感设备提供的原始数据进行设计手语动作的特征。
[0004] 对于第二个问题,对手语动作进行建模,进而实现手语动作的识别。这主要是借鉴 于语音识别,利用机器学习理论中的一些模型。例如利用可以计算不等长序列相关性的DTW (Dynamic Time Warping,动态时间规整)算法以及机器学习模型SVM(Support Vector Machine,支持向量机)、GMM(Gaussi an Mixture Model,高斯混合模型)、HMM(Hidden Markov Model,隐马尔科夫模型)、CRF(Conditional Random Field,条件随机场)、ANN (Artificial Neural Network,人工神经网络)等等。由于一直没有公认的、实用的、鲁棒的 手语识别特征以及方法,以至于现今手语识别技术还不能像语音识别技术一样真正地实用 化。

【发明内容】

[0005] 本发明的目的是提供一种基于eSC和H0G的自适应HMM的手语识别方法,能够显著 的提高手语识别正确率。
[0006] 本发明的目的是通过以下技术方案实现的:
[0007] -种基于eSC和H0G的自适应HMM的手语识别方法,包括:
[0008] 步骤S1、对手语的轨迹进行基于密度的采样处理,再进行形状上下文特征的提取 并结合金字塔处理方法,获得包含了空间和时间上信息的eSC特征;
[0009] 步骤S2、对于手型特征,通过从图像数据中提取出包含手的矩形框,在框中进行 H0G特征的提取,从而实现对手型特征的描述;
[0010] 步骤S3、基于提取出的eSC特征与H0G特征建立自适应HMM模型;
[0011] 步骤S4、对于待识别的数据,通过步骤S1与步骤S2提取出eSC特征与H0G特征,再基 于所述自适应HMM模型对待识别的数据中提取出的eSC特征与H0G特征进行识别,获得识别 结果。
[0012]进一步的,所述对手语的轨迹进行基于密度的采样处理后,进行形状上下文特征 的提取并结合金字塔处理方法,获得包含了空间和时间上信息的eSC特征包括:
[0013] 采用基于密度的采样处理,使得图像数据中手语轨迹点趋于均匀化:a、设定采样 上界值,初始化手语轨迹Path为原始数据归一化后的坐标点序列;b、计算手语轨迹Path中 相邻图像帧的手语轨迹点的平均距离d;c、在相邻图像帧的手语轨迹点距离最大且超过平 均距离d的两个手语轨迹点之间线性插入一个手语轨迹点,并更新Path;d、判断更新后的 Path中的手语轨迹点总数是否达到采样上界值;若是,则停止;若否,则继续重复上述步骤b ~d;
[0014] 将采样处理后的三维数据(x,y,z)分成三个两维数据:(^7)、(^2)与(7,2);分别 获取每一个二维数据的形状上下文直方图;将形状上下文直方图平面分成t个方向,每个方 向上取s层,所以将空间分成了 tXs个区域,每个区域的取值为落在对应区域中手语轨迹点 的个数;再进行归一化处理,将三个二维的直方图连在一起,形成一个能够描述三维空间的 特征向量;
[0015]弓丨入时间金字塔处理方法,来利用时间信息:将图像数据通过前述两个步骤处理 获得的三维空间的特征向量记为f1;将图像数据从时间上划分为前半部分与后半部分,再 分别对前半部分与后半部分进行上述两个步骤的处理,处理获得的三维空间的特征向量分 另IJ记为fgf 3;再将图像数据从时间上划分为四个部分,再分别对四个部分进行上述两个步 骤的处理,处理获得的三维空间的特征向量分别记为f 4、f 5、f 6与f7 ;
[0016] 最终获得的获得包含了空间和时间上彳目息的eSC特征记为:
[0017] F=(fl,f2,f3,f4,f5,f6,f7)。
[0018]进一步的,对手语的轨迹进行基于密度的采样处理之前还对图像数据进行归一化 处理,其包括:
[0019]归一化的方式为左右手相对于头部的位置,再与用于本身肩宽w的比值,假设L和R 分别为归一化后的左右手坐标点,则通过如下操作实现归一化处理:
[0022]进一步的,所述对于手型特征,通过从图像数据中提取出包含手的矩形框,在框中 进行H0G特征的提取,从而实现对手型特征的描述包括:
[0023]根据图像数据采集设备的映射函数,找到每一帧图像中手对应的骨骼点在图像数 据中的像素位置,提取出预定大小且以手为中心的矩形像素框;
[0024]对于每一帧图像,均从矩形像素框中提取H0G特征,其中,参数设置为n Xn为一个 cel 1单元,hXh个cell单元组成一个block块;在每个cell中取p个梯度方向,计算一个直方 图;每平移一个cell选取一个block,则总共有h Xh Xp个block块,每个block由h Xh Xp维 直方图表达,每一帧图像总共可以获得(hXhXp)2维的直方图特征;
[0025] 采用PCA方法将每一帧图像的(hXhXp)2维的直方图特征降维成W维,其中,W<< (hXhXp) 2。
[0026] 进一步的,基于提取出的eSC特征与HOG特征建立自适应HMM模型包括:
[0027]所建立的自适应HMM模型的参数为A=(N,M,A,B,jt);式中,N为隐状态参数数目,M 为观察状态数目,A为状态转移矩阵,B为观察序列概率矩阵,Jr为初始状态;
[0028] 其中,隐状态参数数目N确定方法如下:
[0029] 记第i帧图像的H0G特征为hi,将第i+1帧图像与第i帧图像的差值记为di:
[0030] di = hi+i-hi ;
[0031] 则整个图像数据的差值向量D为:
[0032] D=(di,d2, . . . ,c1t-i);
[0033]式中的T为整个图像数据的总帧数;
[0034] 设置阈值Threshold,将差值向量D中的各个元素依次与阈值Threshold进行比较, 将大于阈值Thr e sho 1 d的记为0,小于阈值Thr e sho 1 d的记为1,则获得由0与1组成的序列;利 用中值滤波的方法去除单个噪声,最终获得若干个连续的由1组成的片段;统计片段的数量 并将该数量作为自适应HMM模型的隐状态参数数目N;
[0035]观察状态数目M的确定方法如下:
[0036]设置初始时观察状态数值,记eSC特征与H0G初始时观察状态数值均为m;
[0037]分别取一部分eSC特征和HOG特征聚类,获得聚类中心,将剩余的特征映射到距离 最近的中心,使得所有的特征能够用有限个类别来表示,从而实现观察状态的表达;
[0038]分别对eSC和H0G特征利用上述五个参数建立自适应HMM模型,利用校验数据求得 识别率;
[0039]将eSC特征和/或H0G初始时观察状态数值m加上步进值m',并重复上述三个步骤, 直至求得的识别率开始递减,将识别率为最大值时对应的观察状态数值作为最终结果。 [0040] 进一步的,所述对于待识别的数据,通过步骤S1与步骤S2提取出eSC特征与H0G特 征,再基于所述自适应HMM模型对待识别的数据中提取出的eSC特征与H0G特征进行识别,获 得识别结果包括:
[0041 ] 对待识别的数据,通过步骤S1与步骤S2提取出eSC特征与H0G特征,并根据自适应 HMM模型中观察状态的聚类中心聚类成相应的观察状态数序列;
[0042] 对获得的观察状态数序列,利用自适应的H丽模型得到后验概率与
[0043] P(〇\Cf,) = n 々'/)(01 G;);
[0044] P(01II.) =:/2 fP{d\Ti~);
[0045]式中,P(0 | Gi)与P(0 | Hi)分别表示待识别的数据0的eSC特征G与HOG特征H在第i个 模型下的概率;ll_j与12_j分别表示第j个eSC特征与HOG特征的长度;
[0046] 计算判决概率^01孓;);
[0047] ) = >(01 (7,.) + >(01 j 丨,);
[0048] 则最大的判决概率戶丨0|為;)对应的标号即为识别结果,其中每一标号均对应一个 词语:
[0049] Index - argmax argmax P{〇 \ / )- 0</<Af iHi<N
[0050] 由上述本发明提供的技术方案可以看出,利用基于eSC和HOG的自适应HMM模型手 语识别方法在大规模词汇的手语识别中识别率显著提升。一方面,在特征描述与表达上, eSC能够处理不同速度造成的差异,时间金字塔能够将时间信息考虑其中,相比于现有技 术,这种特征可以更加深入地描述轨迹特征。另一方面,在自适应的HMM模型中,不同于现有 技术将模型参数固定,我们采用自适应参数对不同的手语进行自适应的建模,进而实现手 语识别正确率的提升。
【附图说明】
[0051] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 附图。
[0052] 图1为本发明实施例提供的一种基于eSC和H0G的自适应HMM的手语识别方法的流 程图;
[0053]图2为本发明实施例提供的提取包含空间和时间信息的eSC特征的示意图。
【具体实施方式】
[0054]下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明的保护范围。
[0055]图1为本发明实施例提供的一种基于eSC和H0G的自适应HMM的手语识别方法的流 程图。如图1所示,其主要包括如下步骤:
[0056]步骤S1、对手语的轨迹进行基于密度的采样处理,再进行形状上下文特征的提取 并结合金字塔处理方法,获得包含了空间和时间上信息的eSC特征。
[0057] 本发明实施例中,为了适应不同人对同一手语词汇的不同比划速度,对图像数据 进行了一种基于密度的采样处理,即在密度小的地方进行差值采样,使得样本点更加平滑。 然后,再行形状上下文特征的提取;再在时间上将动作分成等分段,分别对二分之一段和四 分之一段进行特征提取,将所有特征拼接在一起实现轨迹特征的描述,使得提取出的特征 同时包含了空间和时间上的信息。
[0058] 优选的,为了适应不同比划者的身高臂展等造成的影响,可以对图像数据中获得 的左右手三维坐标进行归一化。示例性的,图像数据采集设备可以为微软的Kinect。
[0059] 归一化过程如下:记左手的坐标点为l(x,y,z),右手的坐标点为r(X,y,z),头部的 坐标点为h(x,y,z),左肩膀的坐标点为ls(x,y,z),右肩膀的坐标点为rs(x,y,z);设肩膀的 宽度为w,则每一帧数据中左肩膀与右肩膀的空间距离为:
[0060] wHJ&-r5|!2- ^
[0061] 归一化的方式为左右手相对于头部的位置,再与用于本身肩宽的比值,假设L和R 分别为归一化后的左右手坐标点,则通过如下操作实现归一化处理:
[0064] 归一化后,则可通过如下三个步骤提取出包含空间和时间信息的eSC特征;下述三 个步骤的示意图如图2所示。
[0065] 1)采用基于密度的采样处理,使得图像数据中手语轨迹点趋于均匀化:a、设定采 样上界值,初始化手语轨迹Path为原始数据归一化后的坐标点序列;b、计算手语轨迹Path 中相邻图像帧的手语轨迹点的平均距离d;c、在相邻图像帧的手语轨迹点距离最大且超过 平均距离d的两个手语轨迹点之间线性插入一个手语轨迹点,并更新Path;d、判断更新后的 Path中的手语轨迹点总数是否达到采样上界值;若是,则停止;若否,则继续重复上述步骤b ~d〇
[0066] 示例性的,所述图像数据可以为视频数据,若视频数据中每一秒包含30帧图像,则 每秒钟可以获取30个手的坐标点。归一化后只是在相对位置上进行了不同人的适应。而在 速度上差异只能由采样来克服。一般情况下,每个手语动作平均3秒(90帧数据),最长的数 据不会超过5秒,因此,可以设置采样上界为250个点。本领域技术人员可以理解,上述各个 参数的具体数值仅为举例。
[0067] 2)将采样处理后的三维数据(x,y,z)分成三个两维数据:(^7)、(^ 2)与(7,2);分 别获取每一个二维数据的形状上下文直方图;将形状上下文直方图平面分成t个方向,每个 方向上取s层,所以将空间分成了 tXs个区域,每个区域的取值为落在对应区域中手语轨迹 点的个数;再进行归一化处理,将三个二维的直方图连在一起,形成一个能够描述三维空间 的特征向量。
[0068] 所述t可以为12,s可以为3;本领域技术人员可以理解,这两个参数的具体数值仅 为举例。
[0069] 3)引入时间金字塔处理方法,来利用时间信息:将图像数据通过前述两个步骤处 理获得的三维空间的特征向量记为f 1;将图像数据从时间上划分为前半部分与后半部分, 再分别对前半部分与后半部分进行上述两个步骤的处理,处理获得的三维空间的特征向量 分别记为f 2与f3;再将图像数据从时间上划分为四个部分,再分别对四个部分进行上述两个 步骤的处理,处理获得的三维空间的特征向量分别记为f 4、f 5、f 6与f7 ;
[0070] 最终获得的获得包含了空间和时间上信息的eSC特征记为:
[0071] F=(fl,f2,f3,f4,f5,f6,f7)。
[0072] 步骤S2、对于手型特征,通过从图像数据中提取出包含手的矩形框,在框中进行 H0G特征的提取,从而实现对手型特征的描述。
[0073] 本步骤可以分为如下三部进行处理:
[0074] 1)根据图像数据采集设备的映射函数(如前所述,图像数据采集设备可以为微软 的Kinect),找到每一帧图像中手对应的骨骼点在图像数据中的像素位置,提取出预定大小 且以手为中心的矩形像素框;
[0075] 2)对于每一帧图像,均从矩形像素框中提取H0G特征,其中,参数设置为nXn为一 个cell单元,hXh个cell单元组成一个block块;在每个cell中取p个梯度方向,计算一个直 方图;每平移一个cell选取一个block,则总共有h Xh Xp个block块,每个block由h Xh Xp 维直方图表达,每一帧图像总共可以获得(hXhXp)2维的直方图特征;
[0076] 3)采用PCA(Principal Component Analysis,主成分分析)方法将每一帧图像的 (hXhXp)2维的直方图特征降维成W维,其中,W<<(hXhXp)2。
[0077] 本发明实施例中,可以提取手为中心的70 X 70的矩形像素框,提取HOG特征时,参 数n可以为10, a可以为2, p可以为9,则每平移一个cell选取一个block,总共有36个block块 每个block由36维直方图表达,每一帧图像总共可以获得1296维的直方图特征;采用PCA方 法可以将降维成每只手50维,则每帧图像包含两只手,通过100(即W=100)维H0G特征描述。 本领域技术人员可以理解,上述各个参数的具体数值仅为举例。
[0078] 步骤S3、基于提取出的eSC特征与H0G特征建立自适应HMM模型。
[0079] 本发明实施例中,所建立的自适应HMM模型的参数为A = (N,M,A,B,JT);
[0080] 其中:
[0081 ] N为隐状态参数数目,每个模型对应的N可自适应确定,具体的计算方法将在后文 详细介绍。可记为⑶,&,…,SN)。第i帧的数据所处状态可以记为qi。
[0082] M为观察状态数目,计算方法将在后文详细介绍。
[0083] A为状态转移矩阵,A= (aij)NXN,其中,aij = P(qi+i = Sj | qi = Si),表示从状态Si到状 态Sj的跳转概率。
[0084] B为观察序列概率矩阵,B=(bjk)MXN,其中,bjk = P(0j = Vk|qj = Sj),表示,在qi状态 时,观察序列符号〇j为Vk的概率。其中Vk为已知的模型观察状态。
[0085] JT为初始状态;可以设置为(1,0,…,0)表示从第一个状态开始跳转。
[0086]该自适应HMM模型的参数确定后,再利用Baum-We lch学习算法使得模型收敛。
[0087]本发明所建立的自适应HMM模型,引入了自适应参数机制,使得每个模型的参数根 据手语本身特性自适应而定。
[0088]隐状态参数数目N确定方法如下:
[0089] 记第i帧图像的H0G特征为hi,将第i+1帧图像与第i帧图像的差值记为di:
[0090] di = hi+i-hi ;
[0091] 则整个图像数据的差值向量D为:
[0092] D=(di,d2,…,cIt-1);
[0093] 式中的T为整个图像数据的总帧数;
[0094] 本发明实施例中,设置阈值Thresho 1 d (例如,Thresho 1 d = 0.8),将差值向量D中的 各个元素依次与阈值Threshold进行比较,将大于阈值Threshold的记为0,小于阈值 Thre sho Id的记为1,则获得由0与1组成的序列;利用中值滤波的方法去除单个噪声,最终获 得若干个连续的由1组成的片段;统计片段的数量并将该数量作为自适应HMM模型的隐状态 参数数目N;
[0095] 观察状态的数目通过校验获得,分别对不同的观察状态做测试实验,取校验效果 最好的观察状态值。观察状态数目M的确定方法如下:
[0096] 1)设置初始时观察状态数值,记eSC特征与H0G初始时观察状态数值均为m;
[0097] 2)分别取一部分eSC特征和HOG特征聚类,获得聚类中心,将剩余的特征映射到距 离最近的中心,使得所有的特征可以用有限个类别来表示,也就实现模型中观察状态的表 达;
[0098] 3)分别对eSC和HOG特征利用上述参数建立自适应HMM模型,利用校验数据求得在 该模型下识别率;
[0099] 4)将eSC特征和/或H0G初始时观察状态数值m加上步进值m',并重复上述三个步 骤,直至求得的识别率开始递减,将识别率为最大值时对应的观察状态数值作为最终结果。
[0100] 本发明实施例中,可以根据数据集中手语词汇数目确定初始观察状态数值,例如 500个词汇时,取eSC和H0G特征的初值均为500;所述步进值m'可以设置为100,通过上述步 骤可得eSC特征的观察状态数值为1900,H0G特征的观察状态数值为1800。本领域技术人员 可以理解,上述各个参数的具体数值仅为举例。
[0101] 步骤S4、对于待识别的数据,通过步骤S1与步骤S2提取出eSC特征与H0G特征,再基 于所述自适应HMM模型对待识别的数据进行识别,所有模型中给出的最大识别概率对应的 词汇作为该词的识别结果,细节如下所述。
[0102] 本发明实施例中,对待识别的数据,通过步骤S1与步骤S2提取出eSC特征与H0G特 征,并根据自适应HMM模型中观察状态的聚类中心聚类成相应的观察状态数序列;
[0103] 对获得的观察状态数序列,利用自适应的HMM模型得到后验概率与 卢(0|
[0104] 首先,计算出待识别的数据0的eSC特征G与H0G特征H在第i个自适应HMM模型下的 概率p(01 与P(0 I出),由于处理轨迹的采样使得其与手型长度不一致,因此概率不在一个 量级上,需要进行归一化处理得到后验概率| G,丨1与| //,):
[0105] p(〇\Gi) = :' ^P{〇\G:):
[0106] P{〇\ l!.) = !- 々'/)(〇|/:);
[0107] 式中,ll_j与12_j分别表示第j个eSC特征与HOG特征的长度;
[0108] 计算判决概率多(0 |爲):
[0109] ) = >(01 G,.)十 /)(01 丨丨,):
[0110] 则最大的判决概率对应的标号(每个标号对应一个词语)即为识别结果:
[0111] Index = argi)iax argnwx P (O \ A.) 〇 ()<i-<N 0<i-<N'
[0112] 本发明实施例的上述方案,利用基于eSC和HOG的自适应HMM模型手语识别方法在 大规模词汇的手语识别中识别率显著提升。一方面,在特征描述与表达上,eSC能够处理不 同速度造成的差异,时间金字塔能够将时间信息考虑其中,相比于现有技术,这种特征可以 更加深入地描述轨迹特征。另一方面,在自适应的HMM模型中,不同于现有技术将模型参数 固定,我们采用自适应参数对不同的手语进行自适应的建模,进而实现手语识别正确率的 提升。
[0113] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可 以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解, 上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易 失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设 备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0114]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范 围为准。
【主权项】
1. 一种基于esc和HOG的自适应HMM的手语识别方法,其特征在于,包括: 步骤S1、对手语的轨迹进行基于密度的采样处理,再进行形状上下文特征的提取并结 合金字塔处理方法,获得包含了空间和时间上信息的eSC特征; 步骤S2、对于手型特征,通过从图像数据中提取出包含手的矩形框,在框中进行HOG特 征的提取,从而实现对手型特征的描述; 步骤S3、基于提取出的eSC特征与HOG特征建立自适应HMM模型; 步骤S4、对于待识别的数据,通过步骤Sl与步骤S2提取出eSC特征与HOG特征,再基于所 述自适应HMM模型对待识别的数据中提取出的eSC特征与HOG特征进行识别,获得识别结果。2. 根据权利要求1所述的方法,其特征在于,所述对手语的轨迹进行基于密度的采样处 理后,进行形状上下文特征的提取并结合金字塔处理方法,获得包含了空间和时间上信息 的eSC特征包括: 采用基于密度的采样处理,使得图像数据中手语轨迹点趋于均匀化:a、设定采样上界 值,初始化手语轨迹Path为原始数据归一化后的坐标点序列;b、计算手语轨迹Path中相邻 图像帧的手语轨迹点的平均距离d;c、在相邻图像帧的手语轨迹点距离最大且超过平均距 离d的两个手语轨迹点之间线性插入一个手语轨迹点,并更新Path;d、判断更新后的Path中 的手语轨迹点总数是否达到采样上界值;若是,则停止;若否,则继续重复上述步骤b~d; 将采样处理后的三维数据(x,y,z)分成三个两维数据:(^7)、(^2)与(7, 2);分别获取 每一个二维数据的形状上下文直方图;将形状上下文直方图平面分成t个方向,每个方向上 取s层,所以将空间分成了 tXs个区域,每个区域的取值为落在对应区域中手语轨迹点的个 数;再进行归一化处理,将三个二维的直方图连在一起,形成一个能够描述三维空间的特征 向量; 引入时间金字塔处理方法,来利用时间信息:将图像数据通过前述两个步骤处理获得 的三维空间的特征向量记为f1;将图像数据从时间上划分为前半部分与后半部分,再分别 对前半部分与后半部分进行上述两个步骤的处理,处理获得的三维空间的特征向量分别记 为f 2与f3;再将图像数据从时间上划分为四个部分,再分别对四个部分进行上述两个步骤的 处理,处理获得的三维空间的特征向量分别记为f 4、ft、f 6与f7 ; 最终获得的获得包含了空间和时间上信息的eSC特征记为: F=(fl,f2,f3,f4,f5,f6,f7)〇3. 根据权利要求1或2所述的方法,其特征在于,对手语的轨迹进行基于密度的采样处 理之前还对图像数据进行归一化处理,其包括: 归一化的方式为左右手相对于头部的位置,再与用于本身肩宽W的比值,假设L和R分别 为归一化后的左右手坐标点,则通讨如下操作卖现伯一化处理:4. 根据权利要求1所述的方法,其特征在于,所述对于手型特征,通过从图像数据中提 取出包含手的矩形框,在框中进行HOG特征的提取,从而实现对手型特征的描述包括: 根据图像数据采集设备的映射函数,找到每一帧图像中手对应的骨骼点在图像数据中 的像素位置,提取出预定大小且以手为中心的矩形像素框; 对于每一帧图像,均从矩形像素框中提取HOG特征,其中,参数设置为nXn为一个cell 单元,h X h个cel 1单元组成一个block块;在每个cel 1中取p个梯度方向,计算一个直方图; 每平移一个cel 1选取一个block,则总共有h X h X p个block块,每个block由h X h X p维直方 图表达,每一帧图像总共可以获得(hXhXp)2维的直方图特征; 采用PCA方法将每一帧图像的(hXhXp)2维的直方图特征降维成W维,其中,W<<(hXh Xp)2。5. 根据权利要求1或2或4所述的方法,其特征在于,基于提取出的eSC特征与HOG特征建 立自适应HMM模型包括: 所建立的自适应HMM模型的参数为λ= (N,M,A,B,JT);式中,N为隐状态参数数目,M为观 察状态数目,A为状态转移矩阵,B为观察序列概率矩阵,π为初始状态; 其中,隐状态参数数目N确定方法如下: 记第i帧图像的HOG特征为lu,将第i+Ι帧图像与第i帧图像的差值记为d1: di = hi+i_hi; 则整个图像数据的差值向量D为: D= (di,d2, ·' ,cIt-i); 式中的T为整个图像数据的总帧数; 设置阈值Thr e sho I d,将差值向量D中的各个元素依次与阈值Thr e sho I d进行比较,将大 于阈值Threshold的记为0,小于阈值Threshold的记为1,则获得由0与1组成的序列;利用中 值滤波的方法去除单个噪声,最终获得若干个连续的由1组成的片段;统计片段的数量并将 该数量作为自适应HMM模型的隐状态参数数目N; 观察状态数目M的确定方法如下: 设置初始时观察状态数值,记eSC特征与HOG初始时观察状态数值均为m; 分别取一部分eSC特征和HOG特征聚类,获得聚类中心,将剩余的特征映射到距离最近 的中心,使得所有的特征能够用有限个类别来表示,从而实现观察状态的表达; 分别对eSC和HOG特征利用上述五个参数建立自适应HMM模型,利用校验数据求得识别 率; 将eSC特征和/或HOG初始时观察状态数值m加上步进值m',并重复上述三个步骤,直至 求得的识别率开始递减,将识别率为最大值时对应的观察状态数值作为最终结果。6. 根据权利要求5所述的方法,其特征在于,所述对于待识别的数据,通过步骤Sl与步 骤S2提取出eSC特征与HOG特征,再基于所述自适应HMM模型对待识别的数据中提取出的eSC 特征与HOG特征进行识别,获得识别结果包括: 对待识别的数据,通过步骤Sl与步骤S2提取出eSC特征与HOG特征,并根据自适应HMM模 型中观察状态的聚类中心聚类成相应的观察状态数序列; 对获得的观察状态数序列,利用自适应的HMM模型得到后验概率/5(01 q ;)与1 //,_):式中,P(〇 I Gi)与P(0 I Hi)分别表示待识别的数据0的eSC特征G与HOG特征H在第i个模型 下的概率;ll_j与12_j分别表示第j个eSC特征与HOG特征的长度; 计算判决概率Μομ,)·则最大的判决概率為:)对应的标号即为识别结果,其中每一标号均对应一个词语:
【文档编号】G06K9/00GK105893942SQ201610186434
【公开日】2016年8月24日
【申请日】2016年3月25日
【发明人】周文罡, 张继海, 李厚强
【申请人】中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1