一种基于自动编码器和DTW的手绘图人体运动检索方法与流程

文档序号:11251035阅读:608来源:国知局

本发明属于运动捕捉动画技术领域,具体涉及一种基于自动编码器和dtw的手绘图人体运动检索方法。



背景技术:

近年来,计算机动画在各种应用中日益普及。计算机动画对人体运动的应用尤为重要。这已经导致了一个高的需求对于制作非常逼真的人类运动表征。已经形成了多种方法来产生人体运动数据。运动捕获(mocap)是一种众所周知的方法。运动捕获设备的可用性越来越多,驱动了大规模的人体和物体运动数据库的发展。然而,随着各种运动数据的增长,搜索满足特定要求的合适的运动是一件困难的事情。因此,运动检索最近成为在运动捕捉动画领域的主要研究重点。

在文献中已经提出了一些运动检索方法,其中许多是由现有的音频检索方法修改,如动态时间规整(dtw)方法。为了支持索引和提高dtw的检索性能,基于均匀缩放(us)的算法已被提出。一种基于dtw和典型相关分析(cca)扩展的方法,被称为广义的典型时间规整(gctw),已被提出用于调整多模态序列。除了基于dtw的方法,其它方法寻求逻辑上类似的运动匹配。例如,已经开发了用于呈现运动的模板,以及提出使用模板匹配的运动搜索。此外,几何特征已被用来构建索引树,使用聚类和分割,然后提出根据峰值点进行动作匹配。但上述运动检索方法有以下不足:

(1)动态时间规整(dtw)方法,由于这种类型的数据的属性和参数数量大,通常证明了dtw对运动捕获数据的应用有效率低的表现。

(2)均匀缩放(us)的算法,基于均匀缩放的方法通常具有较高的计算成本。

(3)使用模板匹配的运动搜索和聚类和分割等方法来根据峰值点进行动作匹配,但是不能区分紧密匹配的运动。



技术实现要素:

本发明的目的是提供一种基于自动编码器和dtw的手绘图人体运动检索方法,克服了现有方法较高的计算成本,运动捕获数据较低的应用效率和对紧密匹配的运动的检索不能区分到位的问题。

本发明采用的技术方案是,一种基于自动编码器和dtw的手绘图人体运动检索方法,具体按照以下步骤实施:

步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有n个类别的动态人体运动序列数据库v(1)=(v1(1),…,vn(1))及m个类别人体运动骨架手绘图序列数据库v(2)=(v1(2),…,vm(2));

步骤2:提取视频v(1)的每帧图像,得到帧图像fi=(fi1,...,fin),其中n表示视频v(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;

步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库drf;

步骤4:代表性的帧图像数据库drf通过使用自动编码器提取人体骨胳运动图像特征;

步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧应用dtw算法计算rfx和代表帧图像数据库drf距离,根据相似距离顺序排序,输出最优运动检索结果。

本发明的特点还在于,

步骤2具体按照以下步骤实施:

(21)使用kinect获取人体运动的rgb彩色与深度图像,去除rgb彩色与深度图像噪声,并对其进行图像校正处理;

(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;

(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;

(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;

(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架。

步骤3具体按照以下步骤实施:

(31)给定运动序列{fi}i=1:n,其中n是帧数,使用模糊c-均值fcm聚类方法生成代表性帧;

(32)基于帧图像fi=(fi1,...,fin)聚类获取运动序列代表性的帧rf(1)i=(rf1(1),…,rfk(1)),并对v(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像rf(2)j=(rf1(2),…,rfk(2)),然后总的代表帧可以表示为rf={rfk}k=1:c,其中rfk对应于第k个聚类中心;

(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表帧图像数据库drf={rf(1)i,rf(2)j}。

步骤4具体按照以下步骤实施:

(41)假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z中:

z(e)=h(e)(w(e)x+b(e))

其中“(e)”是指神经网络编码层,h(e)是传递函数,w(e)是加权矩阵,b(e)是偏置向量;

(42)解码器将特征信号z映射返回到估计中:

其中“(d)”表示第d网络层,h(d)是解码器的传递函数,w(d)是权重矩阵,b(d)是偏置向量;

(43)建立一个代价函数来描述输入,表示为x,与其重建之间的误差输出,表示为并需要控制误差的值最小

其中代价函数e由3部分组成,第1部分是均方误差,第2部分l*wweights是l2正则化,第3部分b*wsparsity是稀疏正则化,l2正则化系数为l,稀疏正则化系数为b,如果让l2正则化是:

其中l,n,k分别是训练数据中的隐层数,观测数和变量数,添加一个正则化来激励稀疏项,将第i个神经元激活措施定义为:

其中n是训练样本数,xj是第j个训练样本,wi(1)t和bi(1)分别是w(1)的第i行,偏移向量,接下来,利用kullbackleibler发散呈现稀疏正则化:

当ri和相等,kullbackleibler发散是0,否则,由于它们彼此偏离,发散是较大的。

步骤5具体按照以下步骤实施:

(51)dtw的目的是比较两个序列rfx=(rf1x,…,rfcx)和rfy=(rf1y,…,rfcy)之间的相似性,让整体匹配代价为cp(rfx,rfy):

cp(rfx,rfy)=[ddtw(rfix,rfjy)]c×c

在rfx和rfy之间的一个规整路径p,被定义为本地代价度量,而ddtw(rfix,rfjy)是(i,j=1,…,c)之间的dtw,设定是t维向量,并且rfix=(x1,…,xt)和之间的dtw是:

(52)rfx和rfy之间的最佳规整路径是在所有可能的规整路径中具有最小总成本的规整路径p*,然后定义rfx和rfy之间的距离是p*的总成本:ddtw(rfx,rfy)=cp*(rfx,rfy);

(53)为了确定最优路径p*,使用动态规划获得最优路径,累积成本矩阵d满足以下等式:

且n∈[1:c],d(1,m)=∑mk=1ddtw(rf1x,rfky)有m∈[1:c],和:

d(n,m)=min{d(n-1,m-1),d(n-1,m),d(n,m-1)}+ddtw(rfnx,rfmy),

最终优化dtw的距离是:

本发明的有益效果是,本发明从运动数据库检索与给定查询运动非常相似的运动,提出将基于dtw的匹配与统计运动匹配相结合以提高运动匹配的性能和效率。基于优化的代表性识别特征通常比原始无序描述符具有更好的性能,使用模糊聚类将冗余姿态描述符转换成判别描述符。多变量统计学习和贝叶斯融合方法用于将运动匹配转换为运输问题以适应旋转,局部或全局缩放,将提出的算法的性能与dtw和us方法的性能进行比较,使得该算法检索结果具有良好的精确性和有效性。

附图说明

图1是本发明的一种基于自动编码器和dtw的手绘图人体运动检索方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明中相关技术介绍如下:

(1)聚类分析:聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,本发明提到的系统聚类方法是其中的一种,其主要原理是应用紧邻法将属性相似的向量分类成多个集合,是一种无监督的分类方法。系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量然后以统计量作为划分类型的依据,把一些相似程度大的站点(或样品)首先聚合为一类,而把另一些相似程度较小的站点(或样品)聚合为另一类,直到所有的站点(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。

(2)主元素分析(principalcomponentanalysis,缩写pca):它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字主元素分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。本发明采用的改进连续pca方法是在原有pca基础上,提出的一种快速方法,不仅提高了主元分析中的计算速度,同时提高了计算精度。

(3)动态时间规整(dynamictimewarping,缩写dtw):动态时间规整是一个典型的优化问题,它用满足一定条件的动态时间规整函数描述输入模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。

(4)典型相关分析:利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量w1和z1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

(5)代价函数:一般来说,自动编码器的性能是由系统参数优化决定,并且代价函数始终是自动编码器参数训练的关键因素。根据深度学习理论,一个对象,诸如图像,可以被输入到深层网络中来提取特征并且进行特征重构,完成任务,输入(表示为x)与其重建之间的误差输出(表示为)需要控制到最小的值,建立一个代价函数来描述这个误差。

(6)自动编码器:自动编码器可以看作是神经网络。这个网络可以减小输入的维数,并将重建的信号作为输出。在深层网络中,自动编码器始终作为自动学习对象特征的良好模式。在自动编码器训练过程中,只有无监督的学习机制才是必需的。

本发明方法如图1所示,具体按照以下步骤实施:

步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有n个类别的动态人体运动序列数据库v(1)=(v1(1),…,vn(1))及m个类别人体运动骨架手绘图序列数据库v(2)=(v1(2),…,vm(2));

步骤2:提取视频v(1)的每帧图像,得到帧图像fi=(fi1,...,fin),其中n表示视频v(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;

步骤2具体按照以下步骤实施:

(21)使用kinect获取人体运动的rgb彩色与深度图像,去除rgb彩色与深度图像噪声,并对其进行图像校正处理;

(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;

(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;

(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;

(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架。

步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库drf;

步骤3具体按照以下步骤实施:

(31)给定运动序列{fi}i=1:n,其中n是帧数,使用模糊c-均值fcm聚类方法生成代表性帧;

(32)基于帧图像fi=(fi1,...,fin)聚类获取运动序列代表性的帧rf(1)i=(rf1(1),…,rfk(1)),并对v(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像rf(2)j=(rf1(2),…,rfk(2)),然后总的代表帧可以表示为rf={rfk}k=1:c,其中rfk对应于第k个聚类中心;

(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表帧图像数据库drf={rf(1)i,rf(2)j}。

步骤4:代表性的帧图像数据库drf通过使用自动编码器提取人体骨胳运动图像特征;

步骤4具体按照以下步骤实施:

(41)假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z中:

z(e)=h(e)(w(e)x+b(e))

其中“(e)”是指神经网络编码层,h(e)是传递函数,w(e)是加权矩阵,b(e)是偏置向量;

(42)解码器将特征信号z映射返回到估计中:

其中“(d)”表示第d网络层,h(d)是解码器的传递函数,w(d)是权重矩阵,b(d)是偏置向量;

(43)建立一个代价函数来描述输入,表示为x,与其重建之间的误差输出,表示为并需要控制误差的值最小

其中代价函数e由3部分组成,第1部分是均方误差,第2部分l*wweights是l2正则化,第3部分b*wsparsity是稀疏正则化,l2正则化系数为l,稀疏正则化系数为b,如果让l2正则化是:

其中l,n,k分别是训练数据中的隐层数,观测数和变量数,添加一个正则化来激励稀疏项,将第i个神经元激活措施定义为:

其中n是训练样本数,xj是第j个训练样本,wi(1)t和bi(1)分别是w(1)的第i行,偏移向量,接下来,利用kullbackleibler发散呈现稀疏正则化:

当ri和相等,kullbackleibler发散是0,否则,由于它们彼此偏离,发散是较大的。

步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧应用dtw算法计算rfx和代表帧图像数据库drf距离,根据相似距离顺序排序,输出最优运动检索结果。

步骤5具体按照以下步骤实施:

(51)dtw的目的是比较两个序列和rfy=(rf1y,…,rfcy)之间的相似性,让整体匹配代价为cp(rfx,rfy):

cp(rfx,rfy)=[ddtw(rfix,rfjy)]c×c

在rfx和rfy之间的一个规整路径p,被定义为本地代价度量,而ddtw(rfix,rfjy)是rfix(i,j=1,…,c)之间的dtw,设定rfix是t维向量,并且rfix=(x1,…,xt)和rfix之间的dtw是:

(52)rfx和rfy之间的最佳规整路径是在所有可能的规整路径中具有最小总成本的规整路径p*,然后定义rfx和rfy之间的距离是p*的总成本:ddtw(rfx,rfy)=cp*(rfx,rfy);

(53)为了确定最优路径p*,使用动态规划获得最优路径,累积成本矩阵d满足以下等式:

且n∈[1:c],d(1,m)=∑mk=1ddtw(rf1x,rfky)有m∈[1:c],和:

d(n,m)=min{d(n-1,m-1),d(n-1,m),d(n,m-1)}+ddtw(rfnx,rfmy),

最终优化dtw的距离是:

ddtw(rfx,rfy)=cp*(rfx,rfy)=d(n,m)。

本发明与现有的运动检索技术相比:提出的统计学习和贝叶斯融合(slbf)运动相似性匹配算法首先找到代表性的帧及其对应的权重值。基于统计学习,我们获得每个运动类别的可能性模型。为了计算相似度距离,我们利用两种相似度测量方法,包括基于类和基于cca的运动相似距离测量。为了获得进一步优化的相似性距离,采用贝叶斯融合算法并运用基于实时cca的运动相似度距离测量来更新基于类的相似距离预测。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1