一种基于余弦距离层次聚类的关键帧提取方法与流程

文档序号:11251906阅读:587来源:国知局
一种基于余弦距离层次聚类的关键帧提取方法与流程

本发明涉及计算机视觉技术领域,具体是一种基于余弦距离层次聚类的关键帧提取方法。



背景技术:

三维动画合成技术是在运动捕捉技术产生的基础上发展而来的一门新兴技术。该技术自产生以来就被广泛地运用到游戏动画、电影特效、虚拟现实等数字媒体领域。近几年来,随着计算机性能的稳步提升以及录制设备和动作捕捉传感器技术的突破和精度的提升,三维动画合成技术已然成为计算机图形学领域的研究热点。目前该技术的实现基础依然依赖于运动捕捉技术。运动捕捉技术是该技术的前提,通过传感器获取待捕捉运动的数据信息,再利用动作融合模型将捕获到的原始动作数据合成最终所需要的三维动画。

运动捕捉技术是指准确追踪并记录动作的技术。该技术可以追溯到1914年转描机的使用,最初被用于动画制作。在20世纪70年代,运动捕捉(motioncapture)技术首次应用于人体的动作捕捉,迪士尼试想通过捕捉演员的动作来改善动画效果。伴随着科学技术的快速发展,运动捕捉设备越来越多样化,例如光学运动捕捉设备、机械式运动捕捉设备以及基于计算机视觉运动捕捉设备。运动捕捉技术的应用主要涉及到三个大方面,即监控、运动控制以及运动分析。监控是通过监视一个或者多个目标的方法来追踪和发现他们的特殊行为。运动控制即是通过捕捉到的运动数据控制一些事物。运动分析是指通过分析运动捕捉数据,发现动作中人们感兴趣的信息。

随着科技的不断进步,动画合成技术的应用越来越广泛。人们对动画合成技术有了新的功能需求,那就是对现有的动作进行重用,从而产生一些不同的效果。即采用动画合成技术给用户一种强烈的视觉冲击,并带给他们震撼的视觉效果。现有的三维动画合成方法主要包含运动合成和运动重定向两种技术。运动合成技术主要研究如何将现有动作序列组合成新的动作序列,而动作重定向技术主要研究如何对现有动作进行编辑和修改,从而将现有动作改变成另一个不同的动作。传统的运动合成方法是要将不同的动作序列拼接在一起合成新的动作,不符合改变现有运动捕捉数据的风格和效果要求;传统的运动重定向方法是要将人的动作映射到自定义的角色模型上,通过人的动作直接改变效果,不符合重用现有的动作片段要求。在本发明中,我们主要关注重用的关键帧提取技术,为后续的三维动画合成打下夯实的基础。

在动画合成技术中,运动捕捉数据是实现动画合成技术的基础。但是,这些运动捕捉数据大量冗余的问题阻碍了动画合成技术的进一步发展。为了降低已捕获数据的冗余程度、减少使用成本以及提高捕获数据的利用率,需要对捕获数据进行一系列的操作,例如压缩存储、浏览、检索等。然而这些数据操作都是在运动捕获数据的关键帧基础上完成,因此关键帧提取技术在运动捕捉应用方面具有十分重要的地位。就关键帧提取的方法而言,传统的关键帧提取技术并不能很好地对高维的动作数据分割,这使得一些需要对数据进行分割的应用难以实现。所以本发明提出了一种基于余弦距离层次聚类的关键帧提取方法。该方法主要为两个模块,分别为数据预处理和关键帧提取,其中数据预处理用于动作捕捉数据的特征选取、去噪和降维;关键帧提取用于余弦距离计算相似度、层次聚类分割以及分割点和中间关键帧提取。



技术实现要素:

本发明的目的在于提供一种基于余弦距离层次聚类的关键帧提取方法,解决大量捕获数据的冗余和分割高维数据的问题,以提高捕获数据的利用率,减少运动捕捉设备高采样率的影响,从而提高目标检测的准确性。

为了解决以上技术问题,本发明采用的具体技术方案如下:

一种基于余弦距离层次聚类的关键帧提取方法,其特征在于包括以下步骤:

步骤一,运动捕捉数据预处理模块设计,即对运动捕捉数据进行预处理操作,排除干扰因素;

步骤二,运动捕捉数据关键帧提取模块设计,即对已经预处理过的运动捕捉数据实现关键帧提取。

运动捕捉数据预处理主要包括以下过程:

s1选取关节点的旋转量作为运动捕捉数据的特征值;

s2应用双向巴特沃斯滤波器,实现对运动捕捉数据的去噪功能;

s3采用pca方法将高维的运动捕捉数据映射成低维的数据,消除一些影响分割结果准确性的维度数据;

运动捕捉数据关键帧提取主要包括以下过程:

s1在运动捕捉数据预处理的基础上,通过计算余弦距离比较相邻速率向量的相似性。速率向量vvi通过相邻的两个帧ai、ai+1的间差计算得到,vvi=ai+1-ai;相邻的速率向量vvi,vvi+1的余弦距离取值范围是0到2,若distance接近0的时候,相邻帧的速率向量之间的角度越小,则意味着相邻帧越相似;

s2为了解决计算结果与观察结果不一致和获取分割点的问题,采用聚类算法;每一个速率向量本身就是一个类,然后找到那个最小余弦距离的相邻速率向量,然后将相似一致的两个类合并成一个类,两个向量使用线性回归的方法合并成一个向量;采用线性回归的方式保持向量的方向,在合并两个向量之后,合并向量与前一个向量和后一个向量之间的余弦距离都需要更新;同时,被合并的两个向量之间的余弦距离都要被移除;当运行到最后的相邻帧速率向量之间的最大距离大于1,线性回归停止,此时每个类中最大的值就是一个分割点;

s3每段的帧姿势与均值的欧式距离误差最小的帧作为关键帧,插入到关键帧集合中;第j帧姿势表示成mj,第i段的均值bi可以描述为公式第i段的中间关键帧取该段中的帧姿态与均值的欧式距离误差最小的帧,设ai≤aoi≤ai+1,则第i段的中间关键帧的序号aoi,计算公式是:aoi=argmin|mx-bi|,其中:ai≤x≤ai+1-1;

s4分割成k个分段的运动捕捉数据,可以获得k+1个分割点,另外还有k个段的帧姿态与均值的欧式距离误差最小的帧aoi,总共2k+1个关键帧,该序列为(a1,ao1,a2,ao2......ak);

s5多名学生人工分割数据集中的捕捉数据,获得分割点,比较计算得到的分割点和人工分割点。

所述运动捕捉数据预处理模块主要包含三个方面内容,即数据的特征值选取、捕获数据的噪音成分去除以及高维的运动捕捉数据降维。

所述运动捕捉数据关键帧提取模块主要三个方面内容,即余弦距离计算、层次聚类分割以及关键帧提取。

不同于现有运动捕捉的数据未经过滤波处理,本发明的特点在于,采用双向巴特沃斯滤波器对数据库中的捕捉数据进行滤波处理,有效去除数据中包含的噪音成分。

所述的运动捕捉数据预处理模块具体为:选取关节点的旋转量作为运动捕捉数据的特征值。应用阶数为o,截止频率为h赫兹的双向巴特沃斯滤波器,实现对运动捕捉数据的去噪功能。采用pca方法将高维的运动捕捉数据映射成低维的数据,消除一些影响分割结果准确性的维度数据。设置o=5,h=0.1。

不同于余弦距离公式计算相似度,本发明的特点在于,对余弦距离公式进行了变形,当相邻两帧越相似,那么角度越小,余弦距离越小,更加方便直观标识出相似度。

所述的计算余弦距离具体为:在运动捕捉数据预处理的基础上,通过计算余弦距离比较相邻速率向量的相似性;速率向量vvi通过相邻的两个帧ai、ai+1的间差计算得到,vvi=ai+1-ai;相邻的速率向量vvi,vvi+1的余弦距离取值范围是0到2,若distance接近0的时候,相邻帧的速率向量之间的角度越小,则意味着相邻帧越相似。

不同于基于聚类算法的关键帧提取,本发明的特点在于,通过计算相邻帧速率向量的余弦距离,距离越小,相似度越高。将距离最小的两个相邻帧速率向量合并成一个新的向量,生成聚类树,将得到的分割点作为关键帧,不需要从相似的帧聚类中选取一帧作为关键帧。

所述的层次聚类分割具体为:为了解决计算结果与观察结果不一致和获取分割点的问题,采用聚类算法;每一个速率向量本身就是一个类,然后找到那个最小余弦距离的相邻速率向量,然后将相似一致的两个类合并成一个类,两个向量使用线性回归的方法合并成一个向量;采用线性回归的方式保持向量的方向,在合并两个向量之后,合并向量与前一个向量和后一个向量之间的余弦距离都需要更新;同时,被合并的两个向量之间的余弦距离都要被移除;当运行到最后的相邻帧速率向量之间的最大距离大于1,线性回归停止,此时每个类中最大的值就是一个分割点。

不同于基于曲线算法的关键帧提取,本发明的特点在于,递归的方式计算余弦距离,不需要计算首帧和尾帧的距离最大从而得到关键帧,简化了计算过程,减少了消耗的时间。

不同于基于优化算法的关键帧提取。本发明的特点在于,只需要计算相邻帧速率向量的余弦距离,不需要过滤最小重建误差帧,复杂度更低,计算量更少。

不同于传统的低等级分割方法。本发明的特点在于,能够对高维的运动捕捉数据分割,提取分割点之间的关键帧,衔接动作的首尾帧,呈现中间动作效果,促进3d运动捕捉的应用。

所述的关键帧提取具体为:每段的帧姿势与均值的欧式距离误差最小的帧作为关键帧,插入到关键帧集合中。第j帧姿势表示成mj,第i段的均值bi可以描述为公式第i段的中间关键帧取该段中的帧姿态与均值的欧式距离误差最小的帧,设ai≤aoi≤ai+1,则第i段的中间关键帧的序号aoi,计算公式是:aoi=argmin|mx-bi|,其中:ai≤x≤ai+1-1。

所述的关键帧提取具体为:分割成k个分段的运动捕捉数据,可以获得k+1个分割点,另外还有k个段的帧姿态与均值的欧式距离误差最小的帧aoi,总共2k+1个关键帧,该序列为(a1,ao1,a2,ao2......ak)。

不同于基于速率的分割方法和基于曲线的分割方法。本发明的特点在于,实验结果体现更高的准确率和查全率,性能比更好,得到的分割点更加准确,具有更好的实用性。

所述的关键帧提取具体为:n名学生人工分割数据集中的捕捉,一次获得83个分割点,比较计算得到的分割点和人工分割点,设置n=20。

本发明具有有益效果。本发明可以分割高维的运动捕捉数据,提高分割点的准确率和查全率,帮助用户了解动作分割点之间的中间动作,呈现更好的动作效果具有为:在得到分割点方面,本发明通过设置余弦距离计算得到相似度这一参数值,构造相邻帧速率向量的自下向上聚类结构。对于预处理过的高维运动捕捉数据,从而有效地提高关键帧提取的的准确率和查全率;在关键帧提取方面,在分割点作为关键帧基础上,将每段的帧姿态与均值的欧式距离误差最小的帧作为关键帧。对于复杂动作,明确开始和结束动作之间的衔接过渡过程,较好地概括和表达该段动作,提供较好的可视化效果。

附图说明

图1是本发明所述基于余弦距离层次聚类的关键帧提取的方法的流程示意图。

图2是本发明所述相邻帧的速率向量的余弦距离与行走的状态对应图。

图3是本发明所述行走过程的层次聚类图。

图4是本发明所述部分动作关键帧集合图。

具体实施方式

下面结合附图和具体实施方式对本发明进一步详细说明。

本发明的实现具体是依序采用如下步骤:

(1)本发明的流程示意图如图1所示。首先在预处理模块中运用cmu运动捕捉数据库提供的数据,将每一帧中的关节点旋转量作为分割运动捕捉数据的特征值;应用阶数为5,截止频率为0.1赫兹的双向巴特沃斯滤波器,实现对运动捕捉数据的去噪功能;采用pca方法将高维数据映射成低维数据,保存每一帧的有效数据。其次,在以下步骤中实现关键帧提取模块。

(2)通过计算相邻帧的速率矩阵比较相似度,速率向量vvi是由相邻的两个帧ai、ai+1的每一维差值组成的新向量,公式为vvi=ai+1-ai。相邻的速率向量vvi,vvi+1的余弦距离distance取值范围是0到2,公式为如图2所示,在行走过程中,余弦距离与行走状态关系。

(3)在余弦距离得到相似度参数值的基础上,构造自下向上的层次聚类结构。如图3所示,给出了图2中行走运动过程中的层次聚类结果。所述步骤(3)具体包括以下过程:

过程3.1初始化每个速率向量,设置为一个类。

过程3.2找到余弦距离最小的相邻帧速率向量,将相似的两个类合并成一个类,通过线性回归的方式将速率向量合并成一个新的向量。

过程3.3更新合并的相邻帧速率向量与前一个向量和后一个向量之间的余弦距离。同时,移除被合并的两个向量之间的余弦距离。

过程3.4当运行到最后的相邻帧向量之间的余弦距离大于1,线性回归停止,此时每个类中的最大的值就是一个分割点。

(4)在步骤(3)得到的分割点作为关键帧基础上,将每段的帧姿态与均值的欧式距离误差最小的帧也作为关键帧。如图4所示,给出了部分分割点之间的关键帧集合图。所述步骤(4)的具体包括以下过程:

过程4.1假设分割点序列是a1,a2,a3,...ak,,通过计算分割点之间所有帧的每一维平均值得到均值向量,第j帧姿势表示成mj,第i段的均值bi可以描述为公式

过程4.2在ai和ai+1分割点之间,计算得到第i段的中间关键帧取该段中的帧姿态与均值的欧式距离误差最小的帧的索引。设ai≤aoi≤ai+1,则第i段的中间关键帧的序号aoi,计算公式是:aoi=argmin|mx-bi|,其中:ai≤x≤ai+1-1。

过程4.3分割点和帧姿态与均值的欧式距离最小的帧构建完整的关键帧序列。分割成k个分段的运动捕捉数据,可以获得k+1个分割点,另外还有k个段的帧姿态与均值的欧式距离误差最小的帧aoi,总共2k+1个关键帧,该序列为(a1,ao1,a2,ao2......ak)。

(5)邀请20名学生,人工地分割数据集中的捕捉数据。将人工获得的分割点与本发明得到的分割点进行对比,以相差帧数在10帧以为为标准,若在10帧以内,则获得有效分割点,否则为无效分割点计算得到准确率和查全率。

以上所述仅为本发明技术方案和具体实施例的描述,并不用于限定本发明的保护范围,应当理解,在不违背本发明实质内容和精神的前提下,所作任何修改、等同替换等都将落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1