基于运动图像解析的音乐重构方法

文档序号:2830755阅读:1186来源:国知局
专利名称:基于运动图像解析的音乐重构方法
技术领域
本发明涉及一种音乐重构方法,尤其是涉及一种基于运动图像解析的 音乐重构方法。
背景技术
20世纪以来,计算机的应用为音乐的发展带来了革命性的突破,科技 与音乐的联系更为紧密。像电子乐器与电子音乐、计算机作曲以及"彩色 音乐"的兴起,给音乐带来了更为广阔的发展空间。现在音乐家创作音乐 的模式已完全改变,借助计算机等专门音乐设备的帮助,音乐家的创作可 以直接转化为实际曲谱甚至是具体音响。这样,将各种科学技术引入创作 中来,将音乐家从许多简单重复劳动中解放出来,同时音乐家创作方面的 能力和技术也得到了极大的延伸。科技手段的运用使得音乐向两个方向发

一方面,由于技术的帮助,音乐技术性和艺术性越来越强,给人以超 乎想象的音响体验。例如,以'《未来水世界》、《泰坦尼克号》、《勇敢 的心》为代表的好莱坞电影中的音乐和音效制作,就是音乐人和技术人员 运用该科技手段为人们制造的"音乐盛宴"。可以说,在当今社会里我们 要想听到一个完全没有科技含量的音乐作品已经是不可能了。
另一方面,由于技术的运用,音乐制作门槛越来越低,音乐传播也越
来越便捷,音乐普及率也越来越高。例如,手机彩铃的运用、MP3播放器的 发明等已经融入到人们生活的点滴之中。不断更新的科技手段让音乐更真 切、更动听,并且不断地推陈出新。例如,在声乐方面,高科技使歌唱进 行声音频谱测试成为可能。运用多媒体计算机对歌唱者的声音条件、歌唱发声方法、音乐素质等各个方面进行声音频谱测试,从歌唱声学的角度给 声乐教师和学习者提供一个发声质量的参考,以辅助传统方法的声乐教学。 目前国外在这方面的研究已经初见端倪,以日本早期电子乐器产商
YA區HA、 R0LAND、 KORG为主的厂商联盟已在集中力量对相关技术进行攻关。 同时,新加坡的创新公司和很多美国厂家也在研发。麻省理工大学的科技 艺术学院也致力于相关内容的研究。各种应用型的控制器已经在市场上层 出不穷,但技术和应用上的空白还是很多。
比较而言,我国虽然经过一段时间的发展,建立了相对强大的研发和 制造队伍,但是,音乐与科技结合的相关学科起步相对较晚,相关研发尚 处于较弱、较低的一个层面。2000年北京航空航天电子工程系发表题为〈〈 一种图像向音乐转换的方法》的文章,对图像与音乐的映射关系及映射规 律进行了探讨,利用图像与音乐之间的对应关系,根据一定的科学与艺术 原则,提出相应的算法,将图像的原始信息转化为MIDI音乐,但这篇文章 也只是简单地用赤、橙、黄、绿、青、篮、紫、来对应C、 D、 ^、 F、 G、 A、 ^七个音,通过颜色中的色彩变化来控制节奏,缺乏灵活性和实用性。
现有技术在图像采集和图像识别的应用两方面均存在如下缺陷
1. 图像采集部分目前国内外普遍采用在人体关节上布满感应点的方 式,来实现图像的采集,感应点处为高精度传感仪器,整套装置价格昂贵。
2. 图像识别的应用目前国内外相关图像识别技术的应用范围仅限于
二维或三维图像的再生成。

发明内容
本发明主要是解决现有技术所存在的图像采集感应点处为高精度传感
仪器,整套装置价格昂贵等的技术问题;提供了一种直接采用普通摄像机 采集人体运动图像,大大降低了系统的成本的基于运动图像解析的音乐重 构方法。
本发明还有一目的是解决现有技术所存在的国内外相关图像识别技术 的应用范围仅限于二维或三维图像再生成等技术问题;提供了一种图像识
5别代码与音乐库相对应的方式,完成了图像到音乐转换的基于运动图像解 析的音乐重构方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的 基于运动图像解析的音乐重构方法,其特征在于,包括以下步骤 步骤1,按顺序获取二维图'像',即夂体的运动姿态,并按照运动姿态的先
后顺序存放于临时数据库中;
步骤2,从音乐数据库中调出与存放于临时数据库中的运动姿态相匹配
的音乐数据;
步骤3,将上述的音乐数据按照与之相匹配的运动姿态的先后顺序排
列,并输入到音乐设备中。
在上述的基于运动图像解析的音乐重构方法,所述的步骤1中获取人体
的运动姿态的步骤为
步骤a, 二维图像数据获取,g卩人伴.的运动姿态的数据获取;
步骤b,将上述获取的数据进行处理,滤去干扰以及噪声;
步骤c,将步骤b中的数据进行特征选取以及提取,即从一组特征中挑
选出一些最有效的特征,然后从最有效的特征中进行特征提取; 步骤d,将上述提取后的特征进行分类,
在上述的基于运动图像解析的音乐重构方法,所述的步骤2中的音乐数 据为单个音符或者音乐库。
在上述的基于运动图像解析的音乐重构方法,所述的运动姿态包括人 体单臂、双臂、单腿以及双腿运动。
在上述的基于运动图像解析的音乐重构方法,所述的音乐库包括乐句 或乐段。
在上述的基于运动图像解析的音乐重构方法,所述的音乐数据为MIDI 格式。
因此,本发明具有如下优点1.直接采用普通摄像机采集人体运动图 像,大大降低了系统的成本;2.图像识别代码与音乐库相对应的方式,完
6成了图像到音乐的转换。


图1是本发明的高音区的八个音符对应的运动姿势; 图2是本发明的中音区的八个音符对应的运动姿势; 图3是本发明的低音区的八个音符对应的运动姿势; 图4是本发明优化后的低音区的八个音符对应的运动姿势;图5是本发明优化后的中音p:的恭个音符对应的运动姿势;图6是本发明优化后的高音区的八个音符对应的运动姿势;具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的 说明。实施例本发明涉及到的模式识别方法及原理介绍如下 首先了解一下模式和模式识别的定义广义地说,存在于时间和空间的可观察的事物,如果可以区别它们是 否相同或相似,都可以称之为模式。狭义地讲,模式就是对感兴趣的客体 的定量或结构的描述,模式类就是具有某些公共特性的模式的集合,即模 式所属类别或同一类中模式的总体。也有人把模式类称为模式,把具体的 模式称为样本。模式识别就是研究一些自动技术,依靠这种技术,计算机 自动地(或者人进行少量干涉)对模式进行判别、分析和识别,进而分到各自 的模式类中去。接下来介绍模式识别的方法和原理模式识别是数据信息采掘技术进行多元分析的方法之一,这里主要是 通过算法和软件综合运用多种方》去对i式进行分类识别。针对不同的对象 和不同的目的,采用不同的模式识别理论、方法,目前主流的技术是统计 模式识别、句法模式识别、模糊数学方法、神经网络方法、人工智能方法。它们之间存在着一定的联系和借鉴。这里所采用的主要是统计模式识别(statistical pattern recognition)"这类识别技术理论较完善,方法也很多,通 常较为有效,已经形成了一个完整的体系。统计模式识别是将每个样本用 特征参数(在对模式进行分类前,将描述模式的参数如pH值、酸度、总氮、 还原糖等条件的数值作为"特征参数")表示为多维空间中的一个点,根据 "物以类聚"的原理,同类或相似的样本间距离应较近,不同样本间距离 应较远。这样,就可以根据样本间的距离或者距离的函数来判别、分类, 并用结果来预报未知。这种统计模式识别是材料设计、工业优化的一种基 本方法,现将它应用在运动姿势的分类和鉴别中。上面介绍的涉及到模板匹配分类方法,其原理如下 统计模式识别的首要目标就是样苯及其代表点在多维空间的分类。模 式识别中最简单的分类问题是将样本分为互不相容的两类(即第一类样本 包括所有符合某种标准的样本,第二类样本包括所有不符合某种标准的样 本)。若在多维空间中能找出一个超平面或超曲面能将样本的代表点分在两 个区,则求这个超平面或超曲面的计算即为"训练"或"学习"。所根据的 样本或样本点称为"训练点"或"训练集",用模式识别方法对训练点集进 行分类。此时的正确分类率称为识别率。如识别率够高,即认为已建立了 判别方法。用这一判别方法对其余的样本(在"训练"中未"告诉"计算 机,故对于计算机可称为"未知:,样韦)分类,此时的正确分类率称为预报 能力。设有两个标准运动姿势,样品模板维A和B,其特征向量为d维特征 ^^(^,^,…,^f和^^0^,^,…,xJ'。任何一个待识别的运动姿势X,其 特征向量为<formula>formula see original document page 8</formula>用模板匹配方法来识别,若^ = ^,则该运动姿势为A,若X-Z,,则该运动姿势为B。最简单的识别方法就是利用距离来判别。如果X距离X,比距离X,近,则属于义,,否则属于A。利用的是最小距离判别法。任意两点x,y之间的距离 <formula>formula see original document page 8</formula>根据距离远近作为判据,构成距离分类器,其判别法则为-
<formula>formula see original document page 9</formula>
模式识别计算也可以一次将样本分为多类。当样本需要分为多类时,
较常用的方法是先将样本分为两类,:慈后将分类后的每一类用模式识别方 法分为两类,这种多次分两类的方法通常比一次分多类要好。多类分类有 时也会采用其他方法,例如KNN法就能直接做多类分类。
设有M个类别^, %,
,每类由若干个向量表示,如《,类,有-
<formula>formula see original document page 9</formula>对于任意被识别的姿势x,
<formula>formula see original document page 9</formula>
计算距离rf(X,,Z),若存在某-
d(X,,Jn<d(;,I), j = l,2,…,M,Uj
具体判别时,z, r两点距离可以用lx-if表示,艮P
<formula>formula see original document page 9</formula>
^&《Jf《+《X-《JQ 式中的X^^+《1-Xf《为特征的线性函数,可作为判别函数
《(x) = n, +《x -《x,
若WH,卜minW(;^,则Xew,。这就是多类问题的最小距离分类法。
在实用过程中,也可以少留甚至不留未知样本,以增加训练点集,提高预报能力, 一个常用的办法就是"留一法",即每次取去一个样本,以其 余样本代表作训练点,并将求得的预报方法对取去的一个样本的类别作"未 知"预报,这样依次对每个样本都作了 "未知"预报后,取预报成功率(平 均值)作为平均预报能力。样本多时,可采用"留十法""留四分之一法"来 检查预报能力。
本实施例中,可以采用下述的模式识别系统
本模式识别系统的分析过程基于,统计方法的模式识别系统主要由4个 部分组成:数据获取、预处理、特征提取和选择、分类决策。主要用的分类 决策就是在特征空间中用统计方法把被识别对象归为某一类别。
下面阐述本发明的操作步骤
步骤1,按顺序获取二维图像,即人体的运动姿态,并按照运动姿态的先 后顺序存放于临时数据库中;此步骤中,获取人体的运动姿态的步骤为
步骤a, 二维图像数据获取,即人体的运动姿态的数据获取; 此步骤的详细过程如下-
为了使计算机能够对各种,见f进f分类识别,要用计算机可以运算的 符号来表示所研究的对象。通常输A对象的信息有下列3种类型,艮fh
(1) 二维图像如文字、指纹、地图、照片这类对象。
(2) —维波形如脑电图、心电图、机械震动波形等。
(3) 物理参量和逻辑值体温、化验数据、参量正确与否的描述。通过测量、
采样和量化,可以用矩阵或向量表示,这就是数据获取的过程。 本发明识别对象属于第一类,二维图像中的灰度图,下面对灰度图的
相关知识作以简单地介绍
计算机内的数字图像通常用由采样点的值所组成的矩阵来表示
<formula>formula see original document page 10</formula>每个采样单元叫做一个象素'(P扭41),上式中,M,N分别为数字图像在 横、纵方向上的像素总数。图像文件按其数字图像格式的不同一般具有不
同的扩展名。最常见的图像格式是位图格式其文件以BMP为扩展名。
数字图像的颜色深度表示每一象素的颜色值所占的二进制位数。颜色 深度越大则能表示的颜色数目越多。颜色深度的不同,就产生不同种类的
图像文件,在计算机中常使用的是单色图像、灰度图像、伪色彩图像、24 位真彩色图像。由于24位真彩色图像所需的存储空间很大,处理速度较慢, 当需要存储空间不大,并且要求实时快速处理图像时, 一般都要利用相应 的8位位图对其进行近似处理,因此8位位图即灰度图像是图像技术中涉 及范围比较广泛的一种图像表^若法V"也是本发明采用的表示方法。 灰度图像具有如下特征
(1) 灰度图像的存储文件带有图像颜色表,此颜色表共有256项,图像 颜色表中每一表项由红、绿、蓝颜色分量组成,并且红、绿、蓝颜色分量 值都相等,即
fred(x,y)=fgreen(x,y)=fblue(x,y)
(2) 每个像素由八位组成,其值范围从0 255,表示256种不同的灰度
级。每个象素的象素值/(x,;0是图像颜色表的表项入口地址。例如,某灰度 图像(16X6)对应的数值矩阵如下:.y
125, 153, 158, 157, 127, 70, 103, 120, 129, 114, 114, 150, 150, 147, 150, 160, 133, 154, 158, 100, 116, 120, 97, 74, 54, 74, 118, 146, 148, 150, 145, 157, 155, 163, 95, 112, 123, 101, 137, 108, 81, 71, 63, 81, 137, 142, 146, 152, 167, 69, 85, 59, 65, 43, 85, 34, 69, 78, 104, 101, 117, 132, 134, 149, 54, 46, 38, 44, 38, 36, 44, 36, 25, 48, 115, 113, 114, 124, 135, 152, 58, 30, 44, 35, 28, 69, 144, 147, 57, 60, 93, 106, 119, 124, 131, 144,
步骤b,将上述获取的数据进行处理,滤去干扰以及噪声;
此步骤的详细过程如下
在数字图像的产生、传输过程中r'由于各种因素的影响,导致图像不
可避免带有一些噪声。为了研究图像内容的识别,首先要对获得的图像信息进行处理,滤去干扰、噪声,在这里,图像预处理主要指对图像进行滤 波,目的是去除图像中的噪声。
在模式识别过程中,主要有p下^类噪声
(1) 在获取图像过程中,空气中的尘粒、雾、烟等会造成图像质量的下 降,引入噪声。
(2) 镜头不干净,导致孤立点噪声,聚焦不准将引起图像模糊。这些噪
声只有操作认真,就可以最大限度地加以克服。
另外,还有一些随机干扰引起的随机噪声,以及图像在采集过程中的
量化噪声,以及CCD摄像机系统的噪声。各种因素综合在一起,使噪声的性 质比较复杂。
噪声恶化了图像质量,影响了图像分析和图像识别。为了减少或滤除 噪声和随机干扰,增强有用信息,提高后续处理的有效性和可靠性,为图 像分割创造良好的条件,应采用适当的方法进行去噪处理。
当图像信息微弱无法识别时,还须对图像进行增强处理,几何调整, 颜色校正等,以便人、机分析。预处理的目的是去除噪声,加强有用的信 息,消除由量纲和权重带来的影响。
步骤c,将步骤b中的数据进行特征选取以及提取,即从一组特征中挑 选出一些最有效的特征,然后从最有效的特征中进行特征提取;
获取到的数据量是相当大的,为了有效地实现分类识别,就要对原始 数据进行变换,得到最能反映分类本质的特征。这就是特征提取和选择的
过程。 一般把原始数据组成的fe间叫i量空间,把分类识别赖以进行的空
间叫特征空间,通过变换,可把在维数较高的测量空间中表示的模式变为 在维数较低的特征空间中表示的模式。在特征空间中的一个模式通常也叫 做一个样本,它往往可以表示为一个向量,即特征空间中的一个点。
从一组特征中挑选出一些最有效的特征以达到降维特征空间的目的, 这个过程叫特征选择。原始特征的数量可能很大,或者说样本是处于一个 高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本,这个 过程叫特征提取。其实特征选择和提取并不是截然分开的。例如,可以先将原始特征空 间映射到维数较低的空间,在这个空间中再进行选择去掉那些明显没有分 类信息的特征再通过映射降低维数。选择合适的特征量,张成合适的特征 空间,是模式识别成败的一个关键。在实际计算中,人们总是力图抛弃那 些对分类作用不大的特征向量,使特征量的数目(在保证良好分类的前提下) 减到最小,这是因为
(1) 多余的特征量不但没有多大的好处,而且可能干扰分类过程。
(2) 为了保证样本数和空间维数的比值大于等于3(最好大于等于10),而又 不必用太多的样本(许多实际问题中增加样本数需要大大增加实验的工作 量),最好使空间维数降至最低。
对待测样品进行特征提取,有多种方法,本文采用的是一种简单的模 板法。首先找到每个样品的起始位置,在此附近搜索该样品的宽度和高度; 将每个样品的长度和宽度N等份,构成一个NXN模板,对于每一个小区域 内的黑象素个数进行统计,除以该小,域的面积总数,既得特征值。这样 做的好处是,针对同一形状、不同犬小的样品得到的特征值相差不大,有 能力对同一形状、不同大小的样品视为同类。这里N二5,要求物体至少在 宽度和长度上大于5个象素,否则太小无法正确分类。N值越大模板也越大, 特征越多,区分不同的物体能力越强,但同时计算量增加,运行等候的时 间增加,所需要的样品库也成倍增加。 一般样品库的个数为特征数的5 10 倍,这里特征总数为5X5 = 25,每一种姿势需要至少75个标准样品,七个 姿势需要525个标准样品,可想而知数目已经不少了。如果N值过小,不 利于不同物体间的区别。
对每一个姿势提取5X5;2&雄特征。运动姿势的特征模板提取步骤如

(1) 搜索数据区,找出人体的上下左右边界top, bottom, left, right。
(2) 将人体区域平均分为5X5的小区域。
(3) 计算5X5的每一个小区域中黑象素所占比例,第一行的5个比例 值保存到特征的前5个,第二行对应着特征的6 10个,依次类推。歩骤d,将上述提取后的特征进行分类,分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。 基本做法是在样本训练集基础上确定某个判决规则,使按这种判决规则对 被识别对象进行分类所造成的错误识别率最小或引起的损失最小。分类器的设计方法属于监督学习法。在监督学习识别方法中,为了能 够对未知事物进行分类,必须输入一定数量的样品,构建训练集,而且这 些样-品的类别已知,提取这些样品的特征,利用训练集里每个样品所属的 类别,由这些已知条件建立判別湾熬,,.构造一个分类器,然后对任何未知 类别的模式,用该分类器判别其类别。在d维特征空间已经确定的前提下,讨论的分类器设计问题是一个选 择什么准则,使用什么方法,将己确定的d维特征空间划分成决策域的问 题。分类设计有两种基本方法模板匹配法和判别函数法。本文主要采取 的是模板匹配的方法,下面作以详细说明。模板匹配分类器将训练样品集中的每个样品都作为标准模板,用待测 样品与每个标准模板作比较,找出最相似、最近邻的标准模板,将标准模 板的类别作为自己的类别。譬如A类有十个训练样品,因此有10个模板,B类有8个训练样品,就有8个模板。z:任何一个待测样品在分类时与这18 个模板都算一算相似度,找出最相似的模板,如果该模板是B类中的一个, 就确定待测样品为B类,否则为A类。因此原理上说模板是最简单的模式 识别方法。但模板法有一个明显的缺点就是计算量大,存储量大,要存储 的模板很多,每个测试样品要对每一个模板计算一次相似度,因此在模板 数量很大时,计算量也很大。本实施例的分类是用己知类别的样本训练集来设计分类器,即有监督 学习分类,通常又称为判别分析。如果模式样本有n个特征,那么一个样本 就构成了一个n维的特征向量,它在n维空间就对应一个点。所谓的分类问 题就是把特征空间分割成对应芋苯尚姿别的互不相容的区域,每一个区域 对应于一个特定的模式类,而不同类别之间的界面用"判别函数"来描述。 对于监督分类,需要根据样本的特征向量来确定判别函数,只有在判别函数确定之后,才能够用它对未知模式进行分类。同时,要知道待分类模式 足够的先验知识。这种方法一般可分为参数法和非参数法两类,其中参数 法一般由统计学家提出,其判别效果的好坏依赖于样本是否符合假设的统 计分布,而非参数判别法多由实验科学家或计算家模式识别专家提出,对 样本分布没有特殊的要求。聚类(Cluster Analysis),又称为集群,是数理统计学科中研究事物 分类的一种方法。它事先不知样本的类别,而利用样本的先验知识来构造 分类器,即无监督学习分类。在缺乏待分类模式的先验知识的情况下,就 要采用非监督分类,即聚类分析。聚类分析是用数学的方法分析各特征向 量之间的距离及分散程度.有些特征向量可能聚集成若干个群,可以按各个 群之间的距离远近进行分类。每^类fe聚类中心就是该类的核心。 一个样 本集合中包含了若干性质不同的子集,聚类分析的任务就是寻找这些子集。 "物以类聚"是聚类分析的基本出发点。步骤2,从音乐数据库中调出与存放于临时数据库中的运动姿态相匹配 的音乐数据;上述的模式识别技术,已经提取出了人体运动的特征信息,如何才能 更充分、更合理地利用这些信息,将其转化为音乐特征的控制呢?这里主 要采用了两种方案第一种,将人体姿态对应到固定的音符。第二种,将 人体姿态对应到一个音乐库。,下面说明本实施例中身体姿势的各种情绪信息。身体就像是一个无法关闭的传感器,时刻传送着人们的心情和状态, 不断地传递着情绪和感受。如人悲伤时会痛哭流涕,激动时会手舞足蹈,愤 怒时会面红耳赤,高兴时会开怀大笑,恐惧时会双眼紧闭。音乐演奏则可 表达特定的情感如悲伤、愤怒、高兴和恐惧等。为了更加准确地把握人体 传递的情感信息,从中找出姿态和音乐联系的纽带,本文研究了不同的人体姿态,现将最具代表性的姿势罗列如下(1) 单臂上举(2) 双手撑腰(3) 胸前交臂(4) 双臂上举人体姿态传递的感情信息常常受当时的情景、关系深浅、文化背景等 外部因素的影响。即便是完全一样的姿势在不同的环境、文化或身份下,也可以表现不一样的含义。这就fe,^F究具有太多的不定因素,并受到多方外界因素的影响。为了使实验结果更加简单、直观、明了,我们排除了 环境、文化、身份等外部因素的影响,直接从曲式结构、音乐风格和乐曲 表现的情感入手,将运动姿态对应到了不同的音符或音乐模块。 下面,将说明本实施例中的运动姿态到音符的转换表演者的左手只有三种姿势小臂向上、小臂平放和垂直向下,分别 用来表示高、中、低音。高音区的八个音符依次表示为C3、 D3、 6£3、 F3、 G3、 A3、咭3,对应的运动姿势如图l所示。中音区的八个音符依次表示为C2、 D2、咭2、 F2、 G2、 A2、咭2,对应 的运动姿势如图2所示。低音区的八个音符依次表示为C1、 Dl、咭l、 Fl、 Gl、 Al、 ^1,对应 的运动姿势如图3所示。此种方案表示的音域较宽,高、中、低音三个八度的右手姿势较统一, 七个音符的对应姿势设计得简单明了,表演者很容易学会。但这种方案在 模式识别过程中常出现"过渡重复"现象。所谓"过渡重复"是指,在表 演者由一个音符到另一音符对应姿势的转换过程中,出现了代表其它音符 的姿势。比如,Cl 6£ 1姿势的转'换:过一呈中就必定会出现Dl姿势,在图像 处理的过程中,Dl姿势也会作为一个音符被解析出来,这就破坏了表演者 原有的表演旋律。下面介绍优化后方案优化后的方案加入了腿部的姿势,当双腿并拢时,表示的是低音;当 双腿微张时,表示的是中音;而当双腿大张时,表示的是高音。图4所示为优化后的低音区代表的运动姿势,图5所示为优化后的中音区代表的运动姿势,图6所示为优化后的高音区代表的运动姿势。钢琴上相邻两个键(包括黑键)之间差半音, 一个八度内的七个音符依次表示为C、 D、 A£、 F、 G、 A、 ^,双手的不同组合姿势表示了一个八度内 的七个音符。此套方案的优点在于:手部的姿势基本以小臂运动为主,在表 演过程中不会出现"过渡重复"现象。但这套方案的动作不直观,表演者不容易记住不同姿势的含义。因此, 如果表演者想演奏某段旋律,必须考熟悉各个姿势所代表示的含义,然后 将心目中想要演奏的旋律转化为对应的姿势,最终顺利流畅地打出一套动 作。此套方案对表演者提出了较高的要求。接下来便是运动姿势到音乐库的转换;在运动姿势到音符的转化过程 中,每个姿势对应的是一个单音符,当演奏整段和谐的音乐时,动作将变 得十分复杂。为了解决以上问题,我们将不同的运动姿势转化到音乐库, 一个姿势代表的不再是单音符,而是几个小节或一段旋律。当表演者快慢 不同地做出一串动作时,也就快慢不同地演奏了几段旋律的组合。由于演 奏的旋律段是任选的,将不同风格的旋律段组合在一起,听起来可能会很刺耳,很怪异,但也有可能会fej捧tfs'tt较优美的旋律。经过多次地尝试和不断地实验,发现如果音乐片段的风格和形式较相似,重构后的音乐听起 来也较完整动听,不会有拼凑感。基于此点搜集了大量的音乐文件,并对 音乐文件进行了分段、截取和压縮的处理,最终建立了一个具有多种艺术 风格和表现形式的音乐库。针对已经建立的音乐库,直接从曲式结构、音 乐风格和乐曲表现的情感入手,对音乐库进行分类。首先介绍下音乐库的划分依据。乐句划分的方法主要有以下三种。① 小节划分:这种方法相对简祭v,境,,于常见的典型乐段,这种乐段通常 是在中等速度、中等复杂度的旋律线中,包括8至16小节。② 标志划分:对乐句的划分根据以下标志,休止符、长音上的停留、音区 的改变、音响力度的改变、不同的和声终止式、以音乐起初的音调或节奏 型重新开始。◎智能划分:综合以上两种方法的优点,同时根据旋律的自相关程度划分 乐句,由于重复是曲式结构中最重要的因素,因此乐段的划分主要是通过寻 找相似乐句进行的。对音乐库进行了以上划分后,表演者就可以根据自己的情绪,系统性 地选择合适的音乐模块。这样将使得作曲过程更加人性化,表演者可以根 据自己的情绪对音乐片段进行重构与再创作。步骤3,将上述的音乐数据按照与之相匹配的运动姿态的先后顺序排列,并输入到音乐设备中。在实现了图像的识别和转化以后,音乐生成是本系统的最后一个问题。 目前有许多可利用且十分成熟的音乐生成技术,综合考虑了各种技术的优缺点。下面从MIDI音乐的技术可行性出发,结合音乐生成中所用到的各种 消息、通道及其传输控制方式作详细的介绍。 首先介绍MIDI的概念和形成MIDI是Musical Instrument Digital Interface的縮写,艮卩"音乐器材数 码界面"。定义MIDI概念的目的就是为了形成一种让各种各样的数码音乐 器材及计算机软、硬件沟通的通讯协定、格式,否则多种音乐器材就无法 沟通组合起来,形成强大的音乐魂能"S此MIDI可以说是传统音乐计算机 化的延伸。在音乐上沟通,就必须限定可互通的语言,曲谱的种类有许多 种,其中以西方的五线谱应用最为广泛,乐谱格式以音符的形状及位置表 示其音长及音高,再配合文字描述及符号表示其音量、演奏方法等属性。 MIDI格式包含了上述传统乐谱对演奏的指定,再加上乐器的排列编制和一 些数码化软、硬件的属性及指令,让不同的数码音乐器材以发放MIDI讯息 的形式沟通。例如,在MIDI编辑软件里播放MIDI文档时,编辑软件便会 顺序发放一连串的MIDI讯息至声效卡,声效卡便根据MIDI格式,以MIDI 讯息所指定的乐器、音高、音量、音长等属性,发出每一个不同的声音。接下来介绍MIDI的格式及结构最被广泛应用的MIDI格式有三种(1) General MIDI最基本的MIDI格式。(2) GS Roland制定的MIDI格式在General MIDI的基础上提供更多音色 及声效变化选择。(3) XG Yamaha制定的MIDI格式在General MIDI的基础上提供更多音色 及声效变化选择。本系统采用基本的General MIDI格式,MIDI器材之间的沟通依靠MIDI 讯息的传送。MIDI讯息是从MIDI连接埠通过MIDI连接线传送的。MIDI连接埠有三种IN、 OUT及THRU。 MIDI讯息是从OUT Port传 送到另一个MIDI器材的IN Port。 THRU会把IN Port接收到的讯息传送给 其他MIDI器材。如需连接两个以上的MIDI器材,便要用上THRUPort。每一个MIDI连接埠支持16个Channel, Channel是一个音色的频道, 16个频道可同时发音,就等如词招种不同乐器同时演奏。Channell至9、 11至16规定为旋律性乐器,如Piano、 Guitar、 Flute等,Channel 10规定为 非旋律性的节奏乐器,如一组DrumSet。可选择的旋律性音色有128种, 乐器的种类及排序均有规定。频道IO规定为节奏音色专用,包括47种音 色。同时发音数不少于24个,包括至少16个旋律音及8个节奏音(频道10)。 MIDI器材发声是靠MIDI讯息控制,而MIDI讯息传送的优先顺序为频道 10、 l至9、 11至16。当同时发音数太多以至MIDI器材不胜负荷。而同一 频道的音有重迭的话,前一音便会急停让下一音发声。MiddleC(CS)定义为 MIDI Key 60 (第60个MIDI键)。一个MIDI Note{MIDI音符)的属性主要有(1) Channel —所属的频道。(2) Pitch —音高。(3) Vdocity—强度, 一般指按下MIDI Keyboard琴键一刹的力度。如MIDI Guitar的表示的试拨弦的力度。MIDI Controller/Control change (控制顶)能改 变MIDI Note的发音性质,其他常用的MIDI讯息 (1) Program Change —改变乐器。(2) Pitch Bend Change —滑音,与Modulation—样,通常以MIDI键盘的操纵杆或操纵球控制。(3) Channel Key Pressure(Aftertouch) —触压值,演奏时按住琴键,改变对 琴键的压力而做成的强弱转变效果,较高阶的MIDI Keboard才支持此功能。最后介绍下本实施例采用的MDI可行性和优势在工科领域内常用的发声工具是单片机,利用汇编语言或C语言编写 程序,实现对单片机上蜂鸣器的控制,发出固定频率的几种声音。但本系 统对发声部分的要求是很高的,因为当人体进入图象采集范围之后,表演 者可以随心所欲地做各种动作,那么就要求系统能生成相应的大量风格迥 异的曲子。这就要求发声部分能精准地控制三大音乐要素——音色、音高、 音长。然而蜂鸣器发出的嘀嘀声,只有枯燥的几个音符,音长固定,既没 有音准可言,音色效果也较差,远远不能满足要求。针对以上问题,尝试了另外一种发声方法——编写MIDI文件。在学 习标准MIDI文件的格式结构犮生成方、法的过程中发现,虽然编写MIDI文 件可以创作各种风格的乐曲,但MIDI文件一旦生成就不可修改,修改过程 较繁琐,等于重新制作了一个MIDI文件,不符合本系统的要求。因为在本 系统中,人体运动生成的信息是大量的、连续的,针对不同时刻的不同姿 势,要求系统实时地做出反应。验证检测了音乐专业领域常用的各种软件如CuteMIDI简谱作曲家(共 享版)VI. 50、 cubase、 sonar、 protools7. 0等等。但这些软件都是集成化 的,输入的是标准的简谱或五线谱,输出的是对应的旋律,也不符合本系 统的要求。因为在本系统中,图像最终被转化为了各种代码,要求系统能 实现利用代码来控制音乐的效果。最终找到了解决办法——透过与设备无关的函数呼叫来获得对声卡设 备的存取控制。声卡通常还包含MIDI设备,这类硬件播放音符以响应短的 二进制命令消息。MIDI硬件通常还可以通过电缆连结到如音乐键盘等的 MIDI输入设备上。通常,外部的MID:合成器也能够添加到声卡。WINDOWS的API包括前缀为midiln和midiOut的函数,它们分别用于读取来自外部 控制器的MIDI序列和在内部或外部的合成器上播放音乐,使用这些函数时 并不需要了解MIDI卡上的硬件接口。要在播放音乐的准备期间打开一个 MIDI输出设备,可以呼叫midi0ut0pen函数, 一旦打开一个MIDI输出设备 并获得了其句柄,就可以向该设备发送MIDI消息。此时可以呼叫 midiOutShortMsg (hMidi0ut, dwMessage)例如,要在MIDI通道5上以0x7F 的速度演奏中音C(音符是0x3C),则需要3字节的Note On消息0x95 0x3C 0x7F。其中,00000000 011111U共L28个数可以表示键盘上的128个音。 典型的MIDI消息(Program Change)可为某一特定通道而改变乐器声音。 MIDI Program Change消息的普通格式为Cn pp其中,第一个字节称作状 态字节,PP的范围是从0到127代表着128种不同的声音。因为用函数实 现存取控制,很方便地就可将代码输入到各个函数中去,根据输入情况的 不同,控制部分还可以进行调整。这种方法不仅实现了对音色、音高、音 长的准确控制,还达到了实时输出的效果,满足了系统的要求。由于MIDI本身的结构简单,因此也存在一些暂时无法克服的缺憾,音 质欠真实感、不同软、硬件组合下,音色截然不同、标准影音器材不能播 放。总观MIDI的优势和弱点,从音乐转化和生成的研究本身而言,对实时 性能的要求及自定义编辑乐曲的需求,选择MIDI作为音乐生成方式是合适 的。由于对硬件器材方面的依赖相对较小,这也节约了研究的成本,提升 了系统实现的可行性。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明 所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或 补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权 利要求书所定义的范围。
权利要求
1.一种基于运动图像解析的音乐重构方法,其特征在于,包括以下步骤步骤1,获取二维图像,即人体的运动姿态,并按照运动姿态的先后顺序存放于临时数据库中;步骤2,从音乐数据库中调出与存放于临时数据库中的运动姿态相匹配的音乐数据;步骤3,将上述的音乐数据按照与之相匹配的运动姿态的先后顺序排列,并输入到音乐设备中。
2. 根据权利要求1所述的基于运动图像解析的音乐重构方法,其特征 在于,所述的步骤l中获取人体运动姿态的步骤为步骤a, 二维图像数据获取,即人体的运动姿态的数据获取; 步骤b,将上述获取的数据进行处理,滤去干扰以及噪声; 步骤c,将步骤b中的数据进行特征选取和提取,即从一组特征中挑选 出一些最有效的特征,然后从最有效的特征中进行特征提取; 步骤d,将上述提取后的特征进行分类。
3. 根据权利要求1所述的棊于运动图像解析的音乐重构方法,其特征 在于,所述的步骤2中的音乐数据为单个音符或者音乐库。
4. 根据权利要求1至3任意一条所述的基于运动图像解析的音乐重构 方法,其特征在于,所述的运动姿态包括人体单臂、双臂、单腿以及双腿 运动。
5. 根据权利要求3所述的基于运动图像解析的音乐重构方法,其特征在于,所述的音乐库包括乐句或乐段。
6.根据权利要求4所述的基于运动图像解析的音乐重构方法,其特征 在于,所述的音乐数据为M工DI格式。
全文摘要
本发明涉及一种音乐重构方法,尤其是涉及一种基于运动图像解析的音乐重构方法。基于运动图像解析的音乐重构方法,其特征在于,包括以下步骤步骤1,获取二维图像,即人体的运动姿态,并按照运动姿态的先后顺序存放于临时数据库中;步骤2,从音乐数据库中调出与存放于临时数据库中的运动姿态相匹配的音乐数据;步骤3,将上述的音乐数据按照与之相匹配的运动姿态的先后顺序排列,并输入到音乐设备中。因此,本发明具有如下优点1.直接采用普通摄像机采集人体运动图像,大大降低了系统的成本;2.图像识别代码与音乐库相对应的方式,完成了图像到音乐的转换。
文档编号G10H7/00GK101409070SQ20081004716
公开日2009年4月15日 申请日期2008年3月28日 优先权日2008年3月28日
发明者徐开笑 申请人:徐开笑
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1