一种可编辑的多级音色合成系统及方法与流程

文档序号:11289095阅读:253来源:国知局
一种可编辑的多级音色合成系统及方法与流程

本发明涉及音频处理技术领域,尤其涉及一种可编辑的多级音色合成系统及方法。



背景技术:

音色(timbre)指的是声音的色彩、质地,用来表述音的感觉特性,在不同发音体、发音方式、发音环境等条件下产生的音色具有不同的效果。公知的,不同种类的乐器弹奏出的音色是不相同的,但是,由于多种复杂的原因,包括乐器的不同类型如钢琴分为三角钢琴和立式钢琴)、不同生产厂家、不同型号、不同个体、不同的弹奏者/物、不同的弹奏手法(包括触键/弦等的方式、力度、角度等),同样会产生音色的差异。不同厂家生产的乐器,或者型号不同的乐器在制作材质、物理结构上有所不同,表现出的音色会不同;同一厂家生产的不同个体,因做工细节等方面的差异也会使乐器表现出不尽相同的音色;在同一乐器上弹奏同一个音高的音符,由不同的弹奏者/物或不同的弹奏手法来表现,也会表现出不同的音色。

因此,基于以上由多种复杂原因形成的多种音色效果,定义音色分级的概念。音色的分级是将由同一种乐器在不同弹奏条件下弹奏同一音高的音符所产生的不同音色效果表示为音色的不同级别,定义为多级音色,所述弹奏条件选自乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的任意一种或任意多种,不同的弹奏条件产生多种音色效果,也就是会产生多级音色,每一种音色效果对应于一个音色级别。例如,弹奏同一音高的音符,不同品牌的钢琴弹奏出的音色效果不同,斯坦威钢琴产生的音色具有雍容华贵的感觉,本森多夫钢琴的音色深沉含蓄,法奇奥里钢琴的音色让人觉得性感撩人,德国名琴布鲁兹纳的音色玲珑雅典、略带暖意,日本品牌雅马哈钢琴的音色偏明亮,卡瓦依钢琴的音色偏柔软。再例如,在雅马哈的同一架钢琴上弹奏标准音la(钢琴上的a4音,从低音区数第49个音,声音振动频率440hz),不同弹奏手法产生的音色也是不同的;弹奏速度快、力度大的方式产生的音色听起来更明亮有力,弹奏速度慢、触键轻的方式产生的音色听起来更舒缓,专业的钢琴演奏者可以采用不同的弹奏手法将不同的情绪赋予在音乐之中。所述的不同弹奏手法的具体表现包括但不仅限于弹钢琴时手指触键的方向、高度、力量、速度、深度,不同的触键部位,如指尖、指面多肉部位,不同的弹奏法如非连奏、连奏、跳音弹奏等。可见,不同级别的音色取决于不同的乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法等,影响因素特别复杂。

对于电子乐器来说,音源是影响其品质的最重要的因素。目前,电子乐器的音源来源有两种实现方式:现场音频采集和购买现成的音源。现场音频采集是利用专业的音频采集设备对乐器产生的音色(音频)进行现场采集,这种方法不仅需要专门的采集环境(如采集室等)和专业的音频采集设备,还需要专业的乐器演奏者才能产生优质的音色,实现起来复杂、难度高、经济成本高;并且在实际的音频采集中又面临诸多问题,如采集过程中可能出现的失真和噪声,要对每一个音色的不同级别进行音频采集,可行性差、时间成本高,这些问题均导致最终的采集效果并不理想。另外一种方式是电子乐器的厂家直接购买现成的音色库或音源(例如,法国dream公司的音源),除了经济成本高以外,还容易涉及知识产权问题,而且不能保证音源的质量,购买到的音色库数据单一、不可变化,缺乏多样性和灵活性。

基于以上问题,产生了利用电子模拟合成的方式模拟乐器真实多级音色的需求。电子模拟合成的方法是通过计算机、各种音色合成器、音色合成系统对音色进行合成、制作和修改。现有的计算机模拟乐音重构技术合成的音色存在着明显的电音问题,即合成的音色表现出明显的电子合成痕迹,专业人士可以立即分辨出其是否为合成音色,模拟效果差。就乐音合成的相关技术而言,有以分析乐器实体的物理特性为乐音合成基础,来取代单纯的电子音效的方法,如专利tw457470提出了一种乐器实体分析装置和方法。这种分析乐器实体模仿乐器发声的方法需要模仿不同的乐器实体类型,分别对应不同的方法和装置,构成较为复杂,且不具备一致性。常用的计算机数字音乐合成技术主要是调频和波表合成,现有合成效果不理想。因此,具有真实感、没有电子合成痕迹的电子音色合成系统显得更加迫切。

随着电子乐器的发展,对音源品质的要求越来越高,提出了模拟传统物理乐器真实多级音色的需求,也就是希望更精确地模拟出传统物理乐器能够弹奏出的多级音色。打个比方来说,就像颜料的制作不仅仅是做出红色颜料,而是更精确的表现出樱桃红、玫瑰红、石榴红、高粱红、梅红、粉红、洋红等更细致的级别,其中每一种红对应一个颜色的级别。对于音色来说,同一音高的音符也对应于多个音色的级别。这就对电子音源提出了更高端的需求,希望能够更精确地模拟出传统物理乐器弹奏的同一音高的音符对应的多个音色级别。

此外,电子乐器不再满足于只能模拟对应的传统物理乐器的音色,而是希望能够将多种多级的源音色进行混合编辑以产生新的音源,丰富电子乐器的音乐表现力。所述的多种多级的源音色进行混合编辑指的是将不止一个音源(具有不同音色效果,不同级别的音色)进行混合编辑,使其具有多种音色级别的混合效果。例如,将一个具有木质感的音色(标准音la)与一个具有明快感的音色(标准音la)混合编辑,合成的音色兼具木质感和明快感,产生一种新的音色,表现力更丰富。

目前为止,现有技术中未见既能对乐器的真实音色实现重现(能够模拟出传统物理乐器弹奏的同一音高的音符对应的多个音色级别),又能够将多种多级的源音色进行混合编辑以产生新的音源的系统和方法。



技术实现要素:

针对现有技术的不足,本发明所要解决的技术问题是提供一种可编辑的多级音色合成系统和方法。具体地,本发明提供一种既能对乐器的真实音色实现重现(能够模拟出传统物理乐器弹奏的同一音高的音符对应的多个音色级别),又能够将多种多级的源音色进行混合编辑以产生新的音源的系统和方法。

本发明提供的可编辑的多级音色合成系统能模拟乐器的真实音色,实现音色的重现,系统合成的音色与源音色的频域特征信息完全一致,时域波形几乎完全重合,人耳听感一致,本发明的可编辑音色合成系统能够完全模拟源音色,实现源音色的重现。

本发明提供的可编辑的多级音色合成系统能模拟传统物理乐器真实多级音色,也就是能更精确地模拟出传统物理乐器能够弹奏出的多级音色。对于音色来说,同一音高的音符对应于多个音色的级别。本发明能够产生更高端的电子音源,能够精确地模拟出传统物理乐器弹奏的同一音高的音符对应的多个音色级别。

本发明提供的可编辑的多级音色合成系统不仅能模拟对应的传统物理乐器的音色,也能将多种多级的源音色进行混合编辑以产生新的音源,丰富电子乐器的音乐表现力。所述的多种多级的源音色进行混合编辑指的是将不止一个源音色(具有不同音色效果,不同级别的音色)进行混合编辑,使其具有多种音色级别的混合效果,所述不同源音色可以是来自不同乐器个体的基频相同的音色,也可以是来自不同种乐器的基频相同的音色。例如,将一个具有木质感的音色(标准音la)与一个具有明快感的音色(标准音la)混合编辑,合成的音色兼具木质感和明快感,产生一种新的音色,表现力更丰富。

本发明中所述的源音色是指用于处理的原始音色,具体是指具有单一基频的单个音的音色文件。

所述的基音是指发音体整体振动产生的音(振动长度越大,频率越小),基音决定音高,基音的频率称作基频。

所述的谐音是指发音体部分振动产生的音,也称为泛音,谐音的多寡及各谐音特性(如频率分布、相对强度等)决定音色。

所述的倍频,是基频的整数倍频率,属于谐音频率,倍频在很大程度上决定了音色的效果。

所述的相角又称相位角,是指音色波形中某一频率的幅值随时间变化时,决定频率在任一时刻状态的一个数值。其中,所述音色波形中每个频率的波形可以表示为正弦波、余弦波、或者经数学方法能分解成正弦波或余弦波的波形。优选的,所述数学方法可以是傅里叶级数展开。优选的,所述音色波形中每个频率的波形选自正弦波、余弦波、三角波、锯齿波、矩形波的任意一种或任意多种。

需要说明的是,任何周期信号在满足direchlet条件时均可表示为多个余弦或正弦函数的叠加,因此三角波、锯齿波、矩形波等波形均可表示为多个不同频率的余弦或正弦函数的叠加。将源音色表示为三角波、锯齿波、矩形波等方式进行分解、编辑、合成,本质上仍为将其按照余弦或正弦方式进行分解、编辑、合成。

本发明中所述的余频是指除基频和倍频以外的所有频率,所述所有频率的范围包括1hz~22050hz,涵盖了人耳的听觉频率范围(20hz~20000hz)。

本发明采用如下的技术方案:

一种可编辑的多级音色合成系统,用于编辑合成乐器不同级别的音色,模拟乐器同一音高的音符在不同弹奏条件下产生的不同音色效果,进而模拟乐器的真实音色,所述弹奏条件选自乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的任意一种或任意多种。所述的可编辑的多级音色合成系统包括音色特征单元、音色编辑单元、音色合成单元,其中:所述的音色特征单元用于获取源音色的音色特征信息,并将所述音色特征信息提供给音色合成单元,所述的音色特征信息包含基频的频率、幅值、相角信息,倍频的频率、幅值、相角信息,余频的频率、幅值、相角信息;所述的音色编辑单元用于编辑音色修改参数,输入音色合成单元,不同的音色修改参数对应合成后的不同音色效果,形成不同级别的音色;所述的音色合成单元利用所述音色特征信息和所述音色修改参数,进行音色的合成,模拟乐器的真实音色,本发明所述可编辑的多级音色合成系统的组成图如图1所示,其信息流向图如图2所示。

所述的音色(timbre)又称“音品”,指的是声音的色彩、质地,是音的一种感觉特性,主要由其谐音的多寡及各谐音特性(如频率分布、相对强度等)所决定,表示人耳对声音音质的感觉。不同的音色,其频域中谐音的多少和谐音的相对强度是不同的。

所述的不同级别的音色是指,因发音体的材料性质、结构形状、发声方式等因素不同导致的,不同效果的音色。本发明中基于多种复杂原因形成的多种音色效果,定义音色分级的概念。音色的分级是将由同一种乐器在不同弹奏条件下弹奏同一音高的音符所产生的不同音色效果表示为音色的不同级别,定义为多级音色,所述弹奏条件选自乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的任意一种或任意多种。例如,弹奏同一音高的音符,不同品牌的钢琴弹奏出的音色效果不同,斯坦威钢琴产生的音色具有雍容华贵的感觉,本森多夫钢琴的音色深沉含蓄,法奇奥里钢琴的音色让人觉得性感撩人,德国名琴布鲁兹纳的音色玲珑雅典、略带暖意,日本品牌雅马哈钢琴的音色偏明亮,卡瓦依钢琴的音色偏柔软。再例如,在雅马哈的同一架钢琴上弹奏标准音la(钢琴上的a4音,从低音区数第49个音,声音振动频率440hz),不同弹奏手法产生的音色也是不同的;弹奏速度快、力度大的方式产生的音色听起来更明亮有力,弹奏速度慢、触键轻的方式产生的音色听起来更舒缓,专业的钢琴演奏者可以采用不同的弹奏手法将不同的情绪赋予在音乐之中。所述的不同弹奏手法的具体表现包括但不仅限于弹钢琴时手指触键的方向、高度、力量、速度、深度,不同的触键部位,如指尖、指面多肉部位,不同的弹奏法如非连奏、连奏、跳音弹奏等。由于音色效果的影响因素较多也比较复杂,因此,对于同一音高的音符,就会对应于多个音色级别,也就是多级音色。不同的弹奏条件包括但不限于不同的乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法,任意一种或多种弹奏条件的不同,就会导致弹奏同一音高的音符产生不同的音色效果(也就是产生不同的音色级别)。

所述同一音高的音符具体是指基频相同的音。例如,钢琴上每一个键对应的都是某一个确定音高的音符,不同的键对应的音高不同,标准音la(a4)对应钢琴上从低音区数第49个键。例如,c调的1(do)的基频与g调的4(fa)相同,它们对应于钢琴上的同一个键,为同一音高的音符。

所述的弹奏包括各种乐器的各种弹奏方式,如弹、拨、拉、敲、触碰等。

进一步地,本发明的可编辑多级音色合成系统还包括音色分解单元,所述的音色分解单元对源音色进行分解,结合源音色的时域特征和频域特征信息,计算出音色特征信息,提供给音色特征单元,所述的音色特征信息包含基频的频率、幅值、相角信息,倍频的频率、幅值、相角信息,余频的频率、幅值、相角信息。

进一步地,所述的音色分解单元先分析源音色的基频,再确定源音色的倍频。所述基频的确定采用计算和矫正相结合的方式,所述的矫正可以采用数据库和/或人工矫正的方式,以保证基频的准确性。

进一步地,所述倍频的确定可以选择以下两种方式中的任意一种:方式一是直接根据其整数倍频率来确定对应源音色基频的倍频,方式二是采用频域图上基频整数倍前后1/3区间内最大幅值的频率代替基频整数倍的倍频作为计算倍频。

进一步地,本发明的可编辑多级音色合成系统还包括波形显示单元,所述的波形显示单元用于显示和更新音色波形图以及音色主要特征图,辅助修改音色,所述音色主要特征图包含基频的频率、幅值信息,倍频的频率、幅值信息。

进一步地,本发明的可编辑多级音色合成系统还包括模拟播放单元,所述的模拟播放单元用于播放合成音色,判断是否满意来辅助进行音色修改。

进一步地,本发明的可编辑多级音色合成系统还包括批量处理单元,所述的批量处理单元按照相同的方式对多个源音色进行自动顺序处理,并实时显示处理进度,便于实现音色库的构建。

进一步地,本发明的可编辑多级音色合成系统还包括音色输入单元,所述的音色输入单元用于从系统外输入音色、音色特征等音频、数据、信息。

进一步地,所述音色修改参数选自基频倍频段修改参数和音感类型修改参数的任意一种或任意两种;其中,通过调整所述基频倍频段修改参数来改变源音色中基频倍频段的占比,以改变音色效果;通过修改所述音感类型修改参数来调整音色的音感效果。

优选的,所述的基频倍频段修改参数包括基频倍频段幅值修改系数vk、合成参数n和调节基频,其中:

所述的基频倍频段幅值修改系数vk,用于确定音色合成时基频段和倍频段的幅值修改量;

所述的合成参数n,用于确定基频和倍频段参与修改的频率范围dk;

所述的调节基频用于代替源音色的基频,扩大可以修改的频率范围。

优选的,所述的dk∈(fk-f1*n,fk+f1*n),其中,f1表示源音色的基频,作为基频段的中心修改频率,fk表示源音色的k倍频,作为k倍频区段的中心修改频率;所述的调节基频用于代替源音色的基频,作为音色合成时参与修改的基频段中心修改频率,扩大可以修改的频率范围。

优选的,所述的音感类型修改参数包括各音感类型对应的缩放系数、自定义音感设置,所述音感类型包括沉闷感、厚重感、丰富感、明快感、明亮感、尖锐感,自定义音感设置用于修改各音感类型的频率范围,增加音感类型并设置其频率范围。

所述的音感是指不同音色由于其谐音的多寡和各谐音特性(如频率分布、相对强度等)不同,给人带来的听觉感觉,包括但不限于沉闷感、厚重感、丰富感、明快感、明亮感、尖锐感,可以通过自定义设置音感类型及其频率范围。

进一步地,如前所述任何一种形式的可编辑多级音色合成系统,所述的音色合成单元采用音色重构模型,模拟乐器的音色进行音色合成;所述音色重构模型将源音色的音色特征信息分为两部分:修改部分和保留部分,对所述修改部分的频率段进行效果的增强或减弱,所述的频率段包括:基频到k倍频段、各类型音感段,所述的k满足k≤采样频率/(2*基频)且k为整数。

进一步地,如前所述任何一种形式的可编辑多级音色合成系统,所述的音色特征单元获取音色特征的方式选自以下方式的任意一种或任意多种:

方式一:使用系统中自带的音色特征信息;

方式二:直接输入现有的音色特征信息;

方式三:通过音色分解单元,分解源音色来得到音色特征信息。

进一步地,如前所述任何一种形式的可编辑多级音色合成系统,所述源音色的获取方式选自以下方式的任意一种或任意多种:

方式一:提取系统内部储存的源音色;

方式二:直接导入音色文件作为源音色;

方式三:采集音色文件作为源音色。

所述源音色的采集可以通过现有的或组合的任意一种音频采集设备进行,并可选择的加入去噪音等辅助设备。

进一步地,如前所述任何一种形式的可编辑多级音色合成系统,所述的乐器选自传统物理乐器、电子乐器和混合乐器。

所述的传统物理乐器是指与电子乐器相对应的乐器,其发声原理是弦、空气、鼓面、簧片等产生机械振动。所述的电子乐器所指的是乐手通过特定手段触发电子信号,使其利用电子合成技术或是采样技术来通过电声设备发出声音的乐器,如电子琴、电钢琴、电子合成器、电子鼓等。所述的混合乐器是兼具传统物理乐器和电子乐器的乐器。

进一步地,如前所述任何一种形式的可编辑多级音色合成系统,所述的乐器包括弦乐器、键盘乐器、发声原理是弦振动的其他种类乐器和以上三类乐器对应的电子乐器。

所述弦乐器包括但不仅限于小提琴、中提琴、大提琴、竖琴、吉他、古琴、琵琶、筝或贝司等,所述键盘乐器包括但不仅限于钢琴、大键琴、管风琴、手风琴或电子琴等。

本发明的第二个目的是提供一种可编辑的多级音色合成方法,用于编辑合成乐器不同级别的音色,模拟乐器同一音高的音符在不同弹奏条件下产生的不同音色效果,合成的音色与乐器的真实音色一致,所述弹奏条件选自乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的任意一种或任意多种,所述的合成方法包括如下步骤:

(1)通过音色特征单元获取源音色的音色特征信息,并将所述音色特征信息提供给音色合成单元,所述的音色特征信息包含基频的频率、幅值、相角信息,倍频的频率、幅值、相角信息,余频的频率、幅值、相角信息;

(2)音色的编辑与修改,在音色编辑单元修改至少一个音色修改参数,输入音色合成单元,不同的音色修改参数对应合成后的不同音色效果,形成不同级别的音色;

(3)音色合成单元利用步骤(1)获得的音色特征信息和步骤(2)获得的音色修改参数,合成对应于所述音色修改参数的音色,模拟乐器的真实音色。

进一步地,本发明的可编辑多级音色合成方法的步骤(1)前还包括音色分解步骤,所述的音色分解步骤对源音色进行分解,结合源音色的时域特征和频域特征信息,计算出音色特征信息,提供给音色特征单元,所述的音色特征信息包含基频的频率、幅值、相角信息,倍频的频率、幅值、相角信息,余频的频率、幅值、相角信息。

进一步地,本发明的可编辑多级音色合成方法的步骤(1)和/或(3)中还包括波形显示步骤,利用波形显示步骤显示和更新音色波形图以及音色主要特征图,辅助音色修改,其中,所述音色主要特征图包含基频的频率、幅值信息,倍频的频率、幅值信息。

所述波形显示步骤在步骤(1)中显示的是源音色的音色波形图和音色主要特征图,所述波形显示步骤在步骤(3)中显示的是合成音色的音色波形图和音色主要特征图,或源音色与合成音色重叠对比的音色波形图和音色主要特征图。

进一步地,如前所述任何一种形式的可编辑多级音色合成方法,本发明的可编辑多级音色合成方法的步骤(3)之后还包括音色的模拟播放步骤和/或音色的批量处理步骤,其中:

所述音色的模拟播放步骤是根据模拟播放单元播放的合成音色,判断是否满意来辅助进行音色修改,若对音色效果不满意,则重复执行步骤(2)与步骤(3),若对音色效果满意则进行保存。

所述音色的批量处理步骤是利用批量处理单元按照相同的方式对多个源音色进行自动顺序处理,并实时显示处理进度,音色的批量处理便于实现音色库的构建。

本发明还提供一种设备,其特征在于,所述的设备包含如前所述任何一种形式的可编辑多级音色合成系统,所述设备的类型包括但不仅限于计算机、单片机、嵌入式设备、移动智能终端、电子乐器等。所述的移动智能终端为能够捕获外部信息,能进行计算、分析和处理,并在不同终端之间能够进行信息传输的便携式设备。所述的移动智能终端包括但不限于智能手机、平板电脑、笔记本电脑、智能手表等。

本发明的有益效果是:

1.本发明提供的可编辑的多级音色合成系统能够模拟乐器的真实音色,实现音色的重现,系统合成的音色与源音色的频域特征信息完全一致,时域波形几乎完全重合,合成音色对人耳听觉来说完全一致。

2.本发明提出了一种乐器音色分级的概念,将由同一种乐器在不同弹奏条件下弹奏同一音高的音符所产生的不同音色效果表示为音色的不同级别,定义为多级音色,所述弹奏条件选自乐器类型、乐器生产厂家、乐器型号、乐器个体、弹奏者/物、弹奏手法的任意一种或任意多种。

3.本发明提供的可编辑的多级音色合成系统能模拟传统物理乐器真实多级音色,也就是能更精确地模拟出传统物理乐器能够弹奏出的多级音色。对于音色来说,同一音高的音符对应于多个音色的级别。本发明能够产生更高端的电子音源,能够精确地模拟出传统物理乐器弹奏的同一音高的音符对应的多个音色级别。

4.本发明提供的可编辑的多级音色合成系统在合成音色时可以观察音色主要特征和合成试听,根据不同的需求和效果实时修改并总结不同音色的规律,并提供批量合成功能,实现对多个源音色的自动顺序处理和音色合成,便于音色库的制作。

5.本发明提供的可编辑的多级音色合成系统不仅能模拟对应的传统物理乐器的音色,也能将多个多级的源音色进行混合编辑以产生新的音源,丰富电子乐器的音乐表现力。所述的多个多级的源音色进行混合编辑指的是将不止一个源音色(具有不同音色效果,不同级别的音色)进行混合编辑,使其具有多种音色级别的混合效果,所述不同源音色可以是来自不同乐器个体的基频相同的音色,也可以是来自不同种乐器的基频相同的音色。例如,将一个具有木质感的音色(标准音la)与一个具有明快感的音色(标准音la)混合编辑,合成的音色兼具木质感和明快感,产生一种新的音色,表现力更丰富。

附图说明

图1为本发明可编辑的多级音色合成系统的组成图;

图2为本发明可编辑的多级音色合成系统的信息流向图;

图3为本发明可编辑的多级音色合成系统的实例中参数1的结果图,图中,a图为源音色的时域波形,b图为合成音色的时域波形,c图为源音色的频域信息图,d图为合成音色的频域信息图,e图为源音色与合成音色重合对比的频域信息图,f图为源音色与合成音色做差对比的频域信息图。

图4为本发明可编辑的多级音色合成系统的实例中参数2的结果图,a图为源音色的时域波形,b图为合成音色的时域波形,c图为源音色的频域信息图,d图为合成音色的频域信息图,e图为源音色与合成音色重合对比的频域信息图,f图为源音色与合成音色做差对比的频域信息图。

图5为本发明可编辑的多级音色合成系统实例中的周期性三角波x(t)的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合具体的实施例详细说明本发明。但是需要认识到,本发明不局限于所说明的实施例,并且在不脱离基本原理的前提下,本发明的各种修改是可能的,这些等价形式同样落于本申请所附权利要求书所限定的范围。

本实施例所述的可编辑的多级音色合成系统包括音色特征单元、音色编辑单元、音色合成单元,还包括音色输入单元、音色分解单元、波形显示单元、模拟播放单元、批量处理单元。

本实施例从音色库中选取一个标准音a4(频率=440hz)的钢琴音色文件作为源文件进行处理,采样频率为44100hz,选取最高计算倍频数为14倍频(k=14)。本实施例对应2组音色修改参数进行了音色合成。

步骤一:利用音色分解单元对源音色进行分解,计算出源音色的音色特征信息(包含基频的频率、幅值、相角信息,倍频的频率、幅值、相角信息,余频的频率、幅值、相角信息),并输入音色特征单元。

1.源音色输入和预处理

首先选择一个音色文件作为源音色输入音色分解单元,由音色分解单元分析源音色的时域信息,并将其进行傅里叶变换计算出其频域信息,包括各频率及其对应的幅值、相角信息。源音色的时域波形如图3(a)所示,表示源音色随时间变化的波形变化(采样频率为44.1khz)。

2.基频分析

音色分解单元对源音色的频域信息进行分析,寻找频域图中最大幅值的频率,根据小波变换法结合音色波形特点确定基频,再通过数据库矫正测定的基频,最终确定源音色的基频。

3.倍频分析

音色分解单元中可选两种倍频的确定方法,本实施例中选择第一种:直接根据其整数倍频率来确定对应源音色基频的倍频。

步骤二:将从音色分解单元中获取的音色特征信息(包含基频的频率、幅值、相角信息,倍频的频率、幅值、相角信息,余频的频率、幅值、相角信息)保存,通过波形显示单元显示音色的波形图和音色的主要特征图,音色主要特征图包含基频的频率、幅值信息,倍频的频率、幅值信息。

步骤三:通过音色编辑单元编辑音色修改参数,可以选择基频倍频段修改参数和音感类型修改参数的任意一种或任意两种;其中,通过调整所述基频倍频段修改参数来改变源音色中基频倍段的占比,以改变音色效果;通过修改所述音感类型修改参数来调整音色的音感效果。

基频倍频段修改参数包括基频倍频段幅值修改系数vk、合成参数n和调节基频,其中:所述的基频倍频段幅值修改系数vk用于确定音色合成时基频和倍频段的幅值修改量;所述的合成参数n用于确定基频和倍频段参与修改的频率范围dk,dk∈(fk-f1*n,fk+f1*n),其中,f1表示源音色的基频,作为基频段的中心修改频率,fk表示源音色的k倍频,作为k倍频段的中心修改频率;所述的调节基频用于代替源音色的基频,作为音色合成时修改部分的基频段中心修改频率,扩大可以修改的频率范围。

所述的音感类型修改参数包括各音感类型对应的缩放系数、自定义音感设置,所述音感类型包括沉闷感、厚重感、丰富感、明快感、明亮感、尖锐感,通过设定不同的频率范围来设定不同的音感类型,通过修改所述的各音感类型对应的缩放系数调整音色的音感效果,自定义音感设置用于修改各音感类型的频率范围,增加音感类型并设置其频率范围。

步骤四:通过音色合成单元合成音色,音色单元采用音色重构模型,模拟乐器的音色进行音色合成;音色合成后利用波形显示单元更新音色波形图和音色主要特征图,合成音色的时域波形如图3(b)所示,表示合成音色随时间变化的波形变化(采样频率为44.1khz)。

音色重构模型将源音色的音色特征信息分为两部分:修改部分和保留部分,对所述修改部分的频率段进行效果的增强或减弱,所述的频率段包括:基频到k倍频段、各类型音感段,所述的k满足k≤采样频率/(2*基频)且k为整数,具体如下:

其中,为某件乐器在基频为f1时的乐音;等式加号左侧为修改部分,加号右侧为保留部分。af表示源音色对应频率f的幅值,sf表示修改系数的加权,乘积sf*vk表示对应各频率的实际修改系数,乘积sf*vk*af表示修改后对应各频率的幅值;表示源音色对应频率f的相角。

对于基频倍频段的修改,vk表示对应的基频或倍频段幅值修改系数,k表示k倍频,k=1即基频段,k表示参与修改的最高倍为k倍频,k=1,2,3,…,合成时根据实际音源的基频进行灵活选择;k倍频段参与修改的频率f的范围dk由合成参数n确定,f∈(fk-f1*n,fk+f1*n),其中,f1表示源音色的基频,fk表示源音色的k倍频。

对于各类型音感段的修改,vk表示每个音感类型对应的缩放系数,k表示第k个音感类型;第k个音感类型参与修改的频率f的范围dk已确定,可由自定义音感设置修改其频率范围,音感类型个数k可以通过自定义音感设置增加。

将源音色按照如上式余弦表达式进行分解、编辑、合成,与将其表示为三角波、锯齿波、矩形波等方式进行分解、编辑、合成,两者本质相同。证明如下:

如图5的一个周期三角波x(t),周期为t0,幅值为a。则x(t)的一个周期可表示为

其傅里叶级数展开式为

其中,

可以得出结论,周期性三角波函数可以表示为多个余弦或正弦函数的和,即三角波可分解为多个不同频率的余弦或正弦函数的叠加。将源音色表示为三角波形式,本质上仍为余弦或正弦形式。

任何周期信号f(t),周期为t0,基波角频率为在满足direchlet条件时,其傅里叶级数展开式为

其中a0为直流分量,an为余弦分量的幅度,bn为正弦分量的幅度。

即任何周期信号在满足direchlet条件时均可表示为多个余弦或正弦函数的叠加,因此三角波、锯齿波、矩形波等波形均可表示为多个不同频率的余弦或正弦函数的叠加。将源音色表示为三角波、锯齿波、矩形波等方式进行分解、编辑、合成,本质上仍为将其按照余弦或正弦方式进行分解、编辑、合成。

步骤五:音色的模拟播放,由模拟播放单元播放的合成音色,根据试听效果判断是否满意来辅助进行音色修改,若对音色效果不满意,则重复执行步骤三与步骤四,若对音色效果满意则进行保存。

步骤六:音色的批量处理,利用批量处理单元实现对多个源音色的打包批量处理和音色合成,并实时显示处理进度,音色的批量处理便于实现音色库的构建。

合成结果:

参数1:默认参数不变,即源音色的重现。

从图3的a图与b图的对比中,可以观察到源音色与合成音色的时域波形几乎完全一致,人眼无法看出区别,只有微小差别;对比源音色的频域信息图(c图)合成音色的频域信息图(d图),结合源音色与合成音色重合对比的频域信息图(e图)可以看出,源音色与合成音色的频域信息图完全重合,进一步由源音色与合成音色做差对比的频域信息图(f图)看出,两者差为0,说明源音色与合成音色的频域信息图完全一致;试听源音色与合成音色,对人耳听觉来讲两者音色完全一致。根据音色由其包含的频率、幅值信息决定,两个包含相同的频率、幅值信息的音频,其音色是相同的,可以验证两者音色完全一致。

综上,源音色与合成音色的频域特征信息完全一致,时域波形几乎完全重合,合成音色与源音色在音色上完全一致,本发明的可编辑音色合成系统完全模拟了源音色,实现了源音色的重现。

参数2:修改参数如下:

基频倍频段幅值修改系数vk=[1,1,1,1,0.6,2.6,0.4,1.8,0.2,0.6,0.2,2.6,1,1.2],合成参数n=0.3

从图4的a图与b图的对比中,可以很明显的观察到源音色与合成音色的时域波形有所区别;结合源音色的频域信息图(c图)与合成音色的频域信息图(d图),观察源音色与合成音色重合对比的频域信息图(e图),可以明显的发现,源音色和合成音色的频域信息具有一些差别,例如,在e图中从左边数第5个峰源音色(蓝色)对应频率的幅值大,第6个峰合成音色(红色)对应频率的幅值大,其他区别不再详述;f图源音色与合成音色做差对比的频域信息图更直观明显的显示了源音色与合成音色在频域信息上的差别;试听源音色与合成音色,可以听出合成音色具有钢琴的音质,并且比源音色听起来更明亮一些。根据音色由其包含的频率、幅值信息决定,两个包含不同的频率、幅值信息的音频,其音色是有区别的,可以验证两者音色是不同的。

综上,在修改参数2下,源音色与合成音色的频域特征信息不一致,时域波形有区别,合成音色与源音色在音色效果上不同,是不同级别的音色,本发明的可编辑音色合成系统对源音色进行了编辑修改,合成了不同效果的音色,即不同级别的音色,且音色满足钢琴的音色特点,实现了音色的分级和乐器的真实音色重现,参数可进行连续的修改,不同参数对应不同级别的音色,形成多级音色。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1