一种基于音频特征的数字音频延展方法

文档序号：2825229阅读：285来源：国知局

专利名称：一种基于音频特征的数字音频延展方法
技术领域：
本发明涉及音频处理技术领域，特别是涉及ー种基于音频特征的数字音频延展方法。
背景技术：
随着互联网和多媒体技术的迅速发展，音乐已经成为人们生活中不可或缺的组成部分。在现实生活中，我们经常会遇到为某个场景添加背景音乐的情况，一般而言背景音乐的时长和用户需求的时长并不相符。在改变音乐时长时，为了保证音乐的播放质量，我们需要调整乐曲的结构。现有的调整乐曲结构的方法分均匀和非均匀两种。其中均匀的调整乐曲结构的方法在音频时域改变较大的情况下的效果并不理想。而非均匀的调整乐曲结构的方法往往仅考虑了用户需求的时长小于数字音频时长的情況。因此，需要本领域技术人员迫切解决的ー个技术问题就是如何能够创新的提出有一种有效措施以克服现有技术存在的缺陷，满足实际中用户的需求。

发明内容
本发明所要解决的技术问题是提供一种基于音频特征的数字音频延展方法，用以保证乐曲在被延展后听觉效果与原乐曲接近，不破坏乐曲的欣赏性。为了解决上述问题，本发明公开了ー种基于音频特征的数字音频延展方法，所述方法包括将原始数字音频文件按照预设标准进行分段，得到以段落为单位记录乐曲信息的数据；根据段落间的相似性对段落分类；选取合适的连续段落插入原乐曲，使其达到用户需求时长的80%到120% ；对于插入后的乐曲，选取抗性符合预设需求的段落，对该段落进行长度的时域修改，并重复该步骤，直到达到用户需求时长。优选的，所述音频文件是以采样点来记录乐曲信息。优选的，所述方法还包括预设指定个数采样点为ー帧，获取以帧为単位记录乐曲信息的数据。优选的，所述方法还包括采用音频处理工具提取音频文件中各个帧的特征值。优选的，所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据。优选的，定义抗性为对乐曲进行时域修改(延展或者压缩)后乐曲效果的变化，抗性好则表示对乐曲进行时域修改后乐曲效果变化小。与现有技术相比，本发明具有以下优点本发明涉及一种基于音频特征的数字音频延展方法，在数字音频时域延展前，根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段，保证插入操作后音频片段之间自然衔接。在插入操作后，通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展，重复进行至达到延展要求，最大限度地降低音频延展对于音频质量的影响，保证整首乐曲在延展后的播放效果，由于乐曲在被延展后听觉效果与原乐曲接近，没有破坏乐曲的欣赏性。

图I是本发明具体实施方式
所述的ー种基于音频特征的数字音频延展方法的示意图；图2是本发明具体实施方式
所述的方法的延展过程中，各个步骤的结构示意图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实
施方式对本发明作进ー步详细的说明。參照图1，示出了本发明ー种基于音频特征的数字音频延展方法的示意图，(I)将原始数字音频按照指定个数的采样点进行划分，得到ー个音频帧序列，记为fi> f2> f3>.......し、fm，如图 2(a)所示。在本发明的实施例中，上述原始数字音频的音频格式可以为WAV格式，其采样率为fHz，原始时长为T秒。通常指定采样点个数为N= 512Xn(n—般取1，2，4，8)，音频结
尾采样点个数不足N个则用0补足。则每个帧的时长t = f，单位为秒，上述音频帧序列的帧的个数m = 7 =(2)对于上述音频巾贞序列V t2、t3、.......し、fm,分别提取它们的音频特征值，
得到ー个音频巾贞特征值序列ft^ft^ftp.......ft^、ftm,如图2(a)所示。在本发明的实施例中，上述的音频特征值可以为基频、过零率、梅尔倒谱系数的均值、谱质心或者它们中几个特征值的加权平均。(3)采用指定长度的方法，将上述音频帧序列进行切分，得到ー个音频片段序列Sl、S2、S3……Sn-PSn,同时，根据上述音频帧特征值序列，得到一个音频片段特征向量序列V1^ v2> v3>.......Vn-P vn,如图 2(b)所示。在本发明的实例中，上述指定的长度为24，所以上述的音频片段特征向量为24维的向量。(4)根据用户输入的目标时长Tu和上述原始数字音频时长Tv，计算得出时域音频延展率P =尹。在本发明实例中，上述时域音频延展率的取值范围为I < p < I m，Tv的初始值为每个帧的时长乘以上述音频帧序列的长度m。 (5)将上述时域音频延展率p与系统设定的最大延展阀域Pmax作比较，若P小于或者等于最大延展阀域P_，则跳转至步骤10，否则，跳转至步骤6。在本发明的实例中，上述系统设定的最大延展阀域的取值范围为I く Pniax < 2，设
Pmax I 2 o
(6)对上述n个音频片段中的任意两个音频片段Si、&通过计算它们所对应的上
述音频片段特征向量序列中Vi、Vj的距离Dy，得到它们的相似度屯=^■，重复该步骤，遍
历n个音频片段中的任意两个音频片段，得到音频片段两两之间的相似度，构成nXn维的音频片段相似度矩阵Mnxn，如图2(c)所示。在本发明的实例中，采用欧拉距离计算上述特征向量序列中Vi、'的距离。Dm =Dj,i，Cli,j = dp，上述相似度矩阵Mnxn为上三角矩阵。(7)根据上述音频片段相似度矩阵Mnxn,将上述n个音乐片段分成w类，记为C1.
c2、c3.....Cx.....Cw，满足类Cx中的任意ー个音频片段Si，在类Cx中至少存在ー个音频片
段Sp它们的相似度Cli, j大于或者等于系统指定阀域I，且在类Cx以外不存在音频片段sk，它与Cx内的任意ー个音频片段相似度も,，大于或者等于系统指定阀域I。在本发明的实施例中，上述系统指定阀域I的取值范围为0 < I < + °°，设定相似度阀域为I = 2。在图2(c)所显示的矩阵中，S1、SX的相似度Cl1,x > 2且sn、sx的相似度dn,x > 2，而Sl、sk的相似度Cl1,, < 2，sn、sk的相似度dn,k < 2，sx、sk的相似度dx,k < 2。如图2 (d)所不，S:、sx> Sn属于类C1, Sk不属于类C:。(8)用上述类序列CpCpQ、. . .、CX、. . .、CW中的类名的下标为类中的每ー个音频片段用上标的形式进行标识，得到带标识的音频片段序列Sレsf' s|, ......,s|，遍
历带标识的音频片段序列，得到所有插入点以及对应的可插入子序列，插入点く与之间的空隙和对应的可插入子序列S-L1, ....... S，r S〖应满足在带标识的音频片段序
列中存在两个相邻的带标识的音频片段，这两个带标识的音频片段的标识符分别与带标识的音频片段 < 和stg的标识符相对应；同时，在带标识的音频片段序列中存在两个相邻的带标识的音频片段，这两个带标识的音频片段的标识符分别与带标识的音频片段4和Sし,的标识符相对应；其中，a、b、c为正整数，用于下标，满足I < b彡c < n，I < a < n ;p，q，r，t为正整数,用于上标,满足I彡p, q, r, t彡W。在图2(e)中，如Si' Sf, S!'' ... ,S J这样ー个带标识的音频片段序列，可以得到如图2(f)中所示的插入点S11与sf之间的空隙、可插入子序列S;''' 4'……S^l1，插入点Sど'与s|之间的空隙、可插入子序列S卜
间的空隙、可插入子序列S11' Si等。(9)从上述所有可插入子序列中找出插入后数字音频时长Th与上述用户输入的目标时长Tu差值最小的可插入子序列，在对应的插入点插入，得到新的带标识的音频片段序列si' s2' sS'…' sf' sb' sC' sa-l' ' sn-l' s S，新的带标识的首频片段序列的片段数n'=插入前带标识的音频片段序列的片段数+c-b+1，重新计算上述音频延展
率P= _并与上述系统设定的最大延展阀域Pmax作比较，若P小于或者等于最大延展阀域
P_，则跳转至步骤10，否则，跳转至步骤8。在本发明的实施例中，插入后数字音频时长Th计算方法为带标识的音频片段的时长t乘以带标识的音频片段序列的片段数。(10)根据上述音频片段特征向量序列得到上述音频片段数为n'的带标识的音频片段的延展抗性序列“山山、. .山、Lb、. .、Le、La+1、. .、Llri、Ln，从延展抗性序列中得到一个抗性最优的音频片段，使用数字音频时域延展方法对其进行延展，延展时长为A T，得到新的音频片段，提取新的音频片段的特征向量，计算得到相应的延展抗性并修改其在延展抗性序列中的值。在本发明的实施例中，上述延展时长AT的取值范围为0 く AT <上述音频帧的时长，由系统设定，如果上述选择的是延展抗性序列中Lb对应的带标识的音频片段<，经过延展后，我们可以通过重新提取新的带标识的音频片段的特征向量并计算得到其新的延展抗性Li，进而得到上述带标识的音频片段的新的延展抗性序列Li L Ls, La' Lb, Lc, La-J,Ln。(11)比较上述用户输入的目标时长Tu和经过上述延展时长AT延展后的当前数字音频时长T。，若T。和Tu的差的绝对值大于或者等于系统设定阀域I，跳转至步骤10，否贝U，输出时域延展后的音频文件。在本发明的实施例中，上述系统设定阀域I的取值范围为0 く I <上述音频帧的时长。以上对本发明所提供的一种基于音频特征的数字音频延展方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
1.一种基于音频特征的数字音频延展方法，其特征在于，所述方法包括将原始数字音频文件按照预设标准进行分段，得到以段落为单位记录乐曲信息的数据；根据段落间的相似性对段落分类；选取合适的连续段落插入原乐曲，使其达到用户需求时长的80%到120% ；对于插入后的乐曲，选取抗性符合预设需求的段落，对该段落进行长度的时域修改，并重复该步骤，直到达到用户需求时长。
2.如权利要求I所述的方法，其特征在于所述音频文件是以采样点来记录乐曲信息。
3.如权利要求2所述的方法，其特征在于，所述方法还包括预设指定个数采样点为一帧，获取以帧为单位记录乐曲信息的数据。
4.如权利要求3所述的方法，其特征在于，所述方法还包括采用音频处理工具提取音频文件中各个帧的特征值。
5.如权利要求I所述的方法，其特征在于所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据。
6.如权利要求I所述的方法，其特征在于定义抗性为对乐曲进行时域修改(延展或者压缩)后乐曲效果的变化，抗性好则表示对乐曲进行时域修改后乐曲效果变化小。
全文摘要
本发明提供了一种基于音频特征的数字音频延展方法，在数字音频时域延展前，根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段，保证插入操作后音频片段之间自然衔接。在插入操作后，通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展，重复进行至达到延展要求，最大限度地降低音频延展对于音频质量的影响，保证整首乐曲在延展后的播放效果，由于乐曲在被延展后听觉效果与原乐曲接近，没有破坏乐曲的欣赏性。
文档编号G10L21/04GK102855883SQ20111017719
公开日2013年1月2日申请日期2011年6月28日优先权日2011年6月28日
发明者王朝坤, 王建民, 汪浩, 刘璋申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王朝坤;王建民;汪浩;刘璋
技术所有人：清华大学
我是此专利的发明人

上一篇：预测重新采样器调度器算法的制作方法
上一篇：一种移动终端及其解锁方法、装置的制作方法