音频处理方法和音频处理装置以及训练方法

文档序号:2826023阅读:142来源:国知局
音频处理方法和音频处理装置以及训练方法
【专利摘要】本申请描述了音频处理方法和音频处理装置以及训练方法。根据本申请的实施方式,重音识别器用于从多个音频帧中识别重音帧,产生包括针对多个音频帧的重音和/或非重音判定的概率得分的重音序列。然后速度估计器用于基于重音序列来估计多个音频帧的速度序列。所述实施方式可以很好地适应于速度的变化,并且可以进一步用于正确地跟踪拍子。
【专利说明】音频处理方法和音频处理装置以及训练方法

【技术领域】
[0001] 本发明总体上涉及音频信号处理。更具体地,本发明的实施方式涉及用于估计音 频片段的速度值的音频处理方法和音频处理装置以及用于训练音频分类器的训练方法。

【背景技术】
[0002] 虽然一些现有的速度估计方法非常成功,但是这些方法仍然存在一定的局限性和 问题。例如,这些方法主要适用于范围有限的流派和乐器,比如具有固定速度的鼓点或具有 "强拍"的流行舞蹈音乐。然而,具有挑战性的是当面对多种多样的音乐比如具有弱音符的 音乐、拍子速度随时间变化的音乐或具有非常嘈杂和复杂的音乐音符特征的音乐时保持性 能/准确度。


【发明内容】

[0003] 根据本申请的一种实施方式,提供了一种音频处理装置,包括:重音识别器,用于 从多个音频帧中识别重音帧,产生重音序列,该重音序列包括针对多个音频帧的重音和/ 或非重音判定的概率得分;以及速度估计器,用于基于该重音序列来估计多个音频帧的速 度序列。
[0004] 根据另一种实施方式,提供了一种音频处理方法,包括:从多个音频帧中识别重音 帧,产生重音序列,该重音序列包括针对多个音频帧的重音和/或非重音判定的概率得分; 以及基于该重音序列估计多个音频帧的速度序列。
[0005] 根据又一种实施方式,提供了一种用于训练用于识别音频片段中的重音/非重音 帧的音频分类器的方法,包括:将训练音频片段变换成多个帧;对多个帧中的重音帧进行 标记;从两个相邻重音帧之间随机地选择至少一个帧,并且将该帧标记为非重音帧;以及 使用重音帧连同非重音帧一起作为训练数据集来训练音频分类器。
[0006] 另一种实施方式涉及一种其上记录有计算机程序指令的计算机可读介质,当计算 机程序指令由处理器执行时,指令使得处理器能够执行如上所述的音频处理方法。
[0007] 又一种实施方式涉及一种其上记录有计算机程序指令的计算机可读介质,当计算 机程序指令由处理器执行时,指令使得处理器能够执行如上所述的用于训练用于识别音频 片段中的重音/非重音帧的音频分类器的方法。
[0008] 根据本申请的各实施方式,音频处理装置和方法至少可以很好地适应于速度的变 化,并且还可以用于正确地跟踪拍子。

【专利附图】

【附图说明】
[0009] 在附图中以示例而非限制的方式来说明本发明,其中相似的附图标记指代相似的 兀件,在附图中:
[0010] 图1是示出了根据本发明的实施方式的示例音频处理装置100的框图;
[0011] 图2是示出了音频处理装置100中包括的重音识别器200的框图;
[0012] 图3是示出了由不同的音频分类器针对一段舞蹈音乐的输出的曲线图;
[0013] 图4是示出了由不同的音频分类器针对其中第一段为包含有节奏拍子的音乐片 段以及后面的一段为没有拍子的无节奏音频的拼接信号的输出的曲线图;
[0014] 图5是示出了用于对在音频处理装置的实施方式中使用的音频分类器进行训练 的方法的流程图;
[0015] 图6示出了基本冲击声音分量的示例集,其中X轴表示频点(frequency bins)并 且y轴表示分量索引;
[0016] 图7示出了与音频处理装置的实施方式中的第一特征提取器有关的变型;
[0017] 图8示出了与音频处理装置的实施方式中的第二特征提取器有关的实施方式和 变型;
[0018] 图9示出了与音频处理装置的实施方式中的速度估计器有关的实施方式和变型;
[0019] 图10示出了与音频处理装置的实施方式中的路径度量单元有关的变型;
[0020] 图11示出了与音频处理装置的实施方式中的拍子跟踪单元有关的实施方式;
[0021] 图12是示出了音频处理装置的实施方式中的前趋(predecessor)跟踪单元的操 作的示意图;
[0022] 图13是示出了用于实现本申请的各个方面的示例性系统的框图;
[0023] 图14是示出了根据本申请的音频处理方法的实施方式的流程图;
[0024] 图15是示出了根据本申请的音频处理方法中的识别重音帧的操作的实现的流程 图;
[0025] 图16是示出了基于重音序列估计速度序列的操作的实现的流程图;
[0026] 图17是示出了动态规划算法中使用的路径度量的计算的流程图;
[0027] 图18和图19是示出了跟踪拍子序列的操作的实现的流程图;以及
[0028] 图20是示出了在跟踪拍子序列的操作中的跟踪在前的候选拍子位置的操作的流 程图。

【具体实施方式】
[0029] 下面参照附图描述本发明的实施方式。应当指出,为了简洁,在附图和描述中省略 了与本领域的技术人员公知的但是对于理解本申请而言并非必需的部件和处理有关的表 示和描述。
[0030] 本领域的技术人员应当理解,本发明的各个方面可以实施为系统、设备(例如移动 电话、便携式媒体播放器、个人计算机、服务器、电视机机顶盒或数字录像机或者任意其他 媒体播放器)、方法或者计算机程序产品。因此,本发明的各个方面可以采用硬件的实施方 式的形式、软件的实施方式(包括固件、驻留软件、微代码等)的形式或者软件方面与硬件方 面相结合的实施方式的形式,在本文中其可以总体上被称为"电路"、"模块"或"系统"。此 夕卜,本发明的各个方面可以采用包括在一个或更多个计算机可读介质中的计算机程序产品 的形式,其中,计算机可读介质上包括有计算机可读程序代码。
[0031] 可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算 机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电 子、磁、光学、电磁、红外或半导体系统、装置或设备、或者以上的任意适当的组合。计算机可 读存储介质的更具体的示例(非穷举性的列举)可以包括:具有一条或更多条导线的电气连 接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只 读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存 储设备或者以上的任意适当组合。在本文献的上下文中,计算机可读存储介质可以是能够 包含或者存储用于由指令执行系统、装置或设备来使用或者与其结合使用的程序的任意有 形的介质。
[0032] 计算机可读信号介质可以包括其中包括有计算机可读程序代码的传播的数据信 号,该数据信号为基带信号或者作为载波的一部分。这样的传播的信号可以采用各种形式, 包括但不限于电磁信号或光学信号或者其任意适当的组合。
[0033] 计算机可读信号介质可以为不是计算机可读存储介质并且可以传递、传播或传输 用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任意计算机可读介质。 [0034] 包括在计算机可读介质上的程序代码可以使用任意适当的介质发送,介质包括但 不限于无线、有线线路、光纤光缆、射频(RF)等或者以上的任意适当的组合。
[0035] 用于执行本发明的各个方面的操作的计算机程序代码可以用一种或更多种编程 语目的任意组合来编写,编程语目包括面向对象的编程语目比如Java、Smalltalk、C++等 以及传统的过程编程语言比如"C"编程语言或类似的编程语言。程序代码可以在用户的计 算机上作为单独软件包整体执行,或者部分在用户的计算机上执行且部分在远程计算机上 执行,或者整体在远程计算机或服务器上执行。在后一种场景中,远程计算机可以通过包括 局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户的计算机,或者可以连接到外 部计算机(例如通过使用因特网服务提供商的因特网)。
[0036] 下面参照根据本发明的实施方式的方法、装置(系统)和计算机程序产品的流程图 和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个块以及流程图 和/或框图中的块的组合可以用计算机程序指令来实现。这些计算机程序指令可以被提供 给通用计算机、专用计算机或其他可编程数据处理装置的处理器,以形成机器,使得通过计 算机或其他可编程数据处理装置的处理器来执行的指令形成用于实现流程图和/或框图 的块或多个块中所指定的功能/行为的装置。
[0037] 这些计算机程序指令还可以存储在如下计算机可读介质中:该计算机可读介质可 以引导计算机、其他可编程数据处理装置或其他设备以特定的方式工作,以使得存储在计 算机可读介质中的指令产生制品,该制品包括实现流程图和/或框图的块或多个块中所指 定的功能/行为的指令。
[0038] 计算机程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上, 以使得在计算机、其他可编程装置或其他设备上执行一系列运算步骤,从而产生计算机实 现的处理,以使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框 图的块或多个块中所指定的功能/行为的处理。
[0039] 整体解决方案
[0040] 图1是示出了根据本发明的实施方式的示例音频处理装置100的框图。
[0041] 如图1所示,在第一实施方式中,音频处理装置100可以包括重音识别器200和速 度估计器300。在第二实施方式中,音频处理装置100还可以包括将在下文中描述的拍子跟 踪单元400。
[0042] 下面将对第一实施方式进行描述。
[0043] 在重音识别器200中,从多个音频帧中识别出重音帧,产生包括针对多个音频帧 的重音和/或非重音判定的概率得分的重音序列。在速度估计器300中,基于由重音识别 器200获得的重音序列来估计多个音频帧的速度序列。
[0044] 可以通过任何现有技术来准备多个音频帧。输入音频信号可以以预定采样速率被 重采样为单声道信号,然后被划分为帧。但本申请并不限于此,也可以使用本申请的解决方 案对多个通道上的音频帧进行处理。
[0045] 为了本申请的目的,音频帧可以是彼此相继的,但也可以在一定程度上互相重叠。 作为示例性实施,音频信号可以被重采样为44. 1kHz并且被划分成具有512个样本的步长 的2048个样本(0.0464秒)的帧。即,重叠部分占帧的75%。当然,重采样频率、帧中的样 本数量和步长大小(从而重叠比例)可以是其他值。
[0046] 重音识别器200可以工作在时域或频域中。换言之,多个音频帧中的每一个可以 是时变信号的形式,或者可以变换成各种谱,比如频谱或能量谱。例如,每个音频帧可以转 换到FFT (快速傅里叶变换)频域。短时傅里叶变换(STFT)可以用于获得每个音频帧的谱:
[0047] X(t, k), k=l, 2, ···, K. (1)
[0048] 其中,Κ是音频帧的傅里叶系数的数量,t是音频帧的时间序列号(索引)。
[0049] 也可以使用其他类型的谱,比如时间校正(time-corrected)瞬时频谱(TCIF)或 复数正交镜像滤波器(CQMF)变换谱,并且这些谱也可以使用X(t,k)表示。
[0050] 这里使用的术语"重音"表示在音乐中对特定音符的强调(emphasi s )。重音有助 于乐句的演奏的发音和韵律。与周围的音符相比:1)动力重音或加重重音是使用较响的声 音来加以强调,通常在声音的冲击上最突出;2)声调重音是利用音调较高而非音量较高来 强调音符;以及3)缓急重音是利用持续时间较长来加以强调。另外,在有节奏的背景下,重 音具有一些感知属性,例如,通常,打击声音、低音等可以被视为重音。
[0051] 本申请不限于音乐中的重音。在一些申请中,"重音"可以表示给予字中的特定音 节或短语内的特定字的语音突出性。当该突出性通过较大的动力产生时,通常由幅值(音 量)、音节或元音长度、元音的完全发音和音调的无区别性变化的组合表示,该结果称为加 重重音、动力重音或简称为重读;当该突出性仅通过音调产生时,被称为音调重音;以及当 该突出性仅通过长度产生时,被称为音长重音。
[0052] 在除了音乐或语音之外的其他音频信号中,例如,在心律或鼓掌中,也可以存在重 音,并且可以使用与上面类似的属性对其进行描述。
[0053] 上述"重音"的定义表示音频信号或音频帧中的重音的固有属性。基于这些固有 属性,在重音识别器200中可以提取特征并且可以基于特征对音频帧进行分类。换言之,重 音识别器200可以包括基于机器学习的分类器210 (图2)。
[0054] 特征可以包括,例如,结合谱幅值和相位信息的复数域特征,或反映音乐节奏属性 的一个或更多个方面的任何其他特征。更多的特征可以包括由梅尔频率倒谱系数(MFCC)、 谱重心、谱滚降中的至少一个构成的音色相关的特征、由谱波动(谱通量)、梅尔能量分布中 的至少一个构成的能量相关的特征以及由低音调色度和音调色度构成的旋律相关的特征。 例如,音调色度的变化的位置通常表示和弦变化,针对某些音乐风格和弦变化基本上是强 拍点。
[0055] 可以使用现有技术提取这些特征。在图2中使用"特征提取器组"206表示相应的 硬件部件或软件模块。
[0056] 作为对该实施方式的改进,重音识别器200可以在特征提取器组206中包括尽可 能多的特征提取器并且获得包括尽可能多的特征的特征集。然后子集选择器208 (图2)可 以用于选择所提取的特征的适当子集以由分类器210用于对当前音频信号或音频帧进行 分类。这可以使用现有的自适应分类技术完成,通过现有的自适应分类技术可以基于待分 类的对象的内容来选择适当的特征。
[0057] 分类器210可以是本领域中任何类型的分类器。在一种实施方式中,可以采用双 向长短时存储器(Bidirectional Long Short Term Memory,BLSTM)作为分类器 210。双 向长短时存储器是神经网络学习模型,其中"双向"表示输入被前向和后向提供给两个单独 的回归网络,这两个回归网络均连接至相同的输出层,并且"长短时存储器"表示能够学习 长期依赖性的替选的神经架构,在我们的实验中证明"长短时存储器"很好地适合于诸如重 音/非重音分类的任务。也可以采用AdaBoost作为用于重音/非重音分类的替选的算法。 在概念上,AdaBoost通过根据各个弱分类器的差错率使用针对各个弱分类器的自适应权重 来组合一系列弱分类器,从而建立强分类器。还有大量分类器也可以用于该任务,比如支持 向量机(SVM)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)和决策树(DT )。
[0058] 在各种分类器中,BLSTM优选地用于估计重音的后验概率。其他分类方法比如 AdaBoost和SVM将正类与负类之间的差异最大化,但在它们之间产生较大的不平衡,尤其 是对于稀少的正样本(例如,重音样本)更是如此,而BLSTM没有这样的问题。此外,对于诸 如AdaBoost和SVM这样的分类方法,由于特征比如谱通量和MFCC的一阶和二阶差分仅带 有短期序列信息而没有长期信息,因此长期信息丢失。相反,BLSTM的双向结构可以在两个 方向上对长期信息进行编码,因此更适合重音跟踪任务。我们的评估显示,与传统的分类器 相比,对于中信分类BLSTM总能得到改进的性能。图3示出了由不同的算法针对一段有节 奏的音乐片段的估计输出:实线表示BLSTM的激活输出,短划线表示AdaBoost的概率输出, 点虚线表示真实拍子位置。图3 (横轴表示帧索引号)显示,与AdaBoost输出相比,BLSTM 输出明显噪声较小并且与真实重音位置更对准。图4 (横轴表示帧索引号)示出了针对拼 接信号的估计输出,在该拼接信号中第一段为包含有节奏拍子的音乐片段并且后面的一段 为没有拍子的无节奏音频。图4示出了 BLSTM (实线)的激活输出在后面的音频片段中要 显著低于在前面的音乐片段中,并且与AdaBoost (短划线)的输出相比,在后面的片段中包 含少得多的噪声峰。与图3类似,点虚线表示真实拍子位置。
[0059] 可以使用任何传统方法预先训练分类器210。即,在要训练重音/非重音分类器的 数据集中,将该数据集中的每个帧标记为重音类或非重音类。然而,由于非重音帧远多于重 音帧,因此这两个类非常不平衡。为了缓解不平衡问题,在本申请中提出了通过在每对重音 帧之间随机地选择至少一个帧来生成非重音帧。
[0060] 因此,如图5所示,在本申请中还提供了一种用于训练用于识别音频片段中的重 音/非重音帧的音频分类器的方法。即,首先将训练音频片段变换成多个帧(步骤502),多 个帧可以彼此重叠或不重叠。在多个帧中,标记重音帧(步骤504)。虽然重音帧之间的那些 帧自然是非重音帧,但并不是将所有的非重音帧都加入到训练数据集中。而是仅标记部分 非重音帧并加入到数据集中。例如,可以从两个相邻重音帧之间随机地选择至少一个帧,并 且将其标记为非重音帧(步骤506)。然后,可以使用标记的重音帧和标记的非重音帧作为训 练数据集来训练音频分类器(步骤508)。
[0061] 然后,返回图1,在重音识别器200的处理之后,速度估计器300用于基于由重音识 别器200获得的重音序列来估计速度序列。
[0062] 在音乐术语中,速度是给定片段的速率或步调。通常以每分钟拍子数(BPM)表示 速度。这表示将特定的音符值(例如四分音符)指定为拍子,并且每分钟必须演奏一定数量 的这种拍子。速度越大,每分钟内必须演奏的拍子的数量越大,从而必须越快地演奏音乐片 段。拍子是时间的基本单位,是具有量音式(mensural level)的脉冲。拍子与音乐的节奏 元素有关。音乐中的节奏以加重的拍子和未加重的拍子(通常称为"强拍"和"弱拍")的重 复序列为特征。
[0063] 本申请不限于音乐。对于音乐之外的其他音频信号,速度和拍子可以具有类似的 含义以及相应的类似的物理属性。
[0064] 基本上,所有拍子都是重音,但并不是所有重音都是拍子,虽然也存在一些其中一 些拍子不是重音的例外情况。考虑到重音多于拍子,基于重音估计速度将比基于拍子估计 速度更准确。因此,在本申请中,提出了通过检测重音来估计速度值。具体地,速度估计器 300基于由重音识别器200获得的重音序列来估计速度序列。此外,速度估计器300并非估 计单个恒定速度值,而是获得速度序列,该速度序列可以由随着帧、也就是随着时间变化的 速度值的序列构成。换言之,每个帧(或每几个帧)具有其自己的速度值。
[0065] 可以使用任何周期性估计技术来实现速度估计器300。如果在音频片段(重音序列 的形式)中发现周期性,则周期τ与速度值相对应。
[0066] 可能的周期性估计技术可以包括:自相关函数(ACF),其中特定的间隔处的自相 关值反映该间隔(对应于周期τ并且进一步对应于速度值)的概率得分;梳状滤波,其中特 定的周期/间隔τ处的互相关值反映该周期/间隔的概率得分;直方图技术,其中在每两 个检测到的重音之间周期/间隔τ的发生概率/计数可以反映该周期/间隔的概率得分; 周期性变换比如快速傅立叶变换FFT (这里,经受傅立叶变换的是重音序列,而不是原始音 频信号/帧),其中某一周期/间隔τ处的FFT值可以反映该周期/间隔的概率得分;以及 基于多代理的推理方法,其中,通过在速度跟踪/估计中使用特定的周期/间隔τ (对应于 "代理")而实现的良好度/匹配度可以反映该周期/间隔的概率得分。在每种可能的技术 中,对于具体的帧或具体的音频片段,应当选择具有最高概率分数的周期/间隔。
[0067] 在第二实施方式中,音频处理装置100还包括用于基于速度序列来估计重音序列 的一段中的拍子位置的序列的拍子跟踪单元400。同样,由于估计的速度序列可以很好地反 映速度的变化,因此估计的拍子位置将不会具有恒定的周期性,而是可以很好地匹配变化 的速度值。与直接估计拍子位置(然后基于拍子位置估计速度值)的常规技术相比较,首先 基于重音估计来估计速度值,然后基于速度值估计拍子位置的本实施方式可以获得更准确 的结果。
[0068] 特定的速度值与特定的周期或拍子间持续时间(间隔)相对应。因此,如果获得了 一个真实拍子位置,则可以根据速度序列获得所有其他的拍子位置。该一个真实拍子位置 可以被称为拍子位置的"种子"。
[0069] 在本申请中,可以使用任何技术估计拍子位置种子。例如,可以将重音序列中具有 最高概率分数的重音当作拍子位置种子。或者可以使用用于拍子估计的任何其他现有技 术,但是仅为了获得种子,而不是所有拍子位置,这是因为将基于速度序列来确定其他拍子 位置。这些现有技术可以包括但不限于峰值获得方法、基于机器学习的拍子分类器或基于 模式识别的拍子识别器。
[0070] 冲击显著件特征
[0071] 在第三实施方式中,提出了新的特征以丰富分类器210 (和/或子集选择器208) 使用的特征空间,并且显著地改进分类器210的性能以及从而改进重音识别器200的性能。 新特征可以称为"冲击显著性特征",但应当注意,特征的命名不是要在任何意义上限制该 特征和本申请。
[0072] 因此,将第一特征提取器202 (图2和图7)添加至特征提取器组206以用于从每 个音频帧中提取至少一个冲击显著性特征。并且分类器210可以被配置成至少基于至少一 个冲击显著性特征来对多个音频帧进行分类,和/或子集选择器208可以被配置成从至少 包括至少一个冲击显著性特征的特征集中选择适当的特征。
[0073] 简言之,冲击显著性特征表示基本冲击声音分量在音频帧中占的比例。术语"冲 击"表示可感知的声音脉冲或听觉声音事件的可感知的起始或音符。"冲击"声音的示例可 以包括打击乐器比如镲(hat)、钹或包括小军鼓、底鼓、筒鼓、低音鼓等的鼓的声音,鼓掌或 跺脚的声音等。冲击声音具有其自己的物理属性并且可以被分解为一系列基本冲击声音分 量,这些基本冲击声音分量可以被视为冲击声音的表征。因此,基本冲击声音分量在音频中贞 中的比例可以用作冲击显著性特征,表示音频帧在多大程度上听起来像冲击声,从而可能 是重首。
[0074] 基本冲击声音分量可以是事先已知的。一方面,基本冲击声音分量可以从类似前 面的段落中列出的各种冲击声源的集合中学习。为此,可以采用任何分解算法或源分离方 法,比如非负矩阵分解(NMF)算法、主成分分析(PCA)和独立成分分析(ICA)。即,可以视为 将基于各种冲击声源的集合而归纳得到的综合冲击声源被分解成多个基本冲击声音分量 (仍采用STFT谱作为示例,但其他谱也是可行的):
[0075] Xs (t, k) =A (t, n) *D (n, k)
[0076] = [Aatt (t,1),Aatt (t,2),...,Aatt (t,N) ] * [Datt (1,k),Datt (2, k),...,Datt (N,k)],
[0077] (2)
[0078] 其中,Xs(t,k)为冲击声源,1?=1,2,···,Κ,K为音频帧的傅里叶系数的数量,t是 音频帧的时间序列号(索引),D (n,k) = [Datt (1,k),Datt (2, k),…,Datt (N,k)] '为基本冲击 声音分量,n=l,2, "·,Ν,N是基本冲击声音分量的数量,A(t,n) = [Aatt(t,l),Aatt(t,2),… ,Aatt (t,N)]为相应的基本冲击声音分量的混合因数的矩阵。
[0079] 在学习阶段,通过上述分解算法和源分离方法,但并不限于此,可以获得混合因数 A(t,n)的矩阵和基本冲击声音分量D(n,k)的集合,但我们仅需要D(n,k),从而可以丢弃 A(t,η)。
[0080] 图6给出了基本冲击声音分量的集合的示例,其中X轴表示频点,y轴表示分量索 弓丨。具有灰度级的条带表示相应的频点的强度。灰度条越暗,强度越高。
[0081] 然后,在重音识别器200中,第一特征提取器202使用相同或类似的分解算法或 源分离方法来分解音频帧,音频帧要被处理成在学习阶段获得的基本冲击声音分量D (n,k) 中的至少一个,得到混合因数矩阵,所述混合因数整体地或单独地作为至少一个冲击显著 性特征。艮P,
[0082] X (t, k) =F (t, n) *D (n, k)=
[0083] [Fatt (t,1),Fatt (t,2),...,Fatt (t,N) ] * [Datt (1,k),Datt (2, k),...,Datt (N,k)],
[0084] (3)
[0085] 其中,X(t,k)为在等式(1)中获得的音频帧,k=l,2, ···,!(,K为音频帧的傅里叶 系数的数量,t为音频帧的时间序列号(索引),D(n,k)为在等式(2)中获得的基本冲击 声音分量, η=1,2,···,Ν,N为基本冲击声音分量的数量,F(t,n) = [Fatt(t,l),Fatt(t,2)^·· ,Fatt(t,N)]为相应的基本冲击声音分量的混合因数的矩阵。矩阵F(t,n)整体或矩阵中的 任何元素可以用作至少一个冲击显著性特征。混合因数的矩阵还可以被处理以得到冲击显 著性特征,比如混合因数的一些统计特性、一些或所有混合因数的线性/非线性组合等。
[0086] 在实施方式的一种变型中,至少一个基本冲击声音分量还可以根据音乐学知识通 过手动构造事先得到。这是因为冲击声源具有其固有的物理属性并具有其自己的特定谱。 那么,基于关于冲击声源的谱属性的知识,可以手动构造基本冲击声音分量。
[0087] 在实施方式的另一种变型中,由于即使冲击声源比如打击乐器也可以包括一些非 冲击声首分量,该非冲击声首分量也是冲击声源比如打击乐器的特性,因此还可以考虑非 冲击声音分量。并且在真实的音乐片段中,是打击乐器比如鼓的全部声音而不仅是鼓的一 些分量表示音乐中的重音或拍子。从另一观点来看,即使非冲击声音分量的混合因数最终 没有被考虑到冲击显著性特征中,如果分解算法将包括非冲击声音分量的所有可能的分量 考虑在内,则也可以获得更准确的结果;换言之,在将非冲击分量考虑在内的情况下,可以 正确地分解所有类型的音频信号,即使这些音频信号包含或多或少的非冲击声音分量或者 大部分或完全包括非冲击声音分量。
[0088] 因此,在学习阶段中,声源可以被如下分解:
[0089] Xs (t, k) =A (t, n) *D (n, k)
[0090] = [Aatt (t, 1), Aatt (t, 2), , Aatt (t, , Anon (t, N^l), Anon (t, ^
[0091] +2),
[0092] [Datt {1,k),Datt (2, k),...,Datt (Nl, k),
[0093] Dnon (N^l, k), Dnon (^+2, k), , Dnon (^+^, k) ]' (4)
[0094] 其中,Xs(t,k)为冲击声源,k=l,2, "·,Κ,K为音频帧的傅里叶系数的数量,t为 音频帧的时间序列号(索引),D (n,k) = [Datt (1,1),Datt (2, k),…,Datt 沉,k),D_汎+1,k), Dnon沉+2, k),...,Dnm沉+?k)] '为基本声音分量,n=l,2, ...,K+N2,其中K为基本冲击 声音分量的数量并且N2为基本非冲击声音分量的数量,A(t,n) = [Aatt(t,l),Aatt(t,2),… ,Aatt(t,N 1),An。n(t,N1+l),An。 n(t,N1+2),···,An。n(t,N1+N 2)]为相应的基本声音分量的混合因 数的矩阵。
[0095] 在另一种变型中,在学习阶段,除了冲击声源以外,还可以将一些非冲击声源添加 到声源的集合中。这样的非冲击声源可以包括,例如,非打击乐器、歌声等。在这种情况下, 在等式(4)中,Xs(t,k)将包括冲击声源和非冲击声源两者。
[0096] 然后,在重音识别器200中,第一特征提取器202使用类似的或相同的分解算法 或源分离方法来分解音频帧,音频帧要被处理成在学习阶段中获得的基本声音分量D(n,k) 中的至少一个,得到混合因数的矩阵,所述混合因数整体地或单独地作为至少一个冲击显 著性特征。即,
[0097] X (t,k) =F (t,n) *D (n,k) = [Fatt (t,1),Fatt (t,2),...,Fatt (t,NJ,Fn0n (t,K+
[0098] 1),Fnon(t,K+2),...,Fnon(t,Κ+Ν 2) ]*
[0099] [Datt (1,k),Datt (2, k),...,Datt (N" k),0臟(?+1,k),0議(?+
[0100] 2,k),k)]' (5)
[0101] 其中,X(t,k)为等式(1)中获得的音频帧,k=l,2, "·,Κ,K为音频帧的傅里叶系 数的数量,t为音频帧的时间序列号(索引),D(n,k)为等式(2)中获得的基本声音分量, n=l,2, ···,&+&,其中&为基本冲击声音分量的数量并且N2为基本非冲击声音分量的数 量,F(t,η)为相应的基本声音分量的混合因数的矩阵。矩阵F(t,η)整体或矩阵中的任何 元素可以用作至少一个冲击显著性特征。混合因数的矩阵还可以被处理以得到冲击显著性 特征,比如混合因数的一些统计特性、一些或所有混合因数的线性/非线性组合等。作为 另一种变型,虽然也获得了基本非冲击声音分量的混合因数,F_(t,Κ+1),F_(t,Κ+2),… 但是当得到冲击显著性特征时仅考虑基本冲击声音分量的混合因数 Fatt (t,1),Fatt (t,2),...,Fatt (t,N!)。
[0102] 在图7中所示的与第一特征提取器202有关的另一种变型中,第一特征提取器202 可以包括归一化单元2022,用于使用音频帧的能量将每个音频帧的至少一个冲击显著性特 征归一化。为了避免突然的波动,归一化单元2022可以被配置成使用音频帧的被在时间 上平滑的能量将每个音频帧的至少一个冲击显著性特征归一化。"音频帧的被在时间上平 滑的能量"表示音频帧的能量在帧索引的维度上被平滑。存在各种用于进行时间平滑的方 法。一种是使用移动窗口计算能量的移动平均,即,关于当前帧(帧可以在窗口的开始、中间 或末端处)确定窗口的预定大小,窗口中的这些帧的能量的平均可以被计算,作为当前帧的 平滑后的能量。在其变型中,可以计算移动窗口内的加权平均,以例如对当前帧给予更多强 调等。另一种方法是计算历史平均。即,当前帧的平滑后的能量值是当前帧的未经平滑的 能量与至少一个较早的(通常是前一个)帧的至少一个平滑后的能量值的加权和。可以根据 当前帧和较早的帧的重要性调整权重。
[0103] 相对强度特征
[0104] 在第四实施方式中,提出了另一种新的特征以丰富由分类器210(和/或子集选择 器208)使用的特征空间,并且显著地改进分类器210的性能,从而改进重音识别器200的 性能。该新特征可以称为"相对强度特征",但是应当指出,特征的命名不不是要在任何意义 上限制该特征和本申请。
[0105] 因此,将第二特征提取器202 (图2和图8)添加至特征提取器组206以用于从每 个音频帧中提取至少一个相对强度特征。并且分类器210可以被配置成至少基于至少一个 相对强度特征来对多个音频帧进行分类,和/或子集选择器208可以被配置成从至少包括 至少一个相对强度特征的特征集中选择适当的特征。
[0106] 简言之,音频帧的相对强度特征表示音频帧相对于至少一个相邻音频帧的强度变 化。根据重音的定义,知道重音通常比相邻的(在前的或在后的)帧具有较大的强度,因此可 以使用强度的变化作为用于识别重音帧的特征。如果考虑到实时处理,通常在前的帧可以 用于计算该变化(在本申请中,采用在前的帧作为示例)。然而,如果处理不必须是实时的, 则也可以使用在后的帧。或者可以使用两者。
[0107] 可以基于信号能量或谱比如能量谱或STFT谱的变化计算强度变化。为了更准确 地跟踪信号分量的瞬时频率,可以利用FFT谱的改良版来得到相对强度特征。该改良的谱 被称为时间校正瞬时频谱(TCIF)。下面给出使用该TCIF谱来提取相对强度特征的处理作 为示例,但本申请并不限于此并且下面的处理可以等同地应用于包括能量谱的其他谱。
[0108] 在一种变型中,可以计算两个所考虑的音频帧的谱之间的差作为相对强度特征:
[0109] ΔX(t, k) =X(t, k)-X(t~l, k) (6)
[0110] 其中t-1表示在前的帧。
[0111] 在上面的变型的替选中,可以使用有关的帧的谱之间的比率替代差。
[0112] 在另一种替选中,可以将谱转换到对数尺度并且可以计算有关的帧之间的对数差 作为所述差:
[0113] Xlog(t, k)=log(X(t, k)) (7)
[0114] ΔXlog(t, k) =Xlog(t, k)-Xlog(t~l, k) (8)
[0115] 则对于每个帧,得到K个差(或比率),分别对应于频点。K个差(或比率)中的至少 一个可以用作至少一个相对强度特征。差(或比率)可以被进一步处理以得到相对强度特 征,比如差(或比率)的一些统计特性、一些或所有差(或比率)的线性/非线性组合等。例 如,如图8所示,可以在第二特征提取器204中包括相加单元2044,用于在一些或所有K个 频点上对有关的音频帧之间的差求和。该和可以单独用作相对强度特征,或可以与K个频 点上的差一起形成K+1维向量作为相对强度特征。
[0116] 在一种变型中,上述差(包括对数差和比率)和/或和可以进行半波整流以将差和 /或和的平均值大约偏移到零,并且忽略低于平均值的那些值。因此,可以在第二特征提取 器204中设置第一半波整流器2042(图8)。具体地,平均值可以是如本公开的前一部分"冲 击显著性特征"的结尾处所讨论的移动平均值或历史平均值。可以使用下面的等式或其任 何数学变换来表达半波整流(采用对数差作为示例):
[0117]

【权利要求】
1. 一种音频处理装置,包括: 重音识别器,用于从多个音频帧中识别重音帧,产生重音序列,所述重音序列包括针对 所述多个音频帧的重音和/或非重音判定的概率得分;以及 速度估计器,用于基于所述重音序列来估计所述多个音频帧的速度序列。
2. 根据权利要求1所述的音频处理装置,其中,所述重音识别器包括: 第一特征提取器,用于从每个音频帧中提取至少一个冲击显著性特征,所述至少一个 冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例;以及 分类器,用于至少基于所述至少一个冲击显著性特征来对所述多个音频帧进行分类。
3. 根据权利要求2所述的音频处理装置,其中,所述第一特征提取器被配置成使用分 解算法来估计每个音频帧的所述至少一个冲击显著性特征:将所述音频帧分解成至少一个 基本冲击声音分量,产生所述至少一个基本冲击声音分量的混合因数的矩阵,所述混合因 数整体地或单独地作为所述至少一个冲击显著性特征的基础。
4. 根据权利要求2所述的音频处理装置,其中,所述第一特征提取器被配置成使用分 解算法来估计所述至少一个冲击显著性特征:将每个音频帧分解成至少一个基本冲击声音 分量和至少一个基本非冲击声音分量,产生所述至少一个基本冲击声音分量和所述至少一 个基本非冲击声音分量的混合因数的矩阵,所述混合因数整体地或单独地作为所述至少一 个冲击显著性特征的基础。
5. 根据权利要求2所述的音频处理装置,其中,所述第一特征提取器还包括归一化单 元,用于使用所述音频帧的能量对每个音频帧的所述至少一个冲击显著性特征进行归一 化。
6. 根据权利要求1所述的音频处理装置,其中,所述重音识别器包括: 第二特征提取器,用于从每个音频帧中提取至少一个相对强度特征,所述至少一个相 对强度特征表示所述音频帧相对于至少一个相邻音频帧的强度变化;以及 分类器,用于至少基于所述至少一个相对强度特征来对所述多个音频帧进行分类。
7. 根据权利要求6所述的音频处理装置,其中,所述第二特征提取器被配置成计算每 个音频帧的谱与至少一个相邻音频帧的谱之间的差,作为每个音频帧的所述至少一个相对 强度特征。
8. 根据权利要求7所述的音频处理装置,其中,所述第二特征提取器被配置成计算每 个音频帧的对数谱与至少一个相邻音频帧的对数谱之间的差,作为每个音频帧的所述至少 一个相对强度特征。
9. 根据权利要求6所述的音频处理装置,其中,所述重音识别器包括: 第一特征提取器,用于从每个音频帧中提取至少一个冲击显著性特征,所述至少一个 冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例; 第二特征提取器,用于从每个音频帧中提取至少一个相对强度特征,所述至少一个相 对强度特征表示所述音频帧相对于至少一个相邻音频帧的强度变化;以及 分类器,用于至少基于所述至少一个冲击显著性特征和所述至少一个相对强度特征中 的一个来对所述多个音频帧进行分类。
10. 根据权利要求9所述的音频处理装置,其中,所述重音识别器还包括:至少一个附 加特征提取器,用于提取至少一个附加特征;以及子集选择器,用于从所述至少一个附加特 征、所述至少一个冲击显著性特征和所述至少一个相对强度特征中选择特征子集,并且所 述分类器被配置成通过使用所述特征子集来识别重音帧。
11. 根据权利要求2至10中的一项所述的音频处理装置,其中,所述分类器包括双向长 短时存储器BLSTM。
12. 根据权利要求1至10中的一项所述的音频处理装置,其中,所述速度估计器包括动 态规划单元,所述动态规划单元将所述重音序列作为输入并且通过使沿着时间线包括预定 数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。
13. 根据权利要求12所述的音频处理装置,其中,所述速度估计器还包括周期性估计 器,用于估计所述重音序列在移动窗口内的针对不同的候选速度值的周期性值,并且所述 动态规划单元包括路径度量单元,用于基于针对不同的候选速度值的所述周期性值来计算 所述路径度量,其中,针对所述移动窗口的每一步估计速度值,所述移动窗口的大小取决于 所估计的速度值的期望精度,并且所述移动窗口的步长取决于期望的对速度变化的灵敏 度。
14. 根据权利要求13所述的音频处理装置,其中,所述周期性估计器包括自相关函数 ACF计算器,用于计算移动窗口内的所述重音概率得分的自相关值,作为所述周期性值。
15. 根据权利要求14所述的音频处理装置,其中,所述速度估计器还包括增强器,用于 使用间隔为与特定候选速度值相对应的间隔的整数倍的情况下的自相关值来增强所述特 定候选速度值的所述自相关值。
16. 根据权利要求13所述的音频处理装置,其中,所述路径度量单元被配置成基于周 期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和从速度 序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算所述路径 度量。
17. 根据权利要求16所述的音频处理装置,其中,所述路径度量单元包括第一概率计 算器,用于基于与特定候选速度值有关的周期性值和对于特定移动窗口所有可能的候选速 度值的周期性值,来计算该特定移动窗口的周期性值相对于所述特定候选速度值的条件概 率。
18. 根据权利要求16所述的音频处理装置,其中,所述路径度量单元还包括第二概率 计算器,用于:针对特定移动窗口,基于与所述特定移动窗口相对应的可能的元数据值的概 率和特定速度值在给定所述特定移动窗口的每个可能元数据值的条件下的条件概率,来计 算特定候选速度值的先验概率。
19. 根据权利要求18所述的音频处理装置,其中,所述元数据表示音频类型。
20. 根据权利要求16所述的音频处理装置,其中,所述路径度量单元还包括第三概率 计算器,用于:基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率,和针对 所述可能的元数据值中的每一个从所述移动窗口的特定速度值转移到所述下一个移动窗 口的特定速度值的概率,来计算从所述移动窗口的特定速度值到所述下一个移动窗口的特 定速度值的转移概率。
21. 根据权利要求20所述的音频处理装置,其中,所述元数据表示音频类型。
22. 根据权利要求12所述的音频处理装置,还包括: 拍子跟踪单元,用于基于所述速度序列来估计所述重音序列的一段中的拍子位置的序 列。
23. 根据权利要求22所述的音频处理装置,其中,所述拍子跟踪单元包括: 前趋跟踪单元,用于在所述重音序列的所述段的第一方向上针对每个锚点位置,在所 述重音序列的所述段的第二方向上跟踪在前的候选拍子位置,以基于所述在前的候选拍子 位置的得分来更新所述锚点位置的得分;以及 选择单元,用于选择具有最高得分的位置作为用作种子的拍子位置,基于所述种子,基 于所述速度序列在所述段的前向方向和后向方向迭代地跟踪所述段中的其他拍子位置; 其中,所述第一方向是所述前向方向或所述后向方向;相应地,所述第二方向是所述后 向方向或所述前向方向。
24. 根据权利要求23所述的音频处理装置,其中,所述重音序列的所述段中的位置的 初始得分基于所述帧的重音判定的概率得分来确定。
25. 根据权利要求23所述的音频处理装置,其中,所述前趋跟踪单元被配置成在所述 第一方向和所述第二方向两个方向上扫描所有锚点位置,获取每个位置分别在所述第一方 向和所述第二方向上的两个得分,并且所述选择单元被配置成基于根据所述两个得分所获 得的组合得分来选择所述种子。
26. 根据权利要求23所述的音频处理装置,其中,所述前趋跟踪单元被配置成通过搜 索基于所述速度序列中的相应的位置处的所述速度值所确定的搜索范围来跟踪所述在前 的候选拍子位置。
27. 根据权利要求26所述的音频处理装置,其中,所述前趋跟踪单元被配置成基于根 据所述位置和相应的速度值所计算的转移代价来更新所述搜索范围中的每个位置的得分, 以选择所述搜索范围中具有最高得分的位置作为所述在前的候选拍子位置,并且基于所述 搜索范围中的最高得分来更新所述锚点位置的得分。
28. -种音频处理方法,包括: 从多个音频帧中识别重音帧,产生重音序列,所述重音序列包括针对所述多个音频帧 的重音和/或非重音判定的概率得分;以及 基于所述重音序列估计所述多个音频帧的速度序列。
29. 根据权利要求28所述的音频处理方法,其中,所述识别操作包括: 从每个音频帧中提取至少一个冲击显著性特征,所述至少一个冲击显著性特征表示至 少一个基本冲击声音分量在所述音频帧中占的比例;以及 至少基于所述至少一个冲击显著性特征对所述多个音频帧进行分类。
30. 根据权利要求29所述的音频处理方法,其中,所述提取操作包括使用分解算法来 估计每个音频帧的所述至少一个冲击显著性特征:将所述音频帧分解成至少一个基本冲击 声音分量,产生所述至少一个基本冲击声音分量的混合因数的矩阵,所述混合因数整体地 或单独地作为所述至少一个冲击显著性特征的基础。
31. 根据权利要求29所述的音频处理方法,其中,所述提取操作包括使用分解算法来 估计所述至少一个冲击显著性特征:将每个音频帧分解成至少一个基本冲击声音分量和至 少一个基本非冲击声音分量,产生所述至少一个基本冲击声音分量和所述至少一个基本非 冲击声音分量的混合因数的矩阵,所述混合因数整体地或单独地作为所述至少一个冲击显 著性特征的基础。
32. 根据权利要求29所述的音频处理方法,还包括使用所述音频帧的能量对每个音频 帧的所述至少一个冲击显著性特征进行归一化。
33. 根据权利要求28所述的音频处理方法,其中,所述识别操作包括: 从每个音频帧中提取至少一个相对强度特征,所述至少一个相对强度特征表示所述音 频帧相对于至少一个相邻音频帧的强度变化;以及 至少基于所述至少一个相对强度特征对所述多个音频帧进行分类。
34. 根据权利要求33所述的音频处理方法,其中,所述提取操作包括计算每个音频帧 的谱与至少一个相邻音频帧的谱之间的差,作为每个音频帧的所述至少一个相对强度特 征。
35. 根据权利要求34所述的音频处理方法,其中,所述提取操作包括计算每个音频帧 的对数谱与至少一个相邻音频帧的对数谱之间的差,作为每个音频帧的所述至少一个相对 强度特征。
36. 根据权利要求33所述的音频处理方法,其中,所述识别操作包括: 从每个音频帧中提取至少一个冲击显著性特征,所述至少一个冲击显著性特征表示至 少一个基本冲击声音分量在所述音频帧中占的比例; 从每个音频帧中提取至少一个相对强度特征,所述至少一个相对强度特征表示所述音 频帧相对于至少一个相邻音频帧的强度变化;以及 至少基于所述至少一个冲击显著性特征和所述至少一个相对强度特征中的一个对所 述多个音频帧进行分类。
37. 根据权利要求36所述的音频处理方法,其中,所述识别操作还包括提取至少一个 附加特征,以及从所述至少一个附加特征、所述至少一个冲击显著性特征和所述至少一个 相对强度特征中选择特征子集,并且所述分类操作包括通过使用所述特征子集来识别重音 帧。
38. 根据权利要求29至37中的一项所述的音频处理方法,其中,所述分类操作使用双 向长短时存储器BLSTM来实现。
39. 根据权利要求28至37中的一项所述的音频处理方法,其中,所述估计操作包括动 态规划算法,所述动态规划算法将所述重音序列作为输入并且通过使沿着时间线包括预定 数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。
40. 根据权利要求39所述的音频处理方法,其中,所述估计操作还包括:估计所述重音 序列移动窗口内的针对不同的候选速度值的周期性值,并且所述动态规划处理包括:基于 针对不同的候选速度值的所述周期性值来计算所述路径度量,其中,针对所述移动窗口的 每一步估计速度值,所述移动窗口的大小取决于所估计的速度值的期望精度,并且所述移 动窗口的步长取决于期望的对速度变化的灵敏度。
41. 根据权利要求40所述的音频处理方法,其中,估计所述周期性值的操作包括计算 移动窗口内的所述重音概率得分的自相关值,作为所述周期性值。
42. 根据权利要求41所述的音频处理方法,其中,所述估计操作还包括:使用间隔为与 特定候选速度值相对应的间隔的整数倍的情况下的自相关值来增强所述特定候选速度值 的所述自相关值。
43. 根据权利要求40所述的音频处理方法,其中,计算所述路径度量的所述操作包括 基于周期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和 从速度序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算所 述路径度量。
44. 根据权利要求43所述的音频处理方法,其中,所述计算路径度量的操作包括:基于 与特定候选速度值有关的周期性值和对于特定移动窗口所有可能的候选速度值的周期性 值,来计算该特定移动窗口的周期性值相对于所述特定候选速度值的条件概率。
45. 根据权利要求43所述的音频处理方法,其中,所述计算路径度量的操作包括:针对 特定移动窗口,基于与所述特定移动窗口相对应的可能的元数据值的概率和特定速度值在 给定所述特定移动窗口的每个可能的元数据值的条件下的条件概率来,计算特定候选速度 值的先验概率。
46. 根据权利要求45所述的音频处理方法,其中,所述元数据表示音频类型。
47. 根据权利要求43所述的音频处理方法,其中,所述计算路径度量的操作包括:基于 与移动窗口或下一个移动窗口相对应的可能的元数据值的概率,和针对所述可能的元数据 值中的每一个的从所述移动窗口的特定速度值转移到所述下一个移动窗口的特定速度值 的概率,来计算从所述移动窗口的特定速度值到所述下一个移动窗口的特定速度值的转移 概率。
48. 根据权利要求47所述的音频处理方法,其中,所述元数据表示音频类型。
49. 根据权利要求39所述的音频处理方法,还包括: 基于所述速度序列来估计所述重音序列的一段中的拍子位置的序列。
50. 根据权利要求49所述的音频处理方法,其中,估计所述拍子位置的序列的操作包 括: 在所述重音序列的所述段的第一方向上针对每个锚点位置,在所述重音序列的所述段 的第二方向上跟踪在前的候选拍子位置,以基于所述在前的候选拍子位置的得分来更新所 述锚点位置的得分;以及 选择具有最高得分的位置作为用作种子的拍子位置,基于所述种子,基于所述速度序 列在所述段的前向方向和后向方向迭代地跟踪所述段中的其他拍子位置; 其中,所述第一方向是所述前向方向或所述后向方向;相应地,所述第二方向是所述后 向方向或所述前向方向。
51. 根据权利要求50所述的音频处理方法,其中,所述重音序列的所述段中的位置的 所述初始得分基于所述帧的重音判定的概率得分来确定。
52. 根据权利要求50所述的音频处理方法,其中,所述跟踪操作包括在所述第一方向 和所述第二方向两个方向上扫描所有锚点位置,获取每个位置分别所述第一方向和所述第 二方向上的两个得分,并且所述选择操作包括基于根据所述两个得分所获得的组合得分来 选择所述种子。
53. 根据权利要求50所述的音频处理方法,其中,所述跟踪操作包括通过搜索基于所 述速度序列中的相应的位置处的所述速度值所确定的搜索范围来跟踪所述在前的候选拍 子位置。
54. 根据权利要求53所述的音频处理方法,其中,所述跟踪操作包括基于根据所述位 置和相应的速度值所计算的转移代价来更新所述搜索范围中的每个位置的得分,以选择所 述搜索范围中具有最高得分的位置作为所述在前的候选拍子位置,并且基于所述搜索范围 中的最高得分来更新所述锚点位置的得分。
55. -种用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法,包括: 将训练音频片段变换成多个帧; 标记所述多个帧中的重音帧; 在两个相邻的重音帧之间随机地选择至少一个帧,并且将所述至少一个帧标记为非重 音帧;以及 使用所述重音帧连同所述非重音帧一起作为训练数据集,对所述音频分类器进行训 练。
【文档编号】G10L21/0272GK104217729SQ201310214901
【公开日】2014年12月17日 申请日期:2013年5月31日 优先权日:2013年5月31日
【发明者】王捃, 芦烈 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1