哼唱旋律到midi旋律的转换方法

文档序号:9490322阅读:6926来源:国知局
哼唱旋律到midi旋律的转换方法
【技术领域】
[0001] 本发明涉及数字音频信号处理,声学、计算机音乐及认知心理学领域,尤其是涉及 哼唱旋律到MIDI旋律的转换方法。
【背景技术】
[0002] 在哼唱旋律到MIDI旋律的转换方法中,最核心部分为哼唱旋律自动识别 (SingingTranscription)技术,也称自动记谱技术。一位有经验的记谱专家(Singing TranscriptionExpert)可通过凝听一段人声哼唱,借助其音乐知识与经验为这段人声 哼唱求解出哼唱旋律并将其记录成规范的乐谱表达。规范的乐谱表达的基本形式可理解 为一个音符序列。其中的每个音符涉及MIDI音高与音长二个元素。这样的音符序列称 为MIDI旋律。模拟记谱专家这种智力行为的智能程序称为哼唱旋律自动识别(Singing Transcription)程序,或称自动记谱程序。即,自动记谱程序可在一个哼唱音频输入信号上 抽取并输出一个在听觉上与输入哼唱信号所描述的旋律尽可能一致的音符序列(即MIDI 旋律)。实现自动记谱程序的技术就是哼唱旋律到MIDI旋律的转换技术。
[0003] 从20世纪70年代开始,就有学者从事哼唱旋律自动识别(Singing Transcription)系统的研究,并取得了一定的成绩。哼唱旋律自动识别技术的研究内容主 要涉及信号帧低层特征(信号帧的基频、能量)提取与高层分析(音符切分、调性分析、音 符音高的估算)。
[0004] 哼唱信号基频提取的方法可以分为时域法[13]与频域法 [411]及时频结合的方法 [1214]。现今的信号帧基频提取技术基本可满足高层分析的需求。Chevegigne提出的YIN算 法[1]对自相关函数使用一个累积平均归一化函数进行改进,取得了较好的准确性。但在运 算速度上还不够快。不过,该算法至今仍被多数SingingTranscription系统采用为基频 估算算法[15 18]。
[0005] 音符切分是目前SingingTranscriptionSystem的主要技术难题。由于不同人 对颤音、滑音会提供不同的界定标准,这使得目前哼唱音符的边界认定标准不易统一。这也 给结果评估与比较带来一定的困难。EmiliaG0mez和JordiBonada在他们的Flamenco Transcription研究论文[19]中指出不同的记谱专家对同一哼唱片段也会提供不同的手工 标注结果。一些短音符,既可以自身构成音符,也可以作为滑音和其后继音符合并成一个音 符。一个颤音音符有时也可以分解成多个短音符。WillitKeige,RyyrAnen,Viitaniemi 和Klapuri在他们的系统中[15 17],将HMM、GaussianMixture模型、音高分析相结合实施 音符切分。音符切分也涉及音节切分问题。Lin等人[2°]引入了SPM模型,使用预测分数函 数来优化HMM和DTW来切分华语Singing音符。尽管该方法目前还没有和其它音高分析 法相结合,但应用到同一音高下不同音节的音符的切割应是有效的。音符切分技术有时也 称为哼唱信号的onset测试。CheeChuan1'〇11[21]等人使用2个Gaussian混合模型来分类 onset帧与非onset帧。近期由EmilioMoline[18]等人提出一种基于HysteresisDefined onthePitch-TimeCurve的方法来估算由于音高变化而构成的相邻音符的边界。不过,这 项工作并没有进一步深入处理涉及颤音、滑音相关问题的技术。
[0006] 实际上,调性分析在SingingTranscription中扮演着重要的角色。尽管Timo Viitaniemi,Ryynanen和Klapuri在他们的系统中也通过调性评估对估算的结果旋律作进 一步的选择或校正[16 17],不过他们的调性分析都不是在相邻音符音程分析基础上进行的, 而是使用C.Krumhansl[2:!]的基于概率分析的KeyFingingAlgorithm。而C.Krumhansl 的分析模型需预设被分析的每个音符的音高应是被规整化到标准平均律的12个半音音阶 上。由于人声哼唱信号中的每个哼唱音符的音高中心位置与标准的平均律音高之间总存 在不同层度的偏离,因此,一旦实际哼唱音符的音高被规整到MIDI音高,就会产生"规整误 差"。这种"规整误差"会对最终分析的调性与旋律结果有一定程度的影响。
[0007] 由于国际上不同系统使用的测试数据集合不统一,且音乐风格与演唱风格都不太 一致。因此较难在系统性能上实施比较。表一罗列了现有国内外哼唱旋律自动识别系统使 用的测试数据集合、音频质量、音乐风格、哼唱风格及手工标注Ground-truth的策略。
[0008] 国内外主要的哼唱旋律自动识别系统的测试数据集合、音频质量、音乐风格、哼唱 风格及Ground-truth手工标注策略一览参见表1。
[0009]表1

[0012] 作为哼唱检索系统的前端关键技术,国内也有不少学者曾从事哼唱旋律自动识别 (抽取)技术的研究。不过应用在现有的哼唱检索系统的基频估算技术多简单采用基于自 相关、倒谱及FFT技术。但这还不足以应付要求高精度音高估算的哼唱旋律自动识别系统。 尽管目前YIN[1]算法因其具备较高的基频估算精度而被许多哼唱旋律自动识别系统用来估 算信号帧的基频,但太高的时间运算复杂度是其难以实时地用在目前各种哼唱检索及其它 计算机音乐应用系统上的主要技术瓶颈。
[0013]EmilioMolina等人在IEEE/ACMTransactionsonAudio,Speech,And LanguageProcessing,Vol. 23,No. 2,Feb. 2015, 252-261.上发表题为 "SiPTH:Singing TranscriptionBasedonHystreresisDefinedonthePitch-TimeCurve',的论文中公 布了目前最新且最有代表性的哼唱旋律自动识别系统的实现方案。
[0014] 现有技术存在以下缺点:
[0015] 目前哼唱旋律自动识别系统的识谱能力,基本上还难以达到一位有实际记谱经验 的记谱专家的手工记谱水平。这主要有如下几个方面的原因:
[0016] (1)传统的哼唱旋律自动识别系统的性能评估方法不完善。主要问题是无法鉴别 输入哼唱的质量。任一实际的哼唱片段常存在不同层度的"跑音"现象。简单把哼唱音符 实际音高roundtoMIDI音高(即规整到绝对音高)并以此作为哼唱音符音高的旋律(我 们称其为实际哼唱旋律)不一定就是听者(记谱专家)心目中为这段实际哼唱片段寻求的 哼唱旋律 [23]。实际上,听者寻求的哼唱旋律应是能与其心目中对这个哼唱片段的调性认知 保持一致的旋律。我们称之为期望哼唱旋律。多数情况下,期望哼唱旋律的每个音符的音 高应是旋律的调性音级(当然,哼唱旋律本身也可能存在作为临时变化音的少数非调性音 级)。正确的哼唱旋律多数情况下应是有调旋律。我们认为期望哼唱旋律才是系统应寻求 的正确结果。因此,正确的系统的性能评估方法应涉及:
[0017]a)系统估算实际哼唱旋律(以绝对音高为音符音高的旋律)的正确性评估;
[0018]b)系统估算期望哼唱旋律(以调性音级为音符音高的旋律)的正确性评估;
[0019]c)综合比较a)与b)二种评估结果以鉴别输入哼唱的质量(比如是否有"跑音" 等)并在此基础上评估系统记谱性能(包括校正能力)。
[0020] (2)哼唱音符听觉属性的界定标准还不够规范。例如,具有滑音听觉的信号区域是 否可视为一个独立的哼唱音符及其音高的认定标准;具有稳定音高或颤音听觉的信号区域 其音高波动范围的界定标准;带有气音听觉的哼唱音符开始位置的确定等等;
[0021] (3)几乎所有的哼唱旋律自动识别系统,无论其音高估算的精度如何,最终都会采 用(F-1)或其它类似公式为输入哼唱信号的一个哼唱音符所对应的信号区域估算绝对音 高[9 1(λ24],并把绝对音高作为哼唱旋律中音符的音高。其中,F0是这个信号区域按某种估算 模型估算的整体基频。但听者(严格意义上说应是记谱专家)对一段实际哼唱中一个哼唱 音符音高的主观认定常与他(或她)对这个哼唱音符上下文的调性认知存在密切关系。它 并非简单地与在一个孤立的信号区域内估算出的绝对音高存在一一对应关系。另外,基于 公式(F-1)的音高或音程界定法也缺乏弹性,不适用于估算音高波动既自由又细微的人声 哼唱旋律。受哼唱质量或哼唱风格的影响,实际哼唱中哼唱音符的音高并非总像公式(F-1) 哪样,以整数MIDI音高为音高的中心点且波动范围固定在半音音程(即100音分)范围 内;
[0022]
[0023] (4)多数现有的哼唱旋律自动识别系统没有涉及调性分析[15'1819]。虽然以 (:.&111111^1181[22]提出的基于概率分析的调性分析方法及其后的各种扩展模型被广泛应用 于各种音乐分析系统的调性分析中,但对于哼唱旋律线不太准确的实际人声哼唱来说,由 于音高规整(roundtoMIDIpitch)过程存在"规整误差",这使得调性分析在现有的 SingingTranscription系统中的作用并不明显。例如,尽管M.Ryyn&nen等人[16]提出的 分析模型中的MusicologicalModel就是应用C.Krumhansl提出的基于概率分析的调性分 析方法分析人声哼唱,但其在调性分析之前的无调性倾向的音高规整过程中的"规整误差" 影响了最终的分析结果。
[0024] 参考文献:
[0025] [ 1 ]A.DeCheveigneandH.Kawahara, "YIN,afundamental frequencyestimatorforspeechandmusic.J.Acoust.Soc.Amer. ,vol. 111. no. 4.pp. 1917-1930, 2002.
[0026] [2]H.KobayashiandT.S.Himamura,"Aweightedautocorreleationmethod forpitchextractionofnoisyspeech'',inProc.ofInternationalConferenceon Acoustics,Speech,andSignalProcessing, (ICASSP^ 00),2000,Vol. 3,pp. 1307-1310.
[0027] [3]L.R.Rabiner,"OntheUseofAutocorrelationAnalysisforPitch Detection",IEEETransactionsonAcoustics,Speech,AndSignalProcessing,Vol. 25 ,Issue. 1,pp. 24-33,Feb. 1997.
[0028] [4]E.DorkenandN.S.Hamid,"Improvedmusicalpitchtrackingusing principaldecompositionanalysis",inProc.ofInternationalConferenceon Acoustics,Speech,andSignalProcessing,(ICASSP' 94),1994,pp.II/217-II/220.
[0029] [5]W.J.Pielemeier,G.H.Wakefield,"Time-frequencyandtime-scale analysisformusicaltranscrioption"inIEEESymp.onSignalProcessing. (IEEE-SP,92),1992,pp. 421-424.
[0030] [6]JudithC.Brown,"Musicalfundamentalfrequencytrackingusing apatternrecognitionmethod^ ,J.Acoust.Soc.Amer.vol.92,Issue3,pp. 1394 -1402,Sept. 1992.
[0031] [7]JudithC.Brownetal.ukhighresolutionfundamentalfrequency determinationbasedonphasechangesoftheFouriertransform",J.Acoust.Soc. Amer.vol. 94,Issue2,pp. 662-667,Aug
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1