哼唱旋律到midi旋律的转换方法_2

文档序号：9490322阅读：来源：国知局

ust1993.
[0032] [8]JudithC.Brown，"Frequencyratiosofspectralcomponentsofmusical sounds"，J.Acoust.Soc.Amer.，vol. 99,Issue2,pp. 1210-1218,Sept. 1996.
[0033] [9]AdrianoMitre,MarceloQueiroz，RegisR.A.Faria,"Accurate andEfficientFundamentalFrequencyDeterminationfromPrecisePartial Estimates"，inProc.ofthe4thAESBrazilConference,May2006,pp.113 - 118.
[0034] [10]Wei_HoTsaiandHsin-ChiehLee，"AutomaticEvaluationofKaraoke SingingBasedonPitch,Volume,andRhythmFeatures"，IEEETransactionson Audio,Speech，AndLanguageProcessing，Vol. 20,No. 4,May2012，1233_1243.
[0035] [ll]YinFengandWentaoWang，"ResearchonhummingtoMIDIby man-machineinteraction''，J.ofComputationalInformationSystem,vol. 9,no. 10,May2013,pp. 3827-3835.
[0036] [12]A.StephenZahorianandHongbingHu,"Aspectral/temporalmethod forrobustfundamentalfrequencytracking^,J.Acoust.Soc.Amer. ,vol. 123. no. 6, 2008,pp. 4559-4571，
[0037] [13]A.Ghias,J.Logan,D.Chamberlin,andB.C.Smith,^Queryby humming:musicalinformationretrievalinanaudiodatabase"，inProc.ofACM InternationalConferenceonMultimedia,1995,pp. 231-236.
[0038] [14]T.R.BlackandK.D.Donohue，"Pitchdeterminationofmusicsignals usingthegeneralizedspectrum"，inProc.oftheIEEESoutheastConference,Nash ville,USA, 2000,pp. 104-109.
[0039] [15]W.Keige，T.Herbst，andT.Niesler，"Ecplicittransitionmodellingfor automaticsingingtranscription. "J.NewMusicRes.,vol. 37,no. 4,pp. 311-324, 2008.
[0040] [16]M.Ryynanen,A.P.Klapuri,^ModellingofNoteEventsforSinging Transcription,''inProc.ISCATutorialandRes.WorkshoponStatist.Percept.Audio Process.SAPA,Jeju,Korea,Oct. 2004.
[0041] [17]T.Viitaniemi,A.Klapuri,andA.Eronen,"Aprobabilisticmodelfor thetranscriptionofsingle-voicemelodies，''inProc.ofFinnishSignalProcess. Symp. (FINSIG' 03)，2003,pp. 5963-5957.
[0042] [18]EmilioMolinaetal， "SiPTH:SingingTranscriptionBasedon HystreresisDefinedonthePitch-TimeCurve"，IEEE/ACMTransactionson Audio,Speech，AndLanguageProcessing，Vol. 23,No. 2,Feb. 2015, 252-261.
[0043] [19]Emilia& 細andJordiBonada，"TowardsComputer-AssistedFlamenco Transcription:AnExperimentalComparisonofAutomaticTranscriptionAlgorithms asAppliedtoACappellaSinging"，ComputerMusicJournal,Vol. 37,Issue 2, 2013, 73-90.
[0044] [20]Cheng-YuanLinandJyh-ShingRogerJang，"AutomaticPhonetic SegmentationbyScorePredictiveModelfortheCorporaofMandarinSinging Voices"，IEEETransactionsonAudio,Speech,AndLanguageProcessing,Vol. 15,No. 7 Sept. 2007, 2151-2159.
[0045] [21]Chee-ChuanToh，BingjunZhang，YeWang，"Multiple-FeatureFusion BasedOnsetDecetionforSoloSingingVoice"inProc.ofISMIR,Philadelphia,PA. USA, 2008,pp. 515-520.
[0046] [22]C.L.Krumhansl,CognitiveFoundationsofMusicalPitch,Oxford PsychologySeriesNo. 17,NewYorkOxford,OxfordUniversityPress,1990.
[0047] [23]AndrewGuilloryetal. "User-SpecificLearningforRecognizing aSinger'sIntendedPitch''，inProc.oftheTwenty-FourthAAAIConferenceon ArtificialIntelligence,Atlanta,Georgia,USA,July11-15, 2010,pp. 960-966.
[0048][24]R.J.McNabetal·"SignalProcessingforMelodyTranscription"，In Proc.ofthe19thAustralasianComputerScienceConference,vol. 18,no.4, pp. 301-307, 1996.
[0049] [25]G.HausandE.Pollastri,"Anaudiofrontendforqueryby-humming systems''，inProc.ofthe2ndInternationalSymposiumonMusicInformation RetrievalISMIR，pp. 65-72, 2001.
[0050] [26]L.P.Clarisseetal.^AnAuditoryModelBasedTranscriberofSinging Sequences"，inProc.ofthe3rdInternationalConferenceonMusicInformation RetrievalISMIR,pp. 116-123, 2002.
[0051] [27]Τ·DeMulderetal."Recentimprovementsofanauditorymodel basedfront-endforthetranscriptionvocalqueries''，inProc.oftheIEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing,(ICASSP 2004)，Montreal，Quebec，Canada，May17-21，Vol.IV，pp. 257-260, 2004.
[0052] [28]P.Kumaretal·"SungNoteSegmentationforaQuery-by-Humming System''，InIntJointConferencesonArtificialIntelligence(IJCAI), 2007.
[0053] [29]P.M.Brossier."Automaticannotationofmusicalaudiofor interactiveapplications.，"Ph.D.dissertation，CentreforDigitalMusic,Queen Mary,Univ.ofLondon,London,U.K. , 2006.

【发明内容】

[0054] 本发明的目的在于提供一种哼唱旋律到MIDI旋律的转换方法。
[0055] 本发明包括以下步骤：
[0056] 1)估算信号帧的基频：采用倍音分析与变采样技术相结合，为每个信号帧估算指定精度范围内的音高；
[0057] 2)规范哼唱音符的听觉标准：哼唱音符是哼唱旋律的基本组成单位，将一段实际的哼唱片段视为由一个听觉可辨识的听觉成分序列所组成，每个听觉成分在听觉上可呈现为音高波动相对稳定的稳定音，或为具有较大音高上下波动性的颤音，或为音高沿单一方向变动的滑音，或为以气流开始的气音，以及换气或停顿等等不同的声学特性；在听觉成分序列上判定某一听觉成分子串能否可认定为个哼唱首符，并由此规??各种哼唱首符的听觉标准；
[0058] 3)估算哼唱音符切割与音符音高：通过构造ΑΤΝ网络，在一个听觉成分序列上识别音高波动范围在半音甚至全音音程内变化且由不同听觉成分构成的哼唱音符从而实现哼唱音符的自动切割，同时通过观察与比较由听觉确认的各种不同类型哼唱音符中各种听觉成分信号帧基频与实际音高听觉的关系，建立各种哼唱音符的音高估算模型，估算音符音高；
[0059] 4)估算基于哼唱旋律调性分析的期望哼唱旋律：先通过相邻音程分析推导第j+1 个哼唱音符的音级，当相邻音程最小取整误差达到某个阈值（0.75)时，使用间邻音程分析并优先匹配第一候选音级，同时允许匹配至多一个非调性音级，即算法所输出的音级序列中允许出现至多一种非调性音级，该非调性音级理解为实际哼唱的一个走音音符，或为在自然调式体系下的一个临时变化音级；算法在使用第j-Ι个哼唱音符的音级通过间邻音程分析推导第j+Ι个哼唱音符的音级时，要求第j-Ι个哼唱音符的音级必须是通过唯一的第1 候选推导出来的结果，并以此作为使用间邻音程分析的条件；任意二个相邻音符或间邻音符的估算音程不一定正好是整数，每当算法根据二个相邻音符或间邻音符从当前音符的音级推算下一个音符音级时，产生取整误差，算法会累积这些取整误差，并按累积的取整误差由小到大的次序排列输出解的优劣，累积取整误差最小的解为最优解；
[0060] 5)建立系统性能评估方法：任意实际哼唱均具有二种旋律，即实际哼唱旋律与期望哼唱旋律，将所述期望哼唱旋律作为哼唱旋律的正确旋律，通过比较音符"绝对音高"及 "调性音级"的主观听觉判定与系统客观估算结果的差异，评估系统识谱能力。
[0061] 本发明的优点在于：
[0062] 1)提出一种可以为输入哼唱信号估算"实际哼唱旋律"与"期望哼唱旋律"的哼唱旋律自动识别（SingingTranscription)技术。任一哼唱片段都可以有二种旋律。其一称为实际哼唱旋律，另一个称为期望哼唱旋律。二者区别在于前者以每个哼唱音符的绝对音高作为哼唱旋律音符的音高，而后者则以调性音级（scalestep)作为音符的音高。申请人把期望哼唱旋律视为哼唱片段的正确旋律，提出一种基于哼唱旋律调性分析的哼唱音符分析法并以此设计与实现了一个哼唱旋律自动分析系统以及系统的性能评估方法。通过比较 "实际

完整全部详细技术资料下载

当前第2页1 2 3 4 5