声音合成方法、声音合成装置及程序与流程

文档序号:21484953发布日期:2020-07-14 17:10阅读:253来源:国知局
声音合成方法、声音合成装置及程序与流程

本发明涉及对声音进行合成的技术。



背景技术:

以往提出了对任意音位的声音进行合成的各种声音合成技术。例如在专利文献1中公开了下述技术,即,利用神经网络合成歌唱声音。在非专利文献1的技术中,通过将针对乐曲的每个音符对音高、音位和发音期间进行指定的控制数据输入至神经网络,从而生成谐波成分的频谱的时间序列和非谐波成分的频谱的时间序列。通过对谐波成分的频谱和非谐波成分的频谱进行合成,从而生成表示歌唱声音的波形的时间区域的声音信号。

非专利文献1:merlijnblaauw,jordibonada,"anewralparatetricsingingsynthesizer,"arxiv,2017.4.12



技术实现要素:

在非专利文献1的技术中,虽然能够对于歌唱声音的谐波成分而生成在听觉上自然的声音,但存在下述问题,即,难以对于气息成分或者摩擦音等非谐波成分而生成在听觉上自然的声音。考虑以上的情况,本发明的目的在于,对于谐波成分及非谐波成分这两者而生成与现实的人类声音接近的自然的声音。

为了解决以上的课题,本发明的优选的方式所涉及的声音合成方法,通过第1训练好的模型而生成与包含音位的指定在内的控制数据相对应的谐波成分的频谱的时间序列,通过第2训练好的模型而生成与所述控制数据相对应的非谐波成分的波形信号,根据所述频谱的时间序列和所述波形信号而生成包含所述谐波成分和所述非谐波成分在内的声音信号。

本发明的优选的方式所涉及的声音合成装置,其具有:第1训练好的模型,其生成与包含音位的指定在内的控制数据相对应的谐波成分的频谱的时间序列;第2训练好的模型,其生成与所述控制数据相对应的非谐波成分的波形信号;以及合成处理部,其根据所述频谱的时间序列和所述波形信号而生成包含所述谐波成分和所述非谐波成分在内的声音信号。

本发明的优选的方式所涉及的程序,其使计算机执行下述处理:通过第1训练好的模型生成与包含音位的指定在内的控制数据相对应的谐波成分的频谱的时间序列的处理;通过第2训练好的模型生成与所述控制数据相对应的非谐波成分的波形信号的处理;以及合成处理部,其根据所述频谱的时间序列和所述波形信号而生成包含所述谐波成分和所述非谐波成分在内的声音信号的处理。

附图说明

图1是表示本发明的第1实施方式所涉及的声音合成装置的结构的框图。

图2是表示声音合成装置的功能性的结构的框图。

图3是控制数据x的示意图。

图4是声音合成处理的流程图。

图5是第2实施方式中的声音合成装置的动作的说明图。

图6是表示第3实施方式所涉及的训练好的模型生成装置的结构的框图。

图7是表示训练好的模型生成装置的功能性的结构的框图。

图8是机器学习处理的流程图。

具体实施方式

<第1实施方式>

图1是例示本发明的第1实施方式所涉及的声音合成装置100的结构的框图。第1实施方式的声音合成装置100是对由歌唱者虚拟地歌唱乐曲所发出的声音(以下称为“合成声音”)进行合成的歌唱合成装置,如图1例示那样,声音合成装置100通过具有控制装置11、存储装置12和操作装置13的计算机系统实现。例如移动电话或者智能手机等移动式的信息终端、或者个人计算机等移动式或者固定式的信息终端可优选用作声音合成装置100。

控制装置11是例如cpu(centralprocessingunit)等处理电路,集中地对构成声音合成装置100的各要素进行控制。第1实施方式的控制装置11生成表示合成声音的波形的时间区域的声音信号v。放音装置13(例如扬声器或者耳机)对由控制装置11生成的声音信号v所表示的声音进行播放。此外,关于将由控制装置11生成的声音信号v从数字变换为模拟的d/a变换器和对声音信号v进行放大的放大器,为了方便起见而省略了图示。另外,在图1中例示出将放音装置13搭载于声音合成装置100的结构,但也可以将与声音合成装置100分体的放音装置13通过有线或者无线与声音合成装置100连接。

存储装置12由例如磁记录介质或者半导体记录介质等公知的记录介质、或者多种记录介质的组合构成,对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。此外,也可以准备与声音合成装置100分体的存储装置12(例如云储存器),经由移动体通信网或者互联网等通信网而由控制装置11执行相对于存储装置12的写入及读出。即,也可以从声音合成装置100省略存储装置12。

存储装置12对表示乐曲的内容的乐曲数据q进行存储。第1实施方式的乐曲数据q关于构成乐曲的多个音符而分别指定音高、音位和发音期间。音高例如是midi(musicalinstrumentdigitalinterface)的音符编号。音位是通过合成声音进行发音的发音内容(即乐曲的歌词)。发音期间是乐曲的各音符进行发音的期间,例如通过音符的开始点和结束点或者持续长度进行指定。另外,第1实施方式的乐曲数据q对合成声音的音乐表现进行指定。例如发音强度(例如强音)、发音强度的增减(例如渐强)、歌唱表现(例如颤音)或者音质(例如声音嘶哑)等音乐表现由乐曲数据q进行指定。

图2是例示控制装置11的功能性的结构的框图。如图2例示那样,控制装置11通过执行在存储装置12中存储的程序,从而实现用于生成时间区域的声音信号v的多个功能(第1训练好的模型m1、第2训练好的模型m2及合成处理部50),该时间区域的声音信号v表示特定的歌唱者(以下称为“特定歌唱者”)的合成声音的波形。此外,也可以通过多个装置的集合(即系统)而实现控制装置11的功能,也可以将控制装置11的功能的一部分或者全部通过专用的电子电路(例如信号处理电路)实现。

第1训练好的模型m1是生成特定歌唱者的合成声音中的谐波成分的频谱(以下称为“谐波谱”)h的时间序列的统计模型,由在存储装置12中存储的多个系数k1进行规定。谐波成分是包含由基本频率的基音成分和泛音频率的多个泛音成分构成的谐波构造(泛音构造)的周期成分。第1训练好的模型m1按照每个第1单位期间(即时间帧)而依次生成谐波谱h。例如以5毫秒为单位而生成谐波谱h。

具体地说,将与乐曲数据q相对应的谐波谱h依次输出的神经网络(典型的是深度神经网络)优选作为第1训练好的模型m1。具体地说,利用dilatedconvolution的方法和residualnetwork(resnet)的方法而将谐波谱的感受野(receptivefield)扩展的卷积神经网络(cnn)优选用作第1训练好的模型m1。第1实施方式的第1训练好的模型m1针对每个第1单位期间(时间帧),将从乐曲数据q进行确定的控制数据x和紧跟其前的多个第1单位期间范围的谐波谱h作为输入,输出当前的第1单位期间中的谐波谱h。控制数据x是对合成声音的内容进行指定的数据,针对时间轴上的多个时刻(以下称为“控制时刻”)而分别生成。任意的1个控制数据x如图3例示那样,包含音位数据x1、音高数据x2、时间数据x3和表现数据x4而构成。

音位数据x1是与合成声音的音位相关的数据。具体地说,音位数据x1例如对与控制时刻相对应的音素的音位、紧跟该音素之前的音素的音位、以及紧跟其后的音素的音位进行指定。音高数据x2是与合成声音的音高相关的数据。具体地说,音高数据x2例如对与控制时刻相对应的音符的音高、紧跟该音符之前的音符的音高、以及紧跟其后的音符的音高进行指定。时间数据x3例如对音素内的控制时刻的位置进行指定。表现数据x4是控制时刻的音乐表现。此外,也可以利用仅对与控制时刻相对应的1个音素的音位进行指定的音位数据x1、或者仅对与控制时刻相对应的1个音符的音高进行指定的音高数据x2。

特定歌唱者的第1训练好的模型m1是通过利用了使控制数据x和谐波谱h相对应的特定歌唱者的多个教师数据l1的机器学习(深层学习),对控制数据x和谐波谱h的时间性的变化之间的关系进行学习(训练)得到的训练好的模型。即,对第1训练好的模型m1进行规定的多个系数k1通过利用了多个教师数据l1的机器学习进行设定而存储于存储装置22。因此,基于从特定歌唱者的多个教师数据l1提取的倾向(控制数据x和谐波谱h之间的关系),从特定歌唱者的第1训练好的模型m1输出针对未知的控制数据x妥当的谐波谱h的时间序列。此外,关于利用了多个教师数据l1的机器学习在后面记述。如根据以上的说明所理解那样,关于将由音位数据x1指定的音位以由音高数据x2指定的音高及由表现数据x4指定的表现而由特定歌唱者虚拟地发音出的合成声音的谐波成分,生成谐波谱h的时间序列。此外,关于生成谐波谱h的神经网络例如在非专利文献1中进行了记载。

第2训练好的模型m2是生成时间区域的声响信号(以下称为“非谐波信号”)a2的统计模型,该时间区域的声响信号表示特定歌唱者的合成声音中的非谐波成分的波形,通过在存储装置12中存储的多个系数k2规定第2训练好的模型m2。非谐波成分是除了谐波成分以外的非周期成分,是将声音混浊及声音嘶哑等音质的听觉上的印象赋予特征的声响成分。非谐波信号a2通过非谐波成分的时间区域中的波形的样本(即表示针对每个第2单位期间的信号强度的样本)的时间序列进行表现。非谐波信号a2是非谐波成分的波形信号的一个例子。第2训练好的模型m2按照每个第2单位期间(即采样周期)而依次生成非谐波信号a2的各样本。第2单位期间与第1单位期间相比而较短。例如以每0.05毫秒为单位而生成非谐波信号a2的各样本。

具体地说,输出与控制数据x相对应的非谐波信号a2的各样本的神经网络(典型的是深度神经网络)优选作为第2训练好的模型m2。具体地说,利用dilatedconvolution的方法和residualnetwork(resnet)的方法而将非谐波信号a2的感受野扩展的卷积神经网络(cnn)优选用作第2训练好的模型m2。第1实施方式的第2训练好的模型m2针对每个第2单位期间(采样周期),将与乐曲数据q相对应的前述的控制数据x、与第1训练好的模型m1的处理结果相对应的辅助数据y和紧随其前的多个第2单位期间范围的非谐波信号a2的样本作为输入,输出当前的第2单位期间中的非谐波信号a2的样本的时间序列。此外,关于生成表示时间区域的波形的各样本的神经网络,例如在"wavenet:agenerativemodelforrawaudio,"oordet.al.,arxiv2016/09/19中已公开。

辅助数据y与控制数据x同样地是针对每个控制时刻而生成的。第1实施方式的辅助数据y是包含由第1训练好的模型m1与谐波谱h相关地输出的基本频率(间距)y1和基于谐波谱h对浊音/清音(voiced/unvoiced)进行判定得到的结果(以下称为“浊音性判定结果”)y2而构成的。浊音性判定结果y2是对在谐波谱h中是否包含明确的谐波构造(是否能够根据谐波谱h明确地对有效的基本频率y1进行确定)进行判定得到的结果。

特定歌唱者的第2训练好的模型m2是通过利用了使控制数据x及辅助数据y和非谐波信号a2(具体地说是非谐波信号a2的样本的时间序列)相对应的特定歌唱者的多个教师数据l2的机器学习(深层学习),对控制数据x及辅助数据y和非谐波信号a2的时间性的变化之间的关系进行学习(训练)得到的训练好的模型。即,对第2训练好的模型m2进行规定的多个系数k2通过利用了多个教师数据l2的机器学习进行设定而存储于存储装置12。因此,基于从多个教师数据l2提取的倾向(控制数据x及辅助数据y和非谐波信号a2之间的关系),从第2训练好的模型m2输出针对未知的控制数据x及辅助数据y而妥当的非谐波信号a2的各样本的时间序列。此外,关于利用了多个教师数据l2的机器学习在后面记述。如根据以上的说明所理解那样,关于将由音位数据x1指定的音位以由音高数据x2指定的音高及由表现数据x4指定的表现而由特定歌唱者虚拟地发音出的合成声音的非谐波成分,生成非谐波信号a2。

在第1实施方式中,谐波谱h的基本频率y1输入至第2训练好的模型m2,因此非谐波信号a2的样本与基本频率y1联动地变化。例如,即使在控制数据x(及浊音性判定结果y2)共通的情况下,如果基本频率y1存在差异,则也会生成不同的声响特性的非谐波信号a2。另外,浊音性判定结果y2输入至第2训练好的模型m2,因此非谐波信号a2的样本与浊音性判定结果y2联动地变化。例如,即使在控制数据x(及基本频率y1)共通的情况下,如果浊音性判定结果y2存在差异,则也可以生成不同的声响特性的非谐波信号a2。此外,第2训练好的模型m2也可以是仅将基本频率y1及浊音性判定结果y2的任一者作为输入,不输入另一者的模型。

图2的合成处理部50根据由第1训练好的模型m1生成的谐波谱h的时间序列和由第2训练好的模型m2生成的非谐波信号a2而生成包含谐波成分和非谐波成分在内的声音信号v。第1实施方式的合成处理部50如图2例示那样,包含波形合成部51和混合处理部52而构成。

波形合成部51针对每个第2单位期间(采样周期),根据由第1训练好的模型m1生成的谐波谱h的时间序列而生成时间区域的声响信号(以下称为“谐波信号”)a1的样本。在谐波信号a1的生成时例如任意地采用公知的声码器技术。混合处理部52针对每个第2单位期间,通过将由波形合成部51生成的谐波信号a1的样本和由第2训练好的模型m2生成的非谐波信号a2的样本进行混合,从而生成时间区域的声音信号v的样本。例如将谐波信号a1和非谐波信号a2相加的加法器优选作为混合处理部52。可以与例如来自利用者的指示相应地对谐波信号a1和非谐波信号a2的混合比进行变更。如根据以上的说明所理解那样,生成表示合成声音的声音信号v,该合成声音是特定歌唱者虚拟地歌唱由乐曲数据q指定的乐曲的声音。由合成处理部50(混合处理部52)生成的声音信号v供给至放音装置13而作为声波进行播放。

图4是由控制装置11生成声音信号v的处理(以下称为“声音合成处理”)的流程图。声音合成处理例如以来自声音合成装置100的利用者的指示为契机而开始,针对每个规定的时间而反复进行。

如果开始声音合成处理,则控制装置11通过特定歌唱者的第1训练好的模型m1而生成与控制数据x相对应的谐波谱h的时间序列(sa1)。另外,控制装置11通过特定歌唱者的第2训练好的模型m2而生成与控制数据x相对应的时间区域的非谐波信号a2(sa2)。此外,可以将通过第1训练好的模型m1进行的谐波谱h的生成(sa1)和通过第2训练好的模型m2进行的非谐波信号a2的生成的顺序逆转。

波形合成部51根据由第1训练好的模型m1生成的谐波谱h的时间序列而生成时间区域的谐波信号a1(sa3)。此外,可以在谐波谱h的生成(sa1)和非谐波信号a2的生成(sa2)之间执行谐波信号a1的生成(sa3)。混合处理部52通过将由波形合成部51生成的谐波信号a1和由第2训练好的模型m2生成的非谐波信号a2进行混合,从而生成时间区域的声音信号v(sa4)。

如以上说明所述,在第1实施方式中,通过第1训练好的模型m1生成谐波谱h的时间序列,另一方面,关于非谐波成分,通过第2训练好的模型m2生成时间区域的非谐波信号a2。因此,与关于谐波成分及非谐波成分这两者而通过神经网络生成频谱的非专利文献1的技术相比较,能够关于谐波成分及非谐波成分这两者生成在听觉上自然的声音。

在第1实施方式中,谐波谱h是针对每个第1单位期间(时间帧)从第1训练好的模型m1输出的,另一方面,非谐波信号a2的各样本是针对每个比第1单位期间短的第2单位期间(采样周期)而从第2训练好的模型m2输出的。因此,能够以时间区域高音质地生成以频率区域难以再现的非谐波信号a2。另外,针对每个相对短的第2单位期间以时间区域生成的仅是合成声音的非谐波信号a2,因此与将合成声音的整体生成的wavenet等神经网络相比较所需的学习量及系数充分少。另一方面,关于合成声音的谐波信号a1,针对每个第1单位期间以频率区域高效地生成。如上所述,根据第1实施方式,能够高效地生成高音质的合成声音。

在第1实施方式中,与由第1训练好的模型m1输出的谐波谱h相对应的基本频率y1输入至第2训练好的模型m2,因此具有下述优点,即,能够生成适当地追随谐波成分的基本频率y1的变化的非谐波成分。另外,将判定谐波信号a1的浊音/清音而得到的结果(浊音性判定结果y2)输入至第2训练好的模型m2,因此具有下述优点,即,能够生成适当地追随合成声音的浊音/清音的变化的非谐波成分。

<第2实施方式>

对本发明的第2实施方式进行说明。此外,在以下例示的各方式中对功能或者作用与第1实施方式相同的要素,沿用在第1实施方式的说明中使用的标号而适当地省略各自的详细说明。第2实施方式是着眼于在合成声音的发音区间中,非谐波成分的等级相对地高的区间较短这一倾向,将声音合成的运算效率进一步提高的方式。

第2实施方式的声音合成装置100是与第1实施方式相同的结构,但动作与第1实施方式存在差异。图5是第2实施方式中的声音合成装置100的动作的说明图。在图5中图示出与各音符的音位相对应的音素。如图5例示那样,第1训练好的模型m1与合成声音的音素的种类(浊音/清音)无关而继续地生成谐波谱h的时间序列。

在图5中在时间轴上图示出浊音区间zv和清音区间zu。浊音区间zv是合成声音成为浊音的区间,清音区间zu是合成声音成为清音的区间。包含清音的音素在内的区间及无音的区间被划定为清音区间zu。存在下述倾向,即,在清音区间zu中非谐波成分在听觉上变得显著,在浊音区间zv中非谐波成分相对于谐波成分而相对地减小。考虑以上的倾向,第2实施方式的第2训练好的模型m2如图5例示那样,在清音区间zu中执行非谐波信号a2的生成,另一方面,在浊音区间zv中停止非谐波信号a2的生成。

如根据以上的说明所理解那样,在清音区间zu中生成包含谐波信号a1和非谐波信号a2在内的声音信号v。因此,高音质的清音音作为合成声音而生成。另一方面,在浊音区间zv中停止非谐波信号a2的生成,因此生成不包含非谐波信号a2的声音信号v。即,在浊音区间zv中不生成非谐波成分。但是,在浊音区间zv中在听觉上显著地察觉到谐波成分,因此收听者难以察觉非谐波成分的缺失。而且,在浊音区间zv中停止通过第2训练好的模型m2进行的非谐波信号a2的生成,因此根据第2实施方式,与在浊音区间zv及清音区间zu这两者中生成非谐波信号a2的第1实施方式相比较,具有将声音信号v的生成所需的运算量削减这一优点。

<第3实施方式>

以下例示的第3实施方式是生成在第1实施方式或者第2实施方式的声音合成装置100中利用的第1训练好的模型m1及第2训练好的模型m2的训练好的模型生成装置200。图6是例示第3实施方式中的训练好的模型生成装置200的结构的框图。

第3实施方式的训练好的模型生成装置200是通过机器学习而生成对第1训练好的模型m1进行规定的多个系数k1和对第2训练好的模型m2进行规定的多个系数k2的信息处理装置,如图6例示那样,通过具有控制装置21和存储装置22的计算机系统而实现。例如个人计算机等移动式或者固定式的信息终端可优选用作信息处理装置。

控制装置21例如是cpu等处理电路。存储装置22由例如磁记录介质或者半导体记录介质等公知的记录介质、或者多种记录介质的组合构成,对由控制装置21执行的程序和由控制装置21使用的各种数据进行存储。此外,也可以准备与声音合成装置100分体的存储装置22,经由移动体通信网或者互联网等通信网而由控制装置21执行对存储装置22的写入及读出。即,也可以从训练好的模型生成装置200省略存储装置22。

第3实施方式的存储装置22对与不同的乐曲相对应的多个乐曲数据q、和表示歌唱各乐曲的声音(以下称为“参照声音”)的波形的多个声音信号(以下称为“参照信号”)r进行存储。各参照信号r由多个样本(即表示针对每个第2单位期间的信号强度的样本)的时间序列构成,是表示包含谐波成分和非谐波成分在内的参照声音的波形的时间区域的信号。通过事先对由许多歌唱者歌唱的乐曲的声音进行收录,从而生成多个参照信号r而存储于存储装置22。此外,也可以关于在存储装置22中存储的多个参照信号r将相位变换为最小相位。通过使多个参照信号r的相位共通,从而谐波谱h的多样性降低,因此与在多个参照信号r之间相位存在差异的情况相比较,具有通过第1学习处理部64进行的机器学习高效化这一优点。此外,例示出利用多个乐曲数据q而使得能够合成与多种状况相对应的声音的情况,但只要能够收罗1个乐曲数据q所需的全部状况,则也可以仅利用1个乐曲数据q。

图7是例示控制装置21的功能性的结构的框图。如图7例示那样,控制装置21通过执行在存储装置22中存储的程序,从而实现用于生成第1训练好的模型m1及第2训练好的模型m2的多个功能(频率解析部61、波形合成部62、成分提取部63、第1学习处理部64及第2学习处理部65)。此外,也可以通过多个装置的集合(即系统)而实现控制装置21的功能,也可以将控制装置21的功能的一部分或者全部由专用的电子电路(例如信号处理电路)实现。

频率解析部61关于与特定歌唱者的多个乐曲数据q相对应的多个参照信号r,分别对与各乐曲数据q相对应的谐波谱(即参照声音中的谐波成分的频谱)h的时间序列进行计算。在谐波谱h的计算时例如任意地采用离散傅立叶变换等公知的频率解析。

波形合成部62根据由频率解析部61计算出的谐波谱h的时间序列而生成时间区域的声响信号(以下称为“谐波信号”)a1。谐波信号a1是由参照信号r表示的参照声音中的表示谐波成分的波形的时间区域的信号。成分提取部63通过从该参照信号r减去该谐波信号a1,从而生成参照声音中的表示非谐波成分的波形的时间区域的非谐波信号a2。

如图7例示那样,将包含根据各乐曲数据q进行确定的控制数据x和由频率解析部61针对该乐曲数据q计算出的谐波谱h的时间序列在内的多个教师数据l1供给至第1学习处理部64。各教师数据l1是1个控制数据x和与该控制数据x相对应的参照声音的谐波谱h的时间序列的组合。第1学习处理部64通过利用了多个教师数据l1的机器学习,生成特定歌唱者的第1训练好的模型m1。具体地说,第1学习处理部64关于多个教师数据l1,分别通过机器学习对规定第1训练好的模型m1的多个系数k1进行设定,该机器学习是将在输入了该教师数据l1的控制数据x和过去的第1单位期间的谐波谱h时由第1训练好的模型m1输出的谐波谱h、与该教师数据l1的当前的第1单位期间中的谐波谱h(即正解)之间的误差最小化的机器学习。

如图7例示那样,将包含根据各乐曲数据q进行确定的控制数据x、与第1训练好的模型m1的处理结果相对应的辅助数据y以及由成分提取部63关于该乐曲数据q而生成的非谐波信号a2在内的特定歌唱者的多个教师数据l2,供给至第2学习处理部65。各教师数据l2是1个控制数据x、表示第1训练好的模型m1相对于该控制数据x的处理结果的辅助数据y和与该控制数据x相对应的参照声音的非谐波信号a2的组合。第2学习处理部65通过利用了多个教师数据l2的机器学习而生成特定歌唱者的第2训练好的模型m2。辅助数据y与第1实施方式同样地,例如包含参照声音的基本频率y1和浊音性判定结果y2。具体地说,第2学习处理部65通过机器学习对规定第2训练好的模型m2的多个系数k2进行设定,该机器学习是将在输入了教师数据l2的控制数据x、辅助数据y及过去的第2单位期间的非谐波信号a2时由第2训练好的模型m2输出的非谐波信号a2、与该教师数据l2所包含的当前的第2单位期间中的非谐波信号a2(即正解)之间的误差最小化的机器学习。

由第1学习处理部64生成的多个系数k1(第1训练好的模型m1)和由第2学习处理部65生成的多个系数k2(第2训练好的模型m2)存储于存储装置22。在存储装置22中存储的多个系数k1和多个系数k2从训练好的模型生成装置200转发至声音合成装置100而存储于存储装置12。即,由训练好的模型生成装置200生成的特定歌唱者的第1训练好的模型m1(多个系数k1)和第2训练好的模型m2(多个系数k2)利用于通过声音合成装置100进行的声音信号v的生成。

图8是由控制装置21生成特定歌唱者的第1训练好的模型m1及第2训练好的模型m2的处理(以下称为“机器学习处理”)的流程图。机器学习处理例如以来自训练好的模型生成装置200的利用者的指示为契机而开始,以规定的时间为单位而反复进行。

如果开始机器学习处理,则频率解析部61关于与多个乐曲数据q相对应的特定歌唱者的多个参照信号r,分别对谐波谱h的时间序列进行计算(sb1)。另外,波形合成部62根据各参照信号r的谐波谱h的时间序列而生成时间区域的谐波信号a1(sb2),成分提取部63通过从该参照信号r减去该谐波信号a1,从而生成该参照信号r的时间区域的非谐波信号a2(sb3)。

第1学习处理部64通过利用了包含各乐曲数据q的控制数据x和谐波谱h的时间序列在内的多个教师数据l1的、与多个乐曲数据q相关的机器学习,对第1训练好的模型m1的多个系数k1进行设定(sb4)。另外,第2学习处理部65通过利用了包含各乐曲数据q的控制数据x、辅助数据y和非谐波信号a2在内的多个教师数据l2的、与多个乐曲数据q相关的机器学习,对第2训练好的模型m2的多个系数k2进行设定(sb5)。

<变形例>

以下例示对以上例示出的各方式附加的具体的变形方式。可以在彼此不矛盾的范围将从以下的例示任意地选择出的大于或等于2个方式适当地合并。

(1)在前述的各方式中,将谐波谱h的时间序列变换为时间区域的谐波信号a1而与非谐波信号a2进行了混合,但将谐波成分和非谐波成分以时间区域进行混合的结构并不是必须的。例如,也可以将由第2训练好的模型m2生成的非谐波信号a2变换为频谱(以下称为“非谐波谱”),在将谐波谱h和非谐波谱进行混合(例如相加)后变换为时间区域的声音信号v。如根据以上的说明所理解那样,合成处理部50作为根据谐波谱h的时间序列和非谐波信号a2生成包含谐波成分和非谐波成分在内的声音信号v的要素而被统括地表现,与至生成声音信号v为止的各处理以频率区域及时间区域中的哪个区域执行无关。

(2)在前述的各方式中,将第1训练好的模型m1的输出和第2训练好的模型m2的输出之间的同步作为主要的目的,将与第1训练好的模型m1的处理结果相对应的辅助数据y输入至第2训练好的模型m2,但例如通过将用于实现两者间的同步的数据包含于控制数据x,也可以省略由第2训练好的模型m2利用辅助数据y的结构。另外,也可以仅将谐波成分的基本频率y1及浊音性判定结果y2的一者与控制数据x一起输入至第2训练好的模型m2。

(3)在第2实施方式中,在浊音区间zv中停止了通过第2训练好的模型m2进行的非谐波信号a2的生成,但在浊音区间zv和清音区间zu对第2训练好的模型m的动作进行切换的结构并不限定于以上的例示。例如,也可以使在浊音区间zv生成的非谐波信号a2的各样本的位数(bit-length)少于在清音区间zu生成的非谐波信号a2的各样本的位数。即,可以在浊音区间zv中与清音区间zu相比较而使非谐波信号a2的样本的分辨率降低。

(4)在前述的各方式中,将由特定歌唱者虚拟地歌唱的合成声音进行了合成,但也可以将由多个歌唱者的任意者歌唱的合成声音选择性地合成。具体地说,关于多个歌唱者,分别将第1训练好的模型m1和第2训练好的模型m2存储于存储装置12。控制装置11利用关于多个歌唱者中的例如由利用者选择出的歌唱者而在存储装置12中存储的第1训练好的模型m1和第2训练好的模型m2,通过与前述的各方式相同的方法而生成声音信号v。即,生成表示由利用者从多个候选中选择出的歌唱者虚拟地歌唱的合成声音的声音信号v。

(5)也可以将在第1实施方式及第2实施方式中例示出的声音合成装置100的功能和在第3实施方式中例示出的训练好的模型生成装置200的功能通过单体的装置而实现。

(6)前述的各方式所涉及的声音合成装置100及训练好的模型生成装置200如各方式中的例示那样,通过计算机(具体地说是控制装置11或者控制装置21)和程序的协同动作而实现。前述的各方式所涉及的程序能够以收容于计算机可读取的记录介质的方式被提供而安装于计算机。记录介质例如是非易失性(non-transitory)的记录介质,优选例为cd-rom等光学式记录介质(光盘),但包含半导体记录介质或者磁记录介质等公知的任意形式的记录介质。此外,非易失性的记录介质包含除了暂时性的传输信号(transitory,propagatingsignal)以外的任意的记录介质,并不是将易失性的记录介质排除在外。另外,也能够通过经由通信网的传送的方式将程序传送至计算机。另外,程序的执行主体并不限定于cpu,也可以由tensorprocessingunit及neuralengine等神经网络用的处理器或者信号处理用的dsp(digitalsignalprocessor)执行程序。另外,也可以是从以上的例示选择出的多种主体协同动作而执行程序。

(7)训练好的模型(第1训练好的模型m1及第2训练好的模型m2)是通过控制装置(计算机的例示)实现的统计模型(例如神经网络),生成与输入a相对应的输出b。具体地说,训练好的模型是通过使控制装置执行根据输入a而确定输出b的运算的程序(例如构成人工智能软件的程序模块)和应用于该运算的多个系数的组合而实现的。训练好的模型的多个系数通过利用了使输入a和输出b相对应的多个教师数据的事先的机器学习(深层学习)而得到优化。即,训练好的模型是对输入a和输出b的关系进行学习(训练)得到的统计模型。控制装置通过针对未知的输入a而执行应用了训练好的多个系数和规定的响应函数的运算,从而基于从多个教师数据提取的倾向(输入a和输出b之间的关系)而针对输入a生成妥当的输出b。

(8)根据以上例示出的方式,例如可掌握以下的结构。

本发明的优选的方式(第1方式)所涉及的声音合成方法,其是通过计算机实现的方法,通过第1训练好的模型而生成与包含音位的指定在内的控制数据相对应的谐波成分的频谱的时间序列,通过第2训练好的模型而生成与所述控制数据相对应的非谐波成分的波形信号,根据所述频谱的时间序列和所述波形信号而生成包含所述谐波成分和所述非谐波成分在内的声音信号。在以上的方式中,通过第1训练好的模型生成谐波成分的频谱的时间序列,另一方面,关于非谐波成分,通过第2训练好的模型生成时间区域的波形信号。因此,与关于谐波成分及非谐波成分这两者通过神经网络而生成频谱的非专利文献1的技术相比较,能够关于谐波成分及非谐波成分这两者而生成在听觉上自然的声音。

在第1方式的优选例(第2方式)中,所述第1训练好的模型是针对每个第1单位期间而输出所述谐波成分的频谱的神经网络,所述第2训练好的模型是针对每个第2单位期间输出所述非谐波成分的时间区域的样本的神经网络,该第2单位期间比所述第1单位期间短。在以上的方式中,谐波成分的频谱通过第1训练好的模型针对每个第1单位期间进行输出,另一方面,非谐波成分的样本通过第2训练好的模型针对每个比第1单位期间短的第2单位期间进行输出。因此,与以与第1单位期间同等或其以上的时间为单位生成非谐波成分的样本的结构相比较,具有能够生成高音质的非谐波成分这一优点。

在第1方式或者第2方式的优选例(第3方式)中,所述第1训练好的模型基于所述控制数据和该第1训练好的模型在过去生成的所述谐波成分的频谱的时间序列,生成时间轴上的各时刻的所述谐波成分的频谱。另外,在第1方式至第3方式的任意方式的优选例(第4方式)中,所述第2训练好的模型基于所述控制数据和该第2训练好的模型在过去生成的所述非谐波成分的多个样本,生成时间轴上的各时刻的所述非谐波成分的时间区域的样本。

在第1方式至第4方式的优选例(第5方式)中,向所述第2训练好的模型输入与由所述第1训练好的模型输出的频谱相对应的基本频率。在以上的方式中,与由第1训练好的模型输出的谐波成分的频谱相对应的基本频率输入至第2训练好的模型。因此,具有能够生成适当地追随谐波成分的基本频率的变化的非谐波成分这一优点。

在第1方式至第5方式的任一方式的优选例(第6方式)中,根据由所述第1训练好的模型输出的多个频谱的时间序列对浊音/清音进行判定,向所述第2训练好的模型输入所述浊音/清音的判定结果。在以上的方式中,将对谐波成分的浊音/清音进行判定得到的结果输入至第2训练好的模型,因此具有能够生成适当地追随浊音/清音的变化的非谐波成分这一优点。

本发明的优选的方式(第6方式)所涉及的声音合成装置,其具有:第1训练好的模型,其生成与包含音位的指定在内的控制数据相对应的谐波成分的频谱的时间序列;第2训练好的模型,其生成与所述控制数据相对应的非谐波成分的波形信号;以及合成处理部,其根据所述频谱的时间序列和所述波形信号而生成包含所述谐波成分和所述非谐波成分在内的声音信号。在以上的方式中,通过第1训练好的模型生成谐波成分的频谱的时间序列,另一方面,关于非谐波成分,通过第2训练好的模型生成时间区域的波形信号。因此,与关于谐波成分及非谐波成分这两者通过神经网络而生成频谱的非专利文献1的技术相比较,能够关于谐波成分及非谐波成分这两者而生成在听觉上自然的声音。

本发明的优选的方式(第7方式)所涉及的程序,其使计算机作为下述部分起作用:第1训练好的模型,其生成与包含音位的指定在内的控制数据相对应的谐波成分的频谱的时间序列;第2训练好的模型,其生成与所述控制数据相对应的非谐波成分的波形信号;以及合成处理部,其根据所述频谱的时间序列和所述波形信号而生成包含所述谐波成分和所述非谐波成分在内的声音信号。在以上的方式中,通过第1训练好的模型生成谐波成分的频谱的时间序列,另一方面,关于非谐波成分,通过第2训练好的模型生成时间区域的波形信号。因此,与关于谐波成分及非谐波成分这两者通过神经网络而生成频谱的非专利文献1的技术相比较,能够关于谐波成分及非谐波成分这两者而生成在听觉上自然的声音。

标号的说明

100…声音合成装置,200…训练好的模型生成装置,11、21…控制装置,12、22…存储装置,13…放音装置,50…合成处理部,51…波形合成部,52…混合处理部,61…频率解析部,62…波形合成部,63…成分提取部,64…第1学习处理部,65…第2学习处理部,m1…第1训练好的模型,m2…第2训练好的模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1