声音合成装置及声音合成方法_2

文档序号：9930269阅读：来源：国知局

标韵律构成的合成目标，通过参照声音数据内的声音语料库(图2)来选择声音片段。
[0038]声音合成部101内的波形连接模块108，通过将由片段选择模块107选出的声音片段进行连接，生成连接声音片段。
[0039]声音合成部101内的音高适应模块109，将在波形连接模块108输出的连接声音片段中包含的音高序列(pitch sequence)进行变更，以使其适应于在从输入部103的声音输入装置112输入的输入声音数据中包含的音高序列。
[0040]声音合成部101内的音量适应模块110，将在波形连接模块108输出的连接声音片段中包含的音量序列(power sequence)进行变更，以使其适应于在从输入部103的声音输入装置112输入的输入声音数据中包含的音量序列。[0041 ]声音合成部101内的系统控制部111，对声音合成部101内的105?110的各部分的动作的执行顺序等进行控制。
[0042]图3是表示能够将图1的声音合成装置100作为软件处理来实现的计算机的硬件结构例的图。图3所示的计算机具有CPU30UR0M(只读存储器:读出专用存储器)302、RAM(随机访问存储器)303、输入装置304、输出装置305、外部存储装置306、可移动记录介质410可插入的可移动记录介质驱动装置307、以及通信接口308，并具有将它们通过总线309相互连接的结构。该图所示的结构是能够实现上述系统的计算机的一例，这样的计算机并不限定于该结构。
[0043]R0M302是存储包含对计算机进行控制的声音合成程序的各程序的存储器。RAM303是在执行各程序时将存储在R0M302中的程序或数据暂时保存的存储器。
[0044]外部存储装置306例如是SSD(固态驱动；solid-state drive)存储装置或硬盘存储装置，用于输入文本数据、输入声音数据、连接声音片段数据或合成声音数据等的保存。此外，外部存储装置306存储保存有具有图2的数据结构例的声音语料库的声音DB102。
[0045]CPU301通过将各程序从R0M302读出到RAM303中并执行，进行该计算机整体的控制。
[0046]输入装置304检测用户通过键盘或鼠标等进行的输入操作，将其检测结果向CPU301通知。此外，输入装置304具备图1的输入部103的声音输入装置112的功能，特别是经由未图示的麦克风或线路输入端子(line input terminal)将输入声音数据输入，并通过A/D(模拟一数字)变换而变换为数字数据后，向RAM303或外部存储装置306存储。并且，输入装置304具备图1的输入部103的文本输入装置113的功能，特别是经由未图示的键盘或设备接口等将输入文本数据输入，向RAM303或外部存储装置306存储。
[0047]输出装置305将通过CPU301的控制而被送来的数据向显示装置或印刷装置输出。此外，虽然没有特别图示，但输出装置305将由CPU301输出到外部存储装置306或RAM303中的合成声音数据用D/A变换器变换为模拟合成声音信号后，用放大器放大，经由扬声器作为合成声音放出。
[0048]可移动记录介质驱动装置307用于收容光盘或SDRAM、CF卡等可移动记录介质310，具有外部存储装置306的辅助的作用。
[0049]通信接口 308是用来将例如LAN(局域网)或WAN(广域网)的通信线路连接的装置。
[0050]在本实施方式的声音合成装置100中，CPU301—边使用RAM303作为工作存储器一边执行存储在R0M302中的声音合成程序，由此实现图1的声音合成部101内的105?111的各块的功能。该程序既可以记录到例如外部存储装置306或可移动记录介质410中而分发，或者也可以通过网络连接装置308从网络取得。
[0051]图4是表示具有图3的硬件结构例的计算机的CPU301通过软件程序的处理实现与图1的结构对应的声音合成装置100的功能的情况下的、声音合成处理的例子的流程图。以下随时参照图1、图2及图3。
[0052]CPU301首先对文本输入装置113输入的输入文本数据执行文本解析处理(步骤
S401)。这里，CPU301通过对输入文本数据执行例如形态解析处理，提取与输入文本数据对应的带有重音的音素序列。该处理实现图1的文本解析模块105的功能。
[0053]接着，CPU301对于声音输入装置112输入的输入声音数据执行韵律解析处理(步骤S402)。这里，CPU301对输入声音数据执行例如音高提取处理和音量分析处理。并且，CPU301通过参照由步骤S402的文本解析处理得到的带有重音的音素序列，计算每个音素的音高的高度(频率)、持续时间长及音量(强度)，将这些信息作为目标韵律来输出。
[0054]接着，CPU301执行片段选择处理(步骤403)。这里，CPU301从登录有构成图2所例示的数据结构的声音语料库的声音DB102中，选择与在步骤S401中计算出的音素序列及在步骤S402中计算出的目标韵律对应的声音片段的序列，以使关于音素及韵律而计算的代价为最优。此时，CPU301首先通过将声音语料库中的音素标注的序列(图2B)与在步骤S401中计算出的音素序列进行比较，从而从声音语料库中列出满足片段评价的代价条件的片段候选数据。接着，CPU301通过将片段候选数据中的声学信息(图2C)与目标韵律进行比较，从而从列出的片段候选数据中选择满足连接评价的代价条件的最优片段候选数据，最终选定声音片段的序列。
[0055]接着，CPU301执行波形连接处理(步骤S404)。这里，CPU301输入步骤S403中的声音片段的选择结果，从声音DB 102中的声音语料库提取对应的声音片段的声音数据(图2A )，并将它们连接而输出连接声音片段。
[0056]如上述那样输出的连接声音片段，是在声音DB102所保有的声音语料库内、以使针对输入的音素序列和目标韵律而将关于音素的片段评价与关于韵律的连接评价合并得到的代价为最优的方式选择出的。但是，作为声音语料库，在不能保有巨大的数据库那样的小规模的系统中，在从输入声音数据生成的目标韵律和声音语料库内的有限的规模的声音片段具有的韵律中，关于声调的赋予方式等，有依存于个人的差异点。因此，在步骤S404中将连接声音片段输出的阶段中，不能说用输入声音数据表现的声调被充分反映到连接声音片段中。另一方面，如果想要单纯地匹配连接声音片段的音高及音量以使其与目标韵律中的音高及音量相符，则目标韵律中的音高及音量的细小变动会给连接声音片段的音高及音量带来影响，相反音质劣化会变得明显。
[0057]所以，在本实施方式中，认为目标韵律中的音高及音量的全局性的变动良好地表示了讲话者的声调即感情，从目标韵律提取音高及音量的平缓的变动，通过基于该变动数据使连接声音片段的音高及音量改变(shift)，生成良好地反映了目标韵律中包含的声调信息的合成声音。
[0058]为此，CPU301在步骤S404的波形连接处理后，执行音高适应处理(步骤S405)。图5是音高适应处理的说明图。如图5A所例示那样，CPU301首先从目标韵律中提取音高频率的时间变化作为音高序列。接着，如图5B所例示那样，CPU301将音高序列的各频率值以适当的粗糙度(roughness)进行量化，计算出量化了的音高序列。由此，将目标韵律中的微细的音高的变动排除，得到音高的变化的大致形式。进而，如图5C所例示那样，CPU301通过对量化了的音高序列运算时间方向的加权移动平均而进行时间方向的平滑化，计算出平滑化了的音高序列。具体而言，例如，CPU301—边在量化了的音高序列中使运算中心采样位置从开头起每次移动I个采样，一边针对该运算中心采样位置的两侧规定采样量、例如使随着从运算中心采样位置远离而频率值每次一定量地线性变小，计算它们的平均值，将该平均值作为该运算中心采样位置的运算出的值而算出。由此，能够与图5A所例示的细微变动的音高序列对应地，得到图5C所例示那样的具有自然的音高变化的被平滑化了的音高序列。CPU301使在步骤S404中输出的连接声音片段的各时间的音高改变，以对应于这样生成的被平滑化了的音高序列的各时间的音高的值，并输出其结果。
[0059]接着，CHJ301在步骤S405的音高适应处理后，执行音量适应处理(步骤S406)。另夕卜，音高适应处理和音量适应处理的执行顺序是哪种都可以，此外，也可以仅执行其某一方。图6是音量适应处理的说明图。首先，如图6A — I所例示那样，CPU301从目标韵律中提取音量值的序列(以下称作“音量序列”)，同样，如图6A—2所例示那样，从连接声音片段(步骤S405的音高改变的结果)提取音量序列。接着，CPU301对于各个音量序列，通过与音高序列的情况同样地运算时间方向的加权移动平均，从而进行时间方向的平滑化，算出图6B— I所例示的与目标韵律对应的被平滑化了的音量序列、和图6B — 2所例示的与连接声音片段对应的被平滑化了的音量序列。由此，在各个音量序列中，微细的变动被排除

完整全部详细技术资料下载

当前第2页1 2 3