声音合成装置制造方法

文档序号：2827406阅读：165来源：国知局

声音合成装置制造方法
【专利摘要】得到能够制作高质量的合成声音的声音合成装置。候补声音片段系列制作部（1）针对输入语言信息系列（101），使用声音片段数据库（4）的DB声音片段（105）来制作候补声音片段系列（102）。输出声音片段系列决定部（2）使用表示与输入语言信息系列（101）、和表示候补声音片段系列（102）中的多个候补声音片段各自的属性的声音参数的共生条件（106）对应的值的参数（107），来计算候补声音片段系列（102）适合于输入语言信息系列（101）的程度，根据适合的程度，决定输出声音片段系列（103）。
【专利说明】声音合成装置

【技术领域】
[0001] 本发明涉及与输入语言信息的时间系列对应地从声音片段合成声音来生成合成声音的声音合成装置。

【背景技术】
[0002] 在基于大容量的声音数据库的声音合成方式中，提出了通过代替组合了根据预期的知识决定的物理性的参数的尺度，而将基于在声音识别等中使用的HMM (Hidden Markov Model，隐马尔可夫模型)的统计性的似然度用作尺度，从而一并具有基于依照HMM的合成方式的概率尺度的合理性和声音质量的均匀性的优点、和基于大容量的声音数据库的声音合成方式的高质量这样的优点的、以实现高质量并且均质的合成声音为目的的声音合成方法 (参照例如专利文献1)。
[0003] 在专利文献1中，使用表示按照音韵输出每个状态迁移的音响参数(线性预测系数、倒谱等）系列的概率的音响模型、和表示按照韵律输出每个状态迁移的韵律参数(基本频率等）系列的概率的韵律模型，通过与构成针对输入文本的音韵系列的各音韵对应的每个状态迁移的音响参数系列的音响上的似然度、和与构成针对输入文本的韵律系列的各韵律对应的每个状态迁移的韵律参数系列的韵律上的似然度，计算声音片段成本，选择声音片段。
[0004] 【专利文献1】日本特开2004-233774号公报

【发明内容】

[0005] 但是，在上述那样的以往的声音合成方法中，对于声音片段的选择，难以决定如何决定按照音韵，得不到恰当的按照音韵的音响模型，存在无法恰当地求出输出音响参数系列的概率这样的问题。另外，关于韵律，也同样地，难以决定如何决定按照韵律，得不到恰当的按照韵律的韵律模型，存在无法恰当地求出输出韵律参数系列的概率的问题。
[0006] 另外，在以往的声音合成方法中，通过按照音韵的音响模型，计算音响参数系列的概率，所以按照音韵的音响模型不成为适合于依赖于韵律参数系列的音响参数系列的模型，存在无法恰当地输出音响参数系列的概率这样的问题。另外，关于韵律，也同样地，通过按照韵律的韵律模型，计算韵律参数系列的概率，所以按照韵律的韵律模型不成为适合于依赖于音响参数系列的韵律参数系列的韵律模型，存在无法恰当地求出输出韵律参数系列的概率这样的问题。
[0007] 另外，在以往的声音合成方法中，使用设定与输入文本对应的音韵系列（每个音韵的功率、音韵长、基本频率)，按照音韵输出每个状态迁移的音响参数系列的音响模型存储单元的内容记载于专利文献1中，但在使用了这样的单元的情况下，存在如果音韵系列的设定的精度低，则无法选择恰当的音响模型这样的问题。另外，还存在需要音韵系列的设定，动作变得繁杂的问题。
[0008] 另外，在以往的声音合成方法中，预先根据输出音响参数系列、韵律参数系列等声音参数系列的概率，计算声音片段成本，不成为考虑了声音参数的听觉上的重要性的声音片段成本，存在所得到的声音片段听觉上成为不自然这样的问题。
[0009] 本发明是为了解决上述那样的课题而完成的，其目的在于得到一种能够制作高质量的合成声音的声音合成装置。
[0010] 本发明提供一种声音合成装置，其特征在于，具备：候补声音片段系列制作部，针对作为所输入的声音单位的时间系列的输入语言信息系列，参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列；输出声音片段决定部，使用表不与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，来计算候补声音片段系列适合于输入语言信息系列的程度，根据适合的程度，决定输出声音片段系列；以及波形片段连接部，连接与输出声音片段系列对应的声音片段来制作声音波形。
[0011] 本发明的声音合成装置使用表与输入语言信息系列、和表候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，计算候补声音片段系列适合于输入语言信息系列的程度，根据适合的程度，决定输出声音片段系列，所以能够制作高质量的合成声音。

【专利附图】

【附图说明】
[0012] 图1是示出本发明的实施方式1?5的声音合成装置的结构图。
[0013] 图2是示出本发明的实施方式1?5的声音合成装置的输入语言信息系列的说明图。
[0014] 图3是示出本发明的实施方式1?5的声音合成装置的声音片段数据库的说明图。
[0015] 图4是示出本发明的实施方式1?5的声音合成装置的参数辞典的说明图。
[0016] 图5是示出本发明的实施方式1?5的声音合成装置的动作的流程图。
[0017] 图6是不出本发明的实施方式1的声音合成装置的输入语言信息系列和候补声音片段系列的一个例子的说明图。
[0018] 符号说明
[0019] 1 :候补声音片段系列制作部；2 :输出声音片段系列决定部；3 :波形片段连接部； 4 :声音片段数据库；5 :参数辞典；101 :输入语言信息系列；102 :候补声音片段系列；103 : 输出声音片段系列；104 :声音波形；105 :DB声音片段；106 :共生条件；107 :参数。

【具体实施方式】
[0020] 实施方式1.
[0021] 图1是示出本发明的实施方式1的声音合成装置的结构图。
[0022] 图1所示的声音合成装置具备候补声音片段系列制作部1、输出声音片段系列决定部2、波形片段连接部3、声音片段数据库4、参数辞典5。
[0023] 在候补声音片段系列制作部1中，组合成为向声音合成装置的输入的输入语言信息系列101和声音片段数据库4的DB声音片段105,来制作候补声音片段系列102。在输出声音片段系列决定部2中，参照输入语言信息系列101、候补声音片段系列102以及参数辞典5,制作输出声音片段系列103。在波形片段连接部3中，参照输出声音片段系列103，制作成为声音合成装置6的输出的声音波形104。
[0024] 输入语言信息系列101是输入语言信息的时间系列。输入语言信息具有表示所制作的声首波形的语目内容的首韵和首商等记号。
[0025] 图2示出输入语言信息系列的例子。该例子是表示所制作的声音波形"湖"（A f ，? (mizuumi)(日文)）的输入语言信息系列，是7个输入语言信息的时间系列。
[0026] 例如，第1输入语g/[目息表不首韵是m，首1?是L，第3输入语g/[目息表不首韵是z，音高是H。此处，m是表示"湖"的开头的" A "的子音的记号。音高L是表示音的高低低的记号，音高H是表不音的高低高的记号。输入语言信息系列101既可以人工制作，也可以通过使用以往的一般的语言解析技术对表示所制作的声音波形的语言内容的文本进行自动解析而机械地制作。
[0027] 声音片段数据库4是存储DB声音片段系列的数据库。DB声音片段系列是DB声音片段105的时间系列。DB声音片段105具有波形片段、DB语言信息以及声音参数。
[0028] 波形片段是音压信号系列。音压信号系列是与用麦克风等记录解说员等发声了的声音而得到的音压有关的信号的时间系列的断片。另外，记录波形片段的形式也可以成为通过以往的一般的信号压缩技术压缩了数据量的形式。
[0029] DB语言信息是表示波形片段的记号，具有音韵和音高等。音韵是表示波形片段的首的种类(读）的首素记号等。首1?是对波形片段的首的1?低进行抽象化而表不的H (_)、 L (低）等记号。
[0030] 声音参数具有分析谱、基本频率、持续长等波形片段而得到的信息和语言环境，是表不各声音片段的属性的信息。
[0031] 谱是表示对音压信号系列进行频率分析而得到的每个频率频带的振幅的大小、相位的值。
[0032] 基本频率是分析音压信号系列而得到的声带的振动频率。
[0033] 持续长是音压信号系列的时间长。
[0034] 语目环境是具有比相应的DB语目彳目息先行或者后续等的多个DB语目/[目息的记号。具体而目，语目环境具有比相应的DB语目彳目息先先行的DB语目 /[目息、先行的DB语目 ?目息、后续的DB语g/[目息、以及后后续的DB语g/[目息。在相应是声首的开头、末尾的情况下，先行的DB语言信息、后续的DB语言信息用星号（*)等记号来表现。
[0035] 另外，声音参数除了上述以外，也可以是表示谱的时间变化的特征量、MFCC (Mel Frequency Cepstral Coefficient:梅尔频率倒谱系数）等为了选择声音片段而使用的以往的特征量。
[0036] 图3示出声音片段数据库4的例子。该声音片段数据库4是存储具有编号301、DB 语言信息302、声音参数303、波形片段304的DB声音片段105的时间系列的数据库。编号 301是为了识别DB声音片段而赋予的编号。
[0037] 波形片段304的音压信号系列是与用麦克风等记录解说员发声了的第1声音" A f"、第2声音"爸…而得到的与音压有关的信号的时间系列的断片。编号301为1 的音压信号系列是与第1声音"々f "的开头部分对应的断片。
[0038] DB语言信息302表示在之间夹着斜杠的音韵和音高。音韵是m、i、z、u、k、i、z、 e、…，音高是1、]^、!1、!1、]^、]^、!1、!1、*"。例如，编号301为1的音韵1]1是表不与第1声音 " A-f"的" A "的子音对应的音的种类(读）的记号，编号301为1的音高L是表不与第1声音" A f "的" A "的子音对应的音的高低的记号。
[0039] 声音参数303表示具有谱305、谱时间变化306、基本频率307、持续长308以及语言环境309的例子。
[0040] 谱305具有针对音压信号系列的左端(在时刻上前面）和右端(在时刻上后面）的附近的信号，分别将10个频率频带中的振幅值量化为1?10这10个阶段而得到的值。
[0041] 谱时间变化306具有在音压信号系列的左端(在时刻上前面)的断片中，将10个频率频带中的振幅值的时间变化量化为-10?10这21个阶段而得到的值。
[0042] 另外，基本频率307在有声音下用量化为1至10这10个阶段而得到的值表现，在无声音下用〇表现。
[0043] 另外，持续长308用量化为1至10这10个阶段而得到的值来表现。
[0044] 另外，关于量化的阶段，在上述中设为10,但也可以根据声音合成装置的规模等，设为不同的值。
[0045] 另外，编号1的声音参数303的语言环境309是"*/**/*i/Lz/H"，表示具有比相应的DB语言信息（m/L)先先行的DB语言信息（*/*)、先行的DB语言信息（*/*)、后续的DB 语言信息（i/L)、以及后后续的DB语言信息（z/H)。
[0046] 参数辞典5是存储共生条件106和参数107的对的装置。共生条件106是用于判定输入语言信息系列101和候补声音片段系列102中的多个候补声音片段的声音参数303 是特定的值或者记号的条件。参数107是为了计算输入语言信息系列和候补声音片段系列之间的适合程度，根据共生条件106参照的值。
[0047] 此处，多个候补声音片段是指，在候补声音片段系列102中相应的候补声音片段、比相应的候补声音片段先行(或者先先行）的候补声音片段、比相应的候补声音片段后续 (或者后后续）的候补声音片段。
[0048] 共生条件106也可以设为包括候补声音片段系列102中的、多个候补声音片段的声音参数303之差、差的绝对值、距离、相关值等运算结果成为特定的值的条件。
[0049] 参数107是根据喜好设定输入语言信息和多个候补声音片段的声音参数303的组合(共生）的值。在喜欢时，设定大的值，在不喜欢时，设定小的值(负的值)。
[0050] 图4示出参数辞典5的例子。参数辞典5是存储编号401、共生条件106、参数107 的装置。编号401是为了容易识别共生条件106而赋予的编号。
[0051] 能够通过共生条件106和参数107,详细地表示输入语言信息系列101、基本频率 307等韵律参数的系列、以及谱305等音响参数的系列等的优选的关系。此处，在图4的共生条件106中示出共生条件106的例子。
[0052] 相应的候补声音片段的声音参数303的基本频率307具有对相应的输入语言信息系列101的音高有用（喜欢或者不喜欢）的关系，所以记述与相应的候补声音片段的声音参数303的基本频率307和相应的输入语言信息的音高有关的条件(例如图4的编号1和编号2的共生条件106)。
[0053] 相应的候补声音片段和先行的候补声音片段的基本频率307之差基本上没有对相应的输入语言信息有用的关系，所以仅记述与相应的候补声音片段和先行的候补声音片段的基本频率的差有关的条件(例如图4的编号3和编号4的共生条件106)。
[0054] 其中，相应的候补声音片段和先行的候补声音片段的基本频率307之差具有对相应的输入语言信息的特定的音韵和先行的输入语言信息的特定的音韵有用的关系，所以记述与相应的候补声音片段、和先行的候补声音片段的基本频率307之差、相应的输入语言信息的特定的音韵、和先行的输入语言信息的特定的音韵有关的条件(例如图4的编号5和编号6的共生条件106)。
[0055] 相应的候补声音片段的声音参数303的基本频率307具有对相应的输入语言信息的音高、先行的候补声音片段的声音参数303的基本频率307、以及先先行的候补声音片段的声音参数303的基本频率307有用的关系，所以记述与它们有关的共生条件106 (例如图 4的编号7的共生条件106)。
[0056] 相应的候补声音片段的声音参数303的谱左端第1频率频带的振幅具有对相应的输入语言信息的音韵、和先行的候补声音片段的声音参数303的谱右端第1频率频带的振幅有用的关系，所以记述与它们有关的共生条件106(例如图4的编号8和编号9的共生条件 106)。
[0057] 相应的DB声音片段的声音参数303的持续长308具有对相应的输入语言信息系列的音韵、和先行的输入语言信息系列的音韵有用的关系，所以记述与它们有关的共生条件106 (例如图4的编号10的共生条件106)。
[0058] 另外，在上述中存在有用的关系的情况下设置了共生条件106,但不限于此，在不存在有用的关系的情况下，也可以设置共生条件106。在该情况下，将参数设定为0。
[0059] 接下来，说明实施方式1的声音合成装置的动作。
[0060] 图5是示出实施方式1的声音合成装置的动作的流程图。
[0061] 〈步骤 STD
[0062] 在步骤STl中，候补声音片段系列制作部1接受输入语言信息系列101作为向声音合成装置的输入。
[0063] 〈步骤 ST2>
[0064] 在步骤ST2中，候补声音片段系列制作部1参照输入语言信息系列101，从声音片段数据库4选择DB声音片段105,将其作为候补声音片段。具体而言，候补声音片段系列制作部1针对各输入语言信息，选择输入语言信息和DB语言信息302 -致的DB声音片段 105,将其作为候补声音片段。
[0065] 例如，与图2所示的输入语言信息系列中的第1输入语言信息一致的图3的DB语言信息302是编号1的DB声音片段。关于编号1的DB声音片段，音韵是m、音高是L，与图 2中的第1输入语言信息的音韵m和音高L 一致。
[0066] 〈步骤 ST3>
[0067] 在步骤ST3中，候补声音片段系列制作部1使用在步骤ST2中得到的候补声音片段，制作候补声音片段系列102。
[0068] 针对输入语言信息，通常选择多个候补声音片段，将这些候补声音片段的全部组合作为多个候补声音片段系列102。
[0069] 另外，在针对全部输入语言信息选择的候补声音片段是1个的情况下，候补声音片段系列102仅为一个，也可以省略后续的动作(步骤ST3?步骤ST5)，将候补声音片段系列102作为输出声音片段系列103,使动作转移到步骤ST6。
[0070] 在图6中，上下对应地示出候补声音片段系列102和输入语言信息系列101的例子。候补声音片段系列102是参照输入语言信息系列101，从图3所示的声音片段数据库4 选择DB声音片段105,而在步骤ST3中制作的多个候补声音片段系列。输入语言信息系列 101是图2所示的输入语言信息的时间系列。
[0071] 在该例子中，示出了候补声音片段系列102内的实线矩形框所示的箱表示1个候补声音片段，连接箱和箱的线表示候补声音片段的组合，得到8种候补声音片段系列102。另外，不出了与第2输入语言信息（i/L)对应的第2候补声音片段601是编号2的DB声音片段和编号6的DB声音片段。
[0072] 〈步骤 ST4>
[0073] 在步骤ST4中，输出声音片段系列决定部2根据共生条件106和参数107,计算候补声音片段系列102与输入语言信息系列之间的适合程度。
[0074] 以针对先先行的候补声音片段、先行候补声音片段、以及相应候补声音片段记述了共生条件106的情况为例子，详细叙述计算适合程度的方法。
[0075] 参照第s-2、第s-1、以及第s个输入语言信息、和与它们对应的候补声音片段的声音参数303,从参数辞典5搜出适用的共生条件106,将对与适用的全部共生条件106对应的参数107进行加法而得到的值作为参数加法值。此处，第s个是表示输入语言信息系列 101等的时间位置的变量。
[0076] 此时，共生条件106的"先先行的输入语言信息"对应于第s-2个输入语言信息，共生条件106的"先行的输入语言信息"对应于第s-Ι个输入语言信息，共生条件106的"相应的输入语言信息"对应于第s个输入语言信息。
[0077] 另外，此时，共生条件106的"先先行的声音片段"对应于与编号s-2的输入语言信息对应的候补声音片段，共生条件106的"先行的声音片段"对应于与编号s-Ι的输入语言信息对应的候补声音片段，共生条件106的"相应的声音片段"对应于与编号s的输入语言信息对应的DB声音片段。适合程度成为使s从3变化至输入语言信息系列的数量并反复与上述同样的处理而得到的参数加法值。另外，也可以使s从1变化，在该情况下，关于编号〇、编号-1的输入语言信息、对应的声音片段的声音参数303,预先设定预定的固定的值。
[0078] 针对各候补声音片段系列102,反复执行上述处理，分别求出各候补声音片段系列 102与输入语言信息系列之间的适合程度。
[0079] 在图6的多个候补声音片段系列102内，以下述所示的候补声音片段系列102为例子，而示出适合程度的计算。
[0080] 第1输入语言信息：第1候补声音片段是编号1的DB声音片段
[0081] 第2输入语言信息：第2候补声音片段是编号2的DB声音片段
[0082] 第3输入语言信息：第3候补声音片段是编号3的DB声音片段
[0083] 第4输入语言信息：第4候补声音片段是编号4的DB声音片段
[0084] 第5输入语言信息：第5候补声音片段是编号4的DB声音片段
[0085] 第6输入语言信息：第6候补声音片段是编号1的DB声音片段
[0086] 第7输入语言信息：第7候补声音片段是编号2的DB声音片段
[0087] 参照第1、第2及第3输入语言信息、和编号1、编号2及编号3的DB声音片段的声音参数303,从图4的参数辞典5搜出适用的共生条件106,将对与适用的全部共生条件 106对应的参数107进行加法而得到的值作为参数加法值。
[0088] 此时，共生条件106的"先先行的输入语言信息"对应于第1输入语言信息（m/L)，共生条件106的"先行的输入语言信息"对应于第2输入语言信息（i/L)，共生条件106的 "相应的输入语言信息"对应于第3输入语言信息（z/H)。
[0089] 另外，此时，共生条件106的"先先行的声音片段"对应于编号1的DB声音片段，共生条件106的"先行的声音片段"对应于编号2的DB声音片段，共生条件106的"相应的声音片段"对应于编号3的DB声音片段。
[0090] 接下来，参照第2、第3及第4输入语言信息、和编号2、编号3及编号4的DB声音片段的声音参数303,从图4的参数辞典5搜出适用的共生条件106,将与适用的全部共生条件106对应的参数107加到前面的参数加法值。此时，共生条件106的"先先行的输入语言信息"对应于第2输入语言信息（i/L)，共生条件106的"先行的输入语言信息"对应于第3输入语言信息（z/H)，共生条件106的"相应的输入语言信息"对应于第4输入语言信息（u/H)。
[0091] 另外，此时，共生条件106的"先先行的声音片段"对应于编号2的DB声音片段，共生条件106的"先行的声音片段"对应于编号3的DB声音片段，共生条件106的"相应的声音片段"对应于编号4的DB声音片段。
[0092] 将直至最后的"第5、第6及第7输入语言信息和编号4、编号1及编号2的DB声音片段"，反复与上述同样的处理而得到的参数加法值作为适合程度。
[0093] 〈步骤 ST5>
[0094] 在步骤ST5中，输出声音片段系列决定部2在多个候补声音片段系列102内，将在步骤ST4中计算的适合程度高的候补声音片段系列102作为输出声音片段系列103。即，将成为适合程度高的候补声音片段系列102的DB声音片段作为输出声音片段，将该时间系列作为输出声音片段系列103。
[0095] 〈步骤 ST6>
[0096] 在步骤ST6中，波形片段连接部3从声音合成装置输出将输出声音片段系列103 的各输出声音片段的波形片段304依次连接而制作的声音波形104。在波形片段304的连接中，例如，使用使先行的输出声音片段的音压信号系列的右端和后续的输出声音片段的音压信号系列的左端的相位匹配地连接那样的公知技术即可。
[0097] 如以上说明，根据实施方式1的声音合成装置，具备：候补声音片段系列制作部，针对作为所输入的声音单位的时间系列的输入语言信息系列，参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列；输出声音片段决定部，使用表不与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，计算候补声音片段系列适合于输入语言信息系列的程度，根据适合的程度，决定输出声音片段系列；以及波形片段连接部，连接与输出声音片段系列对应的声音片段来制作声音波形，所以具有无需准备按照音韵的音响模型、按照韵律的韵律模型，能够避免与以往的"按照音韵、按照韵律"的决定方法有关的问题的效果。
[0098] 另外，具有能够设定考虑了首韵、振幅谱、以及基本频率等的关系的参数，能够计算恰当的适合程度的效果。
[0099] 另外，具有无需准备按照音韵的音响模型，也无需设定成为用于按照音韵分配的信息的音韵系列，能够简化装置的动作的效果。
[0100] 另外，根据实施方式1的声音合成装置，共生条件设为是候补声音片段系列中的多个候补声音片段各自的声音参数的值的运算结果成为特定的值的条件，所以具有能够设定先先行的声音片段、先行的声音片段、以及相应的声音片段等多个候补声音片段的声音参数的差、差的绝对值、距离、相关值等共生条件，能够设定还考虑了与声音参数的关系有关的差、距离、相关等的共生条件和参数，能够计算恰当的适合程度的效果。
[0101] 实施方式2.
[0102] 在实施方式1中，参数107成为根据输入语言信息系列101和候补声音片段系列 102的声音参数303的组合的喜好设定的值，但也可以代替其而如下那样设定参数107。
[0103] 即，在与DB声音片段系列的DB语言信息302的系列对应的多个候补声音片段系列102内、与DB声音片段系列相同的候补声音片段系列102的情况下，参数107成为大的值。或者，在与DB声音片段系列不同的候补声音片段系列102的情况下，成为小的值。或者，成为这些两方。
[0104] 接下来，说明实施方式2中的参数107的设定方法。
[0105] 候补声音片段系列制作部1将声音片段数据库4中的DB语言信息的系列视作输入语言信息系列101，制作与该输入语言信息系列101对应的多个候补声音片段系列102。
[0106] 接下来，在多个候补声音片段系列102内，在与DB声音片段系列相同的候补声音片段系列102中，求出各共生条件106适用的次数A。
[0107] 接下来，在多个候补声音片段系列102内，在与DB声音片段系列不同的候补声音片段系列102中，求出各共生条件106适用的次数B。
[0108] 另外，各共生条件106的参数107设定为次数A与次数B的差(次数A-次数B)。
[0109] 如以上说明，候补声音片段系列制作部将声音片段数据库中的声音片段的时间系列视作输入语言信息系列，制作与视作的时间系列对应的多个候补声音片段系列，输出声音片段系列决定部在所制作的多个候补声音片段系列中、与视作的时间系列相同的系列的情况下，使参数成为大的值，或者，在是与视作的时间系列不同的系列的情况下，使参数成为小的值，使用其中的至少某一个值，计算输入语言信息系列和候补声音片段系列之间的适合程度，所以在候补声音片段系列与DB声音片段系列相同的情况下，适合程度变大，或者，在候补声音片段系列与DB声音片段系列不同的情况下，适合程度变小，或者其两方，所以具有能够得到具有与根据解说员的录音声音构筑的DB声音片段系列的各声音参数的时间系列类似的声音参数的时间系列的输出声音片段系列，得到接近解说员的录音声音的声音波形的效果。
[0110] 实施方式3.
[0111] 在实施方式1或者实施方式2的参数107的设定方法中，也可以如以下那样设定参数107。
[0112] 即，关于参数107,在与DB声音片段系列的DB语言信息302的系列对应的候补声音片段系列102中，DB声音片段系列的DB声音片段的声音参数303的听感上的重要的程度、和DB语言信息302的语言环境309与候补声音片段系列102的候补声音片段的语言环境309的类似的程度大的情况下，成为更大的值。
[0113] 接下来，说明实施方式3中的参数107的设定方法。
[0114] 候补声音片段系列制作部1将声音片段数据库4中的DB语言信息302的系列视作输入语言信息系列101，制作与该输入语言信息系列101对应的多个候补声音片段系列 102。
[0115] 接下来，针对输入语言信息系列101的DB声音片段系列的每个DB声音片段，求出该DB声音片段的声音参数303的重要的程度Cl。此处，重要的程度C 1在DB声音声片段的声音参数303在听感上重要的情况下成为大(重要的程度大)的值。具体而言，例如，重要的程度C 1用谱的振幅的大小表示。在该情况下，重要的程度C1在谱的振幅大时(听感上易于听见的母音等）变大，在谱的振幅小时(听感上比较不易听见的子音等）变小。另外，具体而言，例如，重要的程度C 1成为DB声音片段的谱时间变化306 (音压信号系列的左端附近的谱的时间变化）的倒数。在该情况下，重要的程度C1在波形片段304的连接中的连续性重要时(母音、母音间等)变大，相比较在波形片段304的连接中的连续性比较不重要时(母音、子首间等）变小。
[0116] 接下来，针对输入语言信息系列101的语言环境309和候补声音片段系列102的候补声音片段的语言环境309的每个配对，求出两个声音片段的语言环境309的类似的程度C2。此处，语言环境309的类似的程度C 2在输入语言信息系列101的语言环境309和候补声音片段系列102的声音片段的语言环境309的类似的程度大时成为大的值。具体而言，例如，语言环境309的类似的程度C 2在语言环境309 -致的情况下成为2,在仅语言环境309的音韵一致的情况下成为1，在完全不一致的情况下成为0。
[0117] 接下来，各共生条件106的参数107将在实施方式1或者实施方式2中设定的参数107设定为初始值。
[0118] 接下来，在候补声音片段系列102的各声音片段中，将适用的各共生条件106的参数107用C1和C2来更新。具体而言，在候补声音片段系列102的各声音片段中，对适用的各共生条件106的参数107,加上C 1与C2之积。针对全部候补声音片段系列102的各声音片段，进行该积的加法。
[0119] 如以上说明，根据实施方式3的声音合成装置，候补声音片段系列制作部将声音片段数据库中的声音片段的时间系列视作输入语言信息系列，制作与视作的时间系列对应的多个候补声音片段系列，输出声音片段系列决定部在所制作的多个候补声音片段系列中的、所视作的时间系列中的各个声音片段的听感上的重要度的值大、并且候补声音片段系列中的包括作为对象的声音片段并且连续的多个声音片段的时间系列的语言环境、与所视作的时间系列中的语言环境的类似的程度大的情况下，将参数设为比实施方式1或者实施方式2的参数大的值，计算输入语言信息系列与候补声音片段系列之间的适合程度，所以听感上重要的共生条件的参数成为更大的值，并且对类似的语言环境的DB声音片段适用的共生条件的参数成为更大的值，所以具有在听感上重要的声音参数下，得到成为更类似于根据解说员的录音声音构筑的DB声音片段系列的各声音参数的时间系列的声音参数的时间系列的输出声音片段系列，得到更近似于解说员的录音声音的声音波形的效果，并且，具有得到成为构成更类似于由具有与各输入语言信息的音韵和音高的排列类似的语言环境的DB声音片段的声音参数构成的时间系列的声音参数的时间系列的输出声音片段系列，得到音韵、音高的语言内容更易于听懂的声音波形的效果。
[0120] 另外，在上述实施方式3中，对在候补声音片段系列的各候补声音片段中适用的各共生条件的参数，加上C 1与C2之积，所以具有在听感上重要的情况的候补声音片段下，得到成为构成更类似于由具有与各输入语言信息的音韵和音高的排列类似的语言环境的DB 声音片段的声音参数构成的时间系列的声音参数的时间系列的输出声音片段系列，得到音韵、音高的语言内容更易于听懂的声音波形的效果。
[0121] [实施方式3的变形例1]
[0122] 在上述实施方式3中，对在候补声音片段系列102的各声音片段中适用的各共生条件106的参数107加上C 1与C2之积，但也可以代替其而仅加上Q。
[0123] 在该情况下，在与DB声音片段系列的DB语言信息302的系列对应的多个候补声音片段系列102内，DB声音片段系列的DB声音片段的声音参数303的重要的程度大的情况下，使参数107成为更大的值，所以听感上重要的共生条件106的参数107成为更大的值，具有在听感上重要的声音参数303下，得到成为更类似于根据解说员的录音声音构筑了的 DB声音片段系列的各声音参数303的时间系列的声音参数303的时间系列的输出声音片段系列103,得到更近似于解说员的录音声音的声音波形的效果。
[0124] [实施方式3的变形例2]
[0125] 另外，在上述实施方式3中，对在候补声音片段系列102的各声音片段中适用的各共生条件106的参数107加上C 1与C2之积，但也可以代替其而仅加上C2。
[0126] 在该情况下，在与DB声音片段系列的DB语言信息302的系列对应的多个候补声音片段系列102内，候补声音片段系列102的语言环境309与DB语言信息302的语言环境 309的类似的程度大的情况下，使参数107成为更大的值，所以对类似的语言环境309的DB 声音片段适用的共生条件106的参数107成为更大的值，具有得到成为更类似于由具有与各输入语言信息的音韵和音高的排列类似的语言环境309的DB声音片段的声音参数303 构成的时间系列的声音参数303的时间系列的输出声音片段系列103,得到音韵、音高的语言内容更易于听懂的声音波形的效果。
[0127] 实施方式4.
[0128] 在实施方式1中，参数107成为根据输入语言信息系列101和候补声音片段系列 102的声音参数的组合的喜好设定的值，但也可以代替其而如下那样设定参数107。
[0129] S卩，在输入语言信息系列101和候补声音片段系列102中的多个候补声音片段的声音参数303满足共生条件106时，是0以外的固定值，否则将根据作为成为0值的特征函数的附条件的概率场模型（CRF;conditional random field (条件随机场)）得到的模型参数作为参数值。
[0130] 另外，关于附条件的概率场模型，例如，如「自然言語処理> U 1言語処理〇機械学習入門」（奥村学監修、高村大也著、=口于社、第5章、p .153 - 158)公开那样公知，所以此处的详细的说明省略。
[0131] 此处，附条件的概率场模型用下述所示的式（1)至式（3 )来定义。
[0132]

【权利要求】
1. 一种声音合成装置，其特征在于，具备：候补声音片段系列制作部，针对作为所输入的声音单位的时间系列的输入语言信息系列，参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列；输出声音片段决定部，使用表示与所述输入语言信息系列、和表示所述候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数，来计算所述候补声音片段系列适合于所述输入语言信息系列的程度，根据所述适合的程度，决定输出声音片段系列；W及波形片段连接部，连接与所述输出声音片段系列对应的所述声音片段来制作声音波形。
2. 根据权利要求1所述的声音合成装置，其特征在于，所述输出声音片段系列决定部将所述声音片段数据库中的所述声音片段的时间系列视作所述输入语言信息系列，制作与相应视作的时间系列对应的多个候补声音片段系列，使用W下方案中的至少某一个来计算：在相应制作了的多个候补声音片段系列中、与所述视作的时间系列相同的系列的情况下，使所述参数成为大的值，或者，在是与所述视作的时间系列不同的系列的情况下，使所述参数成为小的值。
3. 根据权利要求1所述的声音合成装置，其特征在于，所述输出声音片段系列决定部将所述声音片段数据库中的所述声音片段的时间系列视作所述输入语言信息系列，制作与相应视作的时间系列对应的多个候补声音片段系列，在相应制作了的多个候补声音片段系列中、所述视作的时间系列中的各个声音片段的听感上的重要度的值大、并且作为所述候补声音片段系列中的包括作为对象的声音片段并且连续的多个声音片段的时间系列的语言环境、与所述视作的时间系列中的所述语言环境的类似的程度大的情况下，将所述参数计算为比权利要求1或者权利要求2的参数更大的值。
4. 根据权利要求2所述的声音合成装置，其特征在于，所述输出声音片段系列决定部将所述声音片段数据库中的所述声音片段的时间系列视作所述输入语言信息系列，制作与视作的时间系列对应的多个候补声音片段系列，在相应制作了的多个候补声音片段系列中、所述视作的时间系列中的各个声音片段的听感上的重要度的值大、并且作为所述候补声音片段系列中的包括作为对象的声音片段并且连续的多个声音片段的时间系列的语言环境、与所述视作的时间系列中的所述语言环境的类似的程度大的情况下，将所述参数计算为比权利要求1或者权利要求2的参数更大的值。
5. 根据权利要求1所述的声音合成装置，其特征在于，所述输出声音片段系列决定部代替权利要求1所述的参数，而使用根据使用了在满足所述输入语言信息系列、与表示所述候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件时成为0 W外的固定值、除此W外成为0值的特征函数的概率场模型得到的参数，来计算所述候补声音片段系列适合于所述输入语言信息系列的程度。
6. 根据权利要求1至5中的任意一项所述的声音合成装置，其特征在于，共生条件是所述候补声音片段系列中的多个候补声音片段各自的声音参数的值的运算结果成为特定的值的条件。
【文档编号】G10L13/06GK104464717SQ201410133441
【公开日】2015年3月25日申请日期:2014年4月3日优先权日:2013年9月25日
【发明者】大塚贵弘, 川岛启吾, 古田训, 山浦正申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大塚贵弘;川岛启吾;古田训;山浦正;
技术所有人：三菱电机株式会社;
我是此专利的发明人

上一篇：一种应用程序的语音控制方法及装置制造方法
上一篇：制作3d吉他琴身的方法