声音合成装置以及声音合成方法

文档序号：2834942阅读：177来源：国知局

专利名称：声音合成装置以及声音合成方法
技术领域：
本发明涉及合成声音的声音合成装置以及声音合成方法，例如，涉及使用积蓄了大量的片段的辞典，根据输入到计算机的文本文合成声音的声音合成装置以及声音合成方法。
背景技术：
以往，为了得到更优良的合成声音，考虑将大量的片段积蓄到辞典，并从其中选择更适合的片段的方法。在日本专利第2761552号公报(专利文献I)中，叙述了如下方法:根据对所输入的文本进行解析而生成的音素序列和韵律信息，从积蓄了大量的片段的辞典中读出音素的波形，并根据相应音素的韵律信息，对该音素的波形进行变形处理而得到输出声音波形。此时，在辞典中，在构成音素等输出声音波形的基础上，以适合的单位，存储了音素的波形、所发声的音素环境、基本频率图案形状、音素继续长度、振幅。施加以相应的音素为中心的音素数的窗来从音素序列中切出，并从辞典中检索接近该切出音素序列的音素的波形的候补，在未发现相应音素序列的情况下，从该音素序列的两侧依次删除该音素来进行上述检索。描述了:通过从在该过程中检索出的音素的波形的候补中选择与由基于呼气段落内莫勒(mora)数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅等韵律信息相接近的音素的波形的候补，从而能够提供清楚性高、而且自然性也良好的声音。专利文献I日本专利第2761552号公报

发明内容
但是，在专利文献I中，除了以音素序列为基准以外，还以与由基于呼气段落内莫勒数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅的近似度为基准而选择音素的波形，所以在辞典中积蓄的片段的数量不充分多的情况下，得不到接近期望的韵律信息的音素的波形。其结果，存在如下课题:使音素的波形大幅变形，所以成为自然嗓音感低的音质。另外，除了以音素序列为基准以外，还以与由基于呼气段落内莫勒数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅的近似度为基准而选择音素的波形，所以在所选择的基准偏离了辞典中积蓄的片段的平均基本频率、基本频率的形状、时间长度、振幅的情况下，无法选择适合的片段。其结果，存在如下课题:使音素的波形大幅变形，所以成为自然嗓音感低的音质。另外，除了以音素序列为基准以外，还以与由基于呼气段落内莫勒数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅的近似度为基准而选择音素的波形，所以存在如下课题:不易得到在原声音(制作音素的波形时的原来的声音)中连续的音素的波形，而在音素的波形之间产生不连续。本发明是为了解决上述问题而完成的，其目的在于提供一种声音合成装置以及声音合成方法，能够得到保持了语调的自然性，而且自然嗓音感高，且片段之间的音色的连续性也高的合成声音。本发明涉及的声音合成装置，具备:片段辞典，存储了多个片段信息，该片段信息包括至少包括音素的片段的语言信息和所述片段的声音特征信息；语言信息一致度计算部，计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度；候补片段选择部，根据由所述语言信息一致度计算部计算出的语言信息一致度，从所述片段辞典选择片段信息作为候补片段信息；目标声音特征计算部，使用由所述候补片段选择部选择出的候补片段信息，计算表示目标声音的特征的目标声音特征信息；声音特征成本计算部，计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本；片段决定部，根据由所述声音特征成本计算部计算出的声音特征成本，从所述候补片段信息中决定片段信息；以及声音波形生成部，使用由所述片段决定部决定的片段信息的声音特征信息，生成声音波形。本发明涉及的声音合成方法，具有:语言信息一致度计算步骤，参照存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息的片段辞典，计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度；候补片段选择步骤，根据在所述语言信息一致度计算步骤中计算出的语言信息一致度，从所述片段辞典选择片段信息作为候补片段信息；目标声音特征计算步骤，使用在所述候补片段选择步骤中选择出的候补片段信息，计算表示目标声音的特征的目标声音特征信息；声音特征成本计算步骤，计算与在所述目标声音特征计算步骤中计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本；片段决定步骤，根据在所述声音特征成本计算步骤中计算出的声音特征成本，从所述候补片段信息中决定片段信息；以及声音波形生成步骤，使用在所述片段决定步骤中决定的片段信息的声音特征信息，生成声音波形。根据本发明的声音合成装置，具备:片段辞典，存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息；语言信息一致度计算部，计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度；候补片段选择部，根据由所述语言信息一致度计算部计算出的语言信息一致度，从所述片段辞典选择片段信息作为候补片段信息；目标声音特征计算部，使用由所述候补片段选择部选择出的候补片段信息，计算表示目标声音的特征的目标声音特征信息；声音特征成本计算部，计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本；片段决定部，根据由所述声音特征成本计算部计算出的声音特征成本，从所述候补片段信息中决定片段信息；以及声音波形生成部，使用由所述片段决定部决定的片段信息的声音特征信息，生成声音波形，从而能够得到保持了语调的自然性、而且自然嗓音感高、且片段之间的音色的连续性也高的合成声音。根据本发明的声音合成方法，具有:语言信息一致度计算步骤，参照存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息的片段辞典，计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度；候补片段选择步骤，根据在所述语言信息一致度计算步骤中计算出的语言信息一致度，从所述片段辞典选择片段信息作为候补片段信息；目标声音特征计算步骤，使用在所述候补片段选择步骤中选择出的候补片段信息，计算表示目标声音的特征的目标声音特征信息；声音特征成本计算步骤，计算与在所述目标声音特征计算步骤中计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本；片段决定步骤，根据在所述声音特征成本计算步骤中计算出的声音特征成本，从所述候补片段信息中决定片段信息；以及声音波形生成步骤，使用在所述片段决定步骤中决定的片段信息的声音特征信息，生成声音波形，从而能够得到保持了语调的自然性、而且自然嗓音感高、且片段之间的音色的连续性也高的合成声音。

图1是示出实施方式I的声音合成装置的结构的框图。图2是示出片段辞典8的一个例子的说明图。图3是示出输入语言信息101的一个例子的说明图。图4是示出语言信息一致度103的概要的说明图。(符号说明)1:语言信息一致度计算部；2:候补片段选择部；3:目标声音特征计算部；4:声音特征成本计算部；5:声音特征成本最小片段决定部；6:声音特征变形部；7:波形连接部；8:片段辞典；101:输入语言信息；102:片段信息；103:语言信息一致度；104:候补片段信息；105:目标声音特征信息；106:声音特征成本；107:成本最小片段；108:变形波形；109:输出声音波形；201:编号；202 :音素；203:高低；204:短时间振幅谱；205:基本频率；206:波形。
具体实施例方式以下，说明本发明的实施方式。实施方式1.
图1是示出本实施方式的声音合成装置的整体的结构图的框图。图1的声音合成装置包括语言信息一致度计算部1、候补片段选择部2、目标声音特征计算部3、声音特征成本计算部4、声音特征成本最小片段决定部5、声音特征变形部6、波形连接部7、片段辞典8。片段辞典8存储了多个片段信息102，该片段信息102包括:至少包括音素的片段的语目目息；和上述片段的声首特征目息。图2是示出本实施方式中的片段辞典8的一个例子的图。片段辞典8是例如将解说员阅读原稿等而发声的声音(以下，原声音)等切出并分析而事前制作出的。在图2的片段辞典8中，保存了对声音“々t < 6 (kamakura)”进行分析而得到的信息。在图2所不的片段辞典8中，编号201表不片段的编号。音素202表不片段的一音一音的名字，用记号来表不。在图2的例子中，按照各音素的排列顺序(音素序列的顺序)连续地配置了与声音对应的各音素，且还包括各片段之间的连接关系的信息。具体而言，声音“力'* < ^ ”的音素202是sil、k、a、m、a、k、u、r、a、sil,对文头和文末赋予了表不无音的sil。高低203表不片段的一音一音的高度,用记号来表不。在图2的例子中，片段的音的高度比规定的阈值高的部分用H来表示，比规定的阈值低的部分用L来表示。具体而言，声音6 ”的高低203是(无)、L、L、H、H、H、H、H、H、(无)，(无)表示未定义记号。短时间振幅谱204是片段的波形的短时间振幅谱，短时间振幅谱是对波形进行频率分析而得到的。在图2的例子中，示出与各音素对应的波形的短时间振幅谱。基本频率205是片段的波形的基本频率，基本频率是对波形的声的高度进行分析而得到的。在图2的例子中，示出与各音素对应的波形的基本频率。波形206是音素的波形，波形是例如对声音以22050Hz进行采样并以16bit进行量化而得到的脉冲编码调制的数据。在图2的例子中，示出了与各音素对应的波形的数据。另外，在图2所示的片段辞典8中，片段的语言信息是上述音素202以及高低203，片段的声音特征信息是短时间振幅谱204、基本频率205以及波形206。语言信息一致度计算部I计算与输入到声音合成装置且至少包括音素的输入语目/[目息101和片段辞典8中存储的片段/[目息102的语目彳目息的一致度相对应的语[目息一致度103。候补片段选择部2根据由上述语言信息一致度计算部I计算出的语言信息一致度103，从上述片段辞典8选择片段信息102作为候补片段信息104。目标声音特征计算部3使用由上述候补片段选择部2选择出的候补片段信息104，计算表示目标声音的特征的目标声音特征信息105。目标声音特征信息105是成为输出声音波形的目标的声音特征信息。另外，在本实施方式中，目标声音特征计算部3构成为使用候补片段信息104、输入语言信息101、以及语言信息一致度103来计算目标声音特征信息105。声音特征成本计算部4计算与由上述目标声音特征计算部3计算出的目标声音特征信息105和上述候补片段信息104的声音特征信息的距离相对应的声音特征成本106。声音特征成本最小片段决定部5对应于片段决定部，该片段决定部根据由上述声音特征成本计算部4计算出的声音特征成本106,从上述候补片段信息104中，决定波形生成中使用的片段信息。声音特征成本最小片段决定部5特别根据由上述声音特征成本计算部4计算出的声音特征成本106，从上述候补片段信息104中，将使声音特征成本106为最小的成本最小片段107决定为波形生成中使用的片段信息。声音特征变形部6使用上述目标声音特征信息105，对由上述声音特征成本最小片段决定部5 (片段决定部)决定的片段信息的声音特征信息进行变形，并输出变形了声音特征信息的变形波形108。波形连接部7将由上述声音特征成本最小片段决定部5 (片段决定部)决定的多个片段信息的声音特征信息进行连接而生成声音波形，在本实施方式中，将由上述声音特征变形部6变形了的变形波形108进行连接而生成输出声音波形109。另外，在本实施方式中，使用由片段决定部决定的片段信息的声音特征信息来生成声音波形的声音波形生成部包括上述声音特征变形部6以及上述波形连接部7。以下，使用附图，说明本实施方式的声音合成装置的原理动作以及声音合成方法。图3是示出输入到声音合成装置的输入语言信息101的一个例子的图。输入语言信息101至少包括音素，例如，是通过使用以往的已知的词素解析技术对汉字假名混合文进行解析而得到的语言信息。图3所示的例子是针对>9 f < (nerimaku)”使用词素解析技术得到的输入语言信息101，与片段辞典8的语言信息同样地，针对每个片段包括编号201、音素202、高低203的信息。具体而言，音素202是sil、n、e、r、1、m、a、k、u、sil,高低203 是(无)1^、1^、!1、!1、!1、!1、1^、1^ (无)。如果输入了输入语言信息101，则语言信息一致度计算部I计算与输入语言信息101和片段辞典8中存储的片段信息102的语言信息的一致度相对应的语言信息一致度103。语目彳目息一致度103是输入语目彳目息101和片段辞典8中存储的片段/[目息102的与音素以及高低相关的一致度，针对输入语言信息101的各音素，关于片段辞典8的多个片段信息102求出。语目彳目息一致度103用I (n,m)来定义。η表不输入语目/[目息101的编号，m是片段/[目息102的编号。在计算I (n, m)时，以输入语目彳目息101的编号η和片段/[目息102的编号m为中心而分别比较上下的音素和高低，直至不一致的部位为止进行比较。其结果，将一致的数量设为I (n，m)。针对所有η (1、，N是输入语言信息101的数量)和m ( TM, M是片段信息102的数量)计算I (n，m)。例如，使用图4来说明I (6，4)的计算。图4是示出语言信息一致度103的概要的说明图。对于输入语言信息101 (左表)和片段信息102(右表)，以输入语言信息101的编号6和片段信息102的编号4为中心而分别比较上下方向的音素、高低，直至不一致的部位为止进行比较。由于在输入语言信息101的编号5 (上方向)和编号8 (下方向)中不一致，所以在此停止比较。其结果，可知输入语言信息101的编号6和编号7 —致，一致的数量为2，I (6，4)为2。如果由语言信息一致度计算部I计算出了语言信息一致度103，则候补片段选择部2根据语言信息一致度103，从上述片段辞典8选择片段信息102作为候补片段信息104。在本实施方式中，关于输入语言信息101的各编号n，设候补片段信息104是语言信息一致度103高的最多L个片段信息。例如，在片段信息102是图2，且输入语言信息101是图3的情况下，如果设为L=2，则关于输入语言信息101的7号的候补片段信息104是片段信息102的5号和9号。另外，此时，I (7，5)=2，且I (7，9)=1。如果由候补片段选择部2选择了候补片段信息104，则目标声音特征计算部3参照输入语言信息101和语言信息一致度103，根据候补片段信息104计算目标声音特征信息105。针对输入语言信息101的每个编号，根据候补片段信息104的短时间振幅谱、基本频率等计算目标声音特征信息105。例如，将计算下式而得到的声音特征信息F (n, Qmin, Pmin)作为目标声音特征信息 105Ft (η)。Ft (n) =F (η, α min, β min) = α minFb (η) + β min …式 I(以腿，β—) =lllin 1)(α./7)…式 2
OU β
权利要求
1.一种声音合成装置，其特征在于，具备: 片段辞典，存储了多个片段信息，该片段信息包括至少包括音素的片段的语言信息和所述片段的声音特征信息；语言信息一致度计算部，计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段息的语目Ih息的一致度相对应的语目息一致度；候补片段选择部，根据由所述语言信息一致度计算部计算出的语言信息一致度，从所述片段辞典选择片段信息作为候补片段信息；目标声音特征计算部，使用由所述候补片段选择部选择出的候补片段信息，计算表示目标声音的特征的目标声音特征信息；声音特征成本计算部，计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本；片段决定部，根据由所述声音特征成本计算部计算出的声音特征成本，从所述候补片段信息中决定片段信息；以及声音波形生成部，使用由所述片段决定部决定的片段信息的声音特征信息，生成声音波形。
2.根据权利要求1所述的声音合成装置，其特征在于，所述目标声音特征计算部使用由所述候补片段选择部选择出的候补片段信息和由所述语言信息一致度计算部计算出的语言信息一致度，计算所述目标声音特征信息。
3.根据权利要求1所述的声音合成装置，其特征在于，所述目标声音特征计算部使用由所述候补片段选择部选择出的候补片段信息和所述输入语言信息，计算所述目标声音特征信息。
4.根据权利要求1所述的声音合成装置，其特征在于，所述声音波形生成部具备声音特征变形部，该声音特征变形部使用所述目标声音特征信息，对由所述片段决定部决定的片段信息的声音特征信息进行变形。
5.根据权利要求1所述的声音合成装置，其特征在于，所述声音波形生成部将由所述片段决定部决定的多个片段信息的声音特征信息连接而生成声音波形。
6.—种声音合成方法,其特征在于,具有: 语言信息一致度计算步骤，参照存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息的片段辞典，计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度；候补片段选择步骤，根据在所述语言信息一致度计算步骤中计算出的语言信息一致度，从所述片段辞典选择片段信息作为候补片段信息；目标声音特征计算步骤，使用在所述候补片段选择步骤中选择出的候补片段信息，计算表示目标声音的特征的目标声音特征信息；声音特征成本计算步骤，计算与在所述目标声音特征计算步骤中计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本；片段决定步骤，根据在所述声音特征成本计算步骤中计算出的声音特征成本，从所述候补片段信息中决定片段信息；以及声音波形生成步骤，使用在所述片段决定步骤中决定的片段信息的声音特征信息，生成声音波形。
7.根据权利要求6所述的声音合成方法,其特征在于，在所述目标声音特征计算步骤中，使用在所述候补片段选择步骤中选择出的候补片段信息和在所述语言信息一致度计算步骤中计算出的语言信息一致度，计算所述目标声音特征信息。
8.根据权利要求6所述的声音合成方法,其特征在于，在所述目标声音特征计算步骤中，使用在所述候补片段选择步骤中选择出的候补片段信息和所述输入语言信息，计算所述目标声音特征信息。
9.根据权利要求6所述的声音合成方法,其特征在于，所述声音波形生成步骤具有声音特征变形步骤，在该声音特征变形步骤中，使用所述目标声音特征信息，对在所述片段决定步骤中决定的片段信息的声音特征信息进行变形。
10.根据权利要求6所述的声音合成方法,其特征在于，在所述声音波形生成步骤中，将在所述片段决定步骤中决定的多个片段信息的声音特征信息连接而生成声音波形。
全文摘要
本发明提供声音合成装置及声音合成方法，得到保持语调的自然性、自然嗓音感高、片段之间的音色的连续性也高的合成声音。具备片段辞典，存储了多个片段信息；语言信息一致度计算部，计算与输入语言信息和片段辞典的片段信息的语言信息的一致度对应的语言信息一致度；候补片段选择部，根据语言信息一致度选择片段信息作为候补片段信息；目标声音特征计算部，使用候补片段信息计算目标声音特征信息；声音特征成本计算部，计算与目标声音特征信息和候补片段信息的声音特征信息的距离对应的声音特征成本；片段决定部，根据声音特征成本从候补片段信息中决定片段信息；声音波形生成部，使用决定的片段信息的声音特征信息生成声音波形。
文档编号G10L13/02GK103226945SQ201310013370
公开日2013年7月31日申请日期2013年1月15日优先权日2012年1月31日
发明者大塚贵弘, 川岛启吾, 古田训, 山浦正申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大塚贵弘;川岛启吾;古田训;山浦正
技术所有人：三菱电机株式会社
我是此专利的发明人

上一篇：S状音箱多弦胡琴的制作方法
上一篇：使用语音识别执行用户功能的方法及装置的制作方法