声音合成装置、声音合成方法以及程序的制作方法

文档序号：2831723阅读：553来源：国知局

专利名称：声音合成装置、声音合成方法以及程序的制作方法
技术领域：
(关联申请)本申请要求在先日本专利申请2007_039622号(2007 年2月20日提交)的优先权，上述在先申请的所有记载内容通过引用而被编入记载在本申请中。
本发明涉及声音合成技术，特别是涉及用于从文本合成声音的声音合成装置、声音合成方法以及程序。
背景技术：
以往，开发了各种解析文本句子(亍年7卜文)并通过规则合成从该句子所表示的声音信息生成合成声音的声音合成装置。
图9是表示一般的规则合成型声音合成装置的一个例子的结构的图。具有该结构的声音合成装置的结构和动作的详细情况例如可以参照非专利文献1 3和专利文献1、 2的记载。
参照图9可知，该声音合成装置具有语言处理部10、韵律生成部 11、片段(素片)选择部16、声音片段信息存储部15、韵律控制部18、以及波形连接部19。
声音片段信息存储部15具有存储被分割成声音合成单位的原声音波形(以下称为"声音片段")的声音片段存储部152、以及存储各声音片段的属性信息的附属信息存储部151。
这里，原声音波形是为了生成合成声音而预先收集的自然声音波形。
声音片段的属性信息是指各声音片段被发声的音素环境、基音频率、振幅、持续时间信息等音韵信息和韵律信息。
在图9的声音合成装置中，声音合成单位多使用音素、CV、 CVC、 VCV (V为元音，C为辅音)等。声音片段的长度、合成单位的详细情况记载在非专利文献1和3中。语言处理部10对输入的文本句子进行语素解析、句法结构解析、读音等分析，将音素符号等表示"读法"的符号串、语素的词性、变形、重音类型等作为语言处理结果输出给韵律生成部11和片段选择部16。
韵律生成部ll根据从语言处理部IO输出的语言处理结果来生成合成声音的韵律信息(与基音、时间长度、能量等相关的信息)，并将生成的
韵律信息输出给片段选择部16和韵律控制部18。
片段选择部16从声音片段信息存储部15所存储的声音片段中选择出与语言处理结果和所生成的韵律信息相关的适合度高的声音片段，并与所选择的声音片段的附属信息一起输出给韵律控制部18。
韵律控制部18从所选择的声音片段生成具有由韵律生成部11生成的韵律的波形并输出给波形连接部19。
波形连接部19连接从韵律控制部18输出的声音片段并作为合成声音输出。
片段选择部16基于输入的语言处理结果和韵律信息，对每一预定的合成单位求出表示目标合成声音的特征的信息(称为"目标片段环境")。
作为目标片段环境所包含的信息，可以列举出该*先前*后续的各音素名称、有无重读(stress)、到重音中心(accent nuclear)的距离、合成单位的代表点起始点终点处的基音频率和能量、单位的持续时间长度。
然后，当给出了目标片段环境后，片段选择部16从声音片段信息存储部15中选择出与根据目标片段环境指定的特定的信息(主要是该音素)相符的多个声音片段。被选择的声音片段成为合成所使用的声音片段的候选。
片段选择部16对被选择的候选片段计算"成本"，该"成本"是表示作为合成所使用的声音片段的适合度的指标。由于以生成高音质的合成声音为目标，因此如果成本小、即适合度高，则合成声音的音质变高。因此，成本可以说是用于推定合成声音的音质的劣化度的指标。
由片段选择部16计算的成本包括单位成本和连接成本。单位成本表示通过在目标片段环境下使用候选片段而产生的推定音质劣化度，根据候选片段的片段环境与目标片段环境的类似度来计算。
另一方面，连接成本表示由于连接的声音片段之间的片段环境不连续而产生的推定音质劣化度，根据相邻候选片段之间的片段环境的亲和度来计算。
到现在为止提出了各种单位成本和连接成本的计算方法。一般来说，单位成本的计算使用目标片段环境所包含的信息。连接成本使用片段的连接边界处的基音频率、倒谱、能量、以及它们的A量(每单位时间的变化量)。
片段选择部16在针对每一片段计算出连接成本和单位成本后，对各合成单位唯一地求出连接成本和单位成本这两者为最小的声音片段。
通过成本最小化求出的片段作为最适合声音合成的片段而被从候选片段中选出，因此称为"最适合片段"。
片段选择部16在将所有合成单位作为对象而求出了各自的最适合片段后，最终将最适合片段的系列(最适合片段系列)作为片段选择结果输
出给韵律控制部18。
在片段选择部16中如上所述那样选择单位成本小的声音片段、即具有接近目标韵律(目标片段环境所包含的韵律信息)的韵律的声音片段，但是选择具有与目标韵律相同的韵律的声音片段的情况非常少。
因此，一般来说，在选择了片段后，在韵律控制部18中对声音片段波形进行处理，修正成使声音片段的韵律与目标韵律相一致。
作为修正声音片段的韵律的代表性的方法，例如有非专利文献4所记载的PSOLA (pitch-synchronous-overlap-add,基音同步叠加)方式。
但是，韵律的修正处理是导致合成声音音质下降的主要因素。特别是基音频率的变化对音质下降的影响大，因此如果变化量大的话，则音质下降程度变大。
针对这样的问题，正在开发通过尽可能小的韵律变化量来合成的方式。例如，如非专利文献5和6那样提出了准备数量庞大的声音片段、并且完全不对声音片段的韵律进行修正的方式。在这样的方式中，由于片段的数量庞大，因此对于某输入文本，会选
择与目标韵律的类似度非常高的声音片段，即使不对韵律进行修正，也会生成具有自然的韵律的合成声音。
但是，难以始终生成具有自然的韵律的合成声音，另外还存在着要求庞大的存储容量等问题。
另外，在非专利文献7中，采用了对基音频率的变化量设定上限值或者收录具有各种基音频率的片段等方法。
专利文献1:日本专利文献特开2005—91551号公报；专利文献2:日本专利文献特开2006_84854号公报；非专禾U文献 1 : Huang ， Acero ， Hon :" Spoken Language
Processing" ， Prentice Hall, pp. 689 —836， 2001;
非专利文献2:石川"音声合成(Dt^O韻律制御CD基礎"，电子
信息通信学会技术研究报告，Vol.lOO， No.392， pp.27—34， 2000;
非专利文献3:阿部"音声合成Ot^O合成単位(D基礎"，电子
信息通信学会技术研究报告，Vol.lOO， No.392， pp.35—42， 2000;
非专禾U文献 4 : Moulines ， Charapentier : " Pitch — Synchronous Waveform Processing Techniques For Text — To — Speech Synthesis Using Diphones" ， Speech Communication 9 ， pp.453—467， 1990;
非专利文献5: Segi， Takagi， Ito: "A CONCATENATIVE SPEECH SYNTHESIS METHOD USING CONTEXT DEPENDENT PHONEME SEQUENCES WITH VARIABLE LENGTH AS SEARCH UMTS "， Proceedings of 5th ISCA Speech Synthesis Work Shop, pp. 115 — 120， 2004;
非专利文献6: Kawai， Toda， Ni， Tsuzaki， Tokuda: "A NEW TTS FROM ATR BASED ON CORPUS _ BASED TECHNOLOGIES "， Proceedings of 5th ISCA Speech Synthesis Work Shop, pp. 179 — 184， 2004;
非专利文献7:小山、吉冈、高桥、中村"t。、;/于変更幅全抑免t
VCV波形素片生成機構全to高品質波形規則合成方式"，电子信息通信学会论文志，D—II, Vol.J83—D—II， No.ll， pp.2264—2275， 2000。

发明内容
发明所要解决的问题
上述专利文献1、 2和非专利文献1至7的所有公开内容通过引用而被编入记载在本申请文件中。以下，对本发明的相关技术进行分析。上述非专利文献7等所记载的声音合成装置具有以下问题。合成声音的音质容易变得不均匀。
在如非专利文献7那样通过进行韵律控制来提高合成声音的韵律的自然性的方式中，为了减小伴随着韵律控制而产生的音质劣化，一直采取选择具有与目标韵律的类似度高的韵律的声音片段、即选择要求的韵律变化量小的声音片段的方针。因此，在同一句子内(最适合片段系列内)产生了某些声音片段的韵律与目标韵律的类似度高、其他声音片段的韵律与目标韵律的类似度低等状态，即产生了韵律类似度不同的声音片段混杂在一起的状态。
关于该状况，将韵律信息限定于基本频率并使用图IO来进行说明。图IO是为了说明以上问题而由本发明的发明人等制作的。
图10的(a)是表示目标片段环境和候选片段的基音图案(pitch pattern)(基本频率的大致形状)的例子的图。在图10的(a)中，粗的实线表示目标基音图案，ul到u7的细的实线表示各候选片段的基音图案，Tl到T5表示合成单位的边界时刻。
在相关技术中，在各合成单位区间中最接近目标基音图案的候选片段被选择作为最适合片段系列，在图10的(a)的例子中，ul、 u2、 u3、 u4、 u5被选择为最适合片段系列。
在图10的(b)中，针对各个合成单位区域的每一个表示了选择了 ul 到u5时的韵律变化量(这里即基本频率的变化量)。
由于目标基音图案和候选片段基音图案的差为韵律变化量，因此变为如图10的(b)所示那样。如图10的(b)所示，可知从T0到T5，韵律变化量不一致。如果像这样在同一句子内韵律变化量不一致，则会导致合成声音的音质的不均匀感(某些部分为高音质，某些部分为低音质)。
该音质的不均匀性是损害对合成声音的综合印象的原因。特别是如果音质的不均匀性大，则对于合成声音的印象比始终为同等的低音质时更差。
因此，本发明是鉴于上述问题而完成的，其主要目的在于提供一种消除了合成声音的音质的不均匀感的装置、方法以及程序。用于解决问题的手段
本发明的第一方面的声音合成装置具有从候选片段中选择适合目标片段环境的片段的片段选择部，所述片段选择部将具有以下韵律变化量的片段从所述选择的对象中排除，所述韵律变化量与根据所述候选片段的韵律变化量确定的选择基准之间的大小关系为预先确定的预定关系。在本发明中，所述片段选择部具有韵律变化量计算部，根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部，根据所述韵律变化量来计算选择基准；候选选择部，根据所述韵律变化量和所述选择基准来进行选择候选的縮选；以及最适合片段检索部，从所述被縮选出的候选片段中检索最适合片段。
根据上述第一发明，计算候选片段的韵律变化量，并根据从该韵律变化量求出的选择基准将选择基准与韵律变化量之间的大小关系为预先确定的预定关系(例如相对地韵律变化量特别地小)的声音片段从候选中排除，由此来减小被选择的可能性高的声音片段的韵律变化量的离散程度。结果，韵律变化量被均匀化，因此使得由于韵律控制而产生的音质下降的程度均匀化，从而能够消除音质的不均匀感。
本发明的第二方面的声音合成装置具有从候选片段中选择适合目标片段环境的片段的片段选择部，所述片段选择部具有最适合片段检索部，根据所述目标片段环境和所述候选片段的片段环境来检索最适合片段；韵律变化量计算部，根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部，根据所述韵律变化量来计算选择基准；以及判断部，当所述最适合片段中存在具有以下韵律变化量的片段时判断为需要再执行最适合片段的检索，所述韵律变化量与所述选
择基准之间的大小关系为预先确定的预定关系；在所述判断部判断为需要再执行最适合片段的检索的情况下，所述最适合片段检索部执行最适合片段的再检索。
在本发明中，所述韵律变化量计算部仅将所述最适合片段作为对象来计算韵律变化量。
在本发明中，所述最适合片段检索部将不满足所述选择基准的片段从候选中排除并执行最适合片段的再检索。
本发明的第三方面的声音合成装置具有从候选片段中选择适合目标片段环境的片段的片段选择部，所述片段选择部具有韵律变化量计算部，根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部，根据所述韵律变化量来计算选择基准；单位成本计算部，根据所述目标片段环境和所述候选片段的片段环境来计算各
候选片段的单位成本；以及最适合片段检索部，根据所述单位成本来从所述候选片段中检索最适合片段；所述单位成本计算部对具有以下韵律变化量的片段的单位成本赋予罚分，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
在本发明中，所述单位成本计算部根据所述韵律变化量与所述选择基准之间的相对关系来决定所述罚分。
在本发明中，所述选择基准计算部根据所述韵律变化量的平均值来确定选择基准。
在本发明中，所述选择基准计算部根据将所述韵律变化量在时间方向上平滑化而得到的值来确定选择基准。
本发明的声音合成方法具有从候选片段中选择适合目标片段环境的片段的步骤，在所述选择片段的步骤中，将具有以下韵律变化量的片段从选择对象中排除，所述韵律变化量与根据候选片段的韵律变化量确定的选择基准之间的大小关系为预先确定的预定关系。
本发明的其他方面的方法具有从候选片段中选择适合目标片段环境的片段的步骤，所述选择片段的步骤包括以下步骤根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵
律变化量来计算选择基准；根据所述韵律变化量和所述选择基准来进行选择候选的縮选；以及从所述被縮选出的候选片段中检索最适合片段；在所述进行候选选择的縮选的步骤中，将具有以下韵律变化量的片段从最适合片段的检索对象中排除，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
在本发明中，所述计算选择基准的步骤包括以下步骤根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的成本，在所述计算选择基准的步骤中，根据所述成本来计算所述选择基准。
本发明的其他方面的方法具有从候选片段中选择适合目标片段环境的片段的片段选择部，所述选择片段的步骤包括以下步骤根据所述目标片
段环境和所述候选片段的片段环境来检索最适合片段；根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；以及当所述最适合片段中存在具有以下韵律变化量的片段时判断为需要再执行最适合片段检索，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系；当在所述进行判断的步骤中判断为需要再执行最适合片段检索时，在所述检索最适合片段的步骤中执行最适合片段的再检索。
在本发明中，在所述计算韵律变化量的步骤中，仅将所述最适合片段作为对象来计算韵律变化量。
在本发明中，在所述检索最适合片段的步骤中，将不满足所述选择基准的片段从候选中排除并执行最适合片段的再检索。
本发明的其他方面的方法具有从候选片段中选择适合目标片段环境的片段的步骤，所述选择片段的步骤包括根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的单位成本；以及根据所述单位成本来从所述候选片段中检索最适合片段；在所述计算单位成本的步骤中，对具有以下韵律变化量的片段的单位成本赋予罚分，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
在本发明中，在所述计算单位成本的步骤中，根据所述韵律变化量与所述选择基准之间的相对关系来决定所述罚分。
在本发明中，在所述计算选择基准的步骤中，根据所述韵律变化量的平均值来确定选择基准。
在本发明中，在所述计算选择基准的步骤中，根据将所述韵律变化量在时间方向上平滑化而得到的值来确定选择基准。
本发明的其他方面的计算机程序使构成声音合成装置的计算机执行从候选片段中选择适合目标片段环境的片段的处理，所述选择片段的处理包括以下处理将具有以下韵律变化量的片段从选择对象中排除，所述韵律变化量与根据候选片段的韵律变化量确定的选择基准之间的大小关系为预先确定的预定关系。
本发明的其他方面的计算机程序使构成声音合成装置的计算机执行从候选片段中选择适合目标片段环境的片段的处理，所述选择片段的处理包括以下处理根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述韵律变化量和所述选择基准来进行选择候选的縮选；以及从所述被縮选出的候选片段中检索最适合片段；所述进行选择候选的縮选的处理包括以下处理将具有以下韵律变化量的片段从最适合片段的检索对象中排除，所
述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
在本发明的计算机程序中，所述计算选择基准的处理包括以下处理根据目标片段环境和候选片段的片段环境来计算各候选片段的成本，并且包括根据所述成本来计算所述选择基准的处理。
本发明的其他方面的计算机程序使构成声音合成装置的计算机执行从候选片段中选择适合目标片段环境的片段的处理，所述选择片段的处理包括以下处理根据所述目标片段环境和所述候选片段的片段环境来检索最适合片段；根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；以及当所述最适合片段中存在具有以下韵律变化量的片段时判断为需要再执行最适合片段检索，所述韵律变化量与所述选择基准之间的大小关系为预先确定的
预定关系；当在所述进行判断的处理中判断为需要再执行最适合片段检索
时，所述检索最适合片段的处理包括执行最适合片段的再检索的处理。在本发明的计算机程序中，所述计算韵律变化量的处理包括以下处
理仅将所述最适合片段作为对象来计算韵律变化量。
在本发明的计算机程序中，所述检索最适合片段的处理包括以下处理将不满足所述选择基准的片段从候选中排除并执行最适合片段的再检索。
本发明的其他方面的计算机程序使构成声音合成装置的计算机执行从候选片段中选择适合目标片段环境的片段的处理，所述选择片段的处理包括以下处理根据所述目标片段环境和所述候选片段的韵律信息来计算各
候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的单位成本；以及根据所述单位成本来从候选片段中检索最适合片段；所述计算单位成
本的处理包括以下处理对具有以下韵律变化量的片段的单位成本赋予罚
分，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
在本发明的计算机程序中，所述计算单位成本的处理包括以下处理根据所述韵律变化量与所述选择基准之间的相对关系来决定所述罚分。
在本发明的计算机程序中，所述计算选择基准的处理包括以下处理根据所述韵律变化量的平均值来确定选择基准。
在本发明的计算机程序中，所述计算选择基准的处理包括以下处理根据将所述韵律变化量在时间方向上平滑化而得到的值来确定选择基准。
发明的效果
根据本发明，由于在片段选择部中按照使韵律变化量变得均匀的方式来选择声音片段，因此由于韵律控制而产生的音质下降的程度被均匀化，消除了音质的不均匀感。

图1是表示本发明的实施例一的结构的图2是用于说明本发明的实施例一的动作的流程图3是表示本发明的第二实施例的结构的图4是用于说明本发明的第二实施例的动作的流程图5是表示本发明的第三实施例的结构的图6是用于说明本发明的第三实施例的动作的流程图7是图5所示的单位成本修正部所使用的非线性函数的图;
图8是图5所示的单位成本修正部所使用的非线性函数的图;
图9是表示一般的声音合成装置的一个构成例子的框图IO是用于说明相关技术的问题和解决方案的图。
标号说明
10语言处理部
11韵律生成部
12单位成本计算部
13连接成本计算部
14最适合片段检索部
15声音片段信息存储部
151附属信息存储部
152声音片段存储部
16、 161、 162、 163片段选择部
17波形生成部
18韵律控制部
19波形连接部
20、 31韵律变化量计算部
21、 32选择基准计算部
22、 30候选选择部 33判断部
40单位成本修正部
具体实施例方式
说明本发明的原理。在本发明中，按照使韵律变化量变得均匀的方式来选择声音片段。即，计算候选片段的韵律变化量，根据从该韵律变化量求出的选择基准将相对地韵律变化量特别小的声音片段从候选中排除，由此使被选择的可能性高的声音片段的韵律变化量的离散程度小。由此，实现了韵律变化量的均匀化，能够使由于韵律控制而产生的音质下降的程度
均匀化，消除了音质的不均匀感。例如，在将本发明应用于图10的(a) 所示的例子的情况下，在T1 T2的区间内，u6代替u2被选择，在T3 T4的区间内，u7代替u4被选择，因此如图10的(c)所示那样韵律变化量被均匀化。以下，基于实施例来进行说明。 <实施例一〉
图1是表示本发明的第一实施例的结构的图。图2是用于说明本发明的第一实施例的动作的流程图。
参照图1可知，本发明的第一实施例中的片段选择部与表示相关技术的结构的图9不同。即，图9中的片段选择部16被置换为图l中的片段选择部161。在本发明的第一实施例中，除此以外的结构与图9相同。以下，以不同点为中心来进行说明，为了避免重复，适当地省略对同一部分的说明。
参照图l可知，在本实施例中，片段选择部161具有单位成本计算部 12、连接成本计算部13、最适合片段检索部14、韵律变化量计算部20、选择基准计算部21、以及候选选择部22。
单位成本计算部12根据从语言处理部10提供的语言处理结果和从韵律生成部11提供的韵律信息，针对每一合成单位来生成目标片段环境 (图2的步骤A1)。
在本实施例中，假定目标片段环境包括该，先前"后续的各音素名称、到重音中心的距离、合成单位的代表点处的基音频率和能量、单位的持续时间长度。
然后，单位成本计算部12从声音片段信息存储部15中将与通过目标片段环境指定的特定信息相符的多个声音片段选择作为候选片段(图2的步骤A2)。作为选择候选片段时使用的信息，相符片段的信息是代表性的，但是使用与先前音素和后续音素相关的信息来縮选候选的方法也是有效的。
然后，单位成本计算部12根据从声音片段信息存储部15提供的候选
片段的片段环境和目标片段环境来计算各个候选片段的单位成本并输出给
韵律变化量计算部20和候选选择部22 (步骤A3)。
韵律变化量计算部20根据从韵律生成部11提供的韵律信息、从单位成本计算部12提供的各候选片段的单位成本、从声音片段信息存储部15 提供的各候选片段的属性信息来计算各个候选片段的韵律变化量并传送给选择基准计算部21和候选选择部22 (步骤A4)。
韵律变化量被定义为韵律控制部18中的声音片段的韵律的变化量，实际上根据基音频率、持续时间长度、以及能量的变化量来计算。
由于能量的变化对音质的影响小，因此在本实施例中不处理能量的变化量，可以与基音频率、持续时间长度同样地来进行处理。
当基音频率的变化量为Af、持续时间长度的变化量为At时，韵律变化量Ap通过下式(1)的加权和来定义。Ap=a Af+P At …(1)
其中，a和P为加权系数。
由于基音频率对音质的影响更大，因此多采用a〉P。式(1)在基音频率、持续时间长度等的变化量通过差来定义的情况下有效。
此外，通过对Af和At的对数进行加权相加的下式(2)来求出Ap的方法也是有效的。
Ap=al0g (Af) +Plog (At)…(2)
式(2)特别是在通过比率而不是通过差来定义基音频率等的变化量时有效。
在对持续时间长度的变化量的计算中，根据变化前和变化后的时间长度的比和差来进行计算。
当变化前和变化后的持续时间长度分别为t和T时，持续时间长度的变化量在根据比来进行计算时通过下式(3)或(4)来定义。 △ t=^ …(3)
log
、7乂
(4)
在使用了 t和T的差的情况下，At例如被定义为下式(5)或(6)的
距离空间。
△ t= (t一T) 2 …(5)
At叫卜" ...(6)
基音频率的变化量也与持续时间长度同样地根据变化前和变化后的基音频率的比率或差来计算。
但是，与持续时间长度的情况不同，由于基音频率在各单位的例如起
始点中点终点这三点的值不同的情况较多，因此在使用多处的值来进
行计算的情况下能够以更高的精度计算出基音频率的变化量。
在使用N点的基音频率来计算基音频率的变化量的情况下，基音频率
的变化量Af通过下式(7)或(8)给出。
△ f=flA …(7)
△f=IX(/「... (8)
其中，fk和Fk分别表示变化前的基音频率和变化后的基音频率，Wk 表示权重系数。
式(7)是变化量使用比率时的定义，式(8)是变化量使用差时的定义。
在式(7)中，将k=0 N—l时的各个比(fk/Fk)相乘而得到的值作为Af。在根据比来计算的情况下，也可以使用对数。S口，在式(7)中，将fk/Fk置换为log (fk/Fk)。
在使用起始点中点终点的情况下，N=3。N越大，越能高精度地计算出基音频率的变化量，但是计算变化量所需要的计算量增多。
如果利用各点的基音频率的梯度，则与单纯地增大N的值的情况相比，能够通过少的计算量来进行高精度的计算。
有时也可以通过计算单位成本时获得的中间值来近似通过以上定义给出的韵律变化量。即使在希望牺牲近似精度来减少计算量的情况下，不计算韵律变化量而是代之以使用单位成本或者在其计算中途获得的值的方法也是有效的。
在选择基准计算部21中，使用最终被选择作为最适合片段的可能性
高、即单位成本低的候选片段的韵律变化量来计算选择基准。
因此，在韵律变化量计算部20中，如果仅将单位成本低的候选片段作为对象来计算韵律变化量的话，则与将所有候选片段作为对象的情况相比，也能够减少韵律变化量的计算量。
选择基准计算部21根据从韵律变化量计算部20提供的各候选片段的韵律变化量来计算为了縮选候选片段而需要的候选选择基准并提供给候选选择部22 (步骤A5)。
候选选择部22的主要的目的在于最终从被选择作为最适合片段 (也称为"最适合声音片段")的可能性高的候选片段中，将韵律变化量显著地比其他片段小的片段从候选中排除。
因此，基本上来说将各合成单位的优良候选片段(单位成本低的片段)的韵律变化量作为主要的分析对象来进行分析并计算出选择基准。
考虑选择基准值采用所有合成单位所通用的值的情况和采用针对每一合成单位逐次计算出的值的情况。另外，有时也采用重音句或换气单位这样的某特定的范围所通用的值的情况。
选择基准的基本的计算步骤如下。首先，针对每一合成单位挑选分析对象，求出代表值。然后，使用各合成单位的代表值来计算基准值。
不挑选分析对象而求出代表值的方法、不求出代表值而计算基准值的方法也是有效的。
分别更加详细地说明在本实施例中使用的分析对象的挑选、代表值的计算、以及选择基准值的计算。 <分析对象的挑选〉
有多种挑选在计算选择基准值时使用的韵律变化量的对象的方法、即挑选分析对象的方法。
最简单并有效的方法是将各合成单位的最佳候选片段(单位成本最低的片段)的韵律变化量作为分析对象的方法。
在该情况下，由于分析对象对于各合成单位为一个，因此该方法同时也是求出代表值的方法。
在对各合成单位准备多个分析对象的情况下，以单位成本为基准来挑选分析对象的方法、即将单位成本小于预定值的候选片段的韵律变化量作为分析对象的方法、
在各合成单位中将按照单位成本从低到高的顺序取的N个(最优良的N个)作为分析对象的方法也是有效的。
当然，也可以将所有的候选片段的韵律变化量作为分析对象。
<代表值的计算〉
在计算选择基准时求出必要的各合成单位的代表值的方法也同样有多个。
作为最常用的代表值，有分析对象的平值、中央值、最佳值等统计不是从分析对象直接计算代表值、而是通过以根据单位成本确定的权重被加权的分析对象来计算代表值的方法也是有效的。即，通过对单位成本低的片段的韵律变化量赋予大的权重，在计算选择基准时增大了单位成本低的片段的影响。与该单位成本相对应的权重不仅对于计算代表值是有效的，而且对于从多个分析对象计算选择基准也是有效的。 <选择基准值的计算>
作为选择基准值的代表性的计算方法，可以列举出，计算平均值的方法、以及
在时间方向上平滑化的方法。
在使用平均值的情况下，基本上来说将各合成单位的代表值的平均值作为选择基准而计算出来。
在求所有合成单位的共同的选择基准的情况下，使用所有的合成单位的代表值来计算，在针对每一重音句来求选择基准的情况下，使用构成各重音句的合成单位的代表值来计算。
另外，也有不计算代表值、而是计算所有的分析对象的平均值的方法。
在使用平滑化的情况下，基本上针对每一合成单位来计算选择基准。由于计算出在时间方向上被平滑化了的值，因此在对于各合成单位来说存在多个分析对象的情况下，使用首先求出各合成单位的代表值、然后使该代表值在时间方向上平滑化的方法。
作为代表性的平滑化方法，可以列举出移动平均、以及
'一次泄漏积分(leakintegration)等。
这里，在合成单位由K个构成的区间(重音句、换气单位等)中，当假定第i个合成单位的代表值(例如最佳候选片段的韵律变化量)为Aq (0 、并通过一次泄漏积分进行平滑化来获得选择基准的情况下，第i个合成单位的选择基准L (i)通过下式(9)给出。
<formula>formula see original document page 33</formula>
^是满足0< Y<1的时间常数，并设定为L(一1) =0。候选选择部22根据从选择基准计算部21提供的选择基准值、从韵律变化量计算部20提供的候选片段的韵律变化量、从单位成本计算部12提供的各候选片段信息及其单位成本来縮选候选片段，并将被再选择了的候选片段的信息及其单位成本传送给连接成本计算部13 (步骤A6)。
基本上来说，在候选选择部22中，从单位成本低的候选片段中，根据选择基准将韵律变化量比其他片段小的片段从最适合片段的候选中排除。
作为最简单的方法，有将韵律变化量远远小于选择基准的片段作为排除对象的方法。
艮口，在第i个合成单位中，当选择基准为L (i)、第j个候选片段的韵律变化量为Ap (i， j)时，在通过下式(10)或(11)得到的值il小于阈值0的情况下，该片段被从选择候选中排除。
<formula>formula see original document page 33</formula>
其中，Wi、 W2为常数(正的实数)。
在韵律变化量Ap (i， j)根据差来定义的情况下，式(10)是有效的，在根据比率来定义的情况下，式(11)是有效的。
除此之外，根据选择基准和韵律变化量的比率来计算ri的方法等也是
有效的。连接成本计算部13根据从候选选择部22提供的候选片段信息和从声
音片段信息存储部15提供的各声音片段的属性信息来计算各候选片段的
连接成本，并将各候选片段的单位成本和连接成本传送给最适合片段检索
部14 (步骤A7)。
各片段的单位成本与候选片段信息一起由候选选择部22提供，但是不利用于连接成本的计算。
最适合片段检索部14根据从连接成本计算部13提供的候选片段信息、单位成本以及连接成本，求出单位成本和连接成本的加权和为最小的声音片段系列(最适合片段系列)，并传送给韵律控制部18 (步骤 A8)。
最适合片段系列既可以通过对所有的声音片段的组合来计算单位成本和连接成本的加权和来搜索，也可以通过使用动态规划法来有效地搜索。
在本实施例中，在候选选择部22中的选择基准被预先决定了的情况下，或者在从声音合成装置的外部输入的情况下、即在不需要基于韵律变化量来计算的情况下，不需要选择基准计算部21。在该情况下，可以削减计算选择基准所需要的计算量。
根据本实施例的声音合成装置，计算出候选片段的韵律变化量，并根据从该韵律变化量求出的选择基准将相对地韵律变化量特别小的声音片段从候选中排除，由此被选择的可能性高的声音片段的韵律变化量的离散程度变小。
结果，由于韵律变化量被均匀化，因此使得由于韵律控制而产生音质下降的程度均匀化，从而能够消除音质的不均匀感。 <实施例2〉
图3是表示本发明的第二实施例的结构的图。图4是用于说明本发明的第二实施例的动作的流程图。比较表示上述实施例1的结构的图l和图3可知，本实施例与图l具有以下不同点。
(A) 候选选择部22被置换为候选选择部30。
(B) 韵律变化量计算部20被置换为韵律变化量计算部31 。
(C) 新设置了判断部33。
(D) 代替选择基准计算部21而设置了选择基准计算部32。
(E) 在图1中，连接成本计算部13配置在候选选择部22与最适合片段检索部14之间，但是在图3中，连接成本计算部13配置在单位成本计算部12与候选选择部30之间，根据来自单位成本计算部12的信息(候选片段的信息和来自声音片段信息存储部的各声音片段的属性信息)来计算连接成本。候选选择部30根据来自连接成本计算部13的输出和判断部 33的判断结果来縮选候选。
(F) 另外，在图1中，最适合片段检索部14与连接成本计算部13 连接，其输出与波形生成部17的韵律控制部18连接，但是在图3中，最适合片段检索部14与候选选择部30连接，其输出与判断部33和韵律变化量计算部31连接。
除此之外，与图1的上述实施例l相同。以下，以这些不同点为中心来说明详细的动作。
韵律变化量计算部31根据从最适合片段检索部14输出的最适合片段、从韵律生成部ll提供的韵律信息、以及从声音片段信息存储部15提供的各最适合片段的属性信息来计算各候选片段的韵律变化量并传送给选择基准计算部32和判断部33 (步骤B1)。
在本实施例中，韵律变化量计算部31不是将候选片段、而是仅将最适合片段作为韵律变化量计算的对象，这一点与上述实施例1的韵律变化量计算部20不同。
韵律变化量的计算方法使用与上述实施例1的韵律变化量计算部20
35所使用的方法完全相同的方法。
选择基准计算部32根据从韵律变化量计算部31提供的各片段的韵律变化量来计算为了判断韵律变化量显著地小的片段的存在而需要的选择基准值并提供给判断部33 (步骤B2)。
判断部33判断在最适合片段中是否存在韵律变化量比其他片段显著地小的片段。
与上述实施例1的选择基准计算部21的不同点在于计算选择基准值时所使用的韵律变化量的对象被唯一地决定为最适合片段这一点。
其他的选择基准的计算方法等与上述实施例1的选择基准计算部21 所使用的方法完全相同。
另外，在本实施例中，在选择基准的计算中使用从候选片段中选择出的最适合片段的韵律变化量，但是也可以与上述实施例1同样地使用候选片段的韵律变化量。在该情况下，选择基准计算部32计算出候选片段的韵律变化量而不是最适合片段的韵律变化量。
判断部33根据从最适合片段检索部14提供的最适合片段、从韵律变化量计算部31提供的各片段的韵律变化量、以及从选择基准计算部32提供的选择基准来判断是否存在韵律变化量比其他片段显著地小的片段(步骤B3)。
并且，判断部在判断为存在韵律变化量比其他片段显著地小的片段的情况下将韵律变化量显著地小的片段传送给候选选择部30。判断部33在判断为不存在韵律变化量比其他片段显著地小的片段的情况下将最适合片段传送给韵律控制部18。
但是，由于没有从最适合片段检索部14提供清除(clear)选择基准 (判断为不存在)的最适合片段的保证，因此需要对再检索次数设定上限。因此，记录再检索次数，在再检索次数超过了预定的上限值的情况下将最适合片段传送给韵律控制部18 (步骤B4)。
判断方法与在上述实施例1的候选选择部22中将片段从选择候选中
排除的方法相同。即，如果存在韵律变化量远远小于判断基准的片段，则判断存在韵律变化量显著地小的片段。
候选选择部30从由连接成本计算部13提供的候选片段中，将从判断部33提供的片段从候选中排除，并将未被排除的候选片段和它们的单位成本以及连接成本传送给最适合片段检索部14 (步骤B5)。
在未从判断部33提供的情况下、即在判断部33动作之前不存在应排除的片段，因此直接将连接成本计算部13的输出传送给最适合片段检索部14。
根据本实施例，在选择了最适合片段后，检测韵律变化量比其他片段显著地小的片段，将检测出的片段从候选中排除并进行再检索。
因此，如果以少的再检索次数结束了，则作为韵律变化量计算对象的片段的数量比实施例1少。即，能够通过比实施例1少的计算量来排除韵律变化量比其他片段小的片段。
<实施例3〉
图5是表示本发明的第三实施例的结构的图。图6是用于说明本发明的第三实施例的动作的流程图。比较表示上述实施例1的结构的图l和图 5可知，图l的候选选择部22被置换为单位成本修正部40。除此以外的结
构与图l相同。
单位成本修正部40根据从选择基准计算部21提供的选择基准、从韵律变化量计算部20提供的候选片段的韵律变化量、从单位成本计算部12 提供的各候选片段信息及其单位成本来修正韵律变化量比其他片段小的候选片段的单位成本，并将候选片段及其单位成本传送给连接成本计算部13(步骤C1)。
与实施例1的候选选择部22的主要的不同点在于由于不是完全从候选片段中排除，因此在作为候选片段保留的情况下将单位成本与被称为
"罚分(penalty)"的值相加，使之在最适合片段检索部14中难以被选择作为最适合片段。
在上述实施例1中，如果难以恰当地设定候选选择部22中的阈值9 的值、n的计算式，则无法恰当地排除候选片段。
特别是如果存在具有虽然与阈值e非常接近、但是不满足排除基准的韵律变化量的候选片段，则可能会被选择作为最适合片段并对韵律变化量的均匀化造成不良影响。
如果根据各片段的韵律变化量和选择基准值的差或比率的大小来追加
罚分，则可以期待在实施例l中具有虽然与阈值e非常接近、但是不满足
排除基准的韵律变化量的候选片段在本实施例中不被选择作为最适合片段。
作为罚分的计算方法，计算各片段的韵律变化量与选择基准值的差、
使用图7所示的非线性函数并使得该差越大则罚分越大的方法是有效的。艮P，当某片段的修正前单位成本为C (i， j)、韵律变化量为Ap (i， j)、选择基准为L (i)时，修正后的单位成本5 (i， j)通过下式(12) 给出。
5 (i， j) =C (i, j) +g (L (i) _Ap (i， j)) …(12) 其中，g ( )是图7所示的非线性函数，在输入了 x的情况下，函数值g (x)通过下式(13)给出。
<formula>formula see original document page 38</formula>其中，ai、 a2、 b,为正的实数，并且满足式(14)。 (Xa-a2、 (Xb! …(14)
如果x变大、g (x)不变小(非减小)是上式(12)的非线性函数g (x)所要求的条件。除了式(13)以外，也可以使用满足该条件的线性函数、高次多项式、含有加权相加计算的任意的函数。
使用式(12)的方法在韵律变化量根据差来定义的情况下有效，在韵律变化量根据比率来定义的情况下，根据各片段的韵律变化量和选择基准值的比率来计算的方法有效。
在使用比率的情况下，当某片段的修正前单位成本为C (i， j)、韵律变化量为Ap (i， j)、选择基准为L (i)时，修正后的单位成本5 (i， j)通过下式(15)给出。
5 (i， j)=
C(/，；),A^J)>1.0 .C(U)，A^,/^1.0
(15)
其中，h ( )是图8所示的非线性函数，在输入了 x的情况下，函数值h (x)通过下式(16)给出。
h (x)=
0, x < a3 62(x-"3)
(a4-"3)
Z 2, X ^ fl4
，o3 S x < a4
(16)
其中，a3、 a4、 b2为正的实数，并且满足式(17)。 0<a3《a4、 1.0<b2 …(17)
h (x)要求与g (x)相同的条件。
在式(12)中，罚分通过和给出，但是在式(15)中罚分通过积给出。因此，函数h (x)的下限值为l.O。
根据本实施例，通过使根据各片段的韵律变化量与选择基准值的差计
39算出的罚分和单位成本相加，使得在最适合片段检索部14中难以被选择作为最适合片段。
因此，即使是实施例l中的具有虽然与阈值e非常接近但是不满足排
除基准的韵律变化量、因此被选择作为最适合片段系列的候选片段，在本实施例中也不会被选择作为最适合片段。
结果，促进了韵律变化量的均匀化，改善了音质的不均匀感。
另外，由于不是被从最适合片段的选择候选中完全排除，因此在实施例1中成为排除对象的片段根据其他的选择基准而被选择。
结果，与被完全排除的情况相比，能够改善音质。
可以在本发明的所有公开内容(包括权利要求书)的框架内根据其基本的技术思想对实施方式或实施例进行变更、调整。另外，可以在本发明的权利要求书的框架内对各种公开要素进行多种组合或选择。即，不言而喻本发明包括本领域技术人员能够根据包括权利要求书在内的所有公开内容、技术思想而实施的各种变形、修正。
权利要求
1.一种声音合成装置，具有从候选片段中选择适合目标片段环境的片段的片段选择部，所述声音合成装置的特征在于，所述片段选择部执行以下控制将具有以下韵律变化量的片段从所述选择的对象中排除，所述韵律变化量与根据所述候选片段的韵律变化量确定的选择基准之间的大小关系为预先确定的预定关系。
2. 如权利要求1所述的声音合成装置，其特征在于，所述片段选择部具有韵律变化量计算部，根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部，根据所述韵律变化量来计算选择基准；候选选择部，根据所述韵律变化量和所述选择基准来进行选择候选的縮选；以及最适合片段检索部，从所述被縮选出的候选片段中检索最适合片段；所述候选选择部将具有以下韵律变化量的片段从选择候选中排除，并从所述最适合片段检索部的最适合片段的检索对象中排除，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
3. 如权利要求2所述的声音合成装置，其特征在于，所述选择基准计算部具有成本计算部，所述成本计算部根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的成本，所述选择基准计算部根据所述成本来计算所述选择基准。
4. 如权利要求1所述的声音合成装置，其特征在于，所述片段选择部具有最适合片段检索部，根据所述目标片段环境和所述候选片段的片段环境来检索最适合片段；韵律变化量计算部，根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部，根据所述韵律变化量来计算选择基准；以及判断部，当所述最适合片段中存在具有以下韵律变化量的片段时判断为需要再执行最适合片段的检索，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系；在所述判断部判断为需要再执行最适合片段的检索的情况下，所述最适合片段检索部执行最适合片段的再检索。
5. 如权利要求4所述的声音合成装置，其特征在于，所述韵律变化量计算部仅将所述最适合片段作为对象来计算韵律变化
6. 如权利要求4或5所述的声音合成装置，其特征在于，所述最适合片段检索部将不满足所述选择基准的片段从候选中排除并执行最适合片段的再检索。
7. 如权利要求1所述的声音合成装置，其特征在于，所述片段选择部具有韵律变化量计算部，根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部，根据所述韵律变化量来计算选择基准；单位成本计算部，根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的单位成本；以及最适合片段检索部，根据所述单位成本来从所述候选片段中检索最适合片段；所述单位成本计算部对具有以下韵律变化量的片段的单位成本赋予罚分，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
8. 如权利要求7所述的声音合成装置，其特征在于，所述单位成本计算部根据所述韵律变化量与所述选择基准之间的相对关系来决定所述罚分。
9. 如权利要求2至8中的任一项所述的声音合成装置，其特征在于，所述选择基准计算部根据所述韵律变化量的平均值来确定所述选择基准。
10. 如权利要求2至8中的任一项所述的声音合成装置，其特征在于，所述选择基准计算部根据将所述韵律变化量在时间方向上平滑化而得到的值来确定所述选择基准。
11. 一种声音合成方法，具有从候选片段中选择适合目标片段环境的片段的步骤，所述声音合成方法的特征在于，在所述选择片段的步骤中执行以下控制将具有以下韵律变化量的片段从所述选择的对象中排除，所述韵律变化量与根据候选片段的韵律变化量确定的选择基准之间的大小关系为预先确定的预定关系。
12. 如权利要求11所述的声音合成方法，其特征在于，所述选择片段的步骤包括以下步骤根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述韵律变化量和所述选择基准来进行选择候选的縮选；以及从所述被縮选出的候选片段中检索最适合片段；在所述进行候选选择的縮选的步骤中，将具有以下韵律变化量的片段从选择候选中排除，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
13. 如权利要求12所述的声音合成方法，其特征在于，所述计算选择基准的步骤包括以下步骤根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的成本，在所述计算选择基准的步骤中，根据所述成本来计算所述选择基准。
14. 如权利要求11所述的声音合成方法，其特征在于，所述选择片段的步骤包括以下步骤根据所述目标片段环境和所述候选片段的片段环境来检索最适合片段；根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；以及当所述最适合片段中存在具有以下韵律变化量的片段时判断为需要再执行最适合片段检索，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系；当在所述进行判断的步骤中判断为需要再执行最适合片段检索时，在所述检索最适合片段的步骤中执行最适合片段的再检索。
15. 如权利要求14所述的声音合成方法，其特征在于，在所述计算韵律变化量的步骤中，仅将所述最适合片段作为对象来计算韵律变化量。
16. 如权利要求14或15所述的声音合成方法，其特征在于，在所述检索最适合片段的步骤中，将不满足所述选择基准的片段从候选中排除并执行最适合片段的再检索。
17. 如权利要求11所述的声音合成方法，其特征在于，所述选择片段的步骤包括根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的单位成本；以及根据所述单位成本来从所述候选片段中检索最适合片段；在所述计算单位成本的步骤中，对具有以下韵律变化量的片段的单位成本赋予罚分，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
18. 如权利要求17所述的声音合成方法，其特征在于，在所述计算单位成本的步骤中，根据所述韵律变化量与所述选择基准之间的相对关系来决定所述罚分。
19. 如权利要求12至18中的任一项所述的声音合成方法，其特征在于，在所述计算选择基准的步骤中，根据所述韵律变化量的平均值来确定所述选择基准。
20. 如权利要求12至18中的任一项所述的声音合成方法，其特征在于，在所述计算选择基准的步骤中，根据将所述韵律变化量在时间方向上平滑化而得到的值来确定所述选择基准。
21. —种程序，使构成声音合成装置的计算机执行从候选片段中选择适合目标片段环境的片段的处理，所述程序的特征在于，所述选择片段的处理包括执行以下控制的处理将具有以下韵律变化量的片段从所述选择的对象中排除，所述韵律变化量与根据候选片段的韵律变化量确定的选择基准之间的大小关系为预先确定的预定关系。
22. 如权利要求21所述的程序，其特征在于，所述选择片段的处理包括以下处理根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述韵律变化量和所述选择基准来进行选择候选的縮选；以及从所述被縮选出的候选片段中检索最适合片段；所述进行选择候选的縮选的处理包括以下处理将具有以下韵律变化量的片段从选择候选中排除，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
23. 如权利要求22所述的程序，其特征在于，所述计算选择基准的处理包括以下处理根据目标片段环境和候选片段的片段环境来计算各候选片段的成本，并且包括根据所述成本来计算所述选择基准的处理。
24. 如权利要求21所述的程序，其特征在于，所述选择片段的处理包括以下处理根据所述目标片段环境和所述候选片段的片段环境来检索最适合片段；根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；以及当所述最适合片段中存在具有以下韵律变化量的片段时判断为需要再执行最适合片段检索，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系；当在所述进行判断的处理中判断为需要再执行最适合片段检索时，所述检索最适合片段的处理包括执行最适合片段的再检索的处理。
25. 如权利要求24所述的程序，其特征在于，所述计算韵律变化量的处理包括以下处理仅将所述最适合片段作为对象来计算韵律变化量。
26. 如权利要求24或25所述的程序，其特征在于，所述检索最适合片段的处理包括以下处理将不满足所述选择基准的片段从候选中排除并执行最适合片段的再检索。
27. 如权利要求21所述的程序，其特征在于，所述选择片段的处理包括以下处理根据所述目标片段环境和所述候选片段的韵律信息来计算各候选片段的韵律变化量；根据所述韵律变化量来计算选择基准；根据所述目标片段环境和所述候选片段的片段环境来计算各候选片段的单位成本；以及根据所述单位成本来从候选片段中检索最适合片段；所述计算单位成本的处理包括以下处理对具有以下韵律变化量的片段的单位成本赋予罚分，所述韵律变化量与所述选择基准之间的大小关系为预先确定的预定关系。
28. 如权利要求27所述的程序，其特征在于，所述计算单位成本的处理包括以下处理根据所述韵律变化量与所述选择基准之间的相对关系来决定所述罚分。
29. 如权利要求22至28中的任一项所述的程序，其特征在于，所述计算选择基准的处理包括以下处理根据所述韵律变化量的平均值来确定所述选择基准。
30. 如权利要求22至28中的任一项所述的程序，其特征在于，所述计算选择基准的处理包括以下处理根据将所述韵律变化量在时间方向上平滑化而得到的值来确定所述选择基准。
31. —种记录介质，记录有权利要求21至30中的任一项所述的程序。
32. 如权利要求2所述的声音合成装置，其特征在于，被构成为预先决定了所述候选选择部所使用的选择基准或者从所述声音合成装置的外部输入所述候选选择部所使用的选择基准，而不需要由所述选择基准计算部根据所述韵律变化量来计算选择基准。
33. 如权利要求1、 2、 4、 7中的任一项所述的声音合成装置，其特征在于，与所述选择基准和所述韵律变化量之间的大小关系相关的所述预先确定的预定关系是指所述韵律变化量比所述选择基准小。
34. 如权利要求11、 12、 14、 17中的任一项所述的声音合成方法，其特征在于，与所述选择基准和所述韵律变化量之间的大小关系相关的所述预先确定的预定关系是指所述韵律变化量比所述选择基准小。
35. 如权利要求21、 22、 24、 27中的任一项所述的程序，其特征在于，与所述选择基准和所述韵律变化量之间的大小关系相关的所述预先确定的预定关系是指所述韵律变化量比所述选择基准小。
36. 如权利要求1所述的声音合成装置，其特征在于，除了所述片段选择部以外还包括语言处理部，从文本句子生成语言处理结果，所述语言处理结果包括表示文本句子的读法的符号串、语素的词性、变形、重音信息；韵律生成部，根据所述语言处理结果来生成所生成的合成声音的韵律fe息；韵律控制部，从由所述片段选择部选择出的声音片段生成具有由所述韵律生成部生成了的韵律的波形；波形连接部，连接从所述韵律控制部输出的声音片段并作为合成声音输出；以及声音片段信息存储部，存储被分割成合成单位的声音片段和各声音片段的属性信息；所述片段选择部包括单位成本计算部，接收由所述语言处理部生成的所述语言处理结果和由所述韵律生成部生成的韵律信息，针对每一合成单位生成所述目标片段环境，从所述声音片段信息存储部选择与通过所述目标片段环境指定的信息相符的多个声音片段来作为候选片段，并根据所述候选片段的片段环境和所述目标片段环境来计算各候选片段的单位成本；韵律变化量计算部，根据所述韵律信息、多个候选片段的所述单位成本、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算所述候选片段的韵律变化量；选择基准计算部，根据所述各候选片段的韵律变化量来计算为了进行候选片段的縮选而需要的候选的选择基准；候选选择部，根据来自所述选择基准计算部的所述选择基准、来自所述韵律变化量计算部的所述韵律变化量、以及来自所述单位成本计算部的各候选片段的信息和所述单位成本来进行候选片段的縮选，此时从所述单位成本相对低的候选片段中，根据所述选择基准将所述韵律变化量比其他片段小的片段从候选中排除，并且输出通过所述縮选而选择出的候选片段的信息及其单位成本；连接成本计算部，根据所述各候选片段的信息、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算所述各候选片段的连接成本；以及最适合片段检索部，根据所述候选片段的信息、所述单位成本和所述连接成本求出最适合片段系列并提供给所述韵律控制部，所述最适合片段系列是最优化与所述单位成本和所述连接成本相关的目标函数的声音片段系列。
37.如权利要求1所述的声音合成装置，其特征在于，除了所述片段选择部以外还包括语言处理部，从文本句子生成语言处理结果，所述语言处理结果包括表示文本句子的读法的符号串、语素的词性、变形、重音信息；韵律生成部，根据所述语言处理结果来生成所生成的合成声音的韵律信息；韵律控制部，从由所述片段选择部选择出的声音片段生成具有由所述韵律生成部生成了的韵律的波形；波形连接部，连接从所述韵律控制部输出的声音片段并作为合成声音输出；以及声音片段信息存储部，存储被分割成合成单位的声音片段和各声音片段的属性信息；所述片段选择部包括单位成本计算部，接收由所述语言处理部生成的所述语言处理结果和由所述韵律生成部生成的所述韵律信息，针对每一合成单位生成所述目标片段环境，从所述声音片段信息存储部选择与通过所述目标片段环境指定的信息相符的多个声音片段来作为候选片段，并根据所述候选片段的片段环境和所述目标片段环境来计算各候选片段的单位成本；连接成本计算部，根据所述各候选片段的信息、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算所述各候选片段的连接成本；候选选择部，根据所述各候选片段的信息、所述单位成本和所述连接成本来进行候选片段的縮选并输出通过所述縮选而选择出的候选片段的信息及其单位成本；最适合片段检索部，根据所述候选片段的信息、所述单位成本和所述连接成本求出最适合片段系列并提供给所述韵律控制部，所述最适合片段系列是最优化与所述单位成本和所述连接成本相关的目标函数的声音片段系列；韵律变化量计算部，根据从所述最适合片段检索部输出的最适合片段系列的各片段、来自所述韵律生成部的韵律信息、以及来自所述声音片段信息存储部的所述最适合片段的属性信息来计算所述最适合片段的韵律变选择基准计算部，根据来自所述韵律变化量计算部的各最适合片段的韵律变化量来计算为了判断是否存在韵律变化量比其他片段显著地小的片段而需要的选择基准；以及判断部，根据来自所述最适合片段检索部的最适合片段、来自所述韵律变化量计算部的各片段的韵律变化量、以及从所述选择基准计算部提供的选择基准来判断是否存在韵律变化量比其他片段显著地小的片段，并且所述判断部执行以下控制在判断为存在韵律变化量比其他片段显著地小的片段的情况下，将韵律变化量显著地小的片段提供给所述候选选择部，执行来自所述候选选择部的候选片段的再检索，在判断为不存在韵律变化量比其他片段显著地小的片段的情况下或者在所述再检索次数超过了上限的情况下，将最适合片段提供给所述韵律控制部；所述候选选择部从由所述连接成本计算部提供的所述候选片段中，将从所述判断部提供的片段从候选中排除，并将未被排除的候选片段、以及该候选片段的单位成本和连接成本提供给所述最适合片段检索部。
38.如权利要求1所述的声音合成装置，其特征在于，除了所述片段选择部以外还包括语言处理部，从文本句子生成语言处理结果，所述语言处理结果包括表示文本句子的读法的符号串、语素的词性、变形、重音信息；韵律生成部，根据所述语言处理结果来生成所生成的合成声音的韵律 f曰息；韵律控制部，从由所述片段选择部选择出的声音片段生成具有由所述韵律生成部生成了的韵律的波形；波形连接部，连接从所述韵律控制部输出的声音片段并作为合成声音输出；以及声音片段信息存储部，存储被分割成合成单位的声音片段和各声音片段的属性信息；所述片段选择部包括单位成本计算部，接收由所述语言处理部生成的所述语言处理结果和由所述韵律生成部生成的所述韵律信息，针对每一合成单位生成所述目标片段环境，从所述声音片段信息存储部选择与通过所述目标片段环境指定的信息相符的多个声音片段来作为候选片段，并根据所述候选片段的片段环境和所述目标片段环境来计算各候选片段的单位成本；韵律变化量计算部，根据所述韵律信息、多个所述候选片段的每一个的所述单位成本、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算所述候选片段的韵律变化量；选择基准计算部，根据所述各候选片段的韵律变化量来计算为了进行候选片段的縮选而需要的候选的选择基准；单位成本修正部，根据来自所述选择基准计算部的所述选择基准、从所述韵律变化量计算部提供的候选片段的所述韵律变化量、以及从所述单位成本计算部提供的各候选片段的信息和所述单位成本来修正所述韵律变化量比其他片段显著地小的候选片段的单位成本，并输出候选片段和单位成本；连接成本计算部，根据所述各候选片段的信息、以及来自所述声音片段信息存储部的各声音片段的所述属性信息来计算各候选片段的连接成本；以及最适合片段检索部，根据所述候选片段的信息、所述单位成本和所述连接成本求出最适合片段系列并提供给所述韵律控制部，所述最适合片段系列是最优化与所述单位成本和所述连接成本相关的目标函数的声音片段系列。
39.如权利要求11所述的声音合成方法，其特征在于，所述选择片段的步骤包括以下各步骤(A) 从语言处理结果和根据所述语言处理结果生成的合成声音的韵律信息，针对每一合成单位来生成目标片段环境，所述语言处理结果从文本句子生成并包括表示读法的符号串、语素的词性、变形、重音信息；(B) 从存储有被分割成合成单位的声音片段和各声音片段的属性信息的声音片段信息存储部选择出与通过所述目标片段环境指定的信息相符的多个声音片段来作为候选片段；(c)根据所述候选片段的片段环境和所述目标片段环境来计算各候选片段的单位成本；(D) 根据所述韵律信息、多个候选片段的每一个的所述单位成本、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算所述候选片段的韵律变化量；(E) 根据所述各候选片段的韵律变化量来计算为了进行候选片段的縮选而需要的候选的选择基准；(F) 根据所述选择基准、候选片段的所述韵律变化量、以及各候选片段的信息和所述单位成本来进行候选片段的縮选，此时从所述单位成本相对低的候选片段中，根据所述选择基准将韵律变化量比其他片段小的片段从候选中排除，并且输出通过所述縮选而选择出的候选片段的信息及其单位成本；(G) 根据候选片段的信息、以及来自所述声音片段信息存储部的所述各声音片段的属性信息来计算各候选片段的连接成本；以及(H) 根据所述候选片段的信息、所述单位成本和所述连接成本求出最适合片段系列并提供给所述韵律控制使用，所述最适合片段系列是最优化与所述单位成本和所述连接成本相关的目标函数的声音片段系列。
40.如权利要求11所述的声音合成方法，其特征在于，所述选择片段的步骤包括以下各步骤(A) 从语言处理结果和根据所述语言处理结果生成的合成声音的韵律信息，针对每一合成单位来生成目标片段环境，所述语言处理结果从文本句子生成并包括表示读法的符号串、语素的词性、变形、重音信息；(B) 从存储有被分割成合成单位的声音片段和各声音片段的属性信息的声音片段信息存储部选择出与通过所述目标片段环境指定的信息相符的多个声音片段来作为候选片段；(C) 根据所述候选片段的片段环境和所述目标片段环境来计算各候选片段的单位成本；(D) 根据所述候选片段的信息和来自所述声音片段信息存储部的各声音片段的属性信息来计算各候选片段的连接成本；(E) 作为候选选择步骤，根据各候选片段的信息、单位成本和连接成本来进行候选片段的縮选并输出通过所述縮选而选择出的候选片段的信息及其单位成本；(F) 作为最适合片段检索步骤，根据所述候选片段的信息、单位成本和连接成本求出最适合片段系列并提供给所述韵律控制使用，所述最适合片段系列是最优化与所述单位成本和所述连接成本相关的目标函数的声音片段系列；(H)根据所述最适合片段系列的各片段、所述韵律信息、以及来自所述声音片段信息存储部的所述最适合片段的属性信息来计算所述最适合片段的韵律变化量；(0根据各最适合片段的韵律变化量来计算为了判断是否存在韵律变化量比其他片段显著地小的片段而需要的选择基准；以及(J)作为判断步骤，根据所述最适合片段、各最适合片段的所述韵律变化量、以及所述选择基准来判断是否存在韵律变化量比其他片段显著地小的片段，在判断为存在韵律变化量比其他片段显著地小的片段的情况下，将韵律变化量显著地小的片段提供给所述(E)的候选选择步骤使用，并执行候选片段的再检索，在判断为不存在韵律变化量比其他片段显著地小的片段的情况下或者在所述再检索次数超过了上限的情况下，将最适合片段提供给所述韵律控制使用；在所述(E)的候选选择步骤中，从候选片段中，将通过所述判断步骤提供的片段从候选中排除，并将未被排除的候选片段、以及该候选片段的单位成本和连接成本提供给所述(F)的最适合片段检索步骤使用。
41.如权利要求11所述的声音合成方法，其特征在于，所述选择片段的步骤包括以下各步骤(A)从语言处理结果和根据所述语言处理结果生成的合成声音的韵律信息，针对每一合成单位来生成目标片段环境，所述语言处理结果从文本句子生成并包括表示读法的符号串、语素的词性、变形、重音信息；(B) 从存储有被分割成合成单位的声音片段和各声音片段的属性信息的声音片段信息存储部选择出与通过所述目标片段环境指定的信息相符的多个声音片段来作为候选片段；(C) 根据所述候选片段的片段环境和所述目标片段环境来计算各候选片段的单位成本；(D) 根据所述韵律信息、多个候选片段的每一个的所述单位成本、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算所述候选片段的韵律变化量；(E) 根据各候选片段的韵律变化量来计算为了进行候选片段的縮选而需要的候选的选择基准；(F) 根据所述选择基准、各候选片段的所述韵律变化量、以及候选片段的信息和所述单位成本来修正韵律变化量比其他片段显著地小的候选片段的单位成本，并输出候选片段和单位成本；(G) 根据候选片段的信息、以及来自所述声音片段信息存储部的各声音片段的属性信息来计算各候选片段的连接成本；以及(H) 根据所述候选片段的信息、所述单位成本和所述连接成本求出最适合片段系列并提供给韵律控制使用，所述最适合片段系列是最优化与所述单位成本和所述连接成本相关的目标函数的声音片段系列。
全文摘要
提供一种能够生成由于韵律变化量的不均匀而导致的音质劣化程度小的合成声音的装置、方法以及程序。声音合成装置具有从候选片段中选择适合目标片段环境的片段的片段选择部(161)，该声音合成装置还包括韵律变化量计算部(20)，根据目标片段环境和候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部(21)，根据韵律变化量来计算选择基准；候选选择部(22)，根据韵律变化量和选择基准来进行选择候选的缩选；以及最适合片段检索部(14)，从被缩选出的候选片段中检索最适合片段。
文档编号G10L13/08GK101617359SQ20088000560
公开日2009年12月30日申请日期2008年2月15日优先权日2007年2月20日
发明者三井康行, 加藤正德, 近藤玲史申请人:日本电气株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：加藤正德;近藤玲史;三井康行
技术所有人：日本电气株式会社
我是此专利的发明人

上一篇：用于信号分离的系统、方法及设备的制作方法
上一篇：语音解码装置和语音解码方法