文本至语音转换以及调整语料库的装置和方法

文档序号：2821637阅读：176来源：国知局

专利名称：文本至语音转换以及调整语料库的装置和方法
技术领域：
本发明涉及文本至语音转换技术，尤其涉及文本至语音(TTS)转换技术中的语音速度调节技术以及调整语料库的技术。
背景技术：
目前的文本至语音转换系统和方法的目的是将输入的文本转换为具有尽可能的自然发音特性的合成语音。在此及下文中所述的自然语音特性是指真人自然发音的语音特性。该自然发音一般通过对真人朗读该文本进行录音而得到。文本至语音转换技术，尤其是用于自然发音的文本至语音转换，通常使用一个语料库。该语料库包括大量的文本及其相应的录音、韵律标注和其它基本信息标注。文本至语音转换系统和方法通常包括三部分文本分析部分、韵律参数预测部分和语音合成部分。对于要基于语料库进行语音转换的普通文本，文本分析部分负责将该文本解析成具有描述性的韵律注解的多信息文本。该韵律注解信息包括文本的发音、重音、韵律结构信息，如韵律短语边界以及停顿信息。韵律参数预测部分负责根据文本分析部分得出的结果预测文本的韵律参数，即文本的韵律语音表示，如音高、音长和音量等等。语音合成部分负责根据文本的上述韵律参数产生语音。基于自然发音语料库，该合成的语音是普通文本中所隐含的语义和韵律信息的智能物理发音结果。
基于统计学方法进行的文本至语音转换是当前TTS技术的一种重要趋势。在基于统计学的方法中，通过一个海量标注语料库对文本分析和韵律参数预测模型进行训练。然后针对每个合成片断从多个候选片断中进行选择，语音合成部分将选定的片断进行合成，从而得到所需的合成语音。
目前，文本的韵律结构是文本分析中的一种重要信息，一般认为文本的韵律结构是根据对文本进行语义学和语法学分析而得到的结果。已有技术在进行文本分析时对于韵律结构的预测并未注意到并进而考量语音速度调节对韵律结构的影响。但是，本发明在对具有不同语音速度的语料库进行比较后，发现语音速度和韵律结构是密切相关的。
此外，已有技术在进行文本至语音转换时，当需要不同的语音速度时，一般是在语音合成阶段通过调整韵律参数中的发音音长来调整语音速度。由于未考虑语音速度和韵律结构之间的关系，影响了合成语音的自然发音效果。

发明内容
根据上文所述，本发明的目的之一是提供一种改进的文本至语音转换装置和方法以获得更好的语音质量。
本发明的另一个目的是提供一种调节TTS语料库的装置和方法以满足目标语音速度的需要。
为了解决上述技术问题，本发明提供了一种文本至语音的转换方法，该方法包括文本分析步骤，用于基于由第一语料库产生的文本至语音转换模型，对所述文本进行分析以获得文本的描述性韵律注解信息；韵律参数预测步骤，用于基于上述文本分析步骤的结果对文本的韵律参数进行预测；语音合成步骤，用于基于所预测的文本的韵律参数合成所述文本的语音；其中所述文本的描述性韵律注解信息包括文本的韵律结构，所述方法还包括将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
本发明还提供了一种文本至语音转换装置，包括文本分析装置，用于基于由第一语料库产生的文本至语音转换模型，对文本进行分析以获得文本的描述性韵律注解信息，该文本的描述性韵律注解信息包括文本的韵律结构；韵律参数预测装置，用于基于上述文本分析装置获得的信息对文本的韵律参数进行预测；语音合成装置，用于基于所预测的文本的韵律参数合成所述文本的语音；韵律结构调整装置，用于将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
根据本发明的另一方面，上述目标语音速度对应于一第二语料库的语音速度。上述韵律结构包括韵律短语。本发明通过对文本的韵律短语长度分布进行调整，使得其与第二语料库的韵律短语长度分布相匹配。从而使得文本的韵律短语长度分布适合于目标语音速度。
根据本发明的另一方面，还提供了一种用于调整文本至语音转换语料库的方法，所述语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述方法包括基于一第一语料库创建用于进行韵律结构预测的决策树；为所述语料库设置一目标语音速度；基于所述决策树，为所述第一语料库建立韵律短语长度分布与语音速度之间的关系；基于所述决策树和所述关系，根据所述目标语音速度调整第一语料库的韵律短语长度分布。
本发明还提供了一种用于调整文本至语音转换语料库的装置，所述语料库为第一语料库，所述装置包括决策树创建装置，配置为基于第一语料库创建用于进行韵律结构预测的决策树；目标语音速度设置装置，配置为为所述语料库设置一目标语音速度；关系创建装置，配置为基于所述决策树为所述第一语料库建立韵律短语长度分布与语音速度之间的关系；调整装置，配置为基于所述决策树和所述关系，根据所述目标语音速度调整第一语料库的韵律短语长度分布。
如在本申请的开始部分所述，目前的文本至语音转换装置和方法的目的是将输入的文本转换为具有尽可能的自然发音特性的合成语音。本发明提供了一种改进的技术以实现这一目的。本发明提供了一种将语音速度与发音的韵律结构之间建立联系的方法和装置，并提供了一种根据语音速度的需要对文本的韵律结构进行调整的方法和装置。

图1是根据本发明的一种文本至语音转换方法的示意性流程图；图2是根据本发明的另一种文本至语音转换方法的示意性流程图；图3是根据本发明的一种文本至语音转换装置的示意性方框图；图4是根据本发明的另一种文本至语音转换装置的示意性方框图；图5是根据本发明的一种调节TTS语料库的方法的示意性流程图；图6是根据本发明的一种调节TTS语料库的装置的示意性方框图。
具体实施例方式
本发明提供了根据语音速度对文本的韵律结构进行预测的方法，以下将结合附图对本发明进行详细描述。如上文所述，已有技术在进行文本分析时对于韵律结构的预测并未注意到并进而考量语音速度调节对韵律结构的影响。但是，本发明在对具有不同语音速度的语料库进行比较后，发现语音速度和韵律结构是密切相关的。韵律结构包括韵律韵律词、韵律短语和语调短语。语音速度越快，韵律结构中的韵律短语的长度越长，语调短语的长度有可能也会越长。如果利用从具有第一语音速度的一个语料库得到的文本分析模型，对输入文本的韵律结构进行预测，其结果将与从具有另一语音速度的另一个语料库得到的韵律结构不匹配。根据以上分析可知，可以通过根据所需的语音速度对文本的韵律结构进行调整，以便获得更好的文本至语音转换的质量。为了达到此目的，还可以同时或单独对语调短语的长度分布进行调整。本发明对于对语调短语的长度分布进行调整，可以采用与对韵律短语进行调整类似的方法来进行。
对于文本韵律结构的调整，优选通过将文本的韵律短语长度分布修改为一目标分布来进行。该目标分布可以通过多种方法得到，例如该目标分布可以对应于另一个语料库的韵律短语长度分布，还可以根据实际真人的朗读录音进行分析而得到，也可以对其它多个语料库中的分布进行加权平均而得到，还可以对调整后的结果进行主观听觉评估而得到。
根据所需的语音速度对文本的韵律结构进行调整，可以通过多种方式进行。如附图1所示，对文本的韵律结构进行调整可以在对输入的文本进行分析的同时或之后进行。如图2所示，也可以在对输入的文本进行分析之前，通过对语料库进行韵律结构调整，从而影响对输入文本进行分析而得到的韵律结构。对韵律结构的调整，可以根据语音速度的要求修改用于文本韵律分析的统计模型结果或修改语法学和语义学规则，也可以通过修改文本分析的其它规则。如对于语音速度快的需求，可以设定规则合并部分韵律短语，以增加韵律短语的长度。这种合并可以通过合并相同的句子成分，也可以合并相关的句子成分等方法进行。对韵律结构的调整，还可以如下文所述通过调整韵律边界概率的阈值来进行。
图1是根据本发明的一种文本至语音转换方法的示意性流程图。在图1所示的方法中，在文本分析步骤S110，将基于由第一语料库产生的文本至语音转换模型，对要被转换为语音的文本进行分析，以获得文本的描述性韵律注解信息。该文本至语音转换模型包括文本至韵律结构预测模型和韵律参数预测模型。语料库中包括预先录制的大量文本的声音文件、该文本的相应的韵律标注，包括该文本的韵律结构标注，以及该文本的基本信息标注等等。文本至语音转换模型存储的是根据第一语料库得到的文本至语音转换的规律模型。其中，描述性韵律注解信息包括文本的韵律结构，还可以包括发音、重音等等。韵律结构包括韵律词(prosody word)、韵律短语(prosodyphrase)和语调短语(intonation phrase)。然后，在韵律结构调整步骤S120，将根据所需要的目标语音速度，对文本的韵律结构进行调整。在进行文本的韵律结构调整时，也可以同时考虑上述语料库的语音速度。本领域的技术人员可以理解韵律结构调整步骤S120既可以在文本分析步骤S110之后进行，也可以与文本分析步骤S110同时进行。在韵律参数预测步骤S130，基于上述文本分析步骤的结果以及文本至语音转换模型中的韵律参数预测模型对文本的韵律参数进行预测。文本的韵律参数包括音高(value of pitch)、音长(duration)和音量(energy)等。在语音合成步骤S140，基于所预测的文本的韵律参数以及语料库合成该文本的语音。在语音合成步骤S140，也可以同时调整所预测的韵律参数，如音长，以满足目标语音速度的要求。可以理解，调整所预测的韵律参数也可以在语音合成步骤之前进行。本领域的普通技术人员还可以理解，该方法还可以进一步包括对合成的语音进行听觉评估的步骤(图中未示出)，并根据听觉评估的结果进一步调整所述文本的韵律结构。与图2中的方法相比，图1中所示的方法尤其适于但不限于根据目标语音速度处理少量要转换语音的文本。
图2是根据本发明的另一种文本至语音转换方法的示意性流程图。根据图2所示的方法，首先在调整语料库的韵律结构的步骤S210，根据一目标语音速度对将要用于文本至语音转换的第一语料库的韵律结构进行调整。在调整语料库的韵律结构的时候，也可以同时考虑该语料库的原始语音速度。然后，在文本分析步骤S220，将基于由该调整后的语料库产生的文本至语音转换模型，对要被转换为语音的文本进行分析，以获得文本的描述性韵律注解信息。该描述性韵律注解信息包括文本的韵律结构。在韵律参数预测步骤S230，基于上述文本分析步骤的结果以及文本至语音转换模型对文本的韵律参数进行预测。在语音合成步骤S240，基于所预测的文本的韵律参数以及语料库合成该文本的语音。在语音合成步骤S240，也可以同时调整所预测的韵律参数，如音长，以满足目标语音速度的要求。与图1中的方法相比，图2中所示的方法适于但不限于根据目标语音速度处理大量要转换语音的文本。
在图1和图2所示的方法中，调整韵律结构优选通过调整韵律短语的长度分布来进行。调整韵律短语的长度分布，优选将该分布根据上文所述的目标分布来调整，尤其是将该分布与目标分布相匹配。而该目标分布可以对应于一第二语料库的韵律短语分布。在图2所示的方法中，上述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，上述第二语料库具有对应于第二语音速度以及第一韵律边界概率阈值的第二韵律短语长度分布。韵律结构的调整通过以下步骤进行根据目标语音速度调整所述第一韵律边界概率阈值，以便调整并使得所述第一语料库的韵律短语长度分布与所述第二语料库的韵律短语长度分布相匹配。而文本分析步骤则基于调整后的第一语料库对所述文本进行分析。而在图1所示的方法中，可以采用类似的方法将文本的韵律结构与该目标分布，即第二语料库的分布相匹配。
图3是根据本发明的一种文本至语音转换装置的示意性方框图。该装置被配置为适于执行图1所示的方法。在图3中，根据本发明的文本至语音转换装置300，包括文本韵律结构调整装置360、文本分析装置320、韵律参数预测装置330和语音合成装置340。文本至语音转换装置300可以调用不同的语料库，如图中所示的第一语料库310，以及由该语料库生成的文本至语音转换模型(TTS模型)315。如上文所述，语料库中包括预先录制的大量文本的声音文件、该文本的韵律标注，包括该文本的韵律结构标注，以及该文本的基本信息标注等等。文本至语音转换模型存储的是根据语料库得到的文本至语音转换规律的模型。文本至语音转换装置300也可以根据需要但并非必须包括语料库310和TTS模型315。
在图3中，文本文本分析装置320，用于基于由第一语料库310产生的文本至语音转换模型315，对输入的文本进行分析以获得文本的描述性韵律注解信息，该文本的描述性韵律注解信息包括文本的韵律结构。文本至语音转换模型315包括文本至韵律结构预测模型和韵律参数预测模型。韵律参数预测装置330接收文本分析装置320的分析结果，用于基于上述文本分析装置获得的信息以及文本至语音转换模型315对文本的韵律参数进行预测。语音合成装置340与韵律参数预测装置相耦合，接收所预测的文本的韵律参数并基于所预测的文本的韵律参数以及语料库310合成所述文本的语音。韵律结构调整装置360与文本分析装置320相耦合，用于根据合成语音的目标语音速度对所述文本的韵律结构进行调整。在进行韵律结构的调整时，也可以同时考虑语料库310的语音速度。在语音合成装置340还可以根据目标语音速度对预测的韵律参数进行调整，如调整韵律参数中的音长。
图4是根据本发明的另一种文本至语音转换装置的示意性方框图。该装置被配置为适于执行图2所示的方法。在图4中，根据本发明的文本至语音转换装置400，包括语料库韵律结构调整装置460、文本分析装置320、韵律参数预测装置330和语音合成装置340。文本至语音转换装置400可以调用不同的语料库，如图中所示的第一语料库310，以及由该语料库生成的文本至语音转换模型(TTS模型)315。文本至语音转换装置400也可以根据需要但并非必须包括语料库310和TTS模型315。该语料库310和TTS模型315如上文结合图3所述。在图4中的文本至语音转换装置400中，语料库韵律结构调整装置460配置为根据目标语音速度调整第一语料库310的韵律结构。文本分析装置320，用于基于由调整后的第一语料库310产生的文本至语音转换模型315，对输入的文本进行分析以获得文本的描述性韵律注解信息，该文本的描述性韵律注解信息包括文本的韵律结构。韵律参数预测装置330接收文本分析装置320的分析结果，用于基于上述文本分析装置获得的信息以及文本至语音转换模型对文本的韵律参数进行预测。语音合成装置340与韵律参数预测装置相耦合，接收所预测的文本的韵律参数并基于所预测的文本的韵律参数以及语料库310合成所述文本的语音。在进行韵律结构的调整时，也可以同时考虑语料库310的语音速度。在语音合成装置340还可以根据目标语音速度对预测的韵律参数进行调整，如调整韵律参数中的音长。
图5是根据本发明的一种优选的调节TTS语料库的方法的示意性流程图。本领域的普通技术人员可以理解，图中以及下述方法也适用于要转换语音的输入文本，以调整对其预测的韵律结构。在该方法用于输入文本的韵律结构时，输入文本的集合相当于下述第一语料库中的文本。在该方法中，所要调整的第一语料库具有对应于第一语音速度SpeedA以及第一韵律边界概率阈值ThresholdA的第一韵律短语长度分布DistributionA。在创建决策树的步骤S510，基于该第一语料库创建用于进行韵律结构预测的决策树。在此步骤中，首先为第一语料库中的每一个字或词提取韵律边界上下文信息，然后基于所述韵律边界上下文信息，创建所述用于韵律边界预测的决策树。每个词的上下文信息包括该词的左边和右边词汇的信息。词汇的信息包括词性(Part of Speech，POS)，音节长度或单词长度(syllable length or word length)以及其他语法信息(syntacticinformation)。
对于词汇i的边界i的特征向量F(Boundaryi)，可表示为F(Boundaryi)＝(F(wi-N)，F(wi-N-1)，...，F(wi)，...F(wi+N-1))F(wk)=(POSwk,Lengthwk,...)]]>(i-N-1≤k≤i+N-1)其中，F(Wk)表示词汇k的特征向量，POSWk表示词汇k的词性，lengthwk表示词汇k的音节或词汇长度。
基于上述信息，可以创建用于韵律结构预测的决策树。当接收到一个句子时，在提取上述特征向量并创建决策树之后，通过遍历决策树就可以得到每个词汇前后边界的概率信息。众所周知，决策树是一种统计学方法，该方法考虑了每个单元的上下文特征信息，并给出每个单元的概率信息(Probabilityi)。边界阈值(Threshold＝α)定义为如果边界概率大于α，则确定该边界，即确定了韵律短语的边界。
在设置目标语音速度的步骤S520，对所需要的语料库的目标语音速度进行设定。该目标语音速度可以对应于文本至语音转换的某个特定应用。作为优选方案，该目标语音速度可以对应于一第二语料库的第二语音速度。该第二语料库具有对应于第二语音速度SpeedB以及第二韵律边界概率阈值ThresholdB的第二韵律短语长度分布DistributionB。
在关系创建步骤S530，为所述第一语料库建立韵律结构，如韵律短语长度分布，与语音速度之间的关系。在优选方案中，韵律短语长度分布与目标语音速度之间的关系通过韵律边界概率阈值来建立。对于一给定的阈值，如果语音速度快，则就会有更多的韵律短语具有更长韵律短语长度。作为选择，该关系也可以根据创建和/或分析具有不同语音速度的语料库来创建。针对韵律短语长度分布与对应的语音速度的关系进行听觉主观评估，也可以作为创建该关系的依据。
如上文所述，具有不同语音速度的语料库中的韵律短语分布不同。如果语音速度快，则更多的韵律短语具有更长的长度。据此，可以理解如果通过调整而使阈值变小，则韵律短语的边界数量将增加，而更多的韵律短语的长度变短。相反，如果通过调整而使阈值变大，则韵律短语的边界数量将减少，而更多的韵律短语的长度变长。因此，韵律短语的长度分布与目标语音速度可以通过该阈值建立起关系。通过调整该阈值，可以使一个语料库(A)的韵律短语长度分布与另一个语料库(B)的韵律短语长度分布相匹配。该新的韵律短语分布将与语料库B的语音速度相匹配。因而，达到根据目标语音速度调整韵律结构的目的。作为选择，也可以通过调整该阈值，使一个语料库(A)的韵律短语长度分布与一目标分布相匹配。
换言之，通过调整韵律短语边界概率阈值(Threshold)，可以使得第一语料库的韵律短语长度分布与第二语料库的韵律短语长度分布相适应。例如第一语料库的第一语音速度(SpeedA)在韵律短语边界概率阈值ThresholdA＝0.5时，与第一韵律短语长度分布(DistributionA)相对应。对于具有第二语音速度SpeedB的第二语料库，在韵律短语边界概率阈值ThresholdB＝0.5时的第二韵律短语长度分布DistributionB，可以通过上述的决策树方法得到。然后，可以改变第一语料库的韵律短语边界概率阈值使得第一韵律短语长度分布(DistributionA)与第二语音速度SpeedB之下的第二韵律短语长度分布DistributionB相匹配。
对于这两个语料库，第一语音速度和第二语音速度的关系(SpeedB＝α·SpeedA)可以知道。可以调整韵律短语边界概率阈值ThresholdA使得DistributionA|(ThresholdA＝β)＝DistributionB|(ThresholdB＝0.5).
DistributionA|(ThresholdA＝β)表示第一语料库在韵律短语边界概率阈值为β时的韵律短语长度分布A。DistributionB|(ThresholdB＝0.5)表示第二语料库在韵律短语边界概率阈值为0.5时的韵律短语长度分布B。
在调整步骤S540，基于上述决策树和上述关系，根据所述目标语音速度调整第一语料库的韵律短语长度分布。在优选方案中DistributionA|(ThresholdA＝β)定义为DistributionA|(ThresholdA＝β)＝Max(Count(Lengthi))|(ThresholdA＝β)Max(Count(Lengthi))|(ThresholdA＝β)表示具有最大长度的韵律短语的分布，如具有最大长度的韵律短语的数量在所有韵律短语中所占的比例。
与此类似，也可以创建与具有其它语音速度的语料库的关系。其他与语音速度和韵律短语边界阈值相关的其它参数可以通过曲线拟和的方式来得到。
作为选择，也可以通过调整具有最大长度和第二大长度的韵律短语长度分布，或与此类似的方式，来调整文本的韵律短语的长度分布。还可以利用曲线拟和的方法匹配第一语料库与第二语料库的韵律短语长度分布。在此，通过改变第一语料库的韵律短语边界阈值，可以得到一组韵律短语长度分布的曲线。对于第二语料库，也可以得到其韵律短语长度分布曲线。可以通过比较来在该曲线组中找出与第二语料库的曲线最相近的曲线。从而可以得到相应的韵律短语边界阈值。
两条曲线之间的差别比较可以通过以下方式进行。其中，曲线可以表示为f(n)=Count(n)Σm=0MCount(m)]]>其中(n＝1，...，M)。
其中，f(n)表示长度为n的韵律短语在全部韵律短语中所占的比例，Count(n)表示长度为n的韵律短语的数量，M是韵律短语长度的最大值。
对于两条曲线f1(n)和f2(n)，它们之间的差别可以表示为Diff(f1,f2)=Σn=1M(f1(n)-f2(n))M]]>当然，也可以使用其它方式来比较两条曲线之间的差别。例如，利用夹角链码方法来表示并比较曲线，请参考赵宇和陈雁秋在软件学报的Vol.15 No.2，P300-307所描述的“曲线描述的一种方法夹角链码”。
本领域的技术人员可以理解，上述调整韵律短语长度分布的方法也适用于调整语调短语的分布。
图6是根据本发明的一种调节TTS语料库的装置的示意性方框图。该调节TTS语料库的装置被配置为适于执行图5中的方法。在图6中，用于调整文本至语音转换语料库的装置600包括决策树创建装置620、目标语音速度设置装置660、关系创建装置630、调整装置640。其中，决策树创建装置620，配置为基于第一语料库创建用于进行韵律结构预测的决策树；目标语音速度设置装置660，配置为为所述语料库设置一目标语音速度；关系创建装置630，配置为基于所述决策树为所述第一语料库建立韵律短语长度分布与语音速度之间的关系；调整装置640，配置为基于所述决策树和所述关系，根据所述目标语音速度调整第一语料库的韵律短语长度分布。
其中，决策树创建装置620进一步配置为为第一语料库中的每一个字或词提取韵律边界上下文信息；基于所述韵律边界上下文信息，创建所述用于韵律边界预测的决策树。
其中，所述调整装置640进一步配置为根据所述目标语音速度而调整第一语料库的韵律短语长度分布，以便与一目标分布相匹配。所述目标语音速度可以对应于一第二语料库的第二语音速度。其中，所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布，所述调整装置640进一步配置为根据所述第二语料库的韵律短语长度分布，调整所述第一语料库的韵律短语长度分布。
其中，所述关系创建装置630进一步配置为建立韵律边界概率阈值、韵律短语长度分布与语音速度之间的关系；所述调整装置640进一步配置为通过调整韵律边界概率的阈值来调整第一语料库的韵律短语长度分布。所述调整装置640还可以进一步配置为通过利用曲线拟和方法调整所述韵律短语长度分布；或者进一步配置为通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
以上结合优选法方案对本发明进行了详细的描述，但是可以理解，以上实施例仅用于说明而非限定本发明。本领域的技术人员可以对本发明的所示方案进行修改而不脱离本发明精神。
权利要求
1.一种文本至语音的转换方法，包括a)文本分析步骤，用于基于由第一语料库产生的文本至语音转换模型，对所述文本进行分析以获得文本的描述性韵律注解信息；b)韵律参数预测步骤，用于基于上述文本分析步骤的结果对文本的韵律参数进行预测；c)语音合成步骤，用于基于所预测的文本的韵律参数合成所述文本的语音；其中所述文本的描述性韵律注解信息包括文本的韵律结构，所述方法还包括将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
2.根据权利要求1所述的文本至语音的转换方法，其中所述文本的描述性韵律注解信息还包括发音、重音。
3.根据权利要求1所述的文本至语音的转换方法，其中所述文本的韵律参数包括音高(value of pitch)、音长(duration)和音量(energy)。
4.根据权利要求1所述的文本至语音的转换方法，其中所述韵律结构包括韵律词(prosody word)、韵律短语(prosody phrase)和语调短语(intonation phrase)。
5.根据权利要求4所述的文本至语音的转换方法，其中对所述文本的韵律结构的调整是通过改变文本的韵律短语的长度分布来进行。
6.根据权利要求5所述的文本至语音的转换方法，其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述文本的韵律短语的长度分布的调整通过以下步骤进行调整第一韵律边界概率阈值，以便调整所述第一语料库的韵律短语长度分布；所述文本分析步骤基于调整后的第一语料库对所述文本进行分析。
7.根据权利要求1所述的文本至语音的转换方法，其中进一步包括对合成的语音进行听觉评估的步骤，并根据听觉评估的结果进一步调整所述文本的韵律结构。
8.根据权利要求1所述的文本至语音的转换方法，其中所述目标语音速度对应于一第二语料库的第二语音速度。
9.根据权利要求1所述的文本至语音的转换方法，其中所述韵律结构包括韵律短语，所述调整文本的韵律结构是通过将文本的韵律短语长度分布修改为一目标分布来进行。
10.根据权利要求8所述的文本至语音的转换方法，其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布，所述韵律结构的调整通过以下步骤进行根据目标语音速度调整所述第一韵律边界概率阈值，以便调整并使得所述第一语料库的韵律短语长度分布与所述第二语料库的韵律短语长度分布相匹配；所述文本分析步骤基于调整后的第一语料库对所述文本进行分析。
11.根据权利要求1或9所述的文本至语音的转换方法，其中还包括根据所述目标语音速度对所述韵律参数进行调整的步骤。
12.根据权利要求3所述的文本至语音的转换方法，其中还包括根据所述目标语音速度对所述韵律参数中的音长进行调整的步骤。
13.根据权利要求9或10所述的文本至语音的转换方法，其中所述韵律短语长度分布的调整通过利用曲线拟和方法进行。
14.根据权利要求5、6、9或10所述的文本至语音的转换方法，其中所述韵律短语长度分布的调整是通过调整具有最长长度的韵律短语的分布来进行。
15.根据权利要求4所述的文本至语音的转换方法，其中对所述文本的韵律结构的调整还包括调整文本的语调短语。
16.一种文本至语音转换装置，包括文本分析装置，用于基于由第一语料库产生的文本至语音转换模型，对文本进行分析以获得文本的描述性韵律注解信息，该文本的描述性韵律注解信息包括文本的韵律结构；韵律参数预测装置，用于基于上述文本分析装置获得的信息对文本的韵律参数进行预测；语音合成装置，用于基于所预测的文本的韵律参数合成所述文本的语音；其特征在于所述文本至语音转换装置还包括韵律结构调整装置，用于将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
17.根据权利要求16所述的文本至语音转换装置，其中所述韵律结构包括韵律词(prosody word)、韵律短语(prosody phrase)和语调短语(intonation phrase)。
18.根据权利要求17所述的文本至语音转换装置，其中韵律结构调整装置进一步配置为根据目标语音速度来调整文本的韵律短语的长度分布。
19.根据权利要求17所述的文本至语音转换装置，其中韵律结构调整装置进一步配置为根据目标语音速度来调整文本的语调短语。
20.根据权利要求18所述的文本至语音转换装置，其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，其中所述韵律结构调整装置进一步配置为根据目标语音速度调整第一韵律边界概率阈值，以便调整所述第一语料库的韵律短语长度分布；所述文本分析装置进一步配置为基于调整后的第一语料库对所述文本进行分析。
21.根据权利要求16所述的文本至语音转换装置，其中文本的韵律参数包括语调(value of pitch)、音长(duration)和音量(energy)。
22.根据权利要求16所述的文本至语音转换装置，其中所述目标语音速度对应于一第二语料库的第二语音速度。
23.根据权利要求16所述的文本至语音转换装置，其中所述韵律结构包括韵律短语，所述韵律结构调整装置进一步配置为将文本的韵律短语长度分布修改为一目标分布。
24.根据权利要求22所述的文本至语音转换装置，其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布，所述韵律结构调整装置进一步配置为根据目标语音速度调整第一韵律边界概率阈值，以便调整并使得所述第一语料库的韵律短语长度分布与所述第二语料库的韵律短语长度分布相匹配；所述文本分析装置进一步配置为基于调整后的第一语料库对所述文本进行分析。
25.根据权利要求16或23所述的文本至语音转换装置，其中所述语音合成装置进一步配置为根据所述目标语音速度对所述韵律参数进行调整。
26.根据权利要求25所述的文本至语音转换装置，其中所述韵律参数包括音长，所述语音合成装置进一步配置为根据所述目标语音速度对所述音长进行调整。
27.根据权利要求23或24所述的文本至语音转换装置，其中所述韵律结构调整装置进一步配置为利用曲线拟和方法来调整韵律短语长度分布。
28.根据权利要求18、20、23或24其中之一所述的文本至语音转换装置，其中所述韵律结构调整装置进一步配置为通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
29.一种用于调整文本至语音转换语料库的方法，所述语料库为第一语料库，所述方法包括a)基于一第一语料库创建用于进行韵律结构预测的决策树；b)为所述语料库设置一目标语音速度；c)基于所述决策树，为所述第一语料库建立韵律短语长度分布与语音速度之间的关系；d)基于所述决策树和所述关系，根据所述目标语音速度调整第一语料库的韵律短语长度分布。
30.根据权利要求29所述的用于调整文本至语音转换语料库的方法，其中用于创建决策树的步骤a)进一步包括为第一语料库中的每一个字或词提取韵律边界上下文信息；基于所述韵律边界上下文信息，创建所述用于韵律边界预测的决策树。
31.根据权利要求29所述的用于调整文本至语音转换语料库的方法，其中所述步骤d)进一步包括根据所述目标语音速度而调整第一语料库的韵律短语长度分布，以便与一目标分布相匹配。
32.根据权利要求29所述的用于调整文本至语音转换语料库的方法，其中所述目标语音速度对应于一第二语料库的第二语音速度。
33.根据权利要求32所述的用于调整文本至语音转换语料库的方法，其中其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布，所述步骤d)通过以下方法进行根据所述第二语料库的韵律短语长度分布，调整所述第一语料库的韵律短语长度分布。
34.根据权利要求29或33所述的用于调整文本至语音转换语料库的方法，其中为所述第一语料库建立韵律短语长度分布与语音速度之间的关系的步骤c)进一步包括建立韵律边界概率阈值、韵律短语长度分布与语音速度之间的关系；用于调整第一语料库的韵律短语长度分布的步骤d)是通过调整韵律边界概率的阈值来调整第一语料库的韵律短语长度分布。
35.根据权利要求29-34中任一项所述的用于调整文本至语音转换语料库的方法，其中所述韵律短语长度分布的调整通过利用曲线拟和方法进行。
36.根据权利要求29-34中任一项所述的用于调整文本至语音转换语料库的方法，其中所述韵律短语长度分布的调整是通过调整具有最长长度的韵律短语的分布来进行。
37. 一种用于调整文本至语音转换语料库的装置，所述语料库为第一语料库，所述装置包括决策树创建装置，配置为基于第一语料库创建用于进行韵律结构预测的决策树；目标语音速度设置装置，配置为为所述语料库设置一目标语音速度；关系创建装置，配置为基于所述决策树为所述第一语料库建立韵律短语长度分布与语音速度之间的关系；调整装置，配置为基于所述决策树和所述关系，根据所述目标语音速度调整第一语料库的韵律短语长度分布。
38.根据权利要求37所述的用于调整文本至语音转换语料库的装置，其中决策树创建装置进一步配置为为第一语料库中的每一个字或词提取韵律边界上下文信息；基于所述韵律边界上下文信息，创建所述用于韵律边界预测的决策树。
39.根据权利要求37所述的用于调整文本至语音转换语料库的装置，其中所述调整装置进一步配置为根据所述目标语音速度而调整第一语料库的韵律短语长度分布，以便与一目标分布相匹配。
40.根据权利要求37所述的用于调整文本至语音转换语料库的装置，其中所述目标语音速度对应于一第二语料库的第二语音速度。
41.根据权利要求40所述的用于调整文本至语音转换语料库的装置，其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布，所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布，所述调整装置进一步配置为根据所述第二语料库的韵律短语长度分布，调整所述第一语料库的韵律短语长度分布。
42.根据权利要求37或41所述的用于调整文本至语音转换语料库的装置，其中所述关系创建装置进一步配置为建立韵律边界概率阈值、韵律短语长度分布与语音速度之间的关系；所述调整装置进一步配置为通过调整韵律边界概率的阈值来调整第一语料库的韵律短语长度分布。
43.根据权利要求37-42中任一项所述的用于调整文本至语音转换语料库的装置，其中所述调整装置进一步配置为通过利用曲线拟和方法调整所述韵律短语长度分布。
44.根据权利要求37-42中任一项所述的用于调整文本至语音转换语料库的装置，其中所述调整装置进一步配置为通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
全文摘要
本发明提供了一种文本至语音的转换方法和装置，以及一种调整文本至语音转换语料库的方法和装置。其中，文本至语音的转换方法包括文本分析步骤，用于基于由第一语料库产生的文本至语音转换模型，对所述文本进行分析以获得文本的描述性韵律注解信息；韵律参数预测步骤，用于基于上述文本分析步骤的结果对文本的韵律参数进行预测；语音合成步骤，用于基于所预测的文本的韵律参数合成所述文本的语音；其中所述文本的描述性韵律注解信息包括文本的韵律结构，所述方法还包括将所述文本的韵律结构根据合成语音的目标语音速度进行调整。本发明根据合成语音的目标语音速度调整文本的韵律结构，从而可以获得更好的合成语音质量。
文档编号G10L15/08GK1705016SQ20041004611
公开日2005年12月7日申请日期2004年5月31日优先权日2004年5月31日
发明者施勤, 张维, 朱维彬, 柴海新申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：施勤;张维;朱维彬;柴海新
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：一种增强音频编解码装置及方法
上一篇：利用自适应噪声本底相加和噪声替换限制的信源解码器的制作方法