语音合成装置及其控制方法_4

文档序号：9845033阅读：来源：国知局

，需要定义目标成本和级联成本，且可使用viterbi搜索作为搜索方法。
[0081] 根据本公开的示例实施例，可通过连续双音将如图6所示的输入文本定义成语音合成单元，并且可经由η个双音的级联来表示输入语句。在该情况中，可针对各个双音来选择多个候选单元参数，并且可在考虑目标成本和级联成本的成本函数的情况下执行 viterbi搜索。从而，所选候选单元参数可被顺序组合，并且可检索各候选单元参数的最优候选单元参数。
[0082] 如图7所示，关于整个文本，当候选单元参数没有被连续地级联时，可移除相应路径，并且可选择连续级联的候选单元参数。在该情况中，具有关于目标成本和级联成本之和的最小累积成本的路径可以是最优级联路径。从而，与最优级联路径相对应的各候选单元参数可被组合，以生成对应于输入文本的参数单元序列。
[0083] 图8是用于解释根据本公开的示例实施例的语音合成方法的流程图。
[0084] 首先，可接收包括多个语音合成单元在内的文本(输入文本）（S810)。然后，可从语音参数数据库中选择与构成输入文本的多个语音合成单元分别相对应的候选单元参数 (S820)，其中，语音参数数据库存储有与构成语音文件的语音合成单元相对应的多个参数。这里，语音合成单元可以是音位、半音节、音节、双音和三音中的任何一个。在该情况中，可检索并选择与各语音合成单元相对应的多个候选单元参数，并且可从多个所选候选单元参数中选择最优候选单元参数。在该情况中，该过程可通过计算目标成本和级联成本来执行。在该情况中，可通过计算候选单元参数之间的级联概率以搜索具有最高级联概率的候选单元参数来检索最优级联路径。作为搜索方法，可使用vi terbi搜索。然后，根据候选参数之间的级联概率，可针对部分或全部文本来生成参数单元序列(S830)。然后，可使用参数单元序列来执行基于HMM的合成部分，以生成对应于文本的声学信号（S840)。这里，基于HMM的合成部分可将参数单元序列应用于通过由HMM训练的模型所生成的HMM语音参数，以生成针对韵律信息进行了补偿的合成语音信号。在该情况中，由HMM训练的模型可指代激励信号模型或还可包括频谱模型。
[0085] 根据本公开的前述各实施例，可使用各韵律修改的参数来生成具有与使用传统 HMM语音合成方法来合成的语音相比增强逼真度的合成语音。
[0086] 根据本公开的前述各实施例的语音合成装置的控制方法可被体现为程序，并可被存储在多种记录介质中。也就是说，由各种处理器处理的用于执行语音合成装置的前述各种控制方法的计算机程序可被存储在记录介质中并被使用。
[0087] 例如，可提供用于存储执行以下操作的程序的非瞬时计算机可读介质:接收包括多个语音合成单元在内的文本;从用于存储与构成语音文件的语音合成单元相对应的多个参数的语音参数数据库中选择与构成输入文本的多个语音合成单元分别对应的候选单元参数;根据连续级联的候选参数之间的级联概率来生成部分或全部文本的参数单元序列；以及使用参数单元序列来执行基于隐马尔科夫模型(HMM)的合成部分，以生成对应于文本的声学信号。
[0088] 非瞬时计算机可读介质是不临时存储数据的介质，比如寄存器、高速缓存、和存储器，而是半永久性地存储数据并且可由设备读取。更具体地，前述应用或程序可存储在非瞬时计算机可读介质中，比如高密度盘(CD)、数字视频盘(DVD)、硬盘、蓝光盘、通用串行总线 (USB)、存储卡和只读存储器(ROM)。
[0089]前述示例实施例和优点只是示例的，并且不被认为限制本公开的实施例。本公开的教导可以容易地应用于其他类型的装置和方法。同样，本公开的示例实施例的描述预期是说明性的，而不限制权利要求的范围，并且许多备选、修改和变化对于本领域技术人员将是显而易见的。
【主权项】
1. 一种语音合成装置，包括：语音参数数据库，被配置为存储与构成语音文件的语音合成单元分别相对应的多个参数；输入单元，被配置为接收包括多个语音合成单元在内的文本；以及处理器，被配置为从所述语音参数数据库中存储的所述多个参数中选择与所接收的文本中包括的所述多个语音合成单元分别相对应的多个候选单元参数；根据所选择的多个候选单元参数中的连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列；以及使用所述参数单元序列来执行基于隐马尔科夫模型HMM的合成操作，并从而生成与所述文本相对应的声学信号。2. 根据权利要求1所述的语音合成装置，其中，为了生成部分或全部所述文本的参数单元序列，所述处理器：顺序组合所选择的多个候选单元参数中的候选单元参数，根据候选单元参数之间的级联概率来搜索顺序组合的候选单元参数的级联路径，以及组合与所述级联路径相对应的候选单元参数。3. 根据权利要求2所述的语音合成装置，还包括：存储装置，被配置为存储激励信号模型，其中，为了生成与所述文本相对应的声学信号，所述处理器：将所述激励信号模型应用到所述文本，以生成与所述文本相对应的HMM语音参数，以及将所述参数单元序列应用到所生成的HMM语音参数。4. 根据权利要求3所述的语音合成装置，其中：所述存储装置还存储执行所述合成操作所需要的频谱模型；以及为了生成与所述文本相对应的HMM语音参数，所述处理器将所述激励信号模型和所述频谱模型应用到所述文本。5. -种方法，包括：接收包括多个语音合成单元在内的文本；从与构成语音文件的语音合成单元相对应并且存储在语音参数数据库中的多个参数中选择与所接收的文本中包括的所述多个语音合成单元分别相对应的多个候选单元参数；根据所选择的多个候选单元参数中的连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列；以及使用所述参数单元序列来执行基于隐马尔科夫模型HMM的合成操作，并从而生成与所述文本相对应的声学信号。6. 根据权利要求5所述的方法，其中，生成参数单元序列包括：顺序组合所选择的多个候选单元参数中的候选单元参数；根据候选单元参数之间的级联概率来搜索顺序组合的候选单元参数的级联路径；以及组合与所述级联路径相对应的候选单元参数，以生成部分或全部所述文本的参数单元序列。7. 根据权利要求5所述的方法，其中，执行合成操作包括：将激励信号模型应用到所述文本，以生成与所述文本相对应的HMM语音参数，以及将所述参数单元序列应用到所生成的HMM语音参数，以生成所述声学信号。8. 根据权利要求6所述的方法，其中，搜索级联路径使用借助viterbi算法的搜索方法。9. 根据权利要求7所述的方法，其中，为了生成HMM语音参数，所述方法还包括：将执行所述合成操作所需要的频谱模型应用到所述文本，以生成与所述文本相对应的 HMM语音参数。10. -种存储程序的非瞬时计算机可读记录介质，所述程序在由硬件处理器执行时，弓丨起执行以下操作：接收包括多个语音合成单元在内的文本；从与构成语音文件的语音合成单元相对应并且存储在语音参数数据库中的多个参数中选择与所接收的文本中包括的所述多个语音合成单元分别相对应的多个候选单元参数；根据所选择的多个候选单元参数中的连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列；以及使用所述参数单元序列来执行基于隐马尔科夫模型HMM的合成操作，并从而生成与所述文本相对应的声学信号。
【专利摘要】提供了语音合成装置和方法。所述语音合成装置包括：语音参数数据库，被配置为存储与构成语音文件的语音合成单元分别对应的多个参数；输入单元，被配置为接收包括多个语音合成单元在内的文本；以及处理器，被配置为从语音参数数据库中选择多个候选单元参数，所述多个候选单元参数与构成输入文本的多个语音合成单元分别对应；根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列；以及使用所述参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作，以生成与所述文本相对应的声学信号。
【IPC分类】G10L13/047
【公开号】CN105609097
【申请号】CN201510791532
【发明人】权哉成
【申请人】三星电子株式会社
【公开日】2016年5月25日
【申请日】2015年11月17日
【公告号】EP3021318A1, US20160140953

完整全部详细技术资料下载

当前第4页1 2 3 4