情感语音合成方法和系统的制作方法

文档序号：2823799阅读：273来源：国知局

专利名称：情感语音合成方法和系统的制作方法
技术领域：
本发明总体上涉及语音合成的方法和系统，特别的本发明涉及情感语音合成方法和系统。
背景技术：
语音合成TTS是指根据韵律建模的结果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。目前几种主要语音合成工具的合成水平均已到实用阶段。众所周知，人在阅读过程中所表达的情感可能是多种多样的，比如“Mr. Ding suffers severe paralysis since he is young,but he learns through self-study and finally wins the heart of Ms. Zhao with the help of network，，这句话在阅读中可能前半句话用比较悲伤的情绪阅读，而后半句话用比较高兴的情绪阅读。然而，传统的语音合成技术并不考虑文本内容中所附加的情感信息，也就是说传统的语音合成技术对在进行语音合成时并不考虑待处理的文本所表达的情感是高兴、悲伤还是愤怒等。情感语音合成是近几年语音合成的研究热点，在情感语音合成的研究中所必须解决的问题是确定情感状态和建立情感状态与语音的声学特征的关联关系。现有的情感语音合成技术允许操作者通过人工的方式指定某个句子的情感类别，比如人工的指定“Mr. Ding suffers severe paralysis since he is young，，这句i舌白勺个青感类型为悲伤,"but he learns through self-study and finally wins the heart of Ms. Zhao with the help Of network”这句话的情感类型为高兴，并且在语音合成过程中以指定的情感类型对该句子进行处理。

发明内容
本发明的发明人经研究发现，当前的情感语音合成技术中存在很多没有解决的问题，其一、由于每个句子被赋予了统一的情感类型，因此整个句子都用统一的情感来阅读因此实际效果不够自然、平滑；其二、不同句子被赋予不同的情感类型，因此在句子与句子之间出现比较突兀的情感变化；其三、人工确定句子情感的方式成本较高，不使用于语音合成的批量处理。本发明提供一种情感语音合成技术方案，该方案用于解决上述列举的现有技术中存在的至少一个问题。具体而言，本发明一种情感语音合成方法，包括接收文本数据；对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及按照所述情感标记对所述文本数据进行语音合成。本发明还提供一种情感语音合成系统，包括文本数据接收模块，用于接收文本数据；情感标记生成模块，用于对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及语音合成模块，用于按照所述情感标记对所述文本数据进行语音合成。通过本发明可以使语音合成的效果更加自然，更贴近真实的阅读声音。具体而言，本发明是基于韵律单元生成情感标记，而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数，这使得本发明中的韵律单元有更丰富更真实的情感表达，而不是局限于一种情感类型。此外本发明无需人工干预，也就是说无需人工对每句话指定固定的情感标记。

本说明中所参考的附图只用于示例本发明的典型实施例，不应该认为是对本发明范围的限制。图1示出了按照本发明的一个实施例的情感语音合成方法流程。图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。图2B示出了按照本发明的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。图2C示出了情感矢量调整决策树的片断示意图。图3示出了按照本发明的另一个实施例的情感语音合成方法流程。图4A示出了按照本发明的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图4B示出了按照本发明的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图5示出了按照本发明的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。图6A示出了按照本发明的一个实施例进行语音合成的方法流程。图6B示出了按照本发明的另一个实施例进行语音合成的方法流程。图6C示出了对基频特征而言在某一情感类型下的语音合成决策树片断示意图。图7示出了按照本发明的一个实施例的情感语音合成系统框图。图8A示出了按照本发明的一个实施例的情感标记生成模块的框图。图8B示出了按照本发明的另一个实施例的情感标记生成模块的框图。图9示出了按照本发明的另一个实施例的情感语音合成系统框图。图10示出了按照本发明的一个实施例的图9中的情感平滑处理模块框图。
具体实施例方式下列讨论中，提供大量具体的细节以帮助彻底了解本发明。然而，很显然对于本领域技术人员来说，即使没有这些具体细节，并不影响对本发明的理解。并且应该认识到，使用如下的任何具体术语仅仅是为了方便描述，因此，本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。本发明提供一种情感语音合成方法和系统。通过本发明可以使语音合成的效果更加自然，更贴近真实的阅读声音。具体而言，本发明是基于韵律单元生成情感标记，而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数，这使得本发明中的韵律单元有更丰富更真实的情感表达，而不是局限于一种情感类型。此外本发明无需人工干预，也就是说无需人工对每句话指定固定的情感标记。本发明可以应用于各种需要实现情感语音合成的产品，包括能够进行自动朗读的电子书，能够进行户动交流的机器人以及各种可以对文字内容进行赋有情感的阅读的语音合成软件等。图1示出了按照本发明的一个实施例的情感语音合成方法流程。在步骤101接收文本数据。所述文本数据可以是一句话、一段话或一篇文章。所述文本数据可以是基于用户的指定(比如用户选中的一段话)、也可以是由系统设定的(比如智能机器人对用户询问的回答)。并且所述文本数据可以是中文、英文或任何其它文字。在步骤103对所述文本数据案韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；并且其中所述韵律单元可以是字(word)、词(vocabular)、短语(phrase)。如果所述文本数据是中文，按照本发明的一种实施例，可以将所述文本数据分成若干词，每个词作为一个韵律单元，并对每个词生成情感标记。如果所述文本数据是英文，按照本发明的一种实施例，可以将所述文本数据分成若干字，每个字作为一个韵律单元，并对每个字生成情感标记。当然，总体而言，本发明对韵律单元的单位没有特别的限定，其可以是比较粗粒度的短语、也可以是比较细粒度的字。粒度越细，情感标记可能越细腻，最终的合成效果可能更接近真实发音，但计算量也会随之增加；粒度越粗，情感标记可能越粗糙，最终的合成效果可能与真实发音有一些差距，但在语音合成中的计算量会相对较低。在步骤105按照所述情感标记对所述文本数据进行语音合成。也就是说本发明并非向现有技术那样对于一个句子使用统一的情感类型进行合成，而是对于每个韵律单元适用一种情感类型。同时，本发明在进行语音合成时还考虑每个韵律单元在每种情感类型上的程度，也就是说本发明考虑到了每种情感类型下的情感分数，从而进行更贴近真实语音效果的语音合成，具体内容将在下文进行更为详细的介绍。图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。在步骤201获取所述韵律单元的初始情感分数。比如，可以定义6种情感类型，分别是中性(neutral)、高兴(happy)、难过(sad)、感动(moved)、愤怒(angry) 和不安(uneasiness)。当然本发明并只不限于上述情感类型的定义方式。如果所接收的
%“Don‘ t feel embarrassed about crying as it helps you release these sad emotions and become happy，，，并且将该句子分成16个字(word)，每个字作为一个韵律单元。在步骤201中需要获得每个字的初始情感分数，如下表1所示。为了节省空间，表 1中省略了中间6个字的情感分数。
权利要求
1.一种情感语音合成方法，包括接收文本数据；对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及按照所述情感标记对所述文本数据进行语音合成。
2.如权利要求1所述的方法，其中对所述文本数据按韵律单元生成情感标记进一步包括确定所述多个情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型，以及其中按照所述情感标记对所述文本数据进行语音合成进一步包括按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
3.如权利要求1所述的方法，其中对所述文本数据按韵律单元生成情感标记进一步包括按照所述韵律单元的上下文对所述情感矢量进行调整，根据调整后的各个情感分数确定所述韵律单元的最终情感分数和最终情感类型，并且其中按照所述情感标记对所述文本数据进行语音合成进一步包括按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
4.如权利要求3所述的方法，其中对所述情感矢量进行调整进一步包括根据情感矢量调整决策树对所述韵律单元的情感分数进行调整，其中所述情感矢量调整决策树是基于情感矢量调整训练数据建立起来的。
5.如权利要求1所述的方法，进一步包括基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。
6.如权利要求5所述的方法，其中对所述文本数据进行情感平滑处理进一步包括对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率；基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径;以及根据所述最终情感路径确定韵律单元的最终情感类型。
7.如权利要求6所述的方法，其中确定韵律单元的最终情感类型进一步包括获取所述最终情感类型的情感分数作为最终情感分数，并且其中按照所述情感标记对所述文本数据进行语音合成进一步包括按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
8.如权利要求6所述的方法，其中所述相邻概率是根据对情感相邻训练数据进行统计而得到的，并且所述统计进一步包括记录所述情感相邻训练数据中至少两种情感类型相邻的次数。
9.如权利要求8所述的方法，进一步包括基于所形成的最终情感路径自动对所述情感相邻训练数据进行扩展。
10.如权利要求8所述的方法，进一步包括通过连接所述韵律单元的情感分数最大的情感类型从而自动对所述情感相邻训练数据进行扩展。
11.如权利要求2、3或7之一所述的方法，所述按照所述韵律単元的最终情感分数和最终情感类型对所述文本数据进行语音合成进ー步包括将所述韵律单元分解为音素；以及对于所述音素根据下述公式确定其语音特征^ i- emotioiv ^ i-neutral" ^ emotion ^ i-emotion其中Fi表示所述音素的第i项语音特征取值，P 。ti。n表示所述音素所在韵律单元的最终情感分数，Fpnwteal表示第i项语音特征在中性情感类型中的语音特征取值，Fh—表示第i项语音特征在所述最终情感类型中的语音特征取值。
12.如权利要求2、3或7之一所述的方法，其中所述按照所述韵律単元的最终情感分数和最终情感类型对所述文本数据进行语音合成进ー步包括将所述韵律单元分解为音素；以及如果所述音素所在韵律单元的所述最终情感分数大于一定阈值，则按照下述公示确定所述音素的语音特征^ i f i-emotion如果所述音素所在韵律单元的所述最终情感分数小于一定阈值，则按照下述公示确定所述音素的语音特征F 一 F“i ょ i-neutral，其中Fi表示所述音素的第i项语音特征取值，Fi^neutral表示第i项语音特征在中性情感类型中的语音特征取值，Fi__ti。n表示第i项语音特征在所述最终情感类型中的语音特征取值。
13.如权利要求11或12所述的方法，其中所述语音特征是下列各项中的ー项或多项基频特征、频谱特征、时长特征。
14.如前述任意一个权利要求所述的方法，其中所述韵律单元是下列各项中的ー项字、词、短语。
15.ー种情感语音合成系统，包括文本数据接收模块，用于接收文本数据；情感标记生成模块，用于对所述文本数据按韵律単元生成情感标记，其中所述情感标记被表示为ー组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及语音合成模块，用于按照所述情感标记对所述文本数据进行语音合成。
16.如权利要求15所述的系统，其中所述情感标记生成模块进一歩包括最终情感确定模块，用于确定所述多个情感分数中的最大值作为最终情感分数，并且将所述最终情感分数所代表的情感类型作为最终情感类型，并且其中所述语音合成模块进一歩用于按照所述韵律単元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
17.如权利要求15所述的系统，其中所述情感标记生成模块进一歩包括情感矢量调整模块，用于按照所述韵律単元的上下文对所述情感矢量进行调整；以及最终情感确定模块，用于根据调整后的各个情感分数确定所述韵律単元的最终情感分数和最终情感类型，并且所述语音合成模块进一步按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
18.如权利要求15所述的系统，进一步包括情感平滑处理模块，用于基于所述韵律单元的情感标记对所述文本数据进行情感平滑处理。
19.如权利要求18所述的系统，其中所述情感平滑处理模块进一步包括相邻概率获得模块，用于对至少一个韵律单元的一种情感类型获得其与另一个相邻韵律单元的一种情感类型的情感连接的相邻概率；最终情感路径确定模块，用于基于所述相邻概率以及各个情感类型的情感分数确定所述文本数据的最终情感路径；以及最终情感确定模块，用于根据所述最终情感路径确定韵律单元的最终情感类型，并且获取所述最终情感类型的情感分数作为最终情感分数，并且所述语音合成模块进一步用于按照所述韵律单元的最终情感分数和最终情感类型对所述文本数据进行语音合成。
全文摘要
通过本发明可以使语音合成的效果更加自然，更贴近真实的阅读声音。本发明提供一种情感语音合成方法，包括接收文本数据；对所述文本数据按韵律单元生成情感标记，其中所述情感标记被表示为一组情感矢量，所述情感矢量包括依据多个情感类型所给出的多个情感分数；以及按照所述情感标记对所述文本数据进行语音合成。其中本发明是基于韵律单元生成情感标记，而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量，这使得本发明中的韵律单元有更丰富更真实的情感表达，而不是局限于一种情感类型。此外本发明无需人工干预，也就是说无需人工对每句话指定固定的情感标记。
文档编号G10L13/00GK102385858SQ20101027113
公开日2012年3月21日申请日期2010年8月31日优先权日2010年8月31日
发明者刘文, 包胜华, 双志伟, 张世磊, 施勤, 秦勇, 苏中, 陈健申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：双志伟;包胜华;陈健;刘文;张世磊;苏中;施勤;秦勇
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：信息处理设备、信息处理方法和程序的制作方法
上一篇：一种用于从语音内容生成文本内容提要的系统和方法