语音合成装置及其控制方法

文档序号：9845033阅读：584来源：国知局

语音合成装置及其控制方法
【专利说明】
[0001]相关申请的交叉引用
[0002] 本申请要求于2014年11月17日提交的韩国专利申请No. 10-2014-0159995的优先权，该公开内容以全文引用的方式并入本文中。
技术领域
[0003] 根据本公开的各种实施例的装置和方法涉及语音合成装置及其控制方法，更具体地，涉及用于将输入文本转换成语音的语音合成装置及其控制方法。
【背景技术】
[0004] 近来，随着语音合成技术的发展，在各种语音引导领域、教育领域等中，语音合成技术得到了广泛的使用。语音合成是用于产生与人类讲话的声音类似的声音的技术，并且还常被称为文本到语音(TTS)系统。语音合成技术向用户发送作为语音信号的信息，而不是文本或图片，因此当用户不能看见操作机器的屏幕时（如用户正在驾驶或用户是盲人的情况），这将非常有用。近来，智能家庭中的家用智能设备（比如智能电视(TV)或智能冰箱)或个人便携设备（比如智能电话、电子书阅读器或车辆导航设备)都非常活跃地发展并且已经变得广泛流行。从而，对语音合成技术和语音输出装置的需求激增。
[0005] 在这点上，需要一种用于加强合成语音的声音质量的方法，具体地，需要一种用于生成具有极佳逼真度的合成语音的方法。

【发明内容】

[0006] 本公开的示例实施例克服上述缺点和上面未描述的其它缺点。此外，不要求本公开的实施例克服上述缺点，且本公开的示例实施例可以不克服上述任何问题。
[0007] 本公开的各种实施例提供了语音合成装置及其控制方法，用于补偿使用基于隐马尔科夫模型(HMM)语音合成方案所生成的语音中的各种韵律修改，以生成逼真的合成语音。
[0008] 根据本公开的各实施例的一个方案，一种用于将输入文本转换成语音的语音合成装置包括:语音参数数据库，被配置为存储与构成语音文件的语音合成单元分别对应的多个参数;输入单元，被配置为接收包括多个语音合成单元在内的文本；以及处理器，被配置为从语音参数数据库中选择与构成所述输入文本的多个语音合成单元分别对应的多个候选单元参数，以根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列，以及使用参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作，以生成与所述文本相对应的声学信号。
[0009] 所述处理器可以顺序组合候选单元参数，根据候选单元参数之间的级联概率来搜索候选单元参数的级联路径，以及组合与所述级联路径相对应的候选单元参数，以生成部分或全部所述文本的参数单元序列。
[0010] 语音合成装置还可包括存储装置，所述存储装置被配置为存储激励信号模型，其中，所述处理器可以将所述激励信号模型应用到所述文本，以生成与所述文本相对应的HMM 语音参数，以及将所述参数单元序列应用到所生成的HMM语音参数，以生成声学信号。
[0011] 所述存储装置还可存储为了执行合成操作所需要的频谱模型，以及所述处理器可将所述激励信号模型和所述频谱模型应用到所述文本，以生成与所述文本相对应的HMM语音参数。
[0012] 根据本公开的各实施例的另一方面，一种用于将输入文本转换为语音的语音合成装置的控制方法包括:接收包括多个语音合成单元在内的文本;从用于存储与构成语音文件的语音合成单元相对应的多个参数的语音参数数据库中选择多个候选单元参数，所述多个候选单元参数与构成所述输入文本的多个语音合成单元分别对应;根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列；以及使用所述参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作，以生成与所述文本相对应的声学信号。
[0013] 生成参数单元序列可包括:顺序组合与所述多个语音合成单元分别对应的多个候选单元参数并根据候选单元参数之间的级联概率来搜索候选单元参数的级联路径，以及组合与所述级联路径相对应的候选单元参数，以生成部分或全部所述文本的参数单元序列。
[0014] 生成声学信号可包括:将激励信号模型应用到所述文本，以生成与所述文本相对应的HMM语音参数，以及将所述参数单元序列应用到所生成的HMM语音参数，以生成声学信号。
[0015] 搜索候选单元参数的级联路径可使用借助Viterbi算法的搜索方法。
[0016] 生成HMM语音参数还可包括:将为了执行合成操作所需要的频谱模型应用到所述文本，以生成与所述文本相对应的HMM语音参数。
[0017] 根据本公开的前述各实施例，可生成与经由传统HMM语音合成方法合成的语音相比具有增强逼真度的合成语音，从而增强用户便利性。
[0018] 本公开的各实施例的附加和/或其它方案和优点将部分在以下【具体实施方式】中进行阐述，且部分通过该【具体实施方式】将是明确的，或者可以通过实践本发明而习知。
【附图说明】
[0019]通过参考附图来描述本公开的某些示例实施例，本公开的各实施例的上述和/或其它方案将变得更为明确。
[0020] 图1是用于解释体现了语音合成装置并将其用作智能电话的示例的图；
[0021] 图2是示出了根据本公开的示例实施例的语音合成装置的配置的示意框图；
[0022] 图3是详细示出了根据本公开的另一示例实施例的语音合成装置的配置的框图； [0023]图4是用于解释根据本公开的示例实施例的语音合成装置的配置的图；
[0024]图5是用于解释根据本公开的另一示例实施例的语音合成装置的配置的图；
[0025] 图6和7是用于解释根据本公开的示例实施例的用于生成参数单元序列的方法的图；
[0026] 图8是用于解释根据本公开的示例实施例的语音合成方法的流程图。
【具体实施方式】
[0027] 现在将参照附图来更详细地描述本公开的某些示例实施例。
[0028] 本公开的示例实施例可以各种方式修改。相应地，在附图中示出了并在具体实施方式中详细描述了具体示例实施例。然而，将理解的是:本公开不限于具体示例实施例，而是在不脱离本公开的范围和精神的情况下包括所有修改、等价物和替换。同样，没有对熟知的功能或构造进行详细描述，这是因为它们可能会用不必要的细节而使本公开不够突出。
[0029] 图1是用于解释体现语音合成装置并将其用作智能电话100的示例的图。
[0030] 如图1所示，响应于向智能电话100输入文本1"你好"，智能电话100可通过机器将文本1转换为语音2并通过智能电话100的扬声器来输出语音2。将要转换为语音的文本可由用户通过智能电话直接输入，或可通过将诸如电子书之类的内容下载到智能电话上来输入。智能电话可自动地将输入文本转换成语音并输出语音，或可通过用户按压语音转换按钮来输出语音。为此，需要在智能电话等中使用嵌入式语音合成设备。
[0031] 关于嵌入式系统，基于隐马尔科夫模型(HMM)的语音合成方案已经被用作针对语音合成的方案。基于HMM的语音合成方案是基于参数的语音合成方案，并且该方案被提出以生成具有各种属性的合成语音。
[0032] 在使用语音编码中使用的理论的基于HMM的语音合成方案中，可使用HMM来提取和训练与语音的频谱、音调(pitch)和持续时间相对应的参数。在合成操作中，可使用根据训练结果估计出的参数和语音编码的音码器(vocoder)方案来生成合成语音。由于基于HMM的语音合成方案只需要从语音数据库中提取的参数，所以基于HMM的语音合成方案需要低容量，并从而在嵌入式系统环境(比如移动系统或CE设备）中是有用的，但也存在缺点:所合成的语音的逼真度下降。从而，本公开的各实施例用来克服基于HMM的语音合成方案中的这一缺点。
[0033]图2是示出了根据本公开的示例实施例的语音合成装置100的配置的示意框图。 [0034]参见图2,根据本公开的示例实施例的语音合成装置100可包括语音参数数据库 110、处理器120和输入单元130。
[0035] 语音参数数据库110可以是用于存储关于各语音合成单元和合成单元的各韵律修改的参数的组件。可通过各韵律修改的参数来最小化韵律调整，以生成逼真的合成语音。
[0036] 这里，语音合成单元可以是语音合成的基本单元

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：权哉成;
技术所有人：三星电子株式会社;
我是此专利的发明人

上一篇：一种基于互联网的在线学习系统的制作方法
上一篇：文本数据输出方法和装置的制造方法