基于韵律参照的语音合成装置和方法

文档序号：2831047研发日期：2008年阅读：295来源：国知局

技术简介：
本专利针对传统语音合成自然度低、依赖真人朗读成本高的问题，提出基于韵律参数分析的合成方法。通过分析录音文件或标注文件获取自然/近似韵律参数，结合预录语音库选择最优单元拼接合成，显著提升语音自然度与情感表现力，同时降低制作成本。
关键词：语音合成,韵律参数,自然度

专利名称：基于韵律参照的语音合成装置和方法
技术领域：
本发明涉及基于韵律参照进行语音合成的装置和方法，更具体地说，本发明涉及以从自然语音或者基于特定标准制作的韵律特征标注文件中获得的抑扬顿挫的韵律特征为参照，来合成出具有高自然度的合成语音的装置和方法。
背景技术：
语音合成(Text-To-Speech，简称TTS)是用于从文本转化到语音的技术，具体地说，是一种将任意文字信息转化为标准、流畅语音的技术。语音合成牵涉到自然语言处理、韵律学、语音信号处理、声音感知等多种前沿的高新科技，横跨声学、语言学、数字信号处理等多个学科，是中文信息处理领域的一项前沿技术。
语音合成技术可广泛应用于电信、金融、电力、邮政、政府等行业。语音合成技术可以让用户更为轻松地收发电子邮件，获取股市行情，了解天气、交通和道路情况，不久的将来，它将提供更为全面的更有价值的应用服务。
语音合成系统用于合成高可懂度、高自然度的语音。一般来说，语音合成系统首先要选取一定的基本合成单元，譬如英语中的音素、汉语中的半音节或者带调音节等，然后在韵律模型(音长和基频等)预测结果的指导下，从预先录制标注好的标准语音库中搜寻全局最优的合成单元，利用特定的波形生成技术(如TD-PSOLA算法) 对选中的语音段进行韵律特性的调整和修改，最终拼接合成出符合要求的语音。
经过近十几年的研究，现阶段的语音合成系统合成的语音质量己经达到了实用的程度，其中可懂度已经能够满足应用的实际需要，但是自然度还不够高，与人的自然语音仍旧有很大的差距。
现阶段的语音合成系统大多采用基于大规模语音数据库的拼接合成技术，即，以概率统计的方法，在预测得到的韵律参数指导下，从预录语音库中搜寻对于输入文本来说符合全局最优的合成单元，然后根据预测韵律参数进行波形调整的拼接合成。
一般来说，语音合成系统包括以下三个模块文本分析模块、韵律参数预测模块、后端合成模块。汉语文本分析模块的功能包括分词、词性标注、注音、韵律结构预测等。韵律参数预测模块在文本分析结果的基础上进行音长、基频、能量等声学参数的预测。后端合成模块一般由单元选取子模块和波形生成子模块组成，其中，单元选取子模块在韵律参数的指导下通过概率统计的方法从语音库中搜寻对于输入文本来说符合全局最优的合成单元，波形生成子模块利用特定的波形生成技术(如
TD-PSOLA算法)对选取的语音段进行韵律特性的调整和修改，最终拼
接合成出符合要求的语音。
音长(音素长度)是最重要的韵律特征之一，它对于合成语音的感知自然度有着重要的意义。音长的变化可以有助于人们对于音素本身的认知，同时也有助于人们在一个连续的语流中能够确定词、短语的划分，从而提高语音的自然度和可懂度。
基频也是最重要的韵律特征之一，它对于汉语尤其重要，因为汉语是有声调的语言。基频对于合成语音的感知自然度、可懂度有着重要的
、在自然语流中，音素的音长和基频与该音素前后的语境是高度相关的。许多上下文的因素如音素自身的类型、前后音素的类型、前后韵律边界等级、重读与否等均对音素的时长和基频都有着制约作用。音长预测研究和基频预测研究的基本目的就是试图去描述这些上下文因素对于音素时长和基频的影响，从而提高语音合成系统的自然度。
但是，韵律参数预测受到很多方面的制约，除了本身模型建模存在的问题以外，还受到训练数据有限、前端文本分析的准确性等多方面的制约。虽然各种韵律参数预测技术试图去考虑协同发音中存在的各种现扬顿挫。
上述现阶段的语音合成系统的关键缺陷在于重视了局部而忽视了整体，造成了合成的语句平白无力，毫无生气，从而阻碍了目前的语音合成系统在有声电子图书市场等中得到广泛的应用。
目前的有声电子图书市场都是使用真人来朗读。要找到一个音色很美，同时能够与富有感情的抑扬顿挫结合得很好的朗读者是很困难的。如果找专业的播音员来完成录音，那么成本一定会很高。
概括而言，传统的语音合成系统是首先对文本进行分析(例如分词、词性标注、数字符号处理、注音、韵律结构分析等)，然后在此基础上进行韵律参数如音长、基频、能量等的预测，之后在这些韵律参数的指导下，从预录语音库中搜寻全局最优的合成单元，然后进行波形调整的拼接合成。由于在文本分析、韵律预测上还存在许多不可回避的问题，使得传统的语音合成系统无法准确把握文本的内容以及韵律参数的预测，无法很好地控制各个语音合成单元之间的连接，无法很好地控制合成语音的抑扬顿挫，最终导致用户无法得到满意的语音。而对于诸如有声电子图书制作的广泛应用而言，要想既降低成本，又获得音色优美且具有自然韵律的合成语音文件，迫切需要一种能够合成出具有高自然度的合成语音的语音合成系统。
下面列出关于这方面的研究的一些文献，并通过引用将它们并入于此，如在此作了全面阐述一样。 Meron and Joram, US Patent publication No. 6,829,581, July 31, 2001, Method for prosody generation by unit selection from an imitation speech database; Baraff and David R., US Patent publication No. 6,795,807, August 17: 2000, Method and means for creating prosody in speech regeneration for laryngectomees; Holm, Frode， Hata and Kazue, US Patent publication No. 6,260,016, November 25, 1998， Speech synthesis employing prosody templates; Holm, Frode， Hata and Kazue， US Patent publication No. 6,185,533，March 15, 1999, Generation and synthesis of prosody templates; Shih， C. L., "The Prosodic Domain of Tone Sandhi in Mandarin Chinese", PhD Dissertation, UC San Diego, 1986; Chu M. and Qian Y" "Locating boundaries for prosodic constituents in unrestricted Mandarin texts", Journal of Computational Linguistics and Chinese Language Processing, 6(1)， 61-82， 2001; E. Moulines and F. Charpentier.， "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones", Speech Communication, 9:453-467, 1990; Qing Guo, Nobuyuki Katae, "Statistical Prosody Generation in Mandarin TTS System", OCOCOSDA 2007; Qing Guo, Nobuyuki Katae， Hao Yu, Hitoshi Iwamida， "Decision Tree based Duration Prediction in Mandarin TTS System", Journal of Chinese Language and Computing; Guo Qing, Nobuyuki Katae， Yu Hao， Hitoshi Iwamida， "High Quality Prosody Generation in a Text-to-speech System", Journal of Chinese Information Processing, Vol.22 No.2:110-115， 2008; Qing Guo， Jie Zhang, Nobuyuki Katae, "Prosodic Word Grouping with Global Probability Estimation Method", Speech Prosody, 2008。

发明内容
鉴于传统的语音合成技术所存在的上述问题而提出了本发明。本发明的目的在于提供一种基于韵律参照的语音合成系统，其巧妙地克服了传统语音合成技术中难以解决的文本分析中的分词、语义分析、韵律参数预测等问题，而能够取得韵律节奏和自然语音非常接近又具有优美音色的良好的合成语音效果。采用本发明，可以按照用户的要求生成任意的且抑扬顿挫程度与自然语音非常接近的语音文件。通过将标准的音色甜美的朗读和音色不太好或发音不标准但富有感情的朗读相结合，使得可以通过由任何人进行朗读来制作出音色甜美且抑扬顿挫的合成语音作品。从而，可以大幅度地降低有声电子图书的制作成本，批量生产出具有同一语音特色且富有韵律节奏的有声电子图书。
为了实现上述目的，根据本发明的第一方面，提供了一种基于韵律参照进行语音合成的语音合成装置，其包括韵律参数获取部，其通过对自然人朗读待合成文本而获得的该待合成文本的录音文件进行分析，或者对以预定标注标准对待合成文本进行韵律参数标注而获得的韵律参数标注文件进行分析，来获取自然韵律参数或近似自然韵律参数；和音声作成部，其以该自然韵律参数或近似自然韵律参数作为参照，针对该待合成文本从预录语音库中选择相应的语音合成单元，并对所述语音合成单元进行拼接合成，以产生对应于该待合成文本的合成语音文件。
根据本发明的第二方面，提供了第一方面中所述的语音合成装置，其中，该音声作成部包括语音单元选择部，其以该自然韵律参数或近似自然韵律参数作为参照，从该预录语音库中选择针对该待合成文本全局最优的语音合成单元；和波形生成部，其基于该自然韵律参数或近似自然韵律参数，对该语音单元选择部选择的语音合成单元进行拼接合成并对合成后的语音文件进行波形调整，以获得对应于该待合成文本的具有高自然度的合成语音文件。
根据本发明的第三方面，提供了第二方面中所述的语音合成装置，其中，该韵律参数获取部包括录音部，其通过自然人朗读该待合成文本而获得该待合成文本的录音文件；和韵律参数提取部，其从该录音文件的波形数据中获得韵律参数，该韵律参数包括音长、音频和能量。
根据本发明的第四方面，提供了第二方面中所述的语音合成装置，其中，该韵律参数获取部包括韵律参数标注部，其参照定义了韵律参数的标注规则的知识库以该预定标注标准对该待合成文本进行韵律参数标注，以获得韵律参数标注文件；和韵律参数生成部，其对该韵律参数
标注文件进行分析，以获得近似韵律参数，该近似韵律参数包括音长、
音频和能量。
根据本发明的第五方面，提供了第一方面中所述的语音合成装置，其中，该待合成文本的录音文件是通过电子卡通发音的方式获得的。根据本发明的第六方面，提供了一种基于韵律参照进行语音合成的方法，其包括以下步骤韵律参数获取步骤，其通过对自然人朗读待合成文本而获得的该待合成文本的录音文件进行分析，或者对以预定标注标准对待合成文本进行韵律参数标注而获得的韵律参数标注文件进行分析，来获取自然韵律参数或近似自然韵律参数；和音声作成步骤，其以该自然韵律参数或近似自然韵律参数作为参照，针对该待合成文本从预录语音库中选择相应的语音合成单元，并对所述语音合成单元进行拼接合成，以产生对应于该待合成文本的合成语音文件。
根据本发明的第七方面，提供了第六方面中所述的方法，其中，该音声作成步骤包括以该自然韵律参数或近似自然韵律参数作为参照，从该预录语音库中选择针对该待合成文本全局最优的语音合成单元；和基于该自然韵律参数或近似自然韵律参数，对所选择的语音合成单元进行拼接合成并对合成后的语音文件进行波形调整，以获得对应于该待合成文本的具有高自然度的合成语音文件。
根据本发明的第八方面，提供了第七方面中所述的方法，其中，该韵律参数获取步骤包括通过自然人朗读该待合成文本而获得该待合成文本的录音文件；和从该录音文件的波形数据中获得韵律参数，该韵律
参数包括音长、音频和能量。
根据本发明的第九方面，提供了第七方面中所述的方法，其中，该
韵律参数获取步骤包括参照定义了韵律参数的标注规则的知识库以该预定标注标准对该待合成文本进行韵律参数标注，以获得韵律参数标注文件；和对该韵律参数标注文件进行分析，以获得近似韵律参数，该近似韵律参数包括音长、音频和能量。
根据本发明的第十方面，提供了第六方面中所述的方法，其中，通过电子卡通发音的方式来获得该待合成文本的录音文件。
根据本发明的第十一方面，提供了一种包括计算机指令代码的计算机程序，该计算机程序在被加载到计算机上并由该计算机执行该计算机程序中包括的计算机指令代码时，实现如上面所述的根据本发明第六方面到第十方面中的任一个所述的基于韵律参照进行语音合成的方法。
10根据本发明的第十二方面，提供了一种承载如第十一方面中所述的计算机程序的计算机可读记录介质，该计算机可读记录介质可由计算机读取以将所述计算机程序加载到该计算机上并由该计算机执行该计算机程序中包括的计算机指令代码，从而实现如上面所述的根据本发明第六方面到第十方面中的任一个所述的基于韵律参照进行语音合成的方法。
根据本发明上述方面的语音合成装置和方法以及实现该语音合成方法的计算机程序和承载该计算机程序的计算机可读记录介质，可以按照用户的要求生成任意的且抑扬顿挫程度与自然语音非常接近的合成语音，从而能够改进合成语音的自然度。
以上概述和以下详述都是对本发明的示例性描述，而非对本发明的限制。所属领域的技术人员在阅读本申请的公开内容后，基于本发明的实质精神，完全能够构思出各种其它形式的实施方式，但是只要这些实施方式包括以下技术特征，即，以实际通过真人朗读待合成文本或以其它方式(例如，通过电子卡通发音)获得的录音文件或者通过以预定标注标准参照韵律参数标注规则知识库对待合成文本进行标注而获得的韵律参数标注文件为基础，进行分析获得自然韵律参数或近似韵律参数，并利用这些自然韵律参数或近似韵律参数参照预录语音库来合成出具有高自然度的合成语音文件，显然这些实施方式都应落入本发明的范围内。本发明的保护范围由所述权利要求书具体限定。
下面参照附图对本发明的具体实施方式
进行详细描述。

所包括的附图用来提供对本发明的进一步的理解，其构成了说明书的一部分，例示了本发明的优选实施方式，并与文字说明一起用来解释本发明的原理，其中对于相同的要素，始终用相同的附图标记来表示。在附图中
图1是例示根据本发明第一实施方式的语音合成系统的构成示例的框图2是例示出根据本发明第一实施方式的语音合成系统中的自然韵律参数获取部的构成示例的框图3是例示出根据本发明第一实施方式的语音合成系统中的音声作成部的构成示例的框图4是例示根据本发明第二实施方式的语音合成系统的构成示例的框图5是例示出根据本发明第二实施方式的语音合成系统中的近似自然韵律参数获取部的构成示例的框图；以及
图6是示出韵律参数标注规则知识库的一个示例的图。
具体实施例方式
参照下面的描述和附图，将清楚本发明的这些和其他方面。在这些描述和附图中，具体公开了本发明的一些特定实施方式，来表示实施本发明的原理的一些方式，但是应当理解，本发明的范围不受此限制。相反，本发明包括落入所附权利要求书的精神和内涵范围内的所有变化、
修改和等同物。
针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
应当强调的是，词语"包括"当在本说明书中使用时用来指所述特征、整数、歩骤或组成部分的存在，但不排除一个或更多个其它特征、整数、歩骤、组成部分或它们的组合的存在或增加。
参照图1到6来对本发明的实施方式进行例示性的详细描述。
图1是例示根据本发明第一实施方式的语音合成系统的构成示例的框图。该图同时示出了根据第一实施方式的语音合成系统的工作流程，即，各组成部分之间的信号流向关系。
根据第一实施方式的语音合成系统包括待合成文本提供部101、自然韵律参数获取部102、自然韵律参数存储部103、音素列表存储部104、语音库105、音声作成部106以及合成语音存储部107。
待合成文本提供部101提供待进行语音合成的任意文本，并且可以对该文本进行预处理，消除其中存在的各种缺陷和错误，使其规范、准确，便于制作良好的录音文件。
自然韵律参数获取部102基于待合成文本提供部101提供的待合成文本，生成对应于该待合成文本的自然韵律参数和音素列表，并将它们分别提供给自然韵律参数存储部103和音素列表存储部104进行存储。
自然韵律参数是指在语音中各个音素对应的声学韵律参数，一般包括音长、基频和能量等。譬如，音长描述一个音素在语流中对应的时间长度。
音素列表是指经过语音合成系统前端的语言分析和语音学分析处理得到的序列。通常来说，它对应于一个文本句子。例如，对于汉语，在
经过语音合成系统前端处理后，包括以下几个方面的信息汉字字符、分词信息、词性信息、汉语拼音(音节、半音节)信息、韵律边界等级
信息等。
下面是可能的一个音素列表示例。这个音素列表中含有分词、拼音、词性以及韵律结构信息。
有(you3)/v —(yil)/m次(ci4)/q |||我们(wo3 men5)/r ||禾口(he2)/p |外 (wai4)/f校(xiao4)/ng ||搞(gao3)/v联谊(lian2 yi4)/v |爬(pa2)/v香山 (xiangl shanl)/ns |||我们(wo3 men5)/r的(de5)/u |学生(xue2 shengl)/n || 没有(mei2 you3)/v —个(yi2 ge4)/m |掉队(diao4 dui4)/v的(de5)/u |||噌噌噌(cengl cengl cengl)/o ||就(jiu4)/d爬(pa2)/v上(shang4)/v 了(le5)/u | 山顶(shanl ding3)/n@。
由于汉语词与词之间没有标记，因此为了便于后续的处理，词法分析包括分词和词性标注是首要问题。一般来说，机器自动分词采用一个字典来完成。目前，主要采用的自动分词方法有前向最大匹配方法、后向最大匹配方法、语言模型方法、隐马尔可夫模型以及最大熵模型等。在上面的例子中，"/"之前的一个或多个字组成一个词，"/"后的英文字母表示该词的词性。譬如"有"是动词('V，)，"我们"是代词("r")等。
其中，"1"、 1"、 "lll"分别代表韵律短语、韵律短语和语调短语。"@" 用于标注句尾。这样，"有一次"、"我们和"、"外校"、"搞联谊"、"爬香
13山"等都是韵律词。进一步，"我们和外校"和"搞联谊爬香山"为韵律短语，"我们和外校搞联谊爬香山"则为语调短语。
另外就是拼音信息。譬如"you3"为词"有"的拼音，"，3men54" 为词"我们"的拼音。
音声作成部106基于自然韵律参数存储部103中存储的自然韵律参数和音素列表存储部104中存储的音素列表，从预先录制好的语音库105 中选择和待合成文本对应的多个语音单元，并对所选择的多个语音单元进行波形合成和调整，以生成最终的合成语音文件r并将该合成语音文件提供给合成语音存储部107进行存储。
语音库105可以是用于通用语音合成系统的语音库。音声作成部106 可以是可以是通用语音合成系统的后端模块。自然韵律参数存储部103、音素列表存储部104和合成语音存储部107都可以是计算机系统中常用的可读写存储装置，如RAM、闪存、硬盘、可读写光盘、磁光盘等，或者是专门的存储服务器。虽然在这里将这些存储部描述为分立的组件，但在实际应用中，它们实质上可以共用同一个物理存储装置。
图2是例示出自然韵律参数获取部103的具体构成示例的框图。
自然韵律参数获取部103包括录音部201、自然韵律参数提取部202 和音素列表生成部203。
录音部201用于根据待合成文本提供部101提供的待合成文本来生成录音文件。这里，可以请一个自然人用贴合文本内容的富有感情色彩的抑扬顿挫的语调来朗读待合成文本，也可以用能够发出类似通常的电子卡通的声音或者能够发出其它特殊风格的声音的发声方式来朗读该文本，并进行相应的记录，以形成录音文件。另选的是，可以从己有的录音素材库中寻找对应于或包含该文本的内容的录音素材，进行相应的剪辑处理，以得到所需的录音的文件。录音部201的具体实现可以采用现有技术中充分描述过的各种方式，这里不再赘述。
然后，自然韵律参数提取部202基于录音部201提供的录音文件，通过对该录音文件的波形数据进行数字信号处理，提取出与文本的具体内容(词或词组单元)对应的韵律参数，如音长、音频、能量等。音素列表生成部203通过基于韵律参数提取部202的分析结果，对待合成文本进行分析，以获得一音素列表，该音素列表包括构成该文本的连续语流的一系列音素。这里，考虑到机器自动生成音素列表可能会存在一定的问题，譬如多音字的处理等，因此在音素列表生成部203的处理中可以附加人工的校验来生成与待合成文本对应的正确音素列表。
自然韵律参数提取部202提取的自然韵律参数和音素列表生成部203 生成的音素列表分别存储在自然韵律参数存储部103和音素列表存储部 104中。
图3例示出音声作成部106的构成示例。
音声作成部106包括单元选择部301和波形生成部302。单元选择部 301以自然韵律参数存储部103中存储的自然韵律参数作为参照，从语音库105中存储的各种语音单元中，针对音素列表存储部104中存储的音素列表搜寻符合全局最优的包括一系列语音合成单元的语音合成单元列表。
对全局最优说明如下。
给定一个句子，假设由N个音素组成。对于每个音素来说，按照其韵律参数特征，在语音库中总能为其找到与其韵律参数最为相似的样本作为其合成单元。但是，对于一个句子来说，简单地把这样找到的N个合成单元拼接在一起并不是最优的。实际上，除了希望各个音素合成韵律参数与样本韵律参数尽可能相似以外，还要考察相邻合成单元拼接处由于频谱不一致带来的音质损耗。基于这种考虑，我们称这种单元选取的策略为符合全局最优的单元选取。
然后，波形生成部302对单元选择部301选择出的语音合成单元列表进行拼接合成，并参照自然韵律参数存储部103中的自然韵律参数，对拼接合成的文件进行波形调整，以得到具有高自然度的合成语音文件，并将该合成语音文件存储到合成语音存储部107中。
根据本发明的第一实施方式，利用语音库提供的发音标准和音色优美的语音素材，并结合通过对真人朗读或其它方式得到的录音文件进行分析得到的自然韵律参数，可以合成出音色优美和韵律自然的合成语音下面结合图4到6来对本发明第二实施方式的语音合成系统进行描
述。和第一实施方式不同的是，第二实施方式是通过对待合成文本进行韵律参数标注，并对标注文件进行分析来得到近似的自然韵律参数。
如图4所示，根据本发明第二实施方式的语音合成系统包括待合成文本提供部101、近似自然韵律参数获取部401、近似自然韵律参数存储部402、音素列表存储部104、语音库105、音声作成部106以及合成语音存储部107。其中，待合成文本提供部IOI、音素列表存储部104、语音库105、音声作成部106以及合成语音存储部107和第一实施方式中的相同，在此不再重复描述。
近似自然韵律参数获取部401在通过参照预定的韵律参数标注规则对待合成文本提供部101提供的文本进行标注后，对标注文本进行分析来得到近似的自然韵律参数。所得到的近似自然韵律参数被存储到近似自然韵律参数存储部402中。
图5例示出近似自然韵律参数获取部401的构成示例。
近似自然参数获取部401包括韵律参数标注规则知识库501、韵律参数标注部502、韵律参数标注文件存储部503、韵律参数生成部504以及音素列表生成部505。
韵律参数标注规则知识库501存储有关韵律参数标注的各种规则的数据。例如，图6示出了韵律参数标注规则的数据结构的一个示例。在韵律参数标注规则中至少要存储韵律参数名称(例如，音长、音频、速度等)、标注符号(例如，P、 D、 S)和标注区间(例如，0~9)等。
韵律参数标注部502参照韵律参数标注规则知识库501中存储的韵律参数标注规则来对待合成文本提供部101提供的文本进行韵律参数标注，并将标注后的文件存储在韵律参数标注文件存储部503中。
实际上，采用韵律标注规则可以与自动韵律参数预测相结合。具体来说，首先由自动韵律参数预测模块根据输入的音素列表对其中的各个音素进行韵律参数的预测。在此基础上，可以根据应用的需要，由人来对其中的一些参数进行修正，譬如根据上下文情感的需要，对某个或某几个音素进行拖长处理或语气的加重处理，前者可以用标注符号D进行
操作，后者可以用标注符号P予以操作。例如，假设"D5"代表维持原来的音长，"D6、 D7、 D8、 D9"可以代表在原来的基础上进行分别对音长进行10%、 20%、 30%、 40%的拖长处理。反之，"D4、 D3、 D2、 Dl、 D0"可以代表在原来的基础上进行分别对音长进行10%、 20%、 30%、 40%、 50°/。的加快处理。
韵律参数生成部504对韵律参数标注文件存储部503中存储的韵律参数标注文件进行分析，从而得到各种量化的韵律参数，并将其存储在近似自然韵律参数存储部402中。这些韵律参数虽然不能和第一实施方式中得到的自然韵律参数完全等同，但也具有很好的自然度。
音素列表生成部505用于对韵律参数标注文件503中存储的韵律参数标注文件进行解析，以生成和该文件对应的音素列表，并将所生成的音素列表存储在音素列表存储部104中。
最后，和在第一实施方式中描述的一样，音声作成部106以近似自然韵律参数存储部402中存储的近似自然韵律参数作为参照，从语音库 105中存储的各种语音单元中，针对音素列表104中存储的音素列表搜寻符合全局最优的包括一系列语音合成单元的语音合成单元列表，对该语音合成单元进行拼接合成，并参照所述近似自然韵律参数对合成的文件进行波形调整，以得到自然度得到改进的合成语音文件。
根据本发明的第二实施方式，不仅相比于现有技术的语音合成系统，可以得到改进了自然度的合成语音文件，而且相比于本发明的第一实施方式，不必用真人进行朗读，从而可以提高效率，并节约成本。
需要另外说明的是，上面虽然单独说明了自然韵律参数存储部103、音素列表存储部104、合成语音存储部107、近似自然韵律参数存储部402 等，但实质上这些组件可以共用相同的物理存储装置。语音库105和韵律参数标注规则知识库501可以采用专用的存储装置，但也可以利用通用的存储装置的一部分。
本发明的语音合成系统可以由通用的计算机系统配以相应的计算机程序来实现。但是，不限于此，各个组成部分也可以实现为专用的电子装置(例如固件等)，并通过将它们集成起来以实现一个完整的语音合成系统。
本发明提供了一种能够改进合成语音自然度的语音合成系统。釆用
本发明的语音合成系统，可以按照用户的要求生成音色优美且抑扬顿挫程度与自然语音非常接近的合成语音。
通过将标准的音色甜美的朗读和音色不太好或发音不标准但富有感情的朗读相结合，使得可以通过由任何人进行朗读来制作出音色甜美且抑扬顿挫的合成语音作品。从而，可以大幅度地降低有声电子图书的制作成本，批量生产出具有同一语音特色且富有韵律节奏的有声电子图书。
采用本发明的语音合成系统，可以在自己的嗓音发生变化时仍然能够发出自己原来的甜美的声音。比如，播音员感冒时可以利用本系统来以跟过去没有太大区别的语音播报。女性老了之后还可以通过本系统发出年轻时候的声音。
尽管以上仅选择了优选实施例来例示本发明，但是本领域技术人员根据这里公开的内容，很容易在不脱离由所附权利要求限定的发明范围的情况下进行各种变化和修改。上述实施例的说明仅是例示性的，而不构成对由所附权利要求及其等同物所限定的发明的限制。
权利要求
1、一种基于韵律参照进行语音合成的语音合成装置，其包括韵律参数获取部，其通过对按包括自然人朗读待合成文本在内的方式而获得的该待合成文本的录音文件进行分析，或者对以预定标注标准对待合成文本进行韵律参数标注而获得的韵律参数标注文件进行分析，来获取自然韵律参数或近似自然韵律参数；和音声作成部，其以该自然韵律参数或近似自然韵律参数作为参照，针对该待合成文本从预录语音库中选择相应的语音合成单元，并对所述语音合成单元进行拼接合成，以产生对应于该待合成文本的合成语音文件。
2、如权利要求1所述的语音合成装置，其中，该音声作成部包括语音单元选择部，其以该自然韵律参数或近似自然韵律参数作为参照，从该预录语音库中选择针对该待合成文本全局最优的语音合成单元；和波形生成部，其基于该自然韵律参数或近似自然韵律参数，对该语音单元选择部选择的语音合成单元进行拼接合成并对合成后的语音文件进行波形调整，以获得对应于该待合成文本的具有高自然度的合成语音文件。
3、如权利要求2所述的语音合成装置，其中，该韵律参数获取部包括录音部，其通过自然人朗读该待合成文本而获得该待合成文本的录音文件；和韵律参数提取部，其从该录音文件的波形数据中获得韵律参数，该韵律参数包括音长、音频和能量。
4、如权利要求2所述的语音合成装置，其中，该韵律参数获取部包括韵律参数标注部，其参照定义了韵律参数的标注规则的知识库以该预定标注标准对该待合成文本进行韵律参数标注，以获得韵律参数标注文件；和韵律参数生成部，其对该韵律参数标注文件进行分析，以获得近似韵律参数，该近似韵律参数包括音长、音频和能量。
5、如权利要求1所述的语音合成装置，其中，该待合成文本的录音文件是通过电子卡通发音的方式获得的。
6、一种基于韵律参照进行语音合成的方法，其包括以下步骤韵律参数获取步骤，其通过对按包括自然人朗读待合成文本在内的方式而获得的该待合成文本的录音文件进行分析，或者对以预定标注标准对待合成文本进行韵律参数标注而获得的韵律参数标注文件进行分析，来获取自然韵律参数或近似自然韵律参数；和音声作成歩骤，其以该自然韵律参数或近似自然韵律参数作为参照，针对该待合成文本从预录语音库中选择相应的语音合成单元，并对所述语音合成单元进行拼接合成，以产生对应于该待合成文本的合成语音文件。
7、如权利要求6所述的方法，其中，该音声作成步骤包括以该自然韵律参数或近似自然韵律参数作为参照，从该预录语音库中选择针对该待合成文本全局最优的语音合成单元；和基于该自然韵律参数或近似自然韵律参数，对所选择的语音合成单元进行拼接合成并对合成后的语音文件进行波形调整，以获得对应于该待合成文本的具有高自然度的合成语音文件。
8、如权利要求7所述的方法，其中，该韵律参数获取步骤包括-通过自然人朗读该待合成文本而获得该待合成文本的录音文件；和从该录音文件的波形数据中获得韵律参数，该韵律参数包括音长、音频和能量。
9、如权利要求7所述的方法，其中，该韵律参数获取步骤包括参照定义了韵律参数的标注规则的知识库以该预定标注标准对该待合成文本进行韵律参数标注，以获得韵律参数标注文件；和对该韵律参数标注文件进行分析，以获得近似韵律参数，该近似韵律参数包括音长、音频和能量。
10、如权利要求6所述的方法，其中，通过电子卡通发音的方式来获得该待合成文本的录音文件。
全文摘要
本发明提供基于韵律参照的语音合成装置和方法。该语音合成装置包括韵律参数获取部，其通过对按包括自然人朗读待合成文本在内的方式而获得的录音文件进行分析，或者对以预定标注标准对待合成文本进行韵律参数标注而获得的韵律参数标注文件进行分析，来获取自然韵律参数或近似自然韵律参数；和音声作成部，其以该自然韵律参数或近似自然韵律参数作为参照，针对该待合成文本从预录语音库中选择相应的语音合成单元，并对所述语音合成单元进行拼接合成，以产生对应于该待合成文本的合成语音文件。根据本发明的语音合成装置和方法，可以根据用户的要求生成富有感情色彩且抑扬顿挫程度与自然语音非常接近的高自然度的合成语音。
文档编号G10L13/08GK101685633SQ20081016600
公开日2010年3月31日申请日期2008年9月28日优先权日2008年9月28日
发明者彬王, 庆郭, 陆应亮申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭庆;陆应亮;王彬
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：语音识别装置的制作方法
下一篇：隔声量可智能化控制的隔声罩的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！