一种哼唱合成方法和系统的制作方法

文档序号：2823702阅读：263来源：国知局

专利名称：一种哼唱合成方法和系统的制作方法
技术领域：
本发明涉及语音合成技术领域，特别是涉及一种哼唱合成方法和系统。
背景技术：
语音合成技术，又称文语转换(TTS，Text to Speech)技术，其能将任意文字信息转化为标准流畅的语音朗读出来。目前的语音合成方法是预先录制一个语音库，然后在该语音库基础上完成一个语音合成系统。此方法合成声音的语调节奏取决于语音库，即合成出的声音像是录音人在说话。而在一些娱乐应用中，用户希望可以调节合成语音的语调节奏，比如，将短信以歌曲的语调“唱”出来。总之，需要本领域技术人员迫切解决的一个技术问题就是如何能够合成具有歌曲语调节奏的语音。

发明内容
本发明所要解决的技术问题是提供一种哼唱合成方法和系统，用于输出带有歌曲节奏和旋律的语音数据。为了解决上述问题，本发明公开了一种哼唱合成方法，包括接收用户输入的文本；进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；依据调整后的时长参数，对相应音节的谱参数进行插值调整；根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。优选的，所述对时长参数、基频参数进行调整的步骤，包括获取所述音节序列的音节个数；从所述歌曲模板中提取与所述音节个数相应的时长参数和基频参数，并覆盖所述规划得到的时长参数、基频参数。优选的，所述文本分析步骤包括对所述文本进行分词操作；将所述文本中的数字符号转换为文字；依据分词结果，对数字符号转换后的文本进行韵律预测；
根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。优选的，所述歌曲模板为通过如下步骤生成的模板针对歌曲样本，提取其中每个音节的时长参数和基频参数；将所述时长参数和基频参数，保存至歌曲模板。优选的，所述歌曲样本包括清唱歌曲样本。另一方面，本发明还公开了一种哼唱合成系统，包括接口模块，用于接收用户输入的文本；文本分析模块，用于进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；参数规划模块，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；第一参数调整模块，用于依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；第二参数调整模块，用于依据调整后的时长参数，对相应音节的谱参数进行插值调整；合成模块，用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。优选的，所述第一参数调整模块包括获取单元，用于获取所述音节序列的音节个数；调整单元，用于从歌曲模板中提取与所述音节个数对应的参数信息，覆盖所述规划得到的时长参数、基频参数，并对谱参数依据规划时长进行插值。优选的，所述文本分析模块包括分词单元，用于对所述文本进行分词操作；数字符号转换单元，用于将所述文本中的数字符号转换为文字；韵律预测单元，用于依据分词结果，对数字符号转换后的文本进行韵律预测；音节转换单元，用于根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。优选的，所述系统还包括歌曲模板生成模块，该歌曲模板生成模块包括提取单元，用于针对歌曲样本，提取其中每个音节的时长参数和基频参数；保存单元，用于将所述时长参数和基频参数，保存至歌曲模板。优选的，所述歌曲样本包括清唱歌曲样本。与现有技术相比，本发明具有以下优点本发明采用歌曲模板以音节为单位存储时长参数、基频参数，且可以依据歌曲名称等表征节奏、旋律的规则命名所述歌曲模板；这样，用户可以依据个人习惯、应用场景等实际需求来选择合适的歌曲模板，以对规划得到的时长和基频参数进行调整，最后基于参数合成技术得到用户输入文本的语音数据。由于在语音参数中，时长和基频参数共同决定节奏、旋律方面的信息，谱参数决定音色信息，即发音人的声音特点信息；因而本发明能够
5将歌曲模板的时长、基频参数与音库发音人的谱参数结合，能够得到音色为音库发音人、语气节奏为歌曲并带有一定旋律的哼唱语音流。

图1是本发明一种哼唱合成方法实施例的流程图；图2是本发明一种哼唱合成系统实施例的结构图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明实施例的核心构思之一在于，基于时长参数和基频参数生成歌曲模板，并且，在用户输入文本时，可以依据所述歌曲模板对规划得到的时长和基频参数进行调整，然后利用合成器得到所述文本的语音数据。由于在语音参数中，时长和基频参数共同决定节奏、旋律方面的信息，谱参数决定音色信息，即发音人的声音特点信息；因而上述将歌曲模板的时长、基频参数与音库发音人的谱参数结合，能够得到音色为音库发音人、语气节奏为歌曲并带有一定旋律的哼唱语音流。参照图1，示出了本发明一种哼唱合成方法实施例的流程图，具体可以包括步骤101、接收用户输入的文本；所述用户输入的文本可以包括文字和数字符号，其中，所述文字可以是汉字、日文、韩文、英文等，或者，上述多种文字中的一种或者几种，如汉英组合等等，本发明对具体的文本不加以限制，以下主要以汉字为例。步骤102、进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；以下具体的文本“北京在2008-8-8举行了盛大的奥运会开幕式”为例，对所述文本分析步骤进行说明，具体可以包括子步骤Al、对所述文本进行分词操作；分词结果北京/在/2008-8-8/举行/ 了 /盛大/的/奥运会/开幕式子步骤A2、将所述文本中的数字符号转换为文字；对应本例，所述数字符号转换也即，将“2008-8-8”转换为“二零零八年八月八日”，数字符号转换后的文本为“北京在二零零八年八月八日举行了盛大的奥运会开幕式”。子步骤A3、依据分词结果，对数字符号转换后的文本进行韵律预测；韵律预测结果北京在二零零八年八月八日/举行了盛大的奥运会开幕式子步骤A4、根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。音节;！5歹[J :bei3 jingl zai4 er4 ling2 ling2 bal nian2 bal yue4 bal ri4Ju3 xing2 le5 sheng4 da4 de5 ao4 yun4 hui4 kail mu4 shi4其中，数字12345代表声调，分别为一声、二声、三声、四声、轻声。在实际中，汉字音节的音节名称可通过查询汉字音节映射表得到，例如上例中的“bei3”即是音节名称。步骤103、针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；所述上下文环境主要是指音节的位置信息，可以包括句首、句中和句末；对应上例，“shi4”的上下文环境是句末，而“er4”的上下文环境则是句中。在实际中，所述统计参数模型可通过离线训练得到，其存储有各音节在不同上下文环境下所对应的参数。例如，离线时，针对时长参数训练第一统计模型，针对基频参数训练第二统计模型，以及，针对谱参数训练第三统计模型；那么，在线规划时，可以直接从所述三个统计模型得到与音节相应的时长参数、基频参数和谱参数。步骤104、依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；在实际中，可通过以下离线步骤建立歌曲模板子步骤Al、针对歌曲样本，提取其中每个音节的时长参数和基频参数；子步骤A2、将所述时长参数和基频参数，保存至歌曲模板。由于普通歌曲由人声和乐声两部分组成，而乐器的发声特点与人类差异较大，提取时会产生很多偏差，因此，本发明优先选用清唱歌曲样本。在语音参数中，时长参数也即每个音节的发音时间长度，可根据波形文件来确定；基频参数是声波的振动频率，提取时可首先检测出波形的周期，然后取倒数即可得到基频参数。在具体实现中，可采用成熟的工具，自动从歌曲样本中提取所述时长参数和基频参数，本发明对具体的提取方式不加以限制。另外，本发明一般针对一个歌曲样本生成一个歌曲模板，其中，所述歌曲样本可以是完整的歌曲，也可以是歌曲片段；并且，为方便用户选择，可为所述歌曲模板命名，例如，所述命名规则可以是歌曲名称“大约在冬季”、“月亮代表我的心”、“春天的故事”等。在用户输入文本时，本发明可展现所述离线建立若干个歌曲模板的选项，供用户选择，而用户可根据个人习惯、应用场景等实际需要，来选择合适的歌曲模板。具体地，所述步骤104可以通过以下子步骤来实现子步骤Bi、获取所述音节序列的音节个数；子步骤B2、从所述歌曲模板中提取与所述音节个数相应的时长参数和基频参数，并覆盖所述规划得到的时长参数、基频参数。假设获取得到的所述音节序列的音节个数为N，所述歌曲模板中的音节数为M，其中，M，N均为自然数，本发明的调整步骤主要有两种情形情形1、M 彡 N;此时，可以直接从歌曲模板中截取前N个音节的时长参数和基频参数。情形2、M<N;针对本情形，可以循环利用所述歌曲模板中M个音节的时长参数和基频参数，假设歌曲模板中音节序号为1，2，. . .，M，且假设N > 2M，那么，最终获取的时长参数和基频参数所对应的歌曲模板中的音节序号可以为1，2，...，M，1，2，...，M，1，2，...N。这里，所述覆盖规划得到的时长参数、基频参数，也即，用歌曲模板中的时长参数和基频参数替换原有的时长参数和基频参数。在实际中，可以在提取一个音节的时长参数和基频参数后，紧接着执行所述覆盖操作，然后针对其它音节执行提取和覆盖操作；或者，在提取N个音节的时长参数和基频参数后，再执行覆盖操作，本发明对具体的操作顺序不加以限制。步骤105、依据调整后的时长参数，对相应音节的谱参数进行插值调整；利用合成器进行语音合成的前提条件是，基频参数和谱参数应该是一一对应的，也即，必须一个基频参数对应一个谱参数；故本步骤通过调整谱参数，使其与步骤104规划得到的基频参数对应，以进行下一步的语音合成。以下通过具体的示例说明所述调整过程假设步骤103针对所述音节序列规划得到的时长参数为400ms，每一秒钟所采样的数目为1000个，也即，采样频率为1000HZ (赫兹)，通过计算，可得到基频参数和谱参数的数目均为400个；假设步骤104依据用户选择的歌曲模板和所述音节序列的音节个数，调整得到的时长参数为500ms，也即基频参数的数目为500 ；那么，本步骤则是针对步骤103中的400个谱参数，插值得到500个谱参数。插值方法有很多，例如，线性插值、非线性插值，或者，两点插值、多点插值等，本领域技术人员可以根据需要采用任一种，本发明对此不加以限制。例如，在采用两点线性插值时，插值公式可以为Qs = (aQl+bQ2+ul)/(a+b)，其中，Ql、Q2分别为已知谱参数点1、2(可为步骤103中原有的谱参数点，也可为本步骤已获得的新谱参数点)的谱参数，a，b为自然数，可分别代表已知谱参数点1、2对待插值点S产生的权重，0 < ul < a+b。总结来说，本步骤即是将M个谱参数插值为N个，以满足一个谱对应一个基频的要求，其中，M值可由步骤103得到，N值可由步骤104获得，M、N均为自然数。步骤106、根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。由于具有调节能力大、语音可塑性强等优点，参数合成技术在语音合成中得到了广泛的应用；在实际中，可以采用LPC(线性预测编码，linearpredictive coding)滤波器作为合成器，本发明对具体的合成器不加以限制。由于加入了歌曲模板中的时长参数和基频参数，因而所述合成得到的语音数据具有与歌曲相同的旋律和节奏。参照图2，示出了本发明一种哼唱合成系统实施例的结构图，具体可以包括接口模块201，用于接收用户输入的文本；文本分析模块202，用于进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；参数规划模块203，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；第一参数调整模块204，用于依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；
8
第二参数调整模块205，用于依据调整后的时长参数，对相应音节的谱参数进行插值调整；合成模块206，用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。在实际中，所述文本分析模块202可以进一步包括分词单元Cl，用于对所述文本进行分词操作；数字符号处理单元C2，用于将所述文本中的数字符号转换为文字；韵律预测单元C3，用于依据分词结果，对数字符号转换后的文本进行韵律预测；音节转换单元C4，用于根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。本发明可以采用如下离线的歌曲模板生成模块建立所述歌曲模板，该歌曲模板生成模块具体可以包括提取单元D1，用于针对歌曲样本，提取其中每个音节的时长参数和基频参数；保存单元D2，用于将所述时长参数和基频参数及相应的采样频率，保存至歌曲模板。由于普通歌曲由人声和乐声两部分组成，而乐器的发声特点与人类差异较大，提取时会产生很多偏差，因此，本发明优先选用清唱歌曲样本。在用户输入文本时，本发明可展现所述离线建立若干个歌曲模板的选项，供用户选择，而用户可根据个人习惯、应用场景等实际需要，来选择合适的歌曲模板。具体地，所述第一参数调整模块204可以包括如下单元结构获取单元E1，用于获取所述音节序列的音节个数；调整单元E2，用于从歌曲模板中提取与所述音节个数对应的参数信息，并覆盖所述规划得到的时长参数、基频参数。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。本发明可以应用于各种电脑终端及数字移动设备，用于将系统接收的或输入的任意文本转换成带有歌曲节奏和旋律的语音流。以上对本发明所提供的一种哼唱合成方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
一种哼唱合成方法，其特征在于，包括接收用户输入的文本；进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；依据调整后的时长参数，对相应音节的谱参数进行插值调整；根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。
2.如权利要求1所述的方法，其特征在于，所述对时长参数、基频参数进行调整的步骤，包括获取所述音节序列的音节个数；从所述歌曲模板中提取与所述音节个数相应的时长参数和基频参数，并覆盖所述规划得到的时长参数、基频参数。
3.如权利要求1所述的方法，其特征在于，所述文本分析步骤包括对所述文本进行分词操作；将所述文本中的数字符号转换为文字；依据分词结果，对数字符号转换后的文本进行韵律预测；根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。
4.如权利要求1所述的方法，其特征在于，所述歌曲模板为通过如下步骤生成的模板针对歌曲样本，提取其中每个音节的时长参数和基频参数；将所述时长参数和基频参数，保存至歌曲模板。
5.如权利要求4所述的方法，其特征在于，所述歌曲样本包括清唱歌曲样本。
6.一种哼唱合成系统，其特征在于，包括接口模块，用于接收用户输入的文本；文本分析模块，用于进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；参数规划模块，用于针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；第一参数调整模块，用于依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；第二参数调整模块，用于依据调整后的时长参数，对相应音节的谱参数进行插值调整；合成模块，用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到与所述音节序列对应的语音数据。
7.如权利要求6所述的系统，其特征在于，所述第一参数调整模块包括获取单元，用于获取所述音节序列的音节个数；调整单元，用于从歌曲模板中提取与所述音节个数对应的参数信息，覆盖所述规划得到的时长参数、基频参数，并对谱参数依据规划时长进行插值。
8.如权利要求6所述的系统，其特征在于，所述文本分析模块包括分词单元，用于对所述文本进行分词操作；数字符号转换单元，用于将所述文本中的数字符号转换为文字；韵律预测单元，用于依据分词结果，对数字符号转换后的文本进行韵律预测；音节转换单元，用于根据韵律预测结果，将文本转换为音节序列，以及，基于音节映射表，得到该音节序列中每个音节的音节名称。
9.如权利要求6所述的系统，其特征在于，还包括歌曲模板生成模块，该歌曲模板生成模块包括提取单元，用于针对歌曲样本，提取其中每个音节的时长参数和基频参数；保存单元，用于将所述时长参数和基频参数，保存至歌曲模板。
10.如权利要求9所述的系统，其特征在于，所述歌曲样本包括清唱歌曲样本。
全文摘要
本发明提供了一种哼唱合成方法和系统，其中的方法具体包括接收用户输入的文本；进行文本分析，获得与所述文本对应的音节序列，以及，该音节序列中每个音节的音节名称；针对所述音节序列中每个音节，根据其音节名称及上下文环境，结合统计参数模型，规划得到相应的时长参数、基频参数和谱参数；依据用户选择的歌曲模板和所述音节序列的音节个数，对所述规划得到的时长参数、基频参数进行调整，其中，所述歌曲模板中存储有音节的时长参数和基频参数；依据调整后的时长参数，对相应音节的谱参数进行插值调整；根据所述音节序列中每个音节的时长参数、基频参数和谱参数，利用合成器得到语音数据。本发明能够输出带有歌曲节奏和旋律的语音数据。
文档编号G10L13/02GK101901598SQ20101022349
公开日2010年12月1日申请日期2010年6月30日优先权日2010年6月30日
发明者张连毅, 李健, 武卫东申请人:北京捷通华声语音技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李健;张连毅;武卫东
技术所有人：北京捷通华声语音技术有限公司
我是此专利的发明人

上一篇：语音合成方法、系统及具有语音合成功能的移动终端设备的制作方法
上一篇：一种语音合成方法和系统的制作方法