语音合成方法和装置的制造方法_2

文档序号：9598796阅读：来源：国知局

程图；
[0023]图4为本发明语音合成方法再一个实施例的流程图；
[0024]图5为本发明语音合成方法中生成声学模型一个实施例的示意图；
[0025]图6为本发明语音合成装置一个实施例的结构示意图；
[0026]图7为本发明语音合成装置另一个实施例的结构示意图；
[0027]图8为本发明语音合成装置再一个实施例的结构示意图；
[0028]图9为本发明语音合成装置再一个实施例的结构示意图。
【具体实施方式】
[0029]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0030]图1为本发明语音合成方法一个实施例的流程图，如图1所示，上述语音合成方法可以包括:
[0031]步骤101，向服务器发送数据文件查询请求，上述数据文件查询请求携带终端设备的计算能力数据。
[0032]步骤102，接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少两个音色对应的声学模型。
[0033]步骤103，将上述声学模型列表显示给使用上述终端设备的用户，以供上述用户从上述声学模型列表中选择音色对应的声学模型。
[0034]步骤104，下载并保存上述用户选择的音色对应的声学模型。
[0035]步骤105，通过保存的声学模型进行语音合成。
[0036]本实施例中，终端设备向服务器查询可用的声学模型，同时提供自己的计算能力数据(可以是产品型号，也可以是量化的计算能力值，或者核心硬件数据等)；服务器根据终端设备提供的计算能力数据，返回适合当前终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型；然后，终端设备根据用户的选择，下载并保存用户选择的音色对应的声学模型。
[0037]终端设备在下载并保存声学模型之后，就可以提供语音合成服务了。终端设备中的语音合成系统，在加载下载得到的声学模型的时候，会根据声学模型中的信息，判断出声学模型的类型，自动加载到语音合成系统中，并通过对应的处理流程，预测出声学参数序列，供声码器合成出语音。
[0038]其中，上述终端设备可以为手机或电脑等具有语音合成功能的终端设备，本实施例对上述终端设备的形态不作限定。
[0039]图2为本发明语音合成方法另一个实施例的流程图，如图2所示，步骤101之前，还可以包括:
[0040]步骤201，当上述用户首次使用上述终端设备上安装的应用的语音合成功能时，向上述用户提示是否下载声学模型。
[0041]步骤202，接收上述用户确定下载声学模型的指示，然后执行步骤101。
[0042]举例来说，某个应用(Applicat1n ;以下简称:App)集成了语音合成的软件开发包，用户安装这个App在该用户使用的终端设备(例如:iph0ne4)上之后，当上述用户首次使用这个App的语音合成功能时，App会提示用户是否下载声学模型。接收到上述用户确定下载声学模型的指示之后，App向服务器发送数据文件查询请求，上述数据文件查询请求中携带上述终端设备的计算能力数据(可以是上述终端设备的产品型号，例如:iph0ne4)。服务器得知上述终端设备为iphone4时，会根据服务器中的声学模型及所需计算能力的数据库，了解到这个终端设备适合比较节约计算资源的HMM模型。然后，服务器把可用的多个音色所对应的HMM模型生成声学模型列表，将上述声学模型列表返回给终端设备，上述声学模型列表中可以包括温柔女声1、爽朗女声2和/或磁性男声1等声学模型。终端设备收到上述声学模型列表后，将上述声学模型列表显示给用户，以供上述用户从上述声学模型列表中选择自己感兴趣的音色对应的声学模型，然后终端设备下载并保存上述用户选择的音色对应的声学模型，从而iphone4这个终端设备获得了计算复杂度低的HMM模型，进而可以通过保存的声学模型进行语音合成。
[0043]类似地，iphone6由于计算能力比较强，获得的可能就是LSTM模型，具有更好地声音建模效果。
[0044]上述语音合成方法中，终端设备向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表显示给使用上述终端设备的用户，下载并保存上述用户选择的音色对应的声学模型，进而通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。
[0045]图3为本发明语音合成方法再一个实施例的流程图，如图3所示，上述语音合成方法可以包括:
[0046]步骤301，接收终端设备发送的数据文件查询请求，上述数据文件查询请求携带上述终端设备的计算能力数据。
[0047]其中，上述终端设备的计算能力数据可以是产品型号，也可以是量化的计算能力值，或者核心硬件数据等。
[0048]步骤302，根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少两个音色对应的声学模型。
[0049]具体地，服务器接收到终端设备提供的计算能力数据之后，会根据服务器中的声学模型及所需计算能力的数据库，确定适合当前终端设备的计算能力的声学模型列表，上述声学模型列表中包括至少一个音色对应的声学模型。
[0050]步骤303，将上述声学模型列表发送给上述终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。
[0051]其中，上述终端设备可以为手机或电脑等具有语音合成功能的终端设备，本实施例对上述终端设备的形态不作限定。
[0052]图4为本发明语音合成方法再一个实施例的流程图，如图4所示，步骤301之前，还可以包括:
[0053]步骤401，利用语音数据和上述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。
[0054]本实施例中，利用语音数据和上述语音数据对应的文本标注数据进行训练，获得至少两种具有不同复杂度的声学模型。上述至少两种具有不同复杂度的声学模型中可以包括基于HMM的声学模型和/或基于LSTM的声学模型。对于不同的模型，所利用的声学特征参数或者上下文特征，可以有所不同。
[0055]图5为本发明语音合成方法中生成声学模型一个实施例的示意图，如图5所示，利用同样的一套数据(包含语音数据和上述语音数据对应的文本标注数据)，可以训练出至少两种具有不同复杂度的声学模型。图5中展不了一种HMM模型和两种LSTM模型。每一种模型当中，一般都包括时长模型、基频模型和谱模型，用于体现说话人的节奏、抑扬顿挫和音色等信息。对于HMM模型，可以通过控制叶子节点的数量，来生成不同复杂度的模型；对于LSTM等神经网络模型，可以通过控制每层节点的数量，来控制模型的复杂度。
[0056]上述语音合成方法中，服务器接收终端设备发送的数据文件查询请求之后，根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都

完整全部详细技术资料下载

当前第2页1 2 3 4