语音合成方法和装置的制造方法_3

文档序号：9598795阅读：来源：国知局

另外还可以获取分词对应的词语长度和词性，从而用词向量+词语长度+词性表征一个分词，作为分词的特征向量，将组成一个语句文本的分词的特征向量进行组合，得到该语句文本的特征向量。
[0093]通过引入词向量，可以增强词语本身的泛化能力，提升韵律模型的鲁棒性。
[0094]本实施例中，深度神经网络具体采用:使用全连接的前馈神经网络的深度神经网络(De印 Neural Networks，DNN)+Bi_LSTM 网络。B1-LSTM 网络由 LSTM 单元组成，由于 LSTM结构能够维护长距离的历史信息(如，历史的上下文特征信息)，因此特别适合韵律层级标注中的长距离韵律建模。在韵律层级模型训练过程中，将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题，采用DNN加B1-LSTM的网络结构对模型进行训练。深度神经网络的输出对韵律词、韵律短语和语调短语同时进行分类，在误差反向传递的过程体现三种层级结构的相互关系。
[0095]合成模块54，用于在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。
[0096]例如，韵律模型和声学模型是采用上述的深度神经网络建模后得到的。
[0097]可以理解的是，韵律模型和声学模型也可以采用常规方式生成，在采用常规方式生成韵律模型或声学模型时，基于的数据可以包括上述的以段落或篇章为单元的文本数据，在需要时还可以包括其他文本数据，如果还需要语音数据，再采用上述的对应的发音人更自然表达的语音数据，从而在一定程度上提高韵律模型和声学模型的效果。
[0098]在得到韵律模型和声学模型后，可以应用到语音合成，以得到合成语音。
[0099]具体的语音合成的流程可以参见图4，在此不再赘述。
[0100]本实施例中，通过获取以段落或篇章为单位的文本数据，可以得到存在语义关联的文本数据，通过发音人在朗读时结合文本数据的语义进行个人情感表达，可以得到更具情感的语音数据，从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型，进而通过该声学模型可以生成更具有情感表现力的合成语音。进一步的，采用上述的文本数据以及录制方式，可以获取到更大规模的数据，从而能够提高生成的韵律模型和声学模型的效果。另外，通过采用深度神经网络生成韵律模型和/或声学模型，可以充分利用深度神经网络对历史信息的缓存功能，更利于根据上述的数据生成韵律模型和/或声学模型。
[0101]需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。
[0102]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
[0103]应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。
[0104]本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0105]此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0106]上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0107]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0108]尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种语音合成方法，其特征在于，包括: 获取以段落或篇章为单位的文本数据；在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。2.根据权利要求1所述的方法，其特征在于，所述生成韵律模型，和/或，根据所述文本数据和所述语音数据生成声学模型，包括: 采用深度神经网络，生成韵律模型，和/或，根据所述文本数据和所述语音数据生成声学模型。3.根据权利要求2所述的方法，其特征在于，所述深度神经网络包括:B1-LSTM网络。4.根据权利要求2所述的方法，其特征在于，采用深度神经网络，根据所述文本数据和所述语音数据生成声学模型，包括: 获取所述文本数据的上下文特征信息；采用深度神经网络，根据所述上下文特征信息和所述语音数据生成声学模型。5.根据权利要求4所述的方法，其特征在于，所述上下文特征信息包括语义信息的特征和常规特征，所述语义信息的特征如下项中的一项或多项: 词向量信息、句式信息、重音、情感。6.根据权利要求2所述的方法，其特征在于，采用深度神经网络，生成韵律模型，包括: 获取多个语句文本；获取每个语句文本对应的特征向量；采用深度神经网络，根据所述语句文本对应的特征向量进行建模，生成韵律模型。7.一种语音合成装置，其特征在于，包括: 获取模块，用于获取以段落或篇章为单位的文本数据；录制模块，用于在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成模块，用于生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；合成模块，用于在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。8.根据权利要求7所述的装置，其特征在于，所述生成模块具体用于: 采用深度神经网络，生成韵律模型，和/或，根据所述文本数据和所述语音数据生成声学模型。9.根据权利要求8所述的装置，其特征在于，所述生成模块包括:用于生成声学模型的第一单元，所述第一单元具体用于: 获取所述文本数据的上下文特征信息；采用深度神经网络，根据所述上下文特征信息和所述语音数据生成声学模型。10.根据权利要求8所述的装置，其特征在于，所述生成模块包括:用于生成韵律模型的第二单元，所述第二单元具体用于: 获取多个语句文本；获取每个语句文本对应的特征向量；采用深度神经网络，根据所述语句文本对应的特征向量进行建模，生成韵律模型。
【专利摘要】本发明提出一种语音合成方法和装置，该语音合成方法包括：获取以段落或篇章为单位的文本数据；在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。该方法能够提高合成语音的情感表现力。
【IPC分类】G10L13/06, G10L13/02
【公开号】CN105355193
【申请号】CN201510728762
【发明人】李秀林, 关勇, 康永国, 徐扬凯, 陈汉英
【申请人】百度在线网络技术（北京）有限公司
【公开日】2016年2月24日
【申请日】2015年10月30日

完整全部详细技术资料下载

当前第3页1 2 3