构建语音特征库的方法、语音合成方法、装置及设备的制造方法_4

文档序号：9371978阅读：来源：国知局

所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0113]对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
【主权项】
1.一种构建语音特征库的方法，包括: 将对象的录音转换为个性化的文本信息；分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息; 在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征，每条文语特征指示对应的一个语境和一条文本信息；对所述录音进行音频采样，得到音频采样值；在所述对象的语音特征库中保存音频特征，音频特征指示了音频采样值。2.根据权利要求1所述的方法，该方法还包括: 在所述语音特征库中保存每条个性化的文本信息对应的语音特征，每条语音特征指示一条文语特征和一条音频特征。3.根据权利要求1或2所述的方法，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。4.根据权利要求3所述的方法，其中，所述在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的步骤包括: 生成每条个性化的文本信息对应的文语特征，并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重；如果在所述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同，但在文语特征中的权重不同，将权重按照预定规则合并。5.根据权利要求1或2所述的方法，在所述对象的语音特征库中保存音频特征的步骤包括: 如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。6.一种语音合成方法，包括: 分析得到待进行语音合成的文本信息的语境；生成所述待进行语音合成的文本信息对应的文语特征，指示所述待进行语音合成的文本信息及其语境；在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息；根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成，所述音频特征指示音频采样值。7.根据权利要求6所述的语音合成方法，在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，包括: 根据语音特征库中保存的语音特征，查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，每条语音特征指示一条文语特征和一条音频特征。8.根据权利要求6或7所述的语音合成方法，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重；与待进行语音合成的文本信息对应的文语特征匹配的文语特征是指语境和文本信息相同，且在文本特征中的权重最接近。9.一种构建语音特征库的装置，包括: 用于将对象的录音转换为个性化的文本信息的装置；用于分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置；用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置，每条文语特征指示对应的一个语境和一条文本信息；用于对所述录音进行音频采样，得到音频采样值的装置；用于在所述对象的语音特征库中保存音频特征的装置，音频特征指示了音频采样值。10.根据权利要求9所述的装置，还包括用于在所述语音特征库中保存每条个性化的文本信息对应的语音特征的装置，每条语音特征指示一条文语特征和一条音频特征。11.根据权利要求9或10所述的装置，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。12.根据权利要求11所述的装置，所述用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置具体被配置为: 生成每条个性化的文本信息对应的文语特征，并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重；如果在所述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同，但在文语特征中的权重不同，将权重按照预定规则合并。13.根据权利要求9或10所述的装置，所述用于在所述对象的语音特征库中保存音频特征的装置具体被配置为:如果在所述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。14.一种计算机设备，包括权利要求9-13中任一个的构建语音特征库的装置。15.一种语音合成装置，包括: 用于分析得到待进行语音合成的文本信息的语境的装置；用于生成所述待进行语音合成的文本信息对应的文语特征以指示所述待进行语音合成的文本信息及其语境的装置；用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置，所述语音特征库中的每条个性化的文本信息对应的每条文语特征指示对应的一个语境和一个相同语义的文本信息；用于根据查找到的文语特征指示的语境，所述文语特征对应的个性化的文本信息，和所述语音特征库中保存的音频特征，进行语音合成的装置，所述音频特征指示音频采样值。16.根据权利要求15所述的语音合成装置，所述用于在语音特征库中查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征的装置具体被配置为: 根据语音特征库中保存的语音特征，查找与待进行语音合成的文本信息对应的文语特征匹配的文语特征，每条语音特征指示一条文语特征和一条音频特征。17.根据权利要求15或16所述的语音合成装置，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重；与待进行语音合成的文本信息对应的文语特征匹配的文语特征是指语境和文本信息相同，且在文本特征中的权重最接近。18.一种计算机设备，包括根据权利要求15-17中任一个的语音合成装置。
【专利摘要】本发明提供了一种构建语音特征库的方法、语音合成方法、装置及设备。该语音合成方法所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息，进而实现个性化的语音合成，从而使得个性化语音的使用不依赖于人的生老病死。
【IPC分类】G10L13/02, G10L13/08
【公开号】CN105096934
【申请号】CN201510375429
【发明人】吕文玉, 王道龙, 刘孟
【申请人】百度在线网络技术（北京）有限公司
【公开日】2015年11月25日
【申请日】2015年6月30日

完整全部详细技术资料下载

当前第4页1 2 3 4