构建语音特征库的方法、语音合成方法、装置及设备的制造方法_2

文档序号：9371978阅读：来源：国知局

等我失去的时候才追悔莫及人世间最痛苦的事莫过于此”。从这段文本信息中，可以截取出“曾经有一份真挚的爱情放在我面前”，“曾经有一份真挚的爱情”，“放在我面前”，“我没有珍惜”，“等我失去的时候才追悔莫及”，“追悔莫及”，“人世间最痛苦的事莫过于此”，“人世间最痛苦的事”，“莫过于此”等等。
[0046]步骤110、分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息。
[0047]其中，分析的具体方式有多种，例如可以通过大数据技术分析语境和语义。
[0048]其中，一条个性化的文本信息可能对应一个语境，也可能对应多个语境。
[0049]其中，一条个性化的文本信息对应一个语义，但该语义有多种表达方式，也就对应多个文本信息。例如，个性化的文本信息是“我没有珍惜”，与其相同语义的其他文本信息可以是“我不珍惜”，“我没能珍惜”，“偶没有珍惜”等等。
[0050]步骤120、在上述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征，每条文语特征指示对应的一个语境和一条文本信息。
[0051]例如，对“我没有珍惜”这条个性化的文本信息分析得到有两个语境:陈述，后悔。“我没有珍惜”这条个性化的文本信息分析得到有相同语义的三条文本信息我不珍惜”，“我没能珍惜”，“偶没有珍惜”。那么，“我没有珍惜”这条个性化的文本信息对应有8条文语特征，其中包括指示“我没有珍惜”这一个性化的文本信息的文语特征。
[0052]本发明中，文语特征的内容可以是其指示的语境和文本信息，也可以是其指示的语境和文本信息的标识信息，还可以是其指示的语境和文本信息存储位置的指针，等等。
[0053]步骤130、对上述录音进行音频采样，得到音频采样值。
[0054]其中，具体是对上述录音进行元音、辅音、音调等反映语音习惯特点的音频信息进行米样。
[0055]其中，可以针对上述录音的每条个性化的文本信息，分别得到一组对应的音频采样值。
[0056]步骤140、在上述对象的语音特征库中保存音频特征，音频特征指示了音频采样值。
[0057]本发明中，音频特征的内容可以是其指示的音频采样值，也可以是其指示的音频采样值的标识信息，还可以是其指示的音频采样值存储位置的指针，等等。
[0058]由于本发明推荐候选推荐项目时要考虑用户的场景信息和用户信息构建语音特征库时，针对每条个性化的文本信息，确定至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在后续进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息，进而实现个性化的语音合成，从而使得个性化语音的使用不依赖于人的生老病死。
[0059]上述本发明实施例中，为了便于语音特征库的管理与查找，还可以保存有语音特征，每条个性化的文本信息对应的语音特征指示一条文语特征和一条音频特征。相应的，还在上述语音特征库中保存每条个性化的文本信息对应的语音特征，每条语音特征指示一条文语特征和一条音频特征。
[0060]例如，“我没有珍惜”这条个性化的文本信息对应有如上所述的8条文语特征，并且对应有一个音频特征，那么，在对象的语音特征库中保存有这条个性化的文本信息对应的8条语音特征，每个语音特征指示这条个性化的文本信息对应的一条文语特征及其对应的音频特征。
[0061]基于上述任意方法实施例，其中每条文语特征还指示对应的语境和文本信息在本条文语特征中的权重。
[0062]例如，“我没有珍惜”这条个性化的文本信息对应的一条文语特征指示的语境是“陈述”，指示的文本信息是“我没有珍惜”，这条文本特征还指示了“陈述”这一语境和“我没有珍惜”这一文本信息分别在这条文语特征中的权重。
[0063]本发明中，初始权重的取值可以是预设的，例如，在生成一条文语特征时，为其指示的语境和文本特征设置权重分别为0.5。
[0064]在此基础上，上述步骤120的具体实现方式可以是:
[0065]生成每条个性化的文本信息对应的文语特征，并确定每条文语特征指示的语境和文本信息在本条文语特征中的权重；
[0066]如果在上述对象的语音特征库中已经保存的文语特征指示的语境和文本信息与分析得到的语境和文本信息相同，但在文语特征中的权重不同，将权重按照预定规则合并。
[0067]例如，生成的一条文语特征指示的语境是“陈述”，其权重是0.5，文本信息是“我没有珍惜”，其权重是0.5。上述对象的语音特征库中保存有一条文语特征指示的语境是“陈述”，其权重是0.4，文本信息是“我没有珍惜”，其权重是0.6，那么，按照预定规则(例如求平均值)合并权重后保存，即将保存的该条文语特征指示的语境的权重修改为0.45，文本信息的权重修改为0.55。
[0068]如果语音特征库中保存的文语特征中没有与生成的文语特征指示的语境和文本信息均相同的，则将生成的文语特征直接保存到语音特征库中。
[0069]基于上述任意方法实施例，其中，上述步骤140的具体实现方式可以是:如果在上述对象的语音特征库中已经保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，将音频采样值合并。
[0070]例如，“我没有珍惜”这一个性化的文本信息对应的音频采样值与语音特征库中保存的一组音频特征值的差值在预定范围内，则将这两组音频特征值按照预定规则合并(例如取均值)后替换掉原来保存的这组音频特征值。
[0071]如果在上述对象的语音特征库中没有保存的音频特征指示的音频采样值与音频采样得到的音频采样值的差值在预定范围内，直接将采样得到的音频采样值保存的语音特征库中。
[0072]基于与上述方法相同的发明构思，本发明的实施例还提供一种构建语音特征库的
目.ο
[0073]图2是根据本发明的另一个实施例的构建语音特征库的装置的示意图，下简称构建装置。
[0074]如图2所示，构建装置包括:用于将对象的录音转换为个性化的文本信息的装置(下文简称为“文本信息转换装置”)201 ;用于分析得到每条个性化的文本信息对应的至少一个语境和相同语义的至少一条文本信息的装置(下文简称为“文本信息分析装置”)202 ;用于在所述对象的语音特征库中关联保存每条个性化的文本信息及对应的文语特征的装置(下文简称为“文语特征保存装置”)203 ;用于对所述录音进行音频采样，得到音频采样值的装置(下文简称“音频采样装置”)204 ;被配置为在所述对象的语音特征库中保存音频特征的装置(下文简称“音频特征保存装置”)205，音频特征指示了音频采样值。
[0075]由于本发明推荐候选推荐项目时要考虑用户的场景信息和用户信息构建语音特征库时，针对每条个性化的文本信息，确定至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在后续进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文

完整全部详细技术资料下载

当前第2页1 2 3 4