一种语音合成、删除方法、装置及语音删除合成方法_3

文档序号：9688743阅读：来源：国知局

元40。
[0080]提取单元10，用于从第一语音信号中提取与预存声纹特征信息对应的声纹特征信号；
[0081]具体的，提取单元10的设置方式与实施例三记载的提取单元10相同，在此省略重复描述。
[0082]删除单元20，用于从第二语音信号中移除带有所述声纹特征信号的声波。
[0083]具体的，删除单元20对第二语音信号进行频谱分析，获取与声纹特征信号相匹配的声波，删除该段声波。
[0084]以上实现的语音删除装置，通过在一段语音中找出一个声音的声纹特征信号，并将带有该声纹特征信号的声波删除，达到对混有不需要声音的录音进行杂音处理得目的。
[0085]实施例六
[0086]如图6所示，本发明实施例六提出一种语音删除合成方法，包含以下步骤:
[0087]S401，获取第一语音信号的声纹特征信号；
[0088]具体的，获取第一语音信号的声纹特征信号过程为:对第一语音信号进行频谱分析，通过预存声纹特征信息与所述第一语音信号进行匹配比较，将第一语音信号中与声纹特征信息对应的声纹特征信号提取出来。所述声纹特征信息通过声纹特征模型提取并保存，所述声纹特征模型的建模过程为建立适合声纹特征提取的算法，并初始化相关的变量，如果建模成功，则继续，否则重新开始建模;通过所述声纹特征信息模型对选定声音进行至少一次频谱分析，获取所述选定声音的声纹特征信息。为了使声纹特征信息提取更精确，可以对选定声音进行多次频谱分析并提取声纹特征信息。一般情况下对选定声音进行3-4次频谱分析并提取声纹特征信息，通过充分提取用户的声纹特征信息，扩大样本空间，使得对声纹特征信息的提取更加充分和准确。
[0089]S402，从第二语音信号中移除含有所述第一语音信号声纹特征信号的波形；
[0090]具体的，对第二语音信号进行频谱分析，在所述第二语音信号中查找与所述第一语音信号的声纹特征信号对应的波形，然后移除所述波形。例如，在B录音中含有A的声音，现在需要将A的声音换成C的声音，即需要在所述B录音中先通过S401寻找到A的声纹特征信号，然后通过S402将B录音中对应A声音的波形删除。
[0091 ] S403，获取第三语音信号的声纹特征信号；
[0092]具体的，获取第三语音信号的声纹特征信号的过程同S401中获取第一语音信号的声纹特征信号的过程。
[0093]S404，将所述第三语音信号的声纹特征信号合成到所述第二语音信号中。
[0094]具体的，对第二语音信号进行频谱分析，获取第二语音信号包含基准频率、基准时间在内的信息，将提取的第三语音信号的声纹特征信号与所述获取的第二语音信号的包含基准频率、基准时间的信息拼接，使第三语音信号的声纹特征信号合成到所述第二语音信号中。假如所述的第三语音信号即为C的声音的声纹特征信号，那么要将C的声音合成到B录音中，在S403去除A的声波的基础上，将C的声纹特征信号合成与A的包含基准频率、基准时间的信息拼接，即可最终完成将B录音中A的声音换成C的声音的目的。
[0095]以上实现的语音删除合成方法，对复合有多种声音的录音，可以将不需要的声音置换为需要的声音，免去重新拍摄的烦恼。
[0096]实施例七
[0097]如图7所示，本发明实施例七提出一种语音删除合成方法，包含以下步骤:
[0098]S501，对第一发生者的语音进行录音，获取第一语音信号，所述第一发生者至少包括两个用户。
[0099]具体的，打开录音模式，对第一发生者的语音进行录音，所述第一发生者至少包括两个用户，如用户A和用户B，其中第一语音信号中包括用户A和用户B的语音。
[0100]S502，根据预存声纹特征信息提取第一语音信号中的特征语音信号并保存。
[0101]具体的，对第一语音信号进行频谱分析，通过预存声纹特征信息与所述第一语音信号进行匹配比较，将第一语音信号中与声纹特征信息对应的声纹特征信号提取出来。所述声纹特征信息通过声纹特征模型提取并保存，所述声纹特征模型的建模过程为建立适合声纹特征提取的算法，并初始化相关的变量，如果建模成功，则继续，否则重新开始建模;通过所述声纹特征信息模型对选定声音进行至少一次频谱分析，获取所述选定声音的声纹特征信息。为了使声纹特征信息提取更精确，可以对选定声音进行多次频谱分析并提取声纹特征信息。一般情况下对选定声音进行3-4次频谱分析并提取声纹特征信息，通过充分提取用户的声纹特征信息，扩大样本空间，使得对声纹特征信息的提取更加充分和准确。
[0102]S503，对第二发生者的语音进行录音，获取第二语音信号。
[0103]具体的，打开录音模式，对第二发生者的语音进行录音，第二发生者至少包括一个用户，如用户C，其中第二语音信号中包括用户C的语音。
[0104]S504，将所述第二语音信号与所述特征语音信号进行合成，生成第三语音信号。
[0105]具体的，对第二语音信号进行频谱分析，获取第二语音信号包含基准频率、基准时间在内的信息，将提取的声纹特征信号与所述获取的第二语音信号的包含基准频率、基准时间的信息拼接，使声纹特征信号合成到所述第二语音信号中。假如所述的第二语音信号即为用户A的声音的声纹特征信号，那么要将A的声音合成到C录音中，在S502去除A的声波的基础上，将A的声纹特征信号合成与C的包含基准频率、基准时间的信息拼接，即可最终完成将用户A和用户B录音中A的声音合成到C的声音的目的。
[0106]本发明实施例提供了一种根据声纹特征信息对已知语音信号进移除合成的方法。对于输入一段对话或者录取的会议录音，可以将某个特定人的声音移除，或者增加某个人的声音进去，方便音频信号后期处理。
[0107]实施例八
[0108]如图8所示，本发明实施例八提出一种语音删除合成装置，包含，第一提取单元11、删除单元40、第二提取单元12、合成单元20。
[0109]第一提取单元11，用于提取第一语音信号的声纹特征信号；
[0110]具体的，第一提取单元11获取第一语音信号的声纹特征信号过程为:第一提取单元11对第一语音信号进行频谱分析，通过预存声纹特征信息与所述第一语音信号进行匹配比较，将第一语音信号中与声纹特征信息对应的声纹特征信号提取出来。所述声纹特征信息通过声纹特征模型提取并保存，所述声纹特征模型的建模过程为建立适合声纹特征提取的算法，并初始化相关的变量，如果建模成功，则继续，否则重新开始建模;通过所述声纹特征信息模型对选定声音进行至少一次频谱分析，获取所述选定声音的声纹特征信息。为了使声纹特征信息提取更精确，可以对选定声音进行多次频谱分析并提取声纹特征信息。一般情况下对选定声音进行3-4次频谱分析并提取声纹特征信息，通过充分提取用户的声纹特征信息，扩大样本空间，使得对声纹特征信息的提取更加充分和准确。
[0111]删除单元40，用于从第二语音信号中移除含有所述第一语音信号声纹特征信号的波形；
[0112]具体的，删除单元40对第二语音信号进行频谱分析，在所述第二语音信号中查找与所述第一语音信号的声纹特征信号对应的波形，然后移除所述波形。例如，在B录音中含有A的声音，现在需要将A的声音换成C的声音，即需要在所述B录音中

完整全部详细技术资料下载

当前第3页1 2 3 4