基于DNN模型和支持向量机模型的说话人个数估计方法与流程

文档序号：12736582阅读：来源：国知局

技术总结
本发明提出基于DNN模型和支持向量机模型的说话人个数估计方法，属于语音信号处理和深度学习领域。模型训练阶段，首先获取N个说话人的训练语音数据，得到深度神经网络DNN模型；然后获取M个说话人的训练语音数据，每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率，组成M个说话人的N维特征，建立M个支持向量机SVM模型；说话人个数估计阶段，将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分，得分最高的SVM模型即为该条待测语音数据所对应的类别，类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题，提高语音数据中说话人个数估计的准确率。

技术研发人员：何亮;徐灿;陈仙红;刘艺;田垚;刘巍巍;刘加
受保护的技术使用者：清华大学
文档号码：201710123753
技术研发日：2017.03.03
技术公布日：2017.06.27

完整全部详细技术资料下载

当前第3页1 2 3