基于联合深度学习的文本相关的说话人识别方法

文档序号：8413617阅读：413来源：国知局

基于联合深度学习的文本相关的说话人识别方法
【技术领域】
[0001] 本发明涉及的是一种智能语音领域的技术，具体是一种基于联合深度学习的文本相关的说话人识别方法。
【背景技术】
[0002] 说话人识别，是指在给定声音信息时，接受或拒绝某个说话人的身份认证。说话人识别技术目前已在诸多领域得到了广泛的应用，例如：身份验证、互联网安全、人机交互、银行证券系统、军事刑侦等。说话人识别技术分为文本相关的说话人识别和文本无关的说话人识别。前者要求训练模型的语料与测试语料一致，后者则无此要求。文本相关的说话人识别主要分为特征提取、模型训练和分类识别三大模块。研宄表明，传统的文本相关的说话人识别的主要问题存在于说话人的特征提取上，现有的特征提取方法在说话人个性特征的表现力上以及鲁棒性方面有着诸多不足。
[0003] 近年来现有的技术中，说话人识别在特征提取部分经常采用的特征参数主要有线性预测系数、梅尔倒谱系数和基音及共振峰系数，这些特征提取的方法在表征说话人个性的特征方面尚有不足，从而影响识别精度。此外，这些方法都利用了语音信号的短时平稳性，丢失了语音信号的动态特征，鲁棒性较差，识别效果不理想。
[0004] 在识别模型部分，主流的方法主要为高斯混合模型-通用背景模型（GMM - UBM)和隐马尔可夫模型（HMM)。这两种方法适合处理连续信号，受极大似然准则的限制，在区分类别上能力较弱，其处理结果只能反映同类样本的相似性，却不能较好地区分不同类样本之间的区别，因此，其识别效果较差。
[0005] 经过对现有技术的检索发现，中国专利文献号CN103700370A公开（公告）日 2014. 04. 02,公开了一种广播电视语音识别方法及系统，包括：根据广播电视数据提取出音频数据；对音频数据进行预处理，得到特征文本数据；将特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。该方法对现有语音识别方法进行改进，融合各种广播电视数据预处理技术以及广播电视语音识别方法，对语音数据针对广播电视行业的数据处理要求进行识别处理，对各识别结果进行融合并生成结构化的语音识别结果，能够为后续广播电视节目的其他业务的智能化处理提供基础数据，且处理速度加快并提高准确度。但该技术为文本不相关，在同等条件下与文本相关说话人识别技术的识别准确率有较大差距；并且该技术针对广播电视行业的数据进行了适应性训练，在广播电视的语言环境中较有优势，但不适应其他情况，如签到系统等。
[0006] 中国专利文献号CN103971690A公开（公告）日2014. 08. 06,公开了一种声纹识别方法和装置。方法包括：基于无标注语音数据建立深层神经网络初级模型，并且基于有标注语音数据对该深层神经网络初级模型进行训练，以获取深层神经网络二级模型；利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识；接收测试语音数据，基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征，并且基于该测试语音高层声纹特征确定说话人标识。通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息，可以有效抵御噪声干扰。但该技术在训练神经网络时需要在初级模型的基础上使用有标定的语音数据以获取深层网络二级模型，这个过程耗费时间和计算资源较多；并且该技术只考虑了语音信号的声音特性，而没有考虑文本特性。

【发明内容】

[0007] 本发明针对现有传统的说话人识别的方法具有特征提取不能准确表征说话人的个性特征以及丢失语音信号的动态特征、鲁棒性较差等局限性以及识别效果不佳的缺点，提出一种基于联合深度学习的文本相关的说话人识别方法，在特征提取阶段，利用联合深度学习提取j -vector (joint vector，联合特征向量），且在识别验证阶段采用线性差分分析作为分类器。本发明能够极大地提高文本相关的说话人识别的精确度。
[0008] 本发明是通过以下技术方案实现的：
[0009] 本发明包括以下步骤：
[0010] 步骤1)从待检测音频中提出得到FBANK(对数谱特征）系数，具体为：
[0011] 1. 1建立一系列带通滤波器，优选采用三角窗滤波器；
[0012] 1. 2将频域上的声音信号输入这些滤波器，每一个带通滤波器输出一位FBank系数，它等于此带通滤波器内的信号之和；
[0013] 1. 3计算后得到Mel域上的FBank系数。
[0014] 步骤2)建立神经网络；
[0015] 所述的神经网络具有4个隐层，每层1024个结点。
[0016] 所述的神经网络优选采用具有多个隐层且每层多个结点的深度神经网络，该深度神经网络中的Background和development集的数据被用来训练特征提取神经网络。在这个深度神经网络的训练中，194个类被使用了（bkg和dev共194个说话人）。
[0017] 对比度散度算法（Contrastive Divergence)用于受限波尔兹曼机（RBM)的训练得到网络参数初始值，基于SGD(随机梯度下降算法）的后向传播算法用于深度神经网络的参数调整。
[0018] 所述的后向传播算法的后向传播过程中，学习率由模拟退火和尽早停止策略确定。
[0019] 所述的深度神经网络的损失函数是交叉熵，且有一个系数为10 62的欧氏距离 (L2 - norm)权重衰减项，因此在训练深度神经网络时将文本信息和说话人同时考虑在内，直接将说话人和文本信息的损失函数相加得到新的损失函数。由于梯度的线性特性，每项系数的梯度可以被独立地计算，然后每个非输出层的系数可以被新的损失函数（两个损失函数的和）的梯度所更新，即将文本信息的交叉熵和说话人信息的交叉熵线性相加。当两个网络的性能不能被提升时，学习率就开始下降。
[0020] 步骤3)对步骤1得到的FBANK系数进行帧扩展后输入步骤2中建立的神经网络进行计算，得到待测音频的j - vector，具体为：
[0021] 3. 1将输入的语音信号数字化，并分离为说话人特征和文本特征两部分；
[0022] 3. 2将说话人特征和文本特征分别输入神经网络，并计算在输出层得到输出；
[0023] 3. 3将输出层的说话人特征和文本特征线性叠加，得到待测音频的j - vector。
[0024] 所述的帧扩展是指：扩展至39维的FBank系数。
[0025] 步骤4)训练LDA (线性差分分析）模型并得到预测阈值，具体为：
[0026] 4. 1将LDA模型的训练样本采用步骤1~3方式处理，得到Background和 development集中数据的j - vector后，分别对其进行归一化处理，作为训练集；
[0027] 4. 2通过训练集对LDA模型的训练标定，得到预测阈值。
[0028] 所述的LDA模型为：每个类密度可以由多维高斯分布建模：
【主权项】
1. 一种基于联合深度学习的文本相关的说话人识别方法，其特征在于，包括以下步骤：步骤1)从待检测音频中提出得到FBANK系数；步骤2)建立神经网络；步骤3)对步骤1得到的FBANK系数进行帧扩展后输入步骤2中建立的神经网络进行计算，得到待测音频的j - vector ; 步骤4)训练LDA模型并得到预测阈值；步骤5)将待测试的说话人的注册音频的j - vector和待测试的说话人的测试音频的 j - vector归一化后输入带有预测阈值的LDA模型，并得到预测结果。
2. 根据权利要求1所述的方法，其特征是，所述的步骤1具体包括： 1. 1)建立一系列带通滤波器； 1. 2)将频域上的声音信号输入上述滤波器，每一个带通滤波器输出一位FBank系数； 1. 3)计算后得到Mel域上的FBank系数。
3. 根据权利要求2所述的方法，其特征是，带通滤波器具有31帧窗且每边15帧。
4. 根据权利要求1所述的方法，其特征是，所述的神经网络具有4个隐层，每层1024个结点。
5. 根据权利要求1所述的方法，其特征是，所述的步骤3具体包括： 3. 1)将输入的语音信号数字化，并分离为说话人特征和文本特征两部分； 3.2)将说话人特征和文本特征分别输入神经网络，并计算在输出层得到输出； 3. 3)将输出层的说话人特征和文本特征线性叠加，得到待测音频的j - vector。
6. 根据权利要求1所述的方法，其特征是，所述的帧扩展是指：扩展至39维的FBank系数。
7. 根据权利要求1所述的方法，其特征是，所述的步骤4具体包括： 4. 1)将LDA模型的训练样本采用步骤1~3方式处理，得到Background和 development集中数据的j - vector后，分别对其进行归一化处理，作为训练集； 4. 2)通过训练集对LDA模型的训练标定，得到预测阈值。
8. 根据权利要求1所述的方法，其特征是，所述的LDA模型为：每个类密度可以由多维高斯分布建模：八〇) = g1 其中:Σ k和别是第k个类的协 (27T)2|2fe|2 方差、均值矩阵，该LDA模型假定：Σ,= \Vk，且后验概率由贝叶斯公式给出：Pr(G = k|X = x) = Ejd其中：31 k是第k个类的先验概率。
9. 根据权利要求1所述的方法，其特征是，所述的预测阈值是指：经训练后，使得在该预测阈值下，错误地识别出冒认者比率等于错误地未识别出冒认者比率，即LDA模型错误地将同一说话人的注册音频和测试音频认为不是同一说话人的比率等于LDA错误地将不同说话人的注册音频和测试音频认为是同一说话人的比率。
10. -种实现上述任一权利要求所述方法的系统，其特征在于，包括：对数谱特征提取模块、深度神经网络模块、以及特征空间分裂模块，其中：对数谱特征提取模块与深度神经网络模块相连并传输对数谱特征信息，深度神经网络模块与特征空间分裂模块相连并传输语音高层声纹特征信息。
【专利摘要】一种智能语音领域的基于联合深度学习的文本相关的说话人识别方法，首先从待检测音频中提出得到FBANK系数，经帧扩展后输入神经网络进行计算，得到待测音频的j‐vector；再训练LDA模型并得到预测阈值，最后将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型，并得到预测结果。本发明能够极大地提高文本相关的说话人识别的精确度。
【IPC分类】G10L17-02, G10L17-18
【公开号】CN104732978
【申请号】CN201510107647
【发明人】陈楠昕, 葛凌廷, 顾昊, 常烜恺, 钱彦旻, 俞凯
【申请人】上海交通大学, 苏州思必驰信息科技有限公司
【公开日】2015年6月24日
【申请日】2015年3月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈楠昕;葛凌廷;顾昊;常烜恺;钱彦旻;俞凯;
技术所有人：上海交通大学;苏州思必驰信息科技有限公司;
我是此专利的发明人

上一篇：一种音频数据的处理方法及装置的制造方法
上一篇：一种在线口语发音质量评价方法和系统的制作方法