一种基于Fisher超向量的说话人识别方法及系统的制作方法

文档序号：8224542阅读：421来源：国知局

一种基于Fisher超向量的说话人识别方法及系统的制作方法
【技术领域】
[0001] 本发明属于语音识别技术领域，尤其设及一种基于Fisher超向量的说话人识别方法及系统。
【背景技术】
[0002] 随着计算机技术及互联网技术的不断进步，智能设备在人们的生活中已经变得越来越不可或缺。而作为人与智能设备之间交互方式之一的语音交互，由于其具有采集简便、易于存储、难于模仿、语音获取的成本低廉等特性，也成为了研究领域的热点。
[0003] 目前的智能语音处理方式，根据所利用的语音信息的不同，主要分为；语音识别 (Speech Reco即ition)、语种识别（Xanguage Reco即ition) W及说话人识别（Speaker Recognition)等。其中，语音识别的目标在于判断出语音信号中所传递的是何种语义信息；语种识别的目标是识别出语音信号所属的语言种类或者方言类型；说话人识别则是通过提取表征说话人的个性特征，识别出说话人的身份。
[0004] 由于语音是身份信息的重要载体，与人脸、指纹等其他生物特征相比，语音的获取成本低廉，使用简单，便于远程数据采集，且基于语音的人机交流界面更为友好，因此说话人识别技术成为重要的自动身份认证技术。
[0005] 目前经常使用的说话人识别的方法包括基于高斯混合模型-通用背景模型 (GMM-UBM)进行说话人语音识别，虽然GMM-UBM模型具有一定的噪声鲁椿性，但是由于该模型在训练时没有考虑到信道的影响，当训练语音和测试语音来自不同的信道时，导致其识别性能急剧下降。
[0006] 为克服信道失配时所带来的识别性能的降低，现有技术提出了一种基于GMM-UBM 模型的联合因子分析（Joint Factor Analysis, JFA))方式，来进行说话人识别。但是，由于JFA理论建立在GMM-UBM模型的框架基础上，假设说话人的GMM均值超向量所包含的主要信息可W映射到两个相互独立的低维子空间中，采用EM迭代算法对基于GMM模型框架的空间载荷矩阵进行估计，在计算过程中无法脱离GMM模型框架。基于JFA理论的说话人确认方法是在测试过程中根据已估计好的参数对说话人模型进行了信道补偿，测试性能较差。

【发明内容】

[0007] 鉴于此，本发明实施例提供一种基于Fisher超向量的说话人识别方法及系统，W 将语音数据中的Fisher超向量高维特征向量作为表征说话人的个性信息，并采用子空间分析建模技术在Fisher超向量高维特征向量的基础上进行说话人识别，提高系统的识别性能。
[000引本发明实施例是该样实现的，一种基于Fisher超向量的说话人识别方法，所述方法包括：
[0009] 提取Fi sher超向量；
[0010] 将提取的所述Fisher超向量划分为多个Fisher子向量集；
[0011] 基于非参数区分分析算法对每个Fisher子向量集进行分析，w建立子空间说话人模型；
[0012] 根据所述子空间说话人模型获取待识别说话人的参考向量W及训练样本说话人的参考向量，并根据预设的计算规则，W及所述待识别说话人的参考向量W及所述训练样本说话人的参考向量对所述待识别说话人进行识别。
[0013] 本发明实施例的另一目的在于提供一种基于Fisher超向量的说话人识别系统，所述系统包括：
[0014] 提取单元，用于提取Fisher超向量；
[0015] 划分单元，用于将提取的所述Fisher超向量划分为多个Fisher子向量集；
[0016] 模型建立单元，用于基于非参数区分分析算法对每个Fisher子向量集进行分析， W建立子空间说话人模型；
[0017] 识别单元，用于根据所述子空间说话人模型获取待识别说话人的参考向量W及训练样本说话人的参考向量，并根据预设的计算规则，W及所述待识别说话人的参考向量W 及所述训练样本说话人的参考向量对所述待识别说话人进行识别。
[0018] 本发明实施例与现有技术相比存在的有益效果是：本发明实施例提取语音数据中的Fisher超向量作为说话人的特征向量，并采用子空间分析建模技术在Fisher超向量的基础上进行说话人识别。由于Fisher超向量提取简单，且具有比JFA超向量更高的维度，而且没有做过信道补偿处理，从而可有效提高说话人识别的准确率和效率。另外，本发明实施例在上述识别过程中不需要增加额外的硬件，从而可有效降低成本，具有较强的易用性和实用性。
【附图说明】
[0019] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可W根据该些附图获得其他的附图。
[0020] 图1是本发明实施例一提供的基于Fisher超向量的说话人识别方法的实现流程图；
[0021] 图2是本发明实施例一提供的基于Fisher超向量的非参数区分分析的示意图；
[0022] 图3是本发明实施例一提供的基于Fisher超向量的说话人识别系统与基于JFA 超向量的说话人识别系统比较结果的仿真图；
[0023] 图4是本发明实施例二提供的基于Fisher超向量的说话人识别系统的组成结构图。
【具体实施方式】
[0024] W下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，W便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有该些具体细节的其它实施例中也可W实现本发明。在其它情况中，省略对众所周知的系统、装置、电路W及方法的详细说明，W免不必要的细节妨碍本发明的描述。
[0025] 为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。
[00%] 连施例一:
[0027] 图1示出了本发明实施例一提供的基于Fisher超向量的说话人识别方法的实现流程，该方法过程详述如下：
[002引在步骤S101中，提取Fisher超向量。
[0029] 在本发明实施例中，为了进一步提高说话人识别的准确率和效率，本发明实施例提取语音数据中的Fisher超向量作为说话人的特征向量。
[0030] 其中，所述Fisher超向量由GMM模型中所有高斯成分相应的缉，扭;和接;拼接而成，所述Fisher超向量的维度

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李志锋;李娜;乔宇;
技术所有人：深圳先进技术研究院;
我是此专利的发明人

上一篇：一种基于语义细胞混合模型的说话人识别方法
上一篇：一种语音识别方法及系统的制作方法