声纹认证处理方法及装置的制造方法_4

文档序号：9752207阅读：来源：国知局

存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDR0M)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0121]应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。
[0122]本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0123]此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0124]上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种声纹认证处理方法，其特征在于，包括以下步骤: 应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量；根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器；根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型；根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。2.如权利要求1所述的方法，其特征在于，还包括: 接收用户发送的携带用户标识的声纹注册请求；获取用户发送的用于声纹注册的多条语音，提取第一条语音的第一特征信息，应用所述性别分类器获取所述第一特征信息的性别标签；根据与所述性别标签对应的DNN模型获取每条语音的后验概率；根据与所述性别标签对应的统一背景模型和特征向量提取模型，分别提取每条语音的第二特征向量；根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型；将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。3.如权利要求2所述的方法，其特征在于，所述根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型，包括: 获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。4.如权利要求2所述的方法，其特征在于，还包括: 接收用户发送的携带用户标识的声纹识别请求；查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型；获取用户发送的用于声纹识别的语音，根据与所述性别标签对应的DNN模型获取所述语音的后验概率；应用与所述性别标签对应的统一背景模型和特征向量提取模型，提取所述语音的第二特征向量；应用与所述性别标签对应的概率线性判别分析模型，比较所述语音的第二特征向量和所述声纹注册模型的相似度；根据所述相似度和预设的阈值向所述用户返回声纹识别结果。5.如权利要求4所述的方法，其特征在于，所述根据所述相似度和预设的阈值向所述用户返回声纹识别结果，包括: 比较所述相似度和预设的阈值的大小；若获知所述相似度大于等于预设的阈值，则返回声纹识别成功；若获知所述相似度小于预设的阈值，则返回声纹识别失败。6.一种声纹认证处理装置，其特征在于，包括: 提取模块，用于应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量；生成模块，用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器；第一训练模块，用于根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN丰旲型; 第二训练模块，用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。7.如权利要求6所述的装置，其特征在于，还包括: 第一接收模块，用于接收用户发送的携带用户标识的声纹注册请求；性别标注模块，用于获取用户发送的用于声纹注册的多条语音，提取第一条语音的第一特征信息，应用所述性别分类器获取所述第一特征信息的性别标签；第一处理模块，用于根据与所述性别标签对应的DNN模型获取每条语音的后验概率;根据与所述性别标签对应的统一背景模型和特征向量提取模型，分别提取每条语音的第二特征向量；获取模块，用于根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型；注册模块，用于将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。8.如权利要求7所述的装置，其特征在于，所述获取模块用于: 获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。9.如权利要求7所述的装置，其特征在于，还包括: 第二接收模块，用于接收用户发送的携带用户标识的声纹识别请求；查询模块，用于查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型；第二处理模块，用于获取用户发送的用于声纹识别的语音，根据与所述性别标签对应的DNN模型获取所述语音的后验概率，应用与所述性别标签对应的统一背景模型和特征向量提取模型，提取所述语音的第二特征向量；比较模块，用于应用与所述性别标签对应的概率线性判别分析模型，比较所述语音的第二特征向量和所述声纹注册模型的相似度；识别模块，用于根据所述相似度和预设的阈值向所述用户返回声纹识别结果。10.如权利要求9所述的装置，其特征在于，所述识别模块用于: 比较所述相似度和预设的阈值的大小；若获知所述相似度大于等于预设的阈值，则返回声纹识别成功；若获知所述相似度小于预设的阈值，则返回声纹识别失败。
【专利摘要】本申请提出一种声纹认证处理方法和装置，其中，该方法包括：应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量；根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器；根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型；根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。建立了区分性别的声纹认证处理模型，以便提高了声纹认证的效率和准确性。
【IPC分类】G10L17/04, G10L15/02, H04L29/06, G10L15/06, G10L17/00
【公开号】CN105513597
【申请号】CN201511024873
【发明人】李超, 吴本谷, 朱林
【申请人】百度在线网络技术（北京）有限公司
【公开日】2016年4月20日
【申请日】2015年12月30日

完整全部详细技术资料下载

当前第4页1 2 3 4