基于声纹识别和语音识别的防录音假冒的身份确认方法

文档序号：2825086阅读：418来源：国知局

专利名称：基于声纹识别和语音识别的防录音假冒的身份确认方法
技术领域：
本发明属于计算机及信息服务技术领域，特别涉及通过人类的声纹信息对其声称的身份进行确认的方法。
背景技术：
声纹识别技术声纹是对语音中所蕴含的、能唯一表征和标识说话人身份的特征参数及基于这些特征参数所建立的声纹模型的总称，而声纹识别则是根据某段语音识别说话人身份的过程。声纹识别技术(VPR)属于生物识别技术的一种，是一项根据语音波形中所蕴涵的说话人信息，自动识别说话人身份的技术。声纹是人的生物个性特征，很难找到两个声纹完全一样的人。声纹识别的应用包括声纹辨认和声纹确认，可以是文本无关的，也可以是文本相关的。其中文本无关的版本同时具有文本和语言的无关性，对语音长度的要求也非常低，通常声纹建模只需要几十秒有效语音(有效语音是指去掉一段语音中的静音及噪音之后的语音)，而声纹识别只需几秒钟的有效语音即可。有很高的识别精度，也可以灵活地调整参数从而适应不同应用的需求。随着技术的推进，声纹识别技术正广泛地应用到各个领域，声纹确认的应用领域有证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的认证等；声纹辨认的应用领域有刑侦破案、罪犯跟踪、国防监听、个性化应用等等。在现有技术中，声纹识别方法包括声纹建模和声纹识别两个部分。其中，声纹建模的方法的流程，如图1(a)所示，包括以下步骤(11)从已知说话人的语音中提取特征；(12)基于第(11)步提取出的特征，训练声纹模型，即建立该说话人的声纹模型；声纹建模时用到的方法可采用任何已有的方法(如传统的MAP自适应等)；建立由多个声纹模型组成的声纹模型库；声纹识别方法的流程如图1 (b)所示，包括以下步骤(21)从待识别的人的语音中提取特征；(22)从声纹模型库中读取一指定的声纹模型；(23)将第步中提取出的特征作为待识别的特征，与第02)步读取的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(24)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，认为待识别的人的语音与指定的声纹模型出自同一个人，结束；否则，声纹识别失败，结束。步骤04)中所述阈值是指，在大量的声纹识别测试的匹配得分kore中，得到的一个参考值，称为阈值。该值用于界定待识别的人与指定的声纹模型是否匹配，进而做出两者是否出自同一个人的判断。选取的阈值应保证使声纹识别总体性能达到最佳。阈值的选定过程举例如下
3
假设声纹模型库中有10个声纹模型，出自10个不同人，分别命名为modi， mod2，. . . , modlOo待识别的人的语音有10段，出自10个不同人，分别命名为spkl，spk2，...，spkl0。其中，spkl与modi出自同一人，spk2与mod2出自同一人，依次类推，spkl， spk2，· · ·，spklO称为合法说话人。Spkl与modi的匹配得分记为TScore 1，Spk2与mod2的匹配得分记为TSc0re2，依次类推。除此，有另外10段待识别的人的语音，出自10个不同人，分别命名为impl， imp2，...，implO。且这10段语音不属于声纹模型库中的10个声纹模型的对应说话人， impl, imp2，...，imp 10称为假冒说话人。impl与modi的匹配得分记为FScore 1，imp2与 mod2的匹配得分记为FScore2，依次类推。假设{TScorel,TScore2, · · ·，TScorelO} = {0· 90，0· 87，0· 93，0· 75，0· 82，0· 98， 0. 87，0· 86，0· 94，0· 88}；{FScorel, FScore2,. . . , FScorelO} = {0· 12，0· 25，0· 11，0· 43，0· 36，0· 83，0· 57， 0. 54，0. 47，0. 62}；可以看到，合法说话人与对应声纹模型的匹配得分TScorel TScore 10中的最低分为0. 75(I^core4)，假冒说话人与对应声纹模型的匹配得分Fkorel FScorelO中的最高分为0. 83 (FScore6)。基于此得分情况，得到的阈值可为0. 82 (TScord)，在此阈值下， TScore4无法通过声纹识别(它本应该通过的)，其余的TScoren均可成功通过声纹识别； FScoreB可以通过声纹识别(它本不应该通过的)，其他的Fkoren均不会通过声纹识别。则，在TScore序列中，声纹识别成功率为9/10 = 90% ；在FScore序列中，声纹识别成功率为9/10 = 90%。在这个样例中，选定0. 82(TScore5)为阈值时，声纹识别总体性能达到最佳。现有的声纹识别技术可以通过人的语音识别出其身份，但如果某人的语音被高保真设备非法录制之后，这段录音被用于声纹识别，则很有可能顺利通过声纹识别检测。如果该段录音被用于证券或银行等安全性要求较高的交易中，则该人的财产安全将受到极大威胁。语音识别技术语音识别技术的目的是让计算机能够辨别出说话人所说的内容，实现“声音”到 “文字”的转换。语音识别通常有以下几种分类一、特定人和非特定人；二、小词汇量、中词汇量和大词汇量；三、孤立词、连续方式命令和连续语音。它可以应用于家用电器或电子设备领域，比如电视、计算机、汽车、音响上的声控遥控器，电话、手机或PDA上的声控联系人拨号、数字录音机的声控语音检索、声控儿童玩具等，也可应用于个人、呼叫中心，以及电信级应用的信息查询与服务领域。已有的语音识别方法的应用流程如图2所示，包括以下步骤(31)对说话人语音进行语音识别，检测说话人所说的内容，即实现声音到文字的转换；(32)根据第(31)步检测出的说话人所说内容，进行相应的处理。比如，说话人说“转张经理的电话”，则此时电话会转接至张经理。语音识别的着重点在于识别说话人语音中所说的内容是什么，即实现声音到文字的转换。

发明内容
本发明的目的是克服现有技术手段中存在的问题，提出一种基于声纹识别和语音识别的防录音假冒的身份确认方法，本发明可以在很大程度上，防止说话人语音被录音冒用的情况，完成说话人身份双重验证，实现双重保护，使远程身份确认更稳定可靠。本发明提出一种基于声纹识别和语音识别的防录音假冒的身份确认方法，其特征在于，该方法包括声纹识别和语音识别两部分，其中(1)该声纹识别，具体包括以下步骤(11)从采集的待识别的人的语音中提取特征；(12)从声纹模型库中读取一指定的声纹模型；(13)将第(11)步中提取出的特征作为待识别的特征；与第(12)步的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(14)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，即声纹识别成功，转步骤；否则，声纹识别失败，结束；(2)该语音识别，具体包括以下步骤(21)随机选取文本，引导待识别人跟读，采集该识别人语音；对该语音进行语音识别，检测该识别人所说的内容，即实现声音到文字的转换；(22)根据第步检测出的待识别人所说内容，如果检测得出待识别人所说内容与第步中系统随机选取的文本一致，则语音识别成功，即待识别人的身份确认，结束；如果与第步中系统随机选取的文本不一致，则语音识别失败，即待识别人的身份不能确认，结束。上述方法中步骤(2)也可以放在步骤(1)的前面进行，即本发明提出又一种基于声纹识别和语音识别的防录音假冒的身份确认方法，其特征在于，该方法包括语音识别和声纹识别两部分，其中(1)该语音识别，具体包括以下步骤(11)随机选取文本，引导待识别人跟读，采集该识别人语音；对该语音进行语音识别，检测该识别人所说的内容，即实现声音到文字的转换；(12)根据第(11)步检测出的待识别人所说内容，如果检测得出待识别人所说内容与第(11)步中系统随机选取的文本一致，则语音识别成功，转步骤；如果与第(11) 步中系统随机选取的文本不一致，则语音识别失败，结束；(2)该声纹识别，具体包括以下步骤(3)从采集的待识别的人的语音中提取特征；(4)从声纹模型库中读取一指定的声纹模型；(23)将第步中提取出的特征作为待识别的特征；与第02)步的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(24)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，即待识别人的身份确认，结束；否则，即待识别人的身份不能确认，结束。本发明方法的特征在于将已有的声纹识别与语音识别结合起来，两者共同用于说话人身份确认。在声纹识别和语音识别两个步骤均成功之后，方认为该说话人通过了身份确以。以往的单独基于声纹识别的身份确认方法中，仅仅依靠的是声纹识别的结果直接确认说话人的身份。而这种方法，在一些语音被非法录制的场合存在漏检的情况。比如，高保真设备录制的说话人原声，有可能通过声纹识别检测。本发明具有以下特征(1)声纹识别的性能与所说的文本和所用的语言无关，便于使用；(2)对语音的长度没有特殊的要求，只需要很短的几秒语音，就可以进行可靠的建模和识别；(3)声纹识别的阈值调整方便可按不同的应用需求调整阈值，使最终准确率达到最高；(4)对已有的声纹识别技术与语音识别技术的具体方法不用作改动，只是将两者结合起来作为一个整体方案，完成说话人双重验证，实现双重保护，使远程身份确认更稳定可靠。(5)由于语音识别文本的随机性，非法录音人员若想使合法说话人说出全部文本并录制下来，是有极大难度的。因此，本发明可以在很大程度上，防止说话人语音被录音冒用的情况。本发明可用于金融领域、电子银行、电话银行等远程身份认证领域。

图1是已有的声纹识别方法的总体框图。图2是已有的语音识别方法的总体框图。图3(a)是本发明方法具体实施例1流程框图。图3(b)是本发明方法具体实施例2流程框图。
具体实施例方式本发明提出的基于声纹识别和语音识别的防录音假冒的身份确认方法结合附图，其应用详细说明如下本发明提出的基于声纹识别和语音识别的防录音假冒的身份确认方法实施例1，如图3(a)所示，包括声纹建模1、声纹识别2和语音识别3三个部分。其说明分别如下本实施例的声纹建模1的具体步骤包括(11)采集说话人的任意文本的语音数据，基于该语音，提取特征；(12)采用现有声纹建模算法，基于第(11)步提取的特征训练得到声纹模型；本实施例的声纹识别2的具体步骤包括(21)采集待识别说话人的任意文本的语音数据，基于该语音，提取特征；(22)加载指定的说话人声纹模型；将第步提取的特征与加载进来的声纹模型进行匹配，计算得到与该模型的匹配得分，即识别得分kore ；
6
(23)将第步中提取出的特征作为待识别的特征；与第02)步的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(24)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，即声纹识别成功转步骤(31)；否则，声纹识别失败，结束；本实施例的语音识别3的具体步骤包括(31)随机选取文本，引导待识别人跟读，采集该识别人语音；对该语音进行语音识别，检测该识别人所说的内容，即实现声音到文字的转换；(32)根据第(31)步检测出的待识别人所说内容，如果检测得出待识别人所说内容与第(31)步中系统随机选取的文本一致，则语音识别成功，即待识别人的身份确认，结束；如果与第(31)步中系统随机选取的文本不一致，则语音识别失败，即待识别人的身份不能确认，结束。本发明提出的基于声纹识别和语音识别的防录音假冒的身份确认方法实施例2，如图3(b)所示，包括声纹建模1、语音识别2和声纹识别3三个部分。其说明分别如下本实施例的声纹建模1的具体步骤包括(11)采集说话人的任意文本的语音数据，基于该语音，提取特征；(12)采用现有声纹建模算法，基于第(11)步提取的特征训练得到声纹模型；本实施例的语音识别2的具体步骤包括(21)随机选取文本，引导待识别人跟读，采集该识别人语音；对该语音进行语音识别，检测该识别人所说的内容，即实现声音到文字的转换；(22)根据第步检测出的待识别人所说内容，如果检测得出待识别人所说内容与第步中系统随机选取的文本一致，则语音识别成功，转步骤(31)；如果与第步中系统随机选取的文本不一致，则语音识别失败，即待识别人的身份不能确认，结束；本实施例的声纹识别3的具体步骤包括(31)采集待识别说话人的任意文本的语音数据，基于该语音，提取特征；(32)加载指定的说话人声纹模型。将第(31)步提取的特征与加载进来的声纹模型进行匹配，计算得到与该模型的匹配得分，即识别得分kore ；(33)将第(31)步中提取出的特征作为待识别的特征；与第(32)步的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(34)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，即待识别人的身份确认，结束；否则，声纹识别失败，即待识别人的身份不能确认，结束。从上述两个实施例中可以看出，确认说话人身份的过程中，依赖于声纹识别和语音识别这两个步骤的识别结果。如果这两个步骤均成功，则说话人身份确认成功；如果有一个步骤失败，则身份确认失败。声纹识别和语音识别的执行顺序不做限制，即声纹识别可在语音识别之前进行，也可在语音识别之后进行，两者效果一样。声纹识别和语音识别这两个步骤的具体实现方法为已知技术。
权利要求
1.一种基于声纹识别和语音识别的防录音假冒的身份确认方法，其特征在于，该方法包括声纹识别和语音识别两部分，其中(1)该声纹识别，具体包括以下步骤(11)从采集的待识别的人的语音中提取特征；(12)从声纹模型库中读取一指定的声纹模型；(13)将第(11)步中提取出的特征作为待识别的特征；与第(12)步的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(14)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，即声纹识别成功转步骤；否则，声纹识别失败，结束；(2)该语音识别，具体包括以下步骤(21)随机选取文本，引导待识别人跟读，采集该识别人语音；对该语音进行语音识别，检测该识别人所说的内容，即实现声音到文字的转换；(22)根据第步检测出的待识别人所说内容，如果检测得出待识别人所说内容与第步中系统随机选取的文本一致，则语音识别成功，即待识别人的身份确认，结束；如果与第步中系统随机选取的文本不一致，则语音识别失败，即待识别人的身份不能确认，结束。
2.一种基于声纹识别和语音识别的防录音假冒的身份确认方法，其特征在于，该方法包括语音识别和声纹识别两部分，其中(1)该语音识别，具体包括以下步骤(11)随机选取文本，引导待识别人跟读，采集该识别人语音；对该语音进行语音识别，检测该识别人所说的内容，即实现声音到文字的转换；(12)根据第(11)步检测出的待识别人所说内容，如果检测得出待识别人所说内容与第(11)步中系统随机选取的文本一致，则语音识别成功，转步骤；如果与第(11)步中系统随机选取的文本不一致，则语音识别失败，结束；(2)该声纹识别，具体包括以下步骤(21)从采集的待识别的人的语音中提取特征；(22)从声纹模型库中读取一指定的声纹模型；(23)将第步中提取出的特征作为待识别的特征；与第02)步的声纹模型进行匹配比较，得到该特征与该声纹模型的匹配得分kore ；(24)将匹配得分kore与阈值相比对，如果大于阈值，则声纹识别成功，即待识别人的身份确认，结束；否则，即待识别人的身份不能确认，结束。
全文摘要
本发明涉及基于声纹识别和语音识别的防录音假冒身份的确认方法，属于计算机及信息服务技术领域。该方法包括从采集的已知说话人的语音中提取特征；训练声纹模型，建立声纹模型库；从采集的待识别的人的语音中提取特征与从声纹模型库中读取一指定的声纹模型进行匹配比较，如果大于阈值，则随机选取文本，引导待识别人跟读，采集该识别人语音；检测该识别人所说的内容，如果检测得出待识别人所说内容与随机选取的文本一致，则语音识别成功，即待识别人的身份确认，结束。本发明可以在很大程度上，防止说话人语音被录音冒用的情况，完成说话人身份双重验证，实现双重保护，使远程身份确认更稳定可靠。
文档编号G10L15/00GK102142254SQ20111007424
公开日2011年8月3日申请日期2011年3月25日优先权日2011年3月25日
发明者苗月琴, 邓菁申请人:北京得意音通技术有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓菁;苗月琴
技术所有人：北京得意音通技术有限责任公司
我是此专利的发明人

上一篇：基于对话的游戏实现装置和方法
上一篇：声音输出装置、声音输出装置的控制方法、印刷装置和安装板的制作方法