提高声纹识别安全性的声纹认证系统及其实现方法

文档序号：2823807阅读：171来源：国知局

专利名称：提高声纹识别安全性的声纹认证系统及其实现方法
技术领域：
本发明涉及一种声纹认证系统，尤其涉及一种提高声纹识别安全性的声纹认证系统；此外，本发明还涉及该提高声纹识别安全性的声纹认证系统的实现方法。
背景技术：
基于声纹的身份认证系统通常采用固定密码或与文本无关的声纹识别技术，无论固定密码还是文本无关的密码，都容易被事先录制的语音攻击，或者被人工拼接、机器合成的语音攻击。不同的人的语音具有不同的特点，可以用于区分不同的说话人，这是语音用于声纹认证的基础。人的语音富有变化性，不仅人的声音会随着年龄变化，也会随着人的身体状态变化，即便是在比较短的时间间隔内，同一个人说的同样内容的语音仍然不同，这一点与录音、人工拼接、机器合成的语音不同，因此，如何针对上述特点研发一种声纹认证系统，增加被冒认用户非法攻击的成本，以提高声纹识别的安全性，是亟需解决的问题。

发明内容
本发明要解决的技术问题是提供一种提高声纹识别安全性的声纹认证系统，其可以增加被冒认用户非法攻击的成本，有效提高声纹识别的安全性。此外，本发明还提供该提高声纹识别安全性的声纹认证系统的实现方法。为解决上述技术问题，本发明提供一种提高声纹识别安全性的声纹认证系统，其特征在于，包括密码建立模块、语音识别模块和声纹识别模块；该密码建立模块与服务器相连，服务器产生随机密码或用户设定固定密码；该语音识别模块用于对用户提供的语音进行内容分析，对提供的语音内容与密码内容进行模式匹配，若两者不符合，说明用户提供的密码不合要求，若两者相符，则进入声纹识别模块；该声纹识别模块分为注册单元和测试单元；在注册单元建立说话人模型；该测试单元包括语音有效性检测模块和声纹认证确认判决模块，在测试单元首先要求用户将密码读2遍以上，对用户提供的语音数据进行语音有效性检测，若为用户自然产生的有效数据，则调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，接受或拒绝。所述声纹识别模块中在注册单元建立说话人模型，具体为说话人提供若干段固定密码及随机数字串的语音数据，在由大量说话人的大量语音训练出的通用背景模型的基础上，通过最大后验概率自适应算法对该说话人的模型参数进行估计，建立该说话人模型。所述声纹识别模块在测试单元进行语音有效性检测，包括对用户提供的语音数据进行录音检测和拼接及机器合成检测，如录音检测结果判定用户提供的语音数据属于录音则属于无效数据，如拼接及机器合成检测结果判定用户提供的语音数据属于拼接及机器合成则属于无效数据。在语音有效性检测中，对用户所提供的2条以上的语音进行进一步的核对，若用户提供的2条以上语音的差异小于人正常两次以上发声之间的差异，说明该语音是无效数据，则予于拒绝，反之，则为有效数据。
所述声纹识别模块在测试单元调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，具体为系统调用说话人模型，分析测试时提供的语音特征，获得测试语音与该说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，若评分大于阈值，则接受，反之，若评分低于阈值，则拒绝。此外，本发明还提供一种提高声纹识别安全性的声纹认证系统的实现方法，包括如下步骤(1)服务器产生随机密码或用户设定固定密码；(2)用户提供语音；(3)语音识别模块对用户提供的语音进行内容分析，对提供的语音内容与密码内容进行模式匹配，判断两者是否相符，若不符合，说明用户提供的密码不合要求，应予以拒绝，回到步骤(2)要求用户重读；若相符，则进入步骤；(4)在注册阶段，声纹识别模块建立说话人模型；在测试阶段，首先要求用户将密码读2遍以上，如语音未达到2条，则回到步骤(2)要求用户重读，直至语音达到2条以上；然后对用户提供的语音数据进行语音有效性检测，判断提供的数据是否为用户自然产生的有效数据，若为无效数据，则拒绝，回到步骤(2)要求用户重读；若为有效数据，系统调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，接受或拒绝；步骤中的语音有效性检测可以放到步骤C3)之前。步骤(4)中，所述在注册阶段声纹识别模块建立说话人模型，具体为说话人提供若干段固定密码及随机数字串的语音数据，在由大量说话人的大量语音训练出的通用背景模型的基础上，通过最大后验概率自适应算法对该说话人的模型参数进行估计，建立该说话人模型。步骤中，所述在测试阶段的语音有效性检测具体为对用户提供的语音数据进行录音检测和拼接及机器合成检测，如录音检测结果判定用户提供的语音数据属于录音则属于无效数据，如拼接及机器合成检测结果判定用户提供的语音数据属于拼接及机器合成则属于无效数据。步骤(4)中，所述在测试阶段的语音有效性检测中，对用户所提供的2条以上的语音进行进一步的核对，若用户提供的2条以上语音的差异小于人正常两次以上发声之间的差异，说明该语音是无效数据，则予于拒绝，反之，则为有效数据。步骤中，所述在测试阶段系统调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，具体为系统调用说话人模型，分析测试时提供的语音特征，获得测试语音与该说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，若评分大于阈值，则接受，结束流程；反之，若评分低于阈值，则拒绝，回到步骤(2)要求用户重读。本发明的有益效果在于本发明在声纹识别技术的基础上，通过信号处理、模式识别的方法，对用户提供的密码的语音及重读的语音进行分析，对语音的有效性进行验证，能有效的防止录音、人工拼接、机器合成等方式的攻击，大大提高的声纹认证的安全性。

图1是本发明系统的模块结构示意图2是本发明方法中注册阶段的流程示意图；图3是本发明方法中测试阶段的流程示意图；图4是本发明方法中语音验证(即语音有效性检测)的流程示意图。
具体实施例方式如图1所示，本发明提高声纹识别安全性的声纹认证系统主要由以下三部分构成1.密码建立模块。该密码建立模块与服务器相连，由服务器产生随机密码或由用户设定固定密码。2.语音识别模块。该模块对用户提供的语音进行内容分析，对提供的语音与密码内容进行模式匹配，判断两者是否相符，若不符合，说明用户提供的密码不合要求，应予以拒绝。若相符，则进入下面的声纹识别模块。3.声纹识别模块，该模块由两部分组成注册单元和测试单元；该注册单元具体为说话人提供若干段固定密码及随机数字串的语音数据，在由大量说话人的大量语音训练出的通用背景模型(例如高斯混合模型)的基础上，通过最大后验概率自适应算法(本领域公知的经典算法)对该说话人的模型参数进行估计，建立该说话人的模型；该测试单元包括语音有效性检测模块和声纹认证确认判决模块；语音有效性检测模块首先要求用户将密码读2遍以上，对用户提供的语音数据进行语音有效性检测，判断提供的数据是否为用户自然产生的有效数据，若为无效数据(包括录音、拼接和合成等无效数据)，则拒绝；若为有效数据，则进入下面的声纹认证确认判决模块。在语音有效性检测中，对用户所提供的 2条以上的语音进行进一步的核对，若2条以上的语音为用户依照系统提供的两次发音，由于人的发声不是固定的，两次发声之间存在一定的差异，若用户提供的语音的差异小于人正常两次以上发声之间的差异，说明该2条以上的语音是无效数据，则予于拒绝，反之，则为有效数据，进行下面的声纹认证确认判决模块，具体为系统调用说话人模型，分析测试时提供的语音特征，获得测试语音与该说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，进行一个确认判决，若评分大于阈值，则接受，反之，若评分低于阈值，则拒绝。本发明采用重读的声纹识别技术，增加被冒认用户非法攻击的成本，提高系统的安全性。本发明用于用户登录时，首先从服务器获取用户需要读的密码(如随机成语或字符串)，提供给用户，然后要求用户读2次以上密码内容(可以要求用户一次性将密码读两遍，或者要求用户读三遍或者更多等)，经语音有效性检测，若非录音、拼接、机器合成等无效语音，则继续后面的声纹认证。声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性；而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。如图2和图3所示，本发明的提高声纹识别安全性的声纹认证系统的实现方法，包括如下步骤(1)服务器产生随机密码或用户设定固定密码；
(2)用户提供语音；(3)语音识别模块对用户提供的语音进行内容分析，对提供的语音内容与密码内容进行模式匹配，判断两者是否相符，若不符合，说明用户提供的密码不合要求，应予以拒绝，回到步骤(2)用户重新提供语音(即要求用户重读)；若相符，则进入步骤；(4)在注册阶段，声纹识别模块建立说话人模型(即注册模型)，见图2 ；在测试阶段，首先要求用户将密码读2遍以上(使语音达到2条以上)，如语音未达到2条，则回到步骤( ，即要求用户重读，直至语音达到2条以上，对用户提供的2条以上的语音数据进行语音有效性检测(即语音验证)，判断提供的数据是否为用户自然产生的有效数据，若为无效数据(包括录音、拼接和合成等无效数据)，则拒绝，回到步骤( ，即要求用户重读；若为有效数据，则进入下面的声纹认证确认判决步骤；在语音有效性检测中，对用户所提供的 2条以上的语音进行进一步的核对，若2条以上的语音为用户依照系统提供的两次发音，由于人的发声不是固定的，两次发声之间存在一定的差异，若用户提供的语音的差异小于人正常两次以上发声之间的差异，说明该2条以上的语音是无效数据，则予于拒绝，反之，则为有效数据，进行下面的声纹认证确认判决步骤，具体为系统调用说话人模型(即注册模型)，分析测试时提供的语音特征，获得测试语音与该说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，进行一个确认判决，若评分大于阈值，则接受，结束流程；反之，若评分低于阈值，则拒绝，回到步骤O)，即要求用户重读，见图3 ；步骤中的语音有效性检测可以放到步骤( 之前。如图4所示，语音有效性检测的具体步骤包括对用户提供的2个以上的语音密码 (图4中以2个语音密码——语音密码1和语音密码2为例)进行录音检测和拼接及机器合成检测，如通过音频指纹方法检测用户提供的数据是否在用户的个人数据库中已使用过来检测录音和拼接(如已使用过，则说明其属于录音或拼接)，通过频谱分析，观察语音频谱特征来检验用户提供的语音是否为合成语音，等等。如录音检测结果判定用户提供的语音数据属于录音则属于无效数据，如拼接及机器合成检测结果判定用户提供的语音数据属于拼接及机器合成则属于无效数据。反之，判断为有效数据，进入后面的声纹认证确认判决步骤(系统调用说话人模型(即注册模型)，分析测试时提供的语音特征，获得测试语音与该声明的说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，进行一个确认判决，若评分大于阈值，则接受，反之，若评分低于阈值，则拒绝)。本发明通过让用户重读密码(无论固定密码还是随机密码)，对两次以上的语音文件进行分析，若不符合用户自然重读的特点，则拒绝响应的登录，通过这种方法，可以有效的提供声纹识别的安全性，增加被冒认用户非法攻击的成本，提高系统的安全性。
权利要求
1.一种提高声纹识别安全性的声纹认证系统，其特征在于，包括密码建立模块、语音识别模块和声纹识别模块；该密码建立模块与服务器相连，服务器产生随机密码或用户设定固定密码；该语音识别模块用于对用户提供的语音进行内容分析，对提供的语音内容与密码内容进行模式匹配，若两者不符合，说明用户提供的密码不合要求，若两者相符，则进入声纹识别模块；该声纹识别模块分为注册单元和测试单元；在注册单元建立说话人模型；该测试单元包括语音有效性检测模块和声纹认证确认判决模块，在测试单元首先要求用户将密码读2 遍以上，对用户提供的语音数据进行语音有效性检测，若为用户自然产生的有效数据，则调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，接受或拒绝。
2.如权利要求1所述的提高声纹识别安全性的声纹认证系统，其特征在于，所述声纹识别模块中在注册单元建立说话人模型，具体为说话人提供若干段固定密码及随机数字串的语音数据，在由大量说话人的大量语音训练出的通用背景模型的基础上，通过最大后验概率自适应算法对该说话人的模型参数进行估计，建立该说话人模型。
3.如权利要求1所述的提高声纹识别安全性的声纹认证系统，其特征在于，所述声纹识别模块在测试单元进行语音有效性检测，包括对用户提供的语音数据进行录音检测和拼接及机器合成检测，如录音检测结果判定用户提供的语音数据属于录音则属于无效数据，如拼接及机器合成检测结果判定用户提供的语音数据属于拼接及机器合成则属于无效数据。
4.如权利要求1或3所述的提高声纹识别安全性的声纹认证系统，其特征在于，在语音有效性检测中，对用户所提供的2条以上的语音进行进一步的核对，若用户提供的2条以上语音的差异小于人正常两次以上发声之间的差异，说明该语音是无效数据，则予于拒绝，反之，则为有效数据。
5.如权利要求1所述的提高声纹识别安全性的声纹认证系统，其特征在于，所述声纹识别模块在测试单元调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，具体为系统调用说话人模型，分析测试时提供的语音特征，获得测试语音与该说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，若评分大于阈值，则接受，反之，若评分低于阈值，则拒绝。
6.一种提高声纹识别安全性的声纹认证系统的实现方法，其特征在于，包括如下步骤(1)服务器产生随机密码或用户设定固定密码；(2)用户提供语音；(3)语音识别模块对用户提供的语音进行内容分析，对提供的语音内容与密码内容进行模式匹配，判断两者是否相符，若不符合，说明用户提供的密码不合要求，应予以拒绝，回到步骤(2)要求用户重读；若相符，则进入步骤；(4)在注册阶段，声纹识别模块建立说话人模型；在测试阶段，首先要求用户将密码读 2遍以上，如语音未达到2条，则回到步骤(2)要求用户重读，直至语音达到2条以上；然后对用户提供的语音数据进行语音有效性检测，判断提供的数据是否为用户自然产生的有效数据，若为无效数据，则拒绝，回到步骤(2)要求用户重读；若为有效数据，系统调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，接受或拒绝；步骤⑷中的语音有效性检测可以放到步骤⑶之前。
7.如权利要求6所述的提高声纹识别安全性的声纹认证系统的实现方法，其特征在于，步骤(4)中，所述在注册阶段声纹识别模块建立说话人模型，具体为说话人提供若干段固定密码及随机数字串的语音数据，在由大量说话人的大量语音训练出的通用背景模型的基础上，通过最大后验概率自适应算法对该说话人的模型参数进行估计，建立该说话人模型。
8.如权利要求6所述的提高声纹识别安全性的声纹认证系统的实现方法，其特征在于，步骤中，所述在测试阶段的语音有效性检测具体为对用户提供的语音数据进行录音检测和拼接及机器合成检测，如录音检测结果判定用户提供的语音数据属于录音则属于无效数据，如拼接及机器合成检测结果判定用户提供的语音数据属于拼接及机器合成则属于无效数据。
9.如权利要求6或8所述的提高声纹识别安全性的声纹认证系统的实现方法，其特征在于，步骤中，所述在测试阶段的语音有效性检测中，对用户所提供的2条以上的语音进行进一步的核对，若用户提供的2条以上语音的差异小于人正常两次以上发声之间的差异，说明该语音是无效数据，则予于拒绝，反之，则为有效数据。
10.如权利要求6所述的提高声纹识别安全性的声纹认证系统的实现方法，其特征在于，步骤中，所述在测试阶段系统调用说话人模型，分析测试时提供的语音特征，进行一个确认判决，具体为系统调用说话人模型，分析测试时提供的语音特征，获得测试语音与该说话人模型匹配的一个匹配评分，并将该评分与声纹认证的阈值进行匹配，若评分大于阈值，则接受，结束流程；反之，若评分低于阈值，则拒绝，回到步骤(2)要求用户重读。
全文摘要
本发明公开了一种提高声纹识别安全性的声纹认证系统，包括密码建立模块、语音识别模块和声纹识别模块；密码建立模块与服务器相连，服务器产生随机密码或用户设定固定密码；语音识别模块用于对用户提供的语音内容与密码内容进行模式匹配，若相符，进入声纹识别模块；声纹识别模块分为注册单元和测试单元，在注册单元建立说话人模型；测试单元包括语音有效性检测模块和声纹认证确认判决模块，在测试单元首先要求用户将密码读2遍以上，对其进行语音有效性检测，若为用户自然产生的有效数据，则调用说话人模型，分析测试时提供的语音特征，进行确认判决，接受或拒绝。此外，本发明还公开上述系统的实现方法。本发明可有效提高声纹识别的安全性。
文档编号G10L17/00GK102402985SQ20101028075
公开日2012年4月4日申请日期2010年9月14日优先权日2010年9月14日
发明者李霄寒, 许东星, 黄伟申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许东星;黄伟;李霄寒
技术所有人：盛乐信息技术（上海）有限公司
我是此专利的发明人

上一篇：启动包括第一功能和第二功能的多个功能的系统和方法
上一篇：语音命令的多维消歧的制作方法