在线声纹认证系统及其实现方法

文档序号：2824025阅读：354来源：国知局

专利名称：在线声纹认证系统及其实现方法
技术领域：
本发明涉及一种声纹的身份认证系统及实现方法，特别是涉及一种在线声纹认证系统及其实现方法。
背景技术：
目前的基于密码的身份认证的系统通常为了安全，需要为不同的对象设置不同的密码，增加了使用者的记忆负担和易用性。同时，目前市场上基于声纹的在线认证系统通常产生一些固定或随机的文本，让用户说出，以识别其声纹。但是，如果用户的系统被安装了一些黑客工具，记录了用户以前登陆时说的语音，就可以按照声纹认证系统生成的文本，将用户以前登陆时的语音进行切分并拼接，然后用这些拼接的语音冒充用户说话来登陆，从而损害用户的利益。因此，基于声纹的身份认证系统采用的固定密码(文本)或与文本无关的密码的声纹识别技术，无论固定密码还是文本无关的密码，都容易被事先录制的语音攻击。再者，基于声纹的在线身份认证系统为了获得较好的用户体验，通常语音较少，导致难以保证系统性能。随着技术的发展，如以下一些技术，可以为基于声纹的在线身份认证系统提供更好的帮助。语音识别技术，也被称为自动语音识别(Automatic Speech Recognition, ASR), 其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。声纹识别技术属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性；而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。音频指纹是可以代表一段音频的重要声学特征的基于内容的紧致的数字签名。音频指纹技术通常包括两个部分即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的指纹比对算法。当要识别一段未知音频时，首先按照指纹提取算法计算其音频指纹，然后和指纹数据库中存储的大量音频指纹按照指纹比对算法进行比对，识别出对应的音频。一个有效的音频指纹技术能够在数据库中正确识别出可能经受各种信号处理的、失真的未知音频的原始版本。

发明内容
本发明要解决的技术问题是提供一种在线声纹认证系统及其实现方法。通过利用语音识别、声纹识别、音频指纹技术，实现了准确且高效的声纹验证，提高了声纹认证的安全性。为解决上述技术问题，本发明的在线声纹认证系统，包括
用户录音模块，用于录制用户语音，以提供用户的语音；在线声纹认证服务器，用于密码的建立，并将密码内容以图片或语音方式提供给用户，以及根据用户提供的语音进行语音识别、音频指纹识别、声纹识别。其中，密码的组成部分包括固定密码部分、随机密码部分。所述在线声纹认证服务器，包括语音识别模块、音频指纹识别模块、声纹识别模块。语音识别模块，用于验证用户提供的语音内容是否与产生的密码一致；音频指纹识别模块，用于检验用户提供的语音是否为历史语音拼接而成，验证用户语音是否合法；声纹识别模块，用于验证提供语音的用户身份，即检验提供语音的用户身份是否与注册用户身份一致。该声纹识别模块包括注册阶段模块、测试阶段模块；其中，注册阶段模块，根据用户提供若干段固定密码及随机密码的语音数据，为该用户建立声纹模型，并将该模型保存于在线声纹认证服务器上；测试阶段模块，调用用户的声纹模型，分析测试时用户提供的语音特征，进行一个接受或拒绝的确认判决。另外，对于上述在线声纹认证系统，本发明还提供一种在线声纹认证系统的实现方法，包括步骤(1)通过在线声纹认证服务器将产生的密码内容以图片或语音方式提供给用户；(2)利用用户录音模块录制用户语音，并将该用户的语音提供给语音识别模块；(3)通过语音识别模块，对用户提供的语音内容与密码内容进行模式匹配分析，判断两者是否相符若不符，说明用户提供的密码不合要求，拒绝进入下一阶段的音频指纹认证；若相符，则进入下一阶段的音频指纹认证；(4)通过音频指纹识别模块，将用户提供的语音的音频指纹与在线声纹认证服务器数据库中的用户所有历史音频指纹做对比，检测两者的相似程度，判定是否为合法若两者的相似程度超过设定的阈值，则认为用户提供的语音包含有历史语音中的某个片段，是由历史语音拼接而成，判定该语音为非法，拒绝进入下一阶段的声纹识别认证；若两者的相似程度低于设定的阈值，则认为提供的语音不包含历史语音中的片段，不是由历史语音拼接而成，判定该语音为合法语音，并将该语音的音频指纹保存于在线声纹认证服务器上，更新用户的音频指纹数据库，并进入下一阶段的声纹识别认证；(5)通过声纹识别模块，检验用户提供的语音与注册用户建立的声纹模型匹配程度若程度达到设定值，则认为是真实用户登录，接受用户的此次登录；若程度没达到设定值，则认为不是真实用户登录，拒绝用户的此次登录。本发明有益效果如下(1)本发明通过产生固定密码与随机数字串密码共同作为用户身份认证的密码。与传统的声纹身份认证方法相比，降低了用户密码记忆的负担，且由于密码包含随机密码部分，随机密码于在线声纹认证服务器端产生，且密码只在短期内有效，更难以破解，也防止了身份认证中的录音攻击问题。固定密码部分由用户定义，则可以用于进一步提高系统的性能，提高声纹认证的准确性。因此，为身份认证提供了双保险，提高了认证系统的性能。(2)由于产生的密码并不通过文本提示用户，而是通过图片或语音方式提供给用户，这样可以提高非法程序破解密码内容的难度。如用户的密码以图片格式提供给用户，这样，对于用户而言，识别图片的提示内容是很容易识别的，而对于恶意攻击程序而言，这个过程是比较困难的，获取密码内容需要消耗一定的时间。而声纹认证的过程相对来说较短，如正常语速读8个数字需要3秒左右，为了系统安全，故在线声纹认证服务器提供给用户的每一步骤的登录时间也是有限的，通过增加恶意程序获取密码内容的难度，可以有效的提高系统的安全性。(3)本发明通过语音识别检测用户所提供的语音是否与系统的要求一致，若用户提供的语音与系统的要求内容不一致，则拒绝用户登录注册，通过语音识别可以有效的防止偷录用户语音进行冒认。(4)本发明在检测用户的语音的有效性上，保留用户的历史语音，提取用户历史语音的音频指纹，若用户使用的语音经音频指纹技术检测发现包含历史语音，则拒绝用户使用当前的语音，这样可以有效的抑制黑客等通过非法窃取用户的历史语音并拼接冒充真实用户的情况发生，遏制非法登录；(5)通过采用声纹认证方法，即便密码内容为其他用户非法获取，也可以通过声纹认证的方法对非法用户进行身份拒绝判定。因此，通过同时利用语音识别、声纹识别、音频指纹技术，可以大大增加用户登录的安全性，降低用户被非法冒认的风险，这三个技术互为补充，大大增加了在线声纹认证系统的安全性能。

下面结合附图与具体实施方式
对本发明作进一步详细的说明图1是本发明在线声纹认证系统的实现流程示意图；图2是声纹识别模块中的注册阶段流程示意图；图3是声纹识别模块中的测试阶段流程示意图。
具体实施例方式本发明的在线声纹认证系统，包括用户录音模块，用于录制用户语音，以提供用户的语音；在线声纹认证服务器，用于固定密码部分和随机密码部分的建立，并将密码内容以图片或语音方式提供给用户，及根据用户提供的语音进行语音识别、音频指纹识别、声纹识别。关于固定密码部分，可以允许用户自己定义密码，作为密码的第一部分，当然也可以由在线声纹认证服务器为用户随机指定；然后通过随机种子产生一个N位的随机数字串，作为密码的第二部分(随机密码部分)，这两部分共同组成完整的密码；密码仅在有限的时间内有效(如20秒)，且组成的密码具有随机性，很难为其他用户提前获取，可以有效的防止录音攻击；其中，随机数字串也可进行相关的扩充，如改成随机的某些汉字、字母或英语单词等。
所述在线声纹认证服务器，包括语音识别模块、音频指纹识别模块、声纹识别模块。语音识别模块，用于验证用户提供的语音内容是否与产生的密码一致；音频指纹识别模块，用于检验用户提供的语音是否为历史语音拼接而成，验证用户语音是否合法；声纹识别模块，用于检验提供语音的用户身份是否与注册用户身份一致，验证用户身份。该声纹识别模块由两部分组成注册阶段模块、测试阶段模块；其中，注册阶段模块，根据用户提供若干段固定密码及随机密码的语音数据，为该用户建立声纹模型，并将该模型保存于在线声纹认证服务器上；测试阶段模块，调用用户的声纹模型，分析测试时用户提供的语音特征，进行一个接受或拒绝的确认判决。现以固定密码“芝麻开门”和随机密码“12345678”为例，来说明本发明在线声纹认证系统的实现方法，如图1所示，具体步骤包括(1)在线声纹认证服务器产生固定密码“芝麻开门”和随机密码“12345678”，共同组成用户的当前密码，即当前用户的密码为“芝麻开门12345678”，并以图片方式提供给用户；(2)利用用户录音模块录制用户语音“芝麻开门12345678”，并将该用户的语音提供给语音识别模块；(3)语音识别模块将对该语音内容与系统要求的密码内容进行匹配，即若用户提供的语音内容为“芝麻开门12345678”，则语音识别模块将判定为匹配，允许系统进行后面的认证；反之，若用户提供的语音不是“芝麻开门12345678”，如用户随口说的“天气不错 12345678”，则语音识别模块将判定为不匹配，直接拒绝用户此次的登录。用户只能重新进行登录。(4)通过语音识别模块的语音随后将进行音频指纹验证。用户登陆时，系统会得到用户的本次登陆语音。将用户本次登录提供的语音的音频指纹与在线声纹认证服务器数据库中的用户所有历史音频指纹做对比，检测当前语音的音频指纹与数据库中该用户的所有历史音频指纹的最大相似程度，作为该音频指纹与历史音频指纹的相似程度，将此相似程度与设定的阈值(如可取80%)相比较，判定是否为合法如果用户提供的语音并非是真实用户根据系统提示说出的语音，而是由冒认者通过其他渠道偷录用户以前登录或注册时采用的语音，并由这些语音拼接而成的，则音频指纹模块计算出的相似程度将超过设定的阈值，系统将判定该语音非法，拒绝用户的此次登录，此次登录被拒绝后用户只能选择重新登录；若为真实用户根据系统提示说出的语音，则音频指纹模块计算出的相似程度将低于设定的阈值，系统将判定该语音合法，允许用户进行后面的认证。(5)经检验合法的语音将进行声纹识别。本步骤由两部分组成注册阶段和测试阶段。在注册阶段，通过注册阶段模块，将用户提供若干条合法的语音(如若干段固定密码及随机数字串的语音数据)，在由大量用户的语音训练而成的通用背景模型的基础上，通过最大后验概率自适应算法(Speaker verificationusing adapted Gaussian mixtureCN 102543084 Amodels,Reynolds,D. A. and Quatieri, Τ. F. and Dunn, R. B. , Digital signal processing, 2000，volumelO, pl9_41)建立该用户的声纹模型，并将该用户模型保存在在线声纹认证服务器上，其流程图如图2所示。在测试阶段，其流程图如图3所示，通过测试阶段模块，调用在线声纹认证服务器中用户的声纹模型，分析用户提供的语音，若用户提供的语音与该声纹模型匹配程度达到设定值(该值可以由测试阶段模块设定)，则认为是真实用户登录，接受用户的此次登录；若用户提供的语音与该声纹模型匹配程度没有达到设定值，则认为不是真实用户登录，拒绝用户的此次登录。另外，如只采用上述实施方式中的声纹识别模块也可得到对用户的身份进行认证的效果，但在性能上将受到影响。如舍去语音识别模块，则会提高用户冒认的风险；而舍去音频指纹模块，则会存在利用历史数据拼接冒认的风险。本发明综合利用了语音识别、声纹识别、音频指纹技术，同时采用固定和随机密码，实现了简单、易用、高效的在线身份认证，而且本发明的声纹识别效果的准确度能到达大于99%的程度。
权利要求
1.一种在线声纹认证系统，其特征在于包括用户录音模块，用于录制用户语音，以提供用户的语音；在线声纹认证服务器，用于密码的建立，并将密码内容以图片或语音方式提供给用户，以及根据用户提供的语音进行语音识别、音频指纹识别、声纹识别。
2.如权利要求1所述的在线声纹认证系统，其特征在于所述密码的组成部分包括固定密码部分、随机密码部分。
3.如权利要求2所述的在线声纹认证系统，其特征在于所述固定密码部分是由用户自己定义，或由在线声纹认证服务器为用户随机指定；随机密码部分是一个随机数字串，或随机的汉字、字母或英语单词。
4.如权利要求1所述的在线声纹认证系统，其特征在于所述在线声纹认证服务器，包括语音识别模块、音频指纹识别模块、声纹识别模块；其中，语音识别模块，用于验证用户提供的语音内容是否与产生的密码一致；音频指纹识别模块，用于检验用户提供的语音是否为历史语音拼接而成，验证用户语音是否合法；声纹识别模块，用于检验提供语音的用户身份是否与注册用户身份一致。
5.如权利要求4所述的在线声纹认证系统，其特征在于所述声纹识别模块包括注册阶段模块、测试阶段模块；其中，注册阶段模块，根据用户提供若干段固定密码及随机密码的语音数据，为该用户建立声纹模型，并将该模型保存于在线声纹认证服务器上；测试阶段模块，调用用户的声纹模型，分析测试时用户提供的语音特征，进行接受或拒绝的确认判决。
6.如权利要求5所述的在线声纹认证系统，其特征在于所述注册阶段模块中，在通用背景模型的基础上，通过最大后验概率自适应算法建立用户的声纹模型。
7.如权利要求1-6任意一项所述的在线声纹认证系统的实现方法，包括步骤(1)通过在线声纹认证服务器将产生的密码内容以图片或语音方式提供给用户；(2)利用用户录音模块录制用户语音，并将该用户的语音提供给语音识别模块；(3)通过语音识别模块，对用户提供的语音内容与密码内容进行模式匹配分析，若相符，则进入下一阶段的音频指纹认证；(4)通过音频指纹识别模块，将用户提供的语音的音频指纹与在线声纹认证服务器数据库中的用户所有历史音频指纹做对比，若两者的相似程度低于设定的阈值，则判定该语音为合法语音，并将该语音的音频指纹保存于在线声纹认证服务器上，更新用户的音频指纹数据库，并进入下一阶段的声纹识别认证；(5)通过声纹识别模块，检验用户提供的语音与注册用户建立的声纹模型匹配程度，若程度达到设定值，则认为是真实用户登录，接受用户的此次登录。 全文摘要
本发明公开了一种在线声纹认证系统及其实现方法，该在线声纹认证系统，包括用户录音模块、在线声纹认证服务器；其实现方法，包括步骤1)通过在线声纹认证服务器将产生的密码内容提供给用户；2)利用用户录音模块录制用户语音，并将该语音提供给语音识别模块；3)通过语音识别模块对用户提供的语音内容与密码内容进行模式匹配分析；4)通过音频指纹识别模块，判定用户提供的语音的音频指纹是否为合法语音；5)通过声纹识别模块检验用户提供的语音与注册用户建立的声纹模型匹配程度，若程度达到设定值，则认为是真实用户登录，接受用户的此次登录。本发明实现了简单、易用、高效的在线身份认证。
文档编号G10L17/00GK102543084SQ201010613010
公开日2012年7月4日申请日期2010年12月29日优先权日2010年12月29日
发明者张峰, 李轶杰, 李霄寒, 蔡洪斌, 许东星, 黄伟申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许东星;黄伟;李轶杰;李霄寒;蔡洪斌;张峰
技术所有人：盛乐信息技术（上海）有限公司
我是此专利的发明人

上一篇：用于实现aqmf处理的方法、和用于实现sqmf处理的方法
上一篇：麦克风装置的制作方法