字符内容提示的声纹识别方法

文档序号：2823698阅读：387来源：国知局

专利名称：字符内容提示的声纹识别方法
技术领域：
本发明涉及一种智能识别方法，具体涉及一种声纹识别方法。
背景技术：
所谓声纹(Voiaprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官一舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。声纹识别的应用有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取；……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；( 获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；(4)声纹辨认和确认的算法复杂度低；( 配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率；……等等。这些优势使得声纹识别的应用越来越受到方法开发者和用户青睐，声纹识别的世界市场占有率15. 8 %，仅次于手指和手的生物特征识别，并有不断上升的趋势。声纹识别有文本相关的CText-D^endent)和文本无关的(TextHncbpendent)两种。与文本有关的声纹识别方法要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但方法需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。目前常用的与文本相关的声纹识别其文本往往采用随机数字串的形式。在随机数字串的声纹认证方法中，同时提供一个8位的数字串提示，容易导致用户连读，连读现象若严重，会严重影响方法的性能。采用冒泡型的字符提示可以防止连读，使其变成孤立词的语音识别和声纹识别。同时，这种提示方式更为生动形象，易为用户接受。

发明内容
本发明所要解决的技术问题是提供一种字符内容提示的声纹识别方法，它可以解决字符连读对语音识别和声纹认证的性能影响。为了解决以上技术问题，本发明提供了一种字符内容提示的声纹识别方法，包括以下步骤步骤一、通过随机种子产生一个长度为N的随机字符串，N为> 2的正整数；步骤二、每次显示一个字符，检测是否已完成单个字符的录音，如果已完成单个字符的录音再弹出下一个字符，直至最后一个字符被录音；步骤三、完成整个字符串的录音后，进行声纹验证。本发明的有益效果在于通过实时的静音检测算法，采取一种冒泡式的字符串提示，使得连续字符串可视为一串孤立的字符，解决了字符连读对语音识别和声纹认证的性能影响。

下面结合附图和具体实施方式
对本发明作进一步详细说明。图1是本发明实施例所述方法的流程图；图2是本发明实施例所述智能字符内容提示示意图；图3是本发明实施例所述声纹识别示意图。
具体实施例方式本发明设计了一种字符内容提示的声纹识别方法，可提升后端语音识别和声纹认证方法的性能。本发明所述的字符可以为字母或数字或符号，只要是字符即可。其优选的使用单音节的字符，其中更优选的是采用数字作为本发明所述的字符。以下以数字为例介绍本发明的具体实施例，但本发明不限于数字作为字符内容提示使用。如图1所示，本发明首先通过随机种子产生一个8位的随机数字串，每次提供一个数字，用户录音过程中，通过实时的静音检测程序检测到用户已完成单个数字的录音，再弹出下一个数字，直至最后一个数字。完成整个数字串的录音后，再继续后端的语音识别和声纹识别模块。本发明通过实时的静音检测算法，采取一种冒泡式的数字串提示，使得连续数字串可视为一串孤立的数字，解决了数字连读对语音识别和声纹认证的性能影响。本发明通过一种更为生动形象的交互方式，使得整个方法更易被用户接受和使用。前端的数字串提示主要步骤如下如图2所示，首先通过随机种子产生一个8位的随机数字串，方法每次以图片或 Flash的方式提供一个数字给用户，并通过实时的静音检测程序检测到用户已完成该数字的录音，再弹出下一个数字，如此直至最后一个数字。后端的声纹验证方法将由两部分构成第一部分是语音识别模块，该部分对说话人的语音进行分析，判断是否为随机数字串的内容，并给出一个是或否的答案，在这个过程中同时对语音进行切分，产生语音码流中每一帧属于哪个数字的标记。第二部分是一个声纹识别模块，该部分由两部分组成，注册部分和测试部分，其中，所述注册部分如图3所示，该部分可以包括以下步骤说话人提供3-5个随机数字串的语音数据，根据前端语音识别模块提供的数字标记，即每一段语音特征码的每一帧都有一个相应的数字标记，对每一帧特征码流，分别以相应数字的通用背景模型为基础，通过最大后验概率自适应算法进行自适应训练，建立该说话人各个数字的说话人模型；测试部分，仍采取冒泡式的数字串提示方法，调用声明的说话人模型，分析测试时提供的语音特征，根据测试语音的数字标记，与相应数字模型进行匹配，进行一个确认判决，接受或拒绝。
本发明并不限于上文讨论的实施方式。以上对具体实施方式
的描述旨在于为了描述和说明本发明涉及的技术方案。基于本发明启示的显而易见的变换或替代也应当被认为落入本发明的保护范围。以上的具体实施方式
用来揭示本发明的最佳实施方法，以使得本领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的目的。
权利要求
1.一种字符内容提示的声纹识别方法，其特征在于，包括以下步骤步骤一、通过随机种子产生一个长度为N的随机字符串，N为> 2的正整数；步骤二、每次显示一个字符，检测是否已完成单个字符的录音，如果已完成单个字符的录音再弹出下一个字符，直至最后一个字符被录音；步骤三、完成整个字符串的录音后，进行声纹验证。
2.如权利要求1所述的字符内容提示的声纹识别方法，其特征在于，所述步骤二中采用实时静音检测算法检测是否已完成单个字符的录音。
3.如权利要求1所述的字符内容提示的声纹识别方法，其特征在于，所述声纹验证包括语音识别和声纹识别。
4.如权利要求3所述的字符内容提示的声纹识别方法，其特征在于，所述语音识别包括对说话人的语音进行分析，判断是否为随机字符串的内容，并给出一个是或否的答案，在这个过程中同时对语音进行切分，产生语音中每一段属于哪个字符的标记。
5.如权利要求3所述的字符内容提示的声纹识别方法，其特征在于，所述声纹识别模块包括注册部分，说话人提供多个随机字符串的语音数据，根据语音识别提供的标记，以通用背景模型为基础，通过最大后验概率自适应算法建立该说话人的模型；测试部分，调用声明的说话人模型，分析测试时提供的语音特征，进行一个确认判决，接受或拒绝。
6.如权利要求1所述的字符内容提示的声纹识别方法，其特征在于，所述随机字符串为8位，通过图片或Flash的方式提供字符给用户。
7.如权利要求1所述的字符内容提示的声纹识别方法，其特征在于，所述字符为数字。
全文摘要
本发明公开了一种字符内容提示的声纹识别方法，包括以下步骤步骤一、通过随机种子产生一个长度为N的随机字符串，N为≥2的正整数；步骤二、每次显示一个字符，检测是否已完成单个字符的录音，如果已完成单个字符的录音再弹出下一个字符，直至最后一个字符被录音；步骤三、完成整个字符串的录音后，进行声纹验证。本发明通过实时的静音检测算法，采取一种冒泡式的字符串提示，使得连续字符串可视为一串孤立的字符，解决了字符连读对语音识别和声纹认证的性能影响。
文档编号G10L17/00GK102314877SQ20101022162
公开日2012年1月11日申请日期2010年7月8日优先权日2010年7月8日
发明者李轶杰, 蔡洪滨, 黄伟申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄伟;蔡洪滨;李轶杰
技术所有人：盛乐信息技术(上海)有限公司
我是此专利的发明人

上一篇：声音信号通道间延时估计的方法及装置的制作方法
上一篇：实用金属纸皮工艺子母京胡的制作方法