一种基于仿生模式识别的声纹识别方法

文档序号：2830867阅读：373来源：国知局

专利名称：一种基于仿生模式识别的声纹识别方法
技术领域：
本发明属于生物识别技术领域，特别是指一种基于仿生模式识别的声纹识别方法。
背景技术：
说话人识别和指纹，虹膜，人脸识别等一样，属于生物识别的一种，被认为是最自然的生物特征识别身份鉴定方式，又称"声纹"识别。随着个人电脑和个人通信设备的普及，与其他生物特征识别方式相比，说话人识别具有采集设备简单，系统价格低廉，容易被人们接受等优点。因而可以被广泛应用到电话监听(公安，军事)，交易认证 (电话银行，信用卡支付)，出入控制(银行，保密机构)，语音数据
管理(语音检索，信息获取等)，个性化设置(手机，PDA等)。
说话人识别的基本过程为语音采集，特征提取，分类模型。其关键问题在于分类模型，其主流算法大致可以分为三类，模板匹配法(动态时间规整(DTW)，矢量量化(VQ))，概率统计法(隐马尔可夫模型(HMM)，高斯混合模型(GMM))，辨识分类器算法(人工神经网络(ANN)，支撑向量机(SVM))。
目前广泛被使用的是矢量量化和高斯混合模型(GMM)方法。其机理是追求统计上的最优，一般情况下，训练语音越长，取得的效果越好，在短语音的情况下，效果不尽人意。同时训练语音长会造成训练时间长，系统资源要求高，从而降低其实用性。
同时以上方法共同存在的缺点是会丢失掉语音的连续性信息。

发明内容
(一)要解决的技术问题有鉴于此，本发明的主要目的在于提出一种基于仿生模式识别的声纹识别方法，使计算机可以"像人" 一样记住说话人的特征，以准确迅速识别出说话人。(二)技术方案为达到上述目的，本发明提供了一种基于仿生模式识别的声纹识别方法，该方法包括构建声纹识别训练集，该声纹识别训练集包含有多个说话人特征子空间，每个说话人特征子空间对应于一个人；将待测试语音进行特征变换，得到该待测试语音的时序点集，该时序点集包含有多个时序点；计算该时序点集中各时序点到所述每个说话人特征子空间的距离，并计算该时序点集中各时序点到所述每个说话人特征子空间距离的平均值；确定平均值最小的说话人特征子空间所对应的人为发出测试语音的人。优选地，所述构建声纹识别训练集的步骤包括针对每一个人，将该人的一段语音以一定的窗长用窗移的方式取出，成为高维空间点；提取该高维空间点的特征系数，得到语音的时序点集，根据得到的时序点集构建说话人特征子空间；将多个说话人特征子空间组合在一起，形成声纹识别训练集。优选地，所述高维空间点的形成过程包括将采入的语音按照 0.02ms —帧，0.01ms帧移分割成小帧，按照时间先后顺序对小帧编号，求每帧0.64kHz至2.8kHz之间的频谱能量，判断每帧是否存在语音，对存在语音的帧作美倒谱MFCC变换，留n个系数，n为自然数。优选地，所述n等于12，所述高维空间点的形成过程具体包括将语音分割的窗长为210ms，窗移为20ms，窗长内不存在无语音段；对窗口内的语音以20ms—帧，10ms帧移作美倒谱变换，每帧取12个系数，最后每个窗口的语音变换成12x20=240维的一个点。优选地，所述提取该高维空间点的特征系数，得到语音的时序点5在语音的帧系数，按照序号顺序组合得到nxm个系数，即nxm维的一个点；依据时间顺序，整段语音可以得到一个时序点集X(Xi,、,、,…,xJ ， m为自然数。优选地，所述m等于20; nxm等于240。优选地，所述根据得到的时序点集构建说话人特征子空间的步骤包括按照时序点的编号，相邻编号的三个点分别作为三角形的顶点，时序点集就被串成一个有三角形构成的带状子空间，该带状子空间即为说话人特征子空间。优选地，所述将待测试语音进行特征变换，得到该待测试语音的时序点集的步骤具体包括将相邻m个序号内都存在语音的帧系数，按照序号顺序组合得到nxm个系数，即nxm维的一个点；依据时间顺序，整段语音可以得到一个时序点集X(x,，、,^,…，xJ ， m和n为自然数。(三)有益效果1、本发明提供的这种基于仿生模式识别的声纹识别方法，具有训练时间短，识别速度快，识别率高等特点。2、本发明提供的这种基于仿生模式识别的声纹识别方法，与传统方法相比，不是采用统计上的最优，而是以客观世界规律的合理性作为根本，更充分的利用了语音的连续性信息。3、本发明提供的这种基于仿生模式识别的声纹识别方法，在文本有关的说话人识别中取得了优异的效果，同时也可用于文本无关的说话人识别。

图1为本发明提供的基于仿生模式识别的声纹识别方法流程图；图2为本发明提供的基于仿生模式识别的声纹识别的系统结构示意图；图3为本发明提供的语音特征提取的示意图；图4为本发明提供的高维空间三角带状子空间的构建示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。本发明的核心内容是利用仿生模式识别的认识思想和高维空间点分布的分析方法，将说话人的连续语音经过特征变换后，描述成高维空间三角带状的子空间，通过计算说话人语音到各个说话人子空间的距离判断说话人是谁。识别关键就是如何提取特征，之后如何区分特征。这个特征希望具有代表性，更充分的表达语音所含有的说话人差异信息。如果能很好的把这些特征描述出来，自然就可以比较这些特征，得到谁更相像的结论。客观世界的一类事物区别于另一类事物是因为其具有典型区别于其他事物的特征，将这些特征映射成高维空间点，然后用一定的子空间来描述这些特征，以达到认识这些特征，从而认识这个事物的目的。客观世界的一个事物，如一张图片，一段语音都可以作为高维空间的一个点来描述，用高维空间的几何分析方法，分析这些点的分布规律，找到一个合适的描述方法，即寻找这些点的特征子空间。另外，分析语音的特点，其具有短时平稳特征，即语音在10ms 30ms这样长度的时间段内，语音信号是平稳信号。同时语音作为时序信号，语音受前面的语音影响，同时影响后面的语音。用三角带作为特征子空间的描述可以使流形简化，同时兼顾连续性信息。如图1所示，图1为本发明提供的基于仿生模式识别的声纹识别方法流程图，该方法包括以下步骤步骤101:构建声纹识别训练集，该声纹识别训练集包含有多个说话人特征子空间，每个说话人特征子空间对应于一个人；步骤102:将待测试语音进行特征变换，得到该待测试语音的时序点集，该时序点集包含有多个时序点；步骤103:计算该时序点集中各时序点到所述每个说话人特征子空间的距离，并计算该时序点集中各时序点到所述每个说话人特征子空间距离的平均值；步骤104:确定平均值最小的说话人特征子空间所对应的人为发出测试语音的人。上述步骤101中所述构建声纹识别训练集的步骤包括1、针对每一个人，将该人的一段语音以一定的窗长用窗移的方式取出，成为高维空间点；2、提取该高维空间点的特征系数，得到语音的时序点集，根据得到的时序点集构建说话人特征子空间；3、将多个说话人特征子空间组合在一起，形成声纹识别训练集。上述步骤1中所述高维空间点的形成过程包括将采入的语音按照0.02ms—帧，O.Olms帧移分割成小帧，按照时间先后顺序对小帧编号，求每帧0.64kHz至2.8kHz之间的频谱能量，判断每帧是否存在语音，对存在语音的帧作美倒谱MFCC变换，留n个系数，n为自然数。当n等于12时，上述步骤1中所述高维空间点的形成过程具体包括将语音分割的窗长为210ms，窗移为20ms，窗长内不存在无语音段；对窗口内的语音以20ms—帧，10ms帧移作美倒谱变换，每帧取 12个系数，最后每个窗口的语音变换成12x20=240维的一个点。上述步骤2中所述提取该高维空间点的特征系数，得到语音的时序点集具体包括将相邻m个序号内都存在语音的帧系数，按照序号顺序组合得到nxm个系数，即nxm维的一个点；依据时间顺序，整段语音可以得到一个时序点集X^,x,，^，…,xJ ， m为自然数。一般情况下， m等于20， nxm等于240。上述步骤2中所述根据得到的时序点集构建说话人特征子空间的步骤包括按照时序点的编号，相邻编号的三个点分别作为三角形的顶点，时序点集就被串成一个有三角形构成的带状子空间，该带状子空间即为说话人特征子空间。上述步骤102中所述将待测试语音进行特征变换，得到该待测试语音的时序点集的步骤具体包括将相邻m个序号内都存在语音的帧系数，按照序号顺序组合得到nxm个系数，即nxm维的一个点；依据时间顺序，整段语音可以得到一个时序点集X(x,，x:,x3,…,xJ， m和n为自然数。上述步骤104中，将高维空间(即说话人特征子空间)中的一个点到三角带状子空间的距离，定义为一个点到三角带上所有三角的最短距离。基于图1所示的基于仿生模式识别的声纹识别方法流程图，图2 进一步示出了基于仿生模式识别的声纹识别的系统结构示意图。以下结合具体的实施例，对本发明提供的这种基于仿生模式识别的声纹识别进一步详细说明。步骤1、端点检测。如图3所示，将采入的语音按照0.02ms —帧， 0.01ms帧移分割成小帧，按照时间先后顺序对小帧编号，求每帧 0.64kHz 2.8kHz之间的频谱能量，判断每帧是否存在语音。对存在语音的帧作美倒谱(MFCC)变换，留12个系数。步骤2、特征变换。将相邻20个序号内都存在语音的帧系数，按照序号顺序组合得到12*20=240个系数，即240维的一个点。依据时间顺序，整段语音可以得到一个时序点集x"'，x"x"…，xJ 。每个说话人的语音都可以得到这样一个时序点集。步骤3、构建特征子空间。由图4所示，按照时序点的编号，相邻编号的三个点分别作为三角形的顶点，时序点集就被串成一个有三角形构成的带状子空间。每个说话人都拥有一个这样的特征子空间。步骤4、测试的说话人按照2所述方式进行特征变换，也得到一个时序点集。求取各个测试点到每个说话人特征子空间的距离的均值。拥有最小均值的说话人即测试说话人。实验证明，本方法具有训练时间短，识别速度快，识别率高等特点。与传统方法相比，本方法不是采用统计上的最优，而是客观世界规律的合理性作为根本，更充分的利用了语音的连续性信息。本方法在文本有关的说话人识别中取得了优异的效果，同时也可用于文本无关的说话人识别。以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而己，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1、一种基于仿生模式识别的声纹识别方法，其特征在于，该方法包括构建声纹识别训练集，该声纹识别训练集包含有多个说话人特征子空间，每个说话人特征子空间对应于一个人；将待测试语音进行特征变换，得到该待测试语音的时序点集，该时序点集包含有多个时序点；计算该时序点集中各时序点到所述每个说话人特征子空间的距离，并计算该时序点集中各时序点到所述每个说话人特征子空间距离的平均值；确定平均值最小的说话人特征子空间所对应的人为发出测试语音的人。
2、根据权利要求l所述的基于仿生模式识别的声纹识别方法，其特征在于，所述构建声纹识别训练集的步骤包括-针对每一个人，将该人的一段语音以一定的窗长用窗移的方式取出，成为高维空间点；提取该高维空间点的特征系数，得到语音的时序点集，根据得到的时序点集构建说话人特征子空间；将多个说话人特征子空间组合在一起，形成声纹识别训练集。
3、根据权利要求2所述的基于仿生模式识别的声纹识别方法，其特征在于，所述高维空间点的形成过程包括将采入的语音按照0.02ms—帧，O.Olms帧移分割成小帧，按照时间先后顺序对小帧编号，求每帧0.64kHz至2.8kHz之间的频谱能量，判断每帧是否存在语音，对存在语音的帧作美倒谱MFCC变换，留n 个系数，n为自然数。
4、根据权利要求3所述的基于仿生模式识别的声纹识别方法，其特征在于，所述n等于12，所述高维空间点的形成过程具体包括将语音分割的窗长为210ms，窗移为20ms，窗长内不存在无语音段；对窗口内的语音以20ms —帧，10ms帧移作美倒谱变换，每帧取12个系数，最后每个窗口的语音变换成12x20=240维的一个点。
5、根据权利要求3所述的基于仿生模式识别的声纹识别方法，其特征在于，所述提取该高维空间点的特征系数，得到语音的时序点集具体包括将相邻m个序号内都存在语音的帧系数，按照序号顺序组合得到 nxm个系数，即nxm维的一个点；依据时间顺序，整段语音可以得到一个时序点集X^,^,^,…,xJ ， m为自然数。
6、根据权利要求5所述的基于仿生模式识别的声纹识别方法，其特征在于，所述m等于20; nxm等于240。
7、根据权利要求2所述的基于仿生模式识别的声纹识别方法，其特征在于，所述根据得到的时序点集构建说话人特征子空间的步骤包括按照时序点的编号，相邻编号的三个点分别作为三角形的顶点，时序点集就被串成一个有三角形构成的带状子空间，该带状子空间即为说话人特征子空间。
8、根据权利要求l所述的基于仿生模式识别的声纹识别方法，其特征在于，所述将待测试语音进行特征变换，得到该待测试语音的时序点集的步骤具体包括:将相邻m个序号内都存在语音的帧系数，按照序号顺序组合得到 nxm个系数，即nxm维的一个点；依据时间顺序，整段语音可以得到一个时序点集X^,X2，^,…,)U ， m和n为自然数。
全文摘要
本发明公开了一种基于仿生模式识别的声纹识别方法，该方法包括构建声纹识别训练集，该声纹识别训练集包含有多个说话人特征子空间，每个说话人特征子空间对应于一个人；将待测试语音进行特征变换，得到该待测试语音的时序点集，该时序点集包含有多个时序点；计算该时序点集中各时序点到所述每个说话人特征子空间的距离，并计算该时序点集中各时序点到所述每个说话人特征子空间距离的平均值；确定平均值最小的说话人特征子空间所对应的人为发出测试语音的人。本发明是以客观世界规律的合理性作为根本，更充分的利用了语音的连续性信息，在文本有关的说话人识别中取得了优异的效果，同时也可用于文本无关的说话人识别。
文档编号G10L17/00GK101540170SQ200810102199
公开日2009年9月23日申请日期2008年3月19日优先权日2008年3月19日
发明者吴丽丽, 王守觉申请人:中国科学院半导体研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴丽丽;王守觉
技术所有人：中国科学院半导体研究所
我是此专利的发明人

上一篇：一种基于关注度分析的音视频文件摘要方法
上一篇：语音编码的封装传输方法及装置的制作方法