身份识别方法、装置及计算机可读存储介质与流程

文档序号：20034940发布日期：2020-02-28 10:59阅读：154来源：国知局

本发明涉及人工智能技术领域，尤其涉及一种基于用户行为协同的身份识别方法、装置及计算机可读存储介质。

背景技术：

声纹识别也称说话人识别，是生物识别的一种，是一项根据声纹波形中反映说话人生理和行为特征的声纹参数，自动识别说话人身份的技术。每个人，无论模仿人说话模仿的多么相似，都具有独一无二的声纹，这是由每个人的发声器官在成长过程中形成的。目前，由于高校的不断扩招，学生越来越多，也给学校管理带来一定的压力。在课堂考勤的场景中，依赖老师的现场点名，通过人工方式进行签到，一方面给老师带来不便，不便于考勤管理，另一方面人工签到也有可能假冒，代签到等；在图书借阅的场景中，原有模式是使用学生卡在系统内登记，一方面需要办理学生卡，一方面图书借阅管理还需要管理员辅助登记；在门禁管理的场景中，原有基本都是刷学生卡，学生经常出现忘记带卡和卡在包里拿取不变等情况。

技术实现要素：

本发明提供一种身份识别方法、装置及计算机可读存储介质，其主要目的在于当用户进行身份识别时，给用户呈现出精准的身份识别结果。

为实现上述目的，本发明提供的一种身份识别方法，包括：

收集声纹样本集，建立声纹库，其中，所述声纹库包括文本相关声纹集和文本无关声纹集；

对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，其中，所述声纹向量序列集包括文本相关声纹向量序列集和文本无关声纹向量序列集；

将所述文本相关声纹向量序列集进行压缩处理，得到声纹码本集；

基于在文本相关声纹识别场景中接收用户的声纹语音内容，计算所述声纹语音内容与所述声纹码本集的欧式距离，根据所述欧式距离识别出所述用户的身份信息；

对所述文本无关声纹向量序列集提取梅尔频率倒谱系数集；

基于在文本无关声纹识别场景中接收用户的声纹语音内容，根据所述用户的声纹语音内容提取所述用户的梅尔频率倒谱系数，并根据上述的梅尔频率倒谱系数集识别出所述用户的身份信息。

可选地，所述对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，包括：

通过数字滤波器对所述声纹库中的声纹进行预加重，得到高频声纹集；

通过预设的声纹帧长对所述高频声纹集进行分帧处理，得到分帧高频声纹集；

利用汉明窗对所述分帧高频声纹集进行加窗，得到分帧高频的声纹分量序列集，利用双门限端点对所述声纹分量序列集进行去噪，得到所述声纹向量序列集。

可选地，所述计算所述声纹语音内容与所述声纹码本集的欧式距离的方法包括：

其中，x表示用户的声纹语音内容，y表示声纹码本集中的声纹码本，xi表示用户的第i声纹语音内容，yi表示声纹码本集中的第i个声纹码本。

可选地，所述对所述文本无关声纹向量序列集提取梅尔频率倒谱系数包括：

对所述文本无关声纹向量序列集进行傅里叶变换，得到所述文本无关声纹向量序列集的频谱，并计算所述频谱的功率谱；

利用三角滤波器对所述功率谱进行过滤，对过滤后的所述功率谱进行功率转换后得到所述梅尔频率倒谱系数。

可选地，所述对过滤后的所述功率谱进行功率转换后得到所述梅尔频率倒谱系数的方法包括：

其中，ci(k)表示梅尔频率倒谱系数，l表示mfcc的阶数，pi(k)表示功率谱、m表示梅尔频率倒谱的序列数，m表示三角滤波器个数。

此外，为实现上述目的，本发明还提供一种身份识别装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的身份识别程序，所述身份识别程序被所述处理器执行时实现如下步骤：

收集声纹样本集，建立声纹库，其中，所述声纹库包括文本相关声纹集和文本无关声纹集；

对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，其中，所述声纹向量序列集包括文本相关声纹向量序列集和文本无关声纹向量序列集；

将所述文本相关声纹向量序列集进行压缩处理，得到声纹码本集；

对所述文本无关声纹向量序列集提取梅尔频率倒谱系数集；

可选地，所述对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，包括：

通过数字滤波器对所述声纹库中的声纹进行预加重，得到高频声纹集；

通过预设的声纹帧长对所述高频声纹集进行分帧处理，得到分帧高频声纹集；

可选地，所述计算所述声纹语音内容与所述声纹码本集的欧式距离的方法包括：

其中，x表示用户的声纹语音内容，y表示声纹码本集中的声纹码本，xi表示用户的第i声纹语音内容，yi表示声纹码本集中的第i个声纹码本。

可选地，所述对所述文本无关声纹向量序列集提取梅尔频率倒谱系数包括：

对所述文本无关声纹向量序列集进行傅里叶变换，得到所述文本无关声纹向量序列集的频谱，并计算所述频谱的功率谱；

利用三角滤波器对所述功率谱进行过滤，对过滤后的所述功率谱进行功率转换后得到所述梅尔频率倒谱系数。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有身份识别程序，所述身份识别程序可被一个或者多个处理器执行，以实现如上所述的身份识别方法的步骤。

本发明提出的身份识别方法、装置及计算机可读存储介质，在用户进行身份识别时，对收集的声纹样本集建立声纹库，并结合欧式距离以及梅尔频率倒谱系数得到基于在文本相关声纹识别场景和在文本无关声纹识别场景中所述用户的身份，从而可以给用户呈现出精准的身份识别结果。

附图说明

图1为本发明一实施例提供的身份识别方法的流程示意图；

图2为本发明一实施例提供的身份识别装置的内部结构示意图；

图3为本发明一实施例提供的身份识别装置中身份识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种身份识别方法。参照图1所示，为本发明一实施例提供的身份识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，身份识别方法包括：

s1、收集声纹样本集，建立声纹库，其中，所述声纹库包括文本相关声纹集和文本无关声纹集。

本发明较佳实施例中，所述声纹样本集可以是在校学生的声纹集。较佳地，所述声纹库通过录入全体在校学生的声纹得到，并将录入的所述全体在校学生的声纹以wav格式进行保存。

进一步地，本发明较佳实施例将所述声纹库划分为文本相关声纹集和文本无关声纹集。其中，所述文本相关声纹集通过所述校园在校学生按照预设文本内容进行读取而录入得到，用于在文本相关声纹识别场景中进行身份识别。其中，所述文本相关声纹识别场景可以为进出校园宿舍的学生身份识别场景，于是，所述预设文本内容可以为我是某寝室的xxx，在学生进出校园宿舍时，必须按照之前录入声纹时的文本内容输入语音，才能有效的进出校园宿舍。所述文本无关声纹集通过录入所述在校学生的任意声纹语音获取得到，不需要按照预设文本内容进行读取而录入。

s2、对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，其中，所述声纹向量序列集包括文本相关声纹向量序列集和文本无关声纹向量序列集。

本发明较佳实施例中，所述预处理操作包括预加重、分帧、加窗以及去噪。所述预处理操作具体实施步骤包括：通过数字滤波器对所述声纹库中的声纹进行预加重，得到高频声纹集；通过预设的声纹帧长对所述高频声纹集进行分帧处理，得到分帧高频声纹集；利用汉明窗对所述分帧高频声纹集进行加窗，得到分帧高频的声纹分量序列集，并利用双门限端点对所述声纹分量序列集进行去噪，得到所述声纹向量序列集。

较佳地，本发明中所述数字滤波器包括：h(z)＝1-μz^-1，其中，z为声纹μ的取值范围为0.9-1.0。优选地，本发明较佳实施例中，μ取值为0.97。其中，所述预加重用于提高声纹的高频部分。

所述通过预设的声纹帧长可以为：0-0.5倍帧长。

所述加窗包括对所述分帧高频声纹集中的分帧高频声纹乘以一个汉明窗的窗函数，以形成所述分帧高频的声纹分量序列集。优选地，本发明中，所述汉明窗的窗函数如下所示：

其中，ω(n)表示汉明窗中第n个窗函数，n表示窗长。

进一步地，本发明较佳实施例中，根据所述声纹库被划分为文本相关声纹集和文本无关声纹集，所述声纹向量序列集相应地被划分为文本相关声纹向量序列集和文本无关声纹向量序列集。

s3、将所述文本相关声纹向量序列集进行压缩处理，得到声纹码本集。

本发明较佳实施例中所述压缩处理包括：将所述文本相关声纹向量序列集转换为矢量集，通过矢量量化将所述矢量集进行映射，得到多个离散矢量，从而形成所述声纹码本集。详细地，对空间的每一个矢量x来说，矢量量化就是把所述x映射为l个离散矢量yi(1≤i≤l)中的一个。其中，yi称为码矢，其集合称为码本。

s4、基于在文本相关声纹识别场景中接收用户的声纹语音内容，计算所述声纹语音内容与所述声纹码本的欧式距离，根据所述欧式距离识别出所述用户的身份信息。

如上所述，所述文本相关声纹识别场景可以为进出校园宿舍的学生身份识别场景。优先地，本发明中对所述接收用户的声纹语音内容进行上述的预处理操作，得到所述用户的声纹语音内容的声纹向量序列，并利用欧式距离公式计算出所述用户的声纹语音内容的声纹向量序列与所述声纹码本集的欧式距离。当所述欧式距离小于预设的阈值时，所述用户的身份信息验证成功，可以进出所述校园宿舍，当所述欧式距离大于或等于预设的阈值时，所述用户的身份信息验证失败，无法进出所述校园宿舍。优选地，本发明中所述预设的阈值为0.2，所述欧式距离计算公式为：

其中，x表示用户的声纹语音内容，y表示声纹码本集中的声纹码本，xi用户的第i声纹语音内容，yi表示声纹码本集中的第i个声纹码本。

s5、对所述文本无关声纹向量序列集提取梅尔频率倒谱系数集。

本发明较佳实施例中，所述梅尔频率倒谱系数(mel-scalefrequencycepstralcoefficients，mfcc)是一种描述说话人产生声音的声道形状。

较佳地，本发明中，所述mfcc提取的具体实施步骤包括：对所述文本无关声纹向量序列集进行傅里叶变换，得到所述文本无关声纹向量序列集的频谱，并计算所述频谱的功率谱；利用三角滤波器(mel-spacedfilterbank，mel)对所述功率谱进行过滤；通过离散余弦变换对过滤后的所述功率谱进行功率转换后得到所述mfcc。其中，所述mel滤波器组是一组非线性分布的滤波器组，例如，将一组包含128个滤波器作用到一帧上，可以将一个883维的向量转化为128维的向量。

其中，所述傅里叶变换包括：

其中，xi(k)表示文本无关声纹向量序列集的频谱，x(n)表示输入的声纹向量序列，n表示傅里叶变换的点数，e表示无限不循环小数。

所述计算所述频谱的功率谱的方法包括：

其中，pi(k)表示功率谱。

所述离散余弦变换包括：

其中，ci(k)表示mfcc，l表示mfcc的阶数，取值范围12-16，优选地，本发明取值14，pi(k)表示功率谱，m表示梅尔频率倒谱的序列数，m表示三角滤波器个数。

s6、基于在文本无关声纹识别场景中接收用户的声纹语音内容，根据所述用户的声纹语音内容提取所述用户的梅尔频率倒谱系数，并根据上述的梅尔频率倒谱系数集识别出所述用户的身份信息。

本发明较佳实施例中，所述文本无关识别场景包括：课堂签到场景，图书馆借阅场景等。其中，在所述课堂签到场景中，在教室中每个座位预设签到二维码，学生可以通过校园小程序或者手机app登录后扫码进行声纹录入跳转，此时学生的个人信息就建立了一个二维立体视图，即对应位置对应人，可以用于统计课堂满座率，学生未到率等；在所述图书馆借阅场景中，在每本图书设置借阅二维码，同样，学生可以通过小程序或手机app登陆扫码，并进行声纹录入识别，根据匹配结果确认图书的归属人，将图书借阅状态划拨于该同学名下，并进行出门警报解禁，于是，所述学生可以携带借阅的图书直接离开图书馆。

较佳地，本发明中所述用户为s用户，根据上述s5中的mfcc的提取，得到所述s用户的mfcc，通过高斯混合模型计算出所述s用户的mfcc后验概率，并将所述后验概率最大的对应用户作为目标用户，其中，所述后验概率指的是接收端在收到某个消息之后，所述接收端所了解到的所述消息发送的概率。

进一步地，所述高斯混合模型包括：

其中，表示用户的后验概率，t表示mfcc的序列长度，m表示高斯混合模型的成分个数，ωk表示高斯混合模型的混合权重，取值范围在0-1之间，较佳地，本发明中，所述m取值为16，ωk取值为0.7，μk取值为0.98。

发明还提供一种身份识别装置。参照图2所示，为本发明一实施例提供的身份识别装置的内部结构示意图。

在本实施例中，所述身份识别装置1可以是pc(personalcomputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该身份识别装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是身份识别装置1的内部存储单元，例如该身份识别装置1的硬盘。存储器11在另一些实施例中也可以是身份识别装置1的外部存储设备，例如身份识别装置1上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，存储器11还可以既包括身份识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于身份识别装置1的应用软件及各类数据，例如身份识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行身份识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(display)、输入单元比如键盘(keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在身份识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及身份识别程序01的身份识别装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对身份识别装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有身份识别程序01；处理器12执行存储器11中存储的身份识别程序01时实现如下步骤：

步骤一、收集声纹样本集，建立声纹库，其中，所述声纹库包括文本相关声纹集和文本无关声纹集。

步骤二、对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，其中，所述声纹向量序列集包括文本相关声纹向量序列集和文本无关声纹向量序列集。

所述通过预设的声纹帧长可以为：0-0.5倍帧长。

其中，ω(n)表示汉明窗中第n个窗函数，n表示窗长。

步骤三、将所述文本相关声纹向量序列集进行压缩处理，得到声纹码本集。

步骤四、基于在文本相关声纹识别场景中接收用户的声纹语音内容，计算所述声纹语音内容与所述声纹码本的欧式距离，根据所述欧式距离识别出所述用户的身份信息。

其中，x表示用户的声纹语音内容，y表示声纹码本集中的声纹码本，xi用户的第i声纹语音内容，yi表示声纹码本集中的第i个声纹码本。

步骤五、对所述文本无关声纹向量序列集提取梅尔频率倒谱系数集。

本发明较佳实施例中，所述梅尔频率倒谱系数(mel-scalefrequencycepstralcoefficients，mfcc)是一种描述说话人产生声音的声道形状。

其中，所述傅里叶变换包括：

其中，xi(k)表示文本无关声纹向量序列集的频谱，x(n)表示输入的声纹向量序列，n表示傅里叶变换的点数，e表示无限不循环小数。

所述计算所述频谱的功率谱的方法包括：

其中，pi(k)表示功率谱。

所述离散余弦变换包括：

其中，ci(k)表示mfcc，l表示mfcc的阶数，取值范围12-16，优选地，本发明取值14，pi(k)表示功率谱，m表示梅尔频率倒谱的序列数，m表示三角滤波器个数。

步骤六、基于在文本无关声纹识别场景中接收用户的声纹语音内容，根据所述用户的声纹语音内容提取所述用户的梅尔频率倒谱系数，并根据上述的梅尔频率倒谱系数集识别出所述用户的身份信息。

进一步地，所述高斯混合模型包括：

可选地，在其他实施例中，身份识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述身份识别程序在身份识别装置中的执行过程。

例如，参照图3所示，为本发明身份识别装置一实施例中的身份识别程序的程序模块示意图，该实施例中，所述身份识别程序可以被分割为声纹预处理模块10、计算识别模块20、提取识别模块30，示例性地：

所述声纹预处理模块10用于：收集声纹样本集，建立声纹库，其中，所述声纹库包括文本相关声纹集和文本无关声纹集；对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，其中，所述声纹向量序列集包括文本相关声纹向量序列集和文本无关声纹向量序列集。

所述计算识别模块20用于：将所述文本相关声纹向量序列集进行压缩处理，得到声纹码本集；基于在文本相关声纹识别场景中接收用户的声纹语音内容，计算所述声纹语音内容与所述声纹码本集的欧式距离，根据所述欧式距离识别出所述用户的身份信息。

所述提取识别模块30用于：对所述文本无关声纹向量序列集提取梅尔频率倒谱系数集；基于在文本无关声纹识别场景中接收用户的声纹语音内容，根据所述用户的声纹语音内容提取所述用户的梅尔频率倒谱系数，并根据上述的梅尔频率倒谱系数集识别出所述用户的身份信息。

上述声纹预处理模块10、计算识别模块20、提取识别模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有身份识别程序，所述身份识别程序可被一个或多个处理器执行，以实现如下操作：

收集声纹样本集，建立声纹库，其中，所述声纹库包括文本相关声纹集和文本无关声纹集；

对所述声纹库中的声纹进行预处理操作，得到声纹向量序列集，其中，所述声纹向量序列集包括文本相关声纹向量序列集和文本无关声纹向量序列集；

将所述文本相关声纹向量序列集进行压缩处理，得到声纹码本集；

对所述文本无关声纹向量序列集提取梅尔频率倒谱系数集；

本发明计算机可读存储介质具体实施方式与上述身份识别装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯惠华
技术所有人：平安科技(深圳)有限公司
我是此专利的发明人

上一篇：一种基于自注意力和迁移学习的声纹识别方法与流程
上一篇：一种单晶硅片的清洗烘干装置的制作方法