基于声纹识别模型的声纹注册方法、终端装置及存储介质与流程

文档序号:14687768发布日期:2018-06-15 06:09阅读:226来源:国知局
本发明涉及通信
技术领域
:,尤其涉及一种基于声纹识别模型的声纹注册方法、终端装置及存储介质。
背景技术
::随着语音识别技术的不断发展,支持语音识别的应用也越来越多,比如语音开锁,语音支付等等。但在语音识别技术的应用中,其中涉及非常重要的一步就是声纹注册。在声纹注册中,如果存在大量的环境噪音或者存在多人进行语音录入时,必定会影响注册语音的质量,而低质量语音影响后续验证,进而影响声纹识别的可用性。而目前的做法主要是做噪音监测,即传统的噪音检测在进行声纹识别以前,对环境进行检测,在录入用户语音前仅录入环境音进行分析,若环境音分贝数过高则判定为环境过于嘈杂,若环境音分贝低于设定阈值,则噪音检测通过,用户可以正常注册声纹。但该噪音检测方法仅能检测环境噪音,无法识别出是否有多人进入录音,仍然影响注册语音的质量。技术实现要素:有鉴于此,本发明提出一种基于声纹识别模型的声纹注册方法、终端装置及存储介质,通过实施上述方式,可以检测出用户是否在噪音过大或多人说话的环境中进行声纹注册,避免不符合要求的录音进入声纹库(语音库),保证注册语音的质量,防止低质量语音影响后续验证,提升声纹识别的可用性。首先,为实现上述目的,本发明提出一种终端装置,所述终端装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于声纹识别模型的声纹注册程序,所述基于声纹识别模型的声纹注册程序被所述处理器执行时实现如下步骤:获取用户注册语音时的有效语音;将所述有效语音平均分割成整数份语音;分别计算所述整数份语音中每一份语音的特征语音向量;依据对所述每一份语音的特征语音向量判断每一份语音的计算结果是否属于同一个用户;及若所述每一份语音属于同一个用户,则对所述有效语音进行语音注册。可选地,所述分别计算所述整数份语音中每一份语音的特征语音向量的步骤,包括:使用MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵;及使用UBM和特征语音向量提取器筛选出所述矩阵中最核心的特征,组成所述特征语音向量。可选地,所述依据对所述每一份语音的特征语音向量的计算结果判断每一份语音是否属于同一个用户的步骤,包括:利用PLDA算法对所述每一份语音的特征语音向量进行两两对比打分;若两两打分后比较的差值小于一预设值,则判断所述每一份语音属于同一个用户。此外,为实现上述目的,本发明还提供一种基于声纹识别模型的声纹注册方法,应用于终端装置,所述方法包括:获取用户注册语音时的有效语音;将所述有效语音平均分割成整数份语音;分别计算所述整数份语音中每一份语音的特征语音向量;依据对所述每一份语音的特征语音向量判断每一份语音的计算结果是否属于同一个用户;及若所述每一份语音属于同一个用户,则对所述有效语音进行语音注册。可选地,所述将所述有效语音平均分割成整数份语音的步骤,包括:当有效语音为非文本语音时,将用户的有效语音按有效帧平均切割成整数段以获取整数份语音。可选地,所述分别计算所述整数份语音中每一份语音的特征语音向量的步骤,包括:使用MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵;及使用UBM和特征语音向量提取器筛选出所述矩阵中最核心的特征,组成所述特征语音向量。可选地,所述对依据所述每一份语音的特征语音向量的计算结果判断每一份语音是否属于同一个用户的步骤,包括:利用PLDA算法对所述每一份语音的特征语音向量进行两两对比打分;若两两打分后比较的差值小于一预设值,则判断所述每一份语音属于同一个用户。进一步地,为实现上述目的,本发明还提供一种存储介质,所述存储介质存储有基于声纹识别模型的声纹注册程序,所述基于声纹识别模型的声纹注册程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的基于声纹识别模型的声纹注册方法的步骤。相较于现有技术,本发明所提出的基于声纹识别模型的声纹注册方法、终端装置及存储介质,首先,获取用户注册语音时的有效语音;其次,将所述有效语音平均分割成整数份语音;然后,分别计算所述整数份语音中每一份语音的特征语音向量;接着,依据所述每一份语音的特征语音向量判断每一份语音是否属于同一个用户;最后,若所述每一份语音属于同一个用户,则对所述有效语音进行语音注册。这样,可以解决现有噪音检测方法仅能检测环境噪音,无法识别出是否有多人进入录音,仍然影响注册语音的质量的弊端,进而可以检测出用户是否在噪音过大或多人说话的环境中进行声纹注册,避免不符合要求的录音进入声纹库(或者语音库),保证注册语音的质量,防止低质量语音影响后续验证,提升声纹识别的可用性。附图说明图1是实现本发明各个实施例的一种终端装置的硬件结构示意图;图2是本发明实施例提供的一种通信网络系统架构图;图3是本发明基于声纹识别模型的声纹注册程序一实施例的程序模块图;图4为本发明基于声纹识别模型的声纹注册程序一实施例的流程图;本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。终端装置可以以各种形式来实施。例如,本发明中描述的终端装置可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigitalAssistant,PDA)、便捷式媒体播放器(PortableMediaPlayer,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。请参阅图1,其为实现本发明各个实施例的一种终端装置的硬件结构示意图,该终端装置100可以包括:RF(RadioFrequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的终端装置结构并不构成对终端的限定,终端装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。为了便于理解本发明实施例,下面对本发明的终端装置所基于的通信网络系统进行描述。请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(UserEquipment,用户设备)201,E-UTRAN(EvolvedUMTSTerrestrialRadioAccessNetwork,演进式UMTS陆地无线接入网)202,EPC(EvolvedPacketCore,演进式分组核心网)203和运营商的IP业务204。具体地,UE201可以是上述终端100,此处不再赘述。基于上述说明,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,同时,上述终端装置100可以为手机,个人电子助理等其他语音收集及处理的电子设备,此处不做限定。基于上述终端装置100硬件结构以及通信网络系统,提出本发明方法各个实施例。首先,本发明提出一种基于声纹识别模型的声纹注册程序300。参阅图3所示,是本发明基于声纹识别模型的声纹注册程序300第一实施例的程序模块图。本实施例中,所述的基于声纹识别模型的声纹注册程序300包括一系列的存储于存储器109上的计算机程序指令,当该计算机程序指令被处理器110执行时,可以实现本发明各实施例的基于声纹识别模型的声纹注册操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,所述基于声纹识别模型的声纹注册程序300可以被划分为一个或多个模块。例如,在图3中,所述的基于声纹识别模型的声纹注册程序300可以被分割成获取模块301、分割模块302、计算模块303、判断模块304以及注册模块305。其中:所述获取模块301,用于获取用户注册语音时的有效语音。本实施例中,所述的基于声纹识别模型的声纹注册程序300存储于终端装置100,本实施例的终端装置100可以为具有语音识别功能的任何一个终端,比如手机,便携式电脑、个人数字助理、银行支付终端、门禁设备等等,这些设备通过语音识别技术可以去实现一些具体的功能和应用。另外,终端装置100获取用户进行语音注册时的有效语音,可以从用户点击语音录入的时候开始获取,一直到用户停止语音录入,如此可以避免一些不必要的噪音干扰,提高待处理语音样本的纯净度。所述分割模块302,用于将所述获取模块301获取的有效语音平均分割成整数份语音。具体地,所述分割模块302将用户的有效语音按有效帧平均切割成整数段以获取整数份语音。在本实施例中,所述分割模块302优选将获取的有效语音平均分割成3份语音。而在具体的实施过程中,如果用户使用文本相关注册声纹时(比如密码文本),需要重复文本三次进行注册,然后将这3次语音作为分割后的3份语音。在使用文本无关进行声纹注册时,可以直接将有效帧平均切割语音为三段。当然,本发明并不限于将有效语音平均分割成3份语音,技术人员可以根据实际需要进行分割。所述计算模块303,用于分别计算所述分割模块302分割的所述整数份语音中每一份语音的特征语音向量。本实施例中,所述计算模块303通过以下方式分别计算所述整数份语音中每一份语音的特征语音向量:使用梅尔频率倒谱系数MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵,并使用通用背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的特征,组成所述特征语音向量。其中,MFCC是Mel-FrequencyCepstralCoefficients的缩写,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度,和频率的赫兹的关系如下:m=2595log10(1+f/700),其中m代表每个梅尔刻度,而f代表着当前的声音频率。在本实施方式中,将每一份语音输入到梅尔刻度的滤波器,然后再利用梅尔刻度的滤波器对每一份语音进行等刻度的信号切分,其中得到多个频率段,并由相应频率段的数值构成一矩阵。常见的UBM(通用背景模型,UniversalBackgroundModel)有高斯混合模型(GMM)。而混合高斯模型的定义为:其中K为模型的个数;πk为第k个高斯的权重;p(x/k)则为第k个高斯概率密度,其均值为μk,方差为σk。而将上述矩阵代入此类高斯模型后,那么相应的K即等同于矩阵节点数,πk为第k个节点的权重(即第K个节点出现的次数),而均值为μk,方差为σk则为矩阵中所有节点的均值、方差,p(x/k)为第K个节点的概率。通过上述公式不难计算,矩阵中p(x/k)最大的节点通过提取器选择出来即为每一份语音的语音特征向量。进一步地,在所述计算模块303分别计算出所述整数份语音中每一份语音的特征语音向量后,所述判断模块304,用于依据所述每一份语音的特征语音向量判断每一份语音是否属于同一个用户。具体地,所述判断模块304通过以下方式判断每一份语音是否属于同一个用户的步骤:所述判断模块304将所述每一份语音的特征语音向量进行计算,即进行两两对比打分,并根据打分结果判断所述每一份语音是否属于同一个用户。例如,本实施例中,所述判断模块304利用PLDA算法对所述每一份语音的特征语音向量进行两两对比打分。具体而言,上述通过矩阵向量得出的特征语音向量,仅仅包括相应的频率数值,而通过PLDA模型,可以对相应数值进行模拟的信道补偿,进而保证上述特征语音向量具有信道属性(比如频带宽度),再通过对数似然比进行打分,即将每个特征语音向量的频率/信道属性值取对数,然后对取对数后数值进行比较。比如如果有两条测试语音,通过计算对数似然比,比较两条语音特征向量计算后的对数值之间的差值是否小于一预设值,若小于一预设值,则判定两条语音特征向量相似,即两份语音可能为同一用户。进一步地,为了排除噪音的影响,所述判断模块304在判断每一份语音是否属于同一个用户的步骤时,还用于判断每次对比打分是否高于预设值,若每次对比打分都高于预设值,判断所述每一份语音属于同一个用户。本实施例中,所述分割模块302将所述获取模块301获取的有效语音平均分割成3份,所述判断模块304两两对比三段语音的特征向量(i-vector)。对比两个i-vector时可以使用多种算法进行打分,通常PLDA算法进行打分,当这个分数的差值小于设定的阈值,则判定两个i-vector来自同一语音。若两两比对i-vector,三次对比打分差值均小于阈值,则判断该语音质量过关,可以正常进行声纹注册,若存在任意一次打分差值高于阈值,则判定该语音噪音过大,语音质量不佳,不允许进行声纹注册。所述注册模块305,用于在所述每一份语音均属于同一个用户时,对所述有效语音进行语音注册。在语音注册阶段,所述注册模块305将声纹模型存储在终端设备100上待用,从而完成了语音注册。在本实施方式中,如果上述结果是不满足每一份语音均属于同一个用户时,则不允许进行语音注册。通过上述程序模块301-305,本发明所提出的基于声纹识别模型的声纹注册程序300,首先,获取用户注册语音时的有效语音;其次,将所述有效语音平均分割成整数份语音;然后,分别计算所述整数份语音中每一份语音的特征语音向量;接着,依据所述每一份语音的特征语音向量判断每一份语音是否属于同一个用户;最后,仅在所述每一份语音属于同一个用户,对所述有效语音进行语音注册。这样,可以解决现有噪音检测方法仅能检测环境噪音,无法识别出是否有多人进入录音,仍然影响注册语音的质量的弊端,进而可以检测出用户是否在噪音过大或多人说话的环境中进行声纹注册,避免不符合要求的录音进入声纹库(语音库),保证注册语音的质量,防止低质量语音影响后续验证,提升声纹识别的可用性。此外,本发明还提出一种基于声纹识别模型的声纹注册方法。参阅图4所示,是本发明基于声纹识别模型的声纹注册方法第一实施例的实施流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。步骤S401,获取用户注册语音时的有效语音。本实施例中,所述的基于声纹识别模型的声纹注册方法,应用于终端装置100,本实施例的终端装置100可以为具有语音识别功能的任何一个终端,比如手机,便携式电脑、个人数字助理、银行支付终端、门禁设备等等,这些设备通过语音识别技术可以去实现一些具体的功能和应用。另外,终端装置100获取用户进行语音注册时的有效语音,可以从用户点击语音录入的时候开始获取,一直到用户停止语音录入,如此可以避免一些不必要的噪音干扰,提高待处理语音样本的纯净度。步骤S402,将所述有效语音平均分割成整数份语音。具体地,所述终端装置100将用户的有效语音按有效帧平均切割成整数段以获取整数份语音。在本实施例中,所述终端装置100优选地将获取的有效语音平均分割成3份语音。而在具体的实施过程中,如果用户使用文本相关注册声纹时(比如密码文本),需要重复文本三次进行注册,然后将这3次语音作为分割后的3份语音。在使用文本无关进行声纹注册时,可以直接将有效帧平均切割语音为三段。当然,本发明并不限于将有效语音平均分割成3份语音,技术人员可以根据实际需要进行分割。步骤S403,分别计算所述整数份语音中每一份语音的特征语音向量。实施例中,所述终端装置100通过以下方式分别计算所述整数份语音中每一份语音的特征语音向量:使用梅尔频率倒谱系数MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵,并使用通用背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的特征,组成所述特征语音向量。其中,MFCC是Mel-FrequencyCepstralCoefficients的缩写,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度,和频率的赫兹的关系如下:m=2595log10(1+f/700),其中m代表每个梅尔刻度,而f代表着当前的声音频率。在本实施方式中,将每一份语音输入到梅尔刻度的滤波器,然后再利用梅尔刻度的滤波器对每一份语音进行等刻度的信号切分,其中得到多个频率段,并由相应频率段的数值构成一矩阵。常见的UBM(通用背景模型,UniversalBackgroundModel)有高斯混合模型(GMM)。而混合高斯模型的定义为:其中K为模型的个数;πk为第k个高斯的权重;p(x/k)则为第k个高斯概率密度,其均值为μk,方差为σk。而将上述矩阵代入此类高斯模型后,那么相应的K即等同于矩阵节点数,πk为第k个节点的权重(即第K个节点出现的次数),而均值为μk,方差为σk则为矩阵中所有节点的均值、方差,p(x/k)为第K个节点的概率。通过上述公式不难计算,矩阵中p(x/k)最大的节点通过提取器选择出来即为每一份语音的语音特征向量。步骤S404,依据所述每一份语音的特征语音向量判断每一份语音是否属于同一个用户。当所述每一份语音属于同一个用户时,执行步骤S405,否则,结束流程。具体地,所述终端装置100通过以下方式判断每一份语音是否属于同一个用户的步骤:所述终端装置100将所述每一份语音的特征语音向量进行计算,即进行两两对比打分,并根据打分结果判断所述每一份语音是否属于同一个用户。例如,本实施例中,所述终端装置100利用PLDA算法对所述每一份语音的特征语音向量进行两两对比打分。具体而言,上述通过矩阵向量得出的特征语音向量,仅仅包括相应的频率数值,而通过PLDA模型,可以对相应数值进行模拟的信道补偿,进而保证上述特征语音向量具有信道属性(比如频带宽度),再通过对数似然比进行打分,即将每个特征语音向量的频率/信道属性值取对数,然后对取对数后数值进行比较。比如如果有两条测试语音,通过计算对数似然比,比较两条语音特征向量计算后的对数值之间的差值是否小于一预设值,若小于一预设值,则判定两条语音特征向量相似,即两份语音可能为同一用户。进一步地,为了排除噪音的影响,所述终端装置100在判断每一份语音是否属于同一个用户的步骤时,还用于判断每次对比打分的差值是否低于预设值,若每次对比打分的差值都低于预设值,判断所述每一份语音属于同一个用户。本实施例中,所述终端装置100将获取的有效语音平均分割成3份,然后两两对比三段语音的特征向量(i-vector)。对比两个i-vector时可以使用多种算法进行打分,通常PLDA算法进行打分,当这个分数超过设定的阈值,则判定两个i-vector来自同一语音。若两两比对i-vector,三次对比打分均低于阈值,则判断该语音质量过关,可以正常进行声纹注册,若存在任意一次打分差值高于阈值,则判定该语音噪音过大,语音质量不佳,不允许进行声纹注册。步骤S405,对所述有效语音进行语音注册。在语音注册阶段,所述终端装置100将声纹模型存储待用,从而完成了语音注册。当上述判断结果为非有效语音,则不予注册。通过上述步骤S401-405,本发明所提出的基于声纹识别模型的声纹注册方法,首先,获取用户注册语音时的有效语音;其次,将所述有效语音平均分割成整数份语音;然后,分别计算所述整数份语音中每一份语音的特征语音向量;接着,依据所述每一份语音的特征语音向量判断每一份语音是否属于同一个用户;最后,若所述每一份语音属于同一个用户,则对所述有效语音进行语音注册。这样,可以解决现有噪音检测方法仅能检测环境噪音,无法识别出是否有多人进入录音,仍然影响注册语音的质量的弊端,进而可以检测出用户是否在噪音过大或多人说话的环境中进行声纹注册,避免不符合要求的录音进入声纹库(语音库),保证注册语音的质量,防止低质量语音影响后续验证,提升声纹识别的可用性。本发明还提供了另一种实施方式,即提供一种存储介质,所述存储介质存储有基于声纹识别模型的声纹注册程序,所述基于声纹识别模型的声纹注册程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的基于声纹识别模型的声纹注册方法的步骤。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
:,均同理包括在本发明的专利保护范围内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1