声纹注册方法、系统及计算机可读存储介质与流程

文档序号:19998723发布日期:2020-02-22 02:59阅读:241来源:国知局
声纹注册方法、系统及计算机可读存储介质与流程

本发明涉及通信技术领域,尤其涉及声纹注册方法、系统及计算机可读存储介质。



背景技术:

目前,通过声纹作为密码以进行登录验证网站登录系统越来越多,具体地,声纹注册时系统会提示一定长度的字符串,用户需要朗诵字符串若干遍才能完成声纹的注册;登陆的时候,系统会提示系统的字符串,用户朗诵一遍,如果声纹验证一致,则认为是用户本人,予以通过,否则不通过。但是,在声纹注册中,如果存在大量的环境噪音或者存在多人进行语音录入时,必定会影响注册语音的质量,而低质量语音影响后续验证,进而影响声纹识别的可用性。



技术实现要素:

本发明的主要目的在于提出一种声纹注册方法、系统及计算机可读存储介质,旨在解决声纹注册环境影响声纹注册的技术问题,提高声纹识别的准确率。

为实现上述目的,本发明提供一种声纹注册方法,所述方法包括如下步骤:

接收客户端发送的注册语音数据;

将所述注册语音数据平均分割成整数份语音;

分别计算所述整数份语音中每一份语音的特征语音向量;

将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;

在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。

可选地,所述接收客户端发送的注册语音数据的步骤之前,包括:

接收客户端发送的语音注册请求,所述语音注册请求携带有注册标识;

基于所述注册标识进入语音注册流程,依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音,以使所述客户端依序播放所述引导录音;

接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据。

可选地,所述分别计算所述整数份语音中每一份语音的特征语音向量的步骤,包括:

分别提取所述整数份语音中每一份语音的语音特征;

采用简化模型算法简化处理所述语音特征,获取简化语音特征;

采用最大期望算法迭代所述语音特征,获取总体变化空间;

将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量。

可选地,所述分别提取所述整数份语音中每一份语音的语音特征的步骤,包括:

对所述整数份语音中每一份语音特征进行预处理,获取预处理语音数据;

对所述预处理语音数据作快速傅里叶变换,获取每一份所述语音的频谱,并根据所述频谱获取每一份所述语音的功率谱;

采用梅尔刻度滤波器组处理每一份所述语音的功率谱,获取每一份所述语音的梅尔功率谱;

在所述梅尔功率谱上对每一份所述语音进行倒谱分析,得到语音特征。

可选地,所述采用简化模型算法简化处理所述语音特征,获取简化语音特征的步骤,包括:

采用高斯滤波器处理所述语音特征,获取对应的二维正态分布;

采用简化模型算法简化所述二维正态分布,获取简化语音特征。

可选地,所述采用最大期望算法迭代所述语音特征,获取总体变化空间的步骤,包括:

采用通用背景模型对所述简化语音特征进行训练,并采用最大期望算法迭代收敛,获取目标背景模型;

获取所述目标背景模型的高维充分统计量;

采用期望最大化算法对所述高维充分统计量进行迭代,获取总体变化空间。

可选地,所述将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量的步骤,包括:

基于简化语音特征和目标背景模型,采用均值自适应方法获取高斯混合通用背景模型;

根据高斯混合通用背景模型、总体变化空间获取每一份语音对应的特征语音向量。

可选地,所述接收客户端发送的注册语音数据的步骤之后,包括:

将接收到的所述注册语音数据进行去噪处理。

此外,为实现上述目的,本发明还提供一种声纹注册系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹注册程序,所述声纹注册程序被所述处理器执行时实现如上所述的声纹注册方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹注册程序,所述声纹注册程序被处理器执行时实现如上所述的声纹注册方法的步骤。

本发明提供了一种声纹注册方法、系统及计算机可读存储介质,接收客户端发送的注册语音数据;将所述注册语音数据平均分割成整数份语音;分别计算所述整数份语音中每一份语音的特征语音向量;将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。通过上述方式,本发明能够降低声纹注册环境对声纹注册的影响,提高声纹识别的准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明声纹注册方法第一实施例的流程示意图;

图3为本发明声纹注册方法第二实施例的流程示意图;

图4为本发明声纹注册方法第三实施例的流程示意图;

图5为本发明声纹注册方法第四实施例的流程示意图;

图6为本发明声纹注册方法第五实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:接收客户端发送的注册语音数据;将所述注册语音数据平均分割成整数份语音;分别计算所述整数份语音中每一份语音的特征语音向量;将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。

现有的通过声纹作为密码以进行登录验证网站登录系统越来越多,具体地,注册时系统会提示一定长度的字符串,用户需要朗诵字符串若干遍来完成注册;登陆的时候,系统会提示系统的字符串,用户朗诵一遍,如果声纹验证一致,则认为是用户本人,予以通过,否则不通过。但是,在声纹注册中,如果存在大量的环境噪音或者存在多人进行语音录入时,必定会影响注册语音的质量,而低质量语音影响后续验证,进而影响声纹识别的可用性。

本发明旨在解决声纹注册环境影响声纹注册的技术问题,提高声纹识别的准确率。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是pc,也可以是智能手机、平板电脑等具有显示功能的可移动式终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

优选地,终端还可以包括摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及声纹注册程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的声纹注册程序,并执行以下操作:

接收客户端发送的注册语音数据;

将所述注册语音数据平均分割成整数份语音;

分别计算所述整数份语音中每一份语音的特征语音向量;

将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;

在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

接收客户端发送的语音注册请求,所述语音注册请求携带有注册标识;

基于所述注册标识进入语音注册流程,依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音,以使所述客户端依序播放所述引导录音;

接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

分别提取所述整数份语音中每一份语音的语音特征;

采用简化模型算法简化处理所述语音特征,获取简化语音特征;

采用最大期望算法迭代所述语音特征,获取总体变化空间;

将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

对所述整数份语音中每一份语音特征进行预处理,获取预处理语音数据;

对所述预处理语音数据作快速傅里叶变换,获取每一份所述语音的频谱,并根据所述频谱获取每一份所述语音的功率谱;

采用梅尔刻度滤波器组处理每一份所述语音的功率谱,获取每一份所述语音的梅尔功率谱;

在所述梅尔功率谱上对每一份所述语音进行倒谱分析,得到语音特征。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

采用高斯滤波器处理所述语音特征,获取对应的二维正态分布;

采用简化模型算法简化所述二维正态分布,获取简化语音特征。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

采用通用背景模型对所述简化语音特征进行训练,并采用最大期望算法迭代收敛,获取目标背景模型;

获取所述目标背景模型的高维充分统计量;

采用期望最大化算法对所述高维充分统计量进行迭代,获取总体变化空间。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

基于简化语音特征和目标背景模型,采用均值自适应方法获取高斯混合通用背景模型;

根据高斯混合通用背景模型、总体变化空间获取每一份语音对应的特征语音向量。

进一步地,处理器1001可以调用存储器1005中存储的声纹注册程序,还执行以下操作:

将接收到的所述注册语音数据进行去噪处理。

基于上述硬件结构,提出本发明声纹注册方法实施例。

本发明声纹注册方法。

参照图2,图2为本发明声纹注册方法第一实施例的流程示意图。

本发明实施例中,该声纹注册方法应用于声纹注册系统,所述方法包括:

步骤s100,接收客户端发送的注册语音数据;

在本实施例中,当用户需要注册声纹时,需要通过客户端向声纹注册系统发送注册语音数据,其中,客户端,可以是手机、便携式电脑、银行支付终端等。当用户需要通过语音注册声纹时,用户可以在客户端点击声纹注册系统中的声纹注册按钮,然后录入用户的注册语音数据。

步骤s100接收客户端发送的注册语音数据之后,可以包括:

步骤a,将接收到的所述注册语音数据进行去噪处理。

在本实施例中,声纹注册系统计算注册语音数据的优化参数,所述优化参数包括:指向性参数和白噪声增益,指向性参数是指期望信号相对于全向噪声的输入信噪比和麦克风的输入信噪比的比值,白噪声增益是指所述多个麦克风输出信噪比与输入性噪比的比值;根据优化参数对待识别声音信号进行优化,得到去噪后的语音信号。

在实际应用中,考虑到注册语音数据为宽带信号,对于不同频点需要分别处理,所以需要将麦克风收集到的训练声音信号转化为待识别频域信号。终端计算待识别频域信号的优化参数,优化参数包括:指向性参数和白噪声增益,指向性参数是指期望信号相对于全向噪声的输入信噪比和麦克风的输入信噪比的比值,白噪声增益是指多个麦克风输出信噪比与输入性噪比的比值;根据优化参数对待识别声音频域信号进行优化,得到去噪后的注册语音数据。

步骤s200,将所述注册语音数据平均分割成整数份语音;

在本实施例中,声纹注册系统在客户端发送注册语音数据之后,声纹注册系统将注册语音数据平均分割成整数份语音,以便于对注册语音数据进行验证和处理。其中,可以将注册语音数据平均分割成10份语音数据,可以删除一些有干扰的语音数据,一次录入语音就可以完成用户声纹的注册。其中,也可以将注册语音数据平均纷纷成20份、25份或者30份,本发明并不限于将注册语音数据平均分割成10份语音,技术人员可以根据实际需要进行分割。

步骤s300,分别计算所述整数份语音中每一份语音的特征语音向量;

在本实施例中,声纹注册系统通过简化模型算法简化处理整份语音中每一份语音,得到简化语音特征,再将简化语音特征投影到总体变化空间后,可得到更为纯净和简单的特征语音向量。

步骤s400,将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;

在本实施例中,通过信道补偿算法,获取每一份语音的特征语音向量的频率和信道属性,对频率除以信道属性值的值取对数,然后分别对每一份所述语音对应的取对数后数值进行比较。当两两比较的语音的特征语音向量通过计算对数似然比,比较特征语音向量计算后的对数值之间的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量。例如当10份语音的特征语音向量计算后的对数数值为9、9.2、9.1、9.2、9.1、9.2、9.1、9.2、9.2和9.6时,则删除对数数值为9.6对应的特征语音向量(即为筛选特征语音向量)。

步骤s500,在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。

在本实施例中,在注册语音数据中删除筛选特征语音向量对应的整数份语音,生成注册语音,声纹注册系统对注册语音进行声纹注册。

本实施例通过上述方案,接收客户端发送的注册语音数据;将所述注册语音数据平均分割成整数份语音;分别计算所述整数份语音中每一份语音的特征语音向量;将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。由此,降低了声纹注册环境对声纹注册的影响,提高了声纹识别的准确率。

进一步地,参照图3,图3为本发明方法声纹注册第二实施例的流程示意图。基于上述图2所示的实施例,步骤s100接收客户端发送的注册语音数据之前,可以包括:

步骤s600,接收客户端发送的语音注册请求,所述语音注册请求携带有注册标识;

在本实施例中,语音注册请求是指用户通过客户端向服务器发送的用于在声纹注册系统通过语音方式进行身份注册的请求。注册标识是用于识别该语音注册请求为身份注册的标识。声纹注册系统可以预先设置特定的注册标识,以便后续在进行语音注册时,在识别到语音注册请求携带有该注册标识,使得声纹注册系统可以连接该语音注册请求的功能需求,进入语音注册流程。

步骤s700,基于所述注册标识进入语音注册流程,依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音,以使所述客户端依序播放所述引导录音;

在本实施例中,服务器在进入语音注册流程时,可控制客户端进入语音注册界面,在语音注册界面上可以显示需要用户提供的身份信息字段和与该身份信息字段对应的输入框和录音案件,该身份信息字段包括但不限于姓名、账号、手机、身份证号、地址、安全问题及答案等。用户可以通过该输入框采用书写方式输入相应的身份信息,也可以通过录音案件选择语音方式相应的身份信息,选择方式灵活多样,以应用不同用户的需求;其中,该身份信息字段处理可以用文字形式显示在客户端的语音注册流程上,还可以用于语音导航引导方式播放相应的引导录音,以使实例较弱或者书写困难的用户可以根据该引导录音完成用户身份注册操作。

步骤s800,接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据。

客户端的语音注册界面中每一身份信息字段对应的录音按键与一个录音标识管理,以使得用户点击任意录音按键进行录音时,所采集到的注册语音数据对应的数据标识与该录音标识相关,以便声纹注册系统根据该录音标识确定其对应的引导录音,以将引导录音时,可以对客户端的注册语音界面上相应的滤液案件进行突出显示处理,以使得用户点击该显示处理之后的录音按键,从而基于引导录音的问题进行语音回复,以获取相对应的注册语音数据。

本实施例通过上述方案,接收客户端发送的语音注册请求,所述语音注册请求携带有注册标识;基于所述注册标识进入语音注册流程,依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音,以使所述客户端依序播放所述引导录音;接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据;接收客户端发送的注册语音数据;将所述注册语音数据平均分割成整数份语音;分别计算所述整数份语音中每一份语音的特征语音向量;将每一份所述语音的特征语音向量进行两两对比打分,筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量;在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行语音注册。由此,降低了声纹注册环境对声纹注册的影响,提高了声纹识别的准确率。

进一步地,参照图4,图4为本发明方法声纹注册第三实施例的流程示意图。基于上述图2所示的实施例,步骤s300分别计算所述整数份语音中每一份语音的特征语音向量,可以包括:

步骤s310,分别提取所述整数份语音中每一份语音的语音特征;

在本实施例中,声纹注册系统分别提取整数份语音中每一份语音的语音特征;语音特征是代表语音注册人区别于他人的语音特征,具体是指对语音特征数据进行特征提取后获取的语音特征;声纹注册提供通过提取语音注册人对应的语音认证可以用于提取多人语音特征。在语音注册人注册时周围环境中有噪音或者有其他人说话,声纹注册系统可以见注册语音数据中的多人语音特征都提取出来,然后再通过声纹注册系统进行识别。

步骤s320,采用简化模型算法简化处理所述语音特征,获取简化语音特征;

在本实施例中,声纹注册系统采用简化模型算法简化处理予以特征,获取简化语音特征;其中,将会模型算法是指高斯模糊处理算法,用于降低语音文件的声音噪声和细节层次。简化模型算法简化处理选了语音特征具体的步骤可以先获取语音特征的二维正态分布,在模糊二维正态分布的所有音素,以获取更纯净的简化语音特征;简化语音特征很大程度上体现了语音特征的特性。

步骤s320采用简化模型算法简化处理所述语音特征,获取简化语音特征,可以包括:

步骤b,采用高斯滤波器处理所述语音特征,获取对应的二维正态分布;

步骤b,采用简化模型算法简化所述二维正态分布,获取简化语音特征。

在本实施例中,高斯滤波器处理语音特征的过程具体为对语音特征进行加权平均的过程,以语音特征中的音素为例,每一个音素的值,都由其本身和邻域内的其他音素值经过加权平均后得到。识别服务器通过简化模型算法可获取训练语音特征对应的二维正态分布的简化语音特征,可进一步降低训练语音特征的语音细节,简化语音特征。

步骤s330,采用最大期望算法迭代所述语音特征,获取总体变化空间;

在本实施例中,声纹注册系统采用最大期望算法迭代语音特征,声纹注册系统得到语音特征的总体变化空间;其中,总体变化空间是直接设置的一个全局变化的映射矩阵,用户保护语音数据中声纹注册人所用可能的信息,在空间内部分开说话人空间和信道空间;总体变化空间可以将高维的超矢量映射到可以作为低维说话人表征的特征语音向量。

步骤s340,将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量。

在本实施例中,声纹注册系统将简化语音特征投影到总体变化空间,获取每一份语音对应的特征语音向量。

步骤s340将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量,可以包括:

步骤b,基于简化语音特征和目标背景模型,采用均值自适应方法获取高斯混合通用背景模型;

步骤b,根据高斯混合通用背景模型、总体变化空间获取每一份语音对应的特征语音向量。

基于目标背景模型,声纹注册系统采用均值自适应方法来自适应训练语音特征的背景模型,以更新背景模型中每个高斯分量的均值矢量。声纹注册系统根据高斯混合通用背景模型、总体变化空间获取每一份语音对应的特征语音向量。

本实施例通过上述方案,分别提取所述整数份语音中每一份语音的语音特征;采用简化模型算法简化处理所述语音特征,获取简化语音特征;采用最大期望算法迭代所述语音特征,获取总体变化空间;将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量。由此,降低了声纹注册环境对声纹注册的影响,提高了声纹识别的准确率。

进一步地,参照图5,图5为本发明方法声纹注册第四实施例的流程示意图。基于上述图4所示的实施例,步骤s310可以包括:

步骤s311,对所述整数份语音中每一份语音特征进行预处理,获取预处理语音数据;

在本实施例中,声纹注册系统对整数份语音中每一份语音特征进行预处理,并获取相对应的预处理语音数据;对语音数据进行预处理能够更好地提取语音数据的语音特征,是的提取出的语音特征更能代表语音数据,以使得采用该语音特征预处理得到的特征语音向量的识别准确率更高。

步骤s312,对所述预处理语音数据作快速傅里叶变换,获取每一份所述语音的频谱,并根据所述频谱获取每一份所述语音的功率谱;

在本实施例中,声纹注册系统对预处理语音数据进行快速傅里叶变换,以将预处理语音数据从时域上的信号幅度转换为频域上的信号幅度;再根据该频域上的信号幅度获取语音数据的功率谱,为供语音数据的功率谱总提取语音特征提供重要的技术基础。

步骤s313,采用梅尔刻度滤波器组处理每一份所述语音的功率谱,获取每一份所述语音的梅尔功率谱;

在本实施例中,采用梅尔刻度滤波器组的处理每一份语音的功率谱,获取语音数据的梅尔功率谱,通过对训练语音数据的功率谱进行梅尔频率分析,是的其分析后获取的梅尔功率谱保留着与人耳特性密切相关的频率部分,该频率部分能够很好地反映出语音数据的特征。

步骤s314,在所述梅尔功率谱上对每一份所述语音进行倒谱分析,得到语音特征。

在本实施例中,对梅尔功率谱进行倒谱分析,根据倒谱分析的结果,分析并获取每一份语音的梅尔频率倒谱系数,通过该倒谱分析,可以将原本特征维数过高,难以直接使用的语音数据的梅尔功率谱中包含的特征,通过在梅尔功率谱上进行倒谱分析,转换成易于使用的特征。

本实施例通过上述方案,对所述整数份语音中每一份语音特征进行预处理,获取预处理语音数据;对所述预处理语音数据作快速傅里叶变换,获取每一份所述语音的频谱,并根据所述频谱获取每一份所述语音的功率谱;采用梅尔刻度滤波器组处理每一份所述语音的功率谱,获取每一份所述语音的梅尔功率谱;在所述梅尔功率谱上对每一份所述语音进行倒谱分析,得到语音特征;采用简化模型算法简化处理所述语音特征,获取简化语音特征;采用最大期望算法迭代所述语音特征,获取总体变化空间;将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量。由此,降低了声纹注册环境对声纹注册的影响,提高了声纹识别的准确率。

进一步地,参照图6,图6为本发明方法声纹注册第五实施例的流程示意图。基于上述图4所示的实施例,步骤s330采用最大期望算法迭代所述语音特征,获取总体变化空间,可以包括:

步骤s331,采用通用背景模型对所述简化语音特征进行训练,并采用最大期望算法迭代收敛,获取目标背景模型;

在本实施例中,采用通用背景模型对简化语音特征进行训练,并通过最大期望算法简化语音特征进行训练,可以从通过背景模型开始,利用最大似然准则,迭代地训练出目标背景模型。

步骤s332,获取所述目标背景模型的高维充分统计量;

具体地,在获取总体变化空间的估计过程中,由于高斯混合模型均值超矢量是通过计算简化语音特征相对于目标背景模型均值超矢量的零阶充分统计量、一阶充分统计计算和二阶充分统计量得到的。

步骤s333,采用期望最大化算法对所述高维充分统计量进行迭代,获取总体变化空间。

在本实施例中,总体变化空间可采用期望最大化算法对各阶充分统计量进行迭代得到的。声纹注册系统采用期望最大化算法对高维充分统计量进行跌倒,得到总体变化空间。

本实施例通过上述方案,采集不同信道下训练说话人的训练声音信号;提取所述训练声音信号中的训练梅尔倒谱系数和训练基音周期;利用所述训练梅尔倒谱系数训练生成对应所述训练说话人的合并高斯混合模型;采集待识别说话人的待识别声音信号;提取所述待识别声音信号中的待识别梅尔倒谱系数和待识别基音周期;根据动态时间规整法将所述训练基音周期和所述待识别基音周期进行匹配生成训练模板;根据所述训练模板和所述合并高斯混合模型匹配识别所述待识别梅尔倒谱系数得到声音识别结果。由此,提高了说话人的识别正确率,满足说话人识别的使用需求,满足了在不同信道环境下对说话人进行识别。

本实施例通过上述方案,分别提取所述整数份语音中每一份语音的语音特征;采用简化模型算法简化处理所述语音特征,获取简化语音特征;采用通用背景模型对所述简化语音特征进行训练,并采用最大期望算法迭代收敛,获取目标背景模型;获取所述目标背景模型的高维充分统计量;采用期望最大化算法对所述高维充分统计量进行迭代,获取总体变化空间;将所述简化语音特征投影到所述总体变化空间,以获取每一份语音对应的特征语音向量。由此,降低了声纹注册环境对声纹注册的影响,提高了声纹识别的准确率。

进一步地,参照图4,图4为本发明声纹注册方法第三实施例的流程示意图。基于上述的实施例,所述方法还可以包括:

本发明还提供一种声纹注册系统。

本发明声纹注册系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹注册程序,所述声纹注册程序被所述处理器执行时实现如上所述的声纹注册方法的步骤。

其中,在所述处理器上运行的声纹注册程序被执行时所实现的方法可参照本发明声纹注册方法各个实施例,此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有声纹注册程序,所述声纹注册程序被处理器执行时实现如上所述的声纹注册方法的步骤。

其中,在所述处理器上运行的声纹注册程序被执行时所实现的方法可参照本发明声纹注册方法各个实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1