声纹注册方法、系统及计算机可读存储介质与流程

文档序号：19998723发布日期：2020-02-22 02:59阅读：241来源：国知局

本发明涉及通信技术领域，尤其涉及声纹注册方法、系统及计算机可读存储介质。

背景技术：

目前，通过声纹作为密码以进行登录验证网站登录系统越来越多，具体地，声纹注册时系统会提示一定长度的字符串，用户需要朗诵字符串若干遍才能完成声纹的注册；登陆的时候，系统会提示系统的字符串，用户朗诵一遍，如果声纹验证一致，则认为是用户本人，予以通过，否则不通过。但是，在声纹注册中，如果存在大量的环境噪音或者存在多人进行语音录入时，必定会影响注册语音的质量，而低质量语音影响后续验证，进而影响声纹识别的可用性。

技术实现要素：

本发明的主要目的在于提出一种声纹注册方法、系统及计算机可读存储介质，旨在解决声纹注册环境影响声纹注册的技术问题，提高声纹识别的准确率。

为实现上述目的，本发明提供一种声纹注册方法，所述方法包括如下步骤：

接收客户端发送的注册语音数据；

将所述注册语音数据平均分割成整数份语音；

分别计算所述整数份语音中每一份语音的特征语音向量；

将每一份所述语音的特征语音向量进行两两对比打分，筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量；

在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行语音注册。

可选地，所述接收客户端发送的注册语音数据的步骤之前，包括：

接收客户端发送的语音注册请求，所述语音注册请求携带有注册标识；

基于所述注册标识进入语音注册流程，依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音，以使所述客户端依序播放所述引导录音；

接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据。

可选地，所述分别计算所述整数份语音中每一份语音的特征语音向量的步骤，包括：

分别提取所述整数份语音中每一份语音的语音特征；

采用简化模型算法简化处理所述语音特征，获取简化语音特征；

采用最大期望算法迭代所述语音特征，获取总体变化空间；

将所述简化语音特征投影到所述总体变化空间，以获取每一份语音对应的特征语音向量。

可选地，所述分别提取所述整数份语音中每一份语音的语音特征的步骤，包括：

对所述整数份语音中每一份语音特征进行预处理，获取预处理语音数据；

对所述预处理语音数据作快速傅里叶变换，获取每一份所述语音的频谱，并根据所述频谱获取每一份所述语音的功率谱；

采用梅尔刻度滤波器组处理每一份所述语音的功率谱，获取每一份所述语音的梅尔功率谱；

在所述梅尔功率谱上对每一份所述语音进行倒谱分析，得到语音特征。

可选地，所述采用简化模型算法简化处理所述语音特征，获取简化语音特征的步骤，包括：

采用高斯滤波器处理所述语音特征，获取对应的二维正态分布；

采用简化模型算法简化所述二维正态分布，获取简化语音特征。

可选地，所述采用最大期望算法迭代所述语音特征，获取总体变化空间的步骤，包括：

采用通用背景模型对所述简化语音特征进行训练，并采用最大期望算法迭代收敛，获取目标背景模型；

获取所述目标背景模型的高维充分统计量；

采用期望最大化算法对所述高维充分统计量进行迭代，获取总体变化空间。

可选地，所述将所述简化语音特征投影到所述总体变化空间，以获取每一份语音对应的特征语音向量的步骤，包括：

基于简化语音特征和目标背景模型，采用均值自适应方法获取高斯混合通用背景模型；

根据高斯混合通用背景模型、总体变化空间获取每一份语音对应的特征语音向量。

可选地，所述接收客户端发送的注册语音数据的步骤之后，包括：

将接收到的所述注册语音数据进行去噪处理。

此外，为实现上述目的，本发明还提供一种声纹注册系统，所述系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹注册程序，所述声纹注册程序被所述处理器执行时实现如上所述的声纹注册方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹注册程序，所述声纹注册程序被处理器执行时实现如上所述的声纹注册方法的步骤。

本发明提供了一种声纹注册方法、系统及计算机可读存储介质，接收客户端发送的注册语音数据；将所述注册语音数据平均分割成整数份语音；分别计算所述整数份语音中每一份语音的特征语音向量；将每一份所述语音的特征语音向量进行两两对比打分，筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量；在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行语音注册。通过上述方式，本发明能够降低声纹注册环境对声纹注册的影响，提高声纹识别的准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明声纹注册方法第一实施例的流程示意图；

图3为本发明声纹注册方法第二实施例的流程示意图；

图4为本发明声纹注册方法第三实施例的流程示意图；

图5为本发明声纹注册方法第四实施例的流程示意图；

图6为本发明声纹注册方法第五实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：接收客户端发送的注册语音数据；将所述注册语音数据平均分割成整数份语音；分别计算所述整数份语音中每一份语音的特征语音向量；将每一份所述语音的特征语音向量进行两两对比打分，筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量；在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行语音注册。

现有的通过声纹作为密码以进行登录验证网站登录系统越来越多，具体地，注册时系统会提示一定长度的字符串，用户需要朗诵字符串若干遍来完成注册；登陆的时候，系统会提示系统的字符串，用户朗诵一遍，如果声纹验证一致，则认为是用户本人，予以通过，否则不通过。但是，在声纹注册中，如果存在大量的环境噪音或者存在多人进行语音录入时，必定会影响注册语音的质量，而低质量语音影响后续验证，进而影响声纹识别的可用性。

本发明旨在解决声纹注册环境影响声纹注册的技术问题，提高声纹识别的准确率。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是pc，也可以是智能手机、平板电脑等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

优选地，终端还可以包括摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wifi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及声纹注册程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的声纹注册程序，并执行以下操作：

接收客户端发送的注册语音数据；

将所述注册语音数据平均分割成整数份语音；

分别计算所述整数份语音中每一份语音的特征语音向量；

将每一份所述语音的特征语音向量进行两两对比打分，筛选出两两打分后比较的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量；

在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行语音注册。