声纹识别算法评估方法、系统、移动终端及存储介质与流程

文档序号:21354176发布日期:2020-07-04 04:20阅读:250来源:国知局
声纹识别算法评估方法、系统、移动终端及存储介质与流程

本发明属于声纹识别技术领域,尤其涉及一种声纹识别算法评估方法、系统、移动终端及存储介质。



背景技术:

每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。

现有的声纹识别过程中均是基于声纹识别算法以达到对声纹识别的效果,因此,为保障声纹识别的准确性,针对声纹识别算法的性能评估就尤为重要。但现有的声纹识别算法评估过程中,仅基于声纹识别算法的识别率以评估算法的性能,无法体现声纹识别算法在不同应用场景下的识别效果,使得不同应用场景下的声纹识别算法的选择容易出现误判,降低了声纹识别算法评估的准确性。



技术实现要素:

本发明实施例的目的在于提供一种声纹识别算法评估方法、系统、移动终端及存储介质,旨在解决现有的声纹识别算法评估过程中,由于无法体现声纹识别算法在不同应用场景下的识别效果所导致的评估准确性低下的问题。

本发明实施例是这样实现的,一种声纹识别算法评估方法,所述方法包括:

获取情绪样本声纹的声纹主频率,根据所述声纹主频率对采集到的样本声纹信号进行情绪因子分离,并根据分离后的所述样本声纹信号训练情绪分类器;

获取真假音声纹样本训练假音分类器,并获取声纹测试样本进行频率提取,以得到幅频信息;

根据所述幅频信息计算所述声纹测试样本的音量比,并将所述音量比与对应所述声纹测试样本进行存储,以得到音量比数据库;

控制待测试声纹识别算法对所述声纹测试样本对进行测试,并控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估,以得到评估结果。

更进一步的,所述获取情绪样本声纹的声纹主频率的步骤包括:

构建发声滤波器,并根据所述发声滤波器对所述情绪样本声纹进行滤波处理;

获取所述情绪样本声纹的频谱峰值,并根据所述频谱峰值查询所述声纹主频率。

更进一步的,所述获取真假音声纹样本训练假音分类器的步骤包括:

获取采集对象在正常发音状态下和假音发音状态下的发音声纹样本,并对所述发音声纹样本进行真假音标记,以得到所述真假音声纹样本;

构建所述假音分类器,并根据所述真假音声纹样本对所述假音分类器进行训练。

更进一步的,所述根据所述幅频信息计算所述声纹测试样本的音量比的步骤包括:

计算所述幅频信息中的幅频值与短时声纹信号的0频幅频之间的比值,以得到所述音量比。

更进一步的,所述控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估的步骤包括:

控制所述情绪分类器对所述失败的样本进行情绪分类,并根据情绪分类结果计算各个情绪场景所对应的失败数量;

控制所述假音分类器对所述失败的样本进行真假音分类,并根据真假音分类结果分别计算真实音和虚假音所对应的失败数量;

控制所述音量比数据库对所述失败的样本进行音量分类,并根据音量分类结果计算各个音量段范围所对应的失败数量。

更进一步的,所述控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估的步骤还包括:

当判断到任一所述情绪场景所对应的失败数量大于第一预设数量时,则判定所述待测试声纹识别算法对所述情绪场景对应的情绪状态下的声纹识别不合格;

当判断到所述真实音所对应的失败数量大于第二预设数量时,则判定所述待测试声纹识别算法对正常发音状态下的声纹识别不合格;

当判断到所述虚假音所对应的失败数量大于第三预设数量时,则判定所述待测试声纹识别算法对假音发音状态下的声纹识别不合格;

当判断到任一所述音量段范围所对应的失败数量大于第四预设数量时,则判定所述待测试声纹识别算法对所述音量段范围内的声纹识别不合格。

更进一步的,所述方法还包括:

根据各个所述情绪场景所对应的失败数量以绘制情绪状态评估曲线,所述情绪状态评估曲线的横坐标为所述情绪场景,纵坐标为所述情绪场景对应的失败数量,所述情绪场景包括正常情绪、大笑情绪、伤心情绪和沮丧情绪;

根据所述真实音和所述虚假音所对应的失败数量以绘制真假音评估曲线;

根据各个所述音量段范围所对应的失败数量以绘制音量段评估曲线。

本发明实施例的另一目的在于提供一种声纹识别算法评估系统,所述系统包括:

情绪分类器训练模块,用于获取情绪样本声纹的声纹主频率,根据所述声纹主频率对采集到的样本声纹信号进行情绪因子分离,并根据分离后的所述样本声纹信号训练情绪分类器;

假音分类器训练模块,用于获取真假音声纹样本训练假音分类器,并获取声纹测试样本进行频率提取,以得到幅频信息;

音量比计算模块,用于根据所述幅频信息计算所述声纹测试样本的音量比,并将所述音量比与对应所述声纹测试样本进行存储,以得到音量比数据库;

算法评估模块,用于控制待测试声纹识别算法对所述声纹测试样本对进行测试,并控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估,以得到评估结果。

本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别算法评估方法。

本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的声纹识别算法评估方法的步骤。

本发明实施例能有效的从情绪、真假音和音量三个场景角度对声纹识别算法进行评估,以评估声纹识别算法在不同应用场景下的识别效果,有效的提高了不同应用场景下声纹识别算法的选择,提高了声纹识别的效率。

附图说明

图1是本发明第一实施例提供的声纹识别算法评估方法的流程图;

图2是本发明第二实施例提供的声纹识别算法评估方法的流程图;

图3是本发明第三实施例提供的声纹识别算法评估系统的结构示意图;

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

实施例一

请参阅图1,是本发明第一实施例提供的声纹识别算法评估方法的流程图,包括步骤:

步骤s10,获取情绪样本声纹的声纹主频率,并根据所述声纹主频率对采集到的样本声纹信号进行情绪因子分离;

其中,该情绪样本声纹为典型情绪声纹,例如采集对象处于大笑状态、正常状态、沮丧状态、伤心状态时所发出的声纹,优选的,该声纹主频率为对应情绪样本声纹所携带的特征频率,不同所述情绪样本声纹中声纹主频率不相同;

具体的,该步骤中,可以通过采用提取频谱峰值的方式进行该声纹主频率的获取,并通过基于该声纹主频率的获取对样本声纹信号进行声纹个性特征与情绪因子之间的分离操作;

步骤s20,根据分离后的所述样本声纹信号训练情绪分类器,并获取真假音声纹样本训练假音分类器;

其中,通过根据分离后的所述样本声纹信号对情绪分类器进行训练的设计,以使训练后的情绪分类器能针对输入的声纹信号进行情绪场景的分类;

优选的,该步骤中,通过对采集对象分别进行真实音和虚假音的采集,以获取该真假音声纹样本,并根据该真假音声纹样本对假音分类器进行训练,以使训练后的假音分类器能对输入的声纹信号进行真实音和虚假音的分类判断;

步骤s30,获取声纹测试样本进行频率提取,以得到幅频信息,并根据所述幅频信息计算所述声纹测试样本的音量比;

其中,通过根据所述幅频信息计算所述声纹测试样本的音量比的设计,以使对声纹测试样本进行音量的数值化,及当计算得到的音量比越大,则判定对应声纹信号的音量越高;

步骤s40,将所述音量比与对应所述声纹测试样本进行存储,以得到音量比数据库,并控制待测试声纹识别算法对所述声纹测试样本对进行测试;

其中,通过生成该音量比数据库的设计,以使基于与该音量比数据库的匹配能有效的查询到针对目标声纹信号的音量大小的分类判断;

具体的,所述待测试声纹识别算法可以为预先设置的任一算法,且该声纹测试样本的样本和数量均可以根据需求进行数量的设置,该步骤中,通过制待测试声纹识别算法对所述声纹测试样本对进行测试的设计,以得到该待测试声纹识别算法的声纹测试结果,并通过基于该声纹测试样本所对应的正确结果与该声纹测试结果进行对比,以得到该待测试声纹识别算法中识别失败的样本;

步骤s50,控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估,以得到评估结果;

其中,该情绪分类器用于对该失败的样本进行情绪场景的分析,该假音分类器用于对该失败的样本进行真假音的分析,该音量比数据库用于对该失败的样本进行音量大小的分析;

具体的,该步骤中,通过基于情绪分类器、假音分类器和音量比数据库对失败样本的分类评估结果,以判定该待测试声纹识别算法在不同的情绪场景、真假音场景和音量段场景内的识别效果;

例如通过基于该情绪分类器的分类评估,以评估该待测试声纹识别算法在用户处于大笑状态、正常状态、沮丧状态、或伤心状态时所发出的声纹识别效果;

例如通过基于该假音分类器的分类评估,以评估该待测试声纹识别算法在用户处于真实音或虚假音时所发出的声纹识别效果;

例如通过该音量比数据库的的分类评估,以评估该待测试声纹识别算法在用户处于真不同音量时所发出的声纹识别效果;

本实施例能有效的从情绪、真假音和音量三个场景角度对声纹识别算法进行评估,以评估声纹识别算法在不同应用场景下的识别效果,有效的提高了不同应用场景下声纹识别算法的选择,提高了声纹识别的效率。

实施例二

请参阅图2,是本发明第二实施例提供的声纹识别算法评估方法的流程图,包括步骤:

步骤s11,构建发声滤波器,并根据所述发声滤波器对情绪样本声纹进行滤波处理;

其中,通过根据所述发声滤波器对情绪样本声纹进行滤波处理的设计,以滤除该情绪样本声纹中的无效声纹,例如滤除静音声纹、噪音声纹或背景音乐声纹等,进而有效的提高了后续频谱峰值获取的准确性;

步骤s21,获取所述情绪样本声纹的频谱峰值,并根据所述频谱峰值查询所述声纹主频率;

其中,该情绪样本声纹为典型情绪声纹,例如采集对象处于大笑状态、正常状态、沮丧状态、伤心状态时所发出的声纹,优选的,该声纹主频率为对应情绪样本声纹所携带的特征频率,不同所述情绪样本声纹中声纹主频率不相同;

步骤s31,根据所述声纹主频率对采集到的样本声纹信号进行情绪因子分离,并根据分离后的所述样本声纹信号训练情绪分类器;

其中,通过根据分离后的所述样本声纹信号对情绪分类器进行训练的设计,以使训练后的情绪分类器能针对输入的声纹信号进行情绪场景的分类;

步骤s41,获取采集对象在正常发音状态下和假音发音状态下的发音声纹样本,并对所述发音声纹样本进行真假音标记,以得到所述真假音声纹样本;

其中,通过基于假音的测试数据库信息标记,采集部分声纹样本,采集对象包括正常状态下的样本以及用假音发音的声纹样本,该采集对象的数量可以根据需求进行设置,优选的,该采集对象的数量大于10人,正常样本与假音样本分别是5组以上;

步骤s51,构建所述假音分类器,并根据所述真假音声纹样本对所述假音分类器进行训练;

其中,通过根据该真假音声纹样本对假音分类器进行训练的设计,以使训练后的假音分类器能对输入的声纹信号进行真实音和虚假音的分类判断;

步骤s61,获取声纹测试样本进行频率提取,以得到幅频信息,并计算所述幅频信息中的幅频值与短时声纹信号的0频幅频之间的比值,以得到所述音量比;

其中,该音量比并不是指整体声纹信号的短时总能量,而是针对基于主频的幅频能量占平均能量的大小,该步骤中,通过根据所述幅频信息计算所述声纹测试样本的音量比的设计,以使对声纹测试样本进行音量的数值化,及当计算得到的音量比越大,则判定对应声纹信号的音量越高;

步骤s71,将所述音量比与对应所述声纹测试样本进行存储,以得到音量比数据库,并控制待测试声纹识别算法对所述声纹测试样本对进行测试;

其中,通过生成该音量比数据库的设计,以使基于与该音量比数据库的匹配能有效的查询到针对目标声纹信号的音量大小的分类判断;

具体的,所述待测试声纹识别算法可以为预先设置的任一算法,且该声纹测试样本的样本和数量均可以根据需求进行数量的设置,该步骤中,通过制待测试声纹识别算法对所述声纹测试样本对进行测试的设计,以得到该待测试声纹识别算法的声纹测试结果,并通过基于该声纹测试样本所对应的正确结果与该声纹测试结果进行对比,以得到该待测试声纹识别算法中识别失败的样本;

步骤s81,控制所述情绪分类器对所述失败的样本进行情绪分类,并根据情绪分类结果计算各个情绪场景所对应的失败数量;

其中,通过控制所述情绪分类器对所述失败的样本进行情绪分类的设计,以判定该失败的样本所对应的情绪场景状态,并通过在完成所有失败的样本情绪分类之后进行数值统计,以得到各个情绪场景所对应的失败数量;

步骤s91,当判断到任一所述情绪场景所对应的失败数量大于第一预设数量时,则判定所述待测试声纹识别算法对所述情绪场景对应的情绪状态下的声纹识别不合格;

其中,该第一预设数量可以根据需求进行设置或基于该声纹测试样本的数值进行设置,例如该第一预设数量可以为该声纹测试样本总数值的10%、11%或20%等;

优选的,该步骤中当判断到任一所述情绪场景所对应的失败数量小于或等于第一预设数量时,则判定所述待测试声纹识别算法对所述情绪场景对应的情绪状态下的声纹识别合格,即该待测试声纹识别算法在对应情绪场景下的声纹识别准确率较高;

步骤s101,控制所述假音分类器对所述失败的样本进行真假音分类,并根据真假音分类结果分别计算真实音和虚假音所对应的失败数量;

步骤s111,当判断到所述真实音所对应的失败数量大于第二预设数量时,则判定所述待测试声纹识别算法对正常发音状态下的声纹识别不合格;

可以理解的,该第二预设数量与第一预设数量的设置方式相同,也可以根据需求进行设置或基于该声纹测试样本的数值进行设置;

例如当判断到该真实音所对应的失败数量大于第二预设数量时,则判定该待测试声纹识别算法在采集对象处于真实发音的场景下的声纹识别准确率较低;

步骤s121,当判断到所述虚假音所对应的失败数量大于第三预设数量时,则判定所述待测试声纹识别算法对假音发音状态下的声纹识别不合格;

可以理解的,该第三预设数量与第一预设数量的设置方式相同,也可以根据需求进行设置或基于该声纹测试样本的数值进行设置;

例如当判断到该虚假音所对应的失败数量大于第三预设数量时,则判定该待测试声纹识别算法在采集对象处于假音发音的场景下的声纹识别准确率较低;

步骤s131,控制所述音量比数据库对所述失败的样本进行音量分类,并根据音量分类结果计算各个音量段范围所对应的失败数量;

步骤s141,当判断到任一所述音量段范围所对应的失败数量大于第四预设数量时,则判定所述待测试声纹识别算法对所述音量段范围内的声纹识别不合格;

可以理解的,该第四预设数量与第一预设数量的设置方式相同,也可以根据需求进行设置或基于该声纹测试样本的数值进行设置;

例如当判断到任一所述音量段范围所对应的失败数量大于第四预设数量时,则判定该待测试声纹识别算法在采集对象处于对应音量段发音的场景下的声纹识别准确率较低;

优选的,所述方法还包括:

根据各个所述情绪场景所对应的失败数量以绘制情绪状态评估曲线,所述情绪状态评估曲线的横坐标为所述情绪场景,纵坐标为所述情绪场景对应的失败数量,所述情绪场景包括正常情绪、大笑情绪、伤心情绪和沮丧情绪;

根据所述真实音和所述虚假音所对应的失败数量以绘制真假音评估曲线;

根据各个所述音量段范围所对应的失败数量以绘制音量段评估曲线;

其中,通过进行该情绪状态评估曲线、真假音评估曲线和音量段评估曲线的绘制设计,以使用户可以直观的查看该待测试声纹识别算法在不同应用场景下的声纹识别的准确性。

本实施例中能有效的从情绪、真假音和音量三个场景角度对声纹识别算法进行评估,以评估声纹识别算法在不同应用场景下的识别效果,有效的提高了不同应用场景下声纹识别算法的选择,提高了声纹识别的效率。

实施例三

请参阅图3,是本发明第三实施例提供的声纹识别算法评估系统100的结构示意图,包括:情绪分类器训练模块10、假音分类器训练模块11、音量比计算模块12和算法评估模块13,其中:

情绪分类器训练模块10,用于获取情绪样本声纹的声纹主频率,根据所述声纹主频率对采集到的样本声纹信号进行情绪因子分离,并根据分离后的所述样本声纹信号训练情绪分类器。

其中,所述情绪分类器训练模块10还用于:构建发声滤波器,并根据所述发声滤波器对所述情绪样本声纹进行滤波处理;获取所述情绪样本声纹的频谱峰值,并根据所述频谱峰值查询所述声纹主频率。

假音分类器训练模块11,用于获取真假音声纹样本训练假音分类器,并获取声纹测试样本进行频率提取,以得到幅频信息。

其中,所述假音分类器训练模块11还用于:获取采集对象在正常发音状态下和假音发音状态下的发音声纹样本,并对所述发音声纹样本进行真假音标记,以得到所述真假音声纹样本;构建所述假音分类器,并根据所述真假音声纹样本对所述假音分类器进行训练。

音量比计算模块12,用于根据所述幅频信息计算所述声纹测试样本的音量比,并将所述音量比与对应所述声纹测试样本进行存储,以得到音量比数据库。

其中,所述音量比计算模块12还用于:计算所述幅频信息中的幅频值与短时声纹信号的0频幅频之间的比值,以得到所述音量比。

算法评估模块13,用于控制待测试声纹识别算法对所述声纹测试样本对进行测试,并控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估,以得到评估结果。

其中,所述算法评估模块13还用于:控制所述情绪分类器对所述失败的样本进行情绪分类,并根据情绪分类结果计算各个情绪场景所对应的失败数量;

控制所述假音分类器对所述失败的样本进行真假音分类,并根据真假音分类结果分别计算真实音和虚假音所对应的失败数量;

控制所述音量比数据库对所述失败的样本进行音量分类,并根据音量分类结果计算各个音量段范围所对应的失败数量。

优选的,所述算法评估模块13还用于:当判断到任一所述情绪场景所对应的失败数量大于第一预设数量时,则判定所述待测试声纹识别算法对所述情绪场景对应的情绪状态下的声纹识别不合格;

当判断到所述真实音所对应的失败数量大于第二预设数量时,则判定所述待测试声纹识别算法对正常发音状态下的声纹识别不合格;

当判断到所述虚假音所对应的失败数量大于第三预设数量时,则判定所述待测试声纹识别算法对假音发音状态下的声纹识别不合格;

当判断到任一所述音量段范围所对应的失败数量大于第四预设数量时,则判定所述待测试声纹识别算法对所述音量段范围内的声纹识别不合格。

此外,本实施例中,所述声纹识别算法评估系统100还包括:

曲线绘制模块14,用于根据各个所述情绪场景所对应的失败数量以绘制情绪状态评估曲线,所述情绪状态评估曲线的横坐标为所述情绪场景,纵坐标为所述情绪场景对应的失败数量,所述情绪场景包括正常情绪、大笑情绪、伤心情绪和沮丧情绪;

根据所述真实音和所述虚假音所对应的失败数量以绘制真假音评估曲线;

根据各个所述音量段范围所对应的失败数量以绘制音量段评估曲线。

本实施例能有效的从情绪、真假音和音量三个场景角度对声纹识别算法进行评估,以评估声纹识别算法在不同应用场景下的识别效果,有效的提高了不同应用场景下声纹识别算法的选择,提高了声纹识别的效率。

实施例四

请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别算法评估方法。

本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:

获取情绪样本声纹的声纹主频率,根据所述声纹主频率对采集到的样本声纹信号进行情绪因子分离,并根据分离后的所述样本声纹信号训练情绪分类器;

获取真假音声纹样本训练假音分类器,并获取声纹测试样本进行频率提取,以得到幅频信息;

根据所述幅频信息计算所述声纹测试样本的音量比,并将所述音量比与对应所述声纹测试样本进行存储,以得到音量比数据库;

控制待测试声纹识别算法对所述声纹测试样本对进行测试,并控制所述情绪分类器、所述假音分类器和所述音量比数据库对所述待测试声纹识别算法中识别失败的样本进行分类评估,以得到评估结果。所述的存储介质,如:rom/ram、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。

本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的声纹识别算法评估系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的声纹识别算法评估方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声纹识别算法评估系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标声纹识别算法评估系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1