一种声纹识别相似度评分的方法和装置的制造方法_2

文档序号：9912686阅读：来源：国知局

具体实施方式】
[0044]为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。
[0045]请参阅图1和图2，本实施例提供一种声纹识别相似度评分的方法，用于对声纹数据进行识别和匹配，可以应用于声纹识别装置。其中声纹数据包括存储的声纹数据，如存储在本地或者云端的用户的声纹数据;或者是实时采集的声纹数据，如从麦克风实时采集到的声纹数据。本发明的方法包括如下步骤:步骤SlOl将语料库中各个对象的语料子集内的音频数据训练得到对应的声音模型。语料库就是语音资料数据库，即是存储有语音资料的数据库。在某些实施例中，步骤SlOl可以不执行，只需要在语料库中存储可以被使用的声音模型即可。通过步骤SlOl可以实时对语料库新增的音频数据进行训练得到相应的声音模型。本发明中训练可以使用基于某类声纹特征(如MFCC、LPCC等)和声纹识别算法(如G丽、DTW等)的包含声音训练模块和声音匹配模块的声纹识别装置，其中，各个简写英文的含义如下:梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、线性预测倒谱系数(Linear Predict1n Cepstrum Coefficient，LPCC)、高斯混合模型(Gaussian MixtureModel，GMM)，改进动态时间弯折算法(Dynamic Time Warping，DTW)。本发明在应用到歌曲声音的实施例中，可以将一定数量歌星语料库中对应每个歌星的若干首歌曲干声音频数据训练得到与该语料库中每个歌星对应的声音模型，即每个歌星或者歌曲演唱者对应有声音模型。
[0046]上述匹配的同时可以进行步骤S102将语料库中的各个对象的语料子集内挑选若干音频数据与语料库中所有的声音模型进行匹配，得到各自的第一声纹识别得分集合{Pu
i = l，2，3，...，N，j = l，2，3，...，N}，其中Pi,j表示语料库中第i个音频数据对象与第j个声音模块对象匹配的基础声纹识别得分。在实际应用中，因为语料库中的语料是事先采集、准备好的，第一声纹识别得分集合可以先进行计算并相对持久地存储在云端或后台。只要该语料库质量和数量足够好，甚至就不会再被需要进行重新训练、计算、更新，而永久地保存着。而实际也只有非常必要时，可能会考虑给其中某个对象语料子集中增加、取消或替换某个语料，譬如某个歌星的某首歌的歌曲干声预料被发现有质量问题，替换为另一首歌曲，然后需要重新训练一个声音模型作为该歌星对象的新声音模型，同时也就需要重新计算第一声纹识别得分集合。
[0047]而后在步骤S103获取声纹数据，并将声纹数据与语料库中所有的声音模型进行匹配，得到第二声纹识别得分集合。如用户的声纹数据，可以与每个歌星的声音模型进行匹配，匹配操作同样可以使用上述的声纹识别装置。匹配后得到基础声纹识别得分集合{Pli= 1,2,3,...，N}，其中？1表示用户输入的声纹数据与第i个语料库对象匹配的基础声纹识别得分，N则是声音模型的数目总和。
[0048]而后在步骤S104根据第二声纹识别得分集合的高低顺序分配对应的第一得分系数集合’即根据化工“二^^’…”⑴中各项的排名计算得分系数仏^土二^一”…少丨’本发明中得分系数集合可以根据需要进行设定，在本实施例中，可以按照排名顺序进行分组，每组分配预设个数，而后每组的排名分配一个对应的得分系数。如对于前5名，有ai = 0.95，6-10名，有ai = 0.8，其他类似地进行设置，每个层次的系数区分度要明显即可，需要根据应用和语料库质量情况而设定。
[0049]同时还要计算第二得分系数集合，即在步骤S105根据第一声纹识别得分集合和第二声纹识别得分集合计算对应的第二得分系数集合。其中，第二得分系数集合应当要反映第一声纹识别得分与第二声纹识别得分的关联性的大小。具体在某一实施例中，可以为:根据第一声纹识别得分集合和第二声纹识别得分集合，计算语料库中每个对象的声纹识别得分集合与第二声纹识别得分集合的相关性系数，并根据相关性系数的高低顺序分配对应的第二得分系数集合;即根据{ρ」? = 1，2，3，...，Ν:^Ρ{Ρυ|? = 1，2，3，...，Ν，].= 1，2，3，...，N}计算第二得分系数集合{bi i = l ,2,3,...,N}。作为一种可选的计算方式，每个{pi I i = l，2,3,...，N}分别与每组{Pi,j| i = l，2，3，...，N，j = l，2，3，...，N}计算互相关系数然后求平均，即得到{bi i = l ,2,3,...,N}。具体地，bi = xcorr(p，Pi)，xcorr表示计算两个序列的互相关系数。？={?」」=1，2，人，《，表示的是用户的声纹数据匹配语料库模型后得到的第二声纹识别得分集合，Pi= {Pi, j j = 1,2, Λ，Ν}，表示的是语料库中每个对象与语料库中所有对象的声纹得分集合，所有的?工即组成所述的第二声纹识别结合。
[0050]第一得分系数和第二得分系数计算出来后，进入步骤S106根据第一得分系数集合、第二得分系数集合和二者对应的得分权重算出最终得分集合。其中，第一得分系数集合、第二得分系数集合二者对应的得分权重可以根据实际需要设定，从而保证结果正确可靠并且区分度高，例如对于同一演唱者多次演唱相同或不同歌曲的情况，使得结果趋于稳定，不容易出现每次测试结果不同的情况。如两个权重分别为50，则最终声纹识别得分集合Ci = BiX 50+bi X 50，当然这个权重可以根据需要设置成不同的值。[0051 ]其中，设置第一得分系数的优点:现在技术中，声纹识别技术描述的声纹识别方法或应用，最终的相似度得分即为本发明中提到的第二声纹识别得分集合中的最高分，本发明在此现有技术的基础上将第二声纹识别得分集合进行排名并按排名分段配置得分系数，最终与第二得分权重(〈 = 100分)相乘得到最终得分的一部分，从而使最终计算得到的声纹相似度的值更加客观。
[0052]设置第二得分系数优点:在多次实验过程中发现语料库中每个对象的任意语料与语料库内所有声纹模型进行匹配后得到的得分排名始终保持基本一致(绘制成曲线后，这些曲线走势相近，即相关性高)，这一稳定特性在本发明中提取为第二得分系数，作为一“新声纹特征”用于声纹识别，优化最终得分，使得最终得分区分度高，稳定性好，因此将对应用户的第二声纹识别得分与每个语料库对象的声纹识别得分集合进行匹配，相关性高即可以说明用户的声纹特性很大可能性与对应的预料库对象相似。结合本发明第一得分系数和第二得分系数后，计算得到的最高得分声纹相似度更加客观、稳定且区分度好(由于各个层次分配的得分系数不同，从而将各个层次的得分区分开)。
[0053]由于最终得分集合的最高得分相对稳定，贝Ij可以在步骤S107将最终得分集合中最高得分声纹相似度的得分。上述实施例通过第一声纹识别得分和第二声纹识别得分并算上权重，对声纹识别进行综合性评定，使得评定的得分结果稳定，区分度高，可以让声纹识别的结果相对稳定，不易出现同个用户多次进行声纹识别，结果相差很大的问题。
[0054]上述方法可以用于声纹相似度识别，在某些实施例中，可以用作用户的声纹名片信息，即用声纹数据作为用户的

完整全部详细技术资料下载

当前第2页1 2 3 4