基于大数据自监督的声纹识别模型训练方法、系统与流程

文档序号：32520193发布日期：2022-12-13 19:08阅读：192来源：国知局

1.本发明涉及声纹识别技术领域，特别是涉及一种基于大数据自监督的声纹识别模型训练方法、系统。

背景技术：

2.声纹识别是生物特征识别技术的一种，也称说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。传统的声纹识别方式是将声纹数据输入至声纹识别模型中，由声纹识别模型进行识别，从而得出识别结果。其中，声纹识别模型是通过机器学习的方式从训练数据中学习得到的，训练数据可以是各种录音数据，其中，录音数据可以包括有标注的录音数据；录音数据还可以包括无标注的录音数据，例如闭路电视的录音数据、户外采访数据等。
3.然而，传统的声纹识别模型训练效率虽高，但丰富度低，多样性不如海量数据大，不利于模型泛化，数据量可能不如大参数量模型。

技术实现要素：

4.基于此，为了解决上述技术问题，提供一种基于大数据自监督的声纹识别模型训练方法、系统，可以实现海量数据模型训练。
5.一种基于大数据自监督的声纹识别模型训练方法，所述方法包括：
6.各个分布式主机获取多源录音数据，将不同来源的所述录音数据进行分布式存储，并对所述录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据；
7.各个所述分布式主机对所述带标签的录音数据以及所述未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将所述样本对输入到自监督学习模型中，与服务器进行联邦学习模型训练，在所述服务器上训练得到声纹识别基础模型；
8.所述服务器基于所述带标签的录音数据对所述基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。
9.在其中一个实施例中，各个所述分布式主机对所述录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据，包括：
10.各个所述分布式主机采用重采样算法将所述录音数据的采样频率调整为目标采样频率；
11.各个所述分布式主机获取所述录音数据对应的信噪比，并获取目标信噪比；将信噪比小于所述目标信噪比的录音数据删除；
12.各个所述分布式主机对剩下的所述录音数据进行非语音去除处理，得到带标签的录音数据以及未带标签的录音数据。
13.在其中一个实施例中，各个所述分布式主机对所述带标签的录音数据以及所述未带标签的录音数据进行切片处理，得到样本对，包括：
14.各个所述分布式主机获取切片条件，并根据所述切片条件，从所述带标签的录音数据以及所述未带标签的录音数据中确定待切片录音数据；
15.各个所述分布式主机对所述待切片录音数据随机切割得到各个切片，且各个所述切片在时间上没有重叠；
16.各个所述分布式主机将各个所述切片构成样本对。
17.在其中一个实施例中，各个所述分布式主机将各个所述切片构成样本对，包括：
18.各个所述分布式主机将从同一个所述录音样本中切割得到的各个所述切片构成正样本对；
19.各个所述分布式主机将从不同所述录音样本中切割得到的各个所述切片构成负样本对。
20.在其中一个实施例中，各个所述分布式主机分别向切片处理后的录音数据加入噪声干扰，包括：
21.各个所述分布式主机分别向各个所述切片加入加性噪声干扰和卷性噪声干扰。
22.在其中一个实施例中，将所述样本对输入到自监督学习模型中，与所述服务器进行联邦学习模型训练，在所述服务器上训练得到声纹识别基础模型，包括：
23.服务器向各个所述分布式主机发送加密后的初始模型参数；
24.各个所述分布式主机将所述样本对输入到自监督学习模型进行模型训练，得到初始模型训练梯度，并加密传输给所述服务器；
25.所述服务器接收加密后的所述初始模型训练梯度并解密，所述服务器根据所述初始模型训练梯度调整所述初始模型参数，得到目标模型参数并加密；
26.所述服务器将加密后的所述目标模型参数发送给各个所述分布式主机，并接收各个所述分布式主机根据所述目标模型参数反馈的加密后的目标模型训练梯度，所述服务器解密所述目标模型训练梯度，当所述目标模型训练梯度收敛为0 时，所述服务器根据所述目标模型参数训练得到声纹识别基础模型。
27.在其中一个实施例中，所述服务器接收加密后的所述初始模型训练梯度并解密，所述服务器根据所述初始模型训练梯度调整所述初始模型参数，包括：
28.所述服务器接收加密后的所述初始模型训练梯度并进行解密操作，并按照可信度权重对各个所述分布式主机回传的所述初始模型训练梯度进行加权求和计算，所述服务器根据加权求和后的梯度调整所述初始模型参数。
29.一种基于大数据自监督的声纹识别模型训练系统，所述系统包括：
30.各个分布式主机，用于获取多源录音数据，将不同来源的所述录音数据进行分布式存储，并对所述录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据；
31.各个所述分布式主机，还用于对所述带标签的录音数据以及所述未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将所述样本对输入到自监督学习模型中，与服务器进行联邦学习模型训练，在所述服务器上训练得到声纹识别基础模型；
32.所述服务器，用于基于所述带标签的录音数据对所述基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。
33.上述基于大数据自监督的声纹识别模型训练方法、系统，通过各个分布式主机获取多源录音数据，将不同来源的所述录音数据进行分布式存储，并对所述录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据；各个所述分布式主机对所述带标签的录音数据以及所述未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将所述样本对输入到自监督学习模型中，与服务器进行联邦学习模型训练，在所述服务器上训练得到声纹识别基础模型；所述服务器基于所述带标签的录音数据对所述基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。通过采集多源录音数据进行数据清洗后，未带有标签的录音数据用于进行自监督训练，带有标签的数据用于进行模型参数精调，可以提高模型训练效率；且采用横向联邦学习由服务器统筹存储在不同分布式主机上的多源数据用于声纹识别模型的大规模训练，可以实现海量数据模型训练。
附图说明
34.图1为一个实施例中基于大数据自监督的声纹识别模型训练方法的应用环境图；
35.图2为一个实施例中基于大数据自监督的声纹识别模型训练方法的流程示意图；
36.图3为一个实施例中master主机与各个分布式主机之间数据交互的示意图。
具体实施方式
37.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
38.本技术实施例提供的基于大数据自监督的声纹识别模型训练方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括服务器110、各个分布式主机120，其中，服务器110可以与各个分布式主机120通信。各个分布式主机120获取多源录音数据，将不同来源的录音数据进行分布式存储，并对录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据；各个分布式主机120对带标签的录音数据以及未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将样本对输入到自监督学习模型中，与服务器110进行联邦学习模型训练，在服务器110上训练得到声纹识别基础模型；服务器110基于带标签的录音数据对基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。
39.在一个实施例中，如图2所示，提供了一种基于大数据自监督的声纹识别模型训练方法，包括以下步骤：
40.步骤202，各个分布式主机获取多源录音数据，将不同来源的录音数据进行分布式存储，并对录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据。
41.各个分布式主机可以获取到多源录音数据，即各个来源的录音数据。例如，各个分布式主机可以获取到来自客服中心、电信运营商及其他数据提供方通过各自渠道和机器采集多源语音数据，包括电话录音、监控录音、网络视频音轨等。不同来源的录音数据可以分布式存储在采集侧数据中心，从而保护隐私安全。
42.各个分布式主机可以对获取到的多源录音数据进行数据清洗和预处理操作，从而
得到带标签的录音数据以及未带标签的录音数据。其中，清洗后的带标签的录音数据以及未带标签的录音数据可以按照一定比例进行人工抽检以保证语音质量，若抽检不合格则提高对数据的清洗严格度。清洗后的未带标签的录音数据可以用于后续的大规模自监督学习。
43.步骤204，各个分布式主机对带标签的录音数据以及未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将样本对输入到自监督学习模型中，与服务器进行联邦学习模型训练，在服务器上训练得到声纹识别基础模型。
44.各个分布式主机可以对带标签的录音数据以及未带标签的录音数据进行切片处理，即将符合切片要求的未带标签的录音数据进行切割得到切片，从而得到样本对。样本对可以输入到自监督学习模型中，与服务器进行联邦学习模型训练，从而在服务器上训练得到声纹识别基础模型。
45.各个分布式主机可以分别向切片处理后的录音数据加入噪声干扰，从而实现不同的信道数据增强。
46.步骤206，服务器基于带标签的录音数据对基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。
47.在本实施例中，通过各个分布式主机获取多源录音数据，将不同来源的录音数据进行分布式存储，并对录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据；各个分布式主机对带标签的录音数据以及未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将样本对输入到自监督学习模型中，与服务器进行联邦学习模型训练，在服务器上训练得到声纹识别基础模型；服务器基于带标签的录音数据对基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。通过采集多源录音数据进行数据清洗后，未带有标签的录音数据用于进行自监督训练，可以提高模型训练效率；且采用横向联邦学习由服务器统筹存储在不同分布式主机上的多源数据用于声纹识别模型的大规模训练，可以实现海量数据模型训练。
48.在一个实施例中，提供的一种基于大数据自监督的声纹识别模型训练方法还可以包括数据清洗的过程，具体过程包括：各个分布式主机采用重采样算法将录音数据的采样频率调整为目标采样频率；各个分布式主机获取录音数据对应的信噪比，并获取目标信噪比；将信噪比小于目标信噪比的录音数据删除；各个分布式主机对剩下的录音数据进行非语音去除处理，得到带标签的录音数据以及未带标签的录音数据。
49.各个分布式主机可以采用重采样算法对录音数据的采样频率进行调整。目标采样频率可以是8khz，各个分布式主机可以对多源录音数据进行统一重采样到 8khz。其中，目标信噪比可以是-5db，各个分布式主机可以弃置信噪比在-5db 以下的录音，并通过基于谱能量的活动音检测去除录音中的非语音无效成分，从而得到录音数据集。
50.在本实施例中，通过对采集到的多源录音数据进行重采样处理、依据信噪比进行删除处理、去除非语音无效成分，可以使清洗后的录音数据质量更好。
51.在一个实施例中，提供的一种基于大数据自监督的声纹识别模型训练方法还可以包括对未带标签的录音数据进行切片处理的过程，具体过程包括：各个分布式主机获取切片条件，并根据切片条件，从带标签的录音数据以及未带标签的录音数据中确定待切片录音数据；对待切片录音数据随机切割得到各个切片，且各个切片在时间上没有重叠；将各个
切片构成样本对。
52.切片条件可以是预先设置好的，各个分布式主机可以根据切片条件，从带标签的录音数据以及未带标签的录音数据中确定待切片录音数据。举例说明，切片条件可以是时长为8s以上的语音样本，各个分布式主机根据从带标签的录音数据以及未带标签的录音数据中挑选出时长为8s以上的语音样本进行切片处理。
53.具体的，各个分布式主机可以将语音样本随机进行切割得到k个切片，且保证k个切片在时间上没有任何的重叠，从而将各个切片构成样本对。
54.在本实施例中，通过将语音样本随机切割成各个切片从而构成样本对，可以用于进一步的模型自监督初始化。
55.在一个实施例中，提供的一种基于大数据自监督的声纹识别模型训练方法还可以包括构成样本对的过程，具体过程包括：各个分布式主机将从同一个录音样本中切割得到的各个切片构成正样本对；将从不同录音样本中切割得到的各个切片构成负样本对。
56.各个分布式主机可以将从同一个录音样本中切割得到的各个切片构成正样本对(a,p)，从不同语音样本中切割得到的切片构成负样本对(a,n)。在本实施例中，各个分布式主机可以根据正样本对(a,p)、负样本对(a,n)，通过三元组损失和梯度下降法训练神经网络模型：l1＝max(0,d(a,p)-d(a,n)+m)，其中，d表示距离度量，m表示可调间距参数，通过这样的训练方法可以得到基础模型。
57.在一个实施例中，提供的一种基于大数据自监督的声纹识别模型训练方法还可以包括加入噪声干扰的过程，具体过程包括：各个分布式主机分别向各个切片加入加性噪声干扰和卷性噪声干扰。
58.各个分布式主机可以分别向各个切片中加入加性噪声干扰和卷性噪声干扰。具体的，对于同一语音样本截取得到的切片{1,2，...，k}，对每一个切片k采取不同的数据增强方式，即分别通过向切片加入的加性噪声干扰nk和不同的卷性噪声干扰rk的方式实现不同的信道数据增强，对于不同切片k，所用的加性噪声数据和卷性噪声数据均不同。其中，加性噪声数据可以通过电话录音、实地采集、网络采集等渠道收集得到，属于多场景(例如办公室、室外、市场)环境噪声和通话背景噪声，卷性噪声分别通过房间冲激响应数值模拟和净音条件室内实采等方式获得。
59.在本实施例中，考虑到同一语音样本的不同切片在信道条件上的一致性，通过向各个切片加入加性噪声干扰和卷性噪声干扰的信道不变性训练解耦切片语音的说话人身份信息和信道信息。
60.在一个实施例中，提供的一种基于大数据自监督的声纹识别模型训练方法还可以包括进行联邦学习模型训练的过程，具体过程包括：服务器向各个分布式主机发送加密后的初始模型参数；各个分布式主机将样本对输入到自监督学习模型进行模型训练，得到初始模型训练梯度，并加密传输给服务器；服务器接收加密后的初始模型训练梯度并解密，服务器根据初始模型训练梯度调整初始模型参数，得到目标模型参数并加密；服务器将加密后的目标模型参数发送给各个分布式主机，并接收各个分布式主机根据目标模型参数反馈的加密后的目标模型训练梯度，服务器解密目标模型训练梯度，当所述目标模型训练梯度收敛为0时，服务器根据目标模型参数训练得到声纹识别基础模型。
61.如图3所示，服务器即master主机，各个分布式主机即分布式slave主机 t，其中，
master主机可以与各个分布式slave主机t连接，便于数据通讯。各个分布式slave主机t可以用于数据采集以及数据处理。master主机可以向各个分布式主机t分发加密后的初始模型参数w，master主机发送的初始模型参数 w可以表示为d(w)，各个分布式主机t在接收到加密后的初始模型参数d(w) 后，可以进一步进行数据处理操作。
62.各个分布式主机可以将样本对输入到自监督学习模型进行模型训练，得到初始模型训练梯度，并加密传输给服务器。具体的，样本对可以输入到自监督学习模型中进行模型训练，从而得到初始模型训练梯度。如图3所示，得到的初始模型训练梯度可以用e
t
来表示，各个分布式主机t可以将生成的初始模型训练梯度e
t
进行加密并回传至服务器即master主机。
63.服务器可以根据初始模型训练梯度对初始模型参数进行调整，使其训练得到的识别模型精度更准确。服务器对初始模型参数进行调整后可以得到目标模型参数，服务器可以将目标模型参数进行加密并传输到各个分布式主机中。
64.在本实施例中，对于声纹辨认业务，可以在声纹识别的基础模型之上叠加若干线性层和多分类层，以角度空间额外裕度softmax函数作为损失函数：其中，n表示每个迭代读取的小批次训练数据样本总数，s和m分别为可调缩放系数和可调角空间裕度，yi表示样本i 的分类标签(以独热向量表示)，得到的初始模型训练梯度可以是e
t
。
65.服务器在将加密后的目标模型参数发送给各个分布式主机后，各个分布式主机可以对加密后的目标模型参数进行解密处理，并进行模型训练，得到目标模型训练梯度，并再次加密传输给服务器。
66.服务器可以解密目标模型训练梯度，直到目标模型训练梯度收敛为0。当目标模型训练梯度收敛为0时，表示目标模型参数训练出来的识别模型可以达到预期精度，此时，服务器可以根据目标模型参数训练声纹识别基础模型。
67.具体的，服务器即master主机可以判断目标模型训练参数是否为局部最优，若是，则根据目标模型训练参数生成声纹识别模型；若不是，则服务器将更新后的目标模型参数发送至各个分布式主机，由各个分布式主机进行模型训练梯度更新，并回传更新后的模型训练梯度，master主机再根据更新后的模型训练梯度进行计算，直到得出的目标模型训练参数为局部最优，从而生成声纹识别模型。
68.在一个实施例中，提供的一种基于大数据自监督的声纹识别模型训练方法还可以包括计算损失值的过程，具体过程包括：服务器接收加密后的初始模型训练梯度并进行解密操作，并按照可信度权重对各个分布式主机回传的初始模型训练梯度进行加权求和计算，服务器根据加权求和后的梯度调整初始模型参数。
69.如图3所示，加密后的初始模型训练梯度e
t
可以表示为e(wr)，其中， r＝1,2,3，...用于表示各个分布式主机的编号。
70.服务器即master主机接收加密后的初始模型训练梯度e
t
并进行解密操作，并按照可信度权重pt对各个分布式主机回传的初始模型训练梯度e
t
进行加权求和计算，得到加权求和后的梯度。
71.应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各个流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
72.在一个实施例中，如图1所示，提供了一种基于大数据自监督的声纹识别模型训练系统，包括：服务器110和各个分布式主机120，其中：
73.各个分布式主机120，用于获取多源录音数据，将不同来源的录音数据进行分布式存储，并对录音数据进行数据清洗，得到带标签的录音数据以及未带标签的录音数据；
74.各个分布式主机120，还用于对带标签的录音数据以及未带标签的录音数据进行切片处理，分别向切片处理后的录音数据加入噪声干扰，得到样本对，并将样本对输入到自监督学习模型中，与服务器110进行联邦学习模型训练，在服务器110上训练得到声纹识别基础模型；
75.服务器110，用于基于带标签的录音数据对基础模型的模型参数进行监督学习精调，得到声纹识别精调模型。
76.在一个实施例中，各个分布式主机120，还用于采用重采样算法将录音数据的采样频率调整为目标采样频率；获取录音数据对应的信噪比，并获取目标信噪比；将信噪比小于目标信噪比的录音数据删除；对剩下的录音数据进行非语音去除处理，得到带标签的录音数据以及未带标签的录音数据。
77.在一个实施例中，各个分布式主机120，还用于获取切片条件，并根据切片条件，从带标签的录音数据以及未带标签的录音数据中确定待切片录音数据；对待切片录音数据随机切割得到各个切片，且各个切片在时间上没有重叠；将各个切片构成样本对。
78.在一个实施例中，各个分布式主机120，还用于将从同一个录音样本中切割得到的各个切片构成正样本对；将从不同录音样本中切割得到的各个切片构成负样本对。
79.在一个实施例中，各个分布式主机120，还用于分别向各个切片加入加性噪声干扰和卷性噪声干扰。
80.在一个实施例中，服务器110，还用于向各个分布式主机120发送加密后的初始模型参数；各个分布式主机120还用于将样本对输入到自监督学习模型进行模型训练，得到初始模型训练梯度，并加密传输给服务器110；服务器110还用于接收加密后的初始模型训练梯度并解密，并根据初始模型训练梯度调整初始模型参数，得到目标模型参数并加密；服务器110还用于将加密后的目标模型参数发送给各个分布式主机120，并接收各个分布式主机120根据目标模型参数反馈的加密后的目标模型训练梯度，服务器110还用于解密目标模型训练梯度，当目标模型训练梯度收敛为0时，服务器110还用于根据目标模型参数训练得到声纹识别基础模型。
81.在一个实施例中，服务器110还用于接收加密后的初始模型训练梯度并进行解密操作，并按照可信度权重对各个分布式主机120回传的初始模型训练梯度进行加权求和计算，根据加权求和后的梯度调整初始模型参数。
82.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
83.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张星东招梓枫丁卓
技术所有人：南京龙垣信息科技有限公司
我是此专利的发明人

上一篇：一种适用于板带轧机支撑辊的自动边部修磨装置的制作方法
下一篇：船舶轴系对中方法及相关设备与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！