语音处理方法、电子设备和存储介质与流程

文档序号：30981568发布日期：2022-08-03 00:47阅读：174来源：国知局

1.本发明属于互联网技术领域，尤其涉及一种语音处理方法、电子设备和存储介质。

背景技术：

2.随着语音技术的不断发展，一些厂商已经能够实现从较嘈杂的语音环境中较好地提取到说话人的语音音频，从而较佳地完成相应的语音任务操作。目前，业内的相关技术研究人员致力于在更复杂的场景中构建鲁棒的说话人验证系统，并且研究了多种技术以去除人声以外的干扰信息，如数据增强、在频谱添加随机扰动、对抗学习等。
3.但是，这些技术多是为了去除人声以外的干扰信息，如环境噪音等。然而，当说话人的声音被其他人的声音干扰时，上述系统通常不能选择性地去除这种干扰的声音。
4.在具有多说话人的音频识别任务下，为了实现对特定目标人的语音识别，需要去除其他人声的干扰，许多研究者提出了语音分离技术，通过引入语音分离网络来提前分离目标说话人的语音，并将单人语音输入到说话人识别系统中。
5.但是，在说话人验证任务中利用语音分离网络会使得系统变得尤为复杂和冗余，造成资源浪费和运算缓慢的问题。
6.针对上述问题，目前业界暂未提供较佳的解决方案。

技术实现要素：

7.本发明实施例提供一种语音处理方法、电子设备和存储介质，用于至少解决上述技术问题之一。
8.第一方面，本发明实施例提供一种语音处理方法，包括：获取针对多说话人场景的混合音频数据；将所述混合音频数据输入至语音处理模型，使得所述语音处理模型验证所述混合音频数据是否为与目标说话人相关的音频数据；其中，所述语音处理模型的池化层采用注意力统计池化层，所述注意力统计池化层用于将注册说话人嵌入和所述混合音频数据所对应的隐藏层表征序列转换为固定维度的表征，以及所述注册说话人嵌入为所述语音处理模型根据所述目标说话人的注册语料而确定的身份特征信息。
9.第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。
10.第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述方法的步骤。
11.第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述方法的步骤。
12.本发明实施例的有益效果在于：
13.针对在多说话人场景下采集的混合音频数据，可以利用语音处理模型抑制混合音频数据中的杂波信号和其他说话人的音频数据，能够分析出混合音频数据是否与目标说话人相关(例如，是否含有目标说话人的语音)。在本发明实施例中，语音处理模型采用基于目标说话人的注册语料的注意力统计池化层，能够实现提取特定说话人信息，而无需添加多余的语音分离网络，降低了系统冗余度，且提高了系统计算效率。
附图说明
14.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
15.图1示出了根据本发明实施例的语音处理方法的一示例的流程图；
16.图2示出了根据本发明实施例的具有ea-asp的语音处理模型在进行说话人验证任务时的流程图；
17.图3示出了根据本发明实施例的ea-sap-m系统的瓶颈维度消融实验数据表；
18.图4示出了根据目前相关技术的说话人验证系统在多说话人场景和单说话人场景下的r-vector基线系统在vox_e测试集的得分分布；
19.图5示出了根据本发明实施例的说话人验证系统的性能评估数据表；
20.图6示出了根据本发明实施例的了ea-asp-m系统在多说话人场景和单说话人场景下的r-vector基线系统在vox_e测试集的得分分布；
21.图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
23.需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
24.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
25.在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，
并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
26.最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
27.需说明的是，在目前的相关技术中，存在一些对复杂说话人场景的语音处理技术，目前主要可以采用数据增强方法来去除除人声以外的干扰信息的方法，其主要是提高说话人验证系统鲁棒性的最有效和最简单的方法。一些业内的学者提出了，将随机噪声和混响添加到原始音频中以产生更多的训练数据，或者直接对频谱进行随机扰动以增加训练数据。此外，为了帮助说话人验证系统学会明确地去除干扰信息，也有相关研究人员使用对抗技术来去除信道信息，以帮助说话人验证系统对语音变异性变得更加稳健。
28.但是本发明的发明人在实践本发明的过程中发现，由于目前流行的说话人验证系统总是假设输入语音中只有一个说话人，并将输入语音映射到一个低维向量(即，说话人嵌入)，其用以代表该语音中存在的说话人身份。这样，导致了当其他人声出现时，如数据增强、频谱扰动等技术，就不能选择性地进行目标说话人验证。并且，当输入语音中有多个说话者时，说话者嵌入是否还能反映说话者身份的信息也是未知的。
29.说话人验证包括两个阶段，注册和测试。在测试阶段，环境往往存在各种不确定性，尤其是当人们想要在拥挤的环境中使用语音唤醒手机或智能音箱时。不同的是，在注册阶段，说话人需要在较安静的环境中录制自己的声音。如果说话人验证系统在测试阶段利用注册信息，则可以从说话人混合语音中移除干扰说话人。但是，干扰说话人问题在说话人分类任务中经常发生，将在说话人验证过程中使用额外注册说话人信息的任务命名为目标说话人验证(tsv)。
30.而对于存在多说话人的语音场景下，为了解决目标说话人的验证问题，许多研究者借用了语音分离的技术。一些学者提出了，首先对注册语音的说话人信息进行编码，然后使用编码信息帮助语音分离网络将注册说话人的语音与测试语音分离。此时，分离后的语音只包含一个说话人，可用于后续的说话人验证系统。
31.但是本发明的发明人在实践本发明的过程中发现，为了验证多说话人场景中的目标说话人，使用语音分离网络将目标说话人的语音从多人语音中分离出来，然后将注册和分离后的测试语音输入给基于如i-vector的说话人验证系统。但是，添加语音分离网络又使得总体系统过于复杂和冗余。
32.在说话人验证任务中，现有的系统在没有噪音的单人场景下能够实现较佳的性能表现，但是在带有环境噪音的场景，甚至是有多个说话人的场景下，系统性能会有明显的下降。多说话人场景下的说话人验证任务是较为复杂的，对现有系统的鲁棒性有很高要求。
33.通常，研究人员会借用语音分离的技术，首先对注册语音的说话人信息进行编码，然后使用编码信息帮助语音分离网络将注册说话人的语音与测试语音分离。分离后的语音只包含一个说话人，可用于后续的说话人验证系统，但也会导致系统过于冗余和复杂。
34.图1示出了根据本发明实施例的语音处理方法的一示例的流程图。关于本发明实施例的执行主体，其可以是各种类型的具有处理能力的电子设备，其可以是诸如电脑、手机、智能机器人等。通过本发明实施例的语音处理方法，能够实现对在多说话人场景采集的音频进行处理，以实现各种期望的语音处理目标，例如识别混合音频中是否存在特定说话人的音频，可非限制性地在各种语音目标的业务场景中使用。
35.如图1所示，在步骤110中，获取针对多说话人场景的混合音频数据。
36.这里，在多说话人场景下所采集的音频数据一般对于音频处理任务具有较多的干扰项，例如环境杂音、除目标说话人之外的其他说话人的语音数据，需要对混合音频数据进行分析。
37.在步骤120中，将混合音频数据输入至语音处理模型，使得语音处理模型验证混合音频数据是否为与目标说话人相关的音频数据。
38.需说明的是，语音处理模型的池化层采用注意力统计池化(即ea-asp，enroll-aware attentive statistics pooling,注册感知的注意力统计池化)层，并且注意力统计池化层用于将注册说话人嵌入和混合音频数据所对应的隐藏层表征序列转换为固定维度的表征，注册说话人嵌入为语音处理模型根据所述目标说话人的注册语料而确定的身份特征信息。由此，基于本发明实施例的语音处理模型，直接将注册说话人的信息注入到池化层中，利用注意力统计池化层的帮助注意力机制除去混合音频数据中非注册人的干扰人声，无需使用额外的语音分离网络，实现更加轻巧、高效的语音处理过程。
39.本发明实施例的语音处理模型可以是整体模型结构，也可以是作为模型的部分结构，并能够附加其他不同类型的功能模块，从而完成多样化的语音处理任务，例如目标说话人的语音提取任务，或者语音说话人验证任务等，且都属于本发明实施例的实施范围内。示例性地，在说话人验证任务中，语音处理模型能够计算混合音频数据所对应的说话人嵌入，并可与注册说话人嵌入进行比较，以确定混合音频数据中是否存在已注册的目标说话人的声音。
40.在一些实施方式中，语音处理模型可以被配置成具备多个不同的处理模式，以满足不同的业务场景。示例性地，语音处理模型是可供选定语音处理模式，例如注册语音感知模式进而注册语音忽略模式；其中，在注册语音感知模式下能实现对输入音频中对应注册语音的目标说话人的语音感知注意和提取，此外在注册语音忽略模式下注意力统计池化层将会退化为普通的统计池化层，而不会在池化处理时对特定说话人信息进行关注。
41.具体地，在将混合音频数据输入至语音处理模型后，电子设备可以检测语音处理模型的语音处理模式，并当语音处理模型处于注册语音感知模式时，注意力统计池化层用于将混合音频数据所对应的隐藏层表征序列和注册说话人嵌入信息转换为固定维度的表征，而当语音处理模型处于注册语音忽略模式时，注意力统计池化层用于仅将隐藏层表征序列转换为固定维度的表征，在ei(enroll-ignorant,注册语音忽略)模式下，语音处理模型不使用注册说话人嵌入作为先验条件，注意力统计池化层将退化为普通的统计池化层。
42.此外，在ea模式下，语音处理模型利用ea-asp层中的注册说话人的信息，并可以直接将注册说话人的信息注入到池化层中，以帮助注意力机制去除干扰的人声。与使用额外的语音分离网络的方法相比，本发明实施例中所提供的ea-asp层更加轻巧，并可以与大多数主流的说话人验证系统成。
43.基于本发明提供的实施例，ea-asp层可以帮助神经网络在注册说话人嵌入感知的情况下去除干扰的说话人信息，但并不是所有情况下都能够提前获取注册说话人嵌入。例如，当需要提取注册说话人嵌入的时候，一般是不能提前得到注册说话人嵌入本身的。因此，通过将提出的注册语音感知的注意力统计池化层的使用分为两种模式(ei模式和ea(enroll-aware,注册语音感知)模式)，使得能在各种类型的语音业务场景下适用。在一些实施方式中，注册说话人嵌入为语音处理模型在注册语音忽略模式下依据目标说话人的注册语料预先进行训练而确定的，以实现对注册的目标说话人的本身的嵌入信息的提取。
44.此外，在本发明的发明人进行发明实践的过程中发现，直接将注册说话人嵌入到ea-asp层中会造成训练过程中的说话人信息泄露，影响了说话人验证系统的性能。针对此问题，本发明的发明人提出，在语音处理模型中设计了一个瓶颈架构，通过瓶颈网络来限制说话人信息的流动，有效解决了说话人信息泄露的问题。
45.图2示出了根据本发明实施例的具有ea-asp的语音处理模型在进行说话人验证任务时的流程图。
46.参照图2中的虚线左侧的图例所示，目前相关技术中的说话人验证系统，其包含一个特征提取网络、一个池化层和一个嵌入转换层组成。特征提取网络首先将输入x映射到隐藏层表征序列h＝{h1,h2,...,h
t
}。然后，池化层将变长表示h转换为固定维度的表示。最后，另一个转换层被应用于得到说话人嵌入e。
47.参照图2中的虚线右侧的图例所示，基于本发明发明实施例所提供的语音处理模型包括特征提取层、ea-asp(注意力统计池化)层和嵌入转换层，特征提取层用于确定输入的所述混合音频数据所对应的隐藏层表征序列，以及转化层用于计算所述固定维度的表征所对应的说话人嵌入。基于注册语音感知的注意力统计池化层(ea-asp)，利用注册说话人作为池化模块中的先验信息，能够有效去除干扰的说话人信息。
48.具体地，对隐藏层表征序列和注册说话人嵌入分别通过各自的全连接层进行转换和拼接，得到相应的拼接信息。示例性地，ea-asp层将以隐藏层表征h
t
(h
t
∈rc)和注册说话人嵌入e
enroll
(e
enroll
∈rd)作为输入，h
t
和e
enroll
首先通过各自的全连接(fc)层进行转换，然后再将其拼接为o
t
，(o
t
∈r
(c+d)
)。
[0049][0050]
进而，将拼接信息输入至预设的瓶颈网络，得到相应的中间得分矩阵。这里，瓶颈网络包括多个全连接层，各个全连接层之间分别插入有相应的batchnorm和relu函数，用于限制设定说话人嵌入维度的说话人信息的流动。
[0051]
如图2虚线右侧的图例中所示的瓶颈网络(bottleneek network)，包含三个全连接层，其维度分别为((c+d)/2,bottleneck/dim,c)，在不同层之间插入batchnorm和relu函数，使得当瓶颈维度远低于说话人嵌入维度时，瓶颈网络将限制说话人信息的流动。
[0052]
结合上文中的示例，o
t
被送入一个瓶颈网络，得到中间得分s＝{s1,s2,...,s
t
}。进而，基于中间得分s，将隐藏的表示序列h映射到固定维度的表示中，例如，对中间得分矩阵进行校准，并将经校准的中间得分矩阵输入至注意力统计池化层，以得到相应的固定维度的表征。
[0053]
需说明的是，在ei模式中，由于不使用注册说话人嵌入作为先验条件，分数矩阵s会直接被设置为全1矩阵。在这种情况下，注意力统计池化层将退化为普通的注意力统计池
化层。
[0054]
在本发明实施例的一些实施方式中，可以分别通过两种不同的机制来将隐藏的表示序列h映射到固定维度的表示中，即ea-asp-cw(channel-wise attentive statistic pooling,通道式注意力统计池化层)和ea-asp-m(attentive statistics pooling with masking,带有掩码的注意力统计池化层)。
[0055]
在ea-asp-cw机制中，计算针对输入音频的各个音频通道的注意力权重，并将各个音频通道注意力权重和中间得分矩阵输入至注意力统计池化层，以得到相应的固定维度的表征。
[0056]
具体地，首先计算出沿时间维度的从st开始的通道式注意力权重
[0057][0058]
其中，i是通道索引。然后，基于注意力权重计算出统计量μi,σi，如下所示：
[0059][0060]
需要注意的是，在上式中计算每个通道的注意力权重，以帮助池化层在多个人声重叠时过滤干扰的人声信息。
[0061]
另外，在ea-asp-m机制中，基于预设的sigmoid函数将中间得分矩阵映射出相应的掩码矩阵，基于预设的掩码校准信息对掩码矩阵进行校准，并将经校准的掩码矩阵输入至注意力统计池化层，以得到相应的固定维度的表征。
[0062]
具体地，首先用sigmoid函数将分数矩阵s映射到一个掩码矩阵：
[0063][0064]
然后用h乘以m来消除干扰信息。
[0065][0066]
被送入到注意力统计池化层，以得到固定维度的表征。然后，通过嵌入转换层，得到说话人嵌入e。
[0067]
通过本发明实施例，在注册语音忽略模式下：注册说话人嵌入不用于计算分数s，并可以直接将分数s设置为值全1矩阵。在注册语音感知模式中：注册说话人嵌入被用来计算分数s。在带有掩码的注意力统计池化层中，注意力权重在注意力统计池化层中计算，而在通道式注意力统计池化层中，直接将注意力权重α反馈给注意力统计池化层。
[0068]
针对如本发明的语音处理模型的模型训练方面，当语音处理模型处于注册语音忽略模式时，可以将注意力统计池化层将退化为普通的统计池化层，并可以使用惯常的模型训练样本和训练方式进行训练，以平等地提取语音所对应的说话人嵌入，在此便不赘述。当语音处理模型处于注册语音感知模式下时，模型所的注意力统计池化层将会发挥基于注意力关注的特点，将会更加关注语音数据中的特定说话人的信息，其在注册语音感知模式下时所对应的训练样本包含正向测试语料、反向测试语料、注册语料和所述注册说话人嵌入。具体地，正向测试语料(即含注册人语音的混合音频)包含目标说话人和至少一个其他说话
人的音频信息，并且正向测试语料与注册语料具有相同的分类标签。另外，反向测试语料包含除目标说话人之外的至少一个其他说话人的音频信息，并且反向测试语料的分类标签是不同于正向测试音频和注册语料的。
[0069]
下面将结合示例来详细介绍带有注册语音感知的注意力统计池化层说话人验证系统的训练策略。
[0070]
具体地，为了模拟目标说话人验证评估过程中的情景，将训练集分为两部分：注册语音和测试语音，在注册语音中只有一个说话人(即目标说话人)，但测试语音中的说话人数量是未知的。训练集中的说话人数量表示为n
spk
，另外用yi∈[0,n
spk
)表示注册语音中的说话人身份编码，用yj＝{y1, y2,
…
}∈[0,n
spk ]来表示测试语音中的说话人身份编码。
[0071]
这里，构建了作为输入的注册-测试对。在每个训练步骤中，首先将注册语料送入系统，以获得注册说话人嵌入并在注册语音忽略模式下使用ea-asp层。然后，测试语料连同注册说话人嵌入被送入系统，通过ea-asp层在注册感知模式下提取测试嵌入进而，使用相同的aam(additive angular margin,附加角裕度)计算和的损失。
[0072][0073][0074][0075]
其中，l
enroll
和l
test
是注册和测试语料的分类标签，并且可以直接使用说话人编码作为注册语料的分类标签。在本发明的实施例中，测试语料的分类标签是以注册语料为条件的，使得如果在测试语料中存在注册说话人，则测试语料(即，正向测试语料)的分类标签与注册语料相同。否则，为测试语料(即，反向测试语料)分配一个独特的分类标签，其并不代表任何说话人，能用以验证在混合音频中不存在注册语音的目标说话人。
[0076][0077][0078]
需说明的是，正如上文中介绍的那样，当包含与相同的说话人时，可以将归类到内的说话人yi。然而，这可能会引起一些问题，例如说话人信息泄露问题。具体地，由于在本发明实施例中提出，将和都送入模型系统以提取测试嵌入，训练目标引导神经网络提取yi的说话人信息以测试嵌入。显然，yi的说话人信息可以来自或也就是说，分类目标可能会导致来自的说话人信息泄露。这样的说话人信息泄露问题可能会导致我们的ea-asp层不能学会如何去除干扰信息，而是要
更好地保留中的说话人信息。
[0079]
为了解决说话人信息泄露问题，本发明实施例提出了如图2所示的瓶颈网络。该瓶颈网络由三个全连接层组成，其维度分别为((c+d)/2,bottleneck/dim,c)。通过在不同层之间插入batchnorm和relu函数，如果瓶颈维度远低于说话人嵌入维度，则瓶颈网络将限制说话人信息的流动。
[0080]
在本发明实施例所提供的语音处理模型中，注册说话人嵌入中的说话人信息可能会泄漏到最终的测试说话人嵌入中，导致模型在错误的方向上被优化，使得性能变差。对此，本发明实施例所提供的解决方案是使用一个瓶颈网络从而限制过多的注册说话人信息被输入到池化层中。
[0081]
这里，利用中间得分s计算出的统计池化层结果上增加了一个说话人分类任务，并使用该任务的准确度来反映得分s中存在的说话人信息。由于该任务所计算出的梯度不会被传回网络，因此该说话人分类任务就不会影响系统的其他部分。
[0082]
如图3示出了瓶颈网络的瓶颈维度对信息泄露的影响评估。正如预期的那样，随着瓶颈维度的增加，更多的说话人信息会泄露给中间得分s。通过综合考虑，瓶颈维度可以被设置为2，这样可以避免过多的说话人信息泄露，同时保障语音系统的性能。
[0083]
在本发明实施例的一些应用场景中，本发明实施例的语音处理模型可以被应用在单说话人验证任务中，用以完成在多人语音场景下识别是否存在特定说话人的任务。
[0084]
图4示出了根据目前相关技术的说话人验证系统在多说话人场景和单说话人场景下的r-vector基线系统在vox_e测试集的得分分布。
[0085]
需说明的是，目前大多数的单说话人验证系统都是在单人说话的数据上训练的，其在多个说话人场景下的性能表现的研究没有受到关注。为了评估单人说话人验证系统在多人场景下的表现，本发明的发明人进行了相关实验，测试了r-vector基线系统在多人场景中的表现，并得到了如图4所示的在不同条件下的分数分布。从图4中可以看出，在单说话人的情况下，目标分数分布和非目标分数分布相差甚远，这说明说话人嵌入的辨别能力很强。当测试语音与其他说话人的声音混合时，目标分数分布变得更接近于非目标分数分布，但它们并不重叠。这样的现象表明，当多个说话人的声音混合在一起时，原说话人的信息会被掩盖，但其总体的说话人嵌入仍能显示原说话人的存在。所以，原始说话人信息在多人场景中会被模糊，会严重降低说话人验证系统的性能。
[0086]
作为对比实验，本发明的发明人还对如本发明所提供的说话人验证系统(使用了注册语音感知的注意力统计池化层)在多说话人场景下的性能进行了评估，并得到了如图5所示的评估数据表。具体地，表中的ei模式和ea模式说明了语音处理模型在注册说话人嵌入提取过程中设置的ea-asp层的模式。这里，通过将ei模式和ea模式下的系统的相似度得分最大化来得到聚合系统。对此，可以发现ea-asp-cw和ea-asp-m系统在不使用注册说话人嵌入信息时与基线系统的性能相当。当将注册说话人嵌入输入到ea-asp系统中时，ea-asp-cw和ea-asp-m都在多说话人的场景评估实验中取得了明显的性能改善，而且ea-asp-m的表现比ea-asp-cw更好。ea-asp-m甚至在三次实验中降低了约50％的等错误率。然而，当加入注册说话人信息时，在单说话人的场景下，系统有一些性能下降。
[0087]
通过计算单说话人场景下目标实验(注册说话人和测试说话人为同一人)和非目标实验(注册说话人和测试说话人不是同一人)的平均得分，发现ea-asp-m(ea模式)的非目
标平均得分(0.043)比基线系统的非目标平均得分(0.016)要高一点，这可能是性能下降的原因，并可能是由于注册说话人的信息泄露问题所导致的。
[0088]
进一步地，为了解决上述问题，通过将得分最大化，对有注册说话人信息和无注册说话人信息的系统进行聚合，并将结果列在表的底部。聚合后，带有注册语音感知的注意力统计池化层的系统在多说话人场景中仍然显示出巨大的优势，在单说话人场景中与基线系统的性能相当。
[0089]
进一步地，本发明的发明人还对如本发明实施例方法所提供的语音处理模型进行了性能实验评估，并分别在两种不同场景(单说话人场景和多说话人场景)中对本发明实施例提供的语音模型系统进行了性能评估。具体地，针对在两种不同的场景，将本发明实施例所提供的语音模型系统分别与基线系统进行对比：单说话人场景和多说话人场景。在单说话人场景中，假设测试话语中只有一个说话人。在多说话人场景中，测试话语中的说话人数量不止一个。进而，通过计算嵌入的余弦相似度来对所有系统进行评分。
[0090]
通过本发明实施例，提供了注册感知的注意力统计池化层来帮助说话人验证系统提取特定说话人的信，并利用voxceleb1数据模拟了多说话者评估数据。
[0091]
基于voxceleb2开发集模拟了测试数据模拟的测试数据可以分为4种不同的类型：type1：yi∈yi，包含一个说话者；type2：yi∈yi，包含两个说话者；type3：type3：包含一个说话者；type4：包含一个说话者；type4：包含两个说话者。
[0092]
其中，yi是中的说话者索引，yi是中设置的说话者索引。这四类数据的比例分别设置为0.05、0.05、0.45、0.45。在数据模拟过程中，snr从-3到3进行随机采样，两个说话者之间的重叠率从0到0.5进行随机采样。此外，是从基线训练集中随机采样的数据块，并还要确保模拟的持续时间为2s。
[0093]
针对单说话人场景，使用voxceleb1数据集对系统进行了评估，并采用三个公共测试集vox o、vox e、vox h来进行试验评估。
[0094]
针对多说话人场景，为了更好地与单说话人场景中的结果进行比较，同样根据公共测试集vox o、vox e、vox h重新生成评估数据集。对于每个试验对，保留注册话语并模拟新的测试话语。在模拟新的测试话语时，随机选择一个既不是测试说话人也不是注册说话人的人的语音作为干扰语音，并将其与原始测试语音混合。在进行数据混合时，将snr从-3到3进行随机采样，并将重叠率从0到0.52进行随机选择。需要注意的是，由于干扰说话人与注册语音和原始测试语音具有不同的说话人标签，因此每个试验对的目标/非目标标签不会改变。
[0095]
针对多说话人场景中单说话人验证系统的评估，大多数说话人验证系统都是根据单说话人数据进行训练的，并且它们在多说话人场景中的表现如何是未知的。这里，在多说话人场景中测试了r-vector基线系统，并在图4中绘制了不同条件下的分数分布。基于图4，可以发现，在单说话人场景下，目标得分分布和非目标得分分布相距甚远，这意味着说话人嵌入非常具有辨别力。另外，当测试语音与其他说话者的声音混合时，目标分数分布变得更接近非目标分数分布，但它们不重叠。这种现象表明混合说话人的声音会掩盖原始说话人的信息，但嵌入仍然可以显示原始说话人的存在。具体地，还可以参照图5所示的图表中的
第一行列出了数值结果，基于数值结果表明，原始说话人信息的模糊性会严重降低系统的性能。
[0096]
进一步地，同样参照图5所示的结果，可以发现ea-asp-cw和ea-asp-m系统在不使用注册信息时与基线系统具有相当的性能。当将登记嵌入馈送到ea-asp系统时，ea-asp-cw和ea-asp-m在多说话人评估试验中都取得了显着的改进，并且ea-asp-m的表现优于ea-asp-cw。ea-asp-m甚至在三个评估试验中实现了约50％的相对eer降低。但是，当添加注册信息时，在单说话人场景中会出现一些性能下降。通过计算单说话人场景中目标和非目标试验的平均分数，发现ea-asp-m(ea模式)的平均非目标分数(0.043)略高于平均非目标分数基线系统的得分(0.016)，这可能是性能下降的原因。
[0097]
但是，注册说话人信息的泄漏可能是导致分数波动的一个原因。为了缓解这个问题，本发明实施例方法还提出，通过使用得分较高的决策对有和没有注册条件的系统进行集成，并将结果列在如图5的图表的最后一行。集成后，具有ea-asp层的系统在多方面仍然表现出很大的优势，使得在单说话人场景中也能具备与基线系统相当的性能。
[0098]
图6示出了根据本发明实施例的了ea-asp-m系统在多说话人场景和单说话人场景下的r-vector基线系统在vox_e测试集的得分分布。如图6所示，与基线r-vector系统的表现相比，本发明实施例所提供的ea-asp系统的多说话人目标分数分布更接近于单说话人目标分数分布，这也表明ea-asp-m系统可以成功地从有干扰的测试语料中提取注册说话人信息。具体地，基于测试结果表明，在本发明实施例方法中提出的ea-asp的性能大大优于基线系统(即，r-vector系统)，并实现了约50％的相对eer(equal error rate,等错误率)的降低。
[0099]
通过本发明实施例，提出了基于注册感知的注意统计池化来解决目标说话人验证问题，使得在面对多说话人重叠话语时对说话人身份正确验证取得了很大的进步。此外，与利用语音分离技术的方法相比，本发明实施例方法所提出的架构更轻量级，可以与大多数主流的说话人验证系统集成，并可以作为说话人验证系统中使用注册说话人嵌入作为先验信息的首个操作。
[0100]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0101]
在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音处理方法。
[0102]
在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音处理方法。
[0103]
在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，
以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音处理方法。
[0104]
图7是本发明另一实施例提供的执行语音处理方法的电子设备的硬件结构示意图，如图7所示，该设备包括：
[0105]
一个或多个处理器710以及存储器720，图7中以一个处理器710为例。
[0106]
执行语音处理方法的设备还可以包括：输入装置730和输出装置740。
[0107]
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。
[0108]
存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的语音处理方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音处理方法。
[0109]
存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音交互设备的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至语音处理设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0110]
输入装置730可接收输入的数字或字符信息，以及产生与语音处理设备的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。
[0111]
所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的语音处理方法。
[0112]
上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
[0113]
本发明实施例的电子设备以多种形式存在，包括但不限于:
[0114]
(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
[0115]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
[0116]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
[0117]
(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。
[0118]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0119]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可
借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0120]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钱彦旻张乐莹陈正阳
技术所有人：思必驰科技股份有限公司
我是此专利的发明人

上一篇：基于量化编码的语音转换方法、装置、设备及存储介质与流程
上一篇：一种防臭地漏的制作方法