声纹注册方法、装置、电子设备及存储介质与流程

文档序号：33549699发布日期：2023-03-22 10:28阅读：37来源：国知局

1.本公开涉及一种声纹注册方法、装置、电子设备及存储介质。

背景技术：

2.目前，需要使用预先注册的诸如声纹嵌入码等特征来实现语音。相关技术中，直接提取已标注有说话人的语音样本的声纹嵌入码作为预注册声纹嵌入码，以该预注册声纹嵌入码作为该语音识别中用于验证或识别的对比样本。
3.然而，由于已标注有说话人的语音样本质量参差不齐，例如可能会包含静音、背景音、其他说话人语音等噪音，音频类型和内容多种多样，时长较长等，导致预先注册的声纹嵌入码质量欠佳，从而影响语音识别的准确性。

技术实现要素：

4.为了解决上述技术问题中的至少一个，本公开提供了一种声纹注册方法、装置、电子设备及存储介质。
5.根据本公开的一个方面，提供了一种声纹注册方法，包括：
6.将第一说话人的语音样本切分为长度相同的多条语音段；
7.将每条语音段切分为长度相同且彼此重叠的多个语音帧；
8.获取每条所述语音段中每个所述语音帧的声纹识别特征，并根据所述语音段中所有语音帧的声纹识别特征获取所述语音段的声纹嵌入码；
9.确定所述语音样本中每条语音段的声纹嵌入码与其他语音段的声纹嵌入码的相似度；
10.根据每条语音段的声纹嵌入码的所有相似度和预设的相似度阈值确定有效的声纹嵌入码；
11.根据所述语音样本对应的所有有效的声纹嵌入码获得所述第一说话人的注册声纹嵌入码。
12.本公开第一方面的一些可能的实现方式中，所述根据每条语音段的声纹嵌入码的所有相似度和预设的相似度阈值确定所述语音段的声纹嵌入码是否有效，包括：
13.根据第一语音段的所有相似度和预设的相似度阈值，确定所述第一语音段的声音嵌入码的置信度；
14.在所述第一语音段的声音嵌入码的置信度大于或等于预设置信度阈值时，确定所述第一语音段的声音嵌入码有效；
15.在所述第一语音段的声音嵌入码的置信度小于所述预设置信度阈值时，确定所述第一语音段的声音嵌入码无效。
16.本公开第一方面的一些可能的实现方式中，所述根据所述第一语音段的所有相似度和预设的相似度阈值，确定所述第一语音段的声音嵌入码的置信度，包括：确定所述第一语音段的所有相似度中大于预设相似度阈值的相似度数量；根据所述大于预设相似度阈值
的相似度数量与所述第一语音段的相似度总数，确定所述第一语音段的声音嵌入码的置信度。
17.本公开第一方面的一些可能的实现方式中，所述第一语音段的声音嵌入码的置信度为所述大于预设相似度阈值的相似度数量与所述相似度总数的比值。
18.本公开第一方面的一些可能的实现方式中，所述根据所述语音样本对应的所有有效的声纹嵌入码获得所述第一说话人的注册声纹嵌入码，包括：以所述语音样本对应的所有有效的声纹嵌入码执行向量相加得到的结果作为所述第一说话人的注册声纹嵌入码；或者，以所述语音样本对应的所有有效的声纹嵌入码执行加权平均得到的结果作为所述第一说话人的注册声纹嵌入码。
19.根据本公开的第二方面，提供了一种声纹注册装置，包括：
20.第一切分单元，用于将第一说话人的语音样本切分为长度相同的多条语音段；
21.第二切分单元，用于将每条所述语音段切分为长度相同且彼此重叠的多个语音帧；
22.声纹识别单元，用于获取每条所述语音段中每个所述语音帧的声纹识别特征；
23.嵌入码提取单元，用于根据每条所述语音段中所有语音帧的声纹识别特征获取每条所述语音段的声纹嵌入码；
24.相似度确定单元，用于确定所述语音样本中每条语音段的声纹嵌入码与其他语音段的声纹嵌入码的相似度；
25.有效性确定单元，用于根据每条语音段的声纹嵌入码的所有相似度和预设的相似度阈值确定有效的声纹嵌入码；
26.注册声纹嵌入码获取单元，用于根据所述语音样本对应的所有有效的声纹嵌入码获得所述第一说话人的注册声纹嵌入码。
27.本公开第二方面的一些可能的实现方式中，所述有效性确定单元，具体用于：根据第一语音段的所有相似度和预设的相似度阈值，确定所述第一语音段的声音嵌入码的置信度；在所述第一语音段的声音嵌入码的置信度大于或等于预设置信度阈值时，确定所述第一语音段的声音嵌入码有效；在所述第一语音段的声音嵌入码的置信度小于所述预设置信度阈值时，确定所述第一语音段的声音嵌入码无效。
28.本公开第二方面的一些可能的实现方式中，所述所述有效性确定单元，具体用于：确定所述第一语音段的所有相似度中大于预设相似度阈值的相似度数量；根据所述大于预设相似度阈值的相似度数量与所述第一语音段的相似度总数，确定所述第一语音段的声音嵌入码的置信度。
29.本公开第二方面的一些可能的实现方式中，所述第一语音段的声音嵌入码的置信度为所述大于预设相似度阈值的相似度数量与所述相似度总数的比值。
30.本公开第二方面的一些可能的实现方式中，所述注册声纹嵌入码获取单元，具体用于：以所述语音样本对应的所有有效的声纹嵌入码执行向量相加得到的结果作为所述第一说话人的注册声纹嵌入码；或者，以所述语音样本对应的所有有效的声纹嵌入码执行加权平均得到的结果作为所述第一说话人的注册声纹嵌入码。
31.根据本公开的第三方面，提供了一种电子设备，包括：
32.存储器，所述存储器存储执行指令；以及
33.处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述的声纹注册方法。
34.根据本公开的第四方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的声纹注册方法。
35.本公开实施例的声纹注册方法，通过将说话人的语音样本切分为多个语音段，再对多个语音段的声纹嵌入码进行有效性判定，最后根据有效的声纹嵌入码获得相应说话人的注册声纹嵌入码，可以实现无效音频部分的自检查和有效提取，使得最终得到的注册声纹嵌入码能够更加准确地表示说话人的语音特征，从而提升语音识别的准确性。
附图说明
36.附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。
37.图1是根据本公开的一个实施方式的声纹注册方法的流程示意图。
38.图2是根据本公开的一个实施方式的采用处理系统的硬件实现方式的声纹注册装置示例图。
39.图中附图标记具体为：
40.200语音识别装置
41.300总线
42.400处理器
43.500存储器
44.600其它电路。
具体实施方式
45.下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。
46.需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
47.除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
48.在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。
此外，同样的附图标记表示同样的部件。
49.当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。
50.本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
51.图1是根据本公开的一个实施方式的声纹注册方法的流程示意图。
52.如图1所示，本公开实施例的声纹注册方法可以包括如下步骤：
53.步骤s12，将第一说话人的语音样本切分为长度相同的多条语音段；
54.具体地，步骤s12中可以按照第一预设时长对语音样本进行切分以获得语音样本的多条语音段，这些语音段长度均为第一预设时长。其中，第一预设时长可以根据需要灵活设置。例如，假设第一预设时长为5秒，语音样本的长度为43秒，那么该语音样本可以被切分为8个语音段，每条语音段的长度为5秒。
55.步骤s14，将每条语音段切分为长度相同且彼此重叠的多个语音帧；
56.具体地，步骤s14中，可以将每条语音段切分为多个语音帧，单个语音帧的长度为第二预设长度且相邻语音帧重叠第三预设时长。其中，第二预设时长和第三预设时长均可根据需要灵活设置。
57.例如，第二预设时长可以设置为25毫秒，第三预设时长可以设置为15毫秒，也即，单个语音帧的长度为25毫秒，相邻的语音帧会重叠15毫秒，此时，可以每隔10毫秒对语音段切分出一个语音帧。
58.步骤s16，获取每条语音段中每个语音帧的声纹识别特征，并根据语音段中所有语音帧的声纹识别特征获取语音段的声纹嵌入码；
59.一些实施方式中，可以采用各种可适用的声纹识别算法或声纹识别系统来对各个语音段进行处理，从而获取语音段的声纹识别特征。例如，声纹识别算法可以是但不限于fbank(filterbank)，声纹识别特征可以是但不限于梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfcc)。
60.一些实施方式中，可以利用预先训练得到的声纹模型对语音段中所有语音帧的声纹识别特征进行处理，从而提取出固定维度的声纹嵌入码，该固定维度的声纹嵌入码即为该语音段的声纹嵌入码。例如，声纹模型可以是诸如神经网络等机器学习模型，该声纹模型可以通过预先训练得到。
61.步骤s18，确定语音样本中每条语音段的声纹嵌入码与其他语音段的声纹嵌入码
的相似度；
62.一些实施方式中，可以采用预先训练的机器学习模型或者诸如余弦相似度等算法对语音段声纹嵌入码两两估算相似度。对于相似度的具体算法或具体获取方式，本公开实施例不作限制。
63.步骤s110，根据每条语音段的声纹嵌入码的所有相似度和预设的相似度阈值确定有效的声纹嵌入码；
64.一些实施方式中，步骤s110可以包括步骤a1～步骤a3：
65.步骤a1，根据第一语音段的所有相似度和预设的相似度阈值λ(0《λ《1)，确定第一语音段的声音嵌入码的置信度；
66.步骤a2，在第一语音段的声音嵌入码的置信度大于或等于预设置信度阈值时，确定第一语音段的声音嵌入码有效；
67.步骤a3，在第一语音段的声音嵌入码的置信度小于预设置信度阈值时，确定第一语音段的声音嵌入码无效。
68.一些实施方式中，步骤a1可以包括：确定第一语音段的所有相似度中大于预设相似度阈值的相似度数量，根据大于预设相似度阈值的相似度数量与第一语音段的相似度总数，确定第一语音段的声音嵌入码的置信度。例如，第一语音段的声音嵌入码的置信度可以为大于预设相似度阈值的相似度数量与相似度总数的比值。
69.第一语音段是指语音样本的任意一条语音段。相似度阈值λ的具体取值可以根据需求设置，也可以取经验值。
70.预设置信度阈值为可以取经验值。例如，预设置信度阈值可以设置为大于0且小于1的数值，例如，预设置信度阈值可以设置为0.6、0.7、0.8、0.9或其他数值。具体应用中，可以根据识别精度等需求来灵活设置预设置信度阈值的具体数值。
71.例如，假设第一说话人的某条语音样本被切分为n条语音段，对该n条语音段的声音嵌入码两两估算相似度，即可获得每条语音段的声音嵌入码与其他所有语音段声音嵌入码的相似度，也即，每条语音段的相似度总数为“n-1”。对于任意一条语音段，假设该语音段的所有相似度中大于预设相似度阈值的相似度的数量为m，那么，该条语音段的置信度可以为“m/(n-1)”，“/”表示“除以”。
72.假设预设置信度阈值为c，若“m/(n-1)”大于或等于c，则该条语音段的声纹嵌入码有效，若“m/(n-1)”小于c，则该条语音段的声纹嵌入码无效。
73.如此，通过筛选有效声纹嵌入码，可以通过自检查剔除语音样本中无效音频部分对应的声纹嵌入码，从而获得准确表达第一说话人语音特征的注册声纹嵌入码。
74.步骤s112，根据语音样本对应的所有有效的声纹嵌入码获得第一说话人的注册声纹嵌入码。
75.一些实施方式中，若语音样本对应的有效声纹嵌入码个数为0，则说明该语音样本质量不达标，不予注册。此时，可以采用第一说话人的其他语音样本的有效声纹嵌入码获得其注册声纹嵌入码。
76.一些实施方式中，步骤s112可以包括：以语音样本对应的所有有效的声纹嵌入码执行向量相加得到的结果作为第一说话人的注册声纹嵌入码；或者，以语音样本对应的所有有效的声纹嵌入码执行加权平均得到的结果作为第一说话人的注册声纹嵌入码。
77.如此，通过将多个有效声纹嵌入码进行处理，有利于提取到平均有效注册部分的声纹嵌入码，获取更多有效声纹信息，从而使得注册声纹嵌入码能够更加准确地表征第一说话人的语音特征。
78.此外，还可采用可适用的其他算法对多个有效声纹嵌入码进行处理来获得注册声纹嵌入码。对此，本公开实施例不作限制。
79.本公开实施例的声纹注册方法，通过将说话人的语音样本切分为多个语音段，再对多个语音段的声纹嵌入码进行有效性判定，最后根据有效的声纹嵌入码获得相应说话人的注册声纹嵌入码，可以实现无效音频部分的自检查和有效提取，使得最终得到的注册声纹嵌入码能够更加准确地表示说话人的语音特征，从而提高语音识别的准确性。
80.图2示出了采用处理系统的硬件实现方式的声纹注册装置示例图。
81.该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
82.该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线300将包括一个或多个处理器400、存储器500和/或硬件模块的各种电路连接到一起。总线300还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路600连接。
83.总线300可以是工业标准体系结构(isa，industry standard architecture)总线、外部设备互连(pci，peripheral component)总线或扩展工业标准体系结构(eisa，extended industry standard component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。
84.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。
85.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。
86.就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输
程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。
87.应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
88.本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。
89.此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。
90.如图2所示，根据本公开的一些实施方式的声纹注册装置200可以包括：
91.第一切分单元202，用于将第一说话人的语音样本切分为长度相同的多条语音段；
92.第二切分单元204，用于将每条语音段切分为长度相同且彼此重叠的多个语音帧；
93.声纹识别单元206，用于获取每条语音段中每个语音帧的声纹识别特征；
94.嵌入码提取单元208，用于根据每条语音段中所有语音帧的声纹识别特征获取每条语音段的声纹嵌入码；
95.相似度确定单元210，用于确定语音样本中每条语音段的声纹嵌入码与其他语音段的声纹嵌入码的相似度；
96.有效性确定单元212，用于根据每条语音段的声纹嵌入码的所有相似度和预设的相似度阈值确定有效的声纹嵌入码；
97.注册声纹嵌入码获取单元214，用于根据语音样本对应的所有有效的声纹嵌入码获得第一说话人的注册声纹嵌入码。
98.一些实施方式中，有效性确定单元212具体用于：根据第一语音段的所有相似度和预设的相似度阈值，确定第一语音段的声音嵌入码的置信度；在第一语音段的声音嵌入码的置信度大于或等于预设置信度阈值时，确定第一语音段的声音嵌入码有效；在第一语音段的声音嵌入码的置信度小于预设置信度阈值时，确定第一语音段的声音嵌入码无效。
99.一些实施方式中，有效性确定单元212具体用于：确定第一语音段的所有相似度中大于预设相似度阈值的相似度数量；根据大于预设相似度阈值的相似度数量与第一语音段
的相似度总数，确定第一语音段的声音嵌入码的置信度。例如，第一语音段的声音嵌入码的置信度可以为大于预设相似度阈值的相似度数量与相似度总数的比值。
100.一些实施方式中，注册声纹嵌入码获取单元214具体可用于：以语音样本对应的所有有效的声纹嵌入码执行向量相加得到的结果作为第一说话人的注册声纹嵌入码；或者，以语音样本对应的所有有效的声纹嵌入码执行加权平均得到的结果作为第一说话人的注册声纹嵌入码。
101.本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的声纹注册方法。
102.本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的声纹注册方法。
103.在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
104.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
105.本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏光辉李志飞
技术所有人：出门问问（武汉）信息科技有限公司
我是此专利的发明人

上一篇：方便开模的制鞋模具的制作方法
上一篇：一种汽车空调远程控制方法、远程控制系统及其汽车与流程