音频处理方法、装置、处理器和系统与流程

文档序号：32444596发布日期：2022-12-06 23:28阅读：97来源：国知局

1.本技术涉及数据处理领域，具体而言，涉及一种音频处理方法、装置、处理器和系统。

背景技术：

2.目前，语音会议系统和笔录审讯系统都需要用到角色分离系统，用于将多个说话者的语音进行分离，并根据分离结果进行语音转写或说话者角色展示。
3.但是，目前的角色分离技术在进行声纹角色分离时，通常需要提前注册说话者的声纹，在实际应用场景中，其易用性差，准备工作成本高。
4.在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

5.本技术的主要目的在于提供一种音频处理方法、装置、处理器和系统，以解决现有技术中进行声纹角色分离时需要提前注册说话者声纹的问题。
6.根据本发明实施例的一个方面，提供了一种音频处理方法，包括：获取至少一个音频片段，并采用声纹识别模型对所述至少一个音频片段进行声纹识别，得到第一识别结果；在所述第一识别结果表征所述至少一个音频片段为非目标静音片段且所述至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取所述第一识别结果中的最高识别分数；在所述至少一个音频片段的音频时长大于或者等于第二时长阈值且所述最高识别分数小于分数阈值的情况下，确定所述至少一个音频片段对应的角色为未知角色，所述第二时长阈值大于所述第一时长阈值；将所述未知角色注册至所述声纹识别的模型库中。
7.可选地，在所述至少一个音频片段的音频时长大于等于第二时长阈值且所述最高识别分数小于所述分数阈值的情况下，确定所述至少一个音频片段对应的角色为未知角色，包括：第一确定步骤，在所述至少一个音频片段的音频时长小于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下，确定所述至少一个音频片段对应的角色为候选未知角色；第二确定步骤，获取所述至少一个音频片段的后续音频片段，得到第一更新音频片段，并对所述第一更新音频片段进行所述声纹识别，得到第二识别结果，在所述第二识别结果表征所述第一更新音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数大于所述分数阈值的情况下，将所述候选未知角色更新为已知角色，在所述第二识别结果表征所述第一更新音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于等于所述分数阈值的情况下，将所述候选未知角色更新为所述未知角色；在所述第二识别结果表征所述第一更新音频片段的音频时长小于所述第二时长阈值情况下，重复执行所述第二确定步骤，直到确定所述第一更新音频片段对应的角色为所述已知角色或者所述未知角色为止。
8.可选地，在所述至少一个音频片段的音频时长小于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下，确定所述至少一个音频片段对应的角色为候选未知角色，包括：在所述至少一个音频片段的音频时长小于第一时长阈值且所述最高识别分数小于第一分数阈值的情况下，确定所述至少一个音频片段对应的角色为所述候选未知角色；在所述至少一个音频片段的音频时长大于或者等于所述第一时长阈值且小于第三时长阈值以及所述最高识别分数大于或者等于所述第一分数阈值且小于第二分数阈值的情况下，确定所述至少一个音频片段对应的角色为所述候选未知角色，所述第一时长阈值小于所述第三时长阈值，所述第一分数阈值小于所述第二分数阈值；在所述至少一个音频片段的音频时长大于或者等于所述第三时长阈值且小于第二时长阈值以及所述最高识别分数大于或等于所述第二分数阈值且小于第三分数阈值的情况下，确定所述至少一个音频片段对应的角色为所述候选未知角色，所述第三时长阈值小于所述第二时长阈值，所述第二分数阈值小于所述第三分数阈值。
9.可选地，在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下，确定所述至少一个音频片段对应的角色为未知角色，包括：在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数小于所述分数阈值的情况下，确定所述至少一个音频片段对应的角色为所述未知角色；在所述至少一个音频片段的音频时长大于或者等于所述第二时长阈值且所述最高识别分数大于或者等于所述分数阈值的情况下，确定所述至少一个音频片段对应的角色为已知角色。
10.可选地，获取至少一个音频片段，并采用声纹识别模型对所述至少一个音频片段进行声纹识别，得到所述第一识别结果，包括：第三确定步骤，在所述第一识别结果表征所述至少一个音频片段为所述目标静音片段情况下，获取所述至少一个音频片段的时长，在所述至少一个音频片段的时长大于第四时长阈值的情况下，确定所述至少一个音频片段为所述目标静音片段，且对应的角色为空；第四确定步骤，在所述至少一个音频片段的时长小于或者等于所述第四时长阈值的情况下，获取所述至少一个音频片段的后续音频片段，得到第二更新音频片段，并对所述第二更新音频片段进行所述声纹识别，得到第三识别结果，在所述第三识别结果表征所述第二更新音频时长大于所述第四时长阈值的情况下，确定所述至少一个音频片段为所述目标静音片段；在所述第三识别结果表征所述第二更新音频片段的音频时长小于等于所述第四时长阈值的情况下，重复执行所述第四确定步骤，直到确定所述第二更新音频片段为所述目标静音片段或所述非目标静音片段为止。
11.可选地，在所述至少一个音频片段的时长大于所述第四时长阈值的情况下，确定所述至少一个音频片段为所述目标静音片段，包括：在所述至少一个音频片段的时长大于第二时长阈值的情况下，确定所述至少一个音频片段为所述目标静音片段；在所述至少一个音频片段的时长小于或者等于所述第二时长阈值且大于所述第四时长阈值的情况下，确定所述至少一个音频片段为所述目标静音片段，所述第二时长阈值大于所述第四时长阈值。
12.可选地，所述方法还包括：第五确定步骤，在历史角色不为空的情况下，确定历史角色与当前角色是否相同，其中，所述当前角色为当前的所述至少一个音频片段对应的角色，所述历史角色为所述至少一个音频片段之前的音频片段对应的角色；第六确定步骤，在
所述历史角色与所述当前角色相同的情况下，确定未发生角色切换；第七确定步骤，在所述历史角色与所述当前角色不相同的情况下，确定所述至少一个音频片段的时长是否大于或者等于第二时长阈值，在所述至少一个音频片段的时长大于或者等于所述第二时长阈值的情况下，确定发生所述角色切换；在所述至少一个音频片段的时长小于所述第二时长阈值的情况下，获取所述至少一个音频片段的后续音频片段，得到第三更新音频片段，依次重复执行所述第五确定步骤至所述第七确定步骤至少一次，直到确定发生所述角色切换或者未发生所述角色切换为止，重复执行的过程中，所述当前角色为所述第三更新音频片段对应的角色。
13.根据本发明实施例的另一方面，提供了一种音频处理装置，所述处理装置包括：第一获取单元，用于获取至少一个音频片段，并采用声纹识别模型对所述至少一个音频片段进行声纹识别，得到第一识别结果；第二获取单元，用于在所述第一识别结果表征所述至少一个音频片段为非目标静音片段且所述至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取所述第一识别结果中的最高识别分数；确定单元，用于在所述至少一个音频片段的音频时长大于或者等于第二时长阈值且所述最高识别分数小于分数阈值的情况下，确定所述至少一个音频片段对应的角色为未知角色，所述第二时长阈值大于所述第一时长阈值；注册单元，用于将所述未知角色注册至所述声纹识别的模型库中。
14.根据本技术的再一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一种所述的处理方法。
15.根据本技术的再一方面，提供了一种音频处理系统，所述处理系统包括：声纹识别系统、一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任一种所述的处理方法。
16.在本发明实施例中，采用声纹识别的方式，通过未知角色分离算法，达到了自动识别音频中存在的多个未知角色的目的，从而实现了语音角色分离的技术效果，进而解决了进行角色分离时通常需要提前注册说话者声纹的技术问题。
附图说明
17.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
18.图1示出了根据本技术的一种音频处理方法的一个实施例的流程示意图；
19.图2示出了根据本技术的一种音频处理方法的又一个实施例的未知角色检测的流程示意图；
20.图3示出了根据本技术的一种音频处理方法的又一个实施例的静音检测流程示意图；
21.图4示出了根据本技术的一种音频处理方法的再一个实施例的角色切换流程示意图；
22.图5示出了根据本技术的一种音频处理装置的一个实施例的示意图。
具体实施方式
23.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
24.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
25.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.为了便于描述，以下对本技术实施例涉及的部分名词或术语进行说明：
27.声纹识别：一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术；
28.自动语音识别技术：一种将人的语音转换成文本的技术。
29.正如背景技术中所说的，现有技术中的进行声纹角色分离时，通常提前注册说话者的声纹才能进行声纹角色分离的问题，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种音频处理方法、装置、处理器和系统。
30.图1是根据本技术实施例的音频处理方法的流程图。如图1所示，该方法包括以下步骤：
31.步骤s101，获取至少一个音频片段，并采用声纹识别模型对至少一个音频片段进行声纹识别，得到第一识别结果。
32.在获取音频片段的过程中，可以通过普通麦克风音频采集、阵列麦克风音频采集、手拉手麦克风音频采集、电脑扬声器、手机录音以及网络音频采集中的任意一种或者多种方式来获取，使语音采集机制具备多样性，从而应用于不同的场景。
33.上述的至少一个音频片段可以为一个音频片段，也可以为多个音频片段，在不同的应用场景中，音频片段的数量可能不同。
34.本技术的声纹识别模型可以为现有技术中的任何可行的声纹识别模型，具体可以为模板模型，也可以为随机模型，其中，模板模型即非参数模型，将训练特征参数和测试的特征参数进行比较，两者之间的失真作为相似度，例如vq(vector quantization)模型即矢量量化模型和dtw(dynamic time warping)模型即动态时间规整法模型；其中vq模型通过聚类、量化的方法生成码本，识别时对测试数据进行量化编码，以失真度的大小作为判决的标准，dtw模型通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较，通过最优路径匹配的方法来进行识别，随机模型即参数模型，用一个概率密度函数来模拟说话人，训练过程用于预测概率密度函数的参数，匹配过程通过计算相应模型的测试语句的相似度来完成，例如gmm模型即高斯混合模型，它是与文本无关的说话人识别中效果最好也是
最常用的模型之一，hmm模型即隐马尔科夫模型是用来描述一个含有隐含未知参数的马尔科夫过程的统计模型。更为具体地，该声纹识别模型包括训练阶段和测试阶段，其中，训练阶段包括训练语音、特征提取、模型训练、模型库四部分；测试阶段包括测试语音、特征提取以及打分判决。
35.步骤s102，在第一识别结果表征至少一个音频片段为非目标静音片段且至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取第一识别结果中的最高识别分数；
36.上述的第一识别结果至少包括表征至少一个音频片段是否为非目标静音片段的信息、至少一个音频片段的时长信息以及对应的至少一个音频片段的识别分数。上述步骤中，在至少一个音频片段是非目标静音片段的情况下，说明该至少一个音频片段不是静音片段，也就是说，在至少一个音频片段不是静音片段的情况下，才获取最高识别分数，因为，至少一个音频片段是静音片段的情况下，该至少一个静音片段没有对应任何的角色，所以也不涉及未知角色的识别。另外，若至少一个音频片段的时长太短，小于第一时长阈值，则确定出的角色可能会不准确，因此，获取最高识别分数的另一个前提是至少一个音频片段的时长大于或者等于第一时长阈值。
37.另外，上述的最高识别分数是指至少一个音频片段与声纹识别模型中的模型库中的角色匹配后得到的最高分数。
38.步骤s103，在至少一个音频片段的音频时长大于或者等于第二时长阈值且最高识别分数小于分数阈值的情况下，确定至少一个音频片段对应的角色为未知角色，第二时长阈值大于第一时长阈值；
39.上述步骤中，若音频片段太短，则不能准确地确定对应的角色是否为未知角色，因此，要同时满足至少一个音频片段的音频时长大于或者等于第二时长阈值且最高识别分数小于分数阈值的情况下，才认为模型库内没有与该音频匹配对应的角色，即，认为该音频对应的角色为未知角色。
40.步骤s104，将未知角色注册至声纹识别模型的库中。
41.上述音频处理方法中，通过比较音频片段的时长和最高识别分数与对应阈值的关系，可以确定出音频对应的角色是否为未知角色，在确定是未知角色的情况下，将未知角色注册到声纹识别的模型库中，这样无需提前注册，后续就可以进行声纹角色分离，从而解决了现有技术中需要进行提前注册才能进行声纹角色分离的问题，该方案相比现有技术需要提前注册的方案来说，其易用性较强，适用场景较广。
42.本技术的一种具体的实施例中，在包括上述步骤s101至s104的基础上，还对具体上述步骤s103进行细化，该步骤具体包括：步骤s1031，第一确定步骤，在上述至少一个音频片段的音频时长小于上述时长阈值且上述最高识别分数小于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为候选未知角色，即先确定可能为未知角色的至少一个音频片段；步骤s1032，第二确定步骤，获取上述至少一个音频片段的后续音频片段，得到第一更新音频片段，并对上述第一更新音频片段进行上述声纹识别，得到第二识别结果，在上述第二识别结果表征上述第一更新音频片段的音频时长大于或者等于上述时长阈值且上述最高识别分数大于上述分数阈值的情况下，将上述候选未知角色更新为已知角色，在上述第二识别结果表征上述第一更新音频片段的音频时长大于或者等于上述时长阈值且上
述最高识别分数小于等于上述分数阈值的情况下，将上述候选未知角色更新为上述未知角色，即确定了可能的未知角色后，再获取后续的音频片段，对后续的音频片段进行识别，根据后续音频片段的识别结果确定候选未知角色是否为未知角色；步骤s1033，在上述第二识别结果表征上述第一更新音频片段的音频时长小于上述时长阈值情况下，重复执行上述第二确定步骤，直到确定上述第一更新音频片段对应的角色为上述已知角色或者上述未知角色为止。该方法中，通过先确定候选未知角色，之后再获取后续音频片段加以确定，使得确定得到的是否为未知角色的结果更加准确。
43.本技术的一种实施例中，在包括上述步骤s1031至s1033的基础上，还对具体上述步骤s1031进行细化，图2是根据本技术实施例的未知角色检测的流程图，如图2所示，该方法包括以下步骤：上述至少一个音频片段的音频时长小于上述时长阈值且上述最高识别分数小于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为候选未知角色，包括：在上述至少一个音频片段的音频时长小于第一时长阈值且上述最高识别分数小于第一分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述候选未知角色；在上述至少一个音频片段的音频时长大于或者等于上述第一时长阈值且小于第三时长阈值以及上述最高识别分数大于或者等于上述第一分数阈值且小于第二分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述候选未知角色，上述第一时长阈值小于上述第三时长阈值，上述第一分数阈值小于上述第二分数阈值；在上述至少一个音频片段的音频时长大于或者等于上述第三时长阈值且小于第二时长阈值以及上述最高识别分数大于或等于上述第二分数阈值且小于第三分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述候选未知角色，上述第三时长阈值小于上述第二时长阈值，上述第二分数阈值小于上述第三分数阈值。
44.上述步骤中为了提高模型识别的灵敏度，设置了多种不同的时长阈值和分数阈值，本技术设置了三种时长阈值和三种分数阈值。上述步骤中，通过比较音频片段的时长和最高识别分数与不同的对应阈值的关系，可以先确定出候选未知角色即可能的未知角色，再等待后续确定，这样可以提高识别模型的准确率。因此，有三种情况可以认为该音频对应的角色为候选未知角色即可能的未知角色，第一种情况：至少一个音频片段的音频时长小于第一时长阈值且上述最高识别分数小于第一分数阈值；第二种情况：至少一个音频片段的音频时长大于或者等于上述第一时长阈值小于第三时长阈值上述且最高识别分数大于或者等于上述第一分数阈值且小于第二分数阈值；第三种情况：至少一个音频片段的音频时长大于或者等于上述第三时长阈值且小于第二时长阈值以及上述最高识别分数大于或等于上述第二分数阈值且小于第三分数阈值。本技术的一种实施例中，在包括上述步骤s101至s104的基础上，还对具体上述步骤s103进行细化，该步骤具体包括：在上述至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数小于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述未知角色，即同时满足至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数小于上述分数阈值的情况下，可以确定至少一个音频片段对应的角色为未知角色；在上述至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数大于或者等于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为已知角色，即同时满足至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数大于
上述分数阈值的情况下，可以确定至少一个音频片段对应的角色为已知角色。
45.通过以上的步骤即可确定至少一个音频片段对应的角色为已知或未知，实现了对未知角色的识别。在确定音频对应的角色为已知角色或未知角色后，还可以继续调用自动语音识别技术，将语音转换为文字或调用机器翻译技术等。此外还可以对音频角色名称、音频转文字的结果进行展示，进而实现音频与处理结果对比回听、音频片段选取、音频角色名称修改等功能。
46.在实际声纹识别过程中可以对音频进行静音检测，其目的是识别音频中的静音片段，在音频为非静音的情况下才继续后续的角色分离和角色切换识别，以达到提高音频识别效率的作用。本技术的一种实施例中，在包括上述步骤s101至s104的基础上，对具体上述步骤s101进行细化，图3是根据本技术实施例的静音检测的流程图。如图3所示，该方法包括以下步骤：步骤s1011，第三确定步骤，在上述第一识别结果表征上述至少一个音频片段为上述目标静音片段情况下，获取上述至少一个音频片段的时长，在上述至少一个音频片段的时长大于第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，且对应的角色为空，即认为至少一个音频片段为静音且没有对应的角色；步骤s1012，第四确定步骤，在上述至少一个音频片段的时长小于或者等于上述第四时长阈值的情况下，获取上述至少一个音频片段的后续音频片段，得到第二更新音频片段，并对上述第二更新音频片段进行上述声纹识别，得到第三识别结果，在上述第三识别结果表征上述更新音频时长大于上述第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，即确定了静音片段后，再获取后续的音频片段，对后续的音频片段进行识别，根据后续音频片段的识别结果确定静音片段或非静音片段；步骤s1013，在上述第三识别结果表征上述第二更新音频片段的音频时长小于等于上述第四时长阈值的情况下，重复执行上述第四确定步骤，直到确定上述第二更新音频片段为上述目标静音片段或上述非目标静音片段为止。该方法中，通过先确定目标静音片段，之后再获取后续音频片段加以确定，使得确定得到的是否为目标静音片段的结果更加准确。
47.本技术的一种实施例中，在包括上述步骤s1011至s1013的基础上，对具体上述步骤s1011进行细化，该步骤具体包括：上述至少一个音频片段的时长大于上述第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，包括：在上述至少一个音频片段的时长大于第三时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，即确定了目标静音片段后，满足时长大于第三时长阈值的情况下，可以确定为目标静音片段；在上述至少一个音频片段的时长小于或者等于上述第三时长阈值且大于上述第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，上述第三时长阈值大于上述第四时长阈值，即确定了目标静音片段后，满足时长小于或者等于上述第三时长阈值且大于上述第四时长阈值的情况下，可以确定为目标静音片段。通过以上的步骤，第四时长阈值的设置可以实现排除音频中说话人停顿的静音情况，可以使声纹识别结果更加准确。
48.在实际使用过程中，还存在说话人发生变化的情况，因此还需要对音频进行角色切换检测。本技术的另一种实施例中，在包括上述步骤s101至s104的基础上，图4是根据本技术实施例的角色切换的流程图，如图4所示，该方法包括以下步骤：第五确定步骤，在历史角色不为空的情况下，确定历史角色与当前角色是否相同，其中，上述当前角色为当前的上述至少一个音频片段对应的角色，上述历史角色为上述至少一个音频片段之前的音频片段
对应的角色，即先确定至少一个音频片段与之前的音频片段对应的角色是否相同；第六确定步骤，在上述历史角色与上述当前角色相同的情况下，确定未发生角色切换，即满足至少一个音频片段与之前的音频片段对应的角色相同的情况下，则没有发生角色切换；第七确定步骤，在上述历史角色与上述当前角色不相同的情况下，确定上述至少一个音频片段的时长是否大于或者等于第三时长阈值，在上述至少一个音频片段的时长大于或者等于上述第三时长阈值的情况下，确定发生上述角色切换，即确定至少一个音频片段与之前的音频片段对应的角色不相同的情况下，满足时长大于或者等于上述第三时长阈值的情况下，确定发生了角色切换；在上述至少一个音频片段的时长小于上述第三时长阈值的情况下，获取上述至少一个音频片段的后续音频片段，得到第三更新音频片段，依次重复执行上述第五确定步骤至上述第七确定步骤至少一次，直到确定发生上述角色切换或者未发生上述角色切换为止，重复执行的过程中，上述当前角色为上述第三更新音频片段对应的角色，即确定了发生角色切换后，再获取后续的音频片段，对后续的音频片段进行识别，根据后续音频片段的识别结果确定是否发生角色切换。该方法中，通过先确定是否发生角色切换，之后在获取后续音频片段加以确定，使得确定得到的是否发生角色切换的结果更加准确。通过这种方法，可以实现对音频中是否发生角色切换进行了准确识别。
49.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
50.本技术实施例还提供了一种音频处理装置，需要说明的是，本技术实施例的音频处理装置可以用于执行本技术实施例所提供的用于音频处理方法。以下对本技术实施例提供的音频处理装置进行介绍。
51.图5是根据本技术实施例的音频处理装置的示意图。如图5所示，该装置包括：
52.第一获取单元10，用于获取至少一个音频片段，并采用声纹识别模型对至少一个音频片段进行声纹识别，得到第一识别结果。
53.在获取音频片段的过程中，可以通过普通麦克风音频采集、阵列麦克风音频采集、手拉手麦克风音频采集、电脑扬声器、手机录音以及网络音频采集中的任意一种或者多种方式来获取，使语音采集机制具备多样性，从而应用于不同的场景。
54.上述的至少一个音频片段可以为一个音频片段，也可以为多个音频片段，在不同的应用场景中，音频片段的数量可能不同。
55.本技术的声纹识别模型可以为现有技术中的任何可行的声纹识别模型，具体可以为模板模型，也可以为随机模型，其中，模板模型即非参数模型，将训练特征参数和测试的特征参数进行比较，两者之间的失真作为相似度，例如vq(vector quantization)模型即矢量量化模型和dtw(dynamic time warping)模型即动态时间规整法模型；其中vq模型通过聚类、量化的装置生成码本，识别时对测试数据进行量化编码，以失真度的大小作为判决的标准，dtw模型通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较，通过最优路径匹配的装置来进行识别，随机模型即参数模型，用一个概率密度函数来模拟说话人，训练过程用于预测概率密度函数的参数，匹配过程通过计算相应模型的测试语句的相似度来完成，例如gmm模型即高斯混合模型，它是与文本无关的说话人识别中效果最好也是最常用的模型之一，hmm模型即隐马尔科夫模型是用来描述一个含有隐含未知参数的马尔
科夫过程的统计模型。更为具体地，该声纹识别模型包括训练阶段和测试阶段，其中，训练阶段包括训练语音、特征提取、模型训练、模型库四部分；测试阶段包括测试语音、特征提取以及打分判决。
56.第二获取单元20，用于在第一识别结果表征至少一个音频片段为非目标静音片段且上述至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取第一识别结果中的最高识别分数；
57.上述的第一识别结果至少包括表征至少一个音频片段是否为非目标静音片段的信息、至少一个音频片段的时长信息以及对应的至少一个音频片段的识别分数。上述单元中，在至少一个音频片段是非目标静音片段的情况下，说明该至少一个音频片段不是静音片段，也就是说，在至少一个音频片段不是静音片段的情况下，才获取最高识别分数，因为，至少一个音频片段是静音片段的情况下，该至少一个静音片段没有对应任何的角色，所以也不涉及未知角色的识别。另外，若至少一个音频片段的时长太短，小于第一时长阈值，则确定出的角色可能会不准确，因此，获取最高识别分数的另一个前提是至少一个音频片段的时长大于或者等于第一时长阈值。
58.另外，上述的最高识别分数是指至少一个音频片段与声纹识别模型中的模型库中的角色匹配后得到的最高分数。
59.确定单元30，用于在上述至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数小于分数阈值的情况下，确定上述至少一个音频片段对应的角色为未知角色，上述第二时长阈值大于上述第一时长阈值；
60.上述单元中，若音频片段太短，则不能准确地确定对应的角色是否为未知角色，因此，要同时满足至少一个音频片段的音频时长大于或者等于第二时长阈值且最高识别分数小于分数阈值的情况下，才认为模型库内没有与该音频匹配对应的角色，即，认为该音频对应的角色为未知角色。
61.注册单元40，用于将上述未知角色注册至上述声纹识别模型的库中。
62.上述音频处理装置中，通过比较音频片段的时长和最高识别分数与对应阈值的关系，可以确定出音频对应的角色是否为未知角色，在确定是未知角色的情况下，将未知角色注册到声纹识别的模型库中，这样无需提前注册，后续就可以进行声纹角色分离，从而解决了现有技术中需要进行提前注册才能进行声纹角色分离的问题，该方案相比现有技术需要提前注册的方案来说，其易用性较强，适用场景较广。
63.本技术的一种具体的实施例中，在包括上述第一获取单元、第二获取单元、确定单元和注册单元的基础上，还对具体上述确定单元进行细化，确定单元包括第一确定模块，第二确定模块和第三确定模块，其中第一确定模块用于在上述至少一个音频片段的音频时长小于上述时长阈值且上述最高识别分数小于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为候选未知角色，即先确定可能为未知角色的至少一个音频片段；第二确定模块用于获取上述至少一个音频片段的后续音频片段，得到第一更新音频片段，并对上述第一更新音频片段进行上述声纹识别，得到第二识别结果，在上述第二识别结果表征上述第一更新音频片段的音频时长大于或者等于上述时长阈值且上述最高识别分数大于上述分数阈值的情况下，将上述候选未知角色更新为已知角色，在上述第二识别结果表征上述第一更新音频片段的音频时长大于或者等于上述时长阈值且上述最高识别分数小于
等于上述分数阈值的情况下，将上述候选未知角色更新为上述未知角色，即确定了可能的未知角色后，再获取后续的音频片段，对后续的音频片段进行识别，根据后续音频片段的识别结果确定候选未知角色是否为未知角色；第三确定模块用于在上述第二识别结果表征上述第一更新音频片段的音频时长小于上述时长阈值情况下，重复执行上述第二确定模块，用于直到确定上述第一更新音频片段对应的角色为上述已知角色或者上述未知角色为止。该装置中，通过先确定候选未知角色，之后再获取后续音频片段加以确定，使得确定得到的是否为未知角色的结果更加准确。
64.本技术的一种实施例中，在包括上述第一确定模块、第二确定模块和第三确定模块的基础上，还对具体上述第一确定模块进行细化，该模块具体包括第一确定子模块、第二确定子模块和第三确定子模块，其中第一确定子模块用于在上述至少一个音频片段的音频时长小于第一时长阈值且上述最高识别分数小于第一分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述候选未知角色；第二确定子模块用于在上述至少一个音频片段的音频时长大于或者等于上述第一时长阈值且小于第三时长阈值以及上述最高识别分数大于或者等于上述第一分数阈值且小于第二分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述候选未知角色，上述第一时长阈值小于上述第三时长阈值，上述第一分数阈值小于上述第二分数阈值；第三确定子模块用于在上述至少一个音频片段的音频时长大于或者等于上述第三时长阈值且小于第二时长阈值以及上述最高识别分数大于或等于上述第二分数阈值且小于第三分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述候选未知角色，上述第三时长阈值小于上述第二时长阈值，上述第二分数阈值小于上述第三分数阈值。
65.上述单元中为了提高模型识别的灵敏度，设置了多种不同的时长阈值和分数阈值，本技术设置了三种时长阈值和三种分数阈值。上述装置中，通过比较音频片段的时长和最高识别分数与不同的对应阈值的关系，可以先确定出候选未知角色即可能的未知角色，再等待后续确定，这样可以提高识别模型的准确率。因此，有三种情况可以认为该音频对应的角色为候选未知角色即可能的未知角色，第一种情况：至少一个音频片段的音频时长小于第一时长阈值且最高识别分数小于第一分数阈值；第二种情况：至少一个音频片段的音频时长大于或者等于第一时长阈值小于第三时长阈值且最高识别分数大于或者等于上述第一分数阈值且小于第二分数阈值；第三种情况：至少一个音频片段的音频时长大于或者等于上述第三时长阈值且小于第二时长阈值以及上述最高识别分数大于或等于上述第二分数阈值且小于第三分数阈值。
66.本技术的一种实施例中，在包括上述第一获取单元、第二获取单元、确定单元和注册单元的基础上，还对具体上述确定单元进行细化，该单元具体包括：第四确定模块，用于在上述至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数小于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为上述未知角色，即同时满足至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数小于上述分数阈值的情况下，可以确定至少一个音频片段对应的角色为未知角色；第五确定模块，用于在上述至少一个音频片段的音频时长大于或者等于上述第二时长阈值且上述最高识别分数大于或者等于上述分数阈值的情况下，确定上述至少一个音频片段对应的角色为已知角色，即同时满足至少一个音频片段的音频时长大于或者等于上述第二时
长阈值且上述最高识别分数大于上述分数阈值的情况下，可以确定至少一个音频片段对应的角色为已知角色。
67.通过以上的单元即可确定至少一个音频片段对应的角色为已知或未知，实现了对未知角色的识别。在确定音频对应的角色为已知角色或未知角色后，还可以继续调用自动语音识别技术，将语音转换为文字或调用机器翻译技术等。此外还可以对音频角色名称、音频转文字的结果进行展示，进而实现音频与处理结果对比回听、音频片段选取、音频角色名称修改等功能。
68.在实际声纹识别过程中可以对音频进行静音检测，其目的是识别音频中的静音片段，在音频为非静音的情况下才继续后续的角色分离和角色切换识别，以达到提高音频识别效率的作用。本技术的一种实施例中，在包括上述第一获取单元、第二获取单元、确定单元和注册单元的基础上，对具体上述第一获取单元进行细化，第一获取单元包括第六确定模块、第七确定模块和第八确定模块，其中，第六确定模块用于在上述第一识别结果表征上述至少一个音频片段为上述目标静音片段情况下，获取上述至少一个音频片段的时长，在上述至少一个音频片段的时长大于第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，且对应的角色为空，即认为至少一个音频片段为静音且没有对应的角色；第七确定模块用于在上述至少一个音频片段的时长小于或者等于上述第四时长阈值的情况下，获取上述至少一个音频片段的后续音频片段，得到第二更新音频片段，并对上述第二更新音频片段进行上述声纹识别，得到第三识别结果，在上述第三识别结果表征上述更新音频时长大于上述第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，即确定了静音片段后，再获取后续的音频片段，对后续的音频片段进行识别，根据后续音频片段的识别结果确定静音片段或非静音片段；第八确定模块用于在上述第三识别结果表征上述第二更新音频片段的音频时长小于等于上述第四时长阈值的情况下，重复执行上述第四确定模块，直到确定上述第二更新音频片段为上述目标静音片段或上述非目标静音片段为止。该装置中，通过先确定目标静音片段，之后再获取后续音频片段加以确定，使得确定得到的是否为目标静音片段的结果更加准确。
69.本技术的一种实施例中，在包括上述第六确定模块、第七确定模块和第八确定模块的基础上，对具体上述第六确定模块进行细化，该模块包括：第四确定子模块和第五确定子模块，其中，第四确定子模块用于在上述至少一个音频片段的时长大于第三时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，即确定了目标静音片段后，满足时长大于第三时长阈值的情况下，可以确定为目标静音片段；第五确定子模块用于在上述至少一个音频片段的时长小于或者等于上述第三时长阈值且大于上述第四时长阈值的情况下，确定上述至少一个音频片段为上述目标静音片段，上述第三时长阈值大于上述第四时长阈值，即确定了目标静音片段后，满足时长小于或者等于上述第三时长阈值且大于上述第四时长阈值的情况下，可以确定为目标静音片段。通过以上的装置，第四时长阈值的设置可以实现排除音频中说话人停顿的静音情况，可以使声纹识别结果更加准确。
70.在实际使用过程中，还存在说话人发生变化的情况，因此还需要对音频进行角色切换检测。本技术的另一种实施例中，在包括上述第一获取单元、第二获取单元、确定单元和注册单元基础上，还包括第九确定模块、第十确定模块、第十一确定模块和第十二确定模块，其中，第九确定模块用于在历史角色不为空的情况下，确定历史角色与当前角色是否相
同，其中，上述当前角色为当前的上述至少一个音频片段对应的角色，上述历史角色为上述至少一个音频片段之前的音频片段对应的角色，即先确定至少一个音频片段与之前的音频片段对应的角色是否相同；第十确定模块用于在上述历史角色与上述当前角色相同的情况下，确定未发生角色切换，即满足至少一个音频片段与之前的音频片段对应的角色相同的情况下，则没有发生角色切换；第十一确定模块用于在上述历史角色与上述当前角色不相同的情况下，确定上述至少一个音频片段的时长是否大于或者等于第三时长阈值，在上述至少一个音频片段的时长大于或者等于上述第三时长阈值的情况下，确定发生上述角色切换，即确定至少一个音频片段与之前的音频片段对应的角色不相同的情况下，满足时长大于或者等于上述第三时长阈值的情况下，确定发生了角色切换；第十二确定模块用于在上述至少一个音频片段的时长小于上述第三时长阈值的情况下，获取上述至少一个音频片段的后续音频片段，得到第三更新音频片段，依次重复执行上述第九确定模块至上述第十一确定模块至少一次，直到确定发生上述角色切换或者未发生上述角色切换为止，重复执行的过程中，上述当前角色为上述第三更新音频片段对应的角色，即确定了发生角色切换后，再获取后续的音频片段，对后续的音频片段进行识别，根据后续音频片段的识别结果确定是否发生角色切换。该装置中，通过先确定是否发生角色切换，之后在获取后续音频片段加以确定，使得确定得到的是否发生角色切换的结果更加准确。通过这种装置，可以实现对音频中是否发生角色切换进行了准确识别。
71.上述音频处理装置包括处理器和存储器，上述第一获取单元、第二获取单元、确定单元和注册单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
72.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现识别音频对应的未知角色。
73.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
74.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述音频处理方法。
75.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
76.步骤s101，获取至少一个音频片段，并采用声纹识别模型对上述至少一个音频片段进行声纹识别，得到第一识别结果；
77.步骤s102，在上述第一识别结果表征上述至少一个音频片段为非目标静音片段且上述至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取上述第一识别结果中的最高识别分数；
78.步骤s103，在上述至少一个音频片段的音频时长大于或者等于上述时长阈值且上述最高识别分数小于分数阈值的情况下，确定上述至少一个音频片段对应的角色为未知角色；
79.步骤s104，将上述未知角色注册至上述声纹识别模型的库中。
80.本文中的设备可以是服务器、pc、pad、手机等。
81.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
82.步骤s101，获取至少一个音频片段，并采用声纹识别模型对上述至少一个音频片段进行声纹识别，得到第一识别结果；
83.步骤s102，在上述第一识别结果表征上述至少一个音频片段为非目标静音片段且上述至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取上述第一识别结果中的最高识别分数；
84.步骤s103，在上述至少一个音频片段的音频时长大于或者等于上述时长阈值且上述最高识别分数小于分数阈值的情况下，确定上述至少一个音频片段对应的角色为未知角色；
85.步骤s104，将上述未知角色注册至上述声纹识别模型的库中。
86.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
87.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
88.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
89.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
90.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
91.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
92.1)、本技术的音频处理方法中，首先获取至少一个音频片段，并采用声纹识别模型对至少一个音频片段进行声纹识别，得到第一识别结果，然后，在第一识别结果表征至少一个音频片段为非目标静音片段且至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取第一识别结果中的最高识别分数；在至少一个音频片段的音频时长大于或者等于第二时长阈值且最高识别分数小于分数阈值的情况下，确定至少一个音频片段对应的角
色为未知角色，第二时长阈值大于第一时长阈值；最后，将未知角色注册至声纹识别模型的库中。通过识别分数阈值和音频时长阈值的设置，并对音频进行判断，实现了对音频内出现的未知角色进行检测，并将检测到的未知角色注册到声纹识别模型库中。
93.2)、本技术的音频处理装置该装置中，第一获取单元用于获取至少一个音频片段，并采用声纹识别模型对至少一个音频片段进行声纹识别，得到第一识别结果，至少一个音频片段可以为一个音频片段，也可以为多个音频片段，在不同的应用场景中，音频片段的数量可能不同。第二获取单元用于在第一识别结果表征至少一个音频片段为非目标静音片段且至少一个音频片段的时长大于或等于第一时长阈值的情况下，获取第一识别结果中的最高识别分数；在至少一个音频片段是非目标静音片段的情况下，说明该至少一个音频片段不是静音片段，也就是说，在至少一个音频片段不是静音片段的情况下，才获取最高识别分数。另外，若至少一个音频片段的时长太短，小于第一时长阈值，则确定出的角色可能会不准确，因此，获取最高识别分数的另一个前提是至少一个音频片段的时长大于或者等于第一时长阈值。确定单元用于在至少一个音频片段的音频时长大于或者等于上述第二时长阈值且最高识别分数小于分数阈值的情况下，确定上述至少一个音频片段对应的角色为未知角色，第二时长阈值大于第一时长阈值；若音频片段太短，则不能准确地确定对应的角色是否为未知角色。注册单元用于将上述未知角色注册至上述声纹识别模型的库中。上述音频处理装置中，通过比较音频片段的时长和最高识别分数与对应阈值的关系，可以确定出音频对应的角色是否为未知角色，在确定是未知角色的情况下，将未知角色注册到声纹识别的模型库中，这样无需提前注册，后续就可以进行声纹角色分离，从而解决了现有技术中需要进行提前注册才能进行声纹角色分离的问题，该方案相比现有技术需要提前注册的方案来说，其易用性较强，适用场景较广。
94.以上上述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李志杰李健陈明武卫东
技术所有人：北京捷通华声科技股份有限公司
我是此专利的发明人

上一篇：一种农业物联网数据采集设备的制作方法
上一篇：一种激光能量检测装置的制作方法