语种识别方法、装置、电子设备及存储介质与流程

文档序号：30095257发布日期：2022-05-18 10:37阅读：156来源：国知局

1.本发明涉及语音交互技术领域，尤其涉及一种语种识别方法、装置、电子设备及存储介质。

背景技术：

2.语种识别也称语种辨识，是指由机器自动判断一个语音片段所属某个语言种类的过程。语种识别技术经过几十年的发展，展现了巨大的应用价值和发展潜力，得到了广泛的应用。
3.目前主流的语种识别方法在各语种数据分布均衡时(如c个语种，每个语种占比在1/c上下)，语种识别效果较好，能够达到可用级别，但现实环境中，语种分布均衡的场景很少，更多的是语种分布不均衡的场景，甚至在特殊情况下，例如：语种种类较多且部分语种占比极少的情况，则目前的语种识别方法的识别效果下降明显，无法准确识别出分布占比较少的语种。

技术实现要素：

4.本发明提供一种语种识别方法、装置、电子设备及存储介质，用以解决现有技术中语种识别方法在语种数据分布失衡情况下，对分布占比小的语种识别效果差及准确率低的缺陷。
5.本发明提供一种语种识别方法，包括：
6.基于骨干网络，提取待识别语音的语种特征；
7.基于全量样本集，确定所述语种特征的第一识别结果；所述全量样本集包括全量语种的第一样本语音，且所述全量语种的第一样本语音分布均衡；
8.和/或，基于多个数据量分类样本集，确定所述语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，所述多个数据量分类样本集基于所述全量语种的第二样本语音的数据量划分得到；
9.基于所述第一识别结果和/或所述第二识别结果，确定语种识别结果。
10.根据本发明提供的一种语种识别方法，所述基于全量样本集，确定所述语种特征的第一识别结果，包括：
11.基于第一语种识别模型，对所述语种特征进行语种分类，得到所述第一识别结果；
12.所述第一语种识别模型是基于所述全量样本集训练所得第一分类网络中的第一分类层，所述第一分类网络包括所述骨干网络和所述第一分类层。
13.根据本发明提供的一种语种识别方法，所述基于多个数据量分类样本集，确定所述语种特征的第二识别结果，包括：
14.对所述语种特征进行数据量类别分类，得到所述语种特征的数据量类别分类结果；
15.基于多个数据量类别分别对应的第二语种识别模型，对所述语种特征进行语种分
类，得到所述语种特征在所述多个数据量类别下的语种分类结果，所述多个数据量类别分别对应的第二语种识别模型基于所述多个数据量分类样本集训练得到；
16.基于所述数据量类别分类结果和所述多个数据量类别下的语种分类结果，确定所述第二识别结果。
17.根据本发明提供的一种语种识别方法，所述基于所述数据量类别分类结果和所述多个数据量类别下的语种分类结果，确定所述第二识别结果，包括：
18.基于所述数据量类别分类结果中任一数据量类别的后验概率和所述任一数据量类别对应的语种分类结果，确定所述任一数据量类别的部分语种识别结果；
19.基于各数据量类别的部分语种识别结果，得到所述第二识别结果。
20.根据本发明提供的一种语种识别方法，所述多个数据量类别分别对应的第二语种识别模型基于如下步骤训练得到：
21.确定第二分类网络，所述第二分类网络包括所述骨干网络和第二分类层；
22.基于任一数据量分类样本集，对所述第二分类网络进行训练，将训练完成的所述第二分类网络中的第二分类层作为所述任一数据量分类样本集对应数据量类别的第二语种识别模型。
23.根据本发明提供的一种语种识别方法，所述基于所述第一识别结果和/或所述第二识别结果，确定语种识别结果，包括：
24.基于多个特征分类样本集，确定所述语种特征的第三识别结果；每个特征分类样本集包括对应特征类别的语种的第三样本语音，所述多个特征分类样本集基于所述全量语种的样本语音的语种特征划分得到；
25.基于所述第一识别结果和/或所述第二识别结果，以及所述第三识别结果，确定所述语种识别结果。
26.根据本发明提供的一种语种识别方法，所述基于多个特征分类样本集，确定所述语种特征的第三识别结果，包括：
27.对所述语种特征进行特征类别分类，得到所述语种特征的特征类别分类结果；
28.基于多个特征类别分别对应的第三语种识别模型，对所述语种特征进行语种分类，得到所述语种特征在所述多个特征类别下的语种分类结果，所述多个特征类别分别对应的第三语种识别模型基于所述多个特征分类样本集训练得到；
29.基于所述特征类别分类结果和所述多个特征类别下的语种分类结果，确定所述第三识别结果。
30.根据本发明提供的一种语种识别方法，所述基于所述特征类别分类结果和所述多个特征类别下的语种分类结果，确定所述第三识别结果，包括
31.基于所述特征类别分类结果中任一特征类别的后验概率和所述任一特征类别对应的语种分类结果，确定所述任一特征类别的部分语种识别结果；
32.基于各特征类别的部分语种识别结果，得到所述第三识别结果。
33.根据本发明提供的一种语种识别方法，所述多个特征类别分别对应的第三语种识别模型基于如下步骤训练得到：
34.确定第三分类网络，所述第三分类网络包括所述骨干网络和第三分类层；
35.基于任一特征分类样本集，对所述第三分类网络进行训练，将训练完成的所述第
三分类网络中的第三分类层作为所述任一特征分类样本集对应特征类别的第三语种识别模型。
36.本发明还提供一种语种识别装置，包括：特征确定模块，用于基于骨干网络，提取待识别语音的语种特征；
37.语种识别模块，用于基于全量样本集，确定所述语种特征的第一识别结果；所述全量样本集包括全量语种的第一样本语音，且所述全量语种的第一样本语音分布均衡；
38.和/或，基于多个数据量分类样本集，确定所述语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，所述多个数据量分类样本集基于所述全量语种的第二样本语音的数据量划分得到；
39.结果确定模块，用于基于所述第一识别结果和/或所述第二识别结果，确定语种识别结果。
40.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语种识别方法的步骤。
41.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语种识别方法的步骤。
42.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语种识别方法的步骤。
43.本发明提供的语种识别方法、装置、电子设备及存储介质，通过训练获取到的语音分布均衡的全量样本集和语种识别结果的映射关系，确定语种特征的第一识别结果，降低样本随机采样时分布占比大的语种主导网络参数训练导致分布占比小的语种识别不佳的情况，提高了分布占比小的语种的识别率，通过训练获取到的多个数据量分类样本集和语种识别结果的映射关系，确定第二识别结果，降低训练样本语音数据量不平衡导致对样本语音数据量占比小的语种识别不佳的情况，提高了训练样本语音数据量占比小的语种的识别率，并且通过第一识别结果联合第二识别结果确定语种识别结果，实现了两个结果相互验证，进一步提升了语种识别的准确率。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明提供的语种识别方法的流程示意图；
46.图2是本发明提供的获取第二识别结果方法的流程示意图之一；
47.图3是本发明提供的获取第二识别结果方法的流程示意图之二；
48.图4是本发明提供的数据量类别对应的第二语种识别模型训练方法流程示意图；
49.图5是本发明提供的获取语种识别结果方法流程示意图；
50.图6是本发明提供的骨干网络训练的结构示意图；
51.图7是本发明提供的第一分类网络训练的结构示意图；
52.图8是本发明提供的第二分类网络训练的结构示意图；
53.图9是本发明提供的第三分类网络训练的结构示意图；
54.图10是本发明提供的语种识别装置的结构示意图；
55.图11是本发明提供的电子设备的结构示意图。
具体实施方式
56.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
57.目前主流的语种识别方法以tv(total variability)系统为例，从tv系统识别方案的技术本身上来看，其训练阶段有两步至关重要，一步为ubm(背景模型)及t(因子正交空间)的训练，另一步为lda(线性变换空间)训练。ubm及t训练后得到对应模型，用来将sdc(shifted delta cepstra，转移差分倒谱)特征映射为等维度的i-vector。当数据分布失衡时，由于少数类数据的训练数据较少，此时学习得到的ubm及t参数会向多数类数据的方向偏移。lda训练利用原始带标签的i-vector训练得到降维矩阵，使同类语种数据距离尽可能小，不同类语种数据距离尽可能大。当数据分布失衡时，得到的降维矩阵同样会向多数类数据的方向偏移。以上两步训练使得数据失衡场景下的语种识别，占比少数类的语种识别效果下降非常明显，无法使用。
58.因此，如何在语种数据占比失衡的情况下准确的识别出包括分布占比小的语种数据中的各语种是本领亟待解决的技术问题。
59.针对上述情况，本发明实施例提供了一种语种识别方法，图1是本发明提供的语种识别方法的流程示意图。如图1所示，该方法包括：
60.步骤110，基于骨干网络，提取待识别语音的语种特征；
61.具体地，待识别语音的语种特征是将待语种识别的语音输入至骨干网络中，由骨干网络进行特征提取并输出得到的。待语种识别的语音可以包含有一个语种或者多个语种，本发明实施例对此不作限制。
62.需要说明的是，串接初始骨干网络和线性全连接层，基于收集到的全量语种的样本集中的样本，通过在全量语种的样本集中随机选取样本对串接的初始骨干网络和线性全连接层进行训练，在串接的初始骨干网络和线性全连接层收敛后，则收敛后的初始骨干网络为骨干网络。
63.步骤120，基于全量样本集，确定语种特征的第一识别结果；全量样本集包括全量语种的第一样本语音，且全量语种的第一样本语音分布均衡；
64.和/或，基于多个数据量分类样本集，确定语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，多个数据量分类样本集基于全量语种的第二样本语音的数据量划分得到；
65.步骤130，基于第一识别结果和/或第二识别结果，确定语种识别结果。
66.具体地，第一识别结果是通过对待识别语音的语种特征进行语种分类得到的，此处的对待识别语音的语种特征进行语种分类可以是通过预先获取的语种映射关系，对待识
别语音的语种特征进行语种分类映射得到，此处的语种映射关系，具体可以体现为通过模型训练得到的第一语种识别模型。
67.此处，第一语种识别模型是根据语音分布均衡的全量语种的第一样本语音作为全量样本集训练得到的。其中，全量语种指的是根据语种识别需求收集到的用于训练的每个语种，全量样本集的获取方式是通过从大量样本中选取得到全量语种中每个语种的等量样本语音。特别地，考虑到现有的语种识别方法中对分布占比小的语种识别率低，因此，在第一语种识别模型训练的时候使用分布均衡的样本语音，有助于提升对分布占比小的语种的识别率。
68.需要说明的是，第一样本语音分布均衡中的分布均衡指的是样本语音中各类语种的数据量分布均衡，例如：样本语音中包含有三类语种a、b和c，那么样本语音分布均衡指的是全部样本语音中a、b和c三类语种的样本语音的数据量在全部样本数据量中的占比接近(如a、b和c样本数据量在全部样本数据量的占比在33％左右)。
69.第二识别结果是通过对待识别语音的语种特征进行语种分类得到的，此处的对待识别语音的语种特征进行语种分类可以是预先获取的一个数据量类别分类映射关系和多个数据量类别对应的语种映射关系，并基于数据量类别分类映射关系和多个数据量类别对应的语种映射关系，对待识别语音的语种特征进行语种分类映射得到，其中，数据量类别分类映射关系对待识别语音的语种特征进行数据量类别的分类得到待识别语音的语种特征的数据量分类结果，具体可以体现为通过模型训练得到的数据量类别分类模型，多个数据量类别对应的第二语种映射关系分别对待识别语音的语种特征进行语种分类得到的，此处的多个映射关系，具体可以体现为通过模型训练得到的多个数据量类别分别对应的第二语种识别模型。
70.此处，每个数据量类别对应的第二语种识别模型是根据其数据量类别对应语种的第二样本集训练得到的，其中，数据量类别是基于样本数据量的大小对全量语种的第二样本集进行分类，例如：数据量101条到200条为一数据量类别，数据量201条到300条为另一数据量类别，本发明对此不作限制。其中，需要保证各数据量类别中的各语种的数据量要尽可能接近。特别地，考虑到现实环境中有一些语种的样本较难以获取，导致现有的语种识别方法会因语种样本数据量的不同导致影响模型的训练效果，进而导致模型对样本少的语种的识别率低，因此，根据样本数据量对全量语种的第二样本语种进行数据量类别分类，并分别使用数据量类别中的语种的第二样本语种对该数据量类别对应的第二语种识别模型进行训练，有助于降低因样本数据量占比对模型训练的影响，进而提高模型的语种识别率。
71.需要说明的是，第二识别结果可以对待识别语音的语种特征先通过数据量类别分类模型对待识别语音的语种特征进行数据量类别分类得到数据量类别分类结果，再基于数据量类别的分类结果对应的第二语种识别模型，对待识别语音的语种特征进行语种分类得到，还可以通过数据量类别分类模型对待识别语音的语种特征进行数据量类别分类得到数据量类别分类结果，多个数据量类别对应的第二语种识别模型对待识别语音的语种特征进行语种识别得到多个部分语种识别结果，再基于数据量类别分类结果和多个部分语种识别结果得到，本发明实施例对此不作限制。
72.需要说明的是，针对同一语种的第一样本语音和第二样本语音，“第一”和“第二”用于区分样本语音属于全量样本集或是数据量分类样本集。
73.其中，针对任一语种而言，该语种的第一样本语音和第二样本语音的内容可以相同也可以不同，第一样本语音和第二样本语音的数据量同样可以相同也可以不同。进一步地，第一样本语音可以是从该语种的样本语音中选取的部分样本语音，第二样本语音可以是该语种的样本语音的全部。
74.步骤130中，可以将第一识别结果或者第二识别结果直接作为最终的语种识别结果，也可以将第一识别结果联合第二识别结果得到最终的语种识别结果，例如可以将第一识别结果和第二识别结果进行加权或者求两个结果中各对应语种后验概率的平均值，本发明实施例对此不作限制。
75.本发明实施例提供的语种识别方法，通过训练获取到的语音分布均衡的全量样本集和语种识别结果的映射关系，确定待识别语音的语种特征的第一识别结果，降低样本随机采样时分布占比大的语种主导网络参数训练导致分布占比小的语种识别不佳的情况，提高了分布占比小的语种的识别率，通过训练获取到的多个数据量分类样本集和语种识别结果的映射关系，确定第二识别结果，降低训练样本语音数据量不平衡导致对样本语音数据量占比小的语种识别不佳的情况，提高了训练样本语音数据量占比小的语种的识别率，并且可以通过第一识别结果联合第二识别结果确定语种识别结果，实现了两个结果相互验证，进一步提升了语种识别的准确率。
76.基于上述实施例，步骤120中基于全量样本集，确定语种特征的第一识别结果，包括：
77.基于第一语种识别模型，对语种特征进行语种分类，得到第一识别结果；
78.第一语种识别模型是基于全量样本集训练所得第一分类网络中的第一分类层，第一分类网络包括骨干网络和第一分类层。
79.具体地，第一分类网络的训练是将骨干网络的参数固定，使用全量样本集对第一分类网络进行训练，并将训练完成的第一分类网络中的第一分类层作为第一语种识别模型。第一语种识别模型用于对语种特征进行语种分类，并输出得到第一识别结果。本发明实施例通过均衡分布的全量样本集训练得到的第一语种识别模型，能够降低样本随机采样时分布占比大的语种主导网络参数训练导致分布占比小的语种识别不佳的情况，提高了分布占比小的语种的识别率。
80.基于上述实施例，图2是本发明提供的获取第二识别结果方法的流程示意图之一。如图2所示，步骤120中的基于多个数据量分类样本集，确定语种特征的第二识别结果，包括：
81.步骤210，对语种特征进行数据量类别分类，得到语种特征的数据量类别分类结果；
82.步骤220，基于多个数据量类别分别对应的第二语种识别模型，对语种特征进行语种分类，得到语种特征在多个数据量类别下的语种分类结果，多个数据量类别分别对应的第二语种识别模型基于多个数据量分类样本集训练得到；
83.考虑到若是先对待识别语音的语种特征进行数据量类别分类得到数据量类别分类结果，然后基于数据量类别分类结果中判断数据量类别对应的第二语种识别模型对语种特征进行语种识别，得到语种识别结果，此种情形下待识别语音的语种特征进行语种识别时会完全依赖于数据量类别分类的结果，一旦数据量类别的分类结果错误，将直接导致后
续语种识别任务的失败。因此，本发明实施例同时考虑数据量类别分类模型输出的分类结果和多个数据量类别分别对应的第二语种识别模型输出的部分语种识别结果。
84.具体地，步骤210将待识别语音的语种特征输入至数据量类别分类模型中，得到由数据量类别分类模型输出的待识别语音的语种特征的数据量类别分类结果。
85.步骤220将待识别语音的语种特征分别输入至每一个数据量类别对应的第二语种识别模型，由每一个数据量类别对应的第二语种识别模型输出该数据量类别下的语种分类结果。其中，每一个数据量类别对应的第二语种识别模型是根据该数据量类别对应的数据量分类样本训练得到的。
86.需要说明的是，步骤210和步骤220的执行顺序不分先后，步骤210和步骤220可以是串行的也可以是并行的，本发明实施例对此不作限制。
87.步骤230，基于数据量类别分类结果和多个数据量类别下的语种分类结果，确定第二识别结果。
88.需要说明的是，第二识别结果可以对数据量分类结果中的各数据量类别的后验概率由高到低排序，选取最高的预设个数个数据量类别，然后将这些数据量类别下的语种分类结果中的语种分类后验概率最高的语种作为第二识别结果，还可以将数据量分类结果中的每个数据量类别的后验概率分别与该数据量类别下的语种分类结果中的各语种分类后验概率进行加权或者相乘，得到每个数据量类别对应的部分语种识别结果，将各数据量类别对应的部分语种识别结果并集得到第二识别结果，本发明实施例对此不作限制。
89.基于上述实施例，图3是本发明提供的获取第二识别结果方法的流程示意图之二。如图3所示，步骤230包括：
90.步骤231，基于数据量类别分类结果中任一数据量类别的后验概率和该数据量类别对应的语种分类结果，确定该数据量类别的部分语种识别结果；
91.步骤232，基于各数据量类别的部分语种识别结果，得到第二识别结果。
92.考虑到待识别语音的语种特征在进行语种识别时，可能会出现在数据量类别分类结果中某一类数据量类别的后验概率很低，但是在该类数据量类别对应的语种分类结果下的某一个语种后验概率很高，而产生误分类的情况。因此，本发明实施例将数据量类别分类结果中的各数据量类别的后验概率分别与其数据量类别对应的语种分类结果中的各语种的后验概率进行乘积。
93.具体地，数据量类别分类结果中的各数据量类别的后验概率分别与其数据量类别对应的语种分类结果中的各语种的后验概率进行乘积，得到各语种数据量类别的部分语种识别结果。例如，数据量类别为a，a类别中包含有a1、a2和a3三个语种，待识别语音的语种特征在数据量类别分类结果中a的后验概率为pa，该语种特征在a数据量类别对应的语种分类结果中a1的后验概率为p
a1
，a2的后验概率为p
a2
，以及a3的后验概率为p
a3
，则a数据量类别的部分语种识别结果为：a1语种识别结果为pa×
p
a1
，a2语种识别结果为pa×
p
a2
，a3语种识别结果为pa×
p
a3
。
94.然后基于各数据量类别的部分语种识别结果，得到第二识别结果。需要说明的是第二识别结果可以直接是根据各数据量类别的部分语种识别结果的并集得到的，还可以是在得到每个数据量类别的部分语种识别结果之后，可以对每个数据量类别的部分语种识别结果中的各语种识别结果进行归一化，得到每个数据量类别的部分语种识别结果中的各语
种的得分，并基于数据量类别的部分语种识别结果中的各语种的得分得到，本发明实施例对此不作限制。
95.基于上述实施例，图4是本发明提供的数据量类别对应的第二语种识别模型训练方法流程示意图。如图4所示，步骤220中的多个数据量类别分别对应的第二语种识别模型基于如下步骤训练得到：
96.步骤410，确定第二分类网络，第二分类网络包括骨干网络和第二分类层；
97.具体地，确定包括有骨干网络和第二分类层的第二分类网络，其中，骨干网络用于提取样本的语种特征，第二分类层为未训练的分类网络。
98.步骤420，基于任一数据量分类样本集，对第二分类网络进行训练，将训练完成的第二分类网络中的第二分类层作为该数据量分类样本集对应数据量类别的第二语种识别模型。
99.具体地，第二分类网络的训练是固定骨干网络的网络参数，通过任一数据量分类样本集中的各样本对第二分类网络进行训练，并将训练完成的第二分类网络中的第二分类层作为该数据量分类样本集对应数据量类别的第二语种识别模型。
100.需要说明的是，每个数据量分类样本集都有与之对应的第二分类网络，例如：三个数据量类别对应的数据量分类样本集分别记为a、b和c，则数据量分类样本集a对应一个第二分类网络，数据量分类样本集b对应一个第二分类网络，以及数据量分类样本集c对应一个第二分类网络。
101.基于上述实施例，图5是本发明提供的获取语种识别结果方法流程示意图。如图5所示，步骤130包括：
102.步骤131，基于多个特征分类样本集，确定待识别语音的第三识别结果；每个特征分类样本集包括对应特征类别的语种的第三样本语音，多个特征分类样本集基于全量语种的样本语音的语种特征划分得到；
103.步骤132，基于第一识别结果和/或第二识别结果，以及第三识别结果，确定语种识别结果。
104.具体地，第三识别结果是通过对待识别语音的语种特征进行语种分类得到的，此处的对待识别语音的语种特征进行语种分类可以是预先获取的一个特征类别分类映射关系和多个特征类别对应的语种映射关系，并基于特征类别分类映射关系和多个特征类别对应的语种映射关系，对待识别语音的语种特征进行语种分类映射得到，其中，特征分类映射关系对待识别语音的语种特征进行特征类别的分类得到待识别语音的语种特征的特征分类结果，具体可以体现为通过模型训练得到的特征类别分类模型，多个特征类别对应的语种映射关系分别对待识别语音的语种特征进行语种分类得到的，此处的多个映射关系，具体可以体现为通过模型训练得到的多个特征类别分别对应的第三语种识别模型。
105.此处，每个特征类别对应的第三语种识别模型是根据其特征类别对应的语种的第三样本集训练得到的，其中，特征类别是样本特征的相似性聚类分类。特别地，考虑到语音特征相近的待识别语音的语种特征在进行语种识别时容易产生混淆，导致语音特征相近的各语种同时识别时的识别率较低，因此，根据样本特征对全量语种的第三样本语种进行特征类别分类，并分别使用特征类别中的语种的第三样本语种对该特征类别对应的第三语种识别模型进行训练，有助于提高模型对易混淆语种的识别率。
106.需要说明的是，第三识别结果可以对待识别语音的语种特征先通过特征类别分类模型对待识别语音的语种特征进行特征类别分类得到特征类别分类结果，再基于特征类别的分类结果对应的第三语种识别模型，对待识别语音的语种特征进行语种分类得到，还可以通过特征类别分类模型对待识别语音的语种特征进行特征类别分类得到特征类别分类结果，多个特征类别对应的第三语种识别模型对待识别语音的语种特征进行语种识别得到多个部分语种识别结果，再基于特征类别分类结果和多个部分语种识别结果得到，本发明实施例对此不作限制。
107.此外，针对于同一语种，此处的“第三”用于和上文所述的“第一”和“第二”以区别。用于表示样本语音属于特征分类样本集。针对于同一语种而言，该语种的第三样本语音可以和上文所述的第一样本语音或者第二样本语音的内容相同也可以不同，第三样本语音可以和上文所述的第一样本语音或者第二样本语音的特征类别相同也可以不同，并且第三样本语音可以是该语种的全部样本语音也可以是从该语种中选取的部分样本语音，本发明实施例对此不作限制。
108.步骤132，可以将第一识别结果或者第二识别结果，结合第三识别结果作为最终的语种识别结果，也可以将第一识别结果、第二识别结果和第三识别结果联合得到最终的语种识别结果，例如可以将第一识别结果、第二识别结果和第三识别结果进行加权或者求三个结果中各对应语种后验概率的平均值，本发明实施例对此不作限制。
109.本发明实施例提供的语种识别方法，通过训练获取到的多个特征分类样本集和语种识别结果的映射关系，确定的第三识别结果，提高了对易混淆语种特征的语种识别率，并且通过第一识别结果、第二识别结果和第三识别结果联合确定语种识别结果，实现了三个结果相互验证，进一步提升了语种识别的准确率。
110.基于上述实施例，步骤131中的基于多个特征分类样本集，确定语种特征的第三识别结果，包括：
111.步骤610，对语种特征进行特征类别分类，得到语种特征的特征类别分类结果；
112.步骤620，基于多个特征类别分别对应的第三语种识别模型，对语种特征进行语种分类，得到语种特征在多个特征类别下的语种分类结果，多个特征类别分别对应的第三语种识别模型基于多个特征分类样本集训练得到；
113.考虑到若是先对待识别语音的语种特征进行特征类别分类得到特征类别分类结果，然后基于特征类别分类结果中判断特征类别对应的第三语种识别模型对语种特征进行语种识别，得到语种识别结果，此种情形下待识别语音的语种特征进行语种识别时会完全依赖于特征类别分类的结果，一旦特征类别的分类结果错误，将直接导致后续语种识别任务的失败。因此，本发明实施例同时考虑特征类别分类模型输出的分类结果和多个特征类别分别对应的第三语种识别模型输出的部分语种识别结果。
114.具体地，步骤610将待识别语音的语种特征输入至特征类别分类模型中，得到由特征类别分类模型输出的待识别语音的语种特征的特征类别分类结果。
115.步骤620将待识别语音的语种特征分别输入至每一个特征类别对应的第三语种识别模型，由每一个特征类别对应的第三语种识别模型输出该特征类别下的语种分类结果。其中，每一个特征类别对应的第三语种识别模型是根据该特征类别对应的特征分类样本训练得到的。
116.需要说明的是，步骤610和步骤620的执行顺序不分先后，步骤610和步骤620可以是串行的也可以是并行的，本发明实施例对此不作限制。
117.步骤630，基于特征类别分类结果和多个特征类别下的语种分类结果，确定第三识别结果。
118.需要说明的是，第三识别结果可以对特征分类结果中的各特征类别的后验概率由高到低排序，选取最高的预设个数个特征类别，然后将这些特征类别下的语种分类结果中的语种分类后验概率最高的语种作为第三识别结果，还可以将特征分类结果中的每个特征类别的后验概率分别与该特征类别下的语种分类结果中的各语种分类后验概率进行加权或者相乘，得到每个特征类别对应的部分语种识别结果，将各特征类别对应的部分语种识别结果并集得到第三识别结果，本发明实施例对此不作限制。
119.基于上述实施例，步骤630包括：
120.步骤631，基于特征类别分类结果中任一特征类别的后验概率和该特征类别对应的语种分类结果，确定该特征类别的部分语种识别结果；
121.步骤632，基于各特征类别的部分语种识别结果，得到第三识别结果。
122.考虑到待识别语音的语种特征在进行语种识别时，可能会出现在特征类别分类结果中某一类特征类别的后验概率很低，但是在该类特征类别对应的语种分类结果下的某一个语种后验概率很高，而产生误分类的情况。因此，本发明实施例将特征类别分类结果中的各特征类别的后验概率分别与其特征类别对应的语种分类结果中的各语种的后验概率进行乘积。
123.具体地，特征类别分类结果中的各特征类别的后验概率分别与其特征类别对应的语种分类结果中的各语种的后验概率进行乘积，得到各语种特征类别的部分语种识别结果。例如，特征类别为a，a类别中包含有a1、a2和a3三个语种，待识别语音的语种特征在特征类别分类结果中a的后验概率为pa，该语种特征在a特征类别对应的语种分类结果中a1的后验概率为p
a1
，a2的后验概率为p
a2
，以及a3的后验概率为p
a3
，则a特征类别的部分语种识别结果为：a1语种识别结果为pa×
p
a1
，a2语种识别结果为pa×
p
a2
，a3语种识别结果为pa×
p
a3
。
124.然后基于各特征类别的部分语种识别结果，得到第二识别结果。
125.需要说明的是第二识别结果可以直接是根据各特征类别的部分语种识别结果的并集得到的，还可以是在得到每个特征类别的部分语种识别结果之后，可以对每个特征类别的部分语种识别结果中的各语种识别结果进行归一化，得到每个特征类别的部分语种识别结果中的各语种的得分，并基于特征类别的部分语种识别结果中的各语种的得分得到，本发明实施例对此不作限制。
126.基于上述实施例，步骤620中的多个特征类别分别对应的第三语种识别模型基于如下步骤训练得到：
127.步骤810，确定第三分类网络，第三分类网络包括骨干网络和第三分类层；
128.具体地，确定包括有骨干网络和第三分类层的第三分类网络，其中，骨干网络用于提取样本的语种特征，第三分类层为未训练的分类网络。
129.步骤820，基于任一特征分类样本集，对第三分类网络进行训练，将训练完成的第三分类网络中的第三分类层作为该特征分类样本集对应特征类别的第三语种识别模型。
130.具体地，第三分类网络的训练是固定骨干网络的网络参数，通过任一特征分类样
本集中的各样本对第三分类网络进行训练，并将训练完成的第三分类网络中的第三分类层作为该特征分类样本集对应特征类别的第三语种识别模型。
131.需要说明的是，每个特征分类样本集都有与之对应的第三分类网络，例如：三个特征类别对应的特征分类样本集分别记为a、b和c，则特征分类样本集a对应一个第三分类网络，特征分类样本集b对应一个第三分类网络，以及特征分类样本集c对应一个第三分类网络。
132.基于上述实施例，本发明实施例还提供一种语种识别方法，能够在语种数据分布失衡、语种类别较多的场景中，准确识别出目标语种。本发明实施例通过语种识别系统对语音进行语种识别，该系统包括骨干网络、以及第一语种识别模型、第二语种识别模型和第三语种识别模型，其中，第一语种识别模型对应下文中通过策略1得到的语种识别模型，第二语种识别模型对应下文中通过策略2得到的语种识别模型，第三语种识别模型对应下文中通过策略3得到的语种识别模型。该系统采用resnet(残差网络)语种识别模型，利用带标注信息的全量语种的样本集，通过三种策略，训练三种语种识别模型，最后将三种语种识别模型的得分做融合，提升语种识别效果。此处，三种语种识别模型即第一语种识别模型、第二语种识别模型和第三语种识别模型，三种模型得分即第一语种识别结果、第二语种识别结果和第三语种识别结果。
133.在训练三种语种识别模型之前，首先使用带标注信息的全量语种的样本集，采用ce loss(交叉熵损失函数)训练骨干网络部分，以此提取语种特征。之后固定住骨干网络的网络参数，分别采用不同策略训练第一语种识别模型、第二语种识别模型和第三语种识别模型。
134.在策略1中，基于骨干网络和第一分类层构建第一分类网络。采用类平衡采样的方式得到全量语种的均衡样本集，即全量样本集。采用解耦训练的方式，固定第一分类网络中的骨干网络，基于全量样本集训练第一分类层得到第一语种识别模型，从而降低样本随机采样时样本数据量大的语种语音主导网络参数训练导致样本数据量小的语种识别不佳的情况；策略2中，将全量语种的样本集按照各语种样本数据量大小分成m个数据量类别，并且使得各数据量类别中的各语种的样本数据量分布尽可能接近，基于骨干网络和各数据量类别对应的第二分类层构建各数据量类别对应的第二分类网络，并采用策略1的方式，基于各数据量分类样本集训练各自数据量类别对应的第二分类层得到各自数据量类别对应的第二语种识别模型，以降低样本数据量不平衡导致对模型训练效果的影响，同时，基于骨干网络和数据量类别分类层构建初始数据量类别分类模型，并基于各数据量分类样本集训练初始数据量类别分类模型，得到数据量类别分类模型，数据量类别分类模型用于在识别时得到语音的数据量类别分类结果；策略3中，利用传统方案tv技术提取全量语种的样本集中样本的i-vector，然后设置阈值，采用聚类的方式，将全量语种的样本集聚成几个特征类别，基于骨干网络和各特征类别对应的第三分类层构建各特征类别对应的第三分类网络，并采用策略1的方式，基于各特征分类样本集训练各自特征类别对应的第三分类层得到各自特征类别对应的第三语种识别模型，以此提升c类语种中易混淆语种识别的效果，同时，基于骨干网络和特征类别分类层构建初始特征类别分类模型，并基于各特征分类样本集训练初始特征类别分类模型，得到特征类别分类模型，特征类别分类模型用于在识别时得到语音的特征类别分类结果。识别时，策略2及策略3模型融合了大分类(策略2中的数据量类别分
类模型；策略3中的特征类别分类模型)与子分类模型(策略2中的第二语种识别模型；策略3中的第三语种识别模型)之间的得分，即策略2是数据量分类结果和各数据量类别对应的第二语种识别模型的识别结果之间的得分，以及策略3是特征分类结果和各特征类别对应的第三语种识别模型的识别结果之间的得分，降低了语种误判的情况。最后三种策略分别给出语音的得分，将三种得分取平均值，取得分最大者对应的语种类型为语种识别结果。
135.上述语种识别系统的分训练与识别两个部分，具体如下：
136.训练阶段：
137.训练分成两个阶段，第一阶段主要训练骨干网络(resnet backbone)参数，用于提取语种特征；第二阶段固定resnet backbone参数，分别训练三种策略的语种识别模型。
138.步骤一：准备训练的全量语种的样本集，收集各语种的样本，要求每个语种最低收集1小时的样本。
139.步骤二：对步骤一中全量语种的样本集中的样本，滤除静音噪声等无效样本，并提取sdc特征。
140.步骤三：图6是本发明提供的骨干网络训练的结构示意图。如图6所示，串接骨干网络与线性全连接层1(fc layer1)，采用ce loss训练网络。在该步训练中，数据采样为样本随机选取。网络初始学习率设置为0.1，利用损失函数，反复迭代步骤三至串接的骨干网络与线性全连接层1收敛。
141.步骤四：图7是本发明提供的第一分类网络训练的结构示意图。如图7所示，在步骤三的基础上，第一分类网络的训练基于全量样本集实现。具体固定住训练完成的骨干网络的网络参数，对骨干网络输出的语种特征embeding送入第一分类层，即线性全连接层2(fc2layer)进行分类，采用ce loss训练网络至第一分类层收敛。
142.在该步训练中，特别需要注意，全量样本集是通过采用类均衡采样器从全量语种的样本集中选择获取，保证每个语种的样本数据量的比例基本一致，以此减少样本数据量大的语种对第一分类层的主导，使得样本数据量小的语种也能得到充分训练。
143.步骤五：反复迭代步骤四至ce loss稳定或达到最大迭代次数，此时策略1的第一分类层训练完成，将fc layer2作为第一语种识别模型。
144.步骤六：图8是本发明提供的第二分类网络训练的结构示意图。如图8所示，按照每个类别语种的样本数据量，划分m个数据量类别，基于m个数据量分类样本集分别训练数据量类别分类模型及m个数据量类别对应的第二语种识别模型，其中数据量类别分类模型用于将语音分类到m个数据量类别中的某一类别，而m个数据量类别对应的第二语种识别模型则用于识别语音的语种类别。基于m个数据量分类样本集训练数据量类别分类模型，具体地，固定骨干网络参数，将骨干网络输出的语种特征embeding送入大小为m
×
1的数据量类别分类层(线性全连接层)。基于第i个数据量分类样本集训练第i个数据量类别对应的第二分类网络，具体地，假设第i个数据量类别包含有ti种类别的语种，固定骨干网络参数，将骨干网络输出的语种特征embeding送入大小为ti
×
1的第i个数据量类别对应的第二分类网络中的第二分类层(线性全连接层)。
145.该步训练方式与策略1模型训练方式一致，采用类平衡采样及ce loss准则训练网络。此处应该注意，按照样本数据量划分数据量类别时，尽量做到每个数据量类别内各类语种样本数据量尽量均衡。反复迭代，至各数据量类别对应第二分类网络中的第二分类层收
敛得到策略2的各数据量类别对应的第二语种识别模型。
146.步骤七：利用步骤二中的特征，利用em算法(最大期望算法)训练ubm及t(因子正交空间)矩阵，并提取样本语音的i-vector。
147.步骤八：采用ap(affinity propagation)聚类算法对步骤七中的所有i-vector做聚类，合理设置聚类阈值，待聚类完成后，统计每个聚类的特征类别下的语种类别，如果出现某个语种的样本语音的i-vector出现在多个特征类别中，只取含有该语种样本语音的i-vector数量最多的特征类别作为聚类划分得到的该语种的特征类别。假定聚类完成后，共聚成n个特征类别。
148.步骤九：图9是本发明提供的第三分类网络训练的结构示意图。如图9所示，对步骤八中按照聚类划分的n个特征类别，基于n个特征分类样本集分别训练特征类别分类模型及n个特征类别对应的第三语种识别模型，其中特征类别分类模型用于将语音分类到n个特征类别中的某一特征类别，而特征类别对应的第三语种识别模型则用于识别语音的语种类别。同样按照策略1模型训练方式训练，反复迭代至各特征类别对应第三分类网络中的第三分类层收敛得到策略3的各特征类别对应的第三语种识别模型。
149.识别阶段：
150.步骤一：对待识别的语音提取sdc特征，即语种特征；
151.步骤二：将步骤一提取的语种特征输入至策略1中的第一语种识别模型，得到策略1中的第一语种识别模型输出各语种类别的后验概率，将后验概率采用softmax函数归一化，得到各语种分类的得分，记为第一识别结果pstrategy_1＝{pstrategy_1_1，
…
，pstrategy_1_j，
…
，pstrategy_1_c}，其中c表示训练语种的类别数，其中，1《j《c。
152.步骤三：加载策略2中的数据量类别分类模型及m个数据量类别对应的第二语种识别模型，先利用数据量类别分类模型计算出步骤一提取的语种特征在m个数据量类别上的后验概率，将后验概率采用softmax函数归一化，记为fnumsplit＝{fnumsplit_1，
…
，fnumsplit_i，
…
，fnumsplit_m}，再基于步骤一提取的语种特征分别计算m个数据量类别对应的第二语种识别模型上各类语种的后验概率，具体地，假设第i个数据量类别对应的第二语种识别模型上有ti个语种类别，记步骤一提取的语种特征经过第i个数据量类别对应的第二语种识别模型上的ti个语种类别的后验概率为gnumsplit_i＝{gnumsplit_i_1，
…
，gnumsplit_i_k，
…
，gnumsplit_i_ti}，那么记策略2输出的后验概率为unumsplit_i＝fnumsplit_i*gnumsplit_i＝{fnumsplit_i*gnumsplit_i_1，
…
，fnumsplit_i*gnumsplit_i_k，
…
，fnumsplit_i*gnumsplit_i_ti}，接着将unumsplit_i采用softmax函数归一化，得到步骤一提取的语种特征经过第i个数据量类别对应的第二语种识别模型的打分，pnumsplit_i＝{pnumsplit_i_1，
…
，pnumsplit_i_k，
…
，pnumsplit_i_ti}，其中pnumsplit_i_k(若第i个特征类别的第k个语种在策略2中的语种索引为j，在策略2中记为pstrategy_2_j)计算公式如下：
153.154.按照此方法依次求解出c个语种类别的分数，记为第二识别结果pstrategy_2＝{pstrategy_2_1，
…
，pstrategy_2_j，
…
，pstrategy_2_c}。
155.此步中之所以将数据量类别分类模型的分类概率用上，主要是为了防止步骤一提取的语种特征在第i个数据量类别上分数很低，但在第i个数据量类别对应的第二语种识别模型上某个语种类别softmax之后的打分却很高，导致单看m个数据量类别对应的第二语种识别模型上的打分导致待识别的语音误分类的情况。
156.步骤四：加载策略3中的特征类别分类模型及n个特征类别对应的第三语种识别模型，先利用特征类别分类模型计算出步骤一提取的语种特征在n个特征类别上的后验概率，将后验概率采用softmax函数归一化，记为fclustersplit＝{fclustersplit_1，
…
，fclustersplit_i，
…
，fclustersplit_n}，再基于步骤一提取的语种特征分别计算n个特征类别对应的第三语种识别模型上各类语种的后验概率，具体地，假设第i个特征类别对应的第三语种识别模型上有li个语种类别，记步骤一提取的语种特征经过第i个特征类别对应的第三语种识别模型上的后验概率为gclustersplit_i＝{gclustersplit_i_1，
…
，gclustersplit_i_k，
…
，gclustersplit_i_li}，那么计其策略3输出的后验概率为uclustersplit_i＝fclustersplit_i*gclustersplit_i＝{fclustersplit_i*gclustersplit_i_1，
…
，fclustersplit_i*gclustersplit_i_k，
…
，fclustersplit_i*gclustersplit_i_li}，接着将uclustersplit_i采用softmax函数归一化，得到步骤一提取的语种特征经过第i个特征类别对应的第三语种识别模型的打分，pclustersplit_i＝{pclustersplit_i_1，
…
，pclustersplit_i_k，
…
，pclustersplit_i_li}，其中pclustersplit_i_k(若第i个特征类别的第k个语种在策略3中的语种索引为j，在策略3中记为pstrategy_3_j)计算公式如下：
[0157][0158]
按照此方法依次求解出c个语种类别的分数，记为第三识别结果pstrategy_3＝{pstrategy_3_1，
…
，pstrategy_3_j，
…
，pstrategy_3_c}。
[0159]
此步中之所以将特征类别分类模型的分类概率用上，主要是为了防止步骤一提取的语种特征在第i个特征类别上分数很低，但在第i个特征类别对应的第三语种识别模型上某个语种类别softmax之后的打分却很高，导致单看n个特征类别对应的第三语种识别模型上的打分导致待识别的语音误分类的情况。
[0160]
步骤五：将步骤二至步骤四中得到的每个语种类别的分数，即对第一识别结果、第二识别结果和第三识别结果求均值，记为paverage＝{paverage_1，
…
，paverage_i，
…
，paverage_c}，其中paverage_i计算公式如下：
[0161][0162]
取paverage中得分最大者对应的语种类别作为待识别语音最终的语种识别结果。
[0163]
下面对本发明提供的语种识别装置进行描述，下文描述的语种识别装置与上文描述的语种识别方法可相互对应参照。
[0164]
图10是本发明提供的语种识别装置的结构示意图。如图10所示，该装置包括：特征确定模块1010、语种识别模块1020和结果确定模块1030。
[0165]
其中，
[0166]
特征确定模块1010，用于基于骨干网络，提取待识别语音的语种特征；
[0167]
语种识别模块1020，用于基于全量样本集，确定语种特征的第一识别结果；全量样本集包括全量语种的第一样本语音，且全量语种的第一样本语音分布均衡；
[0168]
和/或，基于多个数据量分类样本集，确定语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，多个数据量分类样本集基于全量语种的第二样本语音的数据量划分得到；
[0169]
结果确定模块1030，用于基于第一识别结果和/或第二识别结果，确定语种识别结果。
[0170]
在本发明实施例中，通过特征确定模块1010，用于确定语种特征的语种特征；
[0171]
语种识别模块1020，用于基于全量样本集，确定语种特征的第一识别结果；全量样本集包括全量语种的第一样本语音，且全量语种的第一样本语音分布均衡；和/或，基于多个数据量分类样本集，确定语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，多个数据量分类样本集基于全量语种的第二样本语音的数据量划分得到；结果确定模块1030，用于基于第一识别结果和/或第二识别结果，确定语种识别结果，降低样本随机采样时分布占比大的语种主导网络参数训练导致分布占比小的语种识别不佳的情况，提高了分布占比小的语种的识别率，以及降低训练样本语音数据量不平衡导致对样本语音数据量占比小的语种识别不佳的情况，提高了训练样本语音数据量占比小的语种的识别率，并且可以通过第一识别结果联合第二识别结果确定语种识别结果，实现了两个结果相互验证，进一步提升了语种识别的准确率。
[0172]
基于上述任一实施例，语种识别模块1020，包括：
[0173]
确定第一识别结果子模块，用于基于第一语种识别模型，对语种特征进行语种分类，得到第一识别结果；
[0174]
第一语种识别模型训练模块，用于基于全量样本集训练所得第一分类网络中的第一分类层作为第一语种识别模型；第一分类网络包括骨干网络和第一分类层。
[0175]
基于上述任一实施例，语种识别模块1020，包括：
[0176]
数据量类别分类子模块，用于对语种特征进行数据量类别分类，得到语种特征的数据量类别分类结果；
[0177]
数据量分类语种识别子模块，用于基于多个数据量类别分别对应的第二语种识别模型，对语种特征进行语种分类，得到语种特征在多个数据量类别下的语种分类结果，多个数据量类别分别对应的第二语种识别模型基于多个数据量分类样本集训练得到；
[0178]
第二识别结果确定子模块，用于基于数据量类别分类结果和多个数据量类别下的语种分类结果，确定第二识别结果。
[0179]
基于上述任一实施例，第二识别结果确定子模块，包括：
[0180]
数据量类别部分语种识别结果确定子模块，用于基于数据量类别分类结果中任一
数据量类别的后验概率和该数据量类别对应的语种分类结果，确定该数据量类别的部分语种识别结果；
[0181]
第二识别结果计算子模块，用于基于各数据量类别的部分语种识别结果，得到第二识别结果。
[0182]
基于上述任一实施例，数据量分类语种识别子模块，包括：
[0183]
第二分类网络确定子模块，用于确定第二分类网络，第二分类网络包括骨干网络和第二分类层；
[0184]
数据量类别的语种识别模型训练子模块，用于基于任一数据量分类样本集，对第二分类网络进行训练，将训练完成的第二分类网络中的第二分类层作为该数据量分类样本集对应数据量类别的第二语种识别模型。
[0185]
基于上述任一实施例，结果确定模块1030，包括：
[0186]
第三识别结果确定子模块，用于基于多个特征分类样本集，确定语种特征的第三识别结果；每个特征分类样本集包括对应特征类别的语种的第三样本语音，多个特征分类样本集基于全量语种的样本语音的语种特征划分得到；
[0187]
语种识别结果确定子模块，用于基于第一识别结果和/或第二识别结果，以及第三识别结果，确定语种识别结果。
[0188]
基于上述任一实施例，第三识别结果确定子模块，包括：
[0189]
特征分类类别分类子模块，用于对语种特征进行特征类别分类，得到语种特征的特征类别分类结果；
[0190]
特征分类语种识别子模块，用于基于多个特征类别分别对应的第三语种识别模型，对语种特征进行语种分类，得到语种特征在多个特征类别下的语种分类结果，多个特征类别分别对应的第三语种识别模型基于多个特征分类样本集训练得到；
[0191]
确定第三识别结果子模块，用于基于特征类别分类结果和多个特征类别下的语种分类结果，确定第三识别结果。
[0192]
基于上述任一实施例，确定第三识别结果子模块，包括：
[0193]
特征类别部分语种识别结果确定子模块，基于特征类别分类结果中任一特征类别的后验概率和该特征类别对应的语种分类结果，确定该特征类别的部分语种识别结果；
[0194]
第三识别结果计算子模块，用于基于各特征类别的部分语种识别结果，得到第三识别结果。
[0195]
基于上述任一实施例，特征分类语种识别子模块，包括：
[0196]
第三分类网络确定子模块，用于第三分类网络，第三分类网络包括骨干网络和第三分类层；
[0197]
特征类别的语种识别模型训练子模块，用于基于任一特征分类样本集，对第三分类网络进行训练，将训练完成的第三分类网络中的第三分类层作为该特征分类样本集对应特征类别的第三语种识别模型。
[0198]
图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(communications interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行语种识别方法，该
方法包括：基于骨干网络，提取待识别语音的语种特征；基于全量样本集，确定语种特征的第一识别结果；全量样本集包括全量语种的第一样本语音，且全量语种的第一样本语音分布均衡；和/或，基于多个数据量分类样本集，确定语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，多个数据量分类样本集基于全量语种的第二样本语音的数据量划分得到；基于第一识别结果和/或第二识别结果，确定语种识别结果。
[0199]
此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0200]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语种识别方法，该方法包括：基于骨干网络，提取待识别语音的语种特征；基于全量样本集，确定语种特征的第一识别结果；全量样本集包括全量语种的第一样本语音，且全量语种的第一样本语音分布均衡；和/或，基于多个数据量分类样本集，确定语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，多个数据量分类样本集基于全量语种的第二样本语音的数据量划分得到；基于第一识别结果和/或第二识别结果，确定语种识别结果。
[0201]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语种识别方法，该方法包括：基于骨干网络，提取待识别语音的语种特征；基于全量样本集，确定语种特征的第一识别结果；全量样本集包括全量语种的第一样本语音，且全量语种的第一样本语音分布均衡；和/或，基于多个数据量分类样本集，确定语种特征的第二识别结果；每个数据量分类样本集包括对应数据量类别的语种的第二样本语音，多个数据量分类样本集基于全量语种的第二样本语音的数据量划分得到；基于第一识别结果和/或第二识别结果，确定语种识别结果。
[0202]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0203]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指
令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0204]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨军
技术所有人：合肥讯飞数码科技有限公司
我是此专利的发明人

上一篇：一种胶料生产用上料装置的制作方法
上一篇：烹饪设备的清洗控制方法和烹饪设备与流程