语音识别方法、装置、存储介质及设备与流程

文档序号：33493765发布日期：2023-03-17 20:38阅读：30来源：国知局

1.本技术实施例涉及语音识别技术领域，尤其涉及一种语音识别方法装置、存储介质及设备。

背景技术：

2.随着全球化进程不断加剧，混合语种的交流体现在政治、经济、体育、文化等各方面，大到官方洽谈，小到日常口语交流。语音识别技术通过将音频信号转化为更加直观的文字记录，近年来快速发展，催生了大量应用，例如视频加字幕、自动会议纪要等，极大地便利了人们生活。同时，进一步提升了对于混合语种语音识别系统识别性能的要求。
3.然而，由于混合语种交流过于灵活且混合语种音频转录成本较高，导致训练数据稀缺。因此，混合语种语音识别模型的识别效果往往差于单一语种的语音识别模型，很难满足现有的混合语种的交流场景。

技术实现要素：

4.鉴于上述问题，本技术实施例提供一种语音识别方法装置、存储介质及设备，主要目的在于解决目前语音识别过程中语音识别的准确性较差的问题。
5.为解决上述技术问题，第一方面，本技术实施例提供了一种语音识别方法，该方法可以包括：
6.获取语音信息，上述语音信息包括至少两种语种的语音；
7.基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同；
8.分别获取每个上述解码部分的解码结果，以确定语音识别结果。
9.在上述第一方面的第一种可能的实施方式中，每个上述训练集中的语种及粒度的组合不同。
10.在上述第一方面的第二种可能的实施方式中，上述训练粒度包括单个字符、分词单元和单词，其中，上述分词单元由上述单个字符组成，上述单词由上述分词单元组成。
11.在上述第一方面的第三种可能的实施方式中，上述分别获取每个所述解码部分的解码结果，以确定语音识别结果，可以包括：
12.分别获取每个上述解码部分的解码结果；
13.计算每个上述解码部分的解码结果的置信分数；
14.确定置信分数最高的解码结果为语音识别结果。
15.在上述第一方面的第四种可能的实施方式中，上述确定置信分数最高的解码结果为语音识别结果之前，还可以包括：
16.比较获取的所述解码结果，若存在相同解码结果，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数。
17.在上述第一方面的第五种可能的实施方式中，上述确定置信分数最高的解码结果为语音识别结果之前，上述方法还可以包括：
18.计算每个上述解码部分关联的结果词表的大小；
19.基于计算获得的每个上述结果词表的大小，更新上述结果词表关联的上述解码部分的解码结果的置信分数。
20.在上述第一方面的第六种可能的实施方式中，上述语音识别模型的结果词表包括训练集外天然中英混合文本和/或训练集内单一语种文本加工后获得的文本。
21.在上述第一方面的第七种可能的实施方式中，上述训练集内单一语种文本加工的加工方式包括替换所述单一语种文本中的名称和/或代词为其他语种。
22.第二方面，本技术实施例还提供了一种语音识别装置，可以包括：获取单元、识别单元和确定单元，
23.上述获取单元，可以用于获取语音信息，上述语音信息包括至少两种语种的语音；
24.上述识别单元，可以用于基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度不同；
25.上述确定单元，可以用于分别获取每个上述解码部分的解码结果，以确定语音识别结果。
26.在上述第二方面的第一种可能的实施方式中，每个上述训练集中的语种及粒度的组合不同。
27.在上述第二方面的第二种可能的实施方式中，上述训练粒度可以包括单个字符、分词单元和单词，其中，上述分词单元由上述单个字符组成，上述单词由上述分词单元组成。
28.在上述第二方面的第三种可能的实施方式中，上述确定单元具体可以用于：
29.分别获取每个上述解码部分的解码结果；
30.计算每个上述解码部分的解码结果的置信分数；
31.确定置信分数最高的解码结果为语音识别结果。
32.在上述第二方面的第四种可能的实施方式中，上述确定单元还可以用于：
33.比较获取的上述解码结果，若存在相同解码结果，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数。
34.在上述第二方面的第五种可能的实施方式中，上述确定单元还可以用于：
35.计算每个上述解码部分关联的结果词表的大小；
36.基于计算获得的每个上述结果词表的大小，更新上述结果词表关联的上述解码部分的解码结果的置信分数。
37.在上述第二方面的第六种可能的实施方式中，上述语音识别模型的结果词表可以包括训练集外天然中英混合文本和/或训练集内单一语种文本加工后获得的文本。
38.在上述第二方面的第七种可能的实施方式中，上述训练集内单一语种文本加工的加工方式可以包括替换所述单一语种文本中的名称和/或代词为其他语种。
39.为了实现上述目的，根据本技术实施例的第三方面，提供了一种存储介质，上述存储介质可以包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上
述第一方面中任一项所述的语音识别方法。
40.为了实现上述目的，根据本技术实施例的第四方面，提供了一种电子设备，设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器；所述处理器用于调用所述存储器中的程序指令，执行上述第一方面中任一项所述的语音识别方法。
41.借由上述技术方案，本技术实施例提供的语音识别方法，通过采用获取语音信息，上述语音信息包括至少两种语种的语音。基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同。分别获取每个上述解码部分的解码结果，以确定语音识别结果。由于语音识别系统性能，具备数据导向的特性，即训练数据越完备，数据量越大，识别系统的性能也就越好。由于解码部分对应的训练集的粒度的组合不同，使得同一条混合语种音频可以得到多种不同的标签序列，整体来看混合语种训练语料可用性增加了多倍，一定程度上缓解了训练集的数据量稀缺的困境，提高了语音识别的准确性。此外，同一混合语种音频叠加不同粒度的标签序列进行语音识别模型训练时，使语音识别模型关注到多种发音组合情况，进一步提高了语音识别的准确性。并且，由于多粒度语音识别模型包括至少两个相互独立的解码部分模，所以上述由不同粒度的训练集进行训练得到的模型的解码部分相互独立。通过分别获取每个解码部分的解码结果，可以综合选择与待解码音频发音组合匹配度最高的解码结果作为最终解码结果，进一步提升了语音识别模型的识别性能和准确性。
42.上述语音识别装置、存储介质与电子设备由于采用了上述语音识别方法，也具有相应的效果，上述说明仅是本技术实施例技术方案的概述，为了能够更清楚了解本技术实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本技术实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术实施例的具体实施方式。
附图说明
43.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本技术实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
44.图1示出了本技术实施例提供的一种语音识别方法的示意性流程图；
45.图2示出了本技术实施例提供的一种多粒度语音识别模型的示意性框架图；
46.图3示出了本技术实施例提供的一种语音识别装置的示意性结构框图；
47.图4示出了本技术实施例提供的一种用于语音识别的电子设备的示意性结构框图。
具体实施方式
48.下面将参照附图更详细地描述本技术实施例的示例性实施例。虽然附图中显示了本技术实施例的示例性实施例，然而应当理解，可以以各种形式实现本技术实施例而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本技术实施例，并且能够将本技术实施例的范围完整的传达给本领域的技术人员。
49.为了解决目前语音识别过程中语音识别的准确性较差的问题，本技术实施例提供
了一种语音识别方法，如图1所示，该方法可以包括：s110至s130。
50.s110：获取语音信息，上述语音信息包括至少两种语种的语音。
51.需要说明的是，上述语音信息可以是在多种场景下获取到的语音信息，例如，可以是在会议交流中的一段包括至少两种语种的语音。上述语种可以是英语、日语等不同国家的语音，也可以是广东话、上海话等同一国家不同地区具有一定差异的方言。
52.s120：基于多粒度语音识别模型对上述语音信息进行识别。
53.其中，上述多粒度语音识别模型可以包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同。
54.示例性的，上述多粒度语音识别模型可以使用典型的神经网络模型transformer模型的编码部分encoder和解码部分decoder结构，encoder采用卷积神经网络进行时域的下采样，降低计算复杂度。transformer结构，提高了多粒度语音识别模型计算的并行能力，缓解了顺序计算过程中的信息丢失问题。示例性的，由于上述训练集的粒度，可以是指对同一条混合语种语音的基于不同粒度的拆分方式，那么由于拆分粒度的不同，导致基于同一条混合语种语音可以得到不同的标签序列，也即基于不同粒度的拆分方式对语音数据序列进行标签可以得到不同的标签序列。因此，基于不同粒度的拆分方式的组合对语音数据序列进行标签可以得到不同的标签序列。基于不同粒度进行建模及训练，可以使encoder后并联多种建模方式下的decoder，同样采用transformer模型结构。
55.s130：分别获取每个上述解码部分的解码结果，以确定语音识别结果。
56.示例性的，可以通过attention注意力算法机制，通过各decoder解码得到各粒度下概率最高的解码路径作为候选解码结果。需要说明的是，这里的算法机制在此不做限定，可以是attention注意力算法机制下多种attention算法，也可采用具有类似功能的其他算法。并且，在通过各解码部分decoder获得解码结果后，可以对各解码部分decoder获得解码结果进行比较和综合分析，从而确定最终的语音识别结果。
57.综上，本技术实施例提供的语音识别方法，通过采用获取语音信息，上述语音信息包括至少两种语种的语音。基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同。分别获取每个上述解码部分的解码结果，以确定语音识别结果。由于语音识别系统性能，具备数据导向的特性，即训练数据越完备，数据量越大，识别系统的性能也就越好。由于解码部分对应的训练集的粒度的组合不同，使得同一条混合语种音频可以得到多种不同的标签序列，整体来看混合语种训练语料可用性增加了多倍，一定程度上缓解了训练集的数据量稀缺的困境，提高了语音识别的准确性。此外，同一混合语种音频叠加不同粒度的标签序列进行语音识别模型训练时，使语音识别模型关注到多种发音组合情况，进一步提高了语音识别的准确性。并且，由于多粒度语音识别模型包括至少两个相互独立的解码部分，所以上述由不同粒度的训练集进行训练得到的模型的解码部分相互独立。通过分别获取每个解码部分的解码结果，可以综合选择与待解码音频发音组合匹配度最高的解码结果作为最终解码结果，进一步提升了语音识别模型的识别性能和准确性。
58.在一些示例中，每个上述训练集中的语种及粒度的组合不同。以针对中英混合语种的语音识别模型为例，输出部分decoder1的识别结果可以是基于第一训练粒度下的中文和第一训练粒度下的英文的组合获得的，输出部分decoder2的识别结果可以是基于第二训
练粒度下的中文和第二训练粒度下的英文的组合获得的，输出部分decoder3的识别结果可以是基于第一训练粒度下的中文和第二训练粒度下的英文的组合获得的，输出部分decoder4的识别结果可以是基于第二训练粒度下的中文和第一训练粒度下的英文的组合获得的。因此，由于每个上述训练集中的语种及粒度的组合不同，使得经过语种和训练粒度的组合，能过形成更多种具有不同粒度的相互独立的解码部分，那么由于拆分粒度的不同，导致基于同一条混合语种语音可以得到不同的标签序列，也即基于不同粒度的拆分方式对语音数据序列进行标签可以得到不同的标签序列，解决了由于训练数据稀缺导致的识别模型识别不准确的问题。
59.在一些示例中，上述训练集的选取并非需要满足所有语种及粒度的所有可能的组合。例如，假定中文有两种拆分粒度，假定英文有两种拆分粒度。那么针对中英混合语种的语音识别模型，所有语种及粒度的所有可能的组合包括第一训练粒度下的中文和第一训练粒度下的英文的组合，第二训练粒度下的中文和第二训练粒度下的英文的组合，第一训练粒度下的中文和第二训练粒度下的英文的组合，以及，第二训练粒度下的中文和第一训练粒度下的英文的组合。
60.可以理解的是，在一些语音识别模型中，可以仅包括decoder1、decoder2及decoder3。其中，输出部分decoder1的识别结果可以是基于第一训练粒度下的中文和第一训练粒度下的英文的组合获得的，输出部分decoder2的识别结果可以是基于第二训练粒度下的中文和第二训练粒度下的英文的组合获得的，输出部分decoder3的识别结果可以是基于第一训练粒度下的中文和第二训练粒度下的英文的组合获得的。
61.在另一些语音识别模型中，可以语音识别模型中，可以仅包括decoder1和decoder2。其中，输出部分decoder1的识别结果可以是基于第一训练粒度下的中文和第一训练粒度下的英文的组合获得的，输出部分decoder2的识别结果可以是基于第二训练粒度下的中文和第二训练粒度下的英文的组合获得的。
62.在又一些语音识别模型中，可以仅包括decoder2、decoder3及decoder4。其中，输出部分decoder2的识别结果可以是基于第二训练粒度下的中文和第二训练粒度下的英文的组合获得的，输出部分decoder3的识别结果可以是基于第一训练粒度下的中文和第二训练粒度下的英文的组合获得的，输出部分decoder4的识别结果可以是基于第二训练粒度下的中文和第一训练粒度下的英文的组合获得的。示例性的，上述训练粒度可以包括char单个字符、subword分词单元和word单词，其中，上述分词单元由上述单个字符组成，上述单词由上述分词单元组成。神经网络模型进行训练时，需要选定词表和建模单元，进而将文本映射为方便神经网络操作的整数序列。可以基于以下粒度进行建模及训练：单个字符粒度，分词单元粒度，单词粒度。以英文为例，若采用char建模，则仅需将26个字母和“,.”等几个符号各自映射为唯一的整数索引，就实现将任意英文文本的序列化工作。这26个字母和特殊符号，就组成了词表。word建模方式更为直接，将所有的英文单词映射为唯一的整数索引，所有word共同构成了词表。但常用的word数量大约有2～3万，基于构建的词表过大，且部分词出现频次较低，数据较为稀疏，导致模型训练存在一定的难度，一般不使用。综合考虑，subword则是根据特定的算法将单词拆分为词缀，比如可将“subword”拆分成词缀“sub”和“word”，可以选取部分词缀共同组成词表，采用该方式建模可以有效控制词表大小，常见的方法有bpe(byte pair encoder)字节对编码、unigram一元分词方法等，在此不做限定。
63.还是以中文和英文混合语音的识别模型为例，如果采用char单个字符和subword分词单元作为训练粒度，那么可以通过多个decoder的损失函数加权和，作为最终损失函数，在encoder进行梯度反向传播更新权重，从而不断的进行模型优化，其中，损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。
64.以中文和英文混合语音的识别模型为例，如果采用char单个字符和subword分词单元作为训练粒度，最终损失函数的公式可以表示为：
65.loss＝w
cc+ec
*loss
cc+ec
+w
cc+es
*loss
cc+es
+w
cs+ec
*loss
cs+ec
66.++w
cs+es
*loss
cs+
67.其中，loss
cc+ec
为中文char+英文char建模attention decoder的损失函数，w
cc+ec
为其权重。loss
cc+es
为中文char+英文subword建模attention decoder的损失函数，w
cc+es
为其权重。loss
cs+ec
为中文subword+英文char建模attention decoder的损失函数，w
cs+ec
为其权重。loss
cs+es
为中文subword+英文subword建模attention decoder的损失函数，w
cs+e
为其权重。示例性的，在此方案中可以将四种decoder的权重不做区分，因此各个decoder的权重都相等且等于1/4。
68.示例性的，如图2所示，上述多粒度语音识别模型可以包括一个编码部分和四个解码部分，语音信息在上述编码部分进行编码，上述语音信息可以包括语种1和语种2两种语种，对解码部分的建模和训练的粒度可以包括单个字符粒度和分词单元粒度，上述四个解码部分可分为：解码部分1，语种1单个字符粒度、语种2单个字符粒度；解码部分2，语种1单个字符粒度、语种2分词单元粒度；解码部分3，语种1分词单元粒度、语种2单个字符粒度；解码部分4，语种1分词单元粒度，语种2分词单元粒度。并通过上述四个解码部分可获得，解码结果1至解码结果4的四个相互独立的解码结果。
69.示例性的，由于解码部分的数量可以通过语种数量和训练粒度共同确定，在语种包括语种1、语种2和第3种语种，对解码部分的建模和训练的粒度可以包括单个字符粒度、分词单元粒度和单词粒度，编码器部分最多可以分为：解码部分1，语种1单个字符粒度、语种2单个字符粒度和语种3单个字符粒度；解码部分2，语种1单个分词粒度、语种2单个字符粒度和语种3单个字符粒度等27个解码部分，并通过上述27个解码部分可获得解码结果1至解码结果27的二十七个相互独立的解码结果。需要说明的是，也可以选取其中的部分解码部分作为选定的解码部分实现上述方案，在此不做限定。
70.根据一些实施例，上述分别获取每个所述解码部分的解码结果，以确定语音识别结果，可以包括：
71.分别获取每个上述解码部分的解码结果；
72.计算每个上述解码部分的解码结果的置信分数；
73.确定置信分数最高的解码结果为语音识别结果。
74.需要说明的是，上述多粒度语音识别模型，可以针对同一条音频生成多个独立的解码结果。最直接的确定语音识别结果的方式是采用最优解码方式，即是在候选解码结果里选择置信分最高的解码结果作为最终结果输出语音识别结果。
75.示例性的，decoder进行解码时，为了提高解码性能，一般采用集束搜索(beam search)策略，通过广度优先搜索构建解码图，得到解码结果的次优解。设定beam search的beam size为n，最终将得到n条解码序列构成的解码结果，表示针对于当前音频对应的最有
可能的n条解码结果。还是以图2所示的多粒度四decoder的模型架构为例，解码后将得到4n条解码结果。每条解码结果对应置信分数score s,score s反映了给定该条音频解码出该文本的后验概率的大小，可表示为：
76.si＝log(p(yi|x)),i∈1～n
77.其中，x表示当前音频，yi表示第i条解码序列，p(yi|x)表示当前音频x对应的解码序列为yi的概率，si即为该条结果的解码分数，也即该条结果的置信分数，分数越高对应后验概率越大。通过对解码结果的置信分数score s进行排序，可以选择最高分数对应的解码结果作为最终结果以确认语音识别结果。
78.需要说明的是，由于不同解码部分decoder的beam search结果可能包含相同的解码结果，不考虑此种情况，很可能导致对解码结果的置信分数参数误算，从而降低了语音识别模型进行语音识别的准确性。
79.在一些示例中，为了避免上述问题的发生，上述确定置信分数最高的解码结果为语音识别结果之前，还可以包括：
80.比较获取的所述解码结果，若存在相同解码结果，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数。
81.示例性的，可以统计候选序列也就是解码部分输出的解码结果中出现的序列种类,最终得到m种序列。计算每种序列的平均置信分数：
[0082][0083]
其中，nj代表在所有解码结果中有nj条相同解码结果对应解码序列j，sk是其对应的置信分数。
[0084]
通过对解码结果的置信分数进行排序，可以选择最高分数对应的解码结果作为最终结果以确认语音识别结果。这里，由于考虑了不同解码部分decoder的beam search结果可能包含相同的解码结果的情况，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数，能够有效避免对解码结果的置信分数参数误算的问题，进一步提高了语音识别模型进行语音识别的准确性。
[0085]
需要说明的是，由于上述语音识别模型采用多粒度的建模和训练策略，最终使用到多种建模单元组合，因此，各个decoder对应的词表大小有所差异。例如，a词表大小为l，b词表大小为q，当模型未进行训练时从最大似然的角度考虑，给定一段语音，模型给定的词表中每个单元的概率都是相等的。
[0086]
即，在a词表概率为b词表概率为可见词表大小本身会影响到后验概率的输出，即使模型训练收敛后该影响也会存在。
[0087]
不考虑此种情况，很可能导致对解码结果的置信分数参数误算，从而降低了语音识别模型进行语音识别的准确性。
[0088]
在一些示例中，为了避免上述问题的发生，上述确定置信分数最高的解码结果为语音识别结果之前，上述方法还可以包括：
[0089]
计算每个上述解码部分关联的结果词表的大小；
[0090]
基于计算获得的每个上述结果词表的大小，更新上述结果词表关联的上述解码部分的解码结果的置信分数。
[0091]
示例性的，可以统计得到各个结果词表的大小v1，v2，v3，v4，每条解码结果对应置信分score s可表示为：
[0092]
si＝log(p(yi|x)),i∈1～n
[0093]
其中，x表示当前音频，yi表示第i条解码序列，p(yi|x)表示当前音频x对应的解码序列为yi的概率，si即为该条结果的解码分数，分数越高对应后验概率越大。通常的情况时直接通过对解码结果的置信分数score s进行排序，可以选择最高分数对应的解码结果作为最终结果以确认语音识别结果。但是，在考虑各个结果词表的大小v1，v2，v3，v4的情况下，可以根据解码序列所属的decoder对应的词表大小，更新解码结果的置信分数：
[0094][0095]
其中，s
i’表示解码结果i原始的分数，vk表示解码结果i是由decoder k输出的结果，且其词表大小为vk。这里，由于考虑了各个decoder对应的词表大小有所差异，避免了可能导致对解码结果的置信分数参数误算，从而提高了语音识别模型进行语音识别的准确性。当然，这里也可以考虑由于不同解码部分decoder的beam search结果可能包含相同的解码结果的情况，可以继续统计候选序列也就是解码部分输出的解码结果中出现的序列种类,最终得到m种序列。计算每种序列的平均置信分数：
[0096][0097]
其中，nj代表在所有解码结果中有nj条相同解码结果对应解码序列j，sk是其对应的置信分数。通过对解码结果的置信分数进行排序，可以选择最高分数对应的解码结果作为最终结果以确认语音识别结果。这里，由于考虑了不同解码部分decoder的beam search结果可能包含相同的解码结果的情况，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数，进一步提高了语音识别模型进行语音识别的准确性。
[0098]
需要说明的是，由于原本训练集内混合种语语料稀缺，混合语种语语料序列类型、组合受限，无法反映各种应用场景的真实情况，例如，当采用subword建模时，仅根据训练集内数据文本内容生成结果词表时，词表在统计意义是偏离真实分布的，会导致语音识别模型的识别结果欠佳。但由于虽然混合语种的音频训练数据标注成本较高，但是混合语种文本语料可以便利地大量获取。基于此，在一些示例中，上述语音识别模型的结果词表包括训练集外天然中英混合文本和/或训练集内单一语种文本加工后获得的文本。上述训练集外天然中英混合文本可通过多种方式在日常数据中获取，训练集内单一语种文本加工后获得的文本的方式可以得到伪造的混合语种文本。起到扩充结果词表的作用，进一步提高经训练后语音识别模型进行语音识别的准确性。
[0099]
在一些示例中，上述训练集内单一语种文本加工的加工方式包括替换所述单一语种文本中的名称和/或代词为其他语种。示例性的，统计集内英文、中英文文本涉及到的所有英文单词，过滤上述所有英文单词，仅保留英文名词或代词，查找中英词典，将集内中文文本中可替换的词组替换为上述英文名词或代词，进而得到中英混合文本。具体的，例如，
每条中文文本随机替换1～3个单词。起到扩充结果词表的作用，进一步提高经训练后语音识别模型进行语音识别的准确性。
[0100]
进一步的，作为对上述图1所示方法的实现，本技术实施例还提供了一种语音识别装置，用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示，该装置包括：获取单元310、识别单元320和确定单元330，其中，
[0101]
获取单元310，可以用于获取语音信息，上述语音信息包括至少两种语种的语音；
[0102]
识别单元320，可以用于基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同；
[0103]
确定单元330，可以用于分别获取每个上述解码部分的解码结果，以确定语音识别结果。
[0104]
借由上述技术方案，本技术实施例提供的语音识别装置，通过采用获取语音信息，上述语音信息包括至少两种语种的语音。基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同。分别获取每个上述解码部分的解码结果，以确定语音识别结果。由于语音识别系统性能，具备数据导向的特性，即训练数据越完备，数据量越大，识别系统的性能也就越好。由于解码部分对应的训练集的粒度的组合不同，使得同一条混合语种音频可以得到多种不同的标签序列，整体来看混合语种训练语料可用性增加了多倍，一定程度上缓解了训练集的数据量稀缺的困境，提高了语音识别的准确性。此外，同一混合语种音频叠加不同粒度的标签序列进行语音识别模型训练时，使语音识别模型关注到多种发音组合情况，进一步提高了语音识别的准确性。并且，由于多粒度语音识别模型包括至少两个相互独立的解码部分模，所以上述由不同粒度的训练集进行训练得到的模型的解码部分相互独立。通过分别获取每个解码部分的解码结果，可以综合选择与待解码音频发音组合匹配度最高的解码结果作为最终解码结果，进一步提升了语音识别模型的识别性能和准确性。
[0105]
在一些示例中，每个上述训练集中的语种及粒度的组合不同。
[0106]
在一些示例中，上述训练粒度可以包括单个字符、分词单元和单词，其中，上述分词单元由上述单个字符组成，上述单词由上述分词单元组成。
[0107]
在一些示例中，上述确定单元具体可以用于：
[0108]
分别获取每个上述解码部分的解码结果；
[0109]
计算每个上述解码部分的解码结果的置信分数；
[0110]
确定置信分数最高的解码结果为语音识别结果。
[0111]
在一些示例中，上述确定单元还可以用于：
[0112]
比较获取的上述解码结果，若存在相同解码结果，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数。
[0113]
在一些示例中，上述确定单元还可以用于：
[0114]
计算每个上述解码部分关联的结果词表的大小；
[0115]
基于计算获得的每个上述结果词表的大小，更新上述结果词表关联的上述解码部分的解码结果的置信分数。
[0116]
在一些示例中，上述语音识别模型的结果词表可以包括训练集外天然中英混合文本和/或训练集内单一语种文本加工后获得的文本。
[0117]
在一些示例中，上述训练集内单一语种文本加工的加工方式可以包括替换所述单一语种文本中的名称和/或代词为其他语种。
[0118]
处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决目前语音识别过程中语音识别的准确性较差的问题。
[0119]
本技术实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音识别方法。
[0120]
本技术实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音识别方法。
[0121]
本技术实施例提供了一种设备400，如图4所示，设备包括至少一个处理器410、以及与处理器连接的至少一个存储器420；其中，处理器410、存储器420相互间的通信；处理器410用于调用存储器420中的程序指令，以执行上述的语音识别方法。
[0122]
本文中的设备可以是服务器、pc、pad、手机等。
[0123]
本技术还提供了一种计算机程序产品，当在流程管理设备上执行时，适于执行初始化有如下方法步骤的程序：获取语音信息，上述语音信息包括至少两种语种的语音；基于多粒度语音识别模型对上述语音信息进行识别，其中，上述多粒度语音识别模型包括至少两个相互独立的解码部分，每个上述解码部分对应的训练集的粒度的组合不同；分别获取每个上述解码部分的解码结果，以确定语音识别结果。
[0124]
在一些示例中，每个上述训练集中的语种及粒度的组合不同。
[0125]
在一些示例中，上述训练粒度包括单个字符、分词单元和单词，其中，上述分词单元由上述单个字符组成，上述单词由上述分词单元组成。
[0126]
在一些示例中，上述分别获取每个所述解码部分的解码结果，以确定语音识别结果，可以包括：
[0127]
分别获取每个上述解码部分的解码结果；
[0128]
计算每个上述解码部分的解码结果的置信分数；
[0129]
确定置信分数最高的解码结果为语音识别结果。
[0130]
在一些示例中，上述确定置信分数最高的解码结果为语音识别结果之前，还可以包括：
[0131]
比较获取的所述解码结果，若存在相同解码结果，合并上述相同解码结果的后验概率，以计算上述相同解码结果的置信分数。
[0132]
在一些示例中，上述确定置信分数最高的解码结果为语音识别结果之前，上述方法还可以包括：
[0133]
计算每个上述解码部分关联的结果词表的大小；
[0134]
基于计算获得的每个上述结果词表的大小，更新上述结果词表关联的上述解码部分的解码结果的置信分数。
[0135]
在一些示例中，上述语音识别模型的结果词表包括训练集外天然中英混合文本
和/或训练集内单一语种文本加工后获得的文本。
[0136]
在一些示例中，上述训练集内单一语种文本加工的加工方式包括替换所述单一语种文本中的名称和/或代词为其他语种。
[0137]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程流程管理设备的处理器以产生一个机器，使得通过计算机或其他可编程流程管理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
在一个典型的配置中，设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0139]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0140]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0141]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0142]
本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0143]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾杨蒋栋蔚高强谢戚鑫李昕
技术所有人：北京猿力未来科技有限公司
我是此专利的发明人

上一篇：一种便于对电能表、终端进行联调测试装置的制作方法
上一篇：一种镜片粗胚铣磨设备的制作方法