语音识别模型选择方法、装置、电子设备及存储介质与流程

文档序号：33399901发布日期：2023-03-08 15:56阅读：37来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种语音识别模型选择方法、装置、电子设备及存储介质。

背景技术：

2.相关技术中，对于不同的语音识别应用场景，通常采用通用的语音识别技术模型，但由于不同模型都有相应的约束条件，通用的语音识别模型不能够适用于所有应用场景，因此相关技术存在着语音识别模型与应用场景适配性较差而导致的语音识别准确性较低的问题。

技术实现要素：

3.有鉴于此，本技术的目的在于提出一种语音识别模型选择方法、装置、电子设备及存储介质。
4.基于上述目的，在第一方面，本技术提供了一种语音识别模型选择方法，包括：
5.根据决策树模型构建评价指标；
6.对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据；
7.对于预先获取的每个语音识别模型，
8.将所述测试音频数据输入所述语音识别模型以确定识别文本数据，
9.根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据；
10.根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分；
11.选择所述总得分最高的语音识别模型作为目标语音识别模型。
12.在第二方面，本技术提供了一种语音识别模型选择装置，包括：
13.构建模块，被配置为根据决策树模型构建评价指标；
14.确定模块，被配置为对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据；
15.测试模块，被配置为对于预先获取的每个语音识别模型，
16.将所述测试音频数据输入所述语音识别模型以确定识别文本数据，
17.根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据；
18.评价模块，被配置为根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分；
19.选择模块，被配置为选择所述总得分最高的语音识别模型作为目标语音识别模
等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
29.如背景技术部分所述，相关技术中，对于不同的语音识别应用场景，通常采用通用的语音识别技术模型。
30.但申请人通过研究发现，由于不同模型都有相应的约束条件，通用的语音识别模型不能够适用于所有应用场景，因此相关技术存在着语音识别模型与应用场景适配性较差而导致的语音识别准确性较低的问题。
31.正因如此，本技术提供的一种语音识别模型选择方法、装置、电子设备及存储介质，可以根据决策树模型构建评价指标，对预先录制得到的初始音频数据执行预处理操作，进而得到测试音频数据，并且可以根据初始音频数据对应的初始文本数据确定测试音频数据对应的测试文本数据；进一步地，对于预先获取的每个语音识别模型而言，可以将测试音频数据输入语音识别模型以得到识别文本数据，根据测试文本数据和测试得到的识别文本数据确定语音识别模型在各个评价指标的评价数据；再进一步地，可以根据每个语音识别模型对应的评价数据，对每个语音识别模型在各个评价指标下进行排序，进而确定每个语音识别模型对应的总得分，为了满足当前应用场景的综合需求，可以选择总得分最高的语音识别模型作用目标语音识别模型，执行当前应用场景下的语音识别工作。通过本技术提供的方法，可以针对不同的应用场景，对多个语音识别模型进行评级，进而选择最适合当前应用场景的语音识别模型，提高了语音识别模型与当前应用场景的适配性，有助于提高语音识别的准确率。
32.下面通过具体的实施例来对本技术实施例所提供的语音识别模型选择方法进行具体说明。
33.图1示出了本技术实施例所提供的一种语音识别模型选择方法的示例性流程示意图。
34.参考图1，本技术实施例所提供的一种语音识别模型选择方法具体包括以下步骤：
35.s102：根据决策树模型构建评价指标。
36.s104：对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据。
37.s106：对于预先获取的每个语音识别模型，
38.将所述测试音频数据输入所述语音识别模型以确定识别文本数据，
39.根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据。
40.s108：根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分。
41.s110：选择所述总得分最高的语音识别模型作为目标语音识别模型。
42.在一些实施例中，评价对象为不同厂商的语音识别模型，可以根据决策树模型构建评价指标，例如，基础的评价指标与语音相关，基础评价指标可以为音量、口音、语速、音色、方言、对话场景、语种、声音来源、说话方式、文本内容、拾音设备等，决策树模型可以根据每个基础评价指标的权重，选择权重较高的基础评价指标作为最终的评价指标。其中，每
个基础评价指标的权重可以根据专家经验法进行确定，以音量u1这个基础评价指标为例，音量u1可以细分为：正常音量u11，较小音量u12以及较大音量u13，实际的应用场景基本为正常音量，所以可以将正常音量u11的权重设置为0.9，较小音量u12的权重设置为0.05，较大音量u13的权重设置为0.05。
43.在一些实施例中，为了评价不同语音识别模型的能力，可以录制初始音频数据分别对不同的语音识别模型进行测试。但是由于语音识别需要考虑的场景十分多样，因此可以根据已能用场景选取对应的评价指标进行测试工作，但测试音频数据的获取非常困难，人工采集语音并标注，会耗费大量的时间精力，因此可以采用自动化的方式处理正常预录制的初始音频数据，进一步地对初始音频数据执行预处理操作，进而得到不同的测试音频数据。
44.具体地，初始音频数据可以包括不同口音的音频数据、多人对话场景的音频数据或不同语种的音频数据中的一种或多种，进而满足不同应用场景的测试需求。
45.为了进一步满足不同应用场景的测试需求，并且减少预先录制阶段的工作量，可以通过对初始音频数据进行预处理操作，来确定多种测试音频数据。例如，测试音频数据可以包括：变速测试音频数据。首先可以通过录制得到正常语音速度的初始音频数据，进一步地根据变速参数对初始音频数据进行调整，以确定变速测试音频数据。具体地，变速测试音频数据的语音速度可以表示为
[0046]v测试
＝v
初始
×a[0047]
其中，v
初始
表示正常语音速度，a表示变速参数，变速参数可以为任意倍数。想要得到语速较慢的测试音频数据，变速参数可以设置为小于1，想要得到语速较快的测试音频数据，变速参数可以设置为大于1。
[0048]
在一些实施例中，测试音频数据可以包括：变音量测试音频数据。首先可以确定预先录制得到的初始音频数据的当前音量，将该音量作为正常音量，进一步地可以根据音量调节参数对初始音频数据进行调整，以确定变音量测试音频数据。具体地，变音量测试音频数据的音量可以表示为
[0049]
bel
测试
＝bel
初始
+db
[0050]
其中，bel
初始
表示所述初始音频数据的当前音量，db表示所述音量调节参数。想要得到音量较小的测试音频数据，音量调节参数可以设置为负数，想要得到音量较大的测试音频数据，音量调节参数可以设置为正数。
[0051]
在一些实施例中，测试音频数据可以包括：混合测试音频数据。首先可以确定噪音音频数据以及预先录制得到的初始音频数据，进一步地将初始音频数据与噪音音频数据进行混合、叠加，从而确定混合测试音频数据。
[0052]
在一些实施例中，对于语音识别模型来说，最重要的评价因素应该是该语音识别模型在不同影响因素下对语音识别的准确率的高低，因此除了基础评价指标以外，评价指标还可以包括第一字正确率。具体地，在将测试音频数据输入至不同的语音识别模型后，对于任意一个语音识别模型而言，可以根据测试文本数据和识别文本数据中各个对应的文字位置，确定测试文本数据中是否存在被替换的文字，如果存在被替换的文字，则证明当前语音识别模型的识别结果中存在替换错误，进一步地可以确定被替换的文字数量，也即替换错误字数；还可以根据测试文本数据和识别文本数据中各个对应的文字位置，确定测试文
本数据中是否存在被剔除的文字，如果存在被剔除的文字，则证明当前语音识别模型的识别结果中存在剔除错误，进一步地可以确定被剔除的文字数量，也即剔除错误字数；还可以根据测试文本数据和识别文本数据中各个对应的文字位置，确定测试文本数据中是否存在被插入的文字，如果存在被插入的文字，则证明当前语音识别模型的识别结果中存在插入错误，进一步地可以确定被插入的文字数量，也即插入错误字数。
[0053]
进一步地，可以确定测试文本数据中的总字符数，再进一步地，可以根据总字符数、被替换的文字数量、被剔除的文字数量以及被插入的文字数量确定第一字正确率，将第一字正确率对应的量化值作为该语音识别模型的评价数据。
[0054]
例如，测试文本数据为：“云制造小镇什么时候建成？”，当前语音识别模型根据测试文本数据得到的识别文本数据为：“云智造镇什么时候建成啊！”。将两段文本数据进行比对：
[0055]
云制造小镇什么时候建成？
[0056]
云智造镇什么时候建成啊！
[0057]
其中，识别文本数据中的“智”替换了测试文本数据中的“制”，属于替换错误，被替换的文字数量为1；识别文本数据相比于测试文本数据，删除了“小”，属于剔除错误，被剔除的文字数量为1；识别文本数据相比于测试文本数据，插入了“啊”，属于插入错误，被插入的文字数量为1。并且，测试文本数据的总字符数为12。当前语音识别模型的第一字错误率可以表示为
[0058][0059]
其中，s表示被替换的文字数量，d表示被剔除的文字数量，i表示被插入的文字数量，n表示总字符数。
[0060]
进一步地，根据第一字错误率确定第一字正确率可以表示为
[0061]
wcr＝1-wer
[0062]
该语音识别模型的第一字正确率为其中75％为第一字正确率的量化值，也即评价数据。
[0063]
在一些实施例中，识别结果中除了文字，还可能存在标点符号，因此为了更进一步地评价一个语音识别模型的识别准确率，可以将标点符号的识别结果加入参考因素中，因此评价指标还可以包括第二字正确率。具体地，在将测试音频数据输入至不同的语音识别模型后，对于任意一个语音识别模型而言，可以根据测试文本数据和识别文本数据中各个对应的标点符号位置，确定测试文本数据中是否存在被替换的标点符号，如果存在被替换的标点符号，则证明当前语音识别模型的识别结果中存在替换错误，进一步地可以确定被替换的标点符号数量，也即替换错误标点符号数；还可以根据测试文本数据和识别文本数据中各个对应的标点符号位置，确定测试文本数据中是否存在被剔除的标点符号，如果存在被剔除的标点符号，则证明当前语音识别模型的识别结果中存在剔除错误，进一步地可以确定被剔除的标点符号数量，也即剔除错误标点符号数；还可以根据测试文本数据和识别文本数据中各个对应的标点符号位置，确定测试文本数据中是否存在被插入的标点符号，如果存在被插入的标点符号，则证明当前语音识别模型的识别结果中存在插入错误，进
一步地可以确定被插入的标点符号数量，也即插入错误标点符号数。
[0064]
进一步地，可以确定测试文本数据中的总字符数，再进一步地，可以根据总字符数、被替换的文字数量、被剔除的文字数量、被插入的文字数量、被替换的标点符号数量、被剔除的标点符号数量以及被插入的标点符号数量确定第二字正确率，将第二字正确率对应的量化值作为该语音识别模型的评价数据。
[0065]
例如，测试文本数据为：“云制造小镇什么时候建成？”，当前语音识别模型根据测试文本数据得到的识别文本数据为：“云智造镇什么时候建成啊！”。将两段文本数据进行比对：
[0066]
云制造小镇什么时候建成？
[0067]
云智造镇什么时候建成啊！
[0068]
其中，识别文本数据中的“智”替换了测试文本数据中的“制”，属于替换错误，被替换的文字数量为1，识别文本数据中的“？”替换了测试文本数据中的“！”，属于替换错误，被替换的标点符号数量为1；识别文本数据相比于测试文本数据，删除了“小”，属于剔除错误，被剔除的文字数量为1；识别文本数据相比于测试文本数据，插入了“啊”，属于插入错误，被插入的文字数量为1，并且，测试文本数据的总字符数为12。
[0069]
该语音识别模型的第二字正确率为其中66.7％为第二字正确率的量化值，也即评价数据。
[0070]
在一些实施例中，为了更全面地体现语音识别模型的识别准确性，因此评价指标还可以包括第一句正确率。具体地，在将测试音频数据输入至不同的语音识别模型后，对于任意一个语音识别模型而言，可以确定测试文本数据中是否存在至少一个第一目标语句，其中第一目标语句为存在被替换的文字、被剔除的文字或被插入的文字中任意一种错误的句子，任意一个句子可以表示为两个相邻的标点符号之间的文字集合。如果测试文本数据中存在至少一个第一目标语句，则可以确定第一目标语句的数量。进一步地，可以根据测试文本数据按照每两个相邻的标点符号确定一个句子的方式，确定测试文本数据中的语句总数，根据第一目标语句数量和语句总数确定第一句正确率，并将第一句正确率对应的量化值作为评价数据。也就是说，第一句正确率是不考虑标点符号是否存在识别错误的。
[0071]
其中，第一句错误率可以表示为
[0072][0073]
其中，se表示第一目标语句数量，n
′
表示语句总数。
[0074]
在一些实施例中，识别结果中除了文字，还可能存在标点符号，为了更全面地体现语音识别模型的识别准确性，因此评价指标还可以包括第二句正确率。具体地，在将测试音频数据输入至不同的语音识别模型后，对于任意一个语音识别模型而言，可以确定测试文本数据中是否存在至少一个第二目标语句，其中第一目标语句为存在被替换的文字、被剔除的文字、被插入的文字、被替换的标点符号、被剔除的标点符号或被插入的标点符号中任意一种错误的句子，任意一个句子可以表示为两个相邻的标点符号之间的文字集合。如果测试文本数据中存在至少一个第二目标语句，则可以确定第二目标语句的数量。进一步地，可以根据测试文本数据按照每两个相邻的标点符号确定一个句子的方式，确定测试文本数
据中的语句总数，根据第二目标语句数量和语句总数确定第二句正确率，并将第二句正确率对应的量化值作为评价数据。也就是说，第二句正确率是考虑标点符号是否存在识别错误的。
[0075]
在一些实施例中，当评价指标为一个时，在得到每个语音识别模型的评价数据后，可以根据评价数据由高到低对语音识别模型进行排序，并确定每个语音识别模型对应的排名。例如，评价指标为第一字正确率，语音识别模型a的评价数据为100％，语音识别模型b的评价数据为75％，语音识别模型c的评价数据为80％，则排名依次为a、c、b。进一步地，可以根据每个语音识别模型对应的排名由高到低依次为每个语音识别模型按照降序赋分，进而确定每个语音识别模型对应的总得分，例如，语音识别模型a的得分为3分，语音识别模型c的得分为2分，语音识别模型b的得分为1分。根据最高分优先挑选的原则，可以选择语音识别模型a作为当前应用场景下的目标语音识别模型。
[0076]
在一些实施例中，评价指标至少为两个，也即，评价指标至少包括以下指标中的任意两个：第一字正确率、第二字正确率、第一句正确率和第二句正确率。在得到每个语音识别模型的评价数据后，可以根据评价数据由高到低对语音识别模型在其中一个评价指标进行排序，并确定每个语音识别模型对应的第一排名。例如，评价指标为第一字正确率，语音识别模型a的评价数据为100％，语音识别模型b的评价数据为75％，语音识别模型c的评价数据为80％，则排名依次为a、c、b。进一步地，可以根据每个语音识别模型对应的第一排名由高到低依次为每个语音识别模型按照降序赋分，进而确定每个语音识别模型对应的第一得分，例如，语音识别模型a的第一得分为3分，语音识别模型c的第一得分为2分，语音识别模型b的第一得分为1分。再进一步地，可以根据评价数据由高到低对语音识别模型在另一个评价指标进行排序，并确定每个语音识别模型对应的第二排名。例如，评价指标为第二句正确率，语音识别模型a的评价数据为85％，语音识别模型b的评价数据为90％，语音识别模型c的评价数据为80％，则排名依次为b、a、c。进一步地，可以根据每个语音识别模型对应的第二排名由高到低依次为每个语音识别模型按照降序赋分，进而确定每个语音识别模型对应的第二得分，例如，语音识别模型b的第一得分为3分，语音识别模型a的第一得分为2分，语音识别模型c的第一得分为1分。最终根据每个语音识别模型对应的第一得分与第二得分的总和分别确定每个语音识别模型对应的总得分，例如语音识别模型a的总得分为5分，语音识别模型b的总得分为4分，语音识别模型c的总得分为3分。根据最高分优先挑选的原则，可以选择语音识别模型a作为当前应用场景下的目标语音识别模型。
[0077]
具体地，每个评价指标下语音识别模型对应的得分可以表示为
[0078]
mi＝x+1-rank(x)
[0079]
其中，x表示语音识别模型的厂家标识，例如第x家厂家的语音识别模型，rank(x)表示第x家厂家的语音识别模型的排名。
[0080]
语音识别模型的总得分可以表示为
[0081][0082]
其中，i表示评价指标的序号，mi表示每个评价指标对应的权重值。
[0083]
在一些实施例中，对于语音识别模型的测试可以在不同的维度下进行，因此还可
以根据不同维度来对语音模型的总得分进行优化。因为在预先录制得到的初始音频数据中可能存在多个不同维度，可以根据初始音频数据确定测试音频数据的当前维度，其中，当前维度可以包括：口音、音量、语速、方言种类、单/多人对话场景和/或语种中的至少一个。进一步地，可以根据预先设置的与当前维度相对应的权重值，对每个语音识别模型对应的第一得分执行加权，进而确定每个当前维度下的语音识别模型对应的第一加权得分。类似地，可以根据预先设置的与当前维度相对应的权重值，对每个语音识别模型对应的第二得分执行加权，进而确定每个当前维度下的语音识别模型对应的第二加权得分。再进一步地，根据每个语音识别模型对应的全部第一加权得分和全部第二加权得分的总和分别确定每个语音识别模型对应的总得分。参考表1，不同维度下的测试文本数据可以设置为不同数量。
[0084]
表1不同维度下的测试文本数据
[0085]
[0086][0087]
在一些实施例中，针对于不同音量这个维度，进行了实验，对于评价指标选取第一字正确率、第二字正确率、第一句正确率和第二句正确率，针对于4家不同厂商的语音识别模型进行了测试，测试结果如表2所示。
[0088]
表2不同音量的维度测试结果
[0089][0090]
可以看出，厂商d的语音识别模型对于音量的依赖较高，低音量下识别效果明显较差，考虑到不同维度下的权重值，在加权后，各个厂商在不同评价指标下的得分情况如表3所示。
[0091]
表3最终得分
[0092][0093][0094]
在一些实施例中，根据上述实验结果，可以发现，由于语音识别模型中可能存在绝大多数场景下表现良好，个别场景下表现极差的情况，为了能够清晰的呈现重大缺陷，引入缺陷等级，该参数的作用在于放大该场景下的缺陷，使对比评测更加公平。例如，四种语音
识别模型，在不同语速维度各自得分为[4，2，3，1]，获得1分的语音识别模型排名最末，则将对应缺陷等级赋予该语音识别模型，则四种语音识别模型在语速维度的最终评分为[4，2，3，-2]。
[0095]
在一些实施例中，由于文字的不统一会影响正确率的计算，但是实际上识别结果不能被认为是错误的，例如“wifi”被识别为“wifi”，“6”被识别为“六”等情况。因此可以通过对初始音频数据执行归一化操作，将中英文、阿拉伯数字、标点符号以及特殊字符等在统计过程中进行归一化处理。
[0096]
从上面所述可以看出，本技术提供的一种语音识别模型选择方法、装置、电子设备及存储介质，可以根据决策树模型构建评价指标，对预先录制得到的初始音频数据执行预处理操作，进而得到测试音频数据，并且可以根据初始音频数据对应的初始文本数据确定测试音频数据对应的测试文本数据；进一步地，对于预先获取的每个语音识别模型而言，可以将测试音频数据输入语音识别模型以得到识别文本数据，根据测试文本数据和测试得到的识别文本数据确定语音识别模型在各个评价指标的评价数据；再进一步地，可以根据每个语音识别模型对应的评价数据，对每个语音识别模型在各个评价指标下进行排序，进而确定每个语音识别模型对应的总得分，为了满足当前应用场景的综合需求，可以选择总得分最高的语音识别模型作用目标语音识别模型，执行当前应用场景下的语音识别工作。通过本技术提供的方法，可以针对不同的应用场景，对多个语音识别模型进行评级，进而选择最适合当前应用场景的语音识别模型，提高了语音识别模型与当前应用场景的适配性，有助于提高语音识别的准确率。
[0097]
需要说明的是，本技术实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0098]
需要说明的是，上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0099]
图2示出了本技术实施例所提供的一种语音识别模型选择装置的示例性结构示意图。
[0100]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种语音识别模型选择装置。
[0101]
参考图2，所述语音识别模型选择装置，包括：构建模块、确定模块、测试模块、评价模块以及选择模块；其中，
[0102]
构建模块，被配置为根据决策树模型构建评价指标；
[0103]
确定模块，被配置为对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据；
[0104]
测试模块，被配置为对于预先获取的每个语音识别模型，
[0105]
将所述测试音频数据输入所述语音识别模型以确定识别文本数据，
[0106]
根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据；
[0107]
评价模块，被配置为根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分；
[0108]
选择模块，被配置为选择所述总得分最高的语音识别模型作为目标语音识别模型。
[0109]
在一种可能的实现方式中，所述测试音频数据，包括：变速测试音频数据；
[0110]
所述确定模块进一步被配置为：
[0111]
录制得到正常语音速度的初始音频数据；
[0112]
根据变速参数调整所述初始音频数据以确定所述变速测试音频数据；其中，所述变速测试音频数据的语音速度表示为
[0113]v测试
＝v
初始
×a[0114]
其中，v
初始
表示正常语音速度，a表示变速参数。
[0115]
在一种可能的实现方式中，所述测试音频数据，包括：变音量测试音频数据；
[0116]
所述确定模块进一步被配置为：
[0117]
确定录制得到的所述初始音频数据的当前音量；
[0118]
根据音量调节参数调整所述初始音频数据以确定所述变音量测试音频数据；其中，所述变音量测试音频数据的音量表示为
[0119]
bel
测试
＝bel
初始
+db
[0120]
其中，bel
初始
表示所述初始音频数据的当前音量，db表示所述音量调节参数。
[0121]
在一种可能的实现方式中，所述测试音频数据，包括：混合测试音频数据；
[0122]
所述确定模块进一步被配置为：
[0123]
确定噪音音频数据以及录制得到的所述初始音频数据；
[0124]
混合并叠加所述噪音音频数据和所述初始音频数据以确定所述混合测试音频数据。
[0125]
在一种可能的实现方式中，所述初始音频数据，包括以下音频数据中的一种或多种：不同口音的音频数据、多人对话场景的音频数据或不同语言的音频数据。
[0126]
在一种可能的实现方式中，所述评价指标，包括：第一字正确率；
[0127]
所述测试模块进一步被配置为：
[0128]
根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被替换的文字；
[0129]
响应于所述测试文本数据中存在被替换的文字，确定被替换的文字数量；
[0130]
根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被剔除的文字；
[0131]
响应于所述测试文本数据中存在被剔除的文字，确定被剔除的文字数量；
[0132]
根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被插入的文字；
[0133]
响应于所述测试文本数据中存在被插入的文字，确定被插入的文字数量；
[0134]
确定所述测试文本数据中的总字符数，根据所述总字符数、被替换的文字数量、被剔除的文字数量以及被插入的文字数量确定第一字正确率，并将所述第一字正确率对应的量化值作为所述评价数据。
[0135]
在一种可能的实现方式中，所述评价指标，包括：第二字正确率；
[0136]
所述测试模块进一步被配置为：
[0137]
根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被替换的标点符号；
[0138]
响应于所述测试文本数据中存在被替换的标点符号，确定被替换的标点符号数量；
[0139]
根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被剔除的标点符号；
[0140]
响应于所述测试文本数据中存在被剔除的标点符号，确定被剔除的标点符号数量；
[0141]
根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被插入的标点符号；
[0142]
响应于所述测试文本数据中存在被插入的标点符号，确定被插入的标点符号数量；
[0143]
根据所述总字符数、被替换的文字数量、被剔除的文字数量、被插入的文字数量、被替换的标点符号数量、被剔除的标点符号数量以及被插入的标点符号数量确定第二字正确率，并将所述第二字正确率对应的量化值作为所述评价数据。
[0144]
在一种可能的实现方式中，所述评价指标，包括：第一句正确率；
[0145]
所述测试模块进一步被配置为：
[0146]
确定所述测试文本数据中是否存在至少一个第一目标语句；其中，所述第一目标语句为两个相邻标点符号之间存在被替换的文字、被剔除的文字或被插入的文字的文字集合；
[0147]
响应于所述测试文本数据中存在至少一个第一目标语句，确定所述第一目标语句的数量；
[0148]
根据所述测试文本数据中两个相邻标点符号之间的文字集合确定所述测试文本数据中的语句总数；
[0149]
根据所述第一目标语句数量和语句总数确定第一句正确率，并将所述第一句正确率对应的量化值作为所述评价数据。
[0150]
在一种可能的实现方式中，所述评价指标，包括：第二句正确率；
[0151]
所述测试模块进一步被配置为：
[0152]
确定所述测试文本数据中是否存在至少一个第二目标语句；其中，所述第二目标语句为两个相邻标点符号之间存在被替换的文字、被剔除的文字、被插入的文字、被替换的标点符号、被剔除的标点符号或被插入的标点符号的文字及标点符号集合；
[0153]
响应于所述测试文本数据中存在至少一个第二目标语句，确定所述第二目标语句的数量；
[0154]
根据所述第二目标语句数量和语句总数确定第二句正确率，并将所述第二句正确
率对应的量化值作为所述评价数据。
[0155]
在一种可能的实现方式中，所述评价模块进一步被配置为：
[0156]
根据所述评价数据由高到低的顺序对全部所述语音识别模型在所述评价指标进行排序，并确定每个所述语音识别模型对应的排名；
[0157]
根据每个所述语音识别模型对应的排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型对应的总得分。
[0158]
在一种可能的实现方式中，所述评价指标，至少包括以下指标中的任意两个：第一字正确率、第二字正确率、第一句正确率和第二句正确率；
[0159]
所述评价模块进一步被配置为：
[0160]
根据所述评价数据由高到低的顺序对全部所述语音识别模型在所述其中一个评价指标进行排序，并确定每个所述语音识别模型对应的第一排名；
[0161]
根据所述评价数据由高到低的顺序对全部所述语音识别模型在所述另一个评价指标进行排序，并确定每个所述语音识别模型对应的第二排名；
[0162]
根据每个所述语音识别模型对应的第一排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型对应的第一得分；
[0163]
根据每个所述语音识别模型对应的第二排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型对应的第二得分；
[0164]
根据每个所述语音识别模型对应的第一得分和第二得分的总和分别确定每个所述语音识别模型对应的总得分。
[0165]
在一种可能的实现方式中，所述评价模块进一步被配置为：
[0166]
根据所述初始音频数据确定测试音频数据的当前维度；其中，所述当前维度，包括：口音、音量、语速、方言种类、单/多人对话场景和/或语种中的至少一个；
[0167]
根据预先设置的与所述当前维度相对应的权重值和每个所述语音识别模型对应的第一得分执行加权以确定每个当前维度下的所述语音识别模型对应的第一加权得分；
[0168]
根据预先设置的与所述当前维度相对应的权重值和每个所述语音识别模型对应的第二得分执行加权以确定每个当前维度下的所述语音识别模型对应的第二加权得分；
[0169]
根据每个所述语音识别模型对应的全部第一加权得分和全部第二加权得分的总和分别确定每个所述语音识别模型对应的总得分。
[0170]
在一种可能的实现方式中，所述评价模块进一步被配置为：
[0171]
根据所述初始音频数据确定测试音频数据的当前维度；其中，所述当前维度，包括：口音、音量、语速、方言种类、单/多人对话场景和/或语种中的至少一个；
[0172]
响应于当前维度下所述语音识别模型的排名为最低，基于预先设置的与所述当前维度对应的缺陷等级，将所述缺陷等级赋予当前维度下所述语音识别模型对应的第一得分以确定第一缺陷得分；其中，所述第一缺陷得分小于所述第一得分。
[0173]
在一种可能的实现方式中，所述确定模块进一步被配置为：
[0174]
对所述初始音频数据执行归一化操作。
[0175]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0176]
上述实施例的装置用于实现前述任一实施例中相应的语音识别模型选择方法，并
且具有相应的方法实施例的有益效果，在此不再赘述。
[0177]
图3示出了本技术实施例所提供的一种电子设备的示例性结构示意图。
[0178]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的语音识别模型选择方法。图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器310、存储器320、输入/输出接口330、通信接口340和总线350。其中处理器310、存储器320、输入/输出接口330和通信接口340通过总线350实现彼此之间在设备内部的通信连接。
[0179]
处理器310可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0180]
存储器320可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器320可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器320中，并由处理器310来调用执行。
[0181]
输入/输出接口330用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0182]
通信接口340用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0183]
总线350包括一通路，在设备的各个组件(例如处理器310、存储器320、输入/输出接口330和通信接口340)之间传输信息。
[0184]
需要说明的是，尽管上述设备仅示出了处理器310、存储器320、输入/输出接口330、通信接口340以及总线350，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0185]
上述实施例的电子设备用于实现前述任一实施例中相应的语音识别模型选择方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0186]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的语音识别模型选择方法。
[0187]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或
其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0188]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语音识别模型选择方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0189]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本技术的范围(包括权利要求)被限于这些例子；在本技术的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本技术实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0190]
另外，为简化说明和讨论，并且为了不会使本技术实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本技术实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本技术的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0191]
尽管已经结合了本技术的具体实施例对本技术进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0192]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本技术实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐铭驰高峰
技术所有人：网易（杭州）网络有限公司
我是此专利的发明人

上一篇：一种智能光电鸟情探测系统的制作方法
上一篇：电动阀的制作方法