语音识别模型选择方法、装置、电子设备及存储介质与流程

文档序号：33399901发布日期：2023-03-08 15:56阅读：来源：国知局

技术特征：
1.一种语音识别模型选择方法，其特征在于，包括：根据决策树模型构建评价指标；对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据；对于预先获取的每个语音识别模型，将所述测试音频数据输入所述语音识别模型以确定识别文本数据，根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据；根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分；选择所述总得分最高的语音识别模型作为目标语音识别模型。2.根据权利要求1所述的方法，其特征在于，所述测试音频数据，包括：变速测试音频数据；所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据，包括：录制得到正常语音速度的初始音频数据；根据变速参数调整所述初始音频数据以确定所述变速测试音频数据；其中，所述变速测试音频数据的语音速度表示为v
测试
＝v
初始
×
a其中，v
初始
表示正常语音速度，a表示变速参数。3.根据权利要求1所述的方法，其特征在于，所述测试音频数据，包括：变音量测试音频数据；所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据，包括：确定录制得到的所述初始音频数据的当前音量；根据音量调节参数调整所述初始音频数据以确定所述变音量测试音频数据；其中，所述变音量测试音频数据的音量表示为bel
测试
＝bel
初始
+db其中，bel
初始
表示所述初始音频数据的当前音量，db表示所述音量调节参数。4.根据权利要求1所述的方法，其特征在于，所述测试音频数据，包括：混合测试音频数据；所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据，包括：确定噪音音频数据以及录制得到的所述初始音频数据；混合并叠加所述噪音音频数据和所述初始音频数据以确定所述混合测试音频数据。5.根据权利要求1所述的方法，其特征在于，所述初始音频数据，包括以下音频数据中的一种或多种：不同口音的音频数据、多人对话场景的音频数据或不同语言的音频数据。6.根据权利要求1所述的方法，其特征在于，所述评价指标，包括：第一字正确率；所述对于预先获取的每个语音识别模型，根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据，包括：根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被替换的文字；
响应于所述测试文本数据中存在被替换的文字，确定被替换的文字数量；根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被剔除的文字；响应于所述测试文本数据中存在被剔除的文字，确定被剔除的文字数量；根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被插入的文字；响应于所述测试文本数据中存在被插入的文字，确定被插入的文字数量；确定所述测试文本数据中的总字符数，根据所述总字符数、被替换的文字数量、被剔除的文字数量以及被插入的文字数量确定第一字正确率，并将所述第一字正确率对应的量化值作为所述评价数据。7.根据权利要求6所述的方法，其特征在于，所述评价指标，包括：第二字正确率；所述对于预先获取的每个语音识别模型，根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据，包括：根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被替换的标点符号；响应于所述测试文本数据中存在被替换的标点符号，确定被替换的标点符号数量；根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被剔除的标点符号；响应于所述测试文本数据中存在被剔除的标点符号，确定被剔除的标点符号数量；根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被插入的标点符号；响应于所述测试文本数据中存在被插入的标点符号，确定被插入的标点符号数量；根据所述总字符数、被替换的文字数量、被剔除的文字数量、被插入的文字数量、被替换的标点符号数量、被剔除的标点符号数量以及被插入的标点符号数量确定第二字正确率，并将所述第二字正确率对应的量化值作为所述评价数据。8.根据权利要求6所述的方法，其特征在于，所述评价指标，包括：第一句正确率；所述对于预先获取的每个语音识别模型，根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据，包括：确定所述测试文本数据中是否存在至少一个第一目标语句；其中，所述第一目标语句为两个相邻标点符号之间存在被替换的文字、被剔除的文字或被插入的文字的文字集合；响应于所述测试文本数据中存在至少一个第一目标语句，确定所述第一目标语句的数量；根据所述测试文本数据中两个相邻标点符号之间的文字集合确定所述测试文本数据中的语句总数；根据所述第一目标语句数量和语句总数确定第一句正确率，并将所述第一句正确率对应的量化值作为所述评价数据。9.根据权利要求7所述的方法，其特征在于，所述评价指标，包括：第二句正确率；所述对于预先获取的每个语音识别模型，根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据，包括：
确定所述测试文本数据中是否存在至少一个第二目标语句；其中，所述第二目标语句为两个相邻标点符号之间存在被替换的文字、被剔除的文字、被插入的文字、被替换的标点符号、被剔除的标点符号或被插入的标点符号的文字及标点符号集合；响应于所述测试文本数据中存在至少一个第二目标语句，确定所述第二目标语句的数量；根据所述第二目标语句数量和语句总数确定第二句正确率，并将所述第二句正确率对应的量化值作为所述评价数据。10.根据权利要求1所述的方法，其特征在于，所述根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分，包括：根据所述评价数据由高到低的顺序对全部所述语音识别模型在所述评价指标进行排序，并确定每个所述语音识别模型对应的排名；根据每个所述语音识别模型对应的排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型对应的总得分。11.根据权利要求1所述的方法，其特征在于，所述评价指标，至少包括以下指标中的任意两个：第一字正确率、第二字正确率、第一句正确率和第二句正确率；所述根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分，包括：根据所述评价数据由高到低的顺序对全部所述语音识别模型在所述其中一个评价指标进行排序，并确定每个所述语音识别模型对应的第一排名；根据所述评价数据由高到低的顺序对全部所述语音识别模型在所述另一个评价指标进行排序，并确定每个所述语音识别模型对应的第二排名；根据每个所述语音识别模型对应的第一排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型对应的第一得分；根据每个所述语音识别模型对应的第二排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型对应的第二得分；根据每个所述语音识别模型对应的第一得分和第二得分的总和分别确定每个所述语音识别模型对应的总得分。12.根据权利要求11所述的方法，其特征在于，所述根据每个所述语音识别模型对应的第一得分和第二得分的总和分别确定每个所述语音识别模型对应的总得分，包括：根据所述初始音频数据确定测试音频数据的当前维度；其中，所述当前维度，包括：口音、音量、语速、方言种类、单/多人对话场景和/或语种中的至少一个；根据预先设置的与所述当前维度相对应的权重值和每个所述语音识别模型对应的第一得分执行加权以确定每个当前维度下的所述语音识别模型对应的第一加权得分；根据预先设置的与所述当前维度相对应的权重值和每个所述语音识别模型对应的第二得分执行加权以确定每个当前维度下的所述语音识别模型对应的第二加权得分；根据每个所述语音识别模型对应的全部第一加权得分和全部第二加权得分的总和分别确定每个所述语音识别模型对应的总得分。13.根据权利要求11所述的方法，其特征在于，所述根据每个所述语音识别模型对应的第一排名由高到低依次为每个所述语音识别模型按照降序赋分以确定每个语音识别模型
对应的第一得分，包括：根据所述初始音频数据确定测试音频数据的当前维度；其中，所述当前维度，包括：口音、音量、语速、方言种类、单/多人对话场景和/或语种中的至少一个；响应于当前维度下所述语音识别模型的排名为最低，基于预先设置的与所述当前维度对应的缺陷等级，将所述缺陷等级赋予当前维度下所述语音识别模型对应的第一得分以确定第一缺陷得分；其中，所述第一缺陷得分小于所述第一得分。14.根据权利要求1所述的方法，其特征在于，所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据之前，还包括：对所述初始音频数据执行归一化操作。15.一种语音识别模型选择装置，其特征在于，包括：构建模块，被配置为根据决策树模型构建评价指标；确定模块，被配置为对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据；测试模块，被配置为对于预先获取的每个语音识别模型，将所述测试音频数据输入所述语音识别模型以确定识别文本数据，根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据；评价模块，被配置为根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分；选择模块，被配置为选择所述总得分最高的语音识别模型作为目标语音识别模型。16.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至14任意一项所述的方法。17.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使所述计算机实现权利要求1至14任一项所述的方法。

技术总结
本申请提供一种语音识别模型选择方法、装置、电子设备及存储介质。该方法包括：根据决策树模型构建评价指标；对预先录制的初始音频数据执行预处理操作以确定测试音频数据，并根据与初始音频数据对应的初始文本数据确定与测试音频数据对应的测试文本数据；对于预先获取的每个语音识别模型，将测试音频数据输入语音识别模型以确定识别文本数据，根据测试文本数据和识别文本数据确定语音识别模型在评价指标的评价数据；根据多个评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分；选择总得分最高的语音识别模型作为目标语音识别模型。提高了语音识别模型与当前应用场景的适配性，有助于提高语音识别的准确率。识别的准确率。识别的准确率。

技术研发人员：徐铭驰高峰
受保护的技术使用者：网易（杭州）网络有限公司
技术研发日：2022.11.18
技术公布日：2023/3/7

完整全部详细技术资料下载

当前第2页1 2