音频识别方法、装置、训练方法、训练装置、设备及存储介质与流程

文档序号：26585541发布日期：2021-09-10 19:04阅读：来源：国知局

技术特征：
1.一种音频识别方法，其特征在于，所述方法包括：获取音频数据，并将所述音频数据进行分片得到至少两帧子音频数据；确定每帧子音频数据对应的至少一个维度的特征信息；基于每帧所述子音频数据对应的所述至少一个维度的特征信息确定出每帧所述子音频数据的特征；基于每帧所述子音频数据的特征确定出所述音频数据的全局特征；基于所述音频数据的全局特征对所述音频数据进行识别。2.如权利要求1所述的音频识别方法，其特征在于，所述基于每帧所述子音频数据对应的所述至少一个维度的特征信息确定出每帧所述子音频数据的特征，包括：将每帧所述子音频数据对应的所述至少一个维度的特征信息进行串联，并对串联之后的所述至少一个维度的特征信息进行卷积操作，以确定出每帧所述子音频数据的特征。3.如权利要求1所述的音频识别方法，其特征在于，所述基于每帧所述子音频数据的特征确定出所述音频数据的全局特征，包括：计算出每帧所述子音频数据的特征对应的重要性系数；利用每帧所述子音频数据的特征乘以对应的重要性系数，得到每帧所述子音频数据的新特征；计算所有子音频数据的新特征的均值和/或方差，将所述均值和/或方差作为所述全局特征输出。4.如权利要求1所述的音频识别方法，其特征在于，所述获取音频数据，包括：确定所述音频数据的目标特征的特征值；对所述特征值进行规整处理，得到处理后的音频数据，其中，所述规整处理用于将所述目标特征的特征值的平均值规整至预定数值。5.一种音频识别模型的训练方法，其特征在于，所述方法包括：获取待训练音频数据，对所述待训练音频数据进行说话人标注得到标注结果；将所述待训练音频数据输入至音频识别模型的分片层，以将所述待训练音频数据进行分片得到至少两帧子音频数据；将每帧子音频数据输入至所述音频识别模型的局部特征关注层，以确定每帧子音频数据对应的至少一个维度的特征信息；将每帧所述子音频数据对应的所述至少一个维度的特征信息输入至所述音频识别模型的聚合层，以基于每帧所述子音频数据对应的所述至少一个维度的特征信息确定出每帧所述子音频数据的特征；将每帧所述子音频数据的特征输入至所述音频识别模型的全局特征关注层，以基于每帧所述子音频数据的特征确定出所述待训练音频数据的全局特征；将所述待训练音频数据的全局特征输入至所述音频识别模型的全连接层，以基于所述待训练音频数据的全局特征对所述待训练音频数据进行识别以得到识别结果；基于所述标注结果和所述识别结果对所述音频识别模型进行训练。6.一种音频识别装置，其特征在于，所述装置包括：分片模块，用于获取音频数据，并将所述音频数据进行分片得到至少两帧子音频数据；局部特征关注模块，用于确定所述子音频数据对应的至少一个维度的特征信息；
聚合模块，用于基于每帧所述子音频数据对应的至少一个维度的特征信息确定出每帧所述子音频数据的特征；全局特征关注模块，用于基于每帧所述子音频数据的特征确定出所述音频数据的全局特征；全连接模块，用于基于所述音频数据的所述全局特征对所述音频数据进行识别。7.如权利要求6所述的音频识别装置，其特征在于，所述聚合模块还用于：将每帧所述子音频数据对应的所述至少一个维度的特征信息进行串联，并对串联之后的所述至少一个维度的特征信息进行卷积操作，以确定出每帧所述子音频数据的特征。8.如权利要求6所述的音频识别装置，其特征在于，所述全局特征关注模块还用于：计算出每帧所述子音频数据的特征对应的重要性系数；利用每帧所述子音频数据的特征乘以对应的重要性系数，得到每帧所述子音频数据的新特征；计算所有子音频数据的新特征的均值和/或方差，将所述均值和/或方差作为所述全局特征输出。9.如权利要求6所述的音频识别装置，其特征在于，所述分片模块还用于：确定所述音频数据的目标特征的特征值；对所述特征值进行规整处理，得到处理后的音频数据，其中，所述规整处理用于将所述目标特征的特征值的平均值规整至预定数值。10.一种音频识别模型的训练装置，其特征在于，所述装置包括：标注模块，用于获取待训练音频数据，对所述待训练音频数据进行说话人标注得到标注结果；第一输入模块，用于将所述待训练音频数据输入至音频识别模型的分片层，以将所述待训练音频数据进行分片得到至少两帧子音频数据；第二输入模块，用于将每帧子音频数据输入至所述音频识别模型的局部特征关注层，以确定每帧子音频数据对应的至少一个维度的特征信息；第三输入模块，用于将每帧所述子音频数据对应的所述至少一个维度的特征信息输入至所述音频识别模型的聚合层，以基于每帧所述子音频数据对应的所述至少一个维度的特征信息确定出每帧所述子音频数据的特征；第四输入模块，用于将每帧所述子音频数据的特征输入至所述音频识别模型的全局特征关注层，以基于每帧所述子音频数据的特征确定出所述待训练音频数据的全局特征；第五输入模块，用于将所述待训练音频数据的全局特征输入至所述音频识别模型的全连接层，以基于所述待训练音频数据的全局特征对所述待训练音频数据进行识别以得到识别结果；训练模块，用于基于所述标注结果和所述识别结果对所述音频识别模型进行训练。11.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1
‑
4或5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1
‑
4或5中任一项所述的方法。13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时根据权利要求1
‑
4或5中任一项所述的方法。

技术总结
本公开提出了一种音频识别方法及装置、音频识别模型的训练方法及装置、设备及存储介质，该方法包括：获取音频数据，并将所述音频数据进行分片得到至少两帧子音频数据；确定每帧子音频数据对应的至少一个维度的特征信息；基于每帧所述子音频数据对应的所述至少一个维度的特征信息确定出每帧所述子音频数据的特征；基于每帧所述子音频数据的特征确定出所述音频数据的全局特征；基于所述音频数据的全局特征对所述音频数据进行识别。本公开的音频识别方法综合考虑了局部与整句全局的信息，提高了识别准确度。了识别准确度。了识别准确度。

技术研发人员：赵情恩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.06.17
技术公布日：2021/9/9

完整全部详细技术资料下载

当前第2页1 2