一种音频识别模型的训练和非正常音频识别的方法和装置与流程

文档序号：23706602发布日期：2021-01-23 13:43阅读：来源：国知局

技术特征：
1.一种音频模型训练方法，其特征在于，包括：获取多个音频样本以及相应的音频类别标签，以及基于卷积神经网络构建的音频识别模型，其中，音频类别标签至少包括：非正常语音和正常语音；分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段，并分别获取每一音频样本中的每一音频样本片段对应的音频类别标签；分别提取每一音频样本的音频特征向量；基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对所述音频识别模型进行训练，获得符合预设训练条件的音频识别模型。2.如权利要求1所述的方法，其特征在于，基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对所述音频识别模型进行训练，获得符合预设训练条件的音频识别模型，包括：分别针对每一音频样本，执行以下操作：将音频样本对应的音频特征向量和相应的音频类别标签，以及所述音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得所述音频样本对应的第一音频类别，以及所述音频样本中的各音频样本片段对应的第二音频类别；基于各音频样本对应的音频类别标签和相应的第一音频标签，确定相应的第一损失；基于各音频样本片段对应的音频类别标签和相应的第二音频标签，确定相应的第二损失；根据各第一损失和各第二损失，对所述音频识别模型的参数进行调整，获得调整后的音频识别模型。3.如权利要求2所述的方法，其特征在于，将音频样本对应的音频特征向量和相应的音频类别标签，以及所述音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得所述音频样本对应的第一音频类别，包括：基于卷积神经网络，对所述音频样本的音频特征向量进行卷积运算处理，获得第一向量；基于聚合层以及第一分类损失函数，对所述第一向量进行分类处理，获得所述音频样本对应的第一音频类别。4.如权利要求2所述的方法，其特征在于，将音频样本对应的音频特征向量和相应的音频类别标签，以及所述音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得所述音频样本中的各音频样本片段对应的第二音频类别，包括：基于卷积神经网络，对音频样本的音频特征向量进行卷积运算处理；从所述卷积神经网络中的指定层，抽取出矩阵向量；基于第二分类损失函数以及所述矩阵向量，分别获得每一音频样本片段对应的第二音频类别。5.如权利要求4所述的方法，其特征在于，基于第二分类损失函数以及所述矩阵向量，分别获得每一音频样本片段对应的第二音频类别，包括：基于卷积神经网络或循环神经网络，对所述矩阵向量进行上下文处理，分别获得每一音频样本片段对应的第二向量；
基于所述第二分类损失函数，分别对每一个第二向量进行分类处理，获得相应的第二音频类别。6.一种非正常音频识别的方法，其特征在于，采用如权利要求1-5任一项所述方法中的音频识别模型，包括：接收针对待识别音频的识别请求消息；获取所述识别请求消息中包含的待识别音频；提取所述待识别音频的音频特征向量；将所述待识别音频的音频特征向量输入至所述音频识别模型，获得所述待识别音频以及所述待识别音频中的各音频片段对应的目标音频类别。7.如权利要求6所述的方法，其特征在于，将所述待识别音频的音频特征向量输入至所述音频识别模型，获得所述待识别音频以及所述待识别音频中的各音频片段对应的目标音频类别，包括：基于卷积神经网络，对所述待识别音频的音频特征向量进行卷积运算处理，获得第一向量，以及矩阵向量；基于聚合层以及第一分类损失函数，对所述待识别音频的第一向量进行分类处理，获得所述待识别音频对应的目标音频类别；基于所述待识别音频的矩阵向量，以及第二分类损失函数，分别获得所述待识别音频中的每一音频片段对应的目标音频类别。8.如权利要求7所述的方法，其特征在于，基于所述待识别音频的矩阵向量，以及第二分类损失函数，分别获得所述待识别音频中的每一音频片段对应的目标音频类别，包括：基于卷积神经网络或循环神经网络，对所述待识别音频的矩阵向量进行上下文处理，分别获得所述待识别音频中的每一音频片段对应的第二向量；基于所述第二分类损失函数，分别对每一音频片段对应的第二向量进行分类处理，获得相应的目标音频类别。9.一种音频模型训练装置，其特征在于，包括：获取单元，用于获取多个音频样本以及相应的音频类别标签，以及基于卷积神经网络构建的音频识别模型，其中，音频类别标签至少包括：非正常语音和正常语音；划分单元，用于分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段，并分别获取每一音频样本中的每一音频样本片段对应的音频类别标签；提取单元，用于分别提取每一音频样本的音频特征向量；训练单元，用于基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对所述音频识别模型进行训练，获得符合预设训练条件的音频识别模型。10.一种非正常音频识别的装置，其特征在于，采用如权利要求1-5任一项所述方法中的音频识别模型，包括：接收单元，用于接收针对待识别音频的识别请求消息；获取单元，用于获取所述识别请求消息中包含的待识别音频；提取单元，用于提取所述待识别音频的音频特征向量；识别单元，用于将所述待识别音频的音频特征向量输入至所述音频识别模型，获得所
述待识别音频以及所述待识别音频中的各音频片段对应的目标音频类别。

完整全部详细技术资料下载

当前第2页1 2 3