本技术涉及计算机领域,具体而言,涉及一种音频识别方法、装置和存储介质及电子设备。
背景技术:
1、在音频识别进行情感分类的场景中,通常会提取出待识别音频的文本信息,再对该文本信息进行情感分类,但文本本身是有一定局限性的,如不同语言文化下,即便是相同的文本内容但也可能表达不同的情感,进而导致音频识别准确性较低的问题出现。因此,存在音频识别准确性较低的问题。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术实施例提供了一种音频识别方法、装置和存储介质及电子设备,以至少解决音频识别准确性较低的技术问题。
2、根据本技术实施例的一个方面,提供了一种音频识别方法,包括:获取目标音频,其中,上述目标音频对应的语言种类为预设语言种类集合中的至少一种,上述预设语言种类集合包含至少两种语言种类;按照上述目标音频对应的语言种类对上述目标音频进行第一音频识别,得到上述目标音频对应的文本特征,其中,上述文本特征为上述目标音频中与目标文本元素之间的相关程度大于或等于预设阈值的第一元素对应的表示特征;以及,对上述目标音频进行第二音频识别,得到上述目标音频对应的非文本特征,其中,上述非文本特征为上述目标音频中与上述目标文本元素之间的相关程度小于上述预设阈值的第二元素对应的表示特征;对上述文本特征和上述非文本特征进行整合处理,并基于整合得到的目标音频特征确定上述目标音频所属的情感类别。
3、根据本技术实施例的另一方面,还提供了一种音频识别装置,包括:获取单元,用于获取目标音频,其中,上述目标音频对应的语言种类为预设语言种类集合中的至少一种,上述预设语言种类集合包含至少两种语言种类;第一识别单元,用于按照上述目标音频对应的语言种类对上述目标音频进行第一音频识别,得到上述目标音频对应的文本特征,其中,上述文本特征为上述目标音频中与目标文本元素之间的相关程度大于或等于预设阈值的第一元素对应的表示特征;以及,第二识别单元,用于对上述目标音频进行第二音频识别,得到上述目标音频对应的非文本特征,其中,上述非文本特征为上述目标音频中与上述目标文本元素之间的相关程度小于上述预设阈值的第二元素对应的表示特征;分类单元,用于对上述文本特征和上述非文本特征进行整合处理,并基于整合得到的目标音频特征确定上述目标音频所属的情感类别。
4、作为一种可选的方案,上述第二识别单元,包括:识别模块,用于对上述目标音频中的各帧音频进行音频识别,得到上述目标音频中的各帧音频对应的多个初始特征;计算模块,用于对上述多个初始特征进行统计计算,得到上述非文本特征。
5、作为一种可选的方案,上述计算模块,包括:获取子模块,用于获取上述多个初始特征中的各个初始特征与负向特征之间的目标距离,其中,上述目标距离用于度量特征之间的相似程度,上述负向特征包括上述文本特征;确定子模块,用于从上述多个初始特征中确定出至少一个目标初始特征,其中,上述目标初始特征对应的目标距离大于或等于预设距离;计算子模块,用于对上述至少一个目标初始特征进行统计计算,得到上述非文本特征。
6、作为一种可选的方案,上述分类单元,包括:第一分类模块,用于按照权重配置信息对上述文本特征和上述非文本特征进行拼接处理,并基于上述目标音频特征确定上述目标音频所属的情感类别,其中,上述权重配置信息用于表示上述文本特征和上述非文本特征在拼接处理过程中的权重配置。
7、作为一种可选的方案,上述装置还包括:第一分配模块,用于在上述按照权重配置信息对上述文本特征和上述非文本特征进行拼接处理,并基于上述目标音频特征确定上述目标音频所属的情感类别之前,在上述目标音频对应的语言种类为第一语言种类的情况下,为上述文本特征分配第一权重、以及为上述非文本特征分配第二权重,其中,上述至少两种语言种类包括上述第一语言种类,上述第一权重大于上述第二权重;第二分配模块,用于在上述按照权重配置信息对上述文本特征和上述非文本特征进行拼接处理,并基于上述目标音频特征确定上述目标音频所属的情感类别之前,在上述目标音频对应的语言种类为第二语言种类的情况下,为上述文本特征分配第三权重、以及为上述非文本特征分配第四权重,其中,上述至少两种语言种类包括上述第一语言种类,上述第三权重小于上述第四权重。
8、作为一种可选的方案,上述第一识别单元,包括:第一输入模块,用于将上述目标音频输入第一音频识别模型,得到上述第一音频识别模型输出的上述文本特征,其中,上述第一音频识别模型为利用第一样本进行训练得到的、用于识别音频中的文本元素的神经网络模型;上述第二识别单元,包括:第二输入模块,用于将上述目标音频输入第二音频识别模型,得到上述第二音频识别模型输出的上述非文本特征,其中,上述第二音频识别模型为利用第二样本进行训练得到的、用于识别音频中的非文本元素的神经网络模型。
9、作为一种可选的方案,上述装置还包括:第一获取模块,用于在上述将上述目标音频输入第二音频识别模型,得到上述第二音频识别模型输出的上述非文本特征之前,获取多个第二样本,其中,上述多个第二样本包括上述至少两种语言种类下的不同情感类别对应的音频样本;样本模块,用于在上述将上述目标音频输入第二音频识别模型,得到上述第二音频识别模型输出的上述非文本特征之前,将上述多个第二样本分为锚点样本、正样本、和负样本,上述锚点样本为上述多个第二样本中随机选择的样本,上述正样本与上述锚点样本属于相同的情感类别并具有相同的文本内容,上述负样本与上述锚点样本属于不同的情感类别但具有相同的文本内容;训练模块,用于在上述将上述目标音频输入第二音频识别模型,得到上述第二音频识别模型输出的上述非文本特征之前,利用上述锚点样本、上述正样本、和上述负样对初始的音频识别模型进行训练,直至满足收敛条件,得到上述第二音频识别模型。
10、作为一种可选的方案,上述装置还包括:第三输入模块,用于在上述将上述目标音频输入第二音频识别模型,得到上述第二音频识别模型输出的上述非文本特征之后,在将上述目标音频输入第三音频识别模型、并得到上述第三音频识别模型输出的目标特征;第二分类模块,用于在上述将上述目标音频输入第二音频识别模型,得到上述第二音频识别模型输出的上述非文本特征之后,对上述目标特征和上述非文本特征进行整合处理,并基于整合得到的音频特征确定上述目标音频所属的情感类别。
11、作为一种可选的方案,上述获取单元,包括:第二获取模块,用于获取目标应用采集到的、由目标账号触发的音频片段,其中,上述音频片段包括上述目标音频;上述装置还包括:调整单元,用于在上述对上述文本特征和上述非文本特征进行整合处理,并基于整合得到的目标音频特征确定上述目标音频所属的情感类别之后,在上述目标音频所属的情感类别属于异常情感类别的情况下,基于上述目标音频所属的情感类别调整上述目标应用对上述目标账号的反馈方式。
12、根据本技术实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上音频识别方法。
13、根据本技术实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的音频识别方法。
14、在本技术实施例中,获取目标音频,其中,上述目标音频对应的语言种类为预设语言种类集合中的至少一种,上述预设语言种类集合包含至少两种语言种类;按照上述目标音频对应的语言种类对上述目标音频进行第一音频识别,得到上述目标音频对应的文本特征,其中,上述文本特征为上述目标音频中与目标文本元素之间的相关程度大于或等于预设阈值的第一元素对应的表示特征;以及,对上述目标音频进行第二音频识别,得到上述目标音频对应的非文本特征,其中,上述非文本特征为上述目标音频中与上述目标文本元素之间的相关程度小于上述预设阈值的第二元素对应的表示特征;对上述文本特征和上述非文本特征进行整合处理,并基于整合得到的目标音频特征确定上述目标音频所属的情感类别,在多语言音频识别的前期过程中,除参考了音频对应的文本特征外,还参考了音频对应的非文本特征,并将文本特征和非文本特征进行拼接,以为后续的音频识别过程提供更为全面的参考信息,进而达到了为多语言场景提供更加全面的音频识别参考信息的目的,从而实现了提高音频识别准确性的技术效果,进而解决了音频识别准确性较低的技术问题。