本技术涉及语音数据处理领域,具体涉及一种基于多模型的语音数据分析方法及装置。
背景技术:
1、在当今信息时代,数据分析已成为企业竞争力的重要组成部分。大量的数据产生于日常运营、市场调查、客户行为等各种场景,如何从中提炼出有价值的信息,以指导决策和优化战略,成为企业成功的关键。
2、语音内容识别(automatic speech recognition,asr)技术在过去几年中取得了显著的进展,但仍然存在一些挑战和缺陷。现实世界中的语音数据具有很大的多样性和变化性,包括不同的说话者、口音、环境噪声等。这使得模型在处理各种情况时可能表现不一致。
3、随着社会信息化、数字化程度的逐渐提高,在社会治理、媒体宣发、校园教育等方面,往往需耗费更多的时间及精力来完成日常的工作内容,效率低下,且用户感受体验较差,在某些环境下,对用户的需求无法做到完全满足。
技术实现思路
1、针对现有技术中的问题,本技术提供一种基于多模型的语音数据分析方法及装置,能够有效提高语音数据的分析准确性和效率。
2、为了解决上述问题中的至少一个,本技术提供以下技术方案:
3、第一方面,本技术提供一种基于多模型的语音数据分析方法,包括:
4、在获取到用户授权后,对所述用户发送的语音信息流进行短时窗口帧划分,并将所述短时窗口帧后划分后的语音信息流输入预设梅尔滤波器组,提取得到所述语音信息流的梅尔频谱系数;
5、对所述梅尔频谱系数进行主成分分析降维处理,得到对应的声学特征向量,根据所述声学特征向量和预设语音模型库中包含的各语音内容分析模型的声学特征向量进行余弦相似度计算;
6、根据所述余弦相似度计算的结果确定对应的多个语音内容分析模型,并将所述多个语音内容分析模型的余弦相似度计算的结果进行归一化处理,确定所述多个语音内容分析模型相应的权重;
7、根据所述多个语音内容分析模型对设定模型训练集进行模型训练,得到多个初级模型,并将所述多个语音内容分析模型相应的权重设定为所述多个初级模型相应的权重,其中,所述设定模型训练集由经过所述主成分分析降维处理后的梅尔频谱系数和相应的语音内容标签构建得到;
8、根据所述初级模型的输出结果按照所述权重进行加权求和,构建得到堆叠特征集,并根据预设上层模型对所述堆叠特征集进行训练,得到目标语音分析模型,根据所述目标语音分析模型对所述语音信息流进行语音内容分析,得到经过所述语音内容分析后的关键内容。
9、进一步地,所述对所述用户发送的语音信息流进行短时窗口帧划分,并将所述短时窗口帧后划分后的语音信息流输入预设梅尔滤波器组,提取得到所述语音信息流的梅尔频谱系数,包括:
10、按照预设帧长窗口将所述用户发送的语音信息流分割为短时窗口帧,并根据预设梅尔滤波器组对各所述短时窗口帧进行滤波处理;
11、将经过所述滤波处理后的短时窗口帧进行时域频域转换,得到对应的频谱信息,并从所述频谱信息中提取对应的梅尔频谱系数。
12、进一步地,所述根据所述声学特征向量和预设语音模型库中包含的各语音内容分析模型的声学特征向量进行余弦相似度计算,根据所述余弦相似度计算的结果确定对应的多个语音内容分析模型,包括:
13、确定所述声学特征向量和预设语音模型库中包含的各语音内容分析模型的声学特征向量的向量内积和向量范数;
14、根据所述向量内积和所述向量范数计算得到余弦相似度数值,并根据所述余弦相似度数值和预设相似度阈值的数值比较关系确定对应的多个语音内容分析模型。
15、进一步地,所述将所述多个语音内容分析模型的余弦相似度计算的结果进行归一化处理,确定所述多个语音内容分析模型相应的权重,包括:
16、确定所述多个语音内容分析模型的余弦相似度计算值的相似度总和;
17、根据各所述语音内容分析模型的余弦相似度计算值在所述相似度总和中的数值占比,确定各所述语音内容分析模型对应的权重。
18、进一步地,所述根据所述多个语音内容分析模型对设定模型训练集进行模型训练,得到多个初级模型,并将所述多个语音内容分析模型相应的权重设定为所述多个初级模型相应的权重,包括:
19、根据经过所述主成分分析降维处理后的梅尔频谱系数和相应的语音内容标签构建得到设定模型训练集;
20、根据所述设定模型训练集对各所述语音内容分析模型进行模型训练,得到多个初级模型,并将所述多个语音内容分析模型相应的权重设定为所述多个初级模型相应的权重,其中,所述初级模型的输入特征为所述梅尔频谱系数,所述初级模型的目标输出为所述语音内容标签。
21、进一步地,所述根据所述初级模型的输出结果按照所述权重进行加权求和,构建得到堆叠特征集,并根据预设上层模型对所述堆叠特征集进行训练,得到目标语音分析模型,包括:
22、将各所述初级模型的输出结果按照相应的语音内容分析模型的权重进行加权求和,根据所述加权求和的结构构成对应的堆叠特征集;
23、根据所述堆叠特征集和对应的语音内容标签对预设上层模型对所述堆叠特征集进行训练,得到目标语音分析模型。
24、进一步地,在所述得到经过所述语音内容分析后的关键内容之后,包括:
25、判断所述关键内容是否与预设敏感内容判定规则匹配;
26、若是,则根据所述语音信息流生成一告警信号并发送至相应管理员端。
27、第二方面,本技术提供一种基于多模型的语音数据分析装置,包括:
28、梅尔频谱系数提取模块,用于在获取到用户授权后,对所述用户发送的语音信息流进行短时窗口帧划分,并将所述短时窗口帧后划分后的语音信息流输入预设梅尔滤波器组,提取得到所述语音信息流的梅尔频谱系数;
29、多模型相似度计算模块,用于对所述梅尔频谱系数进行主成分分析降维处理,得到对应的声学特征向量,根据所述声学特征向量和预设语音模型库中包含的各语音内容分析模型的声学特征向量进行余弦相似度计算;
30、多模型权重计算模块,用于根据所述余弦相似度计算的结果确定对应的多个语音内容分析模型,并将所述多个语音内容分析模型的余弦相似度计算的结果进行归一化处理,确定所述多个语音内容分析模型相应的权重;
31、初级模型训练模块,用于根据所述多个语音内容分析模型对设定模型训练集进行模型训练,得到多个初级模型,并将所述多个语音内容分析模型相应的权重设定为所述多个初级模型相应的权重,其中,所述设定模型训练集由经过所述主成分分析降维处理后的梅尔频谱系数和相应的语音内容标签构建得到;
32、多模型堆叠融合模块,用于根据所述初级模型的输出结果按照所述权重进行加权求和,构建得到堆叠特征集,并根据预设上层模型对所述堆叠特征集进行训练,得到目标语音分析模型,根据所述目标语音分析模型对所述语音信息流进行语音内容分析,得到经过所述语音内容分析后的关键内容。
33、第三方面,本技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于多模型的语音数据分析方法的步骤。
34、第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于多模型的语音数据分析方法的步骤。
35、第五方面,本技术提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述的基于多模型的语音数据分析方法的步骤。
36、由上述技术方案可知,本技术提供一种基于多模型的语音数据分析方法及装置,通过在获取到用户授权后,对所述用户发送的语音信息流进行短时窗口帧划分,提取得到梅尔频谱系数;对梅尔频谱系数进行降维处理,得到声学特征向量,根据声学特征向量和预设语音模型库中包含的各语音内容分析模型的声学特征向量进行余弦相似度计算;根据余弦相似度计算的结果确定多个语音内容分析模型和相应的权重;根据多个语音内容分析模型得到多个初级模型;根据初级模型构建得到堆叠特征集,并根据预设上层模型对所述堆叠特征集进行训练,得到目标语音分析模型,根据目标语音分析模型得到关键内容,由此能够有效提高语音数据的分析准确性和效率。