本申请属于人工智能,具体涉及一种语音文本质检方法、装置、电子设备及可读存储介质。
背景技术:
1、随着互联网技术的发展,大量信息以语音文本的形式出现,比如装维预约语音质检场景等。目前,当对语音文件进行质检时,通常采用预先训练模型直接对该语音文件进行分析与分类。然而,由于同一词语在不同语句中所表示的含义可能是不同的,将会造成无法准确对语音文本进行质检。
技术实现思路
1、本申请实施例的目的是提供一种语音文本质检方法、装置、电子设备及可读存储介质,以解决目前无法准确对语音文本进行质检的问题。
2、为了解决上述技术问题,本申请是这样实现的:
3、第一方面,提供了一种语音文本质检方法,应用于电子设备,包括:
4、获取待质检语音文本;
5、根据目标场景下的多个关键词类别的关键词权重表,确定所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值;
6、根据所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,确定所述待质检语音文本所属的目标关键词类别;
7、利用与所述目标关键词类别对应的文本分类模型,判定所述待质检语音文本是否存在异常行为。
8、可选的,所述关键词权重表的构建过程包括:
9、获取所述目标场景下的已标注的多个语音文本样本;
10、对所述多个语音文本样本进行特征提取,获得多个文本特征向量;
11、根据k-means算法对所述多个文本特征向量进行聚类计算,获得所述多个关键词类别中的每个关键词类别下的多个关键词;
12、根据词频矩阵,计算所述多个关键词类别中的每个关键词类别下的多个关键词的权重值,并根据计算得到的权重值,构建所述关键词权重表。
13、可选的,所述关键词权重表中包括所述多个关键词类别中的每个关键词类别下的多个关键词的权重值;所述根据目标场景下的多个关键词类别的关键词权重表,确定所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,包括:
14、根据所述关键词权重表,提取所述待质检语音文本中的所述每个关键词类别下的目标关键词,并确定所述每个关键词类别下的目标关键词的权重值;
15、根据所述每个关键词类别下的目标关键词的权重值,确定所述待质检语音文本在所述每个关键词类别下的权重值。
16、可选的,所述根据所述每个关键词类别下的目标关键词的权重值,确定所述待质检语音文本在所述每个关键词类别下的权重值,包括:
17、当第一关键词类别下的目标关键词的个数为1时,将所述第一关键词类别下的1个目标关键词的权重值确定为所述待质检语音文本在所述第一关键词类别下的权重值;
18、或者,当第一关键词类别下的目标关键词的个数为n时,将所述第一关键词类别下的n个目标关键词的权重值之和确定为所述待质检语音文本在所述第一关键词类别下的权重值,所述n大于1;
19、其中,所述第一关键词类别为所述多个关键词类别中的任一关键词类别。
20、可选的,当根据所述关键词权重表,没有从所述待质检语音文本中提取到第二关键词类别下的关键词时,所述第二关键词类别为所述多个关键词类别中的任一关键词类别,所述方法还包括:
21、确定所述待质检语音文本在所述第二关键词类别下的权重值为0。
22、可选的,所述根据所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,确定所述待质检语音文本所属的目标关键词类别,包括:
23、当所述待质检语音文本在第三关键词类别下的权重值大于预设阈值时,确定所述待质检语音文本属于所述第三关键词类别,所述第三关键词类别为所述多个关键词类别中的任一关键词类别。
24、可选的,所述利用与所述目标关键词类别对应的文本分类模型,判定所述待质检语音文本是否存在异常行为包括:
25、利用与所述目标关键词类别对应的bert文本分类模型,判定所述待质检语音文本是否存在异常行为。
26、第二方面,提供了一种语音文本质检装置,应用于电子设备,包括:
27、获取模块,用于获取待质检语音文本;
28、第一确定模块,用于根据目标场景下的多个关键词类别的关键词权重表,确定所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值;
29、第二确定模块,用于根据所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,确定所述待质检语音文本所属的目标关键词类别;
30、判定模块,用于利用与所述目标关键词类别对应的文本分类模型,判定所述待质检语音文本是否存在异常行为。
31、第三方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
32、第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
33、本申请实施例中,在获取待质检语音文本后,可以先根据目标场景下的多个关键词类别的关键词权重表,确定所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,并根据所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,确定所述待质检语音文本所属的目标关键词类别,然后利用与所述目标关键词类别对应的文本分类模型,判定所述待质检语音文本是否存在异常行为,从而能够基于语义理解的能力对语音文本进行质检,从而准确对语音文本进行质检。
1.一种语音文本质检方法,应用于电子设备,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述关键词权重表的构建过程包括:
3.根据权利要求1或2所述的方法,其特征在于,所述关键词权重表中包括所述多个关键词类别中的每个关键词类别下的多个关键词的权重值;
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个关键词类别下的目标关键词的权重值,确定所述待质检语音文本在所述每个关键词类别下的权重值,包括:
5.根据权利要求3所述的方法,其特征在于,当根据所述关键词权重表,没有从所述待质检语音文本中提取到第二关键词类别下的关键词时,所述第二关键词类别为所述多个关键词类别中的任一关键词类别,所述方法还包括:
6.根据权利要求3所述的方法,其特征在于,所述根据所述待质检语音文本在所述多个关键词类别中的每个关键词类别下的权重值,确定所述待质检语音文本所属的目标关键词类别,包括:
7.根据权利要求1所述的方法,其特征在于,所述利用与所述目标关键词类别对应的文本分类模型,判定所述待质检语音文本是否存在异常行为包括:
8.一种语音文本质检装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的语音文本质检方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的语音文本质检方法的步骤。