本申请涉及音频处理,尤其涉及一种音频数据处理方法、装置及电子设备。
背景技术:
1、语音识别技术,也被称为自动语音识别,其目标是将用户的语音内容转换为相应的文字。该技术适用于会议记录、语音翻译、语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景。
2、目前,相关技术中提供的语音识别方法在处理多人语音重叠时存在一定的限制,比如,存在语音识别结果碎片化严重等问题。
3、其中,音频识别结果碎片化是指在进行语音识别时,由于各种因素的干扰或不完整的语音输入,可能导致最终的语音识别结果出现内容不连贯、语音信息丢失或语义误解等情况,从而影响后续的处理或理解。
技术实现思路
1、本申请实施例提供一种音频数据处理方法,用以解决现有技术中语音识别方法在处理多人语音重叠时存在一定的限制,比如,存在语音识别结果碎片化严重等问题。
2、本申请实施例还提供一种音频数据处理装置,一种电子设备,以及一种计算机可读存储介质。
3、本申请实施例采用下述技术方案:
4、第一方面,本申请提供一种音频数据处理方法,包括:
5、获取待处理音频数据;
6、将待处理音频数据分割为多个音频数据片段,并记录每个音频数据片段的起始时间戳;其中,每个音频数据片段包含单一声纹信息;
7、若起始时间戳相邻的音频数据片段包含的声纹信息相同,则合并起始时间戳相邻的音频数据片段,得到音频数据片段处理结果;
8、基于音频数据片段处理结果进行语音识别,得到待处理音频数据的语音识别结果。
9、可选的,将待处理音频数据分割为多个音频数据片段,并记录每个音频数据片段的起始时间戳,包括:
10、根据待处理音频数据包含的声纹信息,将待处理音频数据分割为多个音频数据片段;
11、记录每个音频数据片段的起始时间戳。
12、可选的,根据待处理音频数据包含的声纹信息,将待处理音频数据分割为多个音频数据片段,包括:
13、确定待处理音频数据包含的声纹信息;
14、对声纹信息进行聚类得到声纹聚类结果;
15、根据声纹聚类结果将待处理音频数据分割为多个音频数据片段。
16、可选的,对声纹信息进行聚类得到声纹聚类结果,包括:
17、利用凝聚分层聚类算法或能够实现聚类效果的神经网络算法,对声纹信息进行聚类得到声纹聚类结果。
18、可选的,在将待处理音频数据分割为多个音频数据片段,并记录每个音频数据片段的起始时间戳之前,方法还包括:
19、判断待处理音频数据是否支持音频搜索定位;
20、若待处理音频数据不支持音频搜索定位,则对待处理音频数据进行格式处理,以便格式处理后的待处理音频数据能够支持音频搜索定位。
21、可选的,若起始时间戳相邻的音频数据片段包含的声纹信息相同,则合并起始时间戳相邻的音频数据片段,得到音频数据片段处理结果之前,方法还包括:
22、对多个音频数据片段进行数据清洗,以便从多个音频数据片段中剔除预设干扰音频数据片段。
23、可选的,方法还包括:
24、基于待处理音频数据的语音识别结果进行文本纠错和/或文本替换,得到与待处理音频数据所表征的含义相同的文本内容。
25、第二方面,本申请一种音频数据处理装置,包括音频数据获取模块、音频分割模块、音频片段合并模块和语音识别模块,其中:
26、音频数据获取模块,用于获取待处理音频数据;
27、音频分割模块,用于将待处理音频数据分割为多个音频数据片段,并记录每个音频数据片段的起始时间戳;其中,每个音频数据片段包含单一声纹信息;
28、音频片段合并模块,用于若起始时间戳相邻的音频数据片段包含的声纹信息相同,则合并起始时间戳相邻的音频数据片段,得到音频数据片段处理结果;
29、语音识别模块,用于基于音频数据片段处理结果进行语音识别,得到待处理音频数据的语音识别结果。
30、可选的,音频分割模块,包括:
31、音频分割单元,用于根据待处理音频数据包含的声纹信息,将待处理音频数据分割为多个音频数据片段;
32、时间戳记录单元,用于记录每个音频数据片段的起始时间戳。
33、可选的,音频分割单元,包括:
34、声纹确定子单元,用于确定待处理音频数据包含的声纹信息;
35、声纹聚类子单元,用于对声纹信息进行聚类得到声纹聚类结果;
36、音频分割子单元,用于根据声纹聚类结果将待处理音频数据分割为多个音频数据片段。
37、可选的,声纹聚类子单元,用于:
38、利用凝聚分层聚类算法或能够实现聚类效果的神经网络算法,对声纹信息进行聚类得到声纹聚类结果。
39、可选的,装置还用于:
40、判断待处理音频数据是否支持音频搜索定位;
41、若待处理音频数据不支持音频搜索定位,则对待处理音频数据进行格式处理,以便格式处理后的待处理音频数据能够支持音频搜索定位。
42、可选的,装置还用于:
43、在合并起始时间戳相邻的音频数据片段,得到音频数据片段处理结果之前,方法还包括:
44、对多个音频数据片段进行数据清洗,以便从多个音频数据片段中剔除预设干扰音频数据片段。
45、可选的,装置还用于:
46、基于待处理音频数据的语音识别结果进行文本纠错和/或文本替换,得到与待处理音频数据所表征的含义相同的文本内容。
47、第三方面,本申请一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的音频数据处理方法的步骤。
48、第四方面,本申请一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的音频数据处理方法的步骤。
49、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
50、采用本申请提供的方法,可以获取待处理音频数据;将待处理音频数据分割为多个音频数据片段,并记录每个音频数据片段的起始时间戳;其中,每个音频数据片段包含单一声纹信息;若起始时间戳相邻的音频数据片段包含的声纹信息相同,则合并起始时间戳相邻的音频数据片段,得到音频数据片段处理结果;基于音频数据片段处理结果进行语音识别,得到待处理音频数据的语音识别结果,这样,即便由于停顿、噪音或其它干扰等导致用户的某一次说话被分割成很多音频片段,通过本申请提供的方法,也可以将起始时间戳相邻且包含的声纹信息相同的音频数据片段合并起来,并基于合并处理后的音频数据片段进行语音识别,从而解决现有技术中语音识别结果碎片化严重等问题。
1.一种音频数据处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述将所述待处理音频数据分割为多个音频数据片段,并记录每个所述音频数据片段的起始时间戳,包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述待处理音频数据包含的声纹信息,将所述待处理音频数据分割为多个音频数据片段,包括:
4.如权利要求3所述的方法,其特征在于,所述对所述声纹信息进行聚类得到声纹聚类结果,包括:
5.如权利要求1所述的方法,其特征在于,在将所述待处理音频数据分割为多个音频数据片段,并记录每个所述音频数据片段的起始时间戳之前,所述方法还包括:
6.如权利要求1所述的方法,其特征在于,若所述起始时间戳相邻的所述音频数据片段包含的所述声纹信息相同,则合并所述起始时间戳相邻的所述音频数据片段,得到音频数据片段处理结果之前,所述方法还包括:
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种音频数据处理装置,其特征在于,包括音频数据获取模块、音频分割模块、音频片段合并模块和语音识别模块,其中:
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的音频数据处理方法的步骤。