本申请涉及音频处理,更具体地,涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术:
1、音频作为一种常见的数据形态,其包含了丰富的信息,而语音承载了人与人之间相互交流的各种信息,使得语音处理技术尤为重要。
2、然而,语音中包括大量噪声和无效信息,因此,亟需一种语音处理手段,来从语音中提取有效的人声片段。
技术实现思路
1、有鉴于此,本申请实施例提出了一种语音处理方法、装置、电子设备及存储介质,以提供一种从语音中提取有效的人声片段的手段。
2、第一方面,本申请实施例提供了一种语音处理方法,方法包括:根据待处理语音集合中每条语音各自的语音质量,从待处理语音集合中确定候选语音;对候选语音进行语音分离,得到多个单人语音片段;每个单人语音片段包括同一个人的人声;对多个单人语音片段进行聚类,得到至少一个语音片段集合;一个语音片段集合内的单人语音片段均属于同一个人;基于每个语音片段集合中的单人语音片段,确定每个语音片段集合对应的目标语音。
3、第二方面,本申请实施例提供了一种语音处理模型的训练装置,装置包括:第一确定模块,用于根据待处理语音集合中每条语音各自的语音质量,从待处理语音集合中确定候选语音;分离模块,用于对候选语音进行语音分离,得到多个单人语音片段;每个单人语音片段包括同一个人的人声;聚类模块,用于对多个单人语音片段进行聚类,得到至少一个语音片段集合;一个语音片段集合内的单人语音片段均属于同一个人;第二确定模块,用于基于每个语音片段集合中的单人语音片段,确定每个语音片段集合对应的目标语音。
4、第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
5、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
6、第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的方法。
7、本申请实施例提供的一种语音处理方法、装置、电子设备及存储介质,首先,根据待处理语音集合中每条语音各自的语音质量,从待处理语音集合中确定候选语音,以滤除语音质量差的语音,得到语音质量较好的候选语音,然后对候选语音进行语音分离,得到多个单人语音片段,并对多个单人语音片段进行聚类,得到至少一个语音片段集合,以为每个人确定各自的语音片段集合,最后,根据每个语音片段集合中的单人语音片段确定一个目标语音,可见,本申请中首先实现了从待处理语音集合中筛选语音质量好的候选语音的目的,其次,从筛选出的候选语音中分离每个人各自的目标语音,实现了对每个人提取对应的语音的目的,也即,通过本申请的方法,实现了对每个人提取各自的语音的目的,且提取的语音有效性较高、语音质量较好。
1.一种语音处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述语音片段集合中的单人语音片段,确定每个所述语音片段集合对应的目标语音,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述语音片段集合中每个单人语音片段中文字的字数和/或每个所述单人语音片段各自的人声有效时长,从所述语音片段集合中确定第一候选单人语音片段,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于每个所述语音片段集合中的单人语音片段,确定每个所述语音片段集合对应的目标语音,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于每个所述语音片段集合中的单人语音片段,确定每个所述语音片段集合对应的目标语音,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于每个所述语音片段集合中的单人语音片段,确定每个所述语音片段集合对应的目标语音,包括:
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述语音质量包括信噪比、人声有效时长、平均噪声能量以及截幅比中的至少一项。
8.一种语音处理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7中任一项所述的方法。