语音处理方法、装置、设备、介质及产品与流程

文档序号:39600208发布日期:2024-10-11 13:07阅读:112来源:国知局

本申请属于人工智能,尤其涉及一种语音处理方法、装置、设备、介质及产品。


背景技术:

1、目前,为实现将人类的语音自动转换为相对应的文字,通常采用通用语音识别模型进行处理,虽然能够适应不同说话人,但不同说话人的识别效果可能存在差异,特别是说话人的音色独特、有口音、发音习惯与多数人存在差异等情况。因此,针对特定的说话人,例如针对会议记录场景下重要发言人的语音识别以及针对刑侦场景下关键人物的语音识别,相关技术无法在不改变语音识别模型参数或结构的前提下将特定说话人的语音处理转化为准确的文本,难以实现针对特定说话人的准确识别。


技术实现思路

1、本申请实施例提供一种语音处理方法、装置、设备、介质及产品,用以至少解决相关技术中针对特定说话人的语音识别准确率低的问题。

2、第一方面,本申请实施例提供一种语音处理方法,包括:

3、获取目标对象的待识别语音数据,所述待识别语音数据包括所述目标对象的声学特征;

4、将所述待识别语音数据输入到预先构建的语音处理系统中,得到所述待识别语音数据对应的文本数据,所述语音处理系统至少包括asr模型和预先训练的plm模型,所述plm模型是根据多个训练文本和所述asr模型输出的语音识别结果训练得到的,所述语音识别结果是根据目标对象的历史语音数据得到的,所述待识别语音数据与所述历史语音数据的声学特征一致。

5、第二方面,本申请实施例提供了一种语音处理装置,所述装置包括:

6、获取模块,用于获取目标对象的待识别语音数据,所述待识别语音数据包括所述目标对象的声学特征;

7、输入模块,用于将所述待识别语音数据输入到预先构建的语音处理系统中,得到所述待识别语音数据对应的文本数据,所述语音处理系统至少包括asr模型和预先训练的plm模型,所述plm模型是根据多个训练文本和所述asr模型输出的语音识别结果训练得到的,所述语音识别结果是根据目标对象的历史语音数据得到的,所述待识别语音数据与所述历史语音数据的声学特征一致。

8、第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行所述计算机程序指令时实现如第一方面的任一项实施例中所述的语音处理方法的步骤。

9、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的任一项实施例中所述的语音处理方法的步骤。

10、第五方面,本申请实施例提供一种计算机程序产品,所述程序产品被存储在存储介质中,所述程序产品被至少一个处理器执行以实现如本申请实施例第一方面提供的语音处理方法的步骤。

11、本申请实施例的语音处理方法、装置、设备、介质及产品,根据包括目标对象的声学特征的历史语音数据和多个训练文本预先训练plm模型,以利用asr模型和训练获取的plm模型构建的语音处理系统对与历史语音数据的声学特征一致的其目标对象的待识别语音数据进行处理,得到待识别语音对应的文本数据,能够在不改变asr模型参数或结构的前提下提高针对某个特定说话人的语音识别准确性。



技术特征:

1.一种语音处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将所述待识别语音数据输入到预先构建的语音处理系统中之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述目标对象的数量为一个;

4.根据权利要求2所述的方法,其特征在于,在将所述历史语音数据和多个训练文本输入到预先构建的仿声tts模型中之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,将所述待识别语音数据输入到预先构建的语音处理系统中之前,所述方法还包括:

6.根据权利要求2或5所述的方法,其特征在于,所述预设训练停止条件包括以下至少一项:迭代训练的次数达到第一预设阈值、校正准确率达到第二预设阈值、损失值保持连续不下降的次数达到第三预设阈值,所述损失值基于预设损失函数得到。

7.一种语音处理装置,其特征在于,所述装置包括:

8.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器调用所述计算机程序指令时实现如权利要求1-6中任意一项所述的语音处理方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器调用时实现如权利要求1-6中任意一项所述的语音处理方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-6中任意一项所述的语音处理方法。


技术总结
本申请公开了一种语音处理方法、装置、设备、介质及产品。所述方法包括:获取目标对象的待识别语音数据,待识别语音数据包括目标对象的声学特征;将待识别语音数据输入到预先构建的语音处理系统中,得到待识别语音数据对应的文本数据,语音处理系统至少包括ASR模型和预先训练的PLM模型,PLM模型是根据多个训练文本和ASR模型输出的语音识别结果训练得到的,语音识别结果是根据目标对象的历史语音数据得到的,待识别语音数据与历史语音数据的声学特征一致。根据本申请实施例,能够在不改变ASR模型参数或结构的前提下提高针对某个特定说话人的语音识别准确性。

技术研发人员:陈龙,汤跃忠,杨静波,刘丹,窦硕鹏,傅景楠,陶文波,许斌,葛珊,张向阳
受保护的技术使用者:电视电声研究所(中国电子科技集团公司第三研究所)
技术研发日:
技术公布日:2024/10/10
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!