语音对话及声纹克隆方法、装置、设备及介质与流程

文档序号：43621201发布日期：2025-10-31 22:50阅读：34来源：国知局

技术简介：
本发明针对医疗与金融领域智能客服语音交互中存在ASR识别率低、回复缺乏上下文关联及声纹特征不匹配等问题，提出通过大语言模型生成上下文感知序列，并融合用户声纹特征进行语音合成，提升对话精准度与自然度。
关键词：声纹克隆,上下文感知,语音合成

本发明涉及语音合成，尤其涉及一种语音对话及声纹克隆方法、装置、设备及介质。

背景技术：

1、随着医疗数字化进程加快，智能客服已成为医疗咨询软件的核心交互模块，承担着体检预约引导、常见病症咨询、用药注意事项解答等基础服务职能，其服务效率与质量直接影响用户就医体验与健康信息获取准确性。当前，医疗健康领域的智能客服交互仍存在显著技术瓶颈。在语音输入处理环节，用户咨询场景多为居家、户外等非静音环境，背景噪声（如家庭环境中的电器声、户外交通声）易导致语音转文本（asr）准确率大幅下降，在回复生成与输出环节，现有系统多采用 “通用模板 + 固定语音” 的模式：一方面，回复文本缺乏上下文关联性，精准度差。

2、在金融科技行业，智能客服是金融软件（如手机银行、基金 app、证券交易平台）连接用户与金融服务的重要桥梁，需高频处理大额存款利率查询、理财产品收益对比、贷款申请流程指引、账户异常交易咨询等专业性需求，其核心诉求是实现金融信息的精准传递与高效交互。现阶段，金融科技领域的智能客服语音交互体系存在明显技术短板。在语音输入转化环节，用户咨询内容常包含 “年化收益率”“lpr 利率”“风险等级 r3” 等专业术语，现有 asr 模型对金融术语的识别准确率不足，导致后续回复的核心数据偏差，影响用户投资决策。在回复生成与语音输出层面，现有系统难以满足金融场景的专业性与连贯性要求，同时，部分系统未整合用户历史对话中的偏好信息（如用户多次关注 “短期保本型产品”），后续推荐仍覆盖长期非保本产品，既降低服务效率，也易使用户对系统的专业性产生质疑，影响金融服务的转化效果。

技术实现思路

1、本发明提供一种语音对话及声纹克隆方法、装置、计算机设备及介质，以解决目前市场上现有的语音文本对话方法转化精度低效率低的问题。

2、第一方面，提供了一种语音对话及声纹克隆方法，包括：

3、获取用户的语音输入数据，将所述语音输入数据转换为文本数据；

4、利用预先训练的大语言模型根据所述文本数据生成回复文本，获取所述回复文本中每个文本token所包含的隐藏状态；

5、根据所述回复文本以及所述隐藏状态构建上下文感知序列；

6、获取用户预先选取的声纹样本的声纹特征，利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱；

7、将所述梅尔频谱转换为音频数据，得到回复音频，向用户得到并播放回复音频。

8、第二方面，提供了一种语音对话及声纹克隆装置，包括：

9、数据获取模块，用于获取用户的语音输入数据，将所述语音输入数据转换为文本数据；

10、文本生成模块，用于利用预先训练的大语言模型根据所述文本数据生成回复文本，获取所述回复文本中每个文本token所包含的隐藏状态；

11、感知序列构建模块，用于根据所述回复文本以及所述隐藏状态构建上下文感知序列；

12、梅尔频谱生成模块，用于获取用户预先选取的声纹样本的声纹特征，利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱；

13、音频转化模块，用于将所述梅尔频谱转换为音频数据，得到回复音频，向用户得到并播放回复音频。

14、第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述语音对话及声纹克隆方法的步骤。

15、第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述语音对话及声纹克隆方法的步骤。

16、上述语音对话及声纹克隆方法、装置、计算机设备及存储介质所实现的方案中，可以通过获取用户与智能客服的语音，经多步处理转文本：先通过 adc 将语音转为 16khz采样率、16bit 位深的数字信号，再用谱减法等去噪、归一化至 [-1,1] 幅值，提取 mfcc/fbank 音频特征后经 cmvn 规整，最终由预训练 transformer 端到端 asr 模型输出文本。用大语言模型（如 qwen-7b）处理文本：先分词去无用词，结合历史对话构建带角色标识的上下文序列，编码为 token id 与注意力掩码后，模型通过编码器 / 解码器逐 token生成回复；同步提取每个回复 token 的隐藏状态（融合上下文语义、语法的高维向量）。将回复 token 经预训练文本嵌入层转为固定维度向量，对隐藏状态做维度匹配与归一化，通过元素级加法融合两者，形成兼具基础语义与上下文信息的序列，为语音合成做准备。提取用户声纹特征；tts 模型（如 cosyvoice2）将上下文感知序列编码，通过跨注意力融合声纹特征，解码器生成初始梅尔频谱，再用动态时间规整算法优化连贯性，得到最终频谱。经声码器将频谱映射为时域信号，优化波形后编码为 16khz、16bit 的 wav 格式音频，最终向用户播放，提升了文本语音转换的效率和精准度。

技术特征：

1.一种语音对话及声纹克隆方法，其特征在于，包括：

2.如权利要求1所述的语音对话及声纹克隆方法，其特征在于，所述将所述语音输入数据转换为文本数据，包括：

3.如权利要求1所述的语音对话及声纹克隆方法，其特征在于，所述利用预先训练的大语言模型根据所述文本数据生成回复文本，包括：

4.如权利要求1所述的语音对话及声纹克隆方法，其特征在于，所述根据所述回复文本以及所述隐藏状态构建上下文感知序列，包括：

5.如权利要求1所述的语音对话及声纹克隆方法，其特征在于，所述获取用户预先选取的声纹样本的声纹特征，包括：

6.如权利要求1所述的语音对话及声纹克隆方法，其特征在于，所述利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱，包括：

7.如权利要求1所述的语音对话及声纹克隆方法，其特征在于，所述将所述梅尔频谱转换为音频数据，得到回复音频，包括：

8.一种语音对话及声纹克隆装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音对话及声纹克隆方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音对话及声纹克隆方法的步骤。

技术总结
本发明涉及语音合成技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了一种语音对话及声纹克隆方法、装置、设备及介质，包括：获取用户的语音输入数据，将所述语音输入数据转换为文本数据，利用预先训练的大语言模型根据所述文本数据生成回复文本，获取所述回复文本中每个文本Token所包含的隐藏状态，根据所述回复文本以及所述隐藏状态构建上下文感知序列，获取用户预先选取的声纹样本的声纹特征，利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱，将所述梅尔频谱转换为音频数据，得到回复音频，向用户得到并播放回复音频。提升了文本语音转换的效率和精准度。

技术研发人员：石岩,陈闽川,王少军
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2025/10/30

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石岩,陈闽川,王少军
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！