一种人机对话方法、装置、设备和存储介质与流程

文档序号：38033830发布日期：2024-05-17 13:16阅读：26来源：国知局

本申请涉及计算机，尤其涉及一种人机交互方法、装置、设备和存储介质。

背景技术：

1、在人机对话系统中，机器模型负责听取用户用自然语音提出的问题，并用自然语音来回答用户提出的问题。在一些场景中，用户希望机器模型在回复用户问题的时候可以使用特定用户的音色，这样可以让人听起来像是这个特定用户在回答问题。

2、目前，机器模型可以学习特定用户声音的音色，但是，在机器模型学习时，需要使用该特定用户的大量语音信息，以便使用该特定用户的大量语音信息训练机器模型。进一步地，在系统研发阶段，可以聘用特定用户，采集该特定用户输入的大量语音信息，以便使机器模型能够习得该特定用户的特定音色，在系统出厂之后，普通用户可以在系统提供的多个特定音色中选择喜欢的音色，并且使用选择的特定音色播放所需信息。在一些情况下，如果用户希望机器模型能够使用自身音色来播放信息，则需要采集该普通用户的大量语音信息，以便利用该普通用户的大量语音信息继续训练机器模型。但是，在系统出厂之后，很难让普通用户有意识地输入大量的语音信息，然而使用该普通用户的少量语音信息又难易完成对机器模型的训练，造成在系统出厂阶段使机器模型具备输出普通用户音色的语音信息的能力是一件较难实现的事情。

技术实现思路

1、本申请提供了一种人机对话方法、装置、设备和存储介质，以解决在系统出厂阶段，较难使机器模型具备输出普通用户音色的语音信息的能力的问题。

2、针对上述技术问题，本申请技术方案是通过如下实施例来解决的：

3、本申请实施例提供了一种人机对话方法，包括：在执行用户注册任务过程中，接收目标用户输入的标准语音信息；使用zero-shot声音复刻引擎，在所述标准语音信息中，提取所述目标用户对应的声道特征；利用所述目标用户对应的声道特征执行人机对话任务，并且在执行所述人机对话任务过程中，采集所述目标用户输入的交互语音信息；调用few-shot声音复刻引擎，使所述few-shot声音复刻模型基于所述目标用户输入的交互语音信息，生成目标用户声音模型；基于所述目标用户声音模型，生成所述目标用户语音合成引擎，并且，开始使用所述目标用户语音合成模型执行所述人机对话任务。

4、其中，在所述接收目标用户输入的标准语音信息之后，在所述采集所述目标用户输入的交互语音信息之前，还包括：在所述目标用户输入的标准语音信息中，提取所述目标用户对应的声纹信息；所述采集所述目标用户输入的交互语音信息，包括：在执行人机对话任务过程中，接收未知用户输入的交互语音信息；在所述未知用户输入的交互语音信息中，提取所述未知用户对应的声纹信息；在所述未知用户对应的声纹信息与所述目标用户对应的声纹信息相匹配的情况下，确定所述未知用户为所述目标用户，保存所述未知用户输入的交互语音信息。

5、其中，在确定所述未知用户为所述目标用户之后，在保存所述未知用户输入的交互语音信息之前，还包括：针对所述未知用户输入的交互语音信息进行声音质量检测；仅在所述未知用户输入的交互语音信息满足预设的声音质量条件时，保存所述未知用户输入的交互语音信息。

6、其中，所述利用所述目标用户对应的声道特征执行人机对话任务，包括：接收未知用户输入的交互语音信息；调用预设的语音识别引擎，将所述未知用户输入的交互语音信息转换为对应的文本信息；调用预设的自然语言系统，确定所述文本信息对应的应答信息；调用预设的语音合成引擎，使用所述语音合成模型利用所述目标用户对应的声道特征和所述应答信息，合成所述交互语音信息对应的应答语音信息并且进行播放。

7、其中，使用所述语音合成模型利用所述目标用户对应的声道特征和所述应答信息，合成所述交互语音信息对应的应答语音信息，包括：使用所述语音合成引擎中的标准声音模型，将所述应答信息合成为具有标准声道特征的中间语音信息；根据所述目标用户对应的声道特征，将所述中间语音信息转换为具有所述声道特征的应答语音信息。

8、其中，所述基于所述目标用户声音模型，生成所述目标用户语音合成引擎，包括：将所述语音合成引擎中的所述标准声音模型替换为所述目标用户声音模型，得到所述目标用户语音合成引擎，以便所述目标用户语音合成引擎将未知用户输入的交互语音信息对应的文本信息，转换为具有所述目标用户对应的声道特征的应答语音信息。

9、本申请实施例还提供了一种人机对话装置，包括：接收模块，用于在执行用户注册任务过程中，接收目标用户输入的标准语音信息；zero-shot声音复刻模块，用于使用zero-shot声音复刻引擎，在所述标准语音信息中，提取所述目标用户对应的声道特征；执行与采集模块，用于利用所述目标用户对应的声道特征执行人机对话任务，并且在执行所述人机对话任务过程中，采集所述目标用户输入的交互语音信息；few-shot声音复刻模块，用于调用few-shot声音复刻引擎，使所述few-shot声音复刻模型基于所述目标用户输入的交互语音信息，生成目标用户声音模型；生成模块，用于基于所述目标用户声音模型，生成所述目标用户语音合成引擎，并且，开始使用所述目标用户语音合成模型执行所述人机对话任务。

10、其中，所述接收模块，还用于在所述接收目标用户输入的标准语音信息之后，在所述采集所述目标用户输入的交互语音信息之前，在所述目标用户输入的标准语音信息中，提取所述目标用户对应的声纹信息；所述执行与采集模块，用于在执行人机对话任务过程中，接收未知用户输入的交互语音信息；在所述未知用户输入的交互语音信息中，提取所述未知用户对应的声纹信息；在所述未知用户对应的声纹信息与所述目标用户对应的声纹信息相匹配的情况下，确定所述未知用户为所述目标用户，保存所述未知用户输入的交互语音信息。

11、本申请实施例还提供了一种人机对话设备，包括：至少一个通信接口；与所述至少一个通信接口相连接的至少一个总线；与所述至少一个总线相连接的至少一个处理器；与所述至少一个总线相连接的至少一个存储器，其中，所述处理器被配置为：执行所述存储器中存储的人机对话程序，以实现上述任一项所述的人机对话方法。

12、本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被执行，以实现上述任一项所述的人机对话方法。

13、本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本申请实施例提供的方法在人机对话系统出厂之后，可以利用两种声音复刻技术，一边执行人机对话任务，一边分阶段的进行目标用户的声音复刻，使人机对话系统输出更贴近目标用户音色的语音信息。本申请实施例可以在开始使用后以较好的用户体验来提供zsm(zero-shotmodel)声音复刻功能，而随着用户持续使用人机交互系统，该系统可以通过不被用户感知的方式进行自学习，随着对用户声音的越来越熟悉，进而提供更高质量的fsm(few-shotmodel)声音复刻功能。所以本申请实施例在人机交互系统出厂之后，既提供了较好的用户注册体验，也可以提供较高质量的声音复刻功能。

技术特征：

1.一种人机对话方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，在确定所述未知用户为所述目标用户之后，在保存所述未知用户输入的交互语音信息之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述目标用户对应的声道特征执行人机对话任务，包括：

5.根据权利要求4所述的方法，其特征在于，使用所述语音合成模型利用所述目标用户对应的声道特征和所述应答信息，合成所述交互语音信息对应的应答语音信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标用户声音模型，生成所述目标用户语音合成引擎，包括：

7.一种人机对话装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，包括：

9.一种人机对话设备，其特征在于，包括：至少一个通信接口；与所述至少一个通信接口相连接的至少一个总线；与所述至少一个总线相连接的至少一个处理器；与所述至少一个总线相连接的至少一个存储器，其中，所述处理器被配置为：执行所述存储器中存储的人机对话程序，以实现权利要求1-6中任一项所述的人机对话方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被执行，以实现权利要求1-6中任一项所述的人机对话方法。

技术总结
本申请涉及一种人机对话方法、装置、设备和存储介质。方法包括：在执行用户注册任务过程中，接收目标用户输入的标准语音信息；使用Zero‑Shot声音复刻引擎，在标准语音信息中，提取目标用户对应的声道特征；利用目标用户对应的声道特征执行人机对话任务，在执行人机对话任务过程中，采集目标用户输入的交互语音信息；使Few‑Shot声音复刻模型基于目标用户输入的交互语音信息，生成目标用户声音模型；基于目标用户声音模型，生成目标用户语音合成引擎，开始使用目标用户语音合成模型执行人机对话任务。本申请在系统出厂之后，一边执行人机对话任务，一边分阶段的进行目标用户的声音复刻，使人机对话系统输出更贴近目标用户音色的语音信息。

技术研发人员：李霄寒
受保护的技术使用者：云知声智能科技股份有限公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李霄寒
技术所有人：云知声智能科技股份有限公司
我是此专利的发明人

上一篇：便于调节流量以及流向的连接装置的制作方法
上一篇：一种三相联动传动装置及隔离开关的制作方法