生成式大模型训练方法、基于模型的人机语音交互方法与流程

文档序号：34618111发布日期：2023-06-29 12:04阅读：154来源：国知局

本公开涉及数据处理领域，具体涉及生成式模型、智能语音、人机交互等人工智能，尤其涉及一种生成式大模型训练和基于生成式大模型的人机语音交互方法，以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术：

1、大型语言模型(llm，large language model，其本质是生成式模型，因此也可以被简称为：生成式大模型，本公开后续将统一此表述来指代此类模型)，如chatgpt(chatgenerative pre-trained transformer，是openai机构研发的聊天机器人程序)，能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。

2、然而，将llm应用于现实世界中的任务解决型应用仍然具有挑战性，主要原因是它们可能会产生与实际不符的回复，以及无法使用外部知识作为参考进行回复的生成。

3、例如，对于“a市现在天气如何”、“b货币兑c货币汇率”以及“从c位置到d位置需要多久”等问题，在回答时都需要实时的信息，而这些实时信息(例如实时时间、实时汇率、实时路况和实时交通信息等)根本无法单纯依靠llm参数中蕴含的知识来生成，均需要依赖于外部的知识才能生成出准确的结果。

技术实现思路

1、本公开实施例提出了一种生成式大模型训练方法和基于生成式大模型的人机语音交互方法，以及与方法配套的装置、电子设备、计算机可读存储介质及计算机程序产品。

2、第一方面，本公开实施例提出了一种生成式大模型训练方法，包括：基于用户输入语音与匹配的包含有接口调用指令的输出结果，构建第一训练集；其中，接口调用指令所调用的服务接口对应于用户输入语音表达出的功能使用意图；利用第一训练集对预训练好的第一生成式大模型进行有监督微调训练，得到第二生成式大模型；基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集；利用第二训练集对预训练好的第三生成式大模型进行有监督训练，得到奖励模型；将第二生成式大模型，基于奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大模型。

3、第二方面，本公开实施例提出了一种生成式大模型训练装置，包括：第一训练集构建单元，被配置成基于用户输入语音与匹配的包含有接口调用指令的输出结果，构建第一训练集；其中，接口调用指令所调用的服务接口对应于用户输入语音表达出的功能使用意图；有监督微调训练单元，被配置成利用第一训练集对预训练好的第一生成式大模型进行有监督微调训练，得到第二生成式大模型；第二训练集构建单元，被配置成基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集；奖励模型训练单元，被配置成利用第二训练集对预训练好的第三生成式大模型进行有监督训练，得到奖励模型；强化学习训练单元，被配置成将第二生成式大模型，基于奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大模型。

4、第三方面，本公开实施例提出了一种基于生成式大模型的人机语音交互方法，包括：获取用户以语音形式发出的用户输入语音；将用户输入语音作为输入数据输入目标生成式大模型；其中，目标生成式大模型根据如上述第一方面描述的生成式大模型训练方法得到；接收目标生成式大模型返回的输出文本；其中，输出文本基于执行接口调用指令后得到的响应信息生成得到；将输出文本转换为语音形式的机器答复语音。

5、第四方面，本公开实施例提出了一种基于生成式大模型的人机语音交互装置，包括：用户输入语音获取单元，被配置成获取用户以语音形式发出的用户输入语音；模型调用单元，被配置成将用户输入语音作为输入数据输入预设的目标生成式大模型；其中，目标生成式大模型根据如第二方面描述的生成式大模型训练装置得到；输出文本接收单元，被配置成接收目标生成式大模型返回的输出文本；其中，输出文本基于执行接口调用指令后得到的响应信息生成得到；机器答复语音生成单元，被配置成将输出文本转换为语音形式的机器答复语音。

6、第五方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面描述的生成式大模型训练方法或如第三方面描述的基于生成式大模型的人机语音交互方法。

7、第六方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面描述的生成式大模型训练方法或如第三方面描述的基于生成式大模型的人机语音交互方法。

8、第七方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面描述的生成式大模型训练方法的步骤或如第三方面描述的基于生成式大模型的人机语音交互方法的步骤。

9、本公开实施例提供的生成式大模型训练方案，由于第一训练集是由用户输入语音与表达相应功能使用意图的包含有接口调用指令的输出结果构建得到，使得通过第一训练集对预训练好的第一生成式大模型进行有监督微调训练，进而使得训练得到的第二生成式大模型具有将用户输入语音改写为匹配的包含有接口调用指令的输出结果的能力，而在由相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合所构建的第二训练集对预训练好的第三生成式大模型进行有监督训练，进而使得训练得到的奖励模型拥有为生成式大模型针对用户输入语音所生成的不同候选进行质量评分的能力，进而使得在基于人类反馈的强化学习的训练下，所最终得到的目标生成式大模型不仅具有将用户输入语音改写为匹配的包含有接口调用指令的输出结果的能力，还具有输出更符合用户需求的结果的能力。即通过上述训练方案使得经训练得到的目标生成式大模型具有了深度理解用户需求并自行构建相应接口调用指令进行查询得到返回的准确答案的能力，能够不单单依据自然语言输入和大模型参数中蕴含的知识生成自然语言输出，而是借助提供专业能力的应用程序接口调用相应的功能，以更切实的解决用户需求，且在奖励模型的作用下还将使得返回的结果更加符合用户的实际需求和预期。

10、在上述实施例提供的生成式大模型训练方案的有益效果基础上，本公开实施例提供的基于生成式大模型的人机语音交互方案，则是具体针对由语音助手充当执行主体的场景下，将按上述训练方案训练得到的目标生成式大模型应用于人机语音交互场景，语音助手在将用户输入语音输入目标生成式大模型后，借助目标生成式大模型所具有的能力生成相应的结果，并在遇到需要调用服务接口的地方则自动生成接口调用指令并进行执行以获得返回的调用结果，并将基于已生成的回复文本和调用结果生成出的输出文本返回语音助手，使得语音助手再将其转换为机器答复语音返回用户完成人机语音交互，提升了人机语音交互体验。

11、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种生成式大模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于用户输入语音与匹配的包含有接口调用指令的输出结果，构建第一训练集，包括：

3.根据权利要求2所述的方法，其中，所述基于由所述用户输入语音与匹配的输出结果构成的样本对，构建所述第一训练集，包括：

4.根据权利要求1所述的方法，其中，在有监督微调的训练方式下，对所述第一生成式大模型中未出现的代表服务接口的新语言单元，按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。

5.根据权利要求1-4任一项所述的方法，其中，所述基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集，包括：

6.一种基于生成式大模型的人机语音交互方法，包括：

7.根据权利要求6所述的方法，还包括：

8.根据权利要求7所述的方法，其中，所述将所述输出文本调整为表达相同含义的不同表述方式，包括：

9.根据权利要求7所述的方法，其中，所述将所述输出文本调整为表达相同含义的不同表述方式，包括：

10.根据权利要求6-9任一项所述的方法，其中，对所述用户输入语音返回所述机器答复语音的语音助手包括：来自地图应用的地图语音助手、来自导航应用的导航语音助手、来自智能终端设备的家居语音助手。

11.一种生成式大模型训练装置，包括：

12.根据权利要求11所述的装置，其中，所述第一训练集构建单元包括：

13.根据权利要求12所述的装置，其中，所述第一训练集构建子单元被进一步配置成：

14.根据权利要求11所述的装置，其中，在有监督微调的训练方式下，对所述第一生成式大模型中未出现的代表服务接口的新语言单元，按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。

15.根据权利要求11-14任一项所述的装置，其中，所述第二训练集构建单元被进一步配置成：

16.一种基于生成式大模型的人机语音交互装置，包括：

17.根据权利要求16所述的装置，还包括：

18.根据权利要求17所述的装置，其中，所述表述调整单元被进一步配置成：

19.根据权利要求17所述的方法，其中，所述表述调整单元被进一步配置成：

20.根据权利要求16-19任一项所述的装置，其中，对所述用户输入语音返回所述机器答复语音的语音助手包括：来自地图应用的地图语音助手、来自导航应用的导航语音助手、来自智能终端设备的家居语音助手。

21.一种电子设备，包括：

22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的生成式大模型训练方法和/或权利要求6-10任一项所述的基于生成式大模型的人机语音交互方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-5中任一项所述的生成式大模型训练方法的步骤和/或权利要求6-10任一项所述的基于生成式大模型的人机语音交互方法的步骤。

技术总结
本公开提供了生成式大模型训练方法、基于模型的人机语音交互方法，涉及生成式模型、智能语音、人机交互等人工智能技术领域。该方法包括：基于用户输入语音与匹配的包含有接口调用指令的输出结果，构建第一训练集；利用第一训练集对预设的第一生成式大模型进行有监督微调训练，得到第二生成式大模型；基于相同用户输入语音与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集；利用第二训练集对预设的第三生成式大模型进行有监督训练，得到奖励模型；将第二生成式大模型，基于奖励模型返回的得分，以强化学习方式进行训练。利用据此训练得到的生成式大模型可显著提升人机语音交互场景下的回复准确率和用户体验。

技术研发人员：黄际洲,孙一博
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄际洲孙一博
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人