语音交互方法及其装置、模型训练方法、车辆和存储介质与流程

文档序号：37310472发布日期：2024-03-13 20:59阅读：44来源：国知局

本发明涉及语音交互，特别涉及一种语音交互方法及其装置、模型训练方法、车辆和存储介质。

背景技术：

1、目前主流的车载语音助手，虽然能够针对用户的指令立刻执行，达到用户的需求，比如打开空调、温度设为25度，打开车窗等待。但是，难以满足用户的定制化的语音理解需求，如对于温度低于25度打开空调制热、每天早上八点主驾有人就播报天气信息等等这类根据条件执行的语音指令，目前车载语音助手难以理解并执行。

2、另外，在一些能够理解条件执行的车载系统中，由于业务知识较为庞杂，往往需要大量的数据进行微调训练，语音模型才能够理解业务知识，语音模型的理解效率较低。

技术实现思路

1、本发明提供一种语音交互方法及其装置、模型训练方法、车辆和存储介质。

2、本发明提供一种语音交互方法。所述语音交互方法包括：接收语音请求，将所述语音请求转化为文本语音指令；利用指令理解模型对所述文本语音指令进行多层理解处理，得到与所述文本语音指令对应的业务功能信息；根据所述业务功能信息执行所述文本语音指令。

3、所述指令理解模型包括业务抽取层、业务抽象层和业务映射层，所述利用指令理解模型对所述文本语音指令进行多层理解处理，得到与所述文本语音指令对应的业务功能信息包括：利用所述业务抽取层抽取所述文本语音指令中的关键信息，及对所述关键信息进行分类并标记类别标签；利用所述业务抽象层确定与所述关键信息对应的业务功能类别；和利用所述业务映射层确定与所述业务功能类别对应的业务功能，生成与所述文本语音指令对应的业务功能信息。

4、所述利用所述业务抽取层接收文本语音指令，抽取所述文本语音指令中的关键信息，及对所述关键信息进行分类并标记类别标签包括：根据语义理解将所述文本语音指令划分为多个子语音指令；根据所述子语音指令中的所述关键信息的属性，将所述子语音指令划分为条件类信息和动作类信息；对所述条件类信息标记条件类别标签，及对所述动作类信息标记动作类别标签。

5、所述业务抽象层用于对车辆的业务功能进行聚类及抽象，所述利用所述业务抽象层确定与所述关键信息对应的业务功能类别包括：在所述业务抽象层中匹配与所述条件类信息对应的条件功能类别信息，所述条件功能类别信息包括所述条件类信息对应的场景名称；在所述业务抽象层中匹配与所述动作类信息对应的动作功能类别信息，所述动作功能类别信息包括所述动作类信息对应的功能名称；根据所述条件功能类别信息和所述动作功能类别信息确定与所述关键信息对应的所述业务功能类别。

6、所述利用所述业务映射层确定与所述业务功能类别对应的业务功能，生成与所述文本语音指令对应的业务功能信息包括：从所述文本语音指令中抽取与所述条件功能类别信息对应的第一语音数据，根据所述第一语音数据形成第一业务功能子信息；从所述文本语音指令中抽取与所述动作功能类别信息对应的第二语音数据，根据所述第二语音数据形成所述第二业务功能子信息；根据所述第一业务功能子信息和所述第二业务功能子信息输出与所述文本语音指令对应的所述业务功能信息。

7、所述业务映射层预先存储有与所述条件功能类别信息对应的第一抽取规则和与所述动作功能类别信息对应的第二抽取规则，所述从所述文本语音指令中抽取与所述第一业务功能子信息对应的第一语音数据，根据所述第一语音数据形成所述第一业务功能子信息包括：根据所述第一抽取规则抽取所述第一语音数据；所述从所述文本语音指令中抽取与所述第二业务功能子信息对应的第二语音数据，根据所述第二语音数据形成所述第二业务功能子信息包括：根据所述第二抽取规则抽取所述第二语音数据。

8、本发明还提供一种模型训练方法。所述模型训练方法用于训练得到上述实施方式中任一项所述的语音交互方法中的指令理解模型。所述模型训练方法包括：通过文本训练数据训练得到所述指令理解模型。

9、本发明还提供一种语音交互装置。所述语音交互装置包括：语音识别模块、指令理解模块和指令执行模快。所述语音识别模块用于接收语音请求，将所述语音请求转化为文本语音指令；所述指令理解模块用于利用指令理解模型对所述文本语音指令进行多层理解处理，得到与所述文本语音指令对应的业务功能信息；所述指令执行模块用于根据所述业务功能信息执行所述文本语音指令。

10、本发明还提供一种车辆。所述车辆包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述实施方式中任一项所述的语音交互方法。

11、本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现上述实施方式中任一项所述的语音交互方法和/或上述实施方式中所述的模型训练方法。

12、如此，本发明的语音交互方法可以利用指令理解模型对文本语音指令进行多层理解处理，得到与文本语音指令对应的业务功能信息，从而根据业务功能信息执行文本语音指令，从而实现高效精准地理解用户发出的语音请求，可以满足用户对于车辆零部件的定制场景对应的定制化语音的执行需求。

13、本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种语音交互方法，其特征在于，所述语音交互方法包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述指令理解模型包括业务抽取层、业务抽象层和业务映射层，所述利用指令理解模型对所述文本语音指令进行多层理解处理，得到与所述文本语音指令对应的业务功能信息包括：

3.根据权利要求2所述的语音交互方法，其特征在于，所述利用所述业务抽取层接收文本语音指令，抽取所述文本语音指令中的关键信息，及对所述关键信息进行分类并标记类别标签包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述业务抽象层用于对车辆的业务功能进行聚类及抽象，所述利用所述业务抽象层确定与所述关键信息对应的业务功能类别包括：

5.根据权利要求4所述的语音交互方法，其特征在于，所述利用所述业务映射层确定与所述业务功能类别对应的业务功能，生成与所述文本语音指令对应的业务功能信息包括：

6.根据权利要求5所述的语音交互方法，其特征在于，所述业务映射层预先存储有与所述条件功能类别信息对应的第一抽取规则和与所述动作功能类别信息对应的第二抽取规则，所述从所述文本语音指令中抽取与所述第一业务功能子信息对应的第一语音数据，根据所述第一语音数据形成所述第一业务功能子信息包括：

7.一种模型训练方法，用于训练得到权利要求1-6任一项所述的语音交互方法中的指令理解模型，其特征在于，包括：

8.一种语音交互装置，其特征在于，包括：

9.一种车辆，其特征在于，所述车辆包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-6任一项所述的语音交互方法。

10.一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-6任一项所述的语音交互方法和/或权利要求7所述的模型训练方法。

技术总结
本发明公开了一种语音交互方法及其装置、模型训练方法、车辆和存储介质。语音交互方法包括接收语音请求，将语音请求转化为文本语音指令；利用指令理解模型对文本语音指令进行多层理解处理，得到与文本语音指令对应的业务功能信息；根据业务功能信息执行文本语音指令。本发明的语音交互方法可以利用指令理解模型对文本语音指令进行多层理解处理，得到与文本语音指令对应的业务功能信息，从而根据业务功能信息执行文本语音指令，从而实现高效精准地理解用户发出的语音请求，可以满足用户对于车辆零部件的定制场景对应的定制化语音的执行需求。

技术研发人员：张煜,胡璟,张岩,汪建
受保护的技术使用者：广州小鹏汽车科技有限公司
技术研发日：
技术公布日：2024/3/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张煜,胡璟,张岩,汪建
技术所有人：广州小鹏汽车科技有限公司
我是此专利的发明人