语音交互方法及装置与流程

文档序号：36340062发布日期：2023-12-13 20:25阅读：41来源：国知局

本申请涉及语音交互，具体涉及一种语音交互方法及装置。

背景技术：

1、目前，随着人工智能行业的迅速发展，语音交互技术被广泛地应用于诸多人机交互系统中，例如智能客服系统，聊天机器人，个人智能助理以及智能家居等。

2、相关技术中，通过优化语音识别、语义理解以及语音合成三个模块的调用流程来提升语音交互时的响应速度，由于语义理解模块对识别到的每一帧语音均会重新解析，并输出多个语义理解结果，容易对信息相同的识别结果进行重复解析，造成计算资源浪费，导致语音交互时的响应速度慢。

技术实现思路

1、本申请实施例提供一种语音交互方法及装置，用以解决现有技术在语音交互过程中会对信息相同的语音内容进行重复解析，导致语音解析效率低，语音交互响应慢的技术问题。

2、第一方面，本申请实施例提供一种语音交互方法，包括：

3、接收用户语音输入；

4、对所述用户语音输入进行语音识别，得到识别文本，所述识别文本包括多个字段；

5、基于有向无环图按照句式模板对所述多个字段进行逐字识别，在结束所述有向无环图的字段识别的情况下，得到语义理解结果；

6、其中，所述句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，所述有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；所述语义理解结果用于供用户进行业务处理。

7、在一个实施例中，所述在结束所述有向无环图的字段识别的情况下，得到语义理解结果，包括：

8、在依次遍历所述开始节点、所述多个中间节点和所述结束节点的情况下，确认结束所述有向无环图的字段识别；

9、基于被识别的字段，得到语义理解结果。

10、在一个实施例中，所述在结束所述有向无环图的字段识别的情况下，得到语义理解结果，还包括：

11、在目标字段与对应槽位的关键词不匹配的情况下，确认结束所述有向无环图的字段识别，所述目标字段属于所述多个字段中的任一项；

12、基于深度语义理解模型对所述识别文本进行识别，得到语义理解结果；

13、其中，所述深度语义理解模型基于分层识别技术确定，所述深度语义理解模型包括多个自注意力层和多个全连接层，每个自注意力层连接至少三个全连接层，所述至少三个全连接层分别用于识别所述识别文本的领域信息、意图信息和词槽信息。

14、在一个实施例中，所述至少三个全连接层包括第一全连接层、第二全连接层和第三全连接层；

15、所述基于深度语义理解模型对所述识别文本进行识别，得到语义理解结果，包括：

16、基于所述第一全连接层对所述识别文本的领域信息进行识别，得到领域识别结果；

17、基于所述第二全连接层对所述识别文本的意图信息进行识别，得到意图识别结果；

18、基于所述第三全连接层对所述识别文本的词槽信息进行识别，得到词槽识别结果；

19、基于所述领域识别结果、所述意图识别结果和所述词槽识别结果得到所述语义理解结果。

20、在一个实施例中，所述基于所述第一全连接层对所述识别文本的领域信息进行识别，得到领域识别结果，包括：

21、基于所述多个自注意力层分别对应的第一全连接层对所述识别文本的领域信息进行识别，得到多个领域识别结果；

22、基于所述多个领域识别结果和选举机制，得到所述领域识别结果。

23、在一个实施例中，所述基于所述第二全连接层对所述识别文本的意图信息进行识别，得到意图识别结果，包括：

24、基于所述多个自注意力层分别对应的第二全连接层对所述识别文本的意图信息进行识别，得到多个意图识别结果；

25、以所述领域识别结果为领域约束条件，基于选举机制和所述多个意图识别结果，得到所述意图识别结果。

26、在一个实施例中，所述基于所述第三全连接层对所述识别文本的词槽信息进行识别，得到词槽识别结果，包括：

27、基于多个自注意力层对应的第三全连接层对所述识别文本的词槽信息进行识别，得到多个词槽识别结果；

28、以所述意图识别结果为意图约束条件，基于词槽识别阈值和所述多个词槽识别结果，得到所述词槽识别结果。

29、第二方面，本申请实施例提供一种语音交互装置，包括：

30、语音接收模块，用于接收用户语音输入；

31、文本获取模块，用于对所述用户语音输入进行语音识别，得到识别文本，所述识别文本包括多个字段；

32、其中，所述句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，所述有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位；所述语义理解结果用于供用户进行业务处理。

33、第三方面，本申请实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的语音交互方法的步骤。

34、第四方面，本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音交互方法。

35、第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音交互方法的步骤。

36、本申请实施例提供的语音交互方法及装置，通过有向无环图按照句式模板对识别文本的多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果，以供用户进行业务处理，能够在语音解析流程结束时仅输出一个语义理解结果，减少了因对信息相同的识别结果进行重复解析而造成的计算资源浪费，提高了语音解析效率，进而提高了语音交互的响应速度。

技术特征：

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述在结束所述有向无环图的字段识别的情况下，得到语义理解结果，包括：

3.根据权利要求1所述的语音交互方法，其特征在于，所述在结束所述有向无环图的字段识别的情况下，得到语义理解结果，还包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述至少三个全连接层包括第一全连接层、第二全连接层和第三全连接层；

5.根据权利要求4所述的语音交互方法，其特征在于，所述基于所述第一全连接层对所述识别文本的领域信息进行识别，得到领域识别结果，包括：

6.根据权利要求4所述的语音交互方法，其特征在于，所述基于所述第二全连接层对所述识别文本的意图信息进行识别，得到意图识别结果，包括：

7.根据权利要求4所述的语音交互方法，其特征在于，所述基于所述第三全连接层对所述识别文本的词槽信息进行识别，得到词槽识别结果，包括：

8.一种语音交互装置，其特征在于，包括：

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的语音交互方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的语音交互方法的步骤。

技术总结
本申请涉及语音交互领域，提供一种语音交互方法及装置。所述方法包括：接收用户语音输入；对用户语音输入进行语音识别，得到识别文本；基于有向无环图按照句式模板对多个字段进行逐字识别，在结束有向无环图的字段识别的情况下，得到语义理解结果；其中，句式模板包括多个槽位，每个槽位对应一类字段，每个槽位包括至少一个关键词，有向无环图包括开始节点，多个中间节点和结束节点，每个中间节点关联一个槽位。本申请提供的语音交互方法能够在语音解析流程结束时仅输出一个语义理解结果，减少了因对信息相同的识别结果进行重复解析而造成的计算资源浪费，提高了语音解析效率，进而提高了语音交互的响应速度。

技术研发人员：单权强,晁会勇,康凯凯
受保护的技术使用者：中移（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：单权强晁会勇康凯凯
技术所有人：中国移动通信集团有限公司
我是此专利的发明人

上一篇：一种保温轻骨料混凝土楼面绿色施工方法与流程
上一篇：微气泡洗衣机的制作方法