语音交互方法、装置、设备、介质及产品与流程

文档序号:36339088发布日期:2023-12-13 17:51阅读:63来源:国知局
语音交互方法与流程

本公开涉及人工智能领域中的自动驾驶、大语言模型以及智能座舱等,尤其涉及一种语音交互方法、装置、设备、介质及产品。


背景技术:

1、车机是一种安装在汽车上的车载信息设备,可以实现人与车、车与车、车与后台服务器的信息通信。目前,车机可以采集驾驶人员发出的语音信息,并获取与该语音信息对应的理解结果,之后输出该理解结果。理解结果例如可以为显示导航信息、播打电话等。

2、但是,目前的车机只能处理简单的语音交互场景,对于一些复杂的语音交互场景,获得的理解结果准确度较差,导致语音交互失败。


技术实现思路

1、本公开提供了一种用于人机交互场景的语音交互方法、装置、设备、介质及产品。

2、根据本公开的第一方面,提供了一种语音交互方法,包括:

3、获取车载终端采集的目标用户对应的语音信息,并获取所述语音信息对应的文本信息;

4、根据所述文本信息,确定所述语音信息对应的文本表达类型;

5、采用与所述文本表达类型对应的目标语言模型,确定所述语音信息的理解结果信息;

6、通过所述车载终端输出所述理解结果信息。

7、根据本公开的第二方面,提供了一种语音交互装置,包括:

8、信息获取单元,用于获取车载终端采集的目标用户对应的语音信息,并获取所述语音信息对应的文本信息;

9、类型确定单元,用于根据所述文本信息,确定所述语音信息对应的文本表达类型;

10、答复生成单元,用于采用与所述文本表达类型对应的目标语言模型,生成所述语音信息的理解结果信息;

11、理解输出单元,用于通过所述车载终端输出所述理解结果信息。

12、根据本公开的第三方面,提供了一种电子设备,包括:

13、至少一个处理器;以及

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。

16、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面的方法。

17、根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面的方法。

18、根据本公开的技术解决了车机只能处理简单的语音交互场景的技术问题。通过获取车载终端设备采集的目标用户对应的语音信息,并获取语音信息对应的文本信息。通过文本信息可以确定语音信息对应的文本表达类型,通过采用与文本表达类型相对应的目标语言模型可以实现语音信息的理解,获得相应的理解结果信息。通过目标语言模型与语音信息的文本表达类型的关联,可以使得参与到语音信息的理解的目标语言模型与该语音信息的适配度更高,快速获得准确度较高的理解结果信息。通过车载终端输出理解结果信息,可以实现与目标用户的快速且准确的交互。

19、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种语音交互方法,包括:

2.根据权利要求1所述的方法,其中,所述采用与所述文本表达类型对应的目标语言模型,生成所述语音信息的理解结果信息,包括:

3.根据权利要求2所述的方法,其中,所述从预设至少两个语言处理模型中确定与所述文本表达类型对应的目标语言模型,包括:

4.根据权利要求3所述的方法,其中,所述确定所述文本处理模型为所述目标语言模型之后,还包括:

5.根据权利要求2-4任一项所述的方法,其中,所述从预设至少两个语言处理模型中确定与所述文本表达类型对应的目标语言模型,包括:

6.根据权利要求1-5任一项所述的方法,其中,所述根据所述文本信息,确定所述语音信息对应的文本表达类型,包括:

7.根据权利要求6所述的方法,其中,所述非命令式表达类型,包括:自然表达类型、指代表达类型、省略表达类型、语法错误类型以及停顿表达类型中的至少一个;

8.根据权利要求6所述的方法,其中,还包括:

9.根据权利要求1-8任一项所述的方法,其中,所述根据所述文本信息,确定所述语音信息对应的文本表达类型,包括:

10.根据权利要求1-9任一项所述的方法,其中,所述通过所述车载终端输出所述理解结果信息,包括:

11.一种语音交互装置,包括:

12.根据权利要求11所述的装置,其中,所述答复生成单元,包括:

13.根据权利要求12所述的装置,其中,所述模型选择模块,包括:

14.根据权利要求13所述的装置,其中,所述确定所述文本处理模型为所述目标语言模型之后,还包括:

15.根据权利要求11-14任一项所述的装置,其中,所述答复生成单元,包括:

16.根据权利要求11-15任一项所述的装置,其中,所述类型确定单元,包括:

17.根据权利要求16所述的装置,其中,所述非命令式表达类型,包括:自然表达类型、指代表达类型、省略表达类型、语法错误类型以及停顿表达类型中的至少一个;

18.根据权利要求17所述的装置,其中,还包括:

19.根据权利要求11-18任一项所述的装置,其中,所述类型确定单元,包括:

20.根据权利要求11-19任一项所述的装置,其中,所述理解输出单元,包括:

21.一种电子设备,包括:

22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。


技术总结
本公开提供了语音交互方法、装置、设备、介质及产品,涉及人工智能技术领域,尤其涉及自动驾驶、大语言模型以及智能座舱等技术领域。具体实现方案为:获取车载终端采集的目标用户对应的语音信息,并获取所述语音信息对应的文本信息;根据所述文本信息,确定所述语音信息对应的文本表达类型;采用与所述文本表达类型对应的目标语言模型,确定所述语音信息的理解结果信息;通过所述车载终端输出所述理解结果信息。

技术研发人员:庞敏辉,周华
受保护的技术使用者:阿波罗智联(北京)科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1