一种车辆语音交互方法、装置、设备和可读存储介质与流程

文档序号：42294489发布日期：2025-06-27 18:30阅读：44来源：国知局

本发明涉及人工智能，具体来说涉及一种车辆语音交互方法、装置、设备和可读存储介质。

背景技术：

1、在人工智能和新能源汽车的双重发展下，越来越多的新能源汽车开始具备语音交互功能，这项功能实现了用户通过语音就能够对车辆进行操控，极大提升了用户对车辆进行操控的便利性，给人们的生活提供了极大的便利。

2、当前进行与车辆进行语音交互的方式通常有如下几种：首先是基于固定唤醒词激活语音助手后，进行语音交互；然后是基于用户的特定声纹信息识别用户身份后，进行语音交互；最后是基于用户的文本无关声纹信息识别用户后，再进行语音交互。

3、上述第一种方法存在局限性，无法同时实现在单一换现阶段同时进行唤醒词激活和声纹验证；第二种方法需要用于提供预设短语，局限性较大；第三种处理速度较慢，无法满足实时交互。且上述三种方法在车内外复杂环境(如高噪音、不同方向的语音输入)中准确性显著下降。因此，亟需一种能够结局上述问题的车辆语音交互方法。

技术实现思路

1、本发明的目的在于提供一种车辆语音交互方法、装置、设备和可读存储介质，能够同时提取唤醒词、特定声纹信息和文本五官声纹信息，打破了传统方法中的局限性，大大增加了车辆语音交互的便利性。

2、为达到上述目的，本发明提供如下技术方案：

3、第一方面，本发明提供了一种车辆语音交互方法，该方法包括：

4、获取目标用户的第一交互音频，若所述第一交互音频中存在唤醒词，则从所述第一交互音频中提取声纹特征；

5、根据所述声纹特征判断所述目标用户是否拥有有效身份；

6、若所述目标用户拥有有效身份，则提示用户上传第二交互音频，并基于所述第二交互音频提取文本无关声纹特征；

7、若所述声纹特征和所述文本无关声纹特征对应的身份信息一致，则基于所述第一交互音频和第二交互音频进行车辆交互。

8、在一些实施例中，基于所述第一交互音频和第二交互音频进行车辆交互，包括：

9、提取所述第一交互音频和第二交互音频中的语义信息；

10、基于所述语义信息进行车辆交互。

11、在一些实施例中，基于所述语义信息进行车辆交互，包括：

12、基于所述语义信息从候选交互方式中，选择目标交互方式；所述候选交互方式至少包括：车辆控制、天气查询和闲聊对话；

13、基于目标交互方式进行车辆交互。

14、在一些实施例中，获取目标用户的第一交互音频，包括：

15、获取目标用户的初始交互音频；

16、对所述初始交互音频进行降噪处理和增强处理，得到第一交互音频。

17、在一些实施例中，若所述第一交互音频中存在唤醒词，则从所述第一交互音频中提取声纹特征，包括：

18、将所述第一交互音频输入唤醒词提取模型中，提取所述唤醒词；

19、若所述第一交互音频中存在唤醒词，则将所述第一交互音频输入至声纹特征提取模型中，得到所述第一交互音频的声纹特征。

20、在一些实施例中，所述方法还包括：

21、若所述第一交互音频中不存在唤醒词，

22、和/或若目标用户不拥有有效身份，

23、和/或若所述声纹特征和所述文本无关声纹特征对应的身份信息不一致，则结束本次车辆语音交互。

24、第二方面，本发明还提供了一种车辆语音交互装置，该装置包括：

25、特征提取模块，用于获取目标用户的第一交互音频，若所述第一交互音频中存在唤醒词，则从所述第一交互音频中提取声纹特征；

26、身份验证模块，用于根据所述声纹特征判断所述目标用户是否拥有有效身份；

27、二次提取模块，用于若所述目标用户拥有有效身份，则提示用户上传第二交互音频，并基于所述第二交互音频提取文本无关声纹特征；

28、车辆交互模块，用于若所述声纹特征和所述文本无关声纹特征对应的身份信息一致，则基于所述第一交互音频和第二交互音频进行车辆交互。

29、第三方面，本发明还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面提供的车辆语音交互方法。

30、第四方面，本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面提供的车辆语音交互方法。

31、第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面提供的车辆语音交互方法。

32、本发明的有益效果在于：

33、本发明中提供的车辆语音交互方法，先获取目标用户的第一交互音频，若所述第一交互音频中存在唤醒词，则从所述第一交互音频中提取声纹特征；再根据所述声纹特征判断所述目标用户是否拥有有效身份；若所述目标用户拥有有效身份，则提示用户上传第二交互音频，并基于所述第二交互音频提取文本无关声纹特征；若所述声纹特征和所述文本无关声纹特征对应的身份信息一致，则基于所述第一交互音频和第二交互音频进行车辆交互。由于能够同时提取唤醒词、特定声纹信息和文本五官声纹信息，打破了传统方法中的局限性，大大增加了车辆语音交互的便利性。

34、上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

技术特征：

1.一种车辆语音交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的车辆语音交互方法，其特征在于，基于所述第一交互音频和第二交互音频进行车辆交互，包括：

3.如权利要求2所述的车辆语音交互方法，其特征在于，基于所述语义信息进行车辆交互，包括：

4.如权利要求1所述的车辆语音交互方法，其特征在于，获取目标用户的第一交互音频，包括：

5.如权利要求1所述的车辆语音交互方法，其特征在于，若所述第一交互音频中存在唤醒词，则从所述第一交互音频中提取声纹特征，包括：

6.如权利要求1-5任一项所述的车辆语音交互方法，其特征在于，所述方法还包括：

7.一种车辆语音交互装置，其特征在于，所述装置包括：

8.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的车辆语音交互方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的车辆语音交互方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的车辆语音交互方法。

技术总结
本申请公开了一种车辆语音交互方法、装置、设备和可读存储介质，涉及人工智能技术领域。包括：先获取目标用户的第一交互音频，若所述第一交互音频中存在唤醒词，则从所述第一交互音频中提取声纹特征；再根据所述声纹特征判断所述目标用户是否拥有有效身份；若所述目标用户拥有有效身份，则提示用户上传第二交互音频，并基于所述第二交互音频提取文本无关声纹特征；若所述声纹特征和所述文本无关声纹特征对应的身份信息一致，则基于所述第一交互音频和第二交互音频进行车辆交互。上述车辆语音交互方法增加了车辆语音交互的便利性。

技术研发人员：牧启强,杨杰,俞瑞隆,顾向涛,吴雪亮
受保护的技术使用者：思必驰科技股份有限公司
技术研发日：
技术公布日：2025/6/26

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：牧启强,杨杰,俞瑞隆,顾向涛,吴雪亮
技术所有人：思必驰科技股份有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！