语音交互方法、系统、设备和介质与流程

文档序号：31841416发布日期：2022-10-18 22:40阅读：99来源：国知局

1.本发明属于语音交互技术领域，尤其涉及一种语音交互方法、系统、设备和介质。

背景技术：

2.车辆已成为人们户外出行不可缺少的工具。车联网相关技术近些年各方面技术得到显著提升，如人脸识别算法、语音识别算法以及软件ml(机器学习)框架、硬件平台算力、云计算能力不断增强。
3.但是，目前车辆上往往只提供显示、语音播报设备，与用户的交互缺乏针对性。

技术实现要素：

4.本发明要解决的技术问题是为了克服现有技术中与用户的语音交互缺乏针对性的缺陷，提供一种语音交互方法、系统、设备和介质。
5.本发明是通过下述技术方案来解决上述技术问题：
6.根据本发明的第一方面，提供一种语音交互方法，包括以下步骤：
7.识别用户的表情所属的表情类型；
8.播报与所述表情类型对应的语音信息。
9.本技术方案中，通过主动识别用户的表情所属的表情类型，有针对性地根据表情类型播报与表情类型对应的语音信息，可以实现有效的语音交互，提高语音互动的智能性和针对性。
10.根据本发明的第二方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现本发明的语音交互方法。
11.根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的语音交互方法。
12.根据本发明的第四方面，提供一种语音交互系统，包括识别模块、播报模块；
13.识别模块用于识别用户的表情所属的表情类型；
14.播报模块用于播报与表情类型对应的语音信息。
15.本技术方案中，通过主动识别用户的表情所属的表情类型，有针对性地根据表情类型播报与表情类型对应的语音信息，可以实现有效的语音交互，提高语音互动的智能性和针对性。
16.本发明的积极进步效果在于：在与用户进行语音交互的过程中，主动识别用户的表情所属的表情类型，然后有针对性地根据表情类型播报与表情类型对应的语音信息，以用户的表情类型作为语音交互的切入点以及语音信息播报的参考依据，实现有效的语音交互，提高语音互动的智能性和针对性。
附图说明
17.图1为本发明的实施例1的语音交互方法的流程图。
18.图2为本发明的实施例1的语音交互方法的应用于车辆的交互系统的示意图。
19.图3为本发明的实施例3的语音交互系统的示意图。
20.图4为本发明的实施例4的电子设备的结构示意图。
具体实施方式
21.下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。
22.实施例1
23.本实施例提供一种语音交互方法。参照图1，该语音交互方法包括以下步骤：
24.步骤s1、识别用户的表情所属的表情类型。
25.步骤s2、播报与所述表情类型对应的语音信息。
26.在一种可选的实施方式中，本实施例的语音交互方法应用于车辆的交互系统以实现与用户进行语音交互。参照图2，车辆上设置有终端hmi(人机接口)设备401，终端hmi设备401包括摄像装置，当用户402进入车辆后，摄像装置获取用户402的图像。然后，摄像装置将用户的图像发送至tsp(telematics service provider，汽车远程服务提供商)403。tsp 403将用户的图像发送至云平台404；云平台404通过模型算法识别用户的图像中用户402的表情所属的表情类型，并将表情类型返回给tsp 403。tsp 403调用数据库405获取心理知识库数据，心理知识库数据中存储有若干预设话术文本，预设话术文本与表情类型存在预设对应关系。tsp 403根据表情类型从心理知识库数据中查询与该表情类型对应的预设话术文本作为目标话术文本。tsp 403将目标话术文本返回至车辆上的终端hmi设备401，终端hmi设备401将目标话术文本转换为语音进行播报。
27.基于该语音交互方法，在与用户402进行语音交互的过程中，主动识别用户402的表情所属的表情类型，然后有针对性地根据表情类型播报与表情类型对应的语音信息，以用户402的表情类型作为语音交互的切入点以及语音信息播报的参考依据，实现有效的语音交互，提高语音互动的智能性和针对性。
28.具体实施时，获取用户的图像，基于vgg19从用户的图像中识别用户的面部以得到用户的面部图像，基于resnet18对面部图像进行识别以得到表情类型。
29.在一种可选的实施方式中，摄像装置获取用户的图像。云平台404接收到用户的图像后，基于vgg19(一种卷积网络)从该图像中识别用户402的面部，提取出用户402的面部对应的图像区域并进行放大，形成用户的面部图像。然后，云平台404基于resnet18(一种网络结构)对面部图像进行识别以得到表情类型。表情类型包括开心、难过、中性等。
30.在另一种可选的实施方式中，摄像装置获取用户的图像。云平台404接收到用户的图像后，基于vgg19(一种卷积网络)从该图像中识别用户402的面部，并在该图像中对用户402的面部进行标识(例如，标记用户402的面部的轮廓)，从而得到用户的面部图像。然后，云平台404基于resnet18以面部图像中标识出的区域(即用户的面部对应的区域)作为识别目标进行识别以得到表情类型。表情类型包括开心、难过、中性等。
31.本实施例基于深度卷积神经网络的表情识别，采用深度卷积神经网络来将人脸表
情特征提取与表情分类融合到一个end-to-end(端到端)的网络中。分别采用vgg19和resnet18来完成表情的识别与分类。vgg19的每一个小块是有一个卷积层、一个batchnorm(批标准化/规范化，一种旨在通过固定层输入的分布来改善神经网络训练的技术)层、一个relu(rectified linear unit，线性整流函数)层和一个平均池化层来构成的。而resnet是由两个卷积层\两个batchnorm层组成，而且每个resnet模块输入输出端还有快捷链接。在全连接层之前加入了dropout(dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃)策略，增加了模型鲁棒性。
32.为了进一步提高互动效果，作为一种可选的实施方式，在步骤s2之后，还执行以下步骤：
33.步骤s3、获取用户的反馈语音；从反馈语音中识别预设关键词；播报与预设关键词对应的语音信息。
34.具体实施时，在用户402响应终端hmi设备401播报的语音发出反馈语音后，终端hmi设备401采集用户402的反馈语音，并从反馈语音中识别预设关键词，并将识别出的预设关键词传输给tsp 403。tsp 403根据识别出的预设关键词从数据库405中查询与该关键词对应的话术文本。tsp 403将话术文本终端hmi设备401，终端hmi设备401将话术文本转换为语音进行播报，从而实现与用户402交互。
35.在一种可选的实施方式中，当用户402进入车辆，基于该语音交互方法，车辆的交互系统启动。摄像装置获取用户402的面部图像。然后，摄像装置将面部图像发送至tsp 403。tsp 403将面部图像发送至云平台404。云平台404通过模型算法用户402的表情所属的表情类型，假设表情类型为“难过”。云平台404将表情类型“难过”返回给tsp 403。tsp 403在数据库405查询与该表情类型“难过”对应的预设话术文本作为目标话术文本。
36.tsp 403将目标话术文本返回至车辆上的终端hmi设备401，终端hmi设备401将目标话术文本转换为语音进行播报。例如，终端hmi设备401播报：“您好xx，看到你不开心，我也觉得难过，想和你聊聊天，可以吗？”其中，“xx”为用户402的名称，可以通过设置终端hmi设备401存储在终端hmi设备401中。
37.假设用户402应答：“恩。和老婆吵架，烦。”则终端hmi设备401从用户402的反馈语音中识别关键词：“恩”、“老婆”、“吵架”、“烦”。其中，根据关键词“恩”，终端hmi设备401继续与用户402保持互动(也即，终端hmi设备401与用户402的聊天继续进行)。终端hmi设备401将其它关键词上传到tsp 403。
38.tsp 403根据关键词“老婆”、“吵架”、“烦”判断为用户402的交互需求涉及心理学问题。于是，tsp 403搜索心理知识库数据，心理知识库数据中包含“夫妻关系相处”相关的子分类。tsp 403从“夫妻关系相处”子分类中查询与上述关键词对应的话术文本，得到目标话术文本“老婆又惹你生气啦？我们帅气的xx每天工作那么辛苦，她还要惹你生气，哼，和我说说吧，我们一起批判她”。
39.然后，终端hmi设备401播报：“老婆又惹你生气啦？我们帅气的xx每天工作那么辛苦，她还要惹你生气，哼，和我说说吧，我们一起批判她”。
40.假设用户402应答：“她过生日我给忘了，她很生气，翻旧账，找茬吵架，说话很难听。”则终端hmi设备401从用户402的反馈语音中识别关键词：“过生日”，“忘”，“生气”，“翻旧账”，“找茬”，“吵架”，“说话难听”。
41.然后，tsp 403根据关键字“过生日”，“忘”，“生气”，“翻旧账”，“找茬”，“吵架”，“说话难听”，判断仍属于心理学范畴，根据关键字搜索数据库405，得到话术文本：“啊！？你竟然忘记了老婆的生日，那我可得批评你两句了，嘿嘿。不过你要记住哦，我和你是一伙的。xx，我知道你上班很辛苦，很多担子都压在你身上，你时常感觉很累，我懂的，你可能也感觉她不理解你，拿这些小事借题发挥吵个没完，这些我都懂的。可是假如你换个角度想，我们是大男人，她是小女人，小女人更倾向于细腻的情感方面，我们不和她计较好不好，让着她，哄哄她，女人很好哄的，你不会的话我教你啊，我啥都会。”42.然后，终端hmi设备401播报该话术文本对应的语句。
43.假设用户402响应：“哈哈，是的是的，你说说看怎么哄”。则车辆的交互系统继续做出响应，与用户402进行语音交互。
44.基于该语音交互方法，车辆的交互系统能够对用户的应答做出响应，从而使交互不断深入进行下去，具备较高的互动性和智能性。
45.而且，随着生活节奏的加快，据调查相关一部分普通工作者或多或少都存在心理问题，而目前主动咨询或被动接受心理治疗的人占比较少，究其原因主要是上班太忙没时间和设计个人隐私问题。而基于该语音交互方法，可以为用户提供人性化、个性化的语音交互服务，针对用户的心理状态，从心理上对用户做出响应，从心理上为用户提供安抚，为用户提供较佳的使用感受。
46.作为一种可选的实施方式，该语音交互方法还包括：获取外部环境信息。外部环境信息包括天气信息、路况信息中的至少一种。天气信息从气象信息发布平台获取；路况信息从路况信息发布平台获取。则在步骤s2中，播报与表情类型和外部环境信息对应的语音信息。例如，终端hmi设备401根据表情类型和天气信息播报：“看到你不开心，是不是因为天气不好下雨导致的啊？”又例如，终端hmi设备401根据表情类型和路况信息播报：“你不怎么开心哦，是不是因为太堵啊？”47.该语音交互方法结合用户的表情类型和外部环境信息，优化语音信息播报的内容，可以更加贴合用户所处的环境和心理状态，因此，语音交互更加有针对性，更加智能化。
48.在一种可选的实施方式中，该语音交互方法还包括：根据用户的体型、衣着、面貌中的至少一项得到用户的身份属性。则步骤s2还包括：播报与表情类型和身份属性对应的语音信息。具体实施时，用户402的体型、衣着、面貌中的至少一项得到用户402的身份属性，并结合用户402的表情类型和身份属性，优化语音信息播报的内容，可以使得语音播报的内容更加贴合用户的状态，从而实现更加有效的语音交互。
49.实施例2
50.本实施例提供一种语音交互方法。本实施例的语音交互方法与实施例1的语音交互方法大致相同，区别在于，在本实施例中，步骤s1由设置于车辆上的识别模块实现。该识别模块集成于摄像装置内。摄像装置获取用户的图像后，识别模块识别用户的图像中用户402的表情所属的表情类型，并将表情类型返回给tsp 403。
51.在一种可选的实施方式，摄像装置获取用户的图像。识别模块接收到用户的图像后，基于vgg19从该图像中识别用户402的面部，提取出用户402的面部对应的图像区域并进行放大，形成用户的面部图像。然后，识别模块基于resnet18对面部图像进行识别以得到表情类型。表情类型包括开心、难过、中性等。
52.在另一种可选的实施方式，摄像装置获取用户的图像。识别模块接收到用户的图像后，基于vgg19(一种卷积网络)从该图像中识别用户402的面部，并在该图像中对用户402的面部进行标识(例如，标记用户402的面部的轮廓)，从而得到用户的面部图像。然后，识别模块基于resnet18以面部图像中标识出的区域(即用户的面部对应的区域)作为识别目标进行识别以得到表情类型。表情类型包括开心、难过、中性等。
53.在本实施例中，省去了与云平台进行通信的过程，提高了效率，降低了功耗。
54.实施例3
55.本实施例提供一种语音交互系统。参照图3，该语音交互系统包括识别模块201、播报模块202。
56.识别模块201用于识别用户的表情所属的表情类型；播报模块202用于播报与表情类型对应的语音信息。
57.具体实施时，当用户进入车辆后，识别模块201获取用户的面部图像。然后，识别模块201通过模型算法用户的表情所属的表情类型。接下来，播报模块202调用数据库获取心理知识库数据，心理知识库数据中存储有若干预设话术文本，预设话术文本与表情类型存在预设对应关系。播报模块202根据表情类型从心理知识库数据中查询与该表情类型对应的预设话术文本作为目标话术文本。播报模块202将目标话术文本转换为语音进行播报。
58.基于该语音交互方法，在与用户进行语音交互的过程中，主动识别用户的表情所属的表情类型，然后有针对性地根据表情类型播报与表情类型对应的语音信息，以用户的表情类型作为语音交互的切入点以及语音信息播报的参考依据，实现有效的语音交互，提高语音互动的智能性和针对性。
59.具体实施时，识别模块201获取所述用户的图像，基于vgg19从所述用户的图像中识别用户的面部以得到用户的面部图像，基于resnet18对面部图像进行识别以得到表情类型。
60.在一种可选的实施方式中，识别模块201获取用户的图像。然后，识别模块201基于vgg19从该图像中识别用户402的面部，提取出用户402的面部对应的图像区域并进行放大，形成用户的面部图像。然后，识别模块201基于resnet18(一种网络结构)对面部图像进行识别以得到表情类型。表情类型包括开心、难过、中性等。
61.在另一种可选的实施方式中，识别模块201获取用户的图像。然后，识别模块201基于vgg19从该图像中识别用户402的面部，并在该图像中对用户402的面部进行标识(例如，标记用户402的面部的轮廓)，从而得到用户的面部图像。然后，识别模块201基于resnet18以面部图像中标识出的区域作为识别目标进行识别以得到表情类型。表情类型包括开心、难过、中性等。
62.本实施例基于深度卷积神经网络的表情识别，采用深度卷积神经网络来将人脸表情特征提取与表情分类融合到一个end-to-end的网络中。分别采用vgg19和resnet18来完成表情的识别与分类。vgg19的每一个小块是有一个卷积层、一个batchnorm层、一个relu层和一个平均池化层来构成的。而resnet是由两个卷积层\两个batchnorm层组成，而且每个resnet模块输入输出端还有快捷链接。在全连接层之前加入了dropout策略，增加了模型鲁棒性。
63.为了进一步提高互动效果，作为一种可选的实施方式，语音交互系统还包括第一
获取模块203。第一获取模块203用于获取用户的反馈语音；第一获取模块203还用于从反馈语音中识别预设关键词；播报模块202还用于播报与预设关键词对应的语音信息。
64.具体实施时，在用户响应播报模块202还用于播报的语音发出反馈语音后，第一获取模块203采集用户的反馈语音，并从反馈语音中识别预设关键词，并将识别出的预设关键词传输给播报模块202。播报模块202根据识别出的预设关键词从数据库中查询与该关键词对应的话术文本。播报模块202将话术文本转换为语音进行播报，从而实现与用户交互。
65.在一种可选的实施方式中，当用户进入车辆，该语音交互系统启动。识别模块201获取用户的面部图像。然后，识别模块201通过模型算法用户的表情所属的表情类型，假设表情类型为“难过”。识别模块201将表情类型“难过”返回给播报模块202。播报模块202在数据库查询与该表情类型“难过”对应的预设话术文本作为目标话术文本。
66.播报模块202将目标话术文本转换为语音进行播报。例如，播报模块202播报：“您好xx，看到你不开心，我也觉得难过，想和你聊聊天，可以吗？”其中，“xx”为用户的名称，可以通过设置播报模块202存储在播报模块202中。
67.假设用户应答：“恩。和老婆吵架，烦。”则第一获取模块203从用户的反馈语音中识别关键词：“恩”、“老婆”、“吵架”、“烦”。其中，根据关键词“恩”，播报模块202继续与用户保持互动。第一获取模块203将其它关键词上传到播报模块202。
68.播报模块202根据关键词“老婆”、“吵架”、“烦”判断为用户的交互需求涉及心理学问题。于是，播报模块202搜索心理知识库数据，心理知识库数据中包含“夫妻关系相处”相关的子分类。播报模块202从“夫妻关系相处”子分类中查询与上述关键词对应的话术文本，得到目标话术文本“老婆又惹你生气啦？我们帅气的xx每天工作那么辛苦，她还要惹你生气，哼，和我说说吧，我们一起批判她”。
69.然后，播报模块202播报：“老婆又惹你生气啦？我们帅气的xx每天工作那么辛苦，她还要惹你生气，哼，和我说说吧，我们一起批判她”。
70.假设用户应答：“她过生日我给忘了，她很生气，翻旧账，找茬吵架，说话很难听。”则第一获取模块203从用户的反馈语音中识别关键词：“过生日”，“忘”，“生气”，“翻旧账”，“找茬”，“吵架”，“说话难听”。
71.然后，播报模块202根据关键字“过生日”，“忘”，“生气”，“翻旧账”，“找茬”，“吵架”，“说话难听”，判断仍属于心理学范畴，根据关键字搜索数据库，得到话术文本：“啊！？你竟然忘记了老婆的生日，那我可得批评你两句了，嘿嘿。不过你要记住哦，我和你是一伙的。xx，我知道你上班很辛苦，很多担子都压在你身上，你时常感觉很累，我懂的，你可能也感觉她不理解你，拿这些小事借题发挥吵个没完，这些我都懂的。可是假如你换个角度想，我们是大男人，她是小女人，小女人更倾向于细腻的情感方面，我们不和她计较好不好，让着她，哄哄她，女人很好哄的，你不会的话我教你啊，我啥都会。”72.然后，播报模块202播报该话术文本对应的语句。
73.假设用户响应：“哈哈，是的是的，你说说看怎么哄”。则该语音交互系统继续做出响应，与用户进行语音交互。
74.基于该语音交互系统，可以对用户的应答做出响应，从而使交互不断深入进行下去，具备较高的互动性和智能性。
75.而且，随着生活节奏的加快，据调查相关一部分普通工作者或多或少都存在心理
问题，而目前主动咨询或被动接受心理治疗的人占比较少，究其原因主要是上班太忙没时间和设计个人隐私问题。而基于该语音交互系统，可以为用户提供人性化、个性化的语音交互服务，针对用户的心理状态，从心理上对用户做出响应，从心理上为用户提供安抚，为用户提供较佳的使用感受。
76.作为一种可选的实施方式，该语音交互系统还包括第二获取模块204，第二获取模块204用于获取外部环境信息。外部环境信息包括天气信息、路况信息中的至少一种。天气信息从气象信息发布平台获取；路况信息从路况信息发布平台获取。则播报模块202还用于播报与表情类型和外部环境信息对应的语音信息。例如，播报模块202还用于根据表情类型和天气信息播报：“看到你不开心，是不是因为天气不好下雨导致的啊？”又例如，播报模块202还用于根据表情类型和路况信息播报：“你不怎么开心哦，是不是因为太堵啊？”77.该语音交互系统结合用户的表情类型和外部环境信息，优化语音信息播报的内容，可以更加贴合用户所处的环境和心理状态，因此，语音交互更加有针对性，更加智能化。
78.在一种可选的实施方式中，该语音交互系统还包括第三获取模块205，第三获取模块205用于根据用户的体型、衣着、面貌中的至少一项得到用户的身份属性。则播报模块202还用于播报与表情类型和身份属性对应的语音信息。具体实施时，用户的体型、衣着、面貌中的至少一项得到用户的身份属性，并结合用户的表情类型和身份属性，优化语音信息播报的内容，可以使得语音播报的内容更加贴合用户的状态，从而实现更加有效的语音交互。
79.实施例4
80.图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1或实施例2的语音交互方法。图4显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
81.如图4所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
82.总线33包括数据总线、地址总线和控制总线。
83.存储器32可以包括易失性存储器，例如随机存取存储器(ram)321和/或高速缓存存储器322，还可以进一步包括只读存储器(rom)323。
84.存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
85.处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或实施例2的语音交互方法。
86.电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动
器以及数据备份存储系统等。
87.应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
88.实施例5
89.本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1或实施例2的语音交互方法的步骤。
90.其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
91.在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或实施例2的语音交互方法的步骤。
92.其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
93.虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王明
技术所有人：上海擎感智能科技有限公司
我是此专利的发明人

上一篇：一种电池包后部安装点固定结构的制作方法
上一篇：一种仿生机器鱼的制作方法