一种语音交互方法、装置及设备的制造方法

文档序号：9787049阅读：291来源：国知局

一种语音交互方法、装置及设备的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域，尤其涉及一种语音交互方法、装置及设备。
【背景技术】
[0002]目前，智能终端的使用十分普遍，摄像头是智能终端的标配，而且很多智能终端均支持语音输入，但是，语音识别相对于手写或屏幕按钮直接操作容易产生误操作，无法在用户接收到错误信息时自动进行返回，以及重新按照候选的识别选项重新给予执行。

【发明内容】

[0003]本发明提供一种语音交互方法、装置及设备，解决了现在语音交互方法准确性低、用户体验差的技术问题，可以及时掌握用户的情绪，并对用户的不良情绪进行安抚，提升用户体验。
[0004]本发明采用以下技术方案:
[0005]第一方面，本发明提供一种语音交互方法，包括:
[0006]通过音频采集装置获取音频信息，从所述音频信息中提取用户的语音信息；
[0007]执行所述语音信息相匹配的操作指令，返回所述操作指令执行的结果；
[0008]通过摄像装置获取用户的面部图像信息，从所述面部图像信息中提取用户面部表情的图像特征进行处理，识别出用户的表情；
[0009]根据所述用户的表情判断用户对所述执行结果的反应，并给出对应的处理方案。
[0010]进一步地，所述通过音频采集装置获取音频信息，从所述音频信息中提取用户的语音信息之后，还包括:
[0011]开启摄像装置，采集用户脸部图像信息，通过人脸识别技术确定出口型与所述语音信息对应的用户。
[0012]进一步地，所述根据所述用户的表情判断用户对所述执行结果的反应，并给出对应的处理方案，包括:
[0013]如果所述用户的表情为高兴，则判断用户对所述执行结果比较满意，感谢客户的使用；
[0014]如果所述用户的表情比较沮丧或者失望，则及时终止执行所述操作指令的执行，提供用户预设个数的候选项，或者，再次询问用户语音交互的细节内容；
[0015]如果所述用户的表情比较烦躁，则自动语音安抚用户，及时进行道歉，并收集用户对语音体验的改进建议。
[0016]进一步地，所述根据所述用户的表情判断用户对所述执行结果的反应，并给出对应的处理方案之后，还包括:
[0017]根据所述用户对执行结果的反应确定出令用户不满意的执行结果，对语音数据库进行修正或升级。
[0018]进一步地，所述图像特征包括眼睛、眼眉、嘴巴和面部颜色;所述用户的表情包括:微笑、大笑、兴奋、好奇、愤怒及惊奇。
[0019]第二方面，本发明提供一种语音交互装置，包括:
[0020]语音信息提取单元，用于通过音频采集装置获取音频信息，从所述音频信息中提取用户的语音信息；
[0021]操作指令执行单元，用于执行所述语音信息相匹配的操作指令，返回所述操作指令执行的结果；
[0022]用户表情识别单元，用于通过摄像装置获取用户的面部图像信息，从所述面部图像信息中提取用户面部表情的图像特征进行处理，识别出用户的表情；
[0023]用户反应判断单元，用于根据所述用户的表情判断用户对所述执行结果的
[0024]反应，并给出对应的处理方案。
[0025]进一步地，所述装置还包括:用户确定单元，用于开启摄像装置，采集用户脸部图像信息，通过人脸识别技术确定出口型与所述语音信息对应的用户。
[0026]进一步地，所述用户反应判断单元包括:
[0027]第一判断单元，用于如果所述用户的表情为高兴，则判断用户对所述执行结果比较满意，感谢客户的使用；
[0028]第二判断单元，用于如果所述用户的表情比较沮丧或者失望，则及时终止执行所述操作指令的执行，提供用户预设个数的候选项，或者，再次询问用户语音交互的细节内容；
[0029]第三判断单元，用于如果所述用户的表情比较烦躁，则自动语音安抚用户，及时进行道歉，并收集用户对语音体验的改进建议。
[0030]进一步地，所述装置还包括:语音数据库升级单元，用于根据所述用户对执行结果的反应确定出令用户不满意的执行结果，对语音数据库进行修正或升级。
[0031]进一步地，所述图像特征包括眼睛、眼眉、嘴巴和面部颜色;所述用户的表情包括:微笑、大笑、兴奋、好奇、愤怒及惊奇。
[0032 ]第三方面，本发明提供一种语音交互设备，包括音频采集装置、摄像装置及上述任一项所述的语音交互装置。
[0033]本发明提供的技术方案带来如下有益效果:
[0034]通过在语音交互过程中利用摄像装置获取用户面部图像，识别出用户的表情，判断用户对语音交互结果的反应，根据用户的反应给出对应的处理方案，可以及时掌握用户的情绪，并对用户的不良情绪进行安抚，提升用户体验。
【附图说明】
[0035]为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。
[0036]图1是本发明提供的语音交互方法第一个实施例的方法流程图。
[0037]图2是本发明提供的语音交互方法第二个实施例的方法流程图。
[0038]图3是本发明提供的语音交互装置第一个实施例的结构方框图。
[0039]图4是本发明提供的语音交互装置第二个实施例的结构方框图。
[0040]图5是本发明提供的语音交互设备的结构方框图。
【具体实施方式】
[0041]为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0042]图1是本发明提供的语音交互方法第一个实施例的方法流程图。参考图1所示，该语音交互方法包括:
[0043]S101、通过音频采集装置获取音频信息，从所述音频信息中提取用户的语音信息。
[0044]音频信息可以包括用户发出的语音对应的语音信息，还可以包括背景杂音，例如，用户在大街上，汽车鸣笛声、鞭炮声就可以称为背景杂音，当然音频信息也可以不包括背景杂音，例如用户在一个非常安静的场所，本发明对音频信息包含的内容不作具体限定。从音频信息中提取有用的语音信息的技术以及相当成熟，详情请参考相关资料，此处不再详述。
[0045]S102、执行所述语音信息相匹配的操作指令，返回所述操作指令执行的结果。
[0046]预先将语音信息和操作指令进行绑定，当用户输入语音信息时，终端则执行用户输入的语音信息对应的操作指令。为了提高语音交互的智能性，可以一个语音信息对应一个操作指令，也可以多个相近的语音信息对应一个操作指令。例如，打开摄像头的语音对应打开摄像头的操作指令，也可以打开摄像头、开启摄像头、进入摄像头对应打开摄像头的操作指令。
[0047]S103、通过摄像装置获取用户的面部图像信息，从所述面部图像信息中提取用户面部表情的图像特征进行处理，识别出用户的表情。
[0048]所述图像特征包括眼睛、眼眉、嘴巴和面部颜色;所述用户的表情包括:微笑、大笑、兴奋、好奇、愤怒及惊奇。
[0049]用户发出与上述语音信息对应的语音时，用户的面部肌肉会发生相应的变化、用户的嘴部会进行相应的一张一合的动作，所以面部图像信息可以为用户的面部肌肉会发生相应的变化信息，和/或用户的嘴部会进行相应的一张一合的动作信息，当然面部图像信息还可以为其他信息，本发明实施例对此不作具体限定。
[0050]S104、根据所述用户的表情判断用户对所述执行结果的反应，并给出对应的处理方案。
[0051]用户的表情可能因为得到自己想要的结果而感到高兴，或者因为得到好玩的结果而好奇，或者因为得不到想要的额结果而愤怒，根据用户的情绪给出不同的处理方案，以缓解用户的不良情绪，提升语音交互的用户体验。
[0052]步骤S104具体包括:
[0053]如果所述用户的表情为高兴，则判断用户对所述执行结果比较满意，感谢客户的使用；
[0054]如果所述用户的表情比较沮丧或者失望，则及时终止执行所述操作指令的执行，提供用户预设个数的候选项，或者，再次询问用户语音交互的细节内容；
[0055]如果所述用户的表情比较烦躁，则自动语音安抚用户，及时进行道歉，并收集用户对语音体验的改进建议。
[0056]综上，本发明提供的语音交互方法通过在语音交互过程中利用摄像装置获取用户面部图像，识别出用户的表情，判断用户对语音交互结果的反应，根据用户的反应给出对应的处理方案，可以及时掌握用户的情绪，并对用户的不良情绪进行安抚，提升用户体验。
[0057]图2是本发明提供的语音交互方法第二个实施例的方法流程图。参考图2所示，该语音交互方法与图1所示方法不同之处在于，当多个人共同使用终端时，确认出发出语音信息的用户，并对语音数据库进行升级。该语音交互方法包括:
[0058]S201、通过音频采集装置获取音频信息，从所述音频信息中提取用户的语音信息。
[0059]S202、开启摄像装置，采集用户脸部图

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑战海;
技术所有人：小天才科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。