一种人机交互方法及装置制造方法

文档序号：2827213阅读：212来源：国知局

一种人机交互方法及装置制造方法
【专利摘要】本发明公开了一种人机交互方法及装置，属于计算机【技术领域】。该方法包括：当终端处于休眠模式时，终端监听用户语言；当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；当接收到交互请求时，以自然语言的方式进行人机交互。本发明通过设置唤醒命令词，当用户语言中包含该唤醒命令词时，终端自动进入工作模式，仅需自然语言即可进行人机交互，无需手动操作触摸屏，灵活性强。
【专利说明】一种人机交互方法及装置
【技术领域】
[0001]本发明涉及计算机【技术领域】，特别涉及一种人机交互方法及装置。
【背景技术】
[0002]随着智能终端的普及，越来越多的智能设备和智能穿戴式设备出现，并被广泛使用，例如:智能眼镜，智能手表，智能手环，智能戒指，智能项链，智能体重计等。在这些设备上，人机交互是非常核心的体验和功能。
[0003]现有技术中，在智能设备和智能穿戴式设备上配置有触摸屏，用户基于传统的视觉，通过触发触摸屏上的按钮，实现人机交互。
[0004]在实现本发明的过程中，发明人发现现有技术至少存在以下问题:
[0005]在进行人机交互的过程中，由于智能设备和智能穿戴式设备的尺寸小，设备配置的触摸屏的尺寸也很小，用户不能清楚看清屏幕，导致无法精准控制人机交互过程，存在一定的局限性。

【发明内容】

[0006]为了解决现有技术的问题，本发明实施例提供了一种人机交互方法及装置。所述技术方案如下:
[0007]—方面，提供了一种人机交互方法，所述方法包括:
[0008]当终端处于休眠模式时，终端监听用户语言；
[0009]当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；
[0010]当接收到交互请求时，以自然语言的方式进行人机交互。
[0011 ]可选地，所述方法还包括:
[0012]当预设时间内未接收到交互请求时，终端跳转至休眠模式。
[0013]可选地，当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式包括:
[0014]当所监听到的用户语言中包括唤醒命令词时，进行身份认证；
[0015]当身份认证通过时，跳转至工作模式。
[0016]可选地，当所监听到的用户语言中包括唤醒命令词时，进行身份认证包括:
[0017]当所监听的用户语言中包括唤醒命令词时，获取所述用户语言的声纹密码；
[0018]判断所存储的至少一个声纹密码中是否包括所述用户语言的声纹密码；
[0019]当所存储的至少一个声纹密码中包括所述用户语言的声纹密码时，确认身份认证通过；
[0020]当所存储的至少一个声纹密码中未包括所述用户语言的声纹密码时，确认身份认证不通过。
[0021]可选地，所述声纹密码包括固定的密码文本或者非固定的密码文本。
[0022]可选地，当所监听到的用户语言中包括唤醒命令词时，进行身份认证包括:
[0023]当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；[0024]当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；
[0025]当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过。
[0026]可选地，所述唤醒命令词包括一种或多种语言。
[0027]可选地，当接收到交互请求时，以自然语言的方式进行人机交互包括:
[0028]当接收到交互请求时，获取用户输入的自然语言；
[0029]利用语言理解和智能对话，对所述用户输入的自然自语进行处理，根据所述终端的环境信息，得到待输出的自然语言。
[0030]另一方面，提供了一种人机交互装置，所述装置包括:
[0031]监听模块，用于当终端处于休眠模式时，终端监听用户语言；
[0032]模式跳转模块，用于当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；
[0033]交互模块，用于当接收到交互请求时，以自然语言的方式进行人机交互。
[0034]可选地，所述模式跳转模块还用于当预设时间内未接收到交互请求时，终端跳转至休眠模式。
[0035]可选地，所述模式跳转模块包括:
[0036]身份认证单元，用于当所监听到的用户语言中包括唤醒命令词时，进行身份认证；
[0037]所述模式跳转模块还用于当身份认证通过时，跳转至工作模式。
[0038]可选地，所述身份认证单元包括:
[0039]声纹密码获取子单元，用于当所监听的用户语言中包括唤醒命令词时，获取所述用户语言的声纹密码；
[0040]判断子单元，用于判断所存储的至少一个声纹密码中是否包括所述用户语言的声纹密码；
[0041]所述身份认证单元还用于当所存储的至少一个声纹密码中包括所述用户语言的声纹密码时，确认身份认证通过；当所存储的至少一个声纹密码中未包括所述用户语言的声纹密码时，确认身份认证不通过。
[0042]可选地,所述声纹密码包括固定的密码文本或者非固定的密码文本。
[0043]可选地，所述身份认证单元包括:
[0044]提示子单元，用于当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；
[0045]所述身份认证单元还用于当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过。
[0046]可选地，所述唤醒命令词包括一种或多种语言。
[0047]可选地，所述交互模块包括:
[0048]自然语言获取单元，用于当接收到交互请求时，获取用户输入的自然语言；
[0049]自然语言输出单元，用于利用语言理解和智能对话，对所述用户输入的自然自语进行处理，根据所述终端的环境信息，得到待输出的自然语言。[0050]本发明实施例提供的技术方案带来的有益效果是:
[0051]通过设置唤醒命令词，当用户语言机交互，无需手动操作触摸屏，灵活性强。中包含该唤醒命令词时，终端自动进入工作模式，仅需自然语言即可进行人机交互，无需手动操作触摸屏，灵活性强。
【专利附图】

【附图说明】
[0052]为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0053]图1是本发明实施例提供的人机交互方法流程图；
[0054]图2是本发明实施例提供的人机交互方法流程图；
[0055]图3是本发明实施例提供的人机交互方法流程图；
[0056]图4是本发明实施例提供的人机交互方法流程图；
[0057]图5是本发明实施例提供的人机交互方法流程图；
[0058]图6是本发明实施例提供的人机交互方法流程图；
[0059]图7是本发明实施例提供的人机交互装置结构示意图。
【具体实施方式】
[0060]为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0061]图1是本发明实施例提供的人机交互方法流程图。参见图1，该实施例包括:
[0062]101、当终端处于休眠模式时，终端监听用户语言；
[0063]102、当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；
[0064]103、当接收到交互请求时，以自然语言的方式进行人机交互。
[0065]本发明实施例提供的方法，通过设置唤醒命令词，当用户语言中包含该唤醒命令词时，终端自动进入工作模式，仅需自然语言即可进行人机交互，无需手动操作触摸屏，灵活性强。
[0066]可选地，该方法还包括:当预设时间内未接收到交互请求时，终端跳转至休眠模式。
[0067]可选地，当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式包括:
[0068]当所监听到的用户语言中包括唤醒命令词时，进行身份认证；
[0069]当身份认证通过时，跳转至工作模式。
[0070]可选地，当所监听到的用户语言中包括唤醒命令词时，进行身份认证包括:
[0071]当所监听的用户语言中包括唤醒命令词时，获取该用户语言的声纹密码；
[0072]判断所存储的至少一个声纹密码中是否包括该用户语言的声纹密码；
[0073]当所存储的至少一个声纹密码中包括该用户语言的声纹密码时，确认身份认证通过；
[0074]当所存储的至少一个声纹密码中未包括该用户语言的声纹密码时，确认身份认证不通过。
[0075]可选地，该声纹密码包括固定的密码文本或者非固定的密码文本。
[0076]可选地，当所监听到的用户语言中包括唤醒命令词时，进行身份认证包括:
[0077]当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；
[0078]当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；
[0079]当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过。
[0080]可选地，该唤醒命令词包括一种或多种语言。
[0081]可选地，当接收到交互请求时，以自然语言的方式进行人机交互包括:
[0082]当接收到交互请求时，获取用户输入的自然语言；
[0083]利用语言理解和智能对话，对该用户输入的自然自语进行处理，根据该终端的环境信息，得到待输出的自然语言。
[0084]图2是本发明实施例提供的人机交互方法流程图。参见图2，该实施例包括:
[0085]201、当终端处于休眠模式时，终端监听用户语言；
[0086]在本发明实施例中，该终端可以为固定终端或移动终端，固定终端可以为PC(Personal Computer，个人电脑)或显示设备，移动终端可以为智能穿戴式设备、智能手机、平板电脑、MP3 (Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、PDA (Personal Digital Assistant,个人数字助理)等。
[0087]在本发明实施例中，该终端可以配置有智能麦克风。该智能麦克风处于时刻监听状态，可以通过VAD (Voice Activity Detection,语音活性检测)方法将语音切分为若干段进行处理，不断检测用户语言中是否包含预设的唤醒命令词。其中，该VAD方法能够检测出语首的开始和结束。
[0088]在本发明实施例中，终端不间断的采集语音，每一段语音都进行语音唤醒检测处理。语音唤醒检测语音中是否包含有唤醒命令词。
[0089]202、当所监听到的用户语言中包括唤醒命令词时，进行身份认证；
[0090]其中，该唤醒命令词包括一种或多种语言。该唤醒命令词用于当设备监听到这个命令词时，设备从休眠状态进入工作状态。该唤醒命令词相当于给设备起一个名字。该唤醒命令词可由技术人员设定，也可由用户在使用过程中设定，本发明实施例不作具体限定。例如，该唤醒命令词可以为“小助手”。
[0091]在本发明实施例中，仅以该终端设置有解锁权限为例进行说明，在本发明的另一实施例中，该终端也可以未设置有解锁权限，此时，身份认证过程可以跳过。
[0092]在本发明实施例中，身份认证的过程包括以下任一方式:
[0093]方式一:当所监听的用户语言中包括唤醒命令词时，获取该用户语言的声纹密码；判断所存储的至少一个声纹密码中是否包括该用户语言的声纹密码；当所存储的至少一个声纹密码中包括该用户语言的声纹密码时，确认身份认证通过，当所存储的至少一个声纹密码中不包括该用户语言的声纹密码时，确认身份认证不通过，继续监听。
[0094]其中，该声纹密码包括固定的密码文本或者非固定的密码文本。当该声纹密码为非固定的密码文本是，该声纹密码可以是用户注册时由服务器随机发放的，也可以是用户在使用过程中设置的，本发明实施例不作具体限定。[0095]在本发明实施例中，声纹验证分为文本相关的方法和文本不相关的方法。其中，文本相关是要求用户设定一个固定的密码，验证阶段使用这个固定的密码文本。文本不相关不要求使用固定密码，允许用户使用任意语音做验证。
[0096]在本发明实施例中，安全程度可以设置阈值，从而实现不同程度的安全性。安全度低，则更容易验证通过。安全度高，有更多的可能会被拒绝。
[0097]在本发明实施例中，两种方法都需要预先训练声纹密码模型，模型采用GMM(Gaussian Mixture Model,高斯混合模型)模型,模型文件存储在本地数据库。
[0098]在本发明实施例中，终端采集用户语音，提取语音PLP特征，使用预先训练的GMM模型进行匹配度计算，如果相似度阈值大于设定的安全门限，则认为验证成功。
[0099]例如，用户:小助手；
[0100]设备:(验证通过)主人，欢迎回来，我能为您做点什么？
[0101]在这种方式的具体实施中，将用户的语音唤醒命令数据作为声纹验证的数据，进行声纹密码验证。
[0102]方式二:当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过，继续监听。
[0103]例如，用户:小助手；
[0104]设备:主人您好，请输入您设置的语音密码；
[0105]用户:芝麻开门；
[0106]设备:主人，欢迎回来，我能为您做点什么？
[0107]在这种方式的具体实施中，需要额外采集用户的语音密码声音数据，进行声纹密码验证。
[0108]语音唤醒的实现基于语音识别方法。语音唤醒将所有的语音分为唤醒命令词和非唤醒命令词两类。
[0109]在唤醒命令设置阶段，生成唤醒命令词的GMM模型。
[0110]在语音唤醒检测阶段，将用户语音用于识别，识别结果为唤醒词或者非唤醒词。
[0111]203、当身份认证通过时，跳转至工作模式；
[0112]204、当接收到交互请求时，以自然语言的方式进行人机交互；
[0113]在本发明实施例中，终端在完成语音识别后，进行文本语义解析，确定用户的意图，并且根据用户意图完成信息查询或者操作，之后给出反馈给用户的文本，智能对话模块使用手机本地的数据，或者采集到的环境信息，并将反馈给用户的文本通过语音合成转换成声音播放给用户。用户可以听到智能设备的回答，并且可以接下来进行多轮语音对话交互,如图3所示。
[0114]例1:
[0115]用户:小助手，这里的温度和湿度是多少？
[0116]设备:测量显示这里30摄氏度，湿度30%。(终端利用采集到的数据)
[0117]用户:设置一个30分钟后的闹钟。(终端利用本地存储的数据)
[0118]设备:已经设置完毕。
[0119]这种实施例场景适用于简单的设备控制，简单信息查询等功能。[0120]例2:
[0121]穿戴设备在有网络的情况下，通过云端计算资源和数据进行智能语音交互。
[0122]穿戴设备连接到互联网，具备更强大的计算能力和数据处理能力，能够有更精准的语音识别率和更丰富的对话交互能力，如图4所示。
[0123]用户:小助手，明天北京会下雪么？
[0124]设备:北京明天天气晴朗，20摄氏度。(访问网络数据)
[0125]用户:帮我预定5个川菜馆的座位，明晚6点和朋友聚聚。
[0126]设备:已经找到你常去的川菜馆，预订了位置。(访问网络数据)。
[0127]这种实施例适用于具有复杂功能的业务，能够让智能设备的功能更加丰富强大。
[0128]例3:
[0129]本发明实施例还可以使用个人的其他智能设备进行协同计算和对话，比如利用个人的手机进行计算和交互，如图5所示。
[0130]结合例I和例2，智能设备能访问本地数据和云端数据，同时可以访问个人的其他智能设备，让多个智能设备协同工作。
[0131]可能的工作方式1:设备A完成某些参数检测，设备B完成另一些参数的检测。所有的参数都传输到设备C进行对话交互使用。
[0132]基于这种实施例，个人的智能设备不再是孤立的，而是可以协同工作，相互提供服务。
[0133]多个设备之间系统的实现技术包括:使用低功耗蓝牙BLE互联，使用局域网WIFI网络互联。
[0134]例4:
[0135]用户:小助手，刚运动完，我要休息一下。
[0136]设备A (手环)收集脉搏数据，收集体温数据。
[0137]设备B (客厅空气检测设备)收集环境温度，环境湿度数据。
[0138]设备C (空调设备)调整温度到冷风模式
[0139]设备:环境已经设备成适合休息的模式！
[0140]205、当预设时间内未接收到交互请求时，终端跳转至休眠模式。
[0141]其中，该预设时间可由技术人员设定，也可由用户在使用过程中设定，本发明实施例不作具体限定。
[0142]如图6所示人机交互的过程。终端监听用户语言，当监听到唤醒命令词时，进行生物验证，当验证通过时，接收用户语言询问，终端处理请求。当终端验证不通过时，继续监听。当终端长时间未工作时，终端自动进入休眠模式。
[0143]本发明实施例提供的方法，通过设置唤醒命令词，当用户语言中包含该唤醒命令词时，终端自动进入工作模式，仅需自然语言即可进行人机交互，无需手动操作触摸屏，灵活性强。
[0144]图7是本发明实施例提供的人机交互装置结构示意图。参见图7，该装置包括:监听模块701、模式跳转模块702和交互模块703。
[0145]监听模块701用于当终端处于休眠模式时，终端监听用户语言；监听模块701与模式跳转模块702连接，模式跳转模块702用于当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；模式跳转模块702与交互模块703连接，交互模块703用于当接收到交互请求时，以自然语言的方式进行人机交互。
[0146]可选地，该模式跳转模块702还用于当预设时间内未接收到交互请求时，终端跳转至休眠模式。
[0147]可选地，该模式跳转模块702包括:身份认证单元，用于当所监听到的用户语言中包括唤醒命令词时，进行身份认证；该模式跳转模块还用于当身份认证通过时，跳转至工作模式。
[0148]可选地，该身份认证单元包括:声纹密码获取子单元，用于当所监听的用户语言中包括唤醒命令词时，获取该用户语言的声纹密码；判断子单元，用于判断所存储的至少一个声纹密码中是否包括该用户语言的声纹密码；该身份认证单元还用于当所存储的至少一个声纹密码中包括该用户语言的声纹密码时，确认身份认证通过；当所存储的至少一个声纹密码中未包括该用户语言的声纹密码时，确认身份认证不通过。
[0149]可选地，该声纹密码包括固定的密码文本或者非固定的密码文本。
[0150]可选地，该身份认证单元包括:提示子单元，用于当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；该身份认证单元还用于当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过。
[0151]可选地，该唤醒命令词包括一种或多种语言。
[0152]可选地，该交互模块703包括:自然语言获取单元，用于当接收到交互请求时，获取用户输入的自然语言；自然语言输出单元，用于利用语言理解和智能对话，对该用户输入的自然自语进行处理，根据该终端的环境信息，得到待输出的自然语言。
[0153]本发明实施例提供的装置，支持视力有障碍的用户使用，且可以解放双手，方便用户在特定场合使用。另外，该装置设置有权限控制，只有终端用户才能解锁，且仅需语言即可解锁，避免了繁杂的解锁操作。
[0154]本发明实施例提供的装置，通过设置唤醒命令词，当用户语言中包含该唤醒命令词时，终端自动进入工作模式，仅需自然语言即可进行人机交互，无需手动操作触摸屏，灵活性强。
[0155]需要说明的是:上述实施例提供的人机交互装置在人机交互时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人机交互装置与人机交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0156]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0157]以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【权利要求】
1.一种人机交互方法，其特征在于，所述方法包括: 当终端处于休眠模式时，终端监听用户语言；当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；当接收到交互请求时，以自然语言的方式进行人机交互。
2.根据权利要求1所述的方法，其特征在于，当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式包括: 当所监听到的用户语言中包括唤醒命令词时，进行身份认证；当身份认证通过时，跳转至工作模式。
3.根据权利要求1所述的方法，其特征在于，当所监听到的用户语言中包括唤醒命令词时,进行身份认证包括: 当所监听的用户语言中包括唤醒命令词时，获取所述用户语言的声纹密码；判断所存储的至少一个声纹密码中是否包括所述用户语言的声纹密码；当所存储的至少一个声纹密码中包括所述用户语言的声纹密码时，确认身份认证通过；当所存储的至少一个声纹密码中未包括所述用户语言的声纹密码时，确认身份认证不通过。所述声纹密码包括固定的密码文本或者非固定的密码文本。
4.根据权利要求1所述的方法，其特征在于，当所监听到的用户语言中包括唤醒命令词时,进行身份认证包括: 当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过。
5.根据权利要求1所述的方法，其特征在于，当接收到交互请求时，以自然语言的方式进行人机交互包括: 当接收到交互请求时，获取用户输入的自然语言；利用语言理解和智能对话，对所述用户输入的自然自语进行处理，根据所述终端的环境信息，得到待输出的自然语言。
6.一种人机交互装置，其特征在于，所述装置包括: 监听模块，用于当终端处于休眠模式时，终端监听用户语言；模式跳转模块，用于当所监听到的用户语言中包括唤醒命令词时，跳转至工作模式；交互模块，用于当接收到交互请求时，以自然语言的方式进行人机交互。
7.根据权利要求6所述的装置，其特征在于，所述模式跳转模块包括: 身份认证单元，用于当所监听到的用户语言中包括唤醒命令词时，进行身份认证；所述模式跳转模块还用于当身份认证通过时，跳转至工作模式。
8.根据权利要求6所述的装置，其特征在于，所述身份认证单元包括: 声纹密码获取子单元，用于当所监听的用户语言中包括唤醒命令词时，获取所述用户语言的声纹密码；判断子单元，用于判断所存储的至少一个声纹密码中是否包括所述用户语言的声纹密码；所述身份认证单元还用于当所存储的至少一个声纹密码中包括所述用户语言的声纹密码时，确认身份认证通过；当所存储的至少一个声纹密码中未包括所述用户语言的声纹密码时，确认身份认证不通过。所述声纹密码包括固定的密码文本或者非固定的密码文本。
9.根据权利要求6所述的装置，其特征在于，所述身份认证单元包括: 提示子单元，用于当所监听的用户语言中包括唤醒命令词时，提示用户输入语言密码；所述身份认证单元还用于当用户输入的语言密码与终端所存储的预设密码相同时，确认身份认证通过；当用户输入的语言密码与终端所存储的预设密码不相同时，确认身份认证不通过。
10.根据权利要求6所述的装置，其特征在于，所述交互模块包括: 自然语言获取单元，用于当接收到交互请求时，获取用户输入的自然语言；自然语言输出单元，用于利用语言理解和智能对话，对所述用户输入的自然自语进行处理，根据所述终端的环境信息，得到待输出的自然语言。
【文档编号】G10L15/00GK103729193SQ201410012205
【公开日】2014年4月16日申请日期:2014年1月11日优先权日:2014年1月11日
【发明者】王艳龙, 雷雄国, 俞凯, 李力申请人:苏州思必驰信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王艳龙;雷雄国;俞凯;李力
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：一种在电话满意度调查中检测身份冒充的系统与方法
上一篇：屏幕发声系统及其控制方法