一种基于视觉唤醒的语音控制方法_2

文档序号：9452634阅读：来源：国知局

法的流程图如图4所示，包括:
[0036]步骤一、语音控制设备的语音接收单元I接收到至少部分的语音信号后，例如刚开始接收到1-2个音节后，启动图像接收单元21。同时，语音识别单元2通过接收的部分语音信号，分辨该语音信号的来源方向。
[0037]步骤二、图像接收单元21获取图像并传送到图像识别单元22，其中对于在步骤一中确定了语音信号的来源方向的情况，处理单元23控制可旋转摄像头转向语音信号的来源方向，在语音信号的来源方向的对应区域获取图像；对于在步骤一中不能确定语音信号的来源方向的情况，处理单元23控制可旋转摄像头在其最大旋转角度的范围内转动，即在整个区域获取图像，直到在图像中检测到视线朝向语音控制设备的人脸。
[0038]对于前一种情况，具体地可以分为两步进行:
[0039]步骤1.1、处理单元23控制可旋转摄像头转向语音信号的来源方向，在对应区域获取图像；
[0040]步骤1.2、图像识别单元22分析获取图像，判断其中是否有人脸以及在图像中有人脸的情况下判断该人脸的视线是否朝向语音控制设备，如果皆为是则进入以下的步骤三，如果有一个不是则进入步骤1.1o
[0041 ] 对于后一种情况，具体地可以分为两步进行:
[0042]步骤2.1、处理单元23控制可旋转摄像头在其最大旋转角度的范围内转动，在整个区域获取其中具有人脸的图像，搜索完毕则使可旋转摄像头停止转动；
[0043]步骤2.2、图像识别单元22分析获取的人脸的图像，判断该人脸的视线是否朝向语音控制设备，如果是则进入以下的步骤三，如果不是则进入步骤2.1。
[0044]步骤三、图像识别单元22识别该图像，其中对于在步骤一中确定了语音信号的来源方向的情况，且在语音信号的来源方向的对应区域获取的图像中检测到视线朝向语音控制设备的人脸时，图像识别单元22将此识别结果发送给处理单元23，处理单元23使语音控制设备被唤醒。继而处理单元23使语音识别单元2工作，语音识别单元2接收完整的语音信号并对其进行识别，语音识别单元2将识别结果发送给处理单元23，处理单元23使语音控制设备对该语音信号做出回复。较佳地，这一情况还可以更细化地分析应对，如图4所示，还可以对语音识别单元2接收完整的语音信号的时间点进行判断，具体地为:
[0045]1、图像识别单元22确认获取了视线朝向语音控制设备的人脸的图像时，语音识别单元2已经接收了完整的语音信号，即此时语音已停止，则语音识别单元2识别已接收的语音信号；
[0046]2、图像识别单元22确认获取了视线朝向语音控制设备的人脸的图像时，语音识别单元2尚未接收完全语音信号，即此时语音未停止，则处理单元23使图像识别单元22判断其获取的图像中的人脸是否在说话，
[0047]如果是则能判断该接收中的语音信号是该人发出的，由此处理单元23使摄像头对准该人脸直到语音信号接收完毕，语音识别单元2接收完整的语音信号并对其进行识另IJ，语音识别单元2将识别结果发送给处理单元23，处理单元23使语音控制设备对该语音信号做出回复；
[0048]如果不是则能判断该接收中的语音信号不是该人发出的，由此需要重新搜索，即回到步骤二。
[0049]可以看出，这样细化的分析应对能够适应于更复杂的环境，例如场景中存在多个人说话，从而正确地找到发出语音信号的人。
[0050]对于在步骤一中确定了语音信号的来源方向的情况，但是在语音信号的来源方向的对应区域获取的图像中没有检测到视线朝向语音控制设备的人脸时，将其作为不能确定语音信号的来源方向的情况并返回步骤二，即处理单元23控制可旋转摄像头在其最大旋转角度的范围内转动，在整个区域获取图像。
[0051]对于在步骤一中不能确定语音信号的来源方向的情况，且在整个区域获取的图像中检测到视线朝向语音控制设备的人脸，且该人脸正在说话且此时语音接收单元I尚未接收完毕语音信号时，图像识别单元22将此识别结果发送给处理单元23，处理单元23使语音控制设备被唤醒。处理单元23使摄像头对准该人脸直到语音信号接收完毕，继而处理单元23使语音识别单元2工作，语音识别单元2接收完整的语音信号并对其进行识别，语音识别单元2将识别结果发送给处理单元23，处理单元23使语音控制设备对该语音信号做出回复。
[0052]对于在步骤一中不能确定语音信号的来源方向的情况，且在整个区域获取的图像中检测到视线朝向语音控制设备的人脸，且该人脸不在说话且此时语音接收单元I已经接收完毕语音信号时，图像识别单元22将此识别结果发送给处理单元23，处理单元23使语音控制设备被唤醒。继而处理单元23使语音识别单元2工作，语音识别单元2接收完整的语音信号并对其进行识别。如果语音识别单元2能够识别该语音信号，则将识别结果发送给处理单元23，如果处理单元23能够正确理解该识别结果(例如与其内置的操作指令组中的一个相符)则使语音控制设备对该语音信号做出回复；如果语音识别单元2不能够识别该语音信号，则处理单元23使语音控制设备不对该语音信号做出回复。
[0053]以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域的技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。
【主权项】
1.一种基于视觉唤醒的语音控制方法，用于唤醒语音控制设备以使所述语音控制设备对其接收的语音信号做出回复，其特征在于，所述语音控制方法包括: 步骤一、语音控制设备接收到至少部分的所述语音信号后，启动安装在其上的图像接收单元；步骤二、所述图像接收单元获取图像并传送到图像识别单元；步骤三、所述图像识别单元识别所述图像，当在所述图像中检测到视线朝向所述语音控制设备的人脸时，所述语音控制设备被唤醒以识别所述语音信号。2.如权利要求1所述的基于视觉唤醒的语音控制方法，其中所述图像接收单元为摄像头。3.如权利要求2所述的基于视觉唤醒的语音控制方法，其中所述摄像头为广角摄像头。4.如权利要求1所述的基于视觉唤醒的语音控制方法，其中所述图像接收单元为可旋转摄像头，所述可旋转摄像头包括云台，所述云台安装在所述语音控制设备的外壳上。5.如权利要求4所述的基于视觉唤醒的语音控制方法，其中所述云台是2轴驱动的。6.如权利要求4或5所述的基于视觉唤醒的语音控制方法，其中所述步骤一包括:所述语音控制设备根据接收到的所述至少部分的所述语音信号，分辨所述语音信号的来源方向；当所述语音控制设备能确定所述语音信号的来源方向时，所述语音控制设备指令所述摄像头转向所述语音信号的来源方向获取图像，当所述语音控制设备不能确定所述语音信号的来源方向时，所述语音控制设备指令所述摄像头在其最大旋转角度范围内转动并获取图像。7.如权利要求6所述的基于视觉唤醒的语音控制方法，其中所述步骤三包括: 对于所述语音控制设备能确定所述语音信号的来源方向的情况，当所述图像识别单元在所述图像中检测到视线朝向所述语音控制设备的人脸时，所述语音控制设备接收完毕所述语音信号后识别所述语音信号，并做出回复；对于所述语音控制设备不能确定所述语音信号的来源方向的情况，当所述图像识别单元在所述图像中检测到视线朝向所述语音控制设备的人脸且所述人脸正在说话且所述语音信号后未接收完毕时，所述语音控制设备接收完毕所述语音信号后识别所述语音信号，并做出回复；当所述图像识别单元在所述图像中检测到视线朝向所述语音控制设备的人脸且所述人脸不在说话且所述语音信号已接收完毕时，所述语音控制设备识别所述语音信号并做出回复，如果语音控制设备不能识别所述语音信号则不做回复。8.如权利要求7所述的基于视觉唤醒的语音控制方法，其中当在所述步骤三中，所述图像中未检测到视线朝向所述语音控制设备的人脸时，所述语音控制设备不被唤醒。9.如权利要求1所述的基于视觉唤醒的语音控制方法，其中所述语音控制设备通过语音接收单元接收所述语音信号，通过语音识别单元识别所述语音信号。10.如权利要求9所述的基于视觉唤醒的语音控制方法，其中所述语音接收单元为麦克风。
【专利摘要】本发明公开了一种基于视觉唤醒的语音控制方法，用于唤醒语音控制设备以使该语音控制设备对其接收的语音信号做出回复。本发明的语音控制方法包括语音控制设备接收到至少部分的语音信号后，启动安装在其上的图像接收单元；图像接收单元获取图像并传送到图像识别单元；图像识别单元识别图像，当在图像中检测到视线朝向该语音控制设备的人脸时，语音控制设备被唤醒以识别语音信号。本发明通过搜索视线朝向该语音控制设备的人脸的视觉唤醒功能来唤醒语音识别单元，更符合使用者的日常语音交互习惯，使用更为方便、智能。
【IPC分类】G10L15/22, G06F3/01
【公开号】CN105204628
【申请号】CN201510551221
【发明人】涂悦
【申请人】涂悦
【公开日】2015年12月30日
【申请日】2015年9月1日

完整全部详细技术资料下载

当前第2页1 2