一种人机交互装置及方法_2

文档序号：9631330阅读：来源：国知局

是噪声，并在辨识出噪声时，停止摄像头工作，以提高设备利用率。
[0048]相应地，上述人机交互装置还可以根据用户指令保留麦克风进行语音信号的获取，而通知摄像头取消唇读图像的获取。从而适应特殊场景中，用户对识别方式的选择，提高用户体验感。
[0049]下面结合具体应用场景说明上述方法的实现过程。
[0050]例如:用户使用一个头戴式耳麦与智能设备进行语音交互，由于机器对人的语音识别在嘈杂环境下或用户语音语调有问题时会明显降低，为提高对语音的识别率，可以利用对唇读图像的识别进一步提高语音识别的准确度，便于机器更好理解用户的语言表达，执行用户的语音指令。具体地，人机交互过程如下:
[0051]步骤1:麦克风获取语音信号，并在有有效的语音输入时，启动摄像头工作；
[0052]麦克风主要是采用声压传感器来探测声源并把自然语音转换成电信号。为了区别背景音，可设置一个声压传感器电信号的门限值，用以判定是否有有效的语音输入。当转换后的声压传感器电信号大于或者不小于设定门限值，则判定有有效的语音输入时，通知摄像头启动，开始正常工作。
[0053]并且当麦克风检测到有有效的语音输入时，才通知摄像头工作，获取唇读图像，这样操作可以降低设备功耗的。
[0054]步骤2:摄像头获取唇读图像。
[0055]通常的获取唇读图像是在图像序列中先进行人脸识别，确定唇部位置，再获取唇动数据。实际应用中，优选采用具有指向性的麦克风，且摄像头内置在麦克风内(或麦克风内置在摄像头内)，例如头戴式耳麦，摄像头位于麦克风处，用户使用时，摄像头直接对准用户唇部，这样方便获取唇部图像。
[0056]步骤3:对获取的唇读图像形成的序列进行处理，得到唇动特征数据。
[0057]主要是对于唇读图像形成的序列进行唇部定位与跟踪，唇动特征提取，最后将唇动特征数据输出到融合识别模块。
[0058]另外通过用户配置，可设置唇读处理的反馈机制。例如在嘈杂环境下，或交叉讲话者情景下，麦克风在用户没有说话时如果获取了其他的声音信号，而导致摄像头启动获取唇部图像，但此时唇读图像进行处理时不会提取到唇动特征。此时，人机交互装置则可通知摄像头、语音处理模块及唇读处理模块、融合识别模块停止工作，仅使麦克风处于侦听状
ο
[0059]在某些特殊场景，还可设置成取消唇读处理的反馈机制，例如在摄像头不能有效捕获唇读数据时，仅通过语音进行人机交互，以避免唇读识别结果反而对语音识别进行干扰。或者针对特殊场景或特殊人群，还可设置仅通过唇读进行人机交互。
[0060]步骤4:对获取的语音进行处理，得到语音特征数据。
[0061]要说明的是，由于人机交互装置中，对唇读图像的处理，以及对语音的处理，是由两个相互独立的部分分别进行操作的，故上述步骤3和步骤4的先后顺序可以调整，也可以同时。
[0062]步骤5:融合识别模块对语音特征数据和唇动特征数据进行融合识别。
[0063]唇读和语音是互补的两个通道，例如在语音信号通道难以区分的Μ和/η/的单元音在视觉上是可以区分的；在视觉上难以区分的/b/、/p/和/m/单元音，在语音信号上是可以区分的。特别在噪音环境和多话者条件下，借助唇读图像的辅助信息能明显提高机器的语音识别率。采用现有唇读和语音的融合识别处理技术，对唇读识别和语音识别结果不一致的进行修正处理。当两个信道信息不一致时，利用训练过的识别库可判别哪个信道信息更可靠，从而提高语音识别率。
[0064]而上述方法中所涉及的人机交互装置还可以装配在可穿戴设备(如智能眼镜、智能头盔)、便携式设备以及智能终端、智能家电设备，以及安防监控等设备中。
[0065]实施例2
[0066]本实施例提供一种人机交互方法，该方法包括如下操作:
[0067]人机交互装置中的麦克风获取语音信号，摄像头实时获取唇读图像；
[0068]人机交互装置对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；
[0069]人机交互装置对上述唇动特征数据和从语音信号中提取的语音特征数据进行融合，识别输入的语音，其中，麦克风获取到语音信号，但从摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时，控制麦克风进入侦听状态，控制摄像头停止工作。
[0070]优选方案中，在控制麦克风进入侦听状态，控制摄像头停止工作后，麦克风还会检测是否有有效的语音输入，如果检测到有效的语音输入，则会进行工作状态，并启动摄像头开始工作。
[0071]实施例3
[0072]本实施例提供一种人机交互装置，该交互装置如图1所示，包括如下各部分。
[0073]麦克风，获取语音信号，并在检测到有效的语音输入时，启动摄像头。
[0074]具体地，麦克风探测音源并将自然语音转换成电压或电流信号，当电压或电流信号大于或者不小于设定门限值时，即认为检测到了有效的语音输入。
[0075]摄像头，按照所述麦克风的控制，实时获取唇读图像；
[0076]具体地，接收麦克风的控制信号，当麦克风探测到有效声源时同步对唇部图像进行摄像；
[0077]唇读图像处理模块，对所获取的唇读图像形成的序列进行处理，得到唇动特征数据；
[0078]具体地，对唇读图像进行唇部定位、跟踪，提取唇动特征数据；
[0079]语音处理模块，对语音信号进行处理，得到语音特征数据。
[0080]融合识别模块，对唇动特征数据和语音特征数据进行融合，识别输入的语音。
[0081]具体地，利用训练过的模型库对于唇动特征数据和语音特征数据进行融合识别。
[0082]另外，上述装置还可以采用唇读的反馈机制，此时需要增加控制模块，该模块在麦克风获取到语音信号，但唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据(也可认为是从唇读图像形成的序列中无法提取到唇动特征数据)时，控制麦克风进入侦听状态，控制摄像头停止工作。同时还控制唇读图像处理模块、语音处理模块及融合识别模块也停止工作，从而降低装置的功耗。
[0083]优选地，麦克风进入侦听状态后，可以检测是否有有效的语音输入，如果检测到有效的语音输入，则进入工作状态，并启动摄像头、唇读图像处理模块、语音处理模块及融合识别模块正常工作。此种方案，不仅提高了噪声环境下的语音识别的可靠性，并且降低了设备功耗。
[0084]另外，上述控制模块，还可以根据用户指令保留麦克风进行语音信号的获取，并通知摄像头取消唇读图像的获取。也就是说，控制模块可以根据用户指令来选择语音识别方式，例如单独采用麦克风进行语音识别，也可单独采用摄像头进行语音识别，也可以两种方式同时使用。
[0085]实际使用中，上述装置可内置于如下任一设备中:
[0086]可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
[0087]其中，麦克风和摄像头优选地配置在设备同一侧，例如将摄像头装配在头戴式耳麦的麦克风处，其他各部分可装配在智能机器设备上。
[0088]实施例4
[0089]本实施例提供一种人机交互装置，包括如下各部分。
[0090]麦克风，获取语音信号。
[0091]摄像头，实时获取唇读图像；
[0092]唇读图像处理模块，

完整全部详细技术资料下载

当前第2页1 2 3