一种人机交互控制方法、对讲呼叫方法及相关装置与流程

文档序号：23342829发布日期：2020-12-18 16:40阅读：223来源：国知局

本申请涉及音视频算法技术以及印制电路板技术领域，特别涉及一种人机交互控制方法、对讲呼叫方法及相关装置。

背景技术：

现有的对讲系统中，以楼宇对讲系统为例，通常在大门位置设置有语音收集装置，通过该语音收集装置可以收集门前的人的语音信息，然后将语音收集装置与预设用户家里的对讲装置相连通，使得门前的人可以与该用户进行对话，在确认门前的人的身份后，可以进行开门放行。

然而现有技术中，通常需要在语音收集装置设置按键区域，通过按键区域输入指令，然后再与预设用户家里的对讲装置相连通，从而导致楼宇对讲系统的智能化不高。

技术实现要素：

本申请提供一种一种人机交互控制方法、对讲呼叫方法及相关装置，以解决现有技术中控制交互不够智能有效的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种人机交互控制方法，所述人机交互控制方法包括：

判断是否检测到语音信息；

如果检测到语音信息，通过摄像装置检测在设定区域内是否有人体信息；

如果所述设定区域内有人体信息，判断所述语音信息是否为所述人体信息对应的人员发出；

如果所述语音信息是所述人员发出，对所述语音信息进行识别成语音指令并响应所述指令。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种对讲呼叫方法，所述对讲呼叫方法包括：

判断是否检测到呼叫信息；

如果检测到呼叫信息，通过摄像装置检测在门禁区域内是否有人体信息；

如果所述门禁区域内有人体信息，判断所述呼叫信息是否为所述人体信息对应的人员发出；

如果所述呼叫信息是所述人员发出，对所述呼叫信息进行识别，确定当前呼叫的房间编号；

对所述房间编号对应的房间呼叫装置进行接通呼叫。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种人机交互控制装置，所述人机交互控制装置包括语音、人体检测模块、判断模块以及响应模块，

所述语音检测模块用于判断是否检测到语音信息；

所述人体检测模块用于在所述语音检测模块检测到语音信息时，通过摄像装置检测在设定区域内是否有人体信息；

所述判断模块用于在所述设定区域内有人体信息时，判断所述语音信息是否为所述人体信息对应的人员发出；

所述响应模块用于在所述语音信息是所述人员发出时，对所述语音信息进行识别成语音指令并响应所述指令。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种对讲呼叫装置，所述对讲呼叫装置包括语音、人体检测模块、判断模块以及接通呼叫模块

所述语音检测模块用于判断是否检测到呼叫信息；

所述人体检测模块用于在所述语音检测模块检测到呼叫信息时，通过摄像装置检测在门禁区域内是否有人体信息；

所述判断模块用于在所述门禁区域内有人体信息时，判断所述呼叫信息是否为所述人体信息对应的人员发出；

所述响应模块用于在所述呼叫信息是所述人员发出时，对所述呼叫信息进行识别，确定当前呼叫的房间编号，并对所述房间编号对应的房间呼叫装置进行接通呼叫。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种智能装置，所述智能终端包括：相互藕接的控制电路、处理器及存储器，其中，

所述存储器用于存储实现如前文所述的人机交互控制方法或前文所述的对讲呼叫方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种存储装置，所述存储装置存储有程序数据，所述程序数据能够被执行以实现如前文所述的人机交互控制方法或前文所述的对讲呼叫方法的程序指令。

区别于现有技术，本申请提供了一种人机交互控制方法、对讲呼叫方法及相关装置。采用语音信息和图像信息进行协同检测，从而可以更加准确的确认是由有人员发出语音信息，然后通过提取语音信息中的关键词，从而可以使得设备自动响应该关键词所对应的语音指令，从而可以提高设备的智能化，同时可以减小设备的计算量且降低设备的功耗。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请提供的一种人机交互控制方法一实施例的流程示意图；

图2是本申请提供的一种人机交互控制方法另一实施例的流程示意图；

图3是图2所示步骤s210具体流程示意图；

图4是图2所示步骤s220具体流程示意图；

图5是图2所示步骤s230中一实施例的具体流程示意图；

图6是本申请提供的一种对讲呼叫方法一实施例的流程示意图；

图7是本申请提供的一种人机交互控制装置一实施例的结构示意图；

图8是本申请提供的一种对讲呼叫装置一实施例的结构示意图；

图9是本申请提供的一种智能终端一实施例的结构示意图；

图10是本申请提供的一种存储装置一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1，其中图1是本申请提供的一种人机交互控制方法一实施例的流程示意图。

该人机交互控制方法具体包括如下步骤：

s110：判断是否检测到语音信息。

本步骤中，可以通过语音检测装置对设定范围内的声音进行采集。从而可以获取到样本声音信息。然后对该样本声音信息进行检测，从而确认是否为由人发出的语音信息。此步骤的目的在于，减少环境声音的干扰。

当对设定范围内的声音进行采集时，可以采用预设的采样频率和采样间隔进行采集。

其中，采样频率就是单位时间采样的音频数据个数，比如8k采样频率为单位时间内采样8k个pcm(pulsecodemodulation,脉冲编码调制)个数，常见的采样频率有8k，16k，32k，44,1k以及48k等，单位为赫兹(hz)。其中，pcm就是一个音频数据点，原始的音频数据是一个连续信号，需要通过单位时间内采集多个离散的时间点才能用电脑进行数字化表示。

采样间隔则主要是指为了减少持续的数据采样，每间隔一定时间进行数据采样。其中，进行数据采样时的可以安装上述的采样频率进行采样。

本实施例中，可以采用一定的采样间隔以及较低的采样频率进行声音采样，即，对于采样间隔可以设置为适当的时间，例如可以设置为5秒、10秒或者其他的时间以保证能够及时检测到声音的同时降低频繁的检测；对于采样频率可以在刚开始检测是否有声音时采样较低的采样频率，以减少检测算法的开销(当然在同样的条件下对检测的正确性可能会有一点影响)。因此，通过减少采样检测间隔和样本采集频率，从而可以降低设备的功耗，降低设备的内存需求；同时也可以使得对是否检测到语音信息的识别计算可以相对简单，便于迅速对样本声音信息进行识别判断，从而可以快速准确的判断出该样本信息中是否包括语音信息。

s120：如果检测到语音信息，通过摄像装置检测在设定区域内是否有人体信息。

当检测到语音信息，则进一步通过摄像装置检测在设定区域内是否有人体信息。其中，可以通过运动检测方法、人脸检测方法、红外光人体检测方法以及三维立体检测方法中的至少一种检测该设定区域内是否有人体信息。

本步骤的中，通过摄像装置检测在设定区域内是否有人体信息，具体在于，通过摄像装置对设定区域进行图像采集，从而获取样本图像信息，然后对该样本图像信息进行检测，从而确定该样本图像信息中是否有人。

同样的，本步骤中，同样可以采用较低的频率对设定区域进行图像采集，其中，可选的获取样本图像信息的间隔时间可以设置为与第一预设时间相同。同样的，采用此种方案，也可以降低设备的功耗，降低设备的内存需求；同时，也可以使得对是否有人体信息的判断计算相对简单。进一步的，本步骤中还可以采用较低的帧率获取该样本图像信息，也可以降低设备的功耗，降低设备的内存需求。比如若摄像装置的原始帧率是25fps(framespersecond，每秒传输帧数)，可以按照12fps或6fps等低于其原始帧率的帧率进行检测，以降低初始检测的计算开销，一旦检测并确认相关数据后，根据紧缺型的要求就可以开启满帧率的处理计算。

s130：如果设定区域内有人体信息，判断语音信息是否为人体信息对应的人员发出。

当完成样本图像信息采集，并确认到该设定区域中有人体信息时(即确认到该设定区域中有人时)，则进一步判断出该语言信息是否是由人员发出。

本步骤中，可以通过前文所述的语音检测装置和摄像装置相配合，从而确认语言信息是否是由人员发出。

可以通过语音检测装置进一步进行声音采集，然后摄像装置可以同步进行图像采集。然后通过获取的样本声音信息中语音信息和样本图像信息进行对比，从而可以判断该语音是否是由该人员发出的。

具体的，本步骤中，可以对检测到的样本图像信息进行识别，从而获取人员的唇语信息(或者唇部运行信息)；通过该样本声音信息中语音信息和该样本图像信息获取的人选的唇语信息进行匹配。

如果该语音信息与该唇语信息相匹配则说明该语音信息是由该人员发出的；如果该语音信息与该唇语信息不匹配，则说明语音信息不是由该人员发出的。

其中，在语音检测装置进一步进行声音采集和摄像装置同步进行图像采集之前，还可以对该设定区域内的人员进行语音提示，提示人员发出语音。以便于进行声音采集和图像采集的同步采集。

s140：如果语音信息是人员发出，对语音信息进行识别成语音指令并响应指令。

当判断出该语音信息是由人员发出的时候，则可以对语音信息进行进一步识别，从而获取该语音信息中的获取语音指令，并且对该语音指令进行响应。

本步骤中，可以对该语音信息的关键词进行提取，进而可以响应该关键词所对应的语音指令。

其中，响应指令可以是某一设备自身响应该语音指令，例如，可以是照明设备响应关键词“开灯”所对应的语音指令，从而进行开灯；同时也可以是某一设备通过响应该语音指令与其他的设备进行交互，例如，在楼宇对讲系统中，在楼宇大门处的设备可以相应“接通xxx楼xxx室”或者“接通xxx室”的语音指令，使得该楼宇大门处的设备与xxx楼xxx室或者xxx室中的对讲设备进行连接，从而可以使得楼宇大门处的人员可以与xxx楼xxx室或者xxx室中的用户进行语音和/或视频对话。

因此，通过采用语音信息和图像信息进行协同检测，从而可以更加准确的确认是由有人员发出语音信息，然后通过提取语音信息中的关键词，从而可以使得设备自动响应该关键词所对应的语音指令，从而可以提高设备的智能化，同时可以减小设备的计算量且降低设备的功耗。

请参阅图2，图2是本申请提供的一种人机交互控制方法另一实施例的流程示意图。本步骤中，该人机交互控制方法具体包括如下步骤：

s210：判断是否检测到语音信息。

同样的，本步骤中，采用语音检测装置对环境声音进行检测。

其中，同样的，可以通过语音检测装置对一定范围内的声音进行采集。从而可以获取到样本声音信息。然后对该样本声音信息进行检测，从而确认是不由人发出的语音信息。

此步骤的目的在于，减少环境声音的干扰。其中，可以每间隔第一预设时间从而对外界声音进行采样，其中对外界声音采样的时间可以是第二预设时间，其中第一预设时间可以是1秒、2秒、或者5秒或者其他的时间，第二预设时间可以根据实际情况进行设定。

本实施例中，可以采用较低的采样频率进行声音采样，即，第一预设时间可以设置为较长的时间，例如可以设置为5分钟、10分钟或者其他的时间。因此，通过减少样本采集频率，从而可以降低设备的功耗，降低设备的内存需求；同时也可以使得对是否检测到语音信息的识别计算可以相对简单，便于迅速对样本声音信息进行识别判断，从而可以快速准确的判断出该样本信息中是否包括语音信息。

需要理解的是，本步骤中，请参阅图3，语音检测装置对环境声音进行检测还包括如下步骤:

s211:开启语音检测设备。

本步骤中，语音检测设备可以包括麦克风。其中，麦克风可以处于常开状态，且在该常开状态下均可以进行声音采集。

或者在其他的实施中，麦克风可以进行间隔式的开启或者关闭。例如可以每间隔预设的时间而对外界声音进行采集。

s212:对外界声音进行采集。

本步骤中，通过麦克风对外界声音进行采集，从而可以获得如前文所述的样本声音信息。同样的，当进行样本声音信息采集时，可以采用较低的采样频率(具体请参阅前文)进行采集。

可选的，在步骤s211之后，且在步骤s212对外界声音进行采集之前，还可以通过语音增强算法对语音进行增强处理，从而可以使得采集到的样本声音信息更加清晰易识别。

s220：如果检测到语音信息，通过摄像装置检测在设定区域内是否有人体信息。

当完成步骤s210判断是否检测到语音信息后，若识别到样本声音信息中包括语音信息，则进一步通过摄像装置检测在设定区域内是否有人体信息。

本步骤中的检测步骤可以参阅前文所述的步骤s120，在此不做限定。

其中，本步骤与步骤s120的区别在于，本步骤中具体包括如下步骤，请参阅图4：

s221：开启摄像装置。

本步骤中，当检测到样本声音信息中包括语音信息时，则可以通过控制器控制摄像装置开启；而当检测到样本声音信息中包括语音信息时，则并不会控制摄像装置开启，此时摄像装置可以处于关闭装置。

因此，本步骤中，仅在检测到语音信息后才会启动摄像装置进行工作，从而可以降低设备的功耗。

s222：通过摄像装置对设定区域进行检测。

本步骤中，摄像装置可以包括一个或者至少两个摄像头，摄像装置可以通过该摄像头对设定区域的位置件拍摄从而可以获得该设定位置中的样本图像信息。

其中，摄像装置可以通过运动检测、人脸检测、人体检测、红外光人体检测或者三维立体检测中的至少一种方式对该设定的区域进行检测。

s223：确定在设定区域内是否有人体信息。

当在步骤s222中，完成获取设定位置中的样本图像信息后，则进一步对样本图像信息进行确认，从而可以判断出该设定区域内是否有人。

需要理解的是，如果检测到的样本声音信息中不包括语音信息，则并不会进行后续的作业，此时，则返回到步骤s210中对外界声音检测，以确定是否检测到语音信息。

s230：如果设定区域内有人体信息，判断语音信息是否为人体信息对应的人员发出。

本步骤，可以采用多种方法判断语音信息是否为人体信息对应的人员发出。

方法一

其中，方法一具体包括如下内容：

1、根据语音信息通过声源定位算法确定语音信息发声源区域。

本步骤中，可以通过检测到的语音信息对声源进行定位，从而确定发出语音信息声源区域。

2、通过摄像装置中检测到的人体信息确定人员的区域信息。

然后，可以通过摄像装置确定检测到的该人员的具体位置信息。其中，可以通过多个摄像头进行匹配，从而可以使得检测到的人员的位置信息更加准确。

3、判断声源区域与人员的区域信息是否匹配。

当获取到声源区域和人员的区域信息，可以确认声源区域和人员的区域信息是否相匹配。在这里声源区域和人员的区域信息是否相匹配是指：声源区域和人员的区域信息是否一致，或者二者的间距在预设的范围内。

4、如果匹配，确定语音信息为人员发出。

当声源区域和人员的区域信息相匹配时，则可以说明此语音信息是由该人员发出的，此时可以继续进入步骤s240中；若声源区域和人员的区域信息不匹配时，则可以说明语音信息不是由该人员发出的，此时，可以提示该人员发出语音，且语音检测装置进一步采集外界声音、摄像装置进一步对该人员所在的设定区域进行图像采集，然后再通过采集到的语音信息和图像采获取声源区域与人员的区域信息，此时若该声源区域与人员的区域信息则进入步骤s240；或还是不匹配，则返回到步骤s210。

方法二

方法二具体包括如下步骤：

如果有人体信息，则通过摄像装置拍摄的视频对人员进行唇语识别，确定人员的唇语动作与语音信息是否匹配。

请参阅图5。其中，对唇语进行识别包括如下步骤：

s231：对人员的唇部进行检查。

本步骤中，摄像装置首先用于对设定区域中进行检测，从而确定该设定区域中是否有人，如果有人，则摄像装置则进一步对该人员的唇部进行拍摄。

s232：确认是否可以检测到人员的唇部。

其中，由于人员的唇部由于距离或者角度的问题，从而导致摄像装置并不一定能够拍摄到人员的唇部，因此需要进行检测识别，以确保检测到人员的唇部的清晰的图像信息。

其中，当不能检测到人员的唇部的图像信息时，可以通过语音播报的方式提醒人员向靠近摄像装置的方向移动，同时将人员的嘴唇正对该摄像装置，从确保获取的唇部的图像信息清新易识别。

如果能够检测到人员的唇部的清晰的图像信息，则进一步转到步骤s233。

s233：对人员进行唇部检测。

当摄像装置检测到人员的唇部的清晰的图像信息，则可以进一步的通过该图像信息，对人员进行唇语识别或者对人员的唇部运动进行识别，从而得到的人员唇语信息或者人员的唇部运动信息。

其中，如果人员唇语信息或者人员的唇部运动信息是清晰易识别则进一步转入步骤s234。

如果人员唇语信息或者人员的唇部运动信息不是清晰易识别的，则可以进一步通过语音播报的方式提醒人员进一步调整人员相对摄像装置的位置，直至获取到清晰易识别的人员唇语信息或者人员的唇部运动信息为止。

s234：获取人员语音信息。

当检测到清晰易识别的人员唇语信息或者人员的唇部运动时，可以通过或者人员语音信息。

此时需要对语音检测设备的类型进行检查，其中，对语音检测设备的类型进行检查还包括后续步骤：

s235：判断语音检测设备是否为指向性麦克风或麦克风阵列。

如果语音检测设备是指向性麦克风或麦克风阵列，则转向步骤s236：可以根据人脸或者人体位置确定声源总体方向并定位声源具体方向，基于声源方向构建特定语音波束方向。从而可以对所检测声音信息中的语音信息以外的声音进行滤除或者屏蔽，从而可以确保获取的语音信息清晰且易识别。

如果语音检测设备不是指向性麦克风或麦克风阵列，则转向步骤s237：进行正常声音采集。即，通过该语音检测设备进行正常的外界声音采集。

s240：如果语音信息是人员发出，对语音信息进行识别成语音指令并响应指令。

本步骤与前文所述的步骤s140相同，在此不作赘述。

基于同样的发明构思，本申请还提出了一种对讲呼叫方法，请参阅图6。其中对讲呼叫方法具体包括如下步骤：

s310：判断是否检测到呼叫信息。

本步骤中，通可以采用语音检测装置对外界的声音进行检测，从而获取样本声音信息，并且对该样本声音信息进行识别，从而确认该样本声音信息中是否包括呼叫信息。其中呼叫信息可以包括楼宇中的房间号。例如“xxx室”或者“xxx楼xxx室”等。

本实施中，判断是否检测到呼叫信息，可以与前文所述的步骤s110或者步骤s210中的判断是否检测到语音信息的方法相同，在此不作赘述。

s320：如果检测到呼叫信息，通过摄像装置检测在门禁区域内是否有人体信息。

当检测到呼叫信息后，则进一步通过摄像装置检测在门禁区域内是否有人体信息。

同样的，本步骤中的具体方法，同样可以与前文所述的步骤s120或者步骤s220中的方法相同。

s330：如果门禁区域内有人体信息，判断呼叫信息是否为人体信息对应的人员发出。

如果门禁区域内有人体信息则判断呼叫信息是否为人体信息对应的人员发出。

同样的，本步骤的具体方法与前文所述的步骤s130或者步骤s230中的方法相同。

s340：如果呼叫信息是人员发出，对呼叫信息进行识别，确定当前呼叫的房间编号。

当确认呼叫信息是人员发出时，则可以对该呼叫信息进行识别，从而确认出当前呼叫的房间编号。例如可以通过对呼叫信息中提取关键词，从而获取房间编号，例如，当该人员的呼叫信息包括“呼叫xxx室”或者“接通xxx”，则可以确认当前呼叫的房间编号为xxx。

s350：对房间编号对应的房间呼叫装置进行接通呼叫。

当获取房间编号后，则对该房间编号对应的房间呼叫装置进行接通呼叫，以便门禁区域内的人员可以直接与该房间编号对应的房间内的用户进行视频和/或语音交流。

基于同样的发明构思，本申请还提出了一种人机交互控制装置。

请参阅图7，其中人机交互控制装置40包括括语音检测模块410、人体检测模块420、判断模块430以及响应模块440。其中，语音检测模块410、人体检测模块420、判断模块430以及响应模块440相耦接，从而可以用实现如前文所述的人机交互控制方法。

具体的，语音检测模块410包括如前文所述的语音检测装置，从而用于判断是否检测到语音信息。

语音检测模块410可以对一定范围内的声音进行采集。从而可以获取到样本声音信息。然后对该样本声音信息进行检测，从而确认是不由人发出的语音信息。

其中，语音检测模块410可以每间隔第一预设时间从而对环境中的声音进行采样，其中对外界声音采样的时间可以是第二预设时间，其中第一预设时间可以是1秒、2秒、或者5秒或者其他的时间，第二预设时间可以根据实际情况进行设定。

本实施例中，语音检测模块410可以采用较低的采样频率进行声音采样，即，第一预设时间可以设置为较长的时间，例如可以设置为5分钟、10分钟或者其他的时间。因此，通过减少样本采集频率，从而可以降低设备的功耗，降低设备的内存需求；同时也可以使得对是否检测到语音信息的识别计算可以相对简单，便于迅速对样本声音信息进行识别判断，从而可以快速准确的判断出该样本信息中是否包括语音信息。

人体检测模块420用于在语音检测模块410检测到语音信息时，通过摄像装置检测在设定区域内是否有人体信息。

当语音检测模块410检测到语音信息时，人体检测模块420则进一步通过摄像装置检测在设定区域内是否有人体信息。其中，摄像装置可以通过运动检测方法、人脸检测方法、红外光人体检测方法以及三维立体检测方法中的至少一种检测该设定区域内是否有人体信息。

其中，通过摄像装置检测在设定区域内是否有人体信息，具体在于，通过摄像装置对设定区域进行图像采集，从而获取样本图像信息，然后对该样本图像信息进行检测，从而确定该样本图像信息中是否有人。

同样的，人体检测模块420可以通过摄像装置采用较低的频率对设定区域进行图像采集，其中，可选的获取样本图像信息的间隔时间可以设置为与第一预设时间相同。同样的，采用此种方案，也可以降低设备的功耗，降低设备的内存需求；同时，也可以使得对是否有人体信息的判断计算相对简单。进一步的，本方案中摄像装置还可以采用较低的帧率获取该样本图像信息，也可以降低设备的功耗，降低设备的内存需求。

判断模块430用于在设定区域内有人体信息时，判断语音信息是否为人体信息对应的人员发出。

人体检测模块420当完成样本图像信息采集，并确认到该设定区域中有人体信息时(即确认到该设定区域中有人时)，则可以通过判断模块430判断出该语言信息是否是由人员发出。

具体的，语音检测模块410进一步进行声音采集获取样本声音信息，人体检测模块420通过摄像装置同步进行图像采集获取样本图像信息。判断模块430则可以通过获取的样本声音信息中语音信息和样本图像信息进行对比，进而可以判断该语音是否是由该人员发出的。

其中，判断模块430可以对检测到的样本图像信息进行识别，从而获取人员的唇语信息(或者唇部运行信息)；通过该样本声音信息中语音信息和该样本图像信息获取的人选的唇语信息进行匹配。

进一步的，人机交互控制装置40还可以包括语音提示模块，在语音检测模块410进行声音采集和人体检测模块420通过摄像装置同步进行图像采集之前，语音提示模块还可以对该设定区域内的人员进行语音提示，提示人员发出语音。以便于进行声音采集和图像采集的同步采集。

响应模块440用于在判断模块430判断出语音信息是人员发出时，对语音信息进行识别成语音指令并响应指令。

本步骤中，响应模块440可以是人机交互控制装置40功能模块，其中，该功能模块可以根据该用于语音指令实现某种功能。例如响应模块440可以是照明模块，即响应模块440可以响应与语音指令进行开灯照明或者关灯停止照明。

基于同样的发明构思，本申请还提出了一种对讲呼叫装置，请参阅图8。

对讲呼叫装置50包括语音检测模块510、人体检测模块520、判断模块530以及接通呼叫模块540。

语音检测模块510用于判断是否检测到呼叫信息；其中语音检测模块510可以与前文所述语音检测模块410相同。

人体检测模块520用于在语音检测模块510检测到呼叫信息时，通过摄像装置检测在门禁区域内是否有人体信息。其中，人体检测模块520可以与前文所述人体检测模块420相同。

判断模块530用于在门禁区域内有人体信息时，判断呼叫信息是否为人体信息对应的人员发出。其中，判断模块530同样可以与前文所述判断模块430相同。

接通呼叫模块540用于在呼叫信息是人员发出时，对呼叫信息进行识别，确定当前呼叫的房间编号，并对房间编号对应的房间呼叫装置进行接通呼叫。其中，接通呼叫模块540可以是如前文所述的响应模块440中的一种。

基于同样的发明构思，本申请还提出了一种智能终端，请参阅图9。

智能终端60包括相互耦接控制电路601、存储器602和处理器603，控制电路601用于接收使用者的控制指令，存储器602用于存储程序数据，处理器603执行该程序数据，用于实现如前文所述的人机交互控制方法或者对讲呼叫方法。

基于同样的发明构思，本申请还提出了一种存储装置，请参阅图10，图10是本申请提供的存储装置一实施例的结构示意图。存储装置70中存储有程序数据71，程序数据71可以为程序或指令，该程序数据能够被执行以实现上述任一人机交互控制方法或者对讲呼叫方法。

在一个实施例中，具有存储功能的装置70可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，处理器或存储器的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个处理器与存储器实现的功能可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或连接可以是通过一些接口，装置或单元的间接耦合或连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供了一种人机交互控制方法、对讲呼叫方法及相关装置。采用语音信息和图像信息进行协同检测，从而可以更加准确的确认是由有人员发出语音信息，然后通过提取语音信息中的关键词，从而可以使得设备自动响应该关键词所对应的语音指令，从而可以提高设备的智能化，同时可以减小设备的计算量且降低设备的功耗。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林聚财;殷俊
技术所有人：浙江大华技术股份有限公司
我是此专利的发明人

上一篇：门限语言匹配方法、装置、存储介质及智能设备与流程
上一篇：一种降噪防漏耐用的脉冲冲牙器泵体构件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、孙老师：1.机机器人技术 2.机器视觉 3.网络控制系统
如您是高校老师，可以点此联系我们加入专家库。