终端的制作方法

文档序号:18874439发布日期:2019-10-15 17:34阅读:167来源:国知局
终端的制作方法

本公开涉及,尤其涉及终端。



背景技术:

图像识别技术,是指对摄像头采集的图像进行对象识别,以识别图像中的人脸、手臂、或手指等。例如,体感游戏设备可以识别手臂与手掌的运动,控制游戏界面;基于人脸支付技术的设备可以完成人脸识别,确认支付者身份,完成支付功能。

相关技术中,现有的图像识别场景,通常是单人场景,即只有一人出现在图像中;例如,体感游戏设备需要操作者站到摄像头前方固定的位置,周围不能有任何障碍物,才可以正常识别和操控;人脸支付时,人脸需要出现在摄像头前方固定的位置,才能识别支付。但是,在诸如火车站、超市或客厅等多人场景中,图像识别设备仅通过图像识别,无法准确获知图像中哪一位是操作人,导致图像识别速度较慢,甚至无法完成游戏操控、或者支付等功能,严重影响用户体验。



技术实现要素:

为克服相关技术中存在的问题,本公开实施例提供一种终端。所述技术方案如下:

根据本公开实施例,提供一种终端,包括:摄像头、音频组件及处理器,其中:

所述摄像头用于拍摄第一图像;

所述音频组件用于接收音频信号;

所述处理器,用于若在所述摄像头拍摄第一图像的同时,所述音频组件接收到与预设音频特征匹配的音频信号,则对所述音频信号的声源进行定位,确定所述声源相对于所述终端的声源方位,在所述第一图像中确定与所述声源方位对应的图像识别区域;在所述第一图像的所述图像识别区域中识别目标对象。

本公开的实施例提供的技术方案可以包括以下有益效果:该技术方案通过对目标对象发出的音频信号进行声源定位确定目标对象相对于终端的声源方位,根据声源方位确定目标对象在第一图像中出现的大致区域,即图像识别区域,进而仅对第一图像中的图像识别区域进行图像识别即可快速准确地识别到目标对象,从而能够对多人场景中的操作者进行准确识别,克服相关技术中无法对多人场景中的操作者进行准确识别的问题,同时,无需对整帧图像进行图像识别,能够提高图像识别的速度和准确性,提高用户体验。

在一个实施例中,所述处理器当在所述图像识别区域中识别到所述目标对象时,确定所述目标对象在所述第一图像中的像素位置,调用所述摄像头拍摄第二图像,其中,所述第二图像为所述第一图像的下一帧图像,根据所述目标对象在所述第一图像中的像素位置,在所述第二图像中确定以所述像素位置为对称中心的预测区域,在所述第二图像的所述预测区域中识别所述目标对象。

在一个实施例中,所述处理器判断所述声源方位是否处于所述摄像头的可视范围内,当所述声源方位在所述摄像头的可视范围内时,在所述第一图像中确定与所述声源方位对应的图像识别区域。

在一个实施例中,所述音频组件包括:

线性麦克风阵列、或环形麦克风阵列;其中,所述线性麦克风阵列或环形麦克风阵列的语音识别范围,覆盖所述摄像头的可视范围。

在一个实施例中,所述预设音频特征包括:预设关键字、或预设节拍。

根据本公开实施例的第二方面,提供一种终端,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

若在所述终端调用摄像头拍摄第一图像的同时,所述终端的音频组件接收到与预设音频特征匹配的音频信号,则对所述音频信号的声源进行定位,确定所述声源相对于所述终端的声源方位;

在所述第一图像中确定与所述声源方位对应的图像识别区域;

在所述第一图像的所述图像识别区域中识别目标对象。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的终端的框图。

图2是根据一示例性实施例示出的图像识别方法的流程图。

图3是根据一示例性实施例示出的线性麦克风阵列和摄像头的工作范围示意图。

图4是根据一示例性实施例示出的图像识别方法的流程图。

图5是根据一示例性实施例示出的图像识别方法的流程图。

图6是根据一示例性实施例示出的终端的框图。

图7是根据一示例性实施例示出的终端的框图。

图8是根据一示例性实施例示出的终端的框图。

图9是根据一示例性实施例示出的终端的框图。

图10是根据一示例性实施例示出的终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供了一种终端,包括:摄像头、音频组件及处理器,其中:摄像头用于拍摄第一图像;音频组件用于接收音频信号;处理器,用于若在摄像头拍摄第一图像的同时,音频组件接收到与预设音频特征匹配的音频信号,则对音频信号的声源进行定位,确定声源相对于终端的声源方位,在第一图像中确定与声源方位对应的图像识别区域;在第一图像的图像识别区域中识别目标对象。上述技术方案通过对目标对象发出的音频信号进行声源定位确定目标对象相对于终端的声源方位,根据声源方位确定目标对象在第一图像中出现的大致区域,即图像识别区域,进而仅对第一图像中的图像识别区域进行图像识别即可快速准确地识别到目标对象,从而能够对多人场景中的操作者进行准确识别,克服相关技术中无法对多人场景中的操作者进行准确识别的问题,同时,无需对整帧图像进行图像识别,能够提高图像识别的速度和准确性,提高用户体验。

需要说明的是,本公开所涉及的终端可以包括智能手机、平板电脑、台式机、笔记本电脑、或可穿戴设备等电子设备。

基于上述分析,提出以下各具体实施例。

图1是根据一示例性实施例示出的一种终端的框图,如图1所示,该终端10包括:摄像头11、音频组件12及处理器13,其中:

所述摄像头11用于拍摄第一图像;

所述音频组件12用于接收音频信号;

所述处理器13,用于若在所述摄像头11拍摄第一图像的同时,所述音频组件12接收到与预设音频特征匹配的音频信号,则对所述音频信号的声源进行定位,确定所述声源相对于所述终端的声源方位,在所述第一图像中确定与所述声源方位对应的图像识别区域;在所述第一图像的所述图像识别区域中识别目标对象。

本公开的实施例提供的技术方案,通过对目标对象发出的音频信号进行声源定位确定目标对象相对于终端的声源方位,根据声源方位确定目标对象在第一图像中出现的大致区域,即图像识别区域,进而仅对第一图像中的图像识别区域进行图像识别,即可快速准确地识别到目标对象,从而实现能够对多人场景中的操作者进行准确识别,克服相关技术中无法对多人场景中的操作者进行准确识别的问题,同时,无需对整帧图像进行图像识别,能够提高图像识别的速度和准确性,提高用户体验。

在一个实施例中,所述处理器13当在所述图像识别区域中识别到所述目标对象时,确定所述目标对象在所述第一图像中的像素位置,调用所述摄像头拍摄第二图像,其中,所述第二图像为所述第一图像的下一帧图像,根据所述目标对象在所述第一图像中的像素位置,在所述第二图像中确定以所述像素位置为对称中心的预测区域,在所述第二图像的所述预测区域中识别所述目标对象。

在一个实施例中,所述处理器13判断所述声源方位是否处于所述摄像头的可视范围内,当所述声源方位在所述摄像头的可视范围内时,在所述第一图像中确定与所述声源方位对应的图像识别区域。

在一个实施例中,所述音频组件包括:

线性麦克风阵列、或环形麦克风阵列;其中,所述线性麦克风阵列或环形麦克风阵列的语音识别范围,覆盖所述摄像头的可视范围。

在一个实施例中,所述预设音频特征包括:预设关键字、或预设节拍。

图2是根据一示例性实施例示出的一种图像识别方法的流程图,该方法的执行主体可以为终端;如图2所示,该方法包括以下步骤201-203:

在步骤201中,若在终端调用摄像头拍摄第一图像的同时,终端的音频组件接收到与预设音频特征匹配的音频信号,则对音频信号的声源进行定位,确定声源相对于终端的声源方位。

示例的,终端的音频组件包括:线性麦克风阵列、或环形麦克风阵列;其中,线性麦克风阵列或环形麦克风阵列的语音识别范围,覆盖终端的摄像头的可视范围;参见图3示出的线性麦克风阵列和摄像头的工作范围示意图,摄像头的可视角度为90度,线性麦克风阵列以线性4麦克风阵列为例,线性麦克风阵列的语音识别范围为0度-180度范围,误差在±10度,增加麦克风的数量可以提高声源方位的定位精度。可选的,预设音频特征可以包括:预设关键字、或预设节拍;音频信号可以包括唤醒词、或声响。

示例的,当在终端调用摄像头拍摄第一图像的同时,终端的音频组件接收到音频信号时,判断音频信号的特征是否与预设音频特征匹配:当音频信号的特征与预设音频特征不匹配时,流程结束;当音频信号的特征与预设音频特征匹配时,调用声源定位算法对音频信号的声源进行定位,确定声源相对于终端的声源方位。

在步骤202中,在第一图像中确定与声源方位对应的图像识别区域。

示例的,第一图像是终端在接收到音频信号时拍摄的一帧图像。在确定音频信号的声源相对于终端的声源方位之后,根据声源方位在第一图像中确定与声源方位对应的图像识别区域。

在步骤203中,在第一图像的图像识别区域中识别目标对象。

示例的,在确定目标对象在第一图像中出现的大致区域即图像识别区域之后,调用图像识别算法仅对第一图像中的图像识别区域进行图像识别,而对第一图像中除图像识别区域之外的区域并不进行图像识别,从而快速准确地识别到目标对象。可选的,目标对象可以包括人脸、手臂或手指等。

本公开的实施例提供的技术方案,通过对目标对象发出的音频信号进行声源定位确定目标对象相对于终端的声源方位,根据声源方位确定目标对象在第一图像中出现的大致区域,即图像识别区域,进而仅对第一图像中的图像识别区域进行图像识别,即可快速准确地识别到目标对象,从而实现能够对多人场景中的操作者进行准确识别,克服相关技术中无法对多人场景中的操作者进行准确识别的问题,同时,无需对整帧图像进行图像识别,能够提高图像识别的速度和准确性,提高用户体验。

图4是根据一示例性实施例示出的一种图像识别方法的流程图;如图4所示,在图2所示实施例的基础上,本公开涉及的图像识别方法包括以下步骤401-404:

在步骤401中,若在终端调用摄像头拍摄第一图像的同时,终端的音频组件接收到与预设音频特征匹配的音频信号,则对音频信号的声源进行定位,确定声源相对于终端的声源方位。

在步骤402中,判断声源方位是否处于摄像头的可视范围内;当声源方位在摄像头的可视范围内时,转到步骤403;当声源方位不在摄像头的可视范围内时,流程结束。

示例的,参见图3示出的线性麦克风阵列和摄像头的工作范围示意图,由于声源B超出了摄像头的可视范围,因而判定声源B无效;而声源A处于摄像头的可视范围内,因而判定声源A有效。

在步骤403中,当声源方位在摄像头的可视范围内时,在第一图像中确定与声源方位对应的图像识别区域。

例如,图3中示出的声源A处于摄像头的可视范围内,在一帧图像中确定与声源A的声源方位对应的图像识别区域S;该一帧图像是终端在接收到音频信号时拍摄的图像。

在步骤404中,在第一图像的图像识别区域中识别目标对象。

本公开的实施例提供的技术方案,通过判断声源方位是否处于摄像头的可视范围内,确定声源的有效性,仅当声源方位在摄像头的可视范围内时才在第一图像中确定与声源方位对应的图像识别区域,避免无效处理过程,提高系统资源使用效率。

相关技术中由于图像识别算法在对摄像头采集图像中物体识别时,图像识别算法并不知道物体出现的位置,图像识别算法需要分析整帧图像才能识别物体,识别速度会降低很多,并且会占用更多系统运算资源。针对这一问题,图5提出了一种解决该问题的图像识别方法。图5是根据一示例性实施例示出的一种图像识别方法的流程图;如图5所示,在图2所示实施例的基础上,本公开涉及的图像识别方法包括以下步骤501-507:

在步骤501中,若在终端调用摄像头拍摄第一图像的同时,终端的音频组件接收到与预设音频特征匹配的音频信号,则对音频信号的声源进行定位,确定声源相对于终端的声源方位。

在步骤502中,在第一图像中确定与声源方位对应的图像识别区域。

在步骤503中,在第一图像的图像识别区域中识别目标对象。

在步骤504中,当在图像识别区域中识别到目标对象时,确定目标对象在第一图像中的像素位置。

在步骤505中,调用摄像头拍摄第二图像;其中,第二图像为第一图像的下一帧图像。

在步骤506中,根据目标对象在第一图像中的像素位置,在第二图像中确定以像素位置为对称中心的预测区域。

在步骤507中,在第二图像的预测区域中识别目标对象。

示例的,由于目标对象可能正在移动,因而在第一图像的图像识别区域中识别出目标对象之后,在对下一帧图像进行识别时,以目标对象在第一图像中的像素位置为基点,在第二图像中确定以像素位置为对称中心的预测区域,在基点附近的预测区域中识别目标对象,实现针对目标对象的跟踪识别。

示例的,当在第N帧图像中识别出目标对象时,确定目标对象在第N帧图像中的像素位置P0;在对第N+1帧图像进行识别时,以像素位置P0为基点,在第N+1帧图像中确定以像素位置P0为对称中心的预测区域,在像素位置P0附近的预测区域中识别目标对象,并确定目标对象在第N+1帧图像中的像素位置P1,若P1≠P0,则说明目标对象在运动;在对第N+2帧图像进行识别时,在像素位置P1附近的预测区域中识别目标对象;依次类推实现后续各帧图像的识别,从而实现对识别目标的跟踪定位,实现在多人出现的场景中只对特定目标进行图像识别并跟踪,有效节省图像识别计算量,只对每帧图像中局部区域进行识别,有效利用语音识别与图像识别各自的特点,为更多人性化交互产品的实现,奠定基础。

本公开的实施例提供的技术方案,通过对目标对象在第一图像中的像素位置进行分析,获取目标对象在第二图像中出现的预测区域,从而只需对第二图像的预测区域进行图像识别,即可快速准确地在第二图像中识别到目标对象,而无需对整帧图像进行图像识别,能够只对特定目标进行图像识别并跟踪,大幅提高图像识别的速度,降低图像识别计算量,节省系统运算资源。

下述为本公开装置实施例,可以用于执行本公开方法实施例。

图6是根据一示例性实施例示出的一种图像识别装置的框图;该装置可以采用各种方式来实施,例如在终端中实施装置的全部组件,或者,在终端侧以耦合的方式实施装置中的组件;该装置可以通过软件、硬件或者两者的结合实现上述本公开涉及的方法,如图6所示,该图像识别装置包括:声源定位模块601、图像识别区域确定模块602及第一识别模块603,其中:

声源定位模块601被配置为若在终端调用摄像头拍摄第一图像的同时,所述终端的音频组件接收到与预设音频特征匹配的音频信号,则对所述音频信号的声源进行定位,确定所述声源相对于所述终端的声源方位;

图像识别区域确定模块602被配置为在所述第一图像中确定与所述声源方位对应的图像识别区域;

第一识别模块603被配置为在所述第一图像的所述图像识别区域中识别目标对象。

本公开实施例提供的装置能够用于执行图2所示实施例的技术方案,其执行方式和有益效果类似,此处不再赘述。

在一种可能的实施方式中,如图7所示,图6示出的图像识别装置还可以包括:像素位置确定模块701、拍摄模块702、预测区域确定模块703及第二识别模块704,其中:

像素位置确定模块701被配置为当在所述图像识别区域中识别到所述目标对象时,确定所述目标对象在所述第一图像中的像素位置;

拍摄模块702被配置为调用所述摄像头拍摄第二图像;其中,所述第二图像为所述第一图像的下一帧图像;

预测区域确定模块703被配置为根据所述目标对象在所述第一图像中的像素位置,在所述第二图像中确定以所述像素位置为对称中心的预测区域;

第二识别模块704被配置为在所述第二图像的所述预测区域中识别所述目标对象。

在一种可能的实施方式中,如图8所示,图6示出的图像识别装置还可以包括:判断模块801,被配置为判断所述声源方位是否处于所述摄像头的可视范围内;

图像识别区域确定模块602当所述声源方位在所述摄像头的可视范围内时,在所述第一图像中确定与所述声源方位对应的图像识别区域。

在一种可能的实施方式中,所述终端的音频组件包括:线性麦克风阵列、或环形麦克风阵列;其中,所述线性麦克风阵列或环形麦克风阵列的语音识别范围,覆盖所述终端的摄像头的可视范围。

图9是根据一示例性实施例示出的一种终端的框图,参见图9,终端900包括:

处理器901;

用于存储处理器可执行指令的存储器902;

其中,处理器901被配置为:

若在终端调用摄像头拍摄第一图像的同时,所述终端的音频组件接收到与预设音频特征匹配的音频信号,则对所述音频信号进行声源定位,确定目标对象相对于所述终端的声源方位;

在所述第一图像中确定与所述声源方位对应的图像识别区域;

在所述第一图像的所述图像识别区域中识别目标对象。

在一个实施例中,上述处理器901还可被配置为:

当在所述图像识别区域中识别到所述目标对象时,确定所述目标对象在所述第一图像中的像素位置;

调用所述摄像头拍摄第二图像;其中,所述第二图像为所述第一图像的下一帧图像;

根据所述目标对象在所述第一图像中的像素位置,在所述第二图像中确定以所述像素位置为对称中心的预测区域;

在所述第二图像的所述预测区域中识别所述目标对象。

在一个实施例中,上述处理器901还可被配置为:

判断所述声源方位是否处于所述摄像头的可视范围内;

所述在所述第一图像中确定与所述声源方位对应的图像识别区域,包括:

当所述声源方位在所述摄像头的可视范围内时,在所述第一图像中确定与所述声源方位对应的图像识别区域。

在一个实施例中,所述终端的音频组件包括:线性麦克风阵列、或环形麦克风阵列;其中,所述线性麦克风阵列或环形麦克风阵列的语音识别范围,覆盖所述终端的摄像头的可视范围。

在一个实施例中,所述预设音频特征包括:预设关键字、或预设节拍。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种终端的框图。终端例如移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备或健身设备等。

参照图10,终端1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电源组件1006,多媒体组件1008,音频组件1010,输入/输出(I/O)接口1012,传感器组件1014,以及通信组件1016。

处理组件1002通常控制终端1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在终端1000的操作。这些数据的示例包括用于在终端1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件1006为终端1000的各种组件提供电力。电源组件1006可以包括电源管理系统,一个或多个电源,及其他与为终端1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在该终端1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。该触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与该触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当终端1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当终端1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器,用于为终端1000提供各个方面的状态评估。例如,传感器组件1014可以检测到终端1000的打开/关闭状态,组件的相对定位,例如该组件为终端1000的显示器和小键盘,传感器组件1014还可以检测终端1000或终端1000一个组件的位置改变,用户与终端1000接触的存在或不存在,终端1000方位或加速/减速和终端1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1016被配置为便于终端1000和其他设备之间有线或无线方式的通信。终端1000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,该通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,终端1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1004,上述指令可由终端1000的处理器1020执行以完成上述方法。例如,该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当存储介质中的指令由终端1000的处理器执行时,使得终端1000能够执行如下图像识别方法,方法包括:

若在终端调用摄像头拍摄第一图像的同时,所述终端的音频组件接收到与预设音频特征匹配的音频信号,则对所述音频信号进行声源定位,确定目标对象相对于所述终端的声源方位;

在所述第一图像中确定与所述声源方位对应的图像识别区域;

在所述第一图像的所述图像识别区域中识别目标对象。

在一个实施例中,所述方法还包括:

当在所述图像识别区域中识别到所述目标对象时,确定所述目标对象在所述第一图像中的像素位置;

调用所述摄像头拍摄第二图像;其中,所述第二图像为所述第一图像的下一帧图像;

根据所述目标对象在所述第一图像中的像素位置,在所述第二图像中确定以所述像素位置为对称中心的预测区域;

在所述第二图像的所述预测区域中识别所述目标对象。

在一个实施例中,在确定目标对象相对于所述终端的声源方位之后,所述方法还包括:

判断所述声源方位是否处于所述摄像头的可视范围内;

所述在所述第一图像中确定与所述声源方位对应的图像识别区域,包括:

当所述声源方位在所述摄像头的可视范围内时,在所述第一图像中确定与所述声源方位对应的图像识别区域。

在一个实施例中,所述终端的音频组件包括:线性麦克风阵列、或环形麦克风阵列;其中,所述线性麦克风阵列或环形麦克风阵列的语音识别范围,覆盖所述终端的摄像头的可视范围。

在一个实施例中,所述预设音频特征包括:预设关键字、或预设节拍。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1