一种音频输出方法、装置及终端设备与流程

文档序号：12499675阅读：200来源：国知局

本发明实施例涉及智能终端技术领域，尤其涉及一种音频输出方法、装置及终端设备。

背景技术：

随着智能终端的快速发展，智能终端(例如，智能手机和智能穿戴设备等)已经广泛应用到人们工作、生活的各个领域。

目前的智能终端中都装有扬声器，支持扬声器语音输出功能。而普通扬声器发出的声音是向四面八方传播的，为了降低对周围人群的干扰，出现了一种与普通扬声器工作原理不同的定向扬声器，首先定向扬声器将低频声音信号载于指向性很强的高频信号之上，再经过放大、发射到空气中，而后，空气会把高频信号迅速过滤，其上的可听声音信号便会自然滤出，实现像激光一样定向传播。

但是，现有的定向扬声器或装有定向扬声器的智能终端，其位置一旦固定之后，对应的扬声器输出声音的方向就是固定的。在很多场景下，例如，用户背对扬声器声音传播方向时，上述输出的声音并不能被用户很好的接收到。

技术实现要素：

本发明提供一种音频输出方法、装置及终端设备，以实现自动识别音频输出方向，向着用户方向输出声音。

第一方面，本发明实施例提供了一种音频输出方法，该方法包括：

在检测到扬声器处于音频输出状态时，确定用户所在方位；

控制所述扬声器向所述用户所在方位输出音频。

进一步的，确定用户所在方位包括：

对所述扬声器所在的空间进行图像采集，并对采集的图像进行图像识别；

若所述采集的图像中包含人体特征信息，则根据所述采集的图像确定人体特征的方位，将所述人体特征的方位作为用户所在方位。

进一步的，确定用户所在方位包括：

采用旋转摄像头对所述扬声器所在的空间进行图像采集，并在所述旋转摄像头旋转的过程中实时识别采集的图像；

若识别到采集的图像中包含人体特征信息，则控制所述旋转摄像头停止旋转，将停止旋转时所述旋转摄像头朝向的方位作为用户所在方位。

进一步的，确定用户所在方位包括：

对所述扬声器所在的空间进行图像采集，并将采集的图像与预先采集的所述用户的图像进行匹配；

若匹配成功，则根据所述采集的图像确定所述用户的方位。

进一步的，确定用户所在方位包括：

对所述扬声器所在的空间进行图像采集，若识别到采集的图像中包含多个用户的人体特征信息时，则采用距离传感器确定所述扬声器与各用户之间的距离；

根据所述采集的图像确定距离所述扬声器最近的用户所在方位。

进一步的，确定用户所在方位之前，还包括：

采用虹膜识别传感器识别出所述用户。

第二方面，本发明实施例还提供了一种音频输出装置，该装置包括：

方位确定模块,用于在检测到扬声器处于音频输出状态时，确定用户所在方位；

音频输出模块,用于控制所述扬声器向所述用户所在方位输出音频。

进一步的，所述方位确定模块具体用于，对所述扬声器所在的空间进行图像采集，并对采集的图像进行图像识别；若所述采集的图像中包含人体特征信息，则根据所述采集的图像确定人体特征的方位，将所述人体特征的方位作为用户所在方位。

进一步的，所述方位确定模块具体用于，采用旋转摄像头对所述扬声器所在的空间进行图像采集，并在所述旋转摄像头旋转的过程中实时识别采集的图像；若识别到采集的图像中包含人体特征信息，则控制所述旋转摄像头停止旋转，将停止旋转时所述旋转摄像头朝向的方位作为用户所在方位。

进一步的，所述方位确定模块具体用于，对所述扬声器所在的空间进行图像采集，并将采集的图像与预先采集的所述用户的图像进行匹配；若匹配成功，则根据所述采集的图像确定所述用户的方位。

进一步的，所述方位确定模块具体用于，对所述扬声器所在的空间进行图像采集，若识别到采集的图像中包含多个用户的人体特征信息时，则采用距离传感器确定所述扬声器与各用户之间的距离；根据所述采集的图像确定距离所述扬声器最近的用户所在方位。

进一步的，该音频输出装置还包括：

虹膜识别模块，用于在所述方位确定模块确定用户所在方位之前，采用虹膜识别传感器识别出所述用户。

第三方面，本发明实施例还提供了一种终端设备，包括上述第二方面提供的任一项所述音频输出装置和扬声器；

所述扬声器设置在所述终端设备中。

进一步的，所述终端设备包括摄像头和距离传感器；或，摄像头和虹膜识别传感器；

所述摄像头，用于采集所述终端设备所在的空间的图像，并根据采集的图像确定用户所在方位；

所述距离传感器，用于确定所述终端设备与用户之间的距离；

所述虹膜识别传感器，用于识别出用户。

进一步的，所述摄像头为旋转式摄像头。

本发明实施例的技术方案，通过终端自动识别用户的方位并向用户所在方位输出音频，解决了定向扬声器不能自动识别用户方向的技术问题，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

附图说明

图1是本发明实施例一中的音频输出方法的流程图；

图2是本发明实施例二中的音频输出方法的流程图；

图3是本发明实施例三中的音频输出方法的流程图；

图4是本发明实施例四中的音频输出方法的流程图；

图5是本发明实施例五中的音频输出方法的流程图；

图6是本发明实施例六中的音频输出装置的结构示意图；

图7是本发明实施例七中的终端设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种音频输出方法的流程图，本实施例可适用于定向输出音频的情况，该方法可以由本发明实施例提供的音频输出装置来执行，该装置可以采用软件和/或硬件的方式来实现，该装置可集成于具有音频输出功能的终端内，例如，扬声器、移动终端(例如手机、平板电脑)、车载终端、笔记本电脑和固定终端(例如台式电脑)中。具体包括如下步骤：

S110、在检测到扬声器处于音频输出状态时，确定用户所在方位。

所述扬声器可以为设置在终端中的扬声器，也可以为扬声器设备。当所述扬声器设置终端时，音频输出状态指的是终端通过扬声器输出声音的状态，例如可以是通话状态或者音乐播放状态等。当所述扬声器为扬声器设备时，音频输出状态指的是扬声器设备播放录音或音频输出声音的状态。用户所在方位指的是音频的接收者所在位置相对于终端的方向。

S120、控制所述扬声器向所述用户所在方位输出音频。

本实施例中，当确定用户的方位之后，向扬声器发出控制指令，使得音频向着用户的方向输出。例如，用户可通过控制设备(例如，遥控器或手机)向扬声器发出控制指令，具体可采用wifi网络、蓝牙或4G网络向扬声器发送控制指令，所述扬声器收到控制指令后，可通过旋转将喇叭朝向用户输出音频。

其中，控制扬声器定向输出音频可通过有源定向扬声器或矩阵扬声器阵列实现。有源定向扬声器的工作原理为将低频声音信号载于指向性很强的高频信号之上，再经过放大、发射到空气中，而后，空气会把高频信号迅速过滤，其上的可听声音信号便会自然滤出，实现像激光一样定向传播；矩阵扬声器阵列的工作原理为将若干扬声器等间隔矩阵排列，每个扬声器单元辐射一个平面的同相位波阵面，多个单元的组合形成可提供单一的主扩展声源，该扬声器阵列的波阵面通过在整个音频范围内的耦合，在一定区域范围内产生品质一致的声音，使其以波束的形式在一定方向上传播。

值得说明的是，在确定用户所在方位之前，需要判断处于输出状态的音频是否需要定向输出。具体的，应用距离传感器检测终端与用户脸部的距离，当该距离小于预设距离时，不需要进行用户方位的识别，正常进行语音的播放，否则，当该距离大于预设距离或者终端的扬声器处于免提外放模式时，可自动或用户手动开启定位模式，确定用户的方位，并控制扬声器向用户所在方位输出音频。其中，预设距离一般可以为10cm或者20cm。

本实施例的技术方案，通过终端自动识别用户的方位并向用户所在方位输出音频，解决了定向扬声器不能自动识别用户方向的技术问题，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

实施例二

图2为本发明实施例二提供的一种音频输出方法的流程图，在上述实施例一的基础上对音频输出方法进行优化，提供了确定用户所在方位的方法，具体是对所述扬声器所在的空间进行图像采集，并对采集的图像进行图像识别；若所述采集的图像中包含人体特征信息，则根据所述采集的图像确定人体特征的方位，将所述人体特征的方位作为用户所在方位。相应的，本实施例的方法包括：

S210、对所述扬声器所在的空间进行图像采集，并对采集的图像进行图像识别。

其中，对扬声器所在的空间进行图像采集可以是通过摄像头采集图像，对图像进行识别指的是对图像中包含的图像信息进行识别，确定采集的图像中是否包含用户。

S220、若所述采集的图像中包含人体特征信息，则根据所述采集的图像确定人体特征的方位，将所述人体特征的方位作为用户所在方位。

其中，人体特征信息指的是能够确认图像中包含人体的信息，例如可以是人体头部、面部或者嘴巴等，如果识别出图像中含有上述任意一种人体特征信息，就可以确定图像中含有用户。通过该人体特征信息在图像中的相对位置计算并确定用户相对于终端的方位。

终端可间隔一定时间，例如可以是30秒或1分钟，连续采集扬声器所在的空间的图像并识别，实时获取人体特征信息，确定用户的方位。

S230、控制所述扬声器向所述用户所在方位输出音频。

本实施例的技术方案，通过采集扬声器所在空间的图像，识别人体特征信息以自动识别用户的方位，并向该方位定向输出音频，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

实施例三

图3为本发明实施例三提供的一种音频输出方法的流程图，在上述实施例的基础上对音频输出方法进行优化，提供了确定用户所在方位的方法，具体是采用旋转摄像头对所述扬声器所在的空间进行图像采集，并在所述旋转摄像头旋转的过程中实时识别采集的图像；若识别到采集的图像中包含人体特征信息，则控制所述旋转摄像头停止旋转，将停止旋转时所述旋转摄像头朝向的方位作为用户所在方位。相应的，本实施例的方法包括：

S310、采用旋转摄像头对所述扬声器所在的空间进行图像采集，并在所述旋转摄像头旋转的过程中实时识别采集的图像。

其中，旋转摄像头为能够旋转拍摄的摄像头。具体的，当检测到终端处于音频输出状态，并判断需要确定用户的方位时，终端自动或者用户手动开启旋转摄像头，获取终端所在空间的图像，并实时对旋转摄像头获取的图像进行识别，自动捕捉人体特征信息。

S320、若识别到采集的图像中包含人体特征信息，则控制所述旋转摄像头停止旋转，将停止旋转时所述旋转摄像头朝向的方位作为用户所在方位。

具体的，在旋转摄像头在旋转拍摄的过程中，识别到有人体特征信息出现时，例如可以是在图像在出现了人体头部，控制旋转摄像头停止旋转，将旋转摄像头停止旋转时刻的朝向确定为用户所在的方向；否则，继续旋转摄像头采集空间内的图像，直到识别到有人体特征信息，确定用户方向。值得说明的是，当图像中的人体特征信息消失时，旋转摄像头自动开启旋转并继续采集空间内的图像，直到识别到有人体特征信息，确定用户方向。

S330、控制所述扬声器向所述用户所在方位输出音频。

本实施例的技术方案，通过旋转摄像头实时获取并识别扬声器所在空间的图像，自动捕捉用户的人体特征以确定用户的方位，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

实施例四

图4为本发明实施例四提供的一种音频输出方法的流程图，在上述实施例的基础上对音频输出方法进行优化，提供了确定用户所在方位的方法，具体是对所述扬声器所在的空间进行图像采集，并将采集的图像与预先采集的所述用户的图像进行匹配；若匹配成功，则根据所述采集的图像确定所述用户的方位。相应的，本实施例的方法包括：

S410、对所述扬声器所在的空间进行图像采集，并将采集的图像与预先采集的所述用户的图像进行匹配。

其中，预先采集的用户图像指的是用于与终端采集的图像进行比对的，预先存在终端中的用户的图像，例如可以是用户自主拍摄的图像，也可以是终端在之前的图像匹配过程中自动存储的用户的图像。

具体的，终端可采用人脸识别算法对采集的图像进行匹配。人脸识别算法的原理为提取终端采集的图像中的人脸信息，包括眼睛、鼻子、嘴巴或者耳朵等，并将给人脸信息与预先采集的用户的图像中的人脸信息进行匹配，当相似度达到预设值时，确定终端采集的图像中存在终端用户。其中，匹配相似度的预设值可以是终端的推荐值，也可以是用户自定义的调整值，例如可以是80％或90％。当匹配相似度预设值越高时，匹配准确度越高，匹配消耗时间越长，相应的，当匹配相似度预设值较低时，匹配速度快，匹配准确度低，容易出现识别错误的情况。

S420、若匹配成功，则根据所述采集的图像确定所述用户的方位。

其中，匹配成功指的是终端采集的图像与预先采集的用户图像中的人脸信息的相似度达到了匹配相似度预设值，确认终端采集的图像中存在终端用户。可以通过该终端用户的人脸信息在图像中的相对位置计算并确定用户相对于终端的方位。

本实施例中，通过对终端采集的图像中信息与预设的用户的图像信息匹配识别，识别终端用户，确定用户的方位，提高了方位确定的准确度。

可选的，确定用户所在方位之前，该方法还包括：

采用虹膜识别传感器识别出所述用户。

其中，虹膜识别技术指的是通过眼睛中的进行身份识别。虹膜是位于人眼的黑色瞳孔与白色巩膜之间的圆环状部分，其包含了很多相互交错的斑点、细丝、冠状、条纹和隐窝等的细节特征；虹膜在胎儿发育阶段形成后的整个生命历程中保持不变。根据虹膜的细节特征能够唯一性的识别用户的身份。

虹膜识别传感器是能够获取人眼虹膜图像并识别用户身份的传感器。虹膜识别传感器的工作原理为获取虹膜图像；对虹膜图像进行预处理，使其满足提取虹膜特征的需求；提取虹膜特征；对提取的和模特进行特征匹配，识别用户身份。

具体的，在本实施例中，通过虹膜识别传感器获取扬声器所在空间的虹膜图像，并实时对获取的虹膜图像进行识别，并与预存的终端用户的虹膜图像进行匹配，当匹配成功时，确定获取的虹膜图像属于终端用户，并计算确定终端用户的方位。

本实施例中，通过虹膜识别技术唯一识别终端用户的身份，确定用户的方位，提高了方位确定的准确度。

S430、控制所述扬声器向所述用户所在方位输出音频。

本实施例的技术方案，通过对终端采集的图像中信息与预设的用户的图像信息匹配识别，识别终端用户，确定用户的方位，解决了定向扬声器不能自动识别用户方向的技术问题，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

实施例五

图5为本发明实施例五提供的一种音频输出方法的流程图，在上述实施例的基础上对音频输出方法进行优化，提供了确定用户所在方位的方法，具体是对所述扬声器所在的空间进行图像采集，若识别到采集的图像中包含多个用户的人体特征信息时，则采用距离传感器确定所述扬声器与各用户之间的距离；根据所述采集的图像确定距离所述扬声器最近的用户所在方位。相应的，本实施例的方法包括：

S510、对所述扬声器所在的空间进行图像采集，若识别到采集的图像中包含多个用户的人体特征信息时，则采用距离传感器确定所述扬声器与各用户之间的距离。

其中，距离传感器是能够检测物理距离的一种传感器，例如可以通过光电距离传感器或超声距离传感器检测用户与终端扬声器间的距离。具体的，当识别到终端采集的图像中在不同方位存在多个且不属于同一用户的人体特征信息，终端无法确定音频的输出方向，可通过距离传感器检测并识别唯一的音频输出用户，来确定音频的输出方向。

S520、根据所述采集的图像确定距离所述扬声器最近的用户所在方位。

具体的，通过距离传感器检测各用户与终端扬声器之间的距离，将该距离进行比较，根据比较结果，选择距离最近的用户确定为音频输出用户。根据该音频输出用户的方位确定音频的输出方向。

S530、控制所述扬声器向所述用户所在方位输出音频。

本实施例的技术方案，当识别到多人的人体特征信息时，通过距离传感器检测识别各个用户与终端扬声器的距离，将最近的用户确定为音频输出用户，来确定音频的输出方向，实现了在多个用户存在的情况下，自动识别音频输出方向的效果。

实施例六

图6为本发明实施例六提供的音频输出装置的结构示意图，该装置适用于执行本发明实施例提供的音频输出方法，如图6所示，该装置具体可以包括：

方位确定模块610，用于在检测到扬声器处于音频输出状态时，确定用户所在方位；

音频输出模块620，用于控制所述扬声器向所述用户所在方位输出音频。

可选的，方位确定模块610具体用于，对所述扬声器所在的空间进行图像采集，并对采集的图像进行图像识别；若所述采集的图像中包含人体特征信息，则根据所述采集的图像确定人体特征的方位，将所述人体特征的方位作为用户所在方位。

可选的，方位确定模块610具体用于，采用旋转摄像头对所述扬声器所在的空间进行图像采集，并在所述旋转摄像头旋转的过程中实时识别采集的图像；若识别到采集的图像中包含人体特征信息，则控制所述旋转摄像头停止旋转，将停止旋转时所述旋转摄像头朝向的方位作为用户所在方位。

可选的，方位确定模块610具体用于，对所述扬声器所在的空间进行图像采集，并将采集的图像与预先采集的所述用户的图像进行匹配；若匹配成功，则根据所述采集的图像确定所述用户的方位。

可选的，方位确定模块610具体用于，对所述扬声器所在的空间进行图像采集，若识别到采集的图像中包含多个用户的人体特征信息时，则采用距离传感器确定所述扬声器与各用户之间的距离；根据所述采集的图像确定距离所述扬声器最近的用户所在方位。

可选的，该音频输出装置还包括：

虹膜识别模块，用于在所述方位确定模块确定用户所在方位之前，采用虹膜识别传感器识别出所述用户。

本实施例通过终端自动识别用户的方位并向用户所在方位输出音频，解决了定向扬声器不能自动识别用户方向的技术问题，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

实施例七

图7是本发明实施例七提供的终端设备的结构示意图，基于上述实施例提供的音频输出装置，本实施例提供了包含上述实施例提供的任意一种音频输出装置的终端设备700。音频输出装置600可以控制终端设备700的自动识别用户方向，并向用户方向定向输出音频。具体的，该终端设备包括音频输出装置600和扬声器710，该扬声器710设置在终端设备700中。

其中，终端设备700可以是智能手表或智能手环等智能穿戴设备、智能手机或者移动平板等。

扬声器710根据音频输出装置600形成的音频输出方向指令定向输出音频。示例性的，本实施例中扬声器可采用MEMS矩阵扬声器阵列实现，MEMS扬声器尺寸为微米级，MEMS矩阵扬声器阵列中MEMS扬声器个数一般可以为50-200，本实施例中MEMS扬声器个数优选为100左右，MEMS矩阵扬声器阵列尺寸优选为10mm。

MEMS矩阵扬声器区别于传统矩阵压电式扬声器，体积小，可微型化，可量产并应用于终端设备700中。

可选的，该终端设备700包括摄像头和距离传感器；或，摄像头和虹膜识别传感器；

所述摄像头，用于采集所述终端设备所在的空间的图像，并根据采集的图像确定用户所在方位；

所述距离传感器，用于确定所述终端设备与用户之间的距离；

所述虹膜识别传感器，用于识别出用户。

可选的，摄像头为旋转式摄像头。

本实施例在上述实施例的基础上，提供了一种终端设备，该实施例通过音频输出装置确定用户方位，控制扬声器向该用户方位定向输出音频，解决了定向扬声器不能自动识别用户方向的技术问题，实现了自动识别用户的方位，并向该方位定向输出音频的技术效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤中良
技术所有人：广东小天才科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。