基于显示设备的声源定位方法、显示设备及存储介质与流程

文档序号：25538211发布日期：2021-06-18 20:32阅读：27来源：国知局

本申请涉及通信技术领域，尤其涉及一种基于显示设备的声源定位方法、显示设备及存储介质。

背景技术：

随着移动互联网技术的发展，大屏终端已逐渐被用户所接受，并成为一种趋势。以智能电视为例，将摄像头和麦克风应用于智能电视，用户能够进行远程视频交互，实现视频通话、视频会议等功能，为人们的生活和工作提供了便利。在用户a采用智能电视与用户b远程视频交互过程中，为了更好的使用户b能够更加清楚地了解用户a的情况，通常需要将摄像头对准用户a，并实时采集用户a的语音信息，从而实现视频通话。然而，现有带有摄像头的智能电视，在视频通话过程中，摄像头不能精准的对准用户a。

技术实现要素：

本申请的主要目的在于提供一种基于显示设备的声源定位方法、显示设备及存储介质，旨在将当前用户的人脸图像置于视频播放画面的中间位置，提高用户在视频通话场景下的使用体验。

为实现上述目的，本申请提供一种基于显示设备的声源定位方法，所述显示设备包括显示屏、麦克风阵列、与所述显示屏连接的调整结构和设于所述调整结构上的摄像头，所述麦克风阵列包括多个麦克风；所述方法包括：

在与目标联系人进行视频通话时，根据多个所述麦克风采集到的当前语音信息，确定时延信息；根据所述时延信息以及多个麦克风的位置信息，获取当前声源的第一位置信息；根据所述第一位置信息，通过所述调整结构控制所述摄像头进行第一次声源跟踪，以采集视频数据；对所述视频数据进行人脸识别以得到人脸识别结果；根据所述人脸识别结果，通过所述调整结构控制所述摄像头进行第二次声源跟踪，以将当前用户的人脸图像调整至当前视频图像的中间位置。

此外，为实现上述目的，本申请还提供一种显示设备，所述显示设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的基于显示设备的声源定位方法。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上所述的基于显示设备的声源定位方法。

本申请提供一种基于显示设备的声源定位方法、显示设备及存储介质，在当前用户使用电视机进行视频通话过程中，无需人工控制摄像头，摄像头既能够实现自动对电视机的当前用户进行精确的视频定位跟踪，并且通过结合人脸识别，能够进一步提高声源定位的精确性，以将当前用户的人脸图像置于视频通话画面的中间位置，提高用户在视频通话场景下的使用体验。

附图说明

图1是本申请一实施例提供的通信系统的架构示意图；

图2是本申请一实施例提供的基于显示设备的声源定位方法的流程示意图；

图3是本申请一实施例提供的基于显示设备的声源定位方法的应用场景示意图；

图4是本申请实施例提供的显示设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例涉及的基于显示设备的声源定位方法主要应用于显示设备中。该显示设备可以包括具有用于显示预览界面的显示屏的电视机、冰箱、电脑、洗衣机等。下面以显示设备为电视机为例进行说明，但该显示设备不限于电视机。所述显示设备包括显示屏、调整结构、摄像头和麦克风阵列。

所述调整结构与所述显示屏连接，所述摄像头和所述麦克风阵列设于所述调整结构上的摄像头。所述麦克风阵列包括多个麦克风，用于将声音信号转换为电信号。

在一些实施例中，所述调节结构包括驱动机构、动力机构和传动机构。所述驱动机构用于驱动所述摄像头升起或下降。所述动力机构和所述传动机构用于驱动所述摄像头转动。具体地，所述动力机构和/或所述传动机构能够驱动所述摄像头沿第一轴和/或第二轴转动。即所述动力机构能够驱动所述摄像头沿第一轴转动；传动机构能够驱动摄像头沿第二轴转动。示例性地，第一轴沿水平方向延伸，第二轴与第一轴垂直，第二轴沿竖直方向延伸。

在一些实施例中，所述麦克风阵列设于所述驱动机构上。多个麦克风形成预设形状的阵列，例如沿显示屏的长度方向间隔设置或等间隔设置等。由于麦克风阵列在时域和频域的基础上增加了一个空间域，对接收到的来自空间不同方向的语音信号进行处理，即使电视机的用户在与目标联系人视频过程中发生位置移动，麦克风阵列也能够实现对移动的用户方向进行实时跟踪，从而实现定向语音采集，提高信噪比并获得高质量的语音信号，提升用户的视频体验。

示例性地，所述摄像头设于所述动力机构上。所述动力机构设于所述传动机构上。所述传动机构设于所述驱动机构上。所述驱动机构驱动所述传动机构沿竖直方向移动，从而带动所述摄像头升起或下降。动力机构能够所述摄像头沿第一轴转动。所述传动机构能够驱动所述动力机构沿第二轴转动，以使所述摄像头沿第二轴转动。当然，在其他实施例中，第一轴和第二轴也可以相交且非正交设置。即，第一轴与第二轴之间的夹角可以根据实际需求进行设置，例如二者的夹角为10°、30°、50°、70°、80°以及10°至90°之间任意其他合适角度，在此不作限定。

上述实施例提供的显示设备，可以根据实际使用需求，通过动力机构和/或传动机构驱动摄像头沿第一轴和/或第二轴转动，从而能够全方位调节摄像头的位置，提高摄像头捕捉影像的效果，满足用户的不同需求或不同用户的使用需求，提高用户的使用体验度。当调节结构位于收回位置时，摄像头隐藏于显示屏的非显示面一侧，此时摄像头被显示屏遮挡，保证了用户隐私需求；同时也不会因设置摄像头对电视机的整体外观造型和美观造成影响。当调节结构位于升起位置时，摄像头位于电视机的显示屏的上方，此时，摄像头不会被电视机的显示屏遮挡，能够进行正常的拍摄、录制或摄像等工作。

动力机构可以为任意合适的动力结构，例如为齿轮电机传动结构或者齿轮箱，该齿轮箱内设有齿轮和用于驱动齿轮转动的电机。动力机构的数量可以根据实际需求进行设置，例如一个、两个、三个或者更多，只要能够驱动摄像头沿第一轴转动即可。动力机构为齿轮电机传动结构，能够高速地使摄像头沿第一轴转动至预设位置，且对结构件的劳损程度低，提高产品多次重复使用的能力。

传动机构可以为任意合适的传动结构，例如为齿轮电机传动结构。传动机构为齿轮电机传动结构时，能够高速地使摄像头沿第二轴转动至预设位置，且对结构件的劳损程度低，提高产品多次重复使用的能力。

驱动机构可以为任意合适的驱动结构，例如为齿轮电机传动结构。驱动机构的数量可以根据实际需求进行设置，例如一个、两个、三个或者更多，只要能够驱动摄像头沿竖直方向往复移动即可。

请参阅图1，图1是本申请一实施例提供的通信系统100的架构示意图，该通信系统100可以包括显示设备(例如电视机101)和电子设备(例如电子设备102)。示例性地，电视机101可以通过一个或多个通信网络与电子设备102连接(例如有线或无线)。示例性地，电视机101可以通过无线保真(wirelessfidelity，wi-fi)协议与电子设备102建立wi-fi连接，但通信网络还可以使用其他任意网络通信协议来实现，在此不作限定。

在一些实施例中，该通信系统100还可以包括应用服务器103。应用服务器103可以为一个或多个。应用服务器103用于通过一个或多个通信网络与电视机101、电子设备102上安装的应用(application，app)进行通信。

以具有视频通话功能的视频通话app举例，用户a可使用电子设备102中的视频通话app与用户b进行视频通话。例如，用户a可在电子设备102的视频通话app中邀请用户b进行视频通话，进而，电子设备102可向应用服务器103发送邀请用户b的视频通话请求。该视频通话请求中可以携带用户b在视频通话app中的标识(例如，用户b的昵称、账号)等参数。应用服务器103接收到该视频通话请求后，可根据视频通话请求中用户b在视频通话app中的标识确定本次通话请求的接收方为用户b，并查询与用户b关联的电子设备为电视机101。进而，应用服务器103可将电子设备102发送的视频通话请求转发给用户b的电视机101。

如果电视机101检测到用户b接受了用户a本次发送的视频通话请求，则电视机101可继续通过应用服务器103将采集到的语音和图像实时发送给电子设备102。同时，电子设备102也可通过应用服务器103将采集到的语音和图像实时发送给电视机101，使得用户a可与用户b进行视频通话。

示例性地，视频通话app可以为微信app、qqapp、短信app等。用户b在使用视频通话app与联系人进行视频通话时，视频通话app可将麦克风采集到的语音实时发送给联系人，同时也可以将摄像头采集到的图像实时发送给联系人。

电子设备102与电视机101的具体结构可以相同，也可以不同。示例性的，电子设备102可以是手机、平板电脑、具备无线通信功能的可穿戴电子设备(如智能手表)、具有无线通信功能的智能电视、台式计算机、膝上型计算机(laptop)等。

请参阅图2，图2是本申请一实施例提供的基于显示设备的声源定位方法的流程示意图。该摄像头调节方法可以包括步骤s201至s205等，具体可以如下：

s201、在与目标联系人进行视频通话时，根据多个所述麦克风采集到的当前语音信息，确定时延信息。

其中，电视机的当前用户在视频通话时会发出声音，麦克风可以采集到用户发出的声音，从而得到当前语音信息。

具体地，用户可以在电视机中安装具有视频通话(也可称视频电话)功能的视频通话app。用户在使用视频通话app时可添加一个或多个联系人，并记录每个联系人的基本信息，比如联系人的姓名、电话、住址、邮箱或所属群组等。

电视机的音频管理器可以包括音频模式。该音频模式可以包括通话模式和普通模式。示例性地，当视频通话app接收到目标联系人发来的视频通话请求后，可以打开麦克风阵采集用户的语音并打开摄像头采集用户的图像。在打开摄像头之前，可周期性的请求音频管理器查询当前的音频模式。当检测到当前的音频模式为通话模式时，说明用户已经接受了本次视频通话请求。

电视机接收到上述视频通话请求后，在检测到用户接受该视频通话请求之前，电视机不会响应视频通话app打开摄像头的请求而升起摄像头。相应地，在接受到上述视频通话请求后，视频通话app可请求电视机升起摄像头。此时电视机可以先确定用户是否接受了本次视频通话请求。如果检测到用户接受了该视频通话请求，则电视机可升起摄像头。如此，在视频通话未接通时，电视机不会弹出摄像头干扰用户的使用体验。同时，若用户未接听本次视频通话请求，则电视机可减少一次摄像头的弹出，从而提高摄像头的使用寿命。

可以理解的，当用户通过电视机的视频通话app向目标联系人发送的视频通话请求时，电视机的摄像头和麦克风阵列可以根据实际需求开启，例如当向目标联系人发送视频通话请求时即开启摄像头和麦克风阵列，又如在向目标联系人发送视频通话请求后的预设间隔时间时开启摄像头和麦克风阵列，再如当目标联系人接收用户通过电视机发送的视频通话请求时开启摄像头和麦克风阵列。麦克风阵列中的麦克风数量可以根据实际需求进行设置，例如为两个、三个、四个或者更多，在此不作限定。

在一些实施例中，所述根据多个所述麦克风采集到的当前语音信息，确定时延信息，包括：通过所述麦克风阵列接收当前用户的当前语音信息；根据所述当前语音信息，确定当前语音到达不同麦克风的时延，以得到所述时延信息。

示例性地，以目标联系人为jimmy为例，目标联系人jimmy使用上述电子设备102向当前用户peter发送视频通话请求，邀请peter进行视频通话。电子设备102检测到jimmy邀请peter进行视频通话的操作后，可向应用服务器103发送邀请peter视频通话的视频通话请求。进而，应用服务器103可将该视频通话请求发送给peter的电视机。

在检测到用户接受来自目标联系人的视频通话请求时，通过电视机的驱动机构升起电视机的摄像头，即驱动电视机的摄像头移动至升起位置。若没有检测到用户接受来自目标联系人的视频通话请求，则无需升起电视机的摄像头，避免在视频通话未接通时升起摄像头干扰用户的使用体验，同时也影响电视机的整体美观。在升起摄像头的过程中可以同时升起麦克风阵列，当然也可以不升起麦克风阵列，或者在升起摄像头后间隔预设时间升起麦克风阵列，本申请实施例不限于此。

当摄像头从电视机的显示屏的非显示侧完全升起后，电视机可打开摄像头开始采集图像和/或打开麦克风采集语音。或者电视机也可在升起摄像头的过程中打开摄像头开始采集图像和/或打开麦克风采集语音，本实施例不限于此。如图3，摄像头10从电视机的显示屏的非显示侧完全升起后，电视机可以显示与目标联系人jimmy进行视频通话的用户界面301。电视机在用户界面301中可实时显示摄像头10采集到的图像内容302。并且，电视机可在用户界面301中实时显示目标联系人jimmy发来的图像内容303。同时，用户接受本次视频通话请求后，电视机还可以将麦克风采集到的当前语音信息实时发送给目标联系人jimmy，并且，电视机可接收并播放目标联系人jimmy实时发送来的语音内容，实现本次视频通话过程。

其中，时延信息的获得可以根据实际需要选择任意合适的时延估计算法进行计算而获得，例如采用基本互相关法、广义互相关法、互功率谱相位法(cross-powerspectrumphase，csp)或最小均方自适应滤波法等，在此不作限定。

示例性地，广义互相关法通过求麦克风阵列中任意两个麦克风接收到的语音信号间的互功率谱，并在频域内给予一定的加权来抑制噪声和反射的影响，再反变换到时域，从而得到两个语音信号(分别为两个麦克风所接收到的语音信号)之间的互相关函数。该互相关函数的峰值位置即为两个语音信号之间的相对时延，即两个麦克风的时延。麦克风阵列中不同麦克风的时延的集合即为所述时延信息。

s202、根据所述时延信息以及多个麦克风的位置信息，获取当前声源的第一位置信息。

具体地，在获得所述时延信息后，根据所述时延信息以及多个麦克风的位置信息，采用声源定位法对当前声源进行定位，从而得到当前声源的第一位置信息。

在一些实施例中，所述根据所述时延信息以及多个麦克风的位置信息，获取当前声源的第一位置信息，包括：利用所述时延信息以及和多个所述麦克风的位置关系构造多个双曲面，并通过计算多个双曲面的交点得到当前声源的第一位置信息。

具体地，在获得当前声源至一对麦克风的时延后，当前声源处于以这对麦克风所处的位置为焦点，到达时延所对应的声音传输距离为参数的双曲面上。当使用多对麦克风，可以得到多个时延，也就得到了多个双曲面，声源位置就处于这些双曲面的相交点，从而得到当前声源的第一位置信息。

s203、根据所述第一位置信息，通过所述调整结构控制所述摄像头进行第一次声源跟踪，以采集视频数据。

具体地，为了使摄像头能够拍摄到当前用户的图像，在得到第一位置信息后通过所述调整结构的动力机构和/或传动机构调节所述摄像头的位置，以进行第一次声源跟踪，并采集视频数据。

在一些实施例中，所述调整结构包括动力机构和传动机构。所述根据所述第一位置信息，通过所述调整结构控制所述摄像头进行第一次声源跟踪，包括：根据所述第一位置信息，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动，以使所述摄像头进行第一次声源跟踪。

在一些实施例中，第一次声源跟踪所采集的视频数据中包括用户图像。其中，用户图像可以为摄像头采集的电视机前方周边区域人物图像，周边区域人物一般为电视机的当前用户的图像，亦即为声源的图像。

具体地，在获得第一位置信息后，可以通过控制动力机构动作，从而驱动摄像头沿第一轴转动。当然，在获得第一位置信息后，也可以通过控制传动机构动作，从而驱动摄像头沿第二轴转动。上述两个步骤可以只执行其中一个，当然也可以两个步骤均执行，只要能够根据所述第一位置信息，摄像头能够进行第一次声源跟踪即可。

s204、对所述视频数据进行人脸识别以得到人脸识别结果。

具体地，在获得所述视频数据后，对所述视频数据中的视频画面进行人脸识别，以得到人脸识别结果。

在一些实施方式中，所述对所述视频数据进行人脸识别以得到人脸识别结果，具体包括：将视频数据的当前视频画面输入预先训练好的人脸识别模型，以输出人脸识别结果，所述人脸识别结果包括当前用户在的人脸图像。

其中，预先训练好的人脸识别模型可以是基于大量人脸样本图像对原始神经网络进行模型训练所得到。原始神经网络可以为卷积神经网络(cnn，convolutionalneuralnetworks)、循环神经网络(rnn，recurrentneuralnetworks)、长短期记忆(lstm，long/shorttermmemory)网络、yolo9000网络、alexnet网络或vggnet等。

s205、根据所述人脸识别结果，通过所述调整结构控制所述摄像头进行第二次声源跟踪，以将当前用户的人脸图像调整至当前视频图像的中间位置。

由于声源定位易受噪声、混响等因素的影响，致使在声源定位时往往不够精确。为了进一步提高声源定位的准确性，以将当前用户的人脸图像调整至当前视频图像的中间位置，在获得人脸识别结果后，可以通过所述调整结构控制所述摄像头进行第二次声源跟踪，从而保证摄像头捕捉图像的效果，提高用户在视频通话场景下的使用体验。

所述调整结构包括动力机构和传动机构；所述根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，控制摄像头进行第二次声源跟踪，包括：根据预设的用户姿态模型对采集的多个人脸图像进行筛选，得到当前用户的人脸图像；根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，控制摄像头进行第二次声源跟踪，以将所述当前用户的人脸图像置于当前视频画面的中间位置。

预设的用户姿态模型为预先训练好的用户姿态模型，其可以是基于大量用户姿态图像对初始神经网络进行模型训练所得到。初始神经网络可以为卷积神经网络(cnn，convolutionalneuralnetworks)、循环神经网络(rnn，recurrentneuralnetworks)等。

在一些实施例中，所述调整结构包括动力机构和传动机构；所述根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，控制摄像头进行第二次声源跟踪，包括：根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动，以使所述摄像头进行第二次声源跟踪。

具体地，根据当前视频画面的中心点位置与对应的人脸图像的人脸区域的中心点坐标，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动，以使所述摄像头进行第二次声源跟踪。

在一些实施例中，所述根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，通过所述动力机构驱动所述摄像头沿第一轴转动和通过所述传动机构驱动所述摄像头沿所述第二轴转动，包括：根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，判断所述当前用户的人脸图像是否在当前视频画面的中间位置；所述当前用户的人脸图像不在当前视频画面的中间位置，确定所述摄像头的拍摄角度信息；根据所述摄像头的拍摄角度信息和目标拍摄角度信息，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动。

具体地，所述根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，判断所述当前用户的人脸图像是否在当前视频画面的中间位置，具体包括：根据所述当前视频画面的中心点坐标以及所述人脸图像的中心点坐标，判断所述当前用户的人脸图像是否在当前视频画面的中间位置；若所述当前视频画面的中心点坐标与所述人脸图像的中心点坐标相同，判定所述当前用户的人脸图像在当前视频画面的中间位置；若所述当前视频画面的中心点坐标与所述人脸图像的中心点坐标不相同，判定所述当前用户的人脸图像不在当前视频画面的中间位置。

其中，所述人脸图像的中心点坐标以及所述当前视频画面的中心点坐标可以是在人脸识别过程中获取的，即在确定视频画面中的人脸图像的过程中，也获得该人脸图像的中心点坐标和所述当前视频画面的中心点坐标。所述人脸图像的中心点坐标以及所述当前视频画面的中心点坐标也可以是在所述对所述当前视频画面进行人脸识别，以确定人脸图像之后，根据所述人脸图像的轮廓尺寸获取所述人脸图像的中心点坐标，并根据所述当前视频画面的尺寸获取所述当前视频画面的中心点坐标。

在一些实施例中，所述确定所述摄像头的拍摄角度信息，包括：计算所述当前用户在所述当前视频画面中的面积；根据所述面积，确定所述当前用户与所述摄像头之间的第一距离；根据所述第一距离、所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头的拍摄角度信息。

在一些实施方式中，所述计算所述当前用户在所述当前视频画面中的面积包括：获取所述当前用户的人脸区域在所述当前视频画面中的面积。其中，获取所述当前用户的人脸区域在所述当前视频画面中的面积的方式可以根据实际需要灵活设置，例如在前述人脸识别过程中即可输出所述当前用户的人脸区域在所述当前视频画面中的面积。所述根据所述面积，确定所述用户与所述摄像头之间的第一距离，包括：根据预设的映射关系，确定所述面积对应的第一距离，该第一距离是指所述当前用户与所述摄像头之间的距离。其中所述预设映射关系中记录有在不同拍摄距离下所述摄像头拍摄到的样本人体的人脸区域在所拍摄的视频画面中的面积。

在一些实施方式中，所述摄像头的拍摄角度信息包括在水平方向的第一拍摄角度和在竖直方向的第二拍摄角度；所述根据所述第一距离、所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头的拍摄角度信息，包括：根据所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头在所述水平方向的第一相对方位和所述摄像头在所述竖直方向的第二相对方位；根据所述第一距离、所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头在所述水平方向的所述第一拍摄角度；根据所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头在所述竖直方向的所述第二拍摄角度；将所述第一相对方位、所述第二相对方位、所述第一拍摄角度和所述第二拍摄角度作为所述摄像头的拍摄角度信息。

在一些实施方式中，所述根据所述第一距离、所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头在所述水平方向的所述第一拍摄角度，包括：根据所述当前视频画面的中心点坐标以及所述人脸区域在所述当前视频画面中的中心点坐标，计算所述当前视频画面的中心点与所述当前视频画面中的人脸区域的中心点之间的第二距离；根据所述第一距离和所述第二距离，计算所述摄像头在所述水平方向的所述第一拍摄角度。

在一些实施方式中，所述摄像头的拍摄角度信息包括在水平方向的第一拍摄角度和在竖直方向的第二拍摄角度，所述目标拍摄角度信息包括在所述水平方向的第一目标拍摄角度和在竖直方向的第二目标拍摄角度；所述根据所述摄像头的拍摄角度信息和目标拍摄角度信息，通过所述动力机构驱动所述摄像头沿第一轴转动和通过所述传动机构驱动所述摄像头沿所述第二轴转动，包括：根据所述第一拍摄角度和所述第一目标拍摄角度，通过所述传动机构驱动所述摄像头沿所述第二轴转动以调节所述摄像头在水平方向的拍摄角度至所述第一目标拍摄角度；根据所述第二拍摄角度和所述第二目标拍摄角度，通过所述动力机构驱动所述摄像头沿第一轴转动以调节所述摄像头在竖直方向的拍摄角度至所述第二目标拍摄角度。

本申请实施例基于显示设备的声源定位方法，在当前用户使用电视机进行视频通话过程中，无需人工控制摄像头，摄像头既能够实现自动对电视机的当前用户进行精确的视频定位跟踪，并且通过结合人脸识别，能够进一步提高声源定位的精确性，以将当前用户的人脸图像置于视频通话画面的中间位置，提高用户在视频通话场景下的使用体验。

请参阅图4，图4是本申请实施例提供的一种显示设备的结构示意性框图。

如图4所示，该显示设备400可以包括通过系统总线401连接的处理器402、存储器403和通信接口404，其中，存储器403可以包括非易失性计算机可读存储介质和内存储器。

非易失性计算机可读存储介质可存储计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于显示设备的声源定位方法。

处理器402用于存储计算机程序。

存储器403用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的基于显示设备的声源定位方法。

该通信接口404用于通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的显示设备400的限定，具体的显示设备400可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，该总线301比如为i2c(inter-integratedcircuit)总线，存储器403可以是flash芯片、只读存储器(rom，read-onlymemory)磁盘、光盘、u盘或移动硬盘等，处理器402可以是中央处理单元(centralprocessingunit，cpu)，该处理器402还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施例中，所述显示设备包括显示屏、麦克风阵列、与所述显示屏连接的调整结构和设于所述调整结构上的摄像头，所述麦克风阵列包括多个麦克风；处理器402用于运行存储在存储器403中的计算机程序，以执行如下步骤：

在一些实施方式中，在所述根据多个所述麦克风采集到的当前语音信息，确定时延信息时，处理器402用于执行：通过所述麦克风阵列接收当前用户的当前语音信息；根据所述当前语音信息，确定当前语音到达不同麦克风的时延，以得到所述时延信息。

在一些实施方式中，在所述根据所述时延信息以及多个麦克风的位置信息，获取当前声源的第一位置信息时，处理器402用于执行：利用所述时延信息以及和多个所述麦克风的位置关系构造多个双曲面，并通过计算多个双曲面的交点得到当前声源的第一位置信息。

在一些实施方式中，所述调整结构包括动力机构和传动机构；在所述根据所述第一位置信息，通过所述调整结构控制所述摄像头进行第一次声源跟踪时，处理器402还用于执行：根据所述第一位置信息，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动，以使所述摄像头进行第一次声源跟踪。

在一些实施方式中，在所述根据所述人脸识别结果，通过所述调整结构控制所述摄像头进行第二次声源跟踪，以将当前用户的人脸图像调整至当前视频图像的中间位置时，处理器402用于执行：根据预设的用户姿态模型对采集的多个人脸图像进行筛选，得到当前用户的人脸图像；根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，控制摄像头进行第二次声源跟踪，以将所述当前用户的人脸图像置于当前视频画面的中间位置。

在一些实施方式中，在所述调整结构包括动力机构和传动机构；所述根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，控制摄像头进行第二次声源跟踪时，处理器402用于执行：根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动，以使所述摄像头进行第二次声源跟踪。

在一些实施方式中，在所述根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，通过所述动力机构驱动所述摄像头沿第一轴转动和通过所述传动机构驱动所述摄像头沿所述第二轴转动时，处理器402用于执行：根据视频数据的当前视频画面和所述当前视频画面对应的人脸图像，判断所述当前用户的人脸图像是否在当前视频画面的中间位置；所述当前用户的人脸图像不在当前视频画面的中间位置，确定所述摄像头的拍摄角度信息；根据所述摄像头的拍摄角度信息和目标拍摄角度信息，通过所述动力机构驱动所述摄像头沿第一轴转动和/或通过所述传动机构驱动所述摄像头沿所述第二轴转动。

在一些实施方式中，在所述确定所述摄像头的拍摄角度信息时，处理器402用于执行：计算所述当前用户在所述当前视频画面中的面积；根据所述面积，确定所述当前用户与所述摄像头之间的第一距离；根据所述第一距离、所述当前视频画面的中心点坐标以及所述当前视频画面中人脸区域的中心点坐标，确定所述摄像头的拍摄角度信息。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对基于显示设备的声源定位方法的详细描述，此处不再赘述。

本申请实施例显示设备，在当前用户使用电视机进行视频通话过程中，无需人工控制摄像头，摄像头既能够实现自动对电视机的当前用户进行精确的视频定位跟踪，并且通过结合人脸识别，能够进一步提高声源定位的精确性，以将当前用户的人脸图像置于视频通话画面的中间位置，提高用户在视频通话场景下的使用体验。

本申请的实施例中还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序中包括程序指令，处理器执行程序指令，实现本申请实施例提供的任一基于显示设备的声源定位方法。

其中，计算机可读存储介质可以是前述实施例的显示设备的内部存储单元，例如显示设备的硬盘或内存。计算机可读存储介质也可以是显示设备的外部存储设备，例如显示设备上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种基于显示设备的声源定位方法，因此，可以实现本申请实施例所提供的任一种基于显示设备的声源定位方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈小平;熊德林;陈国丞;常建伟;林铮
技术所有人：佛山市云米电器科技有限公司;陈小平
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。