音频调整方法、装置和音响设备与流程

文档序号:15387246发布日期:2018-09-08 00:43阅读:129来源:国知局

本发明涉及智能家居技术领域,特别是涉及到一种音频调整方法、装置和音响设备。



背景技术:

随着智能家居技术的发展,各种家电设备越来越智能化,其中就包括可以与用户交互的智能音响设备。智能音响设备能够感知探测周围环境,当检测到用户靠近时,则调整音频输出特性,优化音频效果,给用户提供最佳的听觉感受。

然而,现有的智能音响设备主要通过超声波传感器感知周围环境,实际上,只要有目标靠近,无论该目标是否是用户,甚至无论其是否是人类,智能音响都会把他当作用户进行音频调整,导致无效调整或者误调,使得用户所在位置反而无法获得最佳的音频效果,用户体验不佳。

因此,如何有针对性的进行音频调整,是当前亟需解决的技术问题。



技术实现要素:

本发明的主要目的为提供一种音频调整方法、装置和音响设备,旨在解决现有的音响设备无法有针对性的进行音频调整的技术问题。

为达以上目的,本发明实施例提出一种音频调整方法,所述方法包括以下步骤:

通过摄像头采集图像;

检测所述图像中是否有特定目标;

当有特定目标时,获取所述特定目标的位置信息;

根据所述特定目标的位置信息调整音频输出特性。

可选地,所述摄像头为广角摄像头。

可选地,所述广角摄像头为鱼眼摄像头。

可选地,所述检测所述图像中是否出现特定目标的步骤包括:

采用人脸识别技术检测所述图像中是否有人脸;

当所述图像中有人脸时,判定所述图像中有特定目标。

可选地,所述检测所述图像中是否出现特定目标的步骤包括:

采用人脸识别技术检测所述图像中是否有特定的人脸;

当所述图像中有特定的人脸时,判定所述图像中有特定目标。

可选地,所述检测所述图像中是否出现特定目标的步骤包括:

采用人体检测技术检测所述图像中是否有人体;

当所述图像中有人体时,判定所述图像中有特定目标。

可选地,所述检测所述图像中是否出现特定目标的步骤包括:

采用人体检测技术检测所述图像中是否有特定的人体;

当所述图像中有特定的人体时,判定所述图像中有特定目标。

可选地,所述获取所述特定目标的位置信息包括:通过超声波传感器或红外传感器检测所述特定目标的位置信息。

可选地,所述位置信息包括距离和方位。

可选地,所述音频输出特性包括音频音量、音频音道和音频均衡参数中的至少一种。

可选地,所述根据所述特定目标的位置信息调整音频输出特性的步骤包括:当所述特定目标至少有两个时,综合各个特定目标的位置信息调整所述音频输出特性。

本发明实施例同时提出一种音频调整装置,所述装置包括:

图像采集模块,用于通过摄像头采集图像;

目标检测模块,用于检测所述图像中是否有特定目标;

位置获取模块,用于当所述图像中有特定目标时,获取所述特定目标的位置信息;

音频调整模块,用于根据所述特定目标的位置信息调整音频输出特性。

可选地,所述目标检测模块包括:

第一检测单元,用于采用人脸识别技术检测所述图像中是否有人脸;

第一判定单元,用于当所述图像中有人脸时,判定所述图像中有特定目标。

可选地,所述目标检测模块包括:

第二检测单元,用于采用人脸识别技术检测所述图像中是否有特定的人脸;

第二判定单元,用于当所述图像中有特定的人脸时,判定所述图像中有特定目标。

可选地,所述目标检测模块包括:

第三检测单元,用于采用人体检测技术检测所述图像中是否有人体;

第三判定单元,用于当所述图像中有人体时,判定所述图像中有特定目标。

可选地,所述目标检测模块包括:

第四检测单元,用于采用人体检测技术检测所述图像中是否有人体;

第四判定单元,用于当所述图像中有人体时,判定所述图像中有特定目标。

可选地,所述位置获取模块用于:通过超声波传感器或红外传感器检测所述特定目标的位置信息。

可选地,所述音频调整模块用于:当所述特定目标至少有两个时,综合各个特定目标的位置信息调整所述音频输出特性。

本发明实施例还提出一种音响设备,其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述音频调整方法。

本发明实施例所提供的一种音频调整方法,通过摄像头采集图像并检测图像中是否有特定目标,当有特定目标时,才根据特定目标的位置信息调整音频输出特性,从而实现了只针对特定目标进行音频调整,解决了音响设备无法有针对性的进行音频调整的技术问题,避免了非特定目标靠近音响设备时对音频效果的影响,使得用户所在位置始终能够获得最佳的音频效果,始终为用户提供最佳的听觉感受,提升了用户体验。

附图说明

图1是本发明的音频调整方法一实施例的流程图;

图2是应用本发明实施例的音频调整方法的音响设备一实例的结构示意图;

图3是图2中的音响设备的俯视图;

图4是图2中的音响设备通过摄像头检测特定目标的示意图;

图5是本发明的音频调整装置一实施例的模块示意图;

图6是图5中的目标检测模块的模块示意图;

图7是图5中的目标检测模块的模块示意图;

图8是图5中的目标检测模块的模块示意图;

图9是图5中的目标检测模块的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本发明实施例的音频调整方法和装置,主要应用于音响设备,当然也可以应用于其它发声装置,本发明对此不作限定。以下以应用于音响设备为例进行详细说明。

参照图1,提出本发明的音频调整方法一实施例,所述方法包括以下步骤:

s11、通过摄像头采集图像。

本发明实施例中,音响设备通过摄像头实时或定时的采集图像。摄像头可以选择广角摄像头,以扩大检测范围,优选鱼眼摄像头等超广角摄像头。

s12、检测图像中是否有特定目标。当图像中有特定目标时,进入下一步骤s13。

所述特定目标可以根据实际需要设定,可以是特定的一类物体如人类,也可以是特定的一个或多个物体如某个或某几个特定的人。

以特定目标为人类为例,音响设备只要检测到图像中有人类存在,则判定图像中有特定目标。在检测图像中是否有人类存在时,主要是检测图像中是否存在人类特有的特征,如人脸、人体等。

可选地,音响设备可以采用人脸识别技术检测图像中是否有人脸,当图像中有人脸时,则说明图像中有人类存在,判定图像中有特定目标。人脸识别技术是比较成熟的现有技术,本发明在此不赘述。

可选地,音响设备采用人体检测技术检测图像中是否有人体,当图像中有人体时,则说明图像中有人类存在,判定图像中有特定目标。

具体实施时,可以基于梯度方向直方图(histogramoforientedgradient,hog)、尺度不变特征转换(scale-invariantfeaturetransform,sift)、局部二值模式(localbinarypattern,lbp)、harr等图像特征进行人体检测。人体检测技术是比较成熟的现有技术,本发明在此不赘述。

以特定目标为某个或某几个特定的人为例,音响设备只要检测到图像中有特定的人存在,则判定图像中有特定目标。在检测图像中是否有特定的人存在时,主要是检测图像中是否存在特定的人的特征,如特定的人脸、特定的人体等。

可选地,音响设备可以采用人脸识别技术检测图像中是否有特定的人脸,当图像中有特定的人脸时,则说明图像中有特定的人存在,判定图像中有特定目标。

具体实施时,预先存入特定的人的人脸特征,后续检测时,音响设备采用人脸识别技术提取出图像中的人脸特征,将提取的人脸特征与预存的人脸特征进行比较,判断二者是否匹配,当二者匹配时,则认定图像中有特定的人脸,继而判定图像中有特定目标。当预存了多个人脸特征时,只要提取的人脸特征与预存的其中一个人脸特征相匹配就认定图像中有特定的人脸。

可选地,音响设备可以采用人体检测技术检测图像中是否有特定的人体,当图像中有特定的人体时,则说明图像中有特定的人存在,判定图像中有特定目标。

具体实施时,预先存入特定的人的人体特征,后续检测时,音响设备采用人体检测技术提取出图像中的人体特征,将提取的人体特征与预存的人体特征进行比较,判断二者是否匹配,当二者匹配时,则认定图像中有特定的人体,继而判定图像中有特定目标。当预存了多个人体特征时,只要提取的人体特征与预存的其中一个人体特征相匹配就认定图像中有特定的人体。

s13、获取特定目标的位置信息。

本发明实施例中,当检测到特定目标时,音响设备则对该特定目标进行跟踪,并获取特定目标的位置信息。

位置信息可以是距离,也可以是方位,还可以包括距离和方位。所述距离即特定目标与音响设备的距离。所述方位即特定目标相对于音响设备的方位,如在音响设备的正前方、左前方、右前方、左边、右边、左后方、右后方、正后方等。

本发明实施例中,音响设备可以通过超声波传感器、红外传感器等传感装置对特定目标进行定位,获取特定目标的位置信息。通过超声波传感器和红外传感器获取目标的方位和距离具体方式与现有技术相同,在此不再赘述。

s14、根据特定目标的位置信息调整音频输出特性。

本发明实施例中,音响设备根据特定目标的方位和/或距离调整音频输出特性,以进行音频优化,达到最佳音频输出效果。

所述音频输出特性可以包括音频音量、音频音道、音频均衡参数等特征中的一种或者至少两种的组合。其中,音频均衡参数可以通过音频均衡器进行调节。

例如:用户(特定目标)离音响设备5米时,听到的音量为50分贝,离音响设备10米时,为了使用户听到的音量等于50分贝,音响设备则需提高音频音量。由于在室内,距离与音量成一定的对应关系,故音响设备可以根据对应关系调节音频音量,使得用户在不同地点听到的音量是一样的,即用户在不同地点听到的音量可以统一为预设值,该预设值可以由用户自行设置,也可以是出厂设置。

进一步地,当特定目标至少有两个时,音响设备则综合各个特定目标的位置信息调整音频输出特性。具体实施时,可以采用折中调整方案,根据各个特定目标的中间位置调整音频输出特性,以使各个特定目标都能感受到较佳的听觉效果;也可以采用优先调整方案,根据优先级高的特定目标的位置信息来调整音频输出特性,以使优先级高的特定目标获得最佳的听觉效果。

举例而言,假设特定目标有两个,其中一个特定目标距离音响设备5米,另一个特定目标距离音响设备7米,音响设备则计算出二者距离的平均值6米作为调整基础,即根据两个特定目标的距离的平均值来调整音频输出特性,保证距离音响设备6米处具有最佳的听觉效果,从而使得两个特定目标都能获得较佳的听觉效果。

本领域技术人员可以理解,还可以根据同样的发明构思采用其它的综合调整方案,本发明在此不再一一列举赘述。

如图2、图3所示,为应用本发明实施例的音频调整方法的音响设备一实例,该音响设备顶部设置有鱼眼摄像头100。音响设备通过鱼眼摄像头100检测是否有特定目标在音响设备附近,如图4所示,该鱼眼摄像头100的视角很广,几乎能实现360度扫描探测,因此,无论特定目标在哪个方位,音响设备都能够通过鱼眼摄像头100探测到,并根据特定目标的方位和距离调整音频输出特性,输出最佳的音频效果。同时,无视其他非特定目标,避免其他非特定目标对音频效果的干扰和影响,保持最佳音频效果。

本发明实施例的音频调整方法,通过摄像头采集图像并检测图像中是否有特定目标,当有特定目标时,才根据特定目标的位置信息调整音频输出特性,从而实现了只针对特定目标进行音频调整,解决了音响设备无法有针对性的进行音频调整的技术问题,避免了非特定目标靠近音响设备时对音频效果的影响,使得用户所在位置始终能够获得最佳的音频效果,始终为用户提供最佳的听觉感受,提升了用户体验。

参照图5,提出本发明的音频调整装置一实施例,所述装置包括图像采集模块10、目标检测模块20、位置获取模块30和音频调整模块40,其中:图像采集模块10,用于通过摄像头采集图像;目标检测模块20,用于检测图像中是否有特定目标;位置获取模块30,用于当图像中有特定目标时,获取特定目标的位置信息;音频调整模块40,用于根据特定目标的位置信息调整音频输出特性。

本发明实施例中,图像采集模块10通过摄像头实时或定时的采集图像。摄像头可以选择广角摄像头,以扩大检测范围,优选鱼眼摄像头等超广角摄像头。

所述特定目标可以根据实际需要设定,可以是特定的一类物体如人类,也可以是特定的一个或多个物体如某个或某几个特定的人。

以特定目标为人类为例,目标检测模块20只要检测到图像中有人类存在,则判定图像中有特定目标。在检测图像中是否有人类存在时,主要是检测图像中是否存在人类特有的特征,如人脸、人体等。

可选地,如图6所示,目标检测模块20包括第一检测单元21和第一判定单元22,其中:第一检测单元21,用于采用人脸识别技术检测图像中是否有人脸;第一判定单元22,用于当图像中有人脸时,判定图像中有特定目标。人脸识别技术是比较成熟的现有技术,本发明在此不赘述。

可选地,如图7所示,目标检测模块20包括第三检测单元25和第三判定单元26,其中:第三检测单元25,用于采用人体检测技术检测图像中是否有人体;第三判定单元26,用于当图像中有人体时,判定图像中有特定目标。

具体实施时,第三检测单元25可以基于梯度方向直方图(histogramoforientedgradient,hog)、尺度不变特征转换(scale-invariantfeaturetransform,sift)、局部二值模式(localbinarypattern,lbp)、harr等图像特征进行人体检测。人体检测技术是比较成熟的现有技术,本发明在此不赘述。

以特定目标为某个或某几个特定的人为例,目标检测模块20只要检测到图像中有特定的人存在,则判定图像中有特定目标。在检测图像中是否有特定的人存在时,主要是检测图像中是否存在特定的人的特征,如特定的人脸、特定的人体等。

可选地,如图8所示,目标检测模块20包括第二检测单元23和第二判定单元24,其中:第二检测单元23,用于采用人脸识别技术检测图像中是否有特定的人脸;第二判定单元24,用于当图像中有特定的人脸时,判定图像中有特定目标。

具体实施时,预先存入特定的人的人脸特征,后续检测时,第二检测单元23采用人脸识别技术提取出图像中的人脸特征,将提取的人脸特征与预存的人脸特征进行比较,判断二者是否匹配,当二者匹配时,则认定图像中有特定的人脸,继而第二判定单元24判定图像中有特定目标。当预存了多个人脸特征时,只要提取的人脸特征与预存的其中一个人脸特征相匹配,第二检测单元23就认定图像中有特定的人脸。

可选地,如图9所示,目标检测模块20包括第四检测单元27和第四判定单元28,其中:第四检测单元27,用于采用人体检测技术检测图像中是否有人体;第四判定单元28,用于当图像中有人体时,判定图像中有特定目标。

具体实施时,预先存入特定的人的人体特征,后续检测时,第四检测单元27采用人体检测技术提取出图像中的人体特征,将提取的人体特征与预存的人体特征进行比较,判断二者是否匹配,当二者匹配时,则认定图像中有特定的人体,继而第四判定单元28判定图像中有特定目标。当预存了多个人体特征时,只要提取的人体特征与预存的其中一个人体特征相匹配,第四检测单元27就认定图像中有特定的人体。

本发明实施例中,当检测到特定目标时,位置获取模块30则对该特定目标进行跟踪,并获取特定目标的位置信息。

位置信息可以是距离,也可以是方位,还可以包括距离和方位。所述距离即特定目标与音响设备的距离。所述方位即特定目标相对于音响设备的方位,如在音响设备的正前方、左前方、右前方、左边、右边、左后方、右后方、正后方等。

本发明实施例中,位置获取模块30可以通过超声波传感器、红外传感器等传感装置对特定目标进行定位,获取特定目标的位置信息。通过超声波传感器和红外传感器获取目标的方位和距离具体方式与现有技术相同,在此不再赘述。

本发明实施例中,音频调整模块40根据特定目标的方位和/或距离调整音频输出特性,以进行音频优化,达到最佳音频输出效果。

所述音频输出特性可以包括音频音量、音频音道、音频均衡参数等特征中的一种或者至少两种的组合。其中,音频均衡参数可以通过音频均衡器进行调节。

例如:用户(特定目标)离音响设备5米时,听到的音量为50分贝,离音响设备10米时,为了使用户听到的音量等于50分贝,音频调整模块40则需提高音频音量。由于在室内,距离与音量成一定的对应关系,故音频调整模块40可以根据对应关系调节音频音量,使得用户在不同地点听到的音量是一样的,即用户在不同地点听到的音量可以统一为预设值,该预设值可以由用户自行设置,也可以是出厂设置。

进一步地,当特定目标至少有两个时,音频调整模块40则综合各个特定目标的位置信息调整音频输出特性。具体实施时,可以采用折中调整方案,根据各个特定目标的中间位置调整音频输出特性,以使各个特定目标都能感受到较佳的听觉效果;也可以采用优先调整方案,根据优先级高的特定目标的位置信息来调整音频输出特性,以使优先级高的特定目标获得最佳的听觉效果。

举例而言,假设特定目标有两个,其中一个特定目标距离音响设备5米,另一个特定目标距离音响设备7米,音频调整模块40则计算出二者距离的平均值6米作为调整基础,即根据两个特定目标的距离的平均值来调整音频输出特性,保证距离音响设备6米处具有最佳的听觉效果,从而使得两个特定目标都能获得较佳的听觉效果。

本领域技术人员可以理解,还可以根据同样的发明构思采用其它的综合调整方案,本发明在此不再一一列举赘述。

本发明实施例的音频调整装置,通过摄像头采集图像并检测图像中是否有特定目标,当有特定目标时,才根据特定目标的位置信息调整音频输出特性,从而实现了只针对特定目标进行音频调整,解决了音响设备无法有针对性的进行音频调整的技术问题,避免了非特定目标靠近音响设备时对音频效果的影响,使得用户所在位置始终能够获得最佳的音频效果,始终为用户提供最佳的听觉感受,提升了用户体验。

本发明同时提出一种音响设备,其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序,所述应用程序被配置为用于执行音频调整方法。所述音频调整方法包括以下步骤:通过摄像头采集图像;检测图像中是否有特定目标;当有特定目标时,获取特定目标的位置信息;根据特定目标的位置信息调整音频输出特性。本实施例中所描述的音频调整方法为本发明中上述实施例所涉及的音频调整方法,在此不再赘述。

本领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1