声学控制设备和声学控制方法

文档序号:7957728阅读:205来源:国知局
专利名称:声学控制设备和声学控制方法
声学控制设备和声学控制方法技术领域
本公开涉及声学控制设备和声学控制方法。
技术背景
近年来,随着信息处理技术的进步,已提议了一种用于根据收听者/观看者的时间和状况来控制音频变化的技术。
例如,下面给出的日本专利公开第2008-199449号(下文中称之为专利文件1)描述了一种用于通过利用旋转机构来调整电视(TV)的显示屏的取向的技术,以便获得根据 TV的电源被接通时的时间而事先预定的方向、视频亮度和音量。另外,下面给出的日本专利公开第2004-312401号(下文中称之为专利文件幻描述了这样一种技术分析欣赏图像和声音的收听者/观看者的状况,并且当分析的结果指示收听者/观看者开始关注于除了图像和声音之外的事情时,减少声音的音量,以便不造成干扰。发明内容
然而,专利文件1和2中描述的技术根据事先建立的设置状况来实施对声学输出的控制。换言之,所述技术并不实施对收听者/观看者的动态变化的位置的控制。
另外,近年来,已提议并启用了一种用于控制环绕声系统的技术,所述环绕声系统包括多个扬声器;针对扬声器的TV输出声音;以及摄影机,其安装在TV上,以充当用于检测在下文中也被简称为用户的观看者/收听者的位置的摄影机。根据用户的位置来控制这种环绕声系统。同样在这种技术的情况下,作为前提,扬声器的位置以及TV或摄影机的位置是已知的。没有这样的前提,则难以应用该技术。
这样一来就希望应对上述问题的本公开提供一种声学控制设备,其能够监视用户的动态变化的位置,并且根据用户的位置来控制声学输出。另外还希望本公开提供一种用于该设备的声学控制方法。
为了解决上面描述的问题,根据本公开的实施例,提供了一种声学控制设备,该声学控制设备包括扬声器位置计算部,配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置基于所述扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为所述麦克风的位置的位置;以及声音收集的结果,所述声音收集由所述麦克风执行,以收集每个都由所述扬声器中的每一个生成的信号声音;以及声学控制部,配置成通过以下来执行对由所述扬声器中的每一个生成的声音的控制基于所述扬声器布局空间中的用户的拍摄图像来计算所述用户的位置;计算所述用户的位置和所述扬声器中的每一个的位置之间的距离;以及根据计算的距离来控制由所述扬声器生成的声音。
根据本公开的另一个实施例,提供了一种声学控制方法,该声学控制方法包括基于多个扬声器布置于其中的扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像,计算所述麦克风的位置;基于计算的所述麦克风的位置以及由所述麦克风执行用来收集每个都由所述扬声器中的每一个生成的信号声音的声音收集的结果,找到布置于所述扬声器布局空间中的所述扬声器中的每一个的位置;以及根据计算的用户的位置和从所述用户的位置到所述扬声器中的每一个的位置的距离,控制由所述扬声器中的每一个生成的声音。
如上所述,根据本公开,通过监视用户的动态变化的位置,可以根据用户的位置来控制声学输出。


图1是参考用来描述确定声源位置的说明图2是参考用来描述确定声源位置的说明图3是参考用来描述确定声源位置的说明图4是参考用来描述根据本公开实施例的环绕声调整系统的说明图5是参考用来描述根据实施例的典型环绕声调整系统的说明框图6是示出根据实施例的声学控制设备的典型配置的框图7是示出根据实施例的声学控制设备中使用的图像处理部的典型配置的框图8是示出根据实施例的声学控制设备中使用的扬声器位置计算部的典型配置的框图9是示出根据实施例的声学控制设备中使用的声学控制部的典型配置的框图10是参考用来描述根据实施例的用于计算每个扬声器位置的方法的说明图IlA是参考用来描述根据实施例的用于计算每个扬声器位置的方法的说明图IlB是参考用来描述根据实施例的用于计算每个扬声器位置的方法的说明图12是参考用来描述根据实施例的用于计算扬声器位置的方法的说明图13是参考用来描述根据实施例的用于计算扬声器位置的方法的说明图14是参考用来描述根据实施例的用于计算麦克风位置的方法的说明图15是参考用来描述根据实施例的用于计算麦克风位置的方法的说明图16是参考用来描述根据实施例的用于计算麦克风位置的方法的说明图17是参考用来描述根据实施例的声学控制方法的说明图18示出了表示根据实施例的声学控制方法的典型流程的流程图19示出了表示根据实施例的声学控制方法的典型流程的流程图;以及
图20是示出根据本公开实施例的声学控制设备的硬件配置的框图。
具体实施方式
下面通过参考附图来详细地描述本公开的优选实施例。要注意的是,在本公开的说明书的附图中,具有彼此等同功能的功能元件用相同的标号来指示,并且这样的功能元件仅说明一次,以便避免重复描述。
同样值得注意的是,以如下安排的章节来对本公开进行说明。
(1)声学控制设备和声学控制方法概要
(2)第一实施例
(2-1)环绕声调整系统
(2-2)声学控制设备的配置
(2-3)用于计算扬声器位置的典型具体方法
(2-4)用于计算麦克风位置的典型修改方法
(2-5)麦克风类型
(2-6)声学控制方法的流程
(3)根据当前实施例的声学控制设备的硬件配置
(1)声学控制设备和声学控制方法概要
在说明根据本公开实施例的声学控制设备和针对该声学控制设备提供的声学控制方法之前,通过将声学控制设备和声学控制方法与用于确定每个声源的位置的现有技术的方法相比较,来简短地描述根据本公开实施例的声学控制设备和针对该声学控制设备提供的声学控制方法的概要。图1至3是每个在以下描述确定声源位置时加以参考的说明图。 图4是在以下描述根据本公开实施例的环绕声调整系统时加以参考的说明图。
所谓的家庭影院已变得流行。在家庭影院中,TV和放置在围绕TV的地方的多个扬声器用来观看和收听TV广播或者记录在诸如数字通用盘(DVD)或蓝光盘之类的盘上的由图像和声音构成的内容。
例如如图1所示,在下文中也被简称为扬声器的四个环绕扬声器每个放置在围绕 TV的地方。在这种情况下,这四个扬声器的恰当位置是具有与用户的位置相一致的中心的圆的圆周上的位置。取决于扬声器放置于其中的安装区域的尺寸和形状,扬声器可能不会实际上放置在对于用户的位置而言恰当的位置,如图1所示。如果扬声器没有实际上放置在对于用户的位置而言恰当的位置,则引发了环绕声的平衡不可避免地崩溃的问题。
为了解决上面描述的问题,已提议并启用了这样一种技术通过在用户的位置处设置用于收集扬声器所生成的声音的麦克风来校准环绕声。这种技术是用于在安装了麦克风的对于用户位置而言恰当的位置处设置由每个扬声器输出的声音的技术。通过以这种方式设置扬声器的声音,用户能够通过在安装了麦克风的位置处观看和收听内容而在最优环绕环境中听到声音,而不管以下事实某些扬声器的安装位置在物理上对于用户的位置而言并不恰当。
作为基于这样的环绕声校准技术的方法,提供了典型地如图2所示的利用单耳麦克风的方法和典型地如图3所示的利用立体声麦克风的方法。
在如图2所示的利用单耳麦克风的方法中,由于使用单耳麦克风的声音收集的特性,可以在穿过麦克风和充当声源的扬声器的直线上确定声源的位置。换言之,声源的位置可以沿着穿过麦克风和充当声源的扬声器的线一维地移动。
另一方面,在如图3所示的利用立体声麦克风的方法的情况下,可以以立体声的方式收集声音。这样一来,由扬声器实施的声源的位置就可以在被识别为相对于立体声麦克风的方向的方向上二维地移动。结果,可以在平面上确定声源的位置,以便四个扬声器的位置变得相对于用户的位置、亦即立体声麦克风的位置对称。
另外,通过利用能够从三个或更多声道收集声音的多声道麦克风,不仅可以在平面上确定声源的位置,而且还可以三维地确定声源的位置。
然而,这样的环绕声校准技术引发了如下问题如果用户在除了麦克风的安装位置之外的地方观看和收听内容,则环绕声的平衡不可避免地崩溃。
这样一来就希望应对上述问题的本公开提供一种声学控制方法,该方法将要在下面描述,作为源自对以下技术的认真研究的方法,所述技术每个都能够监视用户的动态变化的位置并且根据用户的位置来控制声学输出。如图4所示,用户的位置的变化被监视,并且声源的位置动态地变化。这样一来就可以在任何时间向用户提供具有良好平衡的环绕声,而不考虑用户的观看/收听位置。
(2)第一实施例
(2-1)环绕声调整系统
首先,通过参考图5来说明根据本公开的第一实施例的环绕声调整系统1如下。图 5是在以下描述根据实施例的典型环绕声调整系统1时加以参考的说明框图。
如图5所示,根据实施例的环绕声调整系统1具有用于显示图像内容的图像显示设备3和声学控制设备10。图像显示设备3的典型例子是TV。
图像显示设备3是能够显示包括图像和声音的内容的图像内容的设备。另外,在图像显示设备3上提供摄影机。摄影机能够拍摄图像显示设备3的环境的图像。摄影机可以是能够拍摄活动和静止图像的摄像机,也可以是拍摄静止图像的照相机。由这样的摄影机拍摄的图像被输出到根据实施例的声学控制设备10。
以下描述说明了这样的典型配置,在所述典型配置下,如上所述,在图像显示设备 3上提供能够拍摄图像显示设备3的环境的图像的摄影机。然而,根据实施例的环绕声调整系统1决不限于这样的配置。即使环绕声调整系统1可以具有没有设置在图像显示设备3 上的摄影机的配置,环绕声调整系统1也可以具有这样的配置,在所述配置下,声学控制设备10可以从外部摄影机中接收多个扬声器设置在其中的扬声器布局空间的拍摄图像。
声学控制设备10是用于通过采用下面将要描述的声学控制方法来控制内容的声音并且向用户提供对于用户而言恰当的环绕声的设备。声学控制设备10能够向多个扬声器5输出音频内容并且获取由麦克风7从扬声器5收集的声音。另外,根据实施例的声学控制设备10还能够从图像拍摄设备获取由图像拍摄设备拍摄的图像。图像拍摄设备的典型例子是外部安装的各种摄影机和各种便携式装置如具有摄影机功能的移动电话。
如图5所示,内容记录/再生设备9可以连接到声学控制设备10。内容记录/再生设备9的典型例子是DVD记录器和蓝光记录器。另外,内容再生设备可以连接到声学控制设备10。内容再生设备的典型例子是紧致盘(⑶)播放器、小型盘(MD)播放器、DVD播放器和蓝光播放器。
在图5所示的典型配置中,声学控制设备10被示出为与图像显示设备3和内容记录/再生设备9相分离。然而要注意的是,包括根据实施例的声学控制设备10的配置决不限于这样的配置。例如,声学控制设备10可以与图像显示设备3集成。作为另一种替换, 声学控制设备10与内容记录/再生设备9集成。另外,在以下描述中说明的声学控制设备 10可以被实施为具有图像显示设备3和内容记录/再生设备9的功能的设备。
根据实施例的声学控制设备可以包括扬声器位置计算部,配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置基于所述扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为所述麦克风的位置的位置;以及声音收集的结果,所述声音收集由所述麦克风执行, 以收集每个都由所述扬声器中的每一个生成的信号声音;以及声学控制部,配置成通过以下来执行对由所述扬声器中的每一个生成的声音的控制基于所述扬声器布局空间中的用户的拍摄图像来计算所述用户的位置;计算所述用户的位置和所述扬声器中的每一个的位置之间的距离;以及根据计算的距离来控制由所述扬声器生成的声音。
(2-2)声学控制设备的配置
[整体配置]
接下来,通过参考图6来说明根据实施例的声学控制设备10的整体配置。图6是示出根据实施例的声学控制设备10的典型配置的框图。
如图6所示,根据实施例的声学控制设备10使用综合控制部101、用户操作信息获取部103、图像获取部105、图像处理部107、位置计算信号控制部109、声学信息获取部111、 扬声器位置计算部113、声学控制部115、显示控制部117和存储部119。
综合控制部101典型地具有中央处理单元(CPU)、数字信号处理器(DSP)、只读存储器(ROM)、随机存取存储器(RAM)和通信部。综合控制部101是用于一般地控制根据实施例的声学控制设备10的所有操作的处理部。另外,综合控制部101输出触发,以便开启声学控制设备10中使用的每一个其它处理部的操作。而且,综合控制部101将特定处理部中生成的数据和信息传递到别的处理部。另外,综合控制部101还充当调停者,以便驱使根据实施例的声学控制设备10中使用的其它处理部通过彼此协作来进行操作。
用户操作信息获取部103典型地具有CPU、ROM、RAM、输入部和通信部。通过典型地操作针对声学控制设备10设置的遥控器,或者操作声学控制设备10的按钮或触摸面板上的多个输入键,用户可以执行用户操作。当用户执行这样的用户操作时,用户操作信息获取部103获取用户操作信息(其为关于用户所执行的操作的信息),并且将信息输出到综合控制部101。参考从用户操作信息获取部103接收的用户操作信息,综合控制部101请求起到负责由用户执行的操作的部件之作用的处理部执行针对该操作的处理。
图像获取部105典型地具有CPU、ROM、RAM和通信部。图像获取部105获取用于多个扬声器5布置于其中的空间的拍摄图像的数据。在以下描述中,多个扬声器5布置于其中的空间也被称为扬声器布局空间。通过利用声学控制设备10能够与之通信的摄影机已拍摄了扬声器布局空间的拍摄图像。如下面将要描述的那样,扬声器布局空间的拍摄图像的典型例子是放置在扬声器布局空间中的麦克风和放置在接近于麦克风位置的地方的对象的拍摄图像。扬声器布局空间的拍摄图像的另一个典型例子是存在于扬声器布局空间中的用户的拍摄图像。
在图像获取部105已从安装在声学控制设备10外部地方的摄影机(例如安装在图像显示设备3上的摄影机)成功地获取了这样的拍摄图像之后,图像获取部105将用于拍摄图像的数据输出到综合控制部101。当综合控制部101从图像获取部105接收到拍摄图像时,综合控制部101将拍摄图像传递到图像处理部107。另外,通过将拍摄图像中的每一个与典型地关于图像拍摄日期和图像拍摄时间的信息相关联,综合控制部101可以将从图像获取部105接收的多个拍摄图像存储在稍后将要描述的存储部119中作为历史信息。
图像处理部107典型地具有CPU、图形处理单元(GPU)、ROM和RAM。图像处理部 107是用于对从图像获取部105接收的多个拍摄图像进行各种信号处理的处理部。当图像处理部107对从图像获取部105接收的多个拍摄图像进行各种信号处理时,图像处理部107 能够对稍后将要描述的存储部119进行访问,以便引用各种程序、各种数据库和各种参数。图像处理部107将由此执行的图像处理的结果供应到综合控制部101,综合控制部101然后将结果传递到声学控制设备10中使用的各种其它处理部。
要注意的是,稍后将会另外描述根据实施例的图像处理部107的详细配置。
位置计算信号控制部109典型地具有CPU、DSP、R0M和RAM。当综合控制部101开始对布置于扬声器布局空间中的扬声器5的位置的计算时,根据从综合控制部101接收的预定触发,位置计算信号控制部109控制操作以输出在对扬声器5的位置的计算中使用的信号。在以下描述中,在对扬声器5的位置的计算中使用的信号也被称为位置计算信号。位置计算信号控制部109控制操作以典型地输出位置计算信号,以便驱动布置于扬声器布局空间中的扬声器5中的每一个单独地输出预定位置计算信号如嘟嘟声。
要注意的是,当用户操作信息获取部103向综合控制部101提供指示用户已对遥控器等的预定按钮进行了操作的用户操作信息时,综合控制部101向位置计算信号控制部 109提供触发,以便开始对操作的控制以典型地输出位置计算信号。当接收到触发时,位置计算信号控制部109开始对操作的控制以输出位置计算信号。
另外,除了嘟嘟声之外,位置计算信号可以是多种信号中的任何一种,并且可以恰当地设置位置计算信号的属性。位置计算信号的属性包括位置计算信号的频率。
声学信息获取部111典型地具有CPU、ROM、RAM和通信部。声学信息获取部111获取声学信息,所述声学信息是关于连接到声学控制设备10的麦克风所收集的声音的信息。 麦克风的典型例子是单耳麦克风、立体声麦克风和多声道麦克风。声学信息的典型例子是关于通过位置计算信号控制部109进行的从扬声器5中的每一个单独输出的位置计算信号的声音收集结果的信息。然而,根据实施例的声学信息决不限于关于这样的声音的收集结果的信息。换言之,由麦克风收集的各种信息都可以用作声学信息。由麦克风收集的信息的典型例子是用户的语音。
声学信息获取部111将获取的声学信息输出到综合控制部101。综合控制部101 然后将声学信息传递到根据将要对拍摄图像执行的处理而选择的其它处理部。另外,通过将声学信息与关于声学信息获取日期和声学信息获取时间的信息相关联,综合控制部101 可以将从声学信息获取部111接收的各种声学信息存储在稍后将要描述的存储部119中作为历史信息。
扬声器位置计算部113典型地具有CPU、ROM和RAM。通过利用由图像处理部107 对图像获取部105所生成的拍摄图像进行的图像处理的结果,并且通过利用由声学信息获取部111获取的结果作为由扬声器5中的一个所输出的每个通过位置计算信号来表示的声音收集结果,扬声器位置计算部113计算布置于扬声器布局空间中的扬声器5中的每一个的位置。具体而言,基于麦克风的位置和由麦克风执行用以收集每个由扬声器5中之一输出的信号声音的操作的结果,扬声器位置计算部113计算布置于扬声器布局空间中的扬声器5中的每一个的位置。基于放置在扬声器布局空间中的麦克风和放置在麦克风位置附近的地方的对象,已计算了麦克风的位置。
在扬声器位置计算部113已基于这样的各种信息计算了布置于扬声器布局空间中的扬声器5中的每一个的位置之后,扬声器位置计算部113将获得的计算结果供应给综合控制部101。计算的结果是扬声器位置信息,所述扬声器位置信息是关于扬声器5中的每一个的位置的信息。综合控制部101然后将从扬声器位置计算部113接收的扬声器位置信息传递到稍后将要描述的声学控制部115。另外,通过将扬声器位置信息与关于扬声器位置信息获取日期和扬声器位置信息获取时间的信息相关联,综合控制部101可以将从扬声器位置计算部113接收的扬声器位置信息存储在稍后将要描述的存储部119中作为历史信肩、ο
要注意的是,稍后将会另外描述根据实施例的扬声器位置计算部113的详细配置。
声学控制部115典型地具有CPU、DSP、ROM和RAM。基于用户的拍摄图像,声学控制部115计算存在于扬声器布局空间中的用户的位置。详细而言,基于对用户的拍摄图像执行的处理结果,声学控制部115计算存在于扬声器布局空间中的用户的位置。另外,声学控制部115利用计算的用户位置以找到用户的位置和扬声器5中的每一个的位置之间的距离。然后,根据计算结果,声学控制部115控制由扬声器5中的每一个生成的声音。
通过执行声源位置确定处理以确定针对物理扬声器5中之一充当虚拟扬声器的每个声源的位置作为对于用户的位置而言恰当的位置,并且根据用户的特性执行音质调整处理,声学控制部115控制由扬声器5中的每一个生成的声音。用户的特性的典型例子是用户的元数据。用户的元数据包括用户的性别及其年龄。
要注意的是,稍后将会另外描述根据实施例的声学控制部115的详细配置。
显示控制部117典型地具有CPU、ROM、RAM和通信部。显示控制部117控制根据实施例的声学控制设备10中使用的显示设备。显示设备的典型例子是显示单元和显示面板。 这样一来,根据实施例的声学控制设备10中使用的每个处理部就能够示出消息或显示,以通知用户已完成了处理。进而,每个特定处理部能够向用户示出表示处理结果的消息或显7J\ O
另外,根据实施例的显示控制部117还能够显示处理终止通知,其通知用户如上所述的声学控制设备10中执行的处理结束,以及诸如图像显示设备3之类的外部设备上的相同处理的结果。这样一来,例如,显示控制部117就能够在图像显示设备3的显示屏上显示声学控制设备10中执行的环绕声校准处理的结果。
存储部119是根据实施例的声学控制设备10中使用的存储设备的典型例子。存储部119被用来存储诸如扬声器位置信息之类的信息,所述扬声器位置信息是关于布置于扬声器布局空间中的扬声器5中的每一个的位置的信息。如稍早前描述的那样,通过扬声器位置计算部113来计算扬声器位置信息。另外,存储部119还可以用来存储各种信息和各种数据。在根据实施例的声学控制设备10中产生所述信息和数据。最重要的是,存储部 119还可以用来存储在根据实施例的声学控制设备10所执行的处理期间需要保存的多种参数和中间结果。进而,存储部119还可以用来恰当地存储多种数据库和多种程序。
在上面的描述中已详细地说明了根据实施例的声学控制设备10的整体配置。
[图像处理部]
接下来,通过参考图7来说明根据实施例的声学控制设备10中使用的图像处理部 107的配置。图7是示出根据实施例的声学控制设备10中使用的图像处理部107的典型配置的框图。
如图7所示,图像处理部107使用了脸检测部131、年龄/性别确定部133、姿势识别部135、对象检测部137和脸标识部139。
脸检测部131典型地具有CPU、GPU、R0M和RAM。通过参考从图像获取部105接收的多个拍摄图像,脸检测部131执行脸检测处理,以便检测与人的脸相对应的部分。拍摄图像包括麦克风、放置在接近于麦克风位置的地方的对象以及用户的拍摄图像。非常有可能的是,与人的脸相对应的部分包括在拍摄图像中。如果与人的脸相对应的部分包括在拍摄图像中,则脸检测部131从拍摄图像中检测到与人的脸相对应的部分,并且标识与人的脸相对应的部分的属性。属性包括与人的脸相对应的部分的像素坐标以及与人的脸相对应的部分的尺寸。
另外,通过执行脸检测处理,脸检测部131能够确定每个充当存在于拍摄图像中的用户的人的数目。如果每个充当用户的多个人存在于拍摄图像中,则脸检测部131能够标识与每个人的脸相对应的部分的属性。如上所述,与人的脸相对应的部分的属性包括与人的脸相对应的部分的像素坐标以及与人的脸相对应的部分的尺寸。另外,脸检测部131 可以计算表征用户群的多个特征量。特征量包括针对具有用户的脸的群体的重心位置。
脸检测部131将脸检测处理的检测结果供应给综合控制部101。综合控制部101 然后将检测结果传递到其它处理部,包括扬声器位置计算部113和声学控制部115。另外, 脸检测部131还将检测结果供应给图像处理部107中使用的其它处理部,以便脸检测部131 能够在执行处理的同时,与图像处理部107中使用的其它处理部进行协作。
脸检测处理可以由脸检测部131通过采用任何一种已知的相关技术来执行,比如日本专利公开第2007-65766号中公开的技术以及日本专利公开第2005-44330号中公开的技术。
年龄/性别确定部133典型地具有CPU、GPU、ROM和RAM。年龄/性别确定部133 利用脸检测部131所检测的脸图像,以便检测脸的特征部分。脸的特征部分包括眉毛、眼睛、鼻子和嘴巴。用于检测脸的特征部分的处理可以由年龄/性别确定部133通过采用任何一种已知的相关技术来执行,包括充当主动外观模型(AAM)方法基础的技术。
然后,年龄/性别确定部133关注于检测的脸的特征部分,以便确定脸的拥有者的年龄以及拥护者的性别。这样一来,年龄/性别确定部133就能够提取包括年龄和性别的信息作为用户的元数据。用于通过关注于检测的脸的特征部分来确定年龄和性别的方法可以是基于任何一种已知的相关技术的任何方法。
然后,年龄/性别确定部133将确定结果供应给综合控制部101。确定结果是前面提到的包括用户年龄和用户性别的元数据。随后,综合控制部101将确定结果传递到包括声学控制部115的其它处理部。另外,年龄/性别确定部133还将确定结果供应给图像处理部107中使用的其它处理部,以便年龄/性别确定部133能够在执行处理的同时,与图像处理部107中使用的其它处理部进行协作。
姿势识别部135典型地具有CPU、GPU、R0M和RAM。姿势识别部135关注于从图像获取部105接收的拍摄图像和拍摄图像的时滞变化,以便识别拍摄图像中包括的用户所做出的姿势。如稍早前说明的那样,拍摄图像包括麦克风、放置在接近于麦克风位置的地方的对象以及用户的拍摄图像。以这种方式,姿势识别部135能够识别用户所做出的特定姿势。 例如,当用户通过摇手或用手给出和平符号来做出姿势时,姿势识别部135能够识别这个姿势。
上面描述的姿势识别处理可以由姿势识别部135通过采用任何一种已知的相关技术来执行。
姿势识别部135将姿势识别处理的结果供应给综合控制部101。然后,综合控制部101将姿势识别处理的结果传递到包括声学控制部115的其它处理部。另外,姿势识别部135还将姿势识别处理的结果供应给图像处理部107中使用的其它处理部,以便姿势识别部135能够在执行处理的同时,与图像处理部107中使用的其它处理部进行协作。
对象检测部137典型地具有CPU、GPU、R0M和RAM。通过参考从图像获取部105接收的多个拍摄图像,对象检测部137执行对象检测处理,以便检测对应于特定对象的部分。 拍摄图像包括麦克风、放置在接近于麦克风位置的地方的对象以及用户的拍摄图像。非常有可能的是,对应于特定对象的部分包括在拍摄图像中。由对象检测部137检测的特定对象的典型例子是放置在扬声器布局空间中某个位置的麦克风自身和麦克风上提供的可视标记。可视标记的典型例子是计算机代码。
如果对应于特定对象的部分包括在拍摄图像中,则对象检测部137从拍摄图像中检测到对应于特定对象的部分,并且标识对应于特定对象的部分的属性。属性包括对应于特定对象的部分的像素坐标以及该部分的尺寸。
另外,通过执行对象检测处理,对象检测部137能够标识拍摄图像上示出的特定对象的数目和类型,比如麦克风的类型。如果在拍摄图像上示出了多个特定对象,则对象检测部137能够标识对应于每个特定对象的部分的属性。如上所述,对应于特定对象的部分的属性包括对应于特定对象的部分的像素坐标以及该部分的尺寸。另外,对象检测部137 可以计算表征具有特定对象的群体的多个特征量。特征量包括针对具有特定对象的群体的重心位置。
对象检测部137将对象检测处理的检测结果供应给综合控制部101。综合控制部 101然后将检测结果传递到包括扬声器位置计算部113和声学控制部115的其它对象处理部。另外,对象检测部137还将检测结果供应给图像处理部107中使用的其它处理部,以便对象检测部137能够在执行处理的同时,与图像处理部107中使用的其它处理部进行协作。
对象检测处理可以由对象检测部137通过采用任何一种已知的相关技术来执行。
脸标识部139典型地具有CPU、GPU、R0M和RAM。脸标识部139是用于标识由脸检测部131所检测的脸的处理部。脸标识部139除了别的以外尤其关注于脸检测部131所检测的脸的特征部分,并且计算局部特征量。然后,通过将所述量与脸检测部131所检测的脸的图像相关联,脸标识部139存储计算的局部特征量,以便构造用户数据库。然后,脸标识部139利用用户数据库,以便将脸检测部131所检测的脸标识为用户的脸。
要注意的是,脸识别处理可以由脸标识部139通过采用任何一种已知的相关技术来执行,比如在日本专利公开第2007-65766号中公开的技术和在日本专利公开第 2005-44330号中公开的技术。
脸标识部139将对象识别处理的识别结果供应给综合控制部101。综合控制部101 然后将识别结果传递到包括声学控制部115的对象处理部。另外,脸标识部139还将识别结果供应给图像处理部107中使用的其它处理部,以便脸标识部139能够在执行处理的同时,与图像处理部107中使用的其它处理部进行协作。
上面的描述通过参考图7简短地说明了构成根据实施例的图像处理部107的配置的处理部。除了上面描述的处理部之外,图像处理部107可以设置有图像处理所需的任何处理部。
[扬声器位置计算部]
接下来,通过参考图8来说明根据实施例的声学控制设备10中使用的扬声器位置计算部113的配置。图8是示出根据实施例的声学控制设备10中使用的扬声器位置计算部113的典型配置的框图。
如图8所示,根据实施例的扬声器位置计算部113典型地使用了麦克风位置计算部151、麦克风扬声器距离计算部153和扬声器位置标识部155。
麦克风位置计算部151典型地具有CPU、R0M和RAM。基于图像处理部107所执行的图像处理的结果和声学信息获取部111所获取的声学信息,麦克风位置计算部151计算布置于扬声器布局空间中的麦克风的位置。在以下描述中,麦克风的位置也被简称为麦克风位置。
例如,麦克风位置计算部151利用图像处理部107所执行的脸检测的结果,以便在如下假定之下基于脸检测的结果来计算麦克风的位置当在执行环绕声校准的时候安装麦克风时,麦克风放置在接近于用户的脸的地方。另外,麦克风位置计算部151可以利用图像处理部107所执行的对象检测的结果,以便计算麦克风的位置。对象检测的结果的典型例子是麦克风检测的结果和诸如计算机代码之类的可视标记的检测结果。最重要的是,麦克风位置计算部151可以利用声学信息本身来计算麦克风的位置。声学信息是通过利用麦克风来收集(每个由扬声器5中之一输出的)声音而执行的声音收集的结果。
在用户的位置几乎与麦克风的位置相一致的假定之下,拿用于计算用户的位置的方法作为例子,以下描述具体地说明了麦克风位置计算方法。在以下描述中,用户的位置也被简称为用户位置。在这种情况下,基于图像显示设备3上安装的摄影机所生成的拍摄图像,通过利用用户脸检测的结果来计算用户的位置。
例如,麦克风位置计算部151计算相对于摄影机光轴的用户位置。用户的这个相对位置用方向Φ 1和θ 1以及距离dl来表示。在这种情况下,通过利用图像处理部107所执行的图像处理的多个结果和图像显示设备3上典型地安装的摄影机的光学信息,麦克风位置计算部151计算用户的相对位置。光学信息包括关于摄影机视场角的信息和关于摄影机分辨率的信息。
在这种情况下,由图像处理部107执行的图像处理的结果包括拍摄图像和关于拍摄图像中检测的用户脸的信息。关于用户脸的信息包括脸检测位置[al,bl]和脸尺寸[wl, hi]。
根据给出如下的方程(101)和(102),从通过利用拍摄图像的尺寸[XmaX,ymaX]而规范化的脸检测位置[al,bl]中,并且从摄影机的视场角[Φ0,Θ0]中,麦克风位置计算部 151计算用户的相对位置的方向[Φ1,θ 1]
水平方向φ1 = φ0 χ al ...... (101)
垂直方向θι = θ OXbl ......(102)
另外,根据给出如下的方程(103),基于参考距离do处的参考脸尺寸[wO,h0],麦克风位置计算部151计算用户的相对位置的距离dl
距离dl = dOX (w0/wl) ......(103)
稍后,基于相对于摄影机光轴的用户位置的计算结果和摄影机安装信息,麦克风位置计算部151计算相对于图像显示设备3的物理中心和图像显示设备3的前面方向轴的用户三维位置。摄影机安装信息包括摄影机的安装位置和摄影机的安装角度。
例如,令图像显示设备3的物理中心的坐标为W,0,0],摄影机的安装位置为 [Δχ, Δγ, Δζ],摄影机的安装角度的角差为[Δφ,ΔΘ,并且显示屏前面方向为W,o,z]。
在这种情况下,根据给出如下的方程(104)至(106),麦克风位置计算部151计算坐标系中相对于图像显示设备3的物理中心
的用户位置[xl,yl,zl]
权利要求
1.一种声学控制设备,包括扬声器位置计算部,配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置基于所述扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为所述麦克风的位置的位置;以及声音收集的结果,所述声音收集由所述麦克风执行,以收集每个都由所述扬声器中的每一个生成的信号声音;以及声学控制部,配置成通过以下来执行对由所述扬声器中的每一个生成的声音的控制 基于所述扬声器布局空间中的用户的拍摄图像来计算所述用户的位置;计算所述用户的位置和所述扬声器中的每一个的位置之间的距离;以及根据计算的距离来控制由所述扬声器生成的声音。
2.根据权利要求1所述的声学控制设备,其中,基于所述麦克风的位置以及通过利用由所述扬声器中的每一个生成并且由所述麦克风收集的所述信号声音的音量而计算的所述麦克风的位置和所述扬声器中的每一个的位置之间的距离,所述扬声器位置计算部找到位于所述扬声器布局空间中的所述扬声器中的每一个的位置。
3.根据权利要求1所述的声学控制设备,其中,所述声学控制部利用所述用户的位置和所述扬声器中的每一个的位置之间的距离,以便动态地改变用来设置由所述扬声器生成的声音的位置。
4.根据权利要求3所述的声学控制设备,进一步包括图像处理部,配置成处理所述用户的拍摄图像,其中,所述图像处理部基于所述用户的拍摄图像来提取所述用户的元数据、所述拍摄图像上示出的其它用户的数目和由所述用户做出的姿势中的至少任何一个,并且根据所述用户的元数据、所述拍摄图像上示出的其它用户的数目和由所述用户做出的姿势中的至少任何一个,所述声学控制部执行设置由所述扬声器生成的声音和调整所述声音的质量的处理中的至少任何一个。
5.根据权利要求1所述的声学控制设备,进一步包括图像处理部,配置成处理所述麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像,其中,所述图像处理部检测靠近所述麦克风的所述用户的脸作为放置在所述麦克风的位置附近的地方的对象。
6.根据权利要求1所述的声学控制设备,进一步包括图像处理部,配置成处理所述麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像,其中,所述图像处理部检测所述麦克风或所述麦克风上设置的可视标记。
7.根据权利要求1所述的声学控制设备,其中,基于从所述扬声器输出并且通过利用单耳麦克风、立体声麦克风和多声道麦克风而收集的信号声音的收集结果,所述扬声器位置计算部找到所述扬声器中的每一个的位置。
8.—种声学控制方法,包括基于多个扬声器布置于其中的扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像,计算所述麦克风的位置;基于计算的所述麦克风的位置以及由所 友兄风 Α1」州不队宋丹ι w w//,mm中的每一个生成的信号声音的声音收集的结果,找到布置于所述扬声器布局空间中的所述扬声器中的每一个的位置;以及一根据计算的用户的位置和从所述用户的位置到所述扬声器中的每一个的位置的距罔,控制由所述扬声器中的每一个生成的声音。
全文摘要
本公开提供了一种声学控制设备和声学控制方法。根据本公开的声学控制设备包括扬声器位置计算部,配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置基于扬声器布局空间中的麦克风和放置在麦克风位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为麦克风位置的位置;以及声音收集的结果,所述声音收集用来收集每个都由扬声器中的一个生成的信号声音;以及声学控制部,配置成通过以下来控制由扬声器中的每一个生成的声音基于扬声器布局空间中的用户的拍摄图像来计算用户的位置;计算用户的位置和扬声器中的每一个的位置之间的距离;以及根据计算的距离来控制由扬声器生成的声音。
文档编号H04R5/02GK102547533SQ201110338748
公开日2012年7月4日 申请日期2011年10月28日 优先权日2010年11月5日
发明者鹤见辰吾 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1