音频处理设备、音频处理方法及程序的制作方法

文档序号:7706968阅读:82来源:国知局
专利名称:音频处理设备、音频处理方法及程序的制作方法
技术领域
本公开涉及音频处理设备、音频处理方法及程序。
背景技术
现今,能够通过显示用于左眼的图像和用于右眼的图像来允许用户感知到立体图像的3D显示设备流行起来。期望3D显示设备在将来变得越来越普及,这是因为为了 3D观看而制作的电视内容和电影越来越多并且还因为对用于将2D图像转换为3D图像的技术的研究正在积极地进行。JP2004-38933A是公开了 3D显示设备的文献。同时,对于音频,存在如5. Ich之类的多声道系统。在该系统中,通过控制诸如左右前方扬声器、左右后方扬声器以及中央扬声器之类的多个扬声器中的每个扬声器输出为各个扬声器生成的音频,可以向用户提供真实的声场。

发明内容
然而,当2D图像被转换为3D图像时,注意到用于2D图像的音频和转换之后的3D 图像之间的联结(linkage)可能会受损。此外,尽管用于3D图像的音频通常是在考虑到3D 图像的情况下产生的,然而传统3D显示设备难以更多地强调3D图像与用于3D图像的音频之间的联结。鉴于前面的情况,希望提供能够更多地强调立体图像与音频之间的联结的新颖的经改进的音频处理设备、音频处理方法及程序。根据本公开的一个实施例,提供了一种音频处理设备,该设备包括估计单元,被配置为从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对立体图像的代表性感知位置;以及音频控制器,被配置为根据由估计单元估计出的代表性感知位置来控制音频输出设备的音频输出。音频输出设备可包括前方音频输出设备和后方音频输出设备,后方音频输出设备被布置在比前方音频输出设备离显示设备更远的位置,并且音频控制器可根据代表性感知位置与参考平面之间的距离来控制前方音频输出设备和后方音频输出设备的音频输出,所述参考平面是显示设备被布置的位置。当代表性感知位置与参考平面一致时,音频控制器可以向前方音频输出设备提供第一音频信号,并向后方音频输出设备提供第二音频信号。当代表性感知位置比参考平面更接近用户时,音频控制器可以按照与代表性感知位置与参考平面之间的距离相应的比率来将第一音频信号提供给前方音频输出设备和后方音频输出设备。代表性感知位置与参考平面之间的距离越长,音频控制器可以以越高的比率将第一音频信号提供给后方音频输出设备。代表性感知位置与参考平面之间的距离越长,音频控制器可以越减小提供给后方音频输出设备的第二音频信号。
当参考平面比代表性感知位置更接近用户时,音频控制器可以按照与代表性感知位置与参考平面之间的距离相应的比率来将第二音频信号提供给前方音频输出设备和后方音频输出设备。代表性感知位置与参考平面之间的距离越长,音频控制器可以以越高的比率将第二音频信号提供给前方音频输出设备。代表性感知位置与参考平面之间的距离越长,音频控制器可以越减小提供给前方音频输出设备的第一音频信号。估计单元可以估计用户对包括在左眼图像和右眼图像中的一个或多个图像对象的一个或多个感知位置,并且基于一个或多个图像对象的一个或多个感知位置来估计代表性感知位置。估计单元可以将图像对象的感知位置中的一个感知位置估计为代表性感知位置。估计单元可以将图像对象的感知位置的平均值估计为代表性感知位置。估计单元可以估计用户对通过划分左眼图像和右眼图像而获得的多个区域的感知位置,并且基于多个区域的感知位置的分布来估计代表性感知位置。根据本公开另一实施例,提供了一种音频处理方法,该方法包括从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对立体图像的代表性感知位置;以及根据代表性感知位置来控制音频输出设备的音频输出。根据本公开又一实施例,提供了一种程序,用于使得计算机用作估计单元,被配置为从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对立体图像的代表性感知位置;以及音频控制器,被配置为根据由估计单元估计出的代表性感知位置来控制音频输出设备的音频输出。根据上述本公开的实施例,可以更多地强调立体图像与音频之间的联结。


图1是示出根据本公开实施例的显示设备的外观的说明图;图2是示出根据本公开实施例的显示设备的配置的功能框图;图3是图示出图像显示单元的大小标记的示图;图4是示出图像对象的示例性检测的说明图;图5是示出包括在左眼图像和右眼图像中的图像对象被显示的位置与立体图像被感知到的位置之间的关系的说明图;图6是示出图像划分的示例的说明图;图7是示出每个区域的距离xm的具体示例的说明图;图8是示出当用户对立体图像的感知位置P与图像显示单元一致时由音频控制器执行的音频控制的说明图;图9是示出当用户对立体图像的感知位置P比图像显示单元更接近用户时由音频控制器执行的音频控制的说明图;图10是示出当用户对立体图像的感知位置P比图像显示单元更接近用户时由音频控制器执行的音频控制的说明图;图11是示出当图像显示单元比用户对立体图像的感知位置P更接近用户时由音频控制器执行的音频控制的说明图;图12是示出当图像显示单元比用户对立体图像的感知位置P更接近用户时由音频控制器执行的音频控制的说明图;图13是示出当图像显示单元比用户对立体图像的感知位置P更接近用户时由音频控制器执行的音频控制的说明图;以及图14是示出根据本公开实施例的显示设备的操作的流程图。
具体实施例方式下面,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同的标号来表示具有基本上相同的功能和结构的结构元件,并且省略对这些结构元件的重复描述。<1.根据本公开实施例的显示设备的概况〉首先,将参考图1描述根据本公开一个实施例的显示设备100的概况。图1是示出根据本公开一个实施例的显示设备100的外观的说明图。注意,在图 1中,由用户佩戴的快门眼镜(shutter eyeglass) 200结合显示设备100被显示。如图1所示,显示设备100具有用于显示图像的图像显示单元110。显示设备100 能够通过在图像显示单元110上显示用于左眼的图像(下面称为左眼图像)和用于右眼的图像(下面称为右眼图像)来使得用户可感知到立体图像。另外,该显示设备100还具有用于控制构成扬声器系统的每个扬声器的音频输出的音频处理设备的功能,如在“2.显示设备的配置”部分中详细描述的,快门眼镜200包括例如由液晶快门形成的右眼图像透过部212和左眼图像透过部 214。快门眼镜200响应于从显示设备100发送来的信号,执行打开或闭合右眼图像透过部 212和左眼图像透过部214的操作。用户可以通过经由快门眼镜200的右眼图像透过部212 和左眼图像透过部214观看从图像显示单元110发射的光,来将显示在图像显示单元110 上的左眼图像和右眼图像感知为立体图像。同时,当普通2D图像被显示在图像显示单元110上时,用户可以通过按原样观看从图像显示单元Iio发射的光来将显示在图像显示单元110上的图像感知为普通2D图像。尽管在图1中将显示设备100示为示例性音频处理设备,然而本公开的音频处理设备不限于此。例如,音频处理设备可以是诸如PC(个人计算机)之类的信息处理设备、家用视频处理设备(例如,DVD录放机或磁盒录影机)、PDA(个人数字助理)、家庭游戏机、便携电话、便携视频处理设备或者便携游戏机。另外,尽管本说明书描述了利用快门操作来使左眼图像和右眼图像能够分别被左眼和右眼感知到的控制方案,然而本公开的控制方案不限于此。例如,可以通过使用用于左眼的偏振滤光镜(polarizing filter)和用于右眼的偏振滤光镜来获得同等效果。<2.显示设备的配置>上面描述了根据本公开实施例的显示设备100的概况。接下来,将参考图2描述根据本公开实施例的显示设备100的配置。图2是示出根据本公开实施例的显示设备100的配置的框图。如图2所示,显示设备100包括图像显示单元110、视频信号控制器120、快门控制器130、定时控制器140、红外线发射器150、视频分析单元160、音频控制器170和扬声器系统180。图像显示单元110具有如上所述的用于显示图像的功能,并且当外部信号被施加给它时,显示与所施加信号相对应的图像。如图2所示,图像显示单元110包括显示面板 112、门控驱动器113、数据驱动器114和背光源115。显示面板112被配置为响应于施加给它的外部信号来显示图像。显示面板112在多条扫描线顺序地被扫描时显示出图像。显示面板112具有用玻璃等制成的一对透明板, 以及置于透明板之间的具有预定取向状态的液晶分子。驱动显示面板112的方法可以是 TN(扭曲向列)制式、VA(垂直对齐)制式或IPS(平面开关)制式。根据本公开实施例的显示面板112响应于施加给它的外部信号,以预定的定时交替地显示右眼图像和左眼图像。门控驱动器113是用于驱动显示面板112的门控总线(未示出)的驱动器。门控驱动器113接收从定时控制器140发送来的信号,并且响应于从定时控制器140发送来的信号来向门控总线输出信号。数据驱动器114是用于生成将被施加给显示面板112的数据线(未示出)的信号的驱动器。数据驱动器114接收从定时控制器140发送来的信号,并且响应于从定时控制器140发送来的信号生成将被施加给数据线的信号,并且然后输出这些信号。从用户角度看,背光源115被设置在图像显示单元110的最里面部分。当图像被显示在图像显示单元Iio上时,尚未偏振的白光(非偏振光)从背光源115发射到位于用户侧的显示面板112。发光二极管或冷阴极管可被用于背光源115。尽管图2示出了表面光源来作为背光源115,然而本公开的光源的配置不限于此示例。例如,可以通过在显示面板112的周围部分布置光源并利用扩散板等从光源扩散光来向显示面板112注入光。替代地,取代使用表面光源,例如还可以组合使用点光源和聚光透镜。视频信号控制器120在接收到用于显示左眼图像和右眼图像的3D视频信号时,生成用于交替地在图像显示单元110上显示左眼图像和右眼图像的视频信号。由视频信号控制器120生成的该视频信号被发射给定时控制器140。快门控制器130在接收到根据视频信号控制器120的信号处理生成的预定信号时,响应于该信号生成用于控制快门眼镜200的快门操作的快门控制信号。快门眼镜200 基于由快门控制器130生成的并从红外线发送器150发射的快门控制信号,来执行打开或闭合右眼图像透过部212和左眼图像透过部214的操作。具体地,快门操作按以下方式来执行当左眼图像显示在显示面板112上时,左眼图像透过部214打开,并且当右眼图像显示在显示面板112上时,右眼图像透过部212打开。定时控制器140响应于从视频信号控制器120发送来的信号,生成用于操作门控驱动器113和数据驱动器114的脉冲信号。当定时控制器140生成脉冲信号并且门控驱动器113和数据驱动器114接收到定时控制器140生成的脉冲信号时,与从视频信号控制器 120发送来的视频信号相对应的图像被显示在显示面板112上。视频分析单元160用作用于基于3D视频信号来估计用户对立体图像的代表性感知位置的估计单元。诸如3D视频信号、图像显示单元110的画面大小以及用户与图像显示单元110之间的观看距离之类的信息被提供给视频分析单元160,用于该估计。诸如图像显示单元110的画面大小以及用户与图像显示单元110之间的观看距离之类的信息可以在显示设备100上来设置,或者可以经由用户的操作来输入。用于估计代表性感知位置的方法将在“2-1.代表性感知位置的估计”部分中详细描述。音频控制器170根据由视频分析单元160估计出的代表性感知位置来控制扬声器系统(音频输出设备)180的音频输出。具体地,扬声器系统180包括中央扬声器C、前方扬声器(前方音频输出设备)L、前方扬声器(前方音频输出设备)R、后方扬声器(后方音频输出设备)Ls和后方扬声器(后方音频输出设备)Rs,并且音频控制器170控制每个扬声器的音频输出。音频控制器170执行的音频控制将在“2-2.音频控制的具体示例”部分详细描述。上面描述了根据本公开实施例的显示设备100的配置。下面,将更详细地描述视频分析单元160对代表性感知位置的估计以及由音频控制器170执行的音频控制。[2-1.代表性感知位置的估计](第一示例)为了估计代表性感知位置,图像显示单元110的单个像素的大小被使用。因此,如果不知道单个像素的大小,则视频分析单元160从与图像显示单元110的画面大小有关的信息来计算该大小(pixel_cm)。例如,考虑下面的值作为关于画面大小的信息被得知的情况。TV_INCH 图像显示单元110的大小[英寸]TV_WIDTH_PIXEL 有效画面中的像素数(横向)[像素(pixel)]TV_HEIGHT_PIXEL 有效画面中的像素数(纵向)[像素]在此情况中,可以从关于画面大小的信息计算出图3所示的以下值。tv_size_pixel 有效画面的大小[像素]tv_size 有效画面的大小[cm]tv_width 有效画面的宽度[cm]tv_height 有效画面的高度[cm]例如,tv_size_pixel和tv_size根据下式来计算。tv_size_pixel = sqrt(TV_WIDTH_PIXEL"2+TV_HEIGHT_PIXEL"2)tv_size = TV_INCHX2. 54此外,根据下式从tv_SiZe_piXel和tv_siZe来计算出作为单个像素大小的 pixel_cm。pixel_cm = tv_size/tv_size_pixel具体地,当TV_INCH为40英寸时,TV_WIDTH_PIXEL为1920个像素,并且TV_ HEIGHT_PIXEL为1080个像素,每个值被计算为如下。tv_size_pixel = 2202. 9pixelstv_size= 101. 6cmpixel_cm = 0. 0461cm视频分析单元160基于前述piXel_cm以及左眼图像与右眼图像之间的差 (difference)来估计用户对立体图像的代表性感知位置。即,视频分析单元160计算用户对立体图像的代表性感知位置与图像显示单元110之间的距离χ。这里,代表性感知位置可以是立体图像中的代表性图像对象(部分)将被用户观看到的位置。下面,将参考图4简要描述对这样的图像对象的检测,并且然后,将参考图5描述计算距离χ的方法。视频分析单元160利用脸部检测技术来检测包括在左眼图像和右眼图像中的脸部图像作为图像对象。因此,当仅单个脸部图像被检测到时,视频分析单元160将用户对该脸部图像的感知位置当作代表性感知位置,并且利用下述方法来计算对于该脸部图像的距离X。同时,当如图4所示检测到了多个脸部图像A至C时,视频分析单元160可以选择脸部图像之一并且计算对于所选脸部图像的距离X。替代地,视频分析单元160可以计算针对各个脸部图像A至C的距离X(A)至X(C),并且计算距离X(A)至X(C)的平均值作为距离
Xo图5是示出包括在左眼图像和右眼图像中的图像对象被显示的位置与立体图像被感知到的位置之间的关系的说明图。如图5所示,视频分析单元160利用前述的pixel_ cm将LR_DIFF_PIXEL (像素)转换为以cm为单位的值(参见下面的公式),LR_DIFF_PIXEL 是包括在左眼图像中的图像对象与包括在右眼图像中的图像对象之间的水平显示位置之差。lr_diff = LR_DIFF_PIXELXpixel_cm这里,如果图像显示单元110与用户之间的距离D(cm)以及用户眼睛之间的距离 E (cm)已知,则视频分析单元160可以根据以下公式来计算从图像显示单元110到用户对图像对象的感知位置的距离X(CHl)。χ = lr_diffXD/ (E+lr_diff)作为具体示例,当LR_DIFF_PIXEL为10个像素,pixel_cm为0. 0461cm,距离D为 250cm,并且距离E为6cm时,lr_diff和距离χ的值如下。注意,如果用户对图像对象的感知位置位于图像显示单元110的后方侧,则距离χ具有负值。lr_diff = 0. 4612cmχ = 17. 845cm(第二示例)尽管第一示例已图示说明了代表性感知位置为用户对立体图像中的代表性图像对象(部分)的感知位置的示例,然而本公开的代表性感知位置不限于此。例如,如下面所述的,代表性感知位置可以是用户对构成立体图像的各区域的感知位置中的被认为占主导地位的位置。为了估计这样的代表性感知位置,在第二示例中,通过划分左眼图像和右眼图像而定义了多个区域,并且用户对每个区域的感知位置与图像显示单元110之间的距离被估计出,从而基于针对各个区域估计出的距离的分布来计算距离X。下面将参考图6和图7给出详细描述。图6是示出图像划分的示例的说明图。如图6所示,视频分析单元160针对左眼图像和右眼图像来定义区域0至N。每个区域的形状和大小不被具体限制,并且每个区域例如可以包括IOX 10个像素。然后,视频分析单元160根据第一示例中描述的方法,针对每个区域计算出用户对该区域中的图像的感知位置与图像显示单元110之间的距离xm(0彡m彡N)。例如,当区域数为10个时,视频分析单元160针对相应区域0至9计算出距离xO至x9,如图7所示。此外,视频分析单元160基于针对各个区域计算出的距离xm的分布来标识距离χ。例如,视频分析单元160可以将针对各个区域计算出的距离xm中的最频繁值当作距离χ。 根据这样的方法,在图7所示的示例中,作为针对各个区域计算出的距离xO至x9中的最频繁值的4cm被当作距离χ。替代地,视频分析单元160可以针对每个预定值范围来计算包括在该值范围中的距离HIl的数目,并且基于包括有最多数目的距离HIl的值范围来标识距离X。例如,当与每 5cm的值范围(例如,0至5cm、5至10cm,···)相对应的距离xm(区域)的数目被计算时, 在图7所示的示例中,包括在20至25cm的值范围中的距离xm的数目最多。在这样的情况中,作为该值范围中的最小值的20cm可被当作距离X,或者包括在该值范围中的距离xm的平均值可被当作距离X。[2-2.音频控制的具体示例]音频控制器170基于由视频分析单元160如上所述那样获得的距离χ来控制扬声器系统180的音频输出。将参考图8至图13具体描述由音频控制器170执行的音频输出控制。(当 χ = 0 时)当由视频分析单元160获得的距离χ为“0”时,即,当用户对立体图像的感知位置 P与图像显示单元110被布置的位置(其是示例性参考平面)一致时,音频控制器170控制用于每个扬声器的音频信号按原样从相应扬声器输出。具体地,如图8所示,音频控制器170将用于中央扬声器C的音频信号Cl提供给中央扬声器C,将用于前方扬声器L的音频信号Ll提供给前方扬声器L,并且将用于前方扬声器R的音频信号Rl提供给前方扬声器R。同样,音频控制器170将用于后方扬声器Ls的音频信号L2提供给后方扬声器Ls,并将用于后方扬声器Rs的音频信号R2提供给后方扬声器Rs0(当χ>0时)接下来将参考图9描述当由视频分析单元160获得的距离χ大于“0”时,S卩,当用户对立体图像的感知位置P比图像显示单元110更接近用户时,由音频控制器170执行的音频控制。图9是图示出当用户对立体图像的感知位置P比图像显示单元110更接近用户时,由音频控制器170执行的音频控制的说明图。在此情况中,音频控制器170将原本打算用于前方扬声器L的音频信号Ll按照根据距离χ的音量比来提供给前方扬声器L和后方扬声器Ls。更具体地,距离χ越长,音频控制器170就以越高的比率将音频信号Ll提供给后方扬声器Ls0同样地,音频控制器170将原本打算用于前方扬声器R的音频信号Rl按照根据距离X的音量比来提供给前方扬声器R和后方扬声器Rs。更具体地,距离χ越长,音频控制器 170就以越高的比率将音频信号Rl提供给后方扬声器Rs。另外,距离χ越长,音频控制器170就越减小原本打算用于后方扬声器Ls的并且实际被提供给后方扬声器Ls的音频信号L2,并且同样,减小原本打算用于后方扬声器Rs并且实际被提供给后方扬声器Rs的音频信号R2。例如,音频控制器170可以将由以下公式表示的Cl’,Li’,R1’,L2’和R2’分别提
供给中央扬声器C、前方扬声器L、前方扬声器R、后方扬声器Ls和后方扬声器Rs。注意,以下公式中的Cl,Li,Rl, L2和R2是原本打算用于相应扬声器的音频信号。Cl,= (l-x/D)ClLi,= (l-x/D)LlRl,= (l-x/D)RlL2, = (1-x/D)12+(χ/ )Ll+(Ι-χ/D)Cl/2R2, = (1-x/D)R2+(x/D)Rl+(1-x/D)Cl/2(当χ= D时)如图10所示,当由视频分析单元160获得的距离χ等于用户的观看距离D时,音频控制器170将由以下公式表示的Cl’,Ll’,Rl’,L2’和R2’提供给相应扬声器。Cl,= 0Li,= 0Rl,= 0L2,= L1+C1/2R2,= R1+C1/2(当-D<x<0时)接下来描述当由视频分析单元160获得的距离χ满足“-D < χ < 0”时,S卩,当图像显示单元110比用户对立体图像的感知位置P更接近用户时,所执行的音频控制,并且X 的绝对值小于D。图11是当图像显示单元110比用户对立体图像的感知位置P更接近用户时由音频控制器170执行的音频控制的说明图。在此情况中,音频控制器170将原本打算用于后方扬声器Ls的音频信号L2按照根据距离χ的音量比来提供给前方扬声器L和后方扬声器 Ls。更具体地,距离χ的绝对值越大,音频控制器170就以越高的比率将音频信号L2提供给前方扬声器L。同样地,音频控制器170将原本打算用于后方扬声器Rs的音频信号R2按照根据距离X的音量比来提供给前方扬声器R和后方扬声器Rs。更具体地,距离χ的绝对值越大, 音频控制器170就以越高的比率将音频信号R2提供给前方扬声器R。另外,距离χ的绝对值越大,音频控制器170就越减小提供给前方扬声器L的音频信号Li,并且还减小提供给前方扬声器R的音频信号Rl。例如,音频控制器170可以将由以下公式表示的Cl’,Li’,R1’,L2’和R2’分别提
供给中央扬声器C、前方扬声器L、前方扬声器R、后方扬声器Ls和后方扬声器Rs。Cl,=(1-X/D)C1
Li,=(1-X/D)Ll+(|x/D) L2
Rl,=(1-X/D)Rl+(|x/D) R2
L2'=(1-X/D) L2
R2,=(1-X/D) R2(当-D= χ 时)当由视频分析单元160获得的距离χ的绝对值等于用户的观看距离D时,如图12 所示,音频控制器170将由以下公式表示的Cl’,Ll’,Rl’,L2’和R2’提供给相应扬声器。Cl,= 0
Li' =12R1,=R2L2’ = 0R2’ = 0(当x<-D 时)接下来描述当由视频分析单元160获得的距离χ满足“χ < -D”时,S卩,当图像显示单元110比用户对立体图像的感知位置P更接近用户时,所执行的音频控制,并且X的绝对值大于D。图13是当图像显示单元110比用户对立体图像的感知位置P更接近用户时由音频控制器170执行的音频控制的说明图。在此情况中,音频控制器170将原本打算用于后方扬声器Ls的音频信号L2以根据距离χ的大小来提供给前方扬声器L。更具体地,距离χ 的绝对值越大,音频控制器170就越减小提供给前方扬声器L的音频信号L2。同样地,音频控制器170将原本打算用于后方扬声器Rs的音频信号R2以根据距离X的大小来提供给前方扬声器R。更具体地,距离X的绝对值越大,音频控制器170就越减小提供给前方扬声器R的音频信号R2。例如,音频控制器170可以将由以下公式表示的Cl’,Li’,R1’,L2’和R2’分别提供给中央扬声器C、前方扬声器L、前方扬声器R、后方扬声器Ls和后方扬声器Rs。Cl,= 0Li,= (D/ I χ I) L2Rl,= (D/ I χ I) R2L2, = 0R2’ = 0如上所述,根据本公开实施例的显示设备100可以根据基于用户对左眼图像和右眼图像的立体图像的的代表性感知位置来控制每个扬声器的音频输出。<3.显示设备的操作>接下来,将参考图14简要描述根据本公开实施例的显示设备100的操作。图14是示出根据本公开实施例的显示设备100的操作的流程图。首先,如图14 所示,显示设备100的视频分析单元160获取诸如显示设备100的画面大小以及用户的观看距离之类的信息(S210)。然后,视频分析单元160基于输入的3D视频信号来获取左眼图像和右眼图像之间的差(S220)。然后,视频分析单元160基于在S210中获得的信息以及左眼图像和右眼图像之间的差,来估计用户对立体图像的的代表性感知位置(S230)。即,视频分析单元160计算用户对立体图像的代表性感知位置与图像显示单元110之间的距离χ。注意,距离χ可以利用如在“2-1.代表性感知位置的估计”部分中描述的多种方法来计算。此后,音频控制器170 根据由视频分析单元160计算出的距离χ来控制构成扬声器系统180的每个扬声器的音频输出(S240)。<4.总结〉如上所述,根据本公开实施例的显示设备100可以根据用户对基于左眼图像和右眼图像的立体图像的的代表性感知位置来控制每个扬声器的音频输出。因此,可以更多地强调由左眼图像和右眼图像构成的3D图像与音频信号之间的联结。例如,当诸如歌舞伎(日本古典舞剧)或戏剧之类的内容将被再现,并且用户对舞台的感知位置被估计为在图像显示单元110的后方侧时,显示设备100控制原本打算用于后方扬声器的音频信号从前方扬声器输出。根据这样的配置,用户可以更强地感觉到其正从较远的地方观看整个舞台。另外,当诸如乐团表演之类的内容将被再现并且用户对乐队的感知位置被估计为比图像显示单元110更接近用户时,显示设备100控制原本打算用于前方扬声器的音频信号从后方扬声器输出。根据这样的配置,用户可以更强地感受到这样的真实感,该真实感使得用户感觉其仿佛位于乐队位置处的乐队成员之中一样。尽管已参考附图详细描述了本公开的优选实施例,然而本公开不限于此。本领域技术人员将显而易见到可以进行各种修改或变更,只要它们落在所附权利要求或其等同物的技术范围之内即可。应当明白,这样的修改或变更也落在本公开的技术范围内。例如,尽管前述实施例已图示说明了利用脸部检测技术来检测立体图像中的代表性图像对象的示例,然而本公开不限于此。除了脸部图像以外,运动的对象也被认作代表性图像对象。因此,显示设备100例如可以执行下面的处理来将运动的对象检测作为立体图像中的代表性图像对象。(步骤1)显示设备100基于每帧来检测当每帧被成像时的成像设备的运动。成像设备的运动包括成像设备位置的移动、成像设备的成像方向的改变等等。成像设备的运动例如可以基于连续两帧之间的差异来检测。更具体地,显示设备100针对构成帧L-I的每个块来预测帧L中的运动,并且由此获得每块的运动向量。然后,显示设备100从所有块的运动向量中去除与主导方向差异极大的运动向量,由此从剩余运动向量中检测到成像设备的运动向量。(步骤2)显示设备100转换帧L-I以使得在步骤1中检测到的成像设备的运动向量被抵消。例如,当在步骤1中检测到的成像设备的运动向量的方向为Q并且其大小为R时,则帧 L-I内的图像在-Q方向上移动R的大小。(步骤3)显示设备100生成帧L与在步骤2中转换之后的帧L-I之间的差分图像。这里,即使静止对象的位置也会因成像设备的运动而在帧L与帧L-I中不同。然而,由于如上所述成像设备的运动已在转换之后的帧L-I中被抵消,因此认为静止对象所在的位置在帧L与转换之后的帧L-I中几乎相同。因此,大体上,运动的对象表现为帧L与转换之后的帧L-I 之间的差分图像中的差异。(步骤4)显示设备100从在步骤3中生成的差分图像检测运动的对象。由于显示设备100 可以检测运动的对象作为如上所述的立体图像中的代表性图像对象,因此,可以计算用户对运动的对象的感知位置作为用户的代表性感知位置。根据这样的配置,显示设备100例如可以将环道的立体图像中的赛车检测为运动的对象,并且根据用户对赛车的感知位置来执行音频控制。替代地,显示设备100可以将通过利用成像设备进行跟踪而被成像的对象检测作为立体图像中的代表性图像对象,并且根据用户对该对象的感知位置来执行音频控制。下面将描述检测通过利用成像设备进行跟踪而被成像的对象的示例性方法。(步骤1)显示设备100基于每帧来检测当每帧被成像时的成像设备的运动。(步骤2)显示设备100将在步骤1中检测到的成像设备的运动的量高于阈值的区间确定为成像设备正在其中移动的区间。(步骤3)显示设备100将成像设备刚才正在其中移动的区间内长于预定长度的区间中的对象检测为已通过跟踪被成像的对象。尽管上面已描述了控制每个扬声器的音频信号输出的音量来作为对每个扬声器的音频输出的控制,然而本公开不限于此。例如,本公开的技术范围包括取代音量控制,或者除了音量控制以外,还控制每个扬声器的音频信号输出的相位。另外,在本说明书中由显示设备100执行的处理的步骤不必根据流程图中描述的顺序按时间顺序来执行。例如,由显示设备100执行的处理的步骤可以按与流程图中描述的顺序不同的顺序来执行或者并行地来执行。另外,还可以创建计算机程序,用于使得构建在显示设备100中的诸如CPU、ROM或RAM之类的硬件实施与前述显示设备100的各个单元的功能等同的功能。此外,还提供了将计算机程序存储在其中的存储介质。本公开包含与2010年6月30日向日本专利局提交的日本优先专利申请JP 2010-149365中公开的主题有关的主题,该申请的全部内容通过引用结合于此。
权利要求
1.一种音频处理设备,包括估计单元,被配置为从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对所述立体图像的代表性感知位置;以及音频控制器,被配置为根据由所述估计单元估计出的所述代表性感知位置来控制音频输出设备的音频输出。
2.根据权利要求1所述的音频处理设备,其中,所述差异是包括在所述左眼图像中的图像对象与包括在所述右眼图像中的图像对象之间的水平显示位置之差。
3.根据权利要求1所述的音频处理设备,其中所述音频输出设备包括前方音频输出设备和后方音频输出设备,所述后方音频输出设备被布置在比所述前方音频输出设备离所述显示设备更远的位置,并且所述音频控制器根据所述代表性感知位置与参考平面之间的距离来控制所述前方音频输出设备和所述后方音频输出设备的音频输出,其中所述参考平面是所述显示设备被布置的位置。
4.根据权利要求2所述的音频处理设备,其中,当所述代表性感知位置与所述参考平面一致时,所述音频控制器向所述前方音频输出设备提供第一音频信号,并向所述后方音频输出设备提供第二音频信号。
5.根据权利要求3所述的音频处理设备,其中,当所述代表性感知位置比所述参考平面更接近所述用户时,所述音频控制器按照与所述代表性感知位置与所述参考平面之间的距离相应的比率来将所述第一音频信号提供给所述前方音频输出设备和所述后方音频输出设备。
6.根据权利要求4所述的音频处理设备,其中,所述代表性感知位置与所述参考平面之间的距离越长,所述音频控制器就以越高的比率将所述第一音频信号提供给所述后方音频输出设备。
7.根据权利要求5所述的音频处理设备,其中,所述代表性感知位置与所述参考平面之间的距离越长,所述音频控制器就越减小提供给所述后方音频输出设备的所述第二音频信号。
8.根据权利要求3所述的音频处理设备,其中,当所述参考平面比所述代表性感知位置更接近所述用户时,所述音频控制器按照与所述代表性感知位置与所述参考平面之间的距离相应的比率来将所述第二音频信号提供给所述前方音频输出设备和所述后方音频输出设备。
9.根据权利要求7所述的音频处理设备,其中,所述代表性感知位置与所述参考平面之间的距离越长,所述音频控制器就以越高的比率将所述第二音频信号提供给所述前方音频输出设备。
10.根据权利要求8所述的音频处理设备,其中,所述代表性感知位置与所述参考平面之间的距离越长,所述音频控制器就越减小提供给所述前方音频输出设备的所述第一音频信号。
11.根据权利要求1所述的音频处理设备,其中,所述估计单元估计用户对包括在所述左眼图像和所述右眼图像中的一个或多个图像对象的一个或多个感知位置,并且基于所述一个或多个图像对象的一个或多个感知位置来估计所述代表性感知位置。
12.根据权利要求10所述的音频处理设备,其中,所述估计单元将所述图像对象的感知位置中的一个感知位置估计为所述代表性感知位置。
13.根据权利要求10所述的音频处理设备,其中,所述估计单元将所述图像对象的感知位置的平均值估计为所述代表性感知位置。
14.根据权利要求1所述的音频处理设备,其中,所述估计单元估计用户对通过划分所述左眼图像和所述右眼图像而获得的多个区域的感知位置,并且基于所述多个区域的感知位置的分布来估计所述代表性感知位置。
15.一种音频处理方法,包括从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对所述立体图像的代表性感知位置;以及根据所述代表性感知位置来控制音频输出设备的音频输出。
16.根据权利要求15所述的音频处理方法,其中,所述差异是包括在所述左眼图像中的图像对象与包括在所述右眼图像中的图像对象之间的水平显示位置之差。
17.一种程序,用于使得计算机用作估计单元,被配置为从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对所述立体图像的代表性感知位置;以及音频控制器,被配置为根据由所述估计单元估计出的所述代表性感知位置来控制音频输出设备的音频输出。
18.根据权利要求17所述的程序,其中,所述差异是包括在所述左眼图像中的图像对象与包括在所述右眼图像中的图像对象之间的水平显示位置之差。
全文摘要
本发明公开了音频处理设备、音频处理方法及程序。提供了一种音频处理设备,该设备包括估计单元,被配置为从显示在显示设备上的立体图像的左眼图像与右眼图像之间的差异来估计用户对立体图像的代表性感知位置;以及音频控制器,被配置为根据由估计单元估计出的代表性感知位置来控制音频输出设备的音频输出。
文档编号H04N13/00GK102316343SQ20111017655
公开日2012年1月11日 申请日期2011年6月23日 优先权日2010年6月30日
发明者中村延彦, 佐山正修, 小口善生, 村松宽章 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1