音频处理装置、音频处理方法以及音频输出装置的制作方法

文档序号：7859437阅读：171来源：国知局

专利名称：音频处理装置、音频处理方法以及音频输出装置的制作方法
技术领域：
本技术涉及音频处理装置、音频处理方法以及音频输出装置。更具体地，本技术涉及基于聆听音频的用户的听觉能力进行用于自动校正音频的处理的音频处理装置，以及涉及音频处理方法和音频输出装置。
背景技术：
在听觉能力由于老龄化而恶化的情况下，在观看电影、电视节目等或在电话对话中变得难以听到音频，难以充分地享受该内容、该对话等，并且用户感到紧张。因此，已经提出了一种电话机，其中听力受损的人士可以根据他/她自己对每个频率分量带(frequency component band)的听觉感知调整语音输出级别(level)(日本未经审查的专利申请公开No. 7-23098)。

发明内容
在日本未经审查的专利申请公开No. 7-23098中公开的技术旨在允许由用户他/她自己调整语音输出级别。因此，在当用户还没有注意到由于老龄化其听觉能力恶化的情况下，这个功能没有被使用。此外，即使用户已经注意到其听觉能力的恶化，也可能存在下述情况用户感到心理上抵触使用这种调整功能并且不使用该调整功能。因此，期望提供一种音频处理装置，其基于用户的听觉能力进行自动地校正音频的处理，以及为此的音频处理方法和为此的音频输出装置。根据本技术的第一实施例，提供了一种音频处理装置，包括检测用户存在与否的用户检测单元；获取关于被所述用户检测单元检测到的用户的用户信息的用户信息获取单元；以及基于用户信息进行用于强调输入音频中包含的预定音频的处理的音频处理单元。根据本技术的第二实施例，提供了一种音频处理方法，包括检测用户存在与否；获取关于被检测到的用户的用户信息；以及基于用户信息强调输入音频中包含的预定音频。根据第三技术，提供了一种音频输出装置，其包括音频处理装置和指向性扬声器，所述音频处理装置包括检测用户存在与否的用户检测单元，获取关于被所述用户检测单元检测到的用户的用户信息的用户信息获取单元，以及基于用户信息进行用于强调输入音频中包含的预定音频的处理的音频处理单元，所述指向性扬声器输出已经由所述音频处理装置进行处理过的音频。根据本技术，由于基于正在聆听音频的用户的听觉能力进行用于自动校正音频的处理，因此有可能提供适合于每个用户的听觉环境。

图1是说明根据本技术的音频处理装置的配置的框图；图2是说明音频处理单元的配置的框图
图
图置的框图
图程图
图
图置的框图
图
图置的框图
图·
图程图置的框图
图
图程图。
3说明按年龄段的人的特性。
4说明在本技术的第一实施例中对音频的频率特性的校正量；
5是说明根据本技术的第一实施例的包括音频处理装置的音频输出装置的配
6是说明在包括音频处理装置的音频输出装置中进行的音频处理的流程的流
7说明按年龄段的人的听觉能力的特性；
8说明在本技术的第二实施例中对音频的频率特性的校正量；
9是说明根据本技术的第三实施例的包括音频处理装置的音频输出装置的配
10说明音频输出装置的概要；
11是说明根据本技术的第四实施例的包括音频处理装置的音频输出装置的配
12说明扬声器和驱动单元的配置的例子；
13是说明在包括音频处理装置的音频输出装置中进行的音频处理的流程的流
14是说明根据本技术的第五实施例的包括音频处理装置的音频输出装置的配
15说明音频输出装置的概要；
16是说明在包括音频处理装置的音频输出装置中进行的音频处理的流程的流
具体实施例方式下面将参照附图描述本技术的实施例。然而，本技术不限于仅是以下描述实施例。将以如下的顺序进行描述。1.第一实施例1-1.音频处理装置的配置1-2.包括音频处理装置的音频输出装置的配置1-3.音频处理2.第二实施例2-1.音频处理3.第三实施例3-1.包括音频处理装置的音频输出装置的配置4.第四实施例4-1.包括音频处理装置的音频输出装置的配置4-2.第四实施例中的处理5.第五实施例5-1.包括音频处理装置的音频输出装置的配置5-2.第五实施例中的处理
6.修改1.实施例1-1.音频处理装置的配置首先，参照图1描述音频处理装置10的配置。图1是说明根据本技术的音频处理装置10的配置的框图。音频处理装置10由图像捕捉单元11、脸部检测单元12、用户信息获取单元13以及音频处理单元14构成。图像捕捉单元11捕捉用户的图像从而获取图像数据。图像捕捉单元11由图像捕捉元件(诸如电荷耦合器件(CCD)或互补型金属氧化物半导体(CMOS))、将由图像捕捉元件获取的光图像光电转换为电荷量并将其作为图像数据输出的图像处理电路等构成。将由图像捕捉单元11获取的图像数据提供给脸部检测单元12。脸部检测单元12从与图像捕捉单元11提供的图像数据相关联的图像中检测人的脸部。就脸部检测方法而言，可以使用基于下述各种技术的方法基于脸部形状的模板匹配、基于脸部的亮度分布的模板匹配、图像中包含的肤色的部分和人脸的特征量等。此外，可以组合这些技术以提高脸部检测精确度。将表示由脸部检测单元12检测到的用户脸部的脸部图像数据提供给用户信息获取单元13。如上所述，在本实施例中，通过从由图像捕捉单元11获取的图像中检测脸部而检测用户。图像捕捉单元11和脸部检测单元12对应于权利要求中的用户检测单元。用户信息获取单元13基于从脸部检测单元提供的脸部图像数据获取作为对象的用户的用户信息。在本实施例中，用户信息是包含用户年龄的年龄段。可以从例如用户的脸部特征估计用户的年龄。具体地，提取用户脸部的轮廓以及形成眼睛、鼻子、面颊、耳朵的每个单元的特征，在那些提取的特征和预存储的基于年龄的标准脸的特征之间进行匹配处理，并且从具有最高相关性的年龄组的标准脸中估计出用户的年龄。然而，可以使用任何可以估计用户的年龄的技术。例如，可以使用日本未经审查的专利申请公开No. 2008-282089中公开的技术。在本实施例中，获取用户的年龄段——例如小于20岁、20岁到30岁、30岁到40岁、40岁到50岁、50岁到60岁，或60岁或60岁以上——就足够了。然而，这个描述并不否定对具体年龄的估计，并且也可以基于具体年龄进行以下描述的音频处理。将指示用户的年龄段的用户信息提供给音频处理单元14。在从由图像捕捉单元11获取的图像检测到多个人的脸部的情况下，多个人的年龄段内的最大的年龄段可以作为用户信息提供给音频处理单元14。本技术向由于老龄化已经难以听到音频的用户提供令其满意的听觉环境。因此，认为将最大的年龄段设置为用户信息符合本技术的目的。此外，可以计算多个用户的年龄段的平均，并且将该平均年龄段设置为用户信息。将输入的音频和来自用户信息获取单元13的用户信息提供到音频处理单元14。音频处理单元14基于用户信息对输入的音频进行预定音频处理。输入音频的例子包括来自电视接收机的音频，从各种再现设备输出的内容的音频，再现设备诸如是数字多功能盘(DVD)播放器或蓝光碟播放器。图2是说明音频处理单元14的详细配置的框图。音频处理单元14由频率分析单
元15、校正处理单元16以及转换处理单元17构成。
音频信号输入到频率分析单元15。频率分析单元15对输入的音频信号进行频率分析，从而将音频信号从时域上的信号转换为频域上的信号。对于频率分析的技术，例如可以使用高速的傅立叶变换(FFT :快速傅立叶变换)。然后，将频域信号提供给校正处理单元16。校正处理单元16基于用户信息对提供的音频信号进行音频处理。进行了音频处理的音频信号被提供给转换处理单元17。以如下方式进行音频处理。图3通过以横轴示出频率、以纵轴示出听觉能力特性而图示了按年龄段的人的听觉能力特性。如图3所示，人的听觉能力具有这样的特性，通常当人变老时听觉能力恶化，并且变得难以听到音频。特别地，在频率较高的范围内，该特性变得显著。在20岁到30岁的年龄段中，可能令人满意地听到全部的音频频率范围的声音。然而，在40岁到50岁和50岁到60岁的年龄段中，就变得难以听到具有约IKHz到2KHz或更高的频率的声音，并且在60岁或更大的年龄段，变得更加难以听到具有约IKHz到2KHz或更高频率的声音。这样的频率特性是由于老龄化造成的感知机能的减退和耳鼓膜等的恶化。因此，在第一实施例中，通过进行音频处理会更容易地听到音频。用于补偿听觉能力恶化的音频处理的例子包括使预定频带的频率特性更高，从而变为包含用户年龄的年龄段的前一个年龄段的特性。例如，如果用户为65岁，则用户被归入“60岁或更大”的年龄段。“60岁或更大”的听觉能力特性是如图3所示所有年龄段中最难以听到声音的。因此，在本实施例中，进行音频处理从而使得在之前一个年龄段的频率特性的状态下可能听到。当用户为“60岁或更大”时，进行音频处理从而使得在“50岁到60岁”的频率特性的状态下可能听到。当用户为“50岁到60岁”时，进行音频处理从而使得在“40岁到50岁”的频率特性的状态下可能听到。通过以下等式I计算用于补偿这样的听觉能力恶化的校正量。[等式l]cv(x)=kv(f(x)_g(x))在等式I中，X表示频率。f(x)表示音频处理后的目标频率特性。g(x)表示处理对象的年龄段的频率特性。CV(X)表示对于频率的校正量。kv是用于调整校正量的缩放(seal ing)系数，从而避免由于音频处理破坏音量平衡。由以上的等式I计算的校正量Cv(X)如图4所示。作为基于由等式I计算出的校正量CV进行音频处理的结果，在其中难以听到的频带得以补偿，使得听觉感知中的频率特性接近目标值，并且容易听到音频。在前面的描述中，使用了在处理对象之前一个的年龄段的目标频率特性。然而，目标频率特性并不一定限于在处理对象之前一个的那些年龄段。可以将处理对象之前两个或三个的年龄段的频率特性作为目标进行处理。此外，不管任何年龄段，指示理想的听觉能力特性的20岁到30岁的频率特性都可以被用作为目标。然而，如果作为校正的对象的年龄段和目标年龄段相差太大，则有可能处理后的音频会使用户感到不舒服。因此，在确定目标年龄段时最好将其考虑在内。基于由图像捕捉单元11获取的图像通过模板匹配等来识别单个的用户是可能的，而这是现有技术。因此，对每个用户的音频处理设置(目标频率特性等)存储在存储单元中(未示出)。然后，用户信息获取单元13从由图像捕捉单元11获取的图像识别单个的用户，并且音频处理单元16基于识别出的用户的音频处理设置进行音频处理。如上所述，可以进行对每个用户不同的音频处理。通常，在要观看诸如电影或电视节目这样的内容的情况下，用户最想听到的声音被认为是“语音”，诸如对话、旁白或歌唱。因此，通过对包含“语音”的频带进行上述的音频处理，可以强调(accentuate)用户最想听到的“语音”，并且可以实现令人满意的音频听觉环境。在本技术中，假定“语音”是指包含由人或除人以外的拟人的动物或植物发出的话的声音，诸如电影或电视剧中的对话，电视节目中的旁白、电视节目的演员成员的对话、歌
曲坐回寸O作为用于从声音检测“语音”的方法，存在各种技术。例如，可以采用W02006/016590中公开的技术。此外，当音频是5.1ch环绕声的音频的情况下，从中央声道输出诸如对话的“语音”，并且因此可以优选地对中央声道的声音进行上述音频处理。此外，就歌声而言，例如，基于日本未经审查的专利申请公开No. 2002-116784公开的技术检测音乐部分，并且那个部分中从中央声道输出的声音可以被确定为包括歌声的
五吝”
P口曰 ο 转换处理单元17对从校正处理单元16提供的音频信号进行诸如逆傅立叶变换的处理(IFFT:逆快速傅里叶变换)，从而将音频信号从频域上的信号转换为时域上的信号。由于输出为音频，因此其被提供给外部音频输出系统。以上述的方式配置音频处理装置10。可以通过例如由中央处理单元(CPU)通过使用随机存取存储器(RAM)作为工作存储器执行存储在只读存储器(ROM)中存储的程序来实现脸部检测单元12、用户信息获取单元13，以及音频处理单元14。然而，脸部检测单元12、用户信息获取单元13以及音频处理单元14不限于通过使用程序以上述方式实现的那些。音频处理装置10可以作为专用的设备实现，在其中组合具有图像捕捉单元11、脸部检测单元12、用户信息获取单元13，以及音频处理单元14的各自功能的硬件。1-2.包括音频处理装置的音频输出装置的配置下面，将对包括上述音频处理装置10的音频输出装置100的配置进行描述。图5是图示音频输出装置100的配置的框图。音频输出装置100被配置为AV (音频视频)系统，其是所谓的可输出音频且还可输出视频的“家庭影院系统”。音频输出装置100由音频源/视频源110、音频处理单元14、扬声器120、视频处理单元130、显示单元140、系统控制器150、I/F (InterFace，接口)160、图像捕捉单元11、脸部检测单元12，以及用户信息获取单元13构成。形成音频处理装置10的图像捕捉单元11、脸部检测单元12，以及用户信息获取单元I 3以及音频处理单元14与参照图11所描述的一样，并且因此，省略对其的描述。音频源/视频源110提供形成从音频输出装置100输出的内容的视频和音频，或只有音频。内容的例子包括电视节目、电影、音乐和无线电广播(radio)。音频源/视频源110的例子包括电视调谐器、无线电调谐器、DVD播放器、蓝光碟播放器以及游戏机。将来自音频源/视频源110的音频数据提供给音频处理单元14。此外，将来自音频源/视频源110的音频数据提供给视频处理单元130。扬声器120是输出已经由音频处理单元14进行了处理的音频的音频输出装置。作为从扬声器120输出的音频的结果，用户就有可能聆听到来自音频源/视频源110的音频。当音频输出装置100是5.1ch环绕声系统的情况下，扬声器120由左声道(Lch)前置扬声器、右声道(Rch)前置扬声器、中央扬声器、左声道后置扬声器、右声道后置扬声器以及亚低音扬声器(subwoofer)构成。此外，当音频输出装置100是立体声(2ch)音频时,扬声器120由左声道扬声器和右声道扬声器构成。然而，音频输出装置100可以是除以上之外的6.1ch或7.1ch环绕声系统。当音频输出装置是5.1ch环绕声系统的情况下，优选地音频处理单元14可以对从中央扬声器输出的音频、包含“语音”(诸如对话)的音频进行音频处理。这样做的原因在于，以上述方式，“语音”通常上分配给5.1ch环绕声系统中的中央声道。此外，当音频输出装置100是包括立体声(2ch)扬声器的系统时，优选地对在其中主要包含语音的频带进行
音频处理。
视频处理单元130对视频信号进行预定视频处理，诸如分辨率转换、亮度校正以及颜色校正，并将其提供给显示单元140。显示单元140是由例如液晶显示器(IXD)、等离子显示面板(PDP)或有机电致发光(EL)面板构成的视频显示装置。从视频处理单元130提供的视频信号由显示单元140显示为视频。作为在显示单元140显示的视频的结果，用户有可能观看来自音频源/视频源110的视频。在音频输出装置100旨在只再现诸如音乐的音频时，显示单元140和视频处理单元130是不必要的。系统控制器150由例如CPU、RAM和ROM构成。ROM上已经存储有要由CPU读取且执行的程序。RAM被CPU用作为工作存储器。CPU通过执行ROM中存储的程序进行对整体音频输出装置100的控制。I/F 160通过用户的操作接收从附于音频输出装置100的远程控制器170发送的控制信号，并将其输出到系统控制器150。系统控制器150响应于来自远程控制器170的控制器信号控制整体音频输出装置100。注意到形成音频处理装置10的图像捕捉单元11、脸部检测单元12、用户信息获取单元13以及音频处理单元14全部被提供在同一外壳(housing)内。例如，图像捕捉单元11可以是与显示单元14的外壳整体地形成的所谓的WEB camera (网络相机)。此外，脸部检测单元12和用户信息获取单元I 3配备在显示单元140中，且用户信息可以通过串行总线(USB)或高清晰度多媒体接口(HDMI)提供给外部设备中配备的音频处理单元14。此外，图像捕捉单元11可以作为通过USB、HDMI或诸如此类连接的独立的硬件形成。1-3.音频处理下面，描述在构成音频输出装置100的音频处理装置10中进行的音频处理。图6是说明音频处理的流程的流程图。在以下的描述中，只描述对由音频输出装置100再现的内容的音频进行的处理。初始地，在步骤S10，系统控制器150确定音频输出装置100中是否已经再现了内容。当内容还没有被再现时，处理进行到步骤Sll (步骤SlO中否)。然后，在步骤S11，音频输出装置100和音频处理装置10进入不同于内容再现模式的操作模式，例如进入待机模式。另一方面，当在步骤SlO中确定已经再现了内容时，处理进行到步骤S12(步骤SlO中是)。下面，在步骤S12，系统控制器150设置音频再现设置为缺省设置。
下面，在步骤S13，图像捕捉单元11获取用户的图像。将获取的图像提供给脸部检测单元12。下面，在步骤S14，通过由脸部检测单元12对由图像捕捉单元11获取的图像进行脸部检测处理而确定该图像中是否有脸部。作为结果，检测用户存在与否。当图像中有脸部时，处理进行到步骤S15 (步骤S14中是)。以上述的方式，当图像中有脸部时，将包含脸部的脸部图像提供给用户信息获取单元13。下面，在步骤S15，用户信息获取单元13基于脸部图像获取用户信息。以上述的方式，在本实施例中，用户信息是用户的年龄段。获取的用户信息被提供给音频处理单元14。下面，在步骤S16，音频处理单元14基于用户信息对构成内容的音频进行音频处理。
下面，在步骤S17，从扬声器120输出已经由音频处理单元14进行了预定处理的音频。作为结果，用户有可能聆听内容的音频。下面，在步骤S18系统控制器150确定音频输出装置100对内容的再现是否已经完成。当内容的再现已经完成时，图6的流程图的处理完成(步骤S18中是)。另一方面，当内容的再现还没有完成时，处理进行到步骤S19 (步骤S18中否)。然后，在步骤S19，系统控制器150确定在已经进行音频处理后预定期间是否已经过去。这个预定期间指示在其中进行音频处理的时间间隔。例如，当要每隔10分钟进行音频处理时，在之前已经进行了音频处理之后确定是否已经过去10分钟。然而，可以由用户如期望地设置预定期间，或者可以由提供音频输出装置100的制造者预设该期间。可以预设的预定定时(timing)进行音频处理,诸如在再现内容之前。当在步骤S19确定预定期间还没有过去时，重复步骤S19的确定直到预定期间已经过去(步骤S19中否)。另一方面，当在步骤S19中确定预定期间已经过去时，处理返回到步骤SlO (步骤S19中是)。然后，再次从步骤SlO开始进行音频处理。以上述的方式，进行本技术的第一实施例中的音频处理。在第一实施例中，通过提高音频的频率特性，强调了包含用户最想聆听的“语音”的频带。作为结果，聆听“语音”变得更容易，且有可能实现主要令老年用户满意的听觉环境。2.第二实施例2-1.音频处理下面，将描述本技术的第二实施例。第二实施例中音频处理装置10和音频输出装置100的配置和第一实施例中的是一样的，并且因此省略对其的描述。在第一实施例中，为了使用户容易聆听到音频，进行了用于提高包含“语音”的频带的频率特性的处理。然而，用于使用户容易聆听到音频的方法不限于该处理。在第二实施例中，音频处理装置10降低除了“语音”之外的(以下称作为背景音)音频的级别，结果是，使得“语音”相对地变得显著且更容易聆听，从而提供令用户满意的收视环境。当要应用5.1ch环绕声系统的音频处理装置10时，建议对除中央声道以外的其它声道的音频进行音频处理，其中“语音”，诸如对话，主要被分配给中央声道。此外，在立体声(2ch)的情况下，建议对除了 “语音”之外的音频进行音频处理，“语音”由第一实施例中从上述音频检测“语音”的技术检测出。通过以下等式2计算用于减少背景音的校正量。[等式2] cb (X) =kb (f (x) ~a~g (x))
在等式2中，X表示频率。f(x)表示充当处理目标的频率特性。A表示增益减少量。因此(X)-a”表示处理目标的频率特性。g(x)表示处理对象的年龄段的频率特性。cb(x)表示对于频率的校正量。kb是用于调整校正量的缩放系数，从而避免破坏音量平衡。参照图7使用特定的例子来描述使用等式2的音频处理。在图7中，用处理对象g(x)表示60岁或更大的年龄段，低一个年龄段的50岁到60岁的年龄段用处理基准f(x)表示。使用虚线表示的特性成为目标特性“f(x)_a”。如从图7中可以看到，目标“f(x)_a”是f(x)的频率特性减去增益减少量a。校正量Cb(X)如图8所示。通过对背景音进行将频率特性减少Cb(X)的量的处理，当设置“kb=l”时，处理对象g(x)变为目标“f(x)-a”。如上所述，作为减少背景音的频率特性的结果，“语音”变得相对显著，且变得容易听到“语音”。如可以从图7中看到，就人的听觉能力的特性而言，当人变老时，特别地，高频频带明显下降，并且平衡变得不佳。因此，不是设置单纯地减去减少量a的处理对象g(x)的频率特性作为目标特性，而是设置减去减少量a的、在处理对象g(x)前一个年龄段的处理基准f(x)作为目标特性，从而使得有可能校正频率特性的平衡。作为结果，有可能实现更令人满意的听觉环境。在之前的描述中，设置在处理对象前一个年龄段的频率特性作为用于处理的基准的频率特性。然而，处理的基准不一定限于校正对象的前一个年龄段。可以使用之前两个或之前三个年龄段作为处理的基准。第二实施例可以单独地进行，以及可以与第一实施例组合并使用。具体地，当音频处理装置10通过使用第一实施例的方法补偿“语音”，而音频处理装置10通过使用第二实施例的方法减少“背景音”。作为结果，有可能使用户通常想听到的“语音”更加显著，且有可能实现令人满意的听觉环境。3.第三实施例
3-1.包括音频处理装置的音频输出装置的配置下面，将要描述本技术的第三实施例。图9是说明第三实施例中的音频输出装置300的配置的框图。第三实施例与第一实施例的不同在于提供了指向性扬声器(directionalspeaker) 301。指向性扬声器是在一个方向上具有高指向性(directivity)的扬声器。其例子包括参数扬声器和平板扬声器，其输出具有非线性特性和高指向性的超声波。通过使用指向性扬声器，音频可以只被传送给在特定空间范围内存在的用户。除了指向性扬声器之外，可以使用被称为超定向扬声器(ultra-directional speaker)的扬声器。除了指向性扬声器之外，配置与第一实施例中的相同，并且因此省略对其的描述。音频处理装置10和指向性扬声器301的配置对应于权利要求中音频输出装置的配置。图10是第三实施例中的音频输出装置300的概要图。显示器31输出构成内容的视频，诸如电影和电视节目。显示器310对应于图9的框图中的显示单元140。在显示器的上部区域和显示器一起整体地提供有照相机320。照相机320形成图9的框图中的图像捕捉单元11。然而，照相机320可以被配置为可以通过USB、HDMI或诸如此类连接的独立的硬件。左声道前置扬声器330、右声道前置扬声器340、左声道后置扬声器350以及右声道后置扬声器360是音频输出装置，并且输出对应的音频。亚低音扬声器370是低音专用扬声器。这些扬声器对应于图9的框图中的扬声器120。如上所述,在图9中，音频输出装置300被配置为5.1ch环绕声系统。然而，作为音频输出装置300的家庭影院系统不限于上述的配置。音频输出装置可以只由指向性扬声器形成。此外，扬声器和亚低音扬声器可以由AV机架整体地配置。在显示器310的两侧提供指向性扬声器380和390。从5.1ch环绕声系统中的中央扬声器输出的音频从指向性扬声器380和390输出。即，输出诸如对话和旁白的扬声器语音。因此，在指向性扬声器380和390的左声道和右声道之间没有区别。指向性扬声器的总数和布置不限于图9所示的例子。在第三实施例中，从指向性扬声器380和390输出已经进行第一实施例和第二实施例中的音频控制处理的中央声道的音频，从而使得用户最想听到的声音的“语音”变得更
容易听到，并且可以实现令人满意的听觉环境。4.第四实施例4-1.音频输出装置的配置下面，将要描述本技术的第四实施例。图11是说明第四实施例中的音频输出装置400的配置的框图。第四实施例与第三实施例的不同在于提供了用户位置获取单元410、驱动单元420以及驱动控制单元430。除了驱动单元420和驱动控制单元430之外的配置和第一至第三实施例中的一样。因此，省略对其的描述。用户位置获取单元410通过使用音频输出装置获取观看内容的用户的位置。例如，用户位置获取单元410基于由图像捕捉单元11的照相机获取的图像获取用户的位置。可以基于用户相对于图像捕捉单元11的照相机的光学轴的相对位置的计算结果、关于图像捕捉单元11的照相机的位置和角度的信息等，获取例如作为相对于充当参考(图像捕捉单元11的照相机等)的位置的角度和距离的用户的位置。通过由CPU执行程序或具有功能的专用硬件而实现用户位置获取单元410。然而，该方法并不限于这样的方法，并且可以使用任何方法，只要该方法可以获取用户的位置。例如，可以通过使用传感器，例如红外传感器、所谓的人检测传感器检测用户的位置。此外，可以使用主动式方法测距传感器或被动式方法测距传感器，主动式方法测距传感器通过使用在当输出红外线时的反射来测量到用户的距离，被动式方法测距传感器基于通过由传感器检测主体的亮度信息获得的亮度来测量距离。由用户信息获取单元13获取的用户位置信息通过系统控制器150提供给驱动控制单元430。驱动单元420由例如支撑体422、旋转体421以及平移轴(pan shaft)(未示出)构成从而为可旋转的，如图12所示。驱动单元420的旋转体421被配置为在安装了指向性扬声器440的状态下，通过驱动电机(未示出)的驱动力绕平移轴在支撑体422上可作360度旋转。作为结果，指向性扬声器有可能朝向360度角的任何方向。驱动单元420的配置并不限于图12所示的。只要可以改变指向性扬声器440的朝向可以使用任何配置。例如，可以将指向性扬声器吊在天花板上从而为可旋转的。此外，不限于平移操作(pan operation),还可以有这样的配置其中倾斜操作是可能的。驱动控制单元430控制驱动单元420的操作。特别地，基于由用户的位置信息所指示的用户的位置控制驱动单元420的驱动电机的旋转方向、旋转速度、旋转角度等，从而使得用户被包含在指向性扬声器440具有指向性的范围内。驱动控制单元430发送控制信号给驱动单元420从而使得驱动单元420工作。通过由CPU执行程序或具有功能的专用硬件而实现驱动控制单元430。当存在多个(例如2个)用户时，用户位置获取单元410可以计算多个用户的位置的中心，并且可以将该中心位置作为用户位置信息提供给驱动控制单元430。在这种情况下，驱动控制单元430控制驱动单元420从而使得多个用户的中心位置包含在指向性扬声器440具有指向性的范围内。4-2.第四实施例中的处理在第四实施例中，除了第一和/或第二实施例中的音频处理，还进行用于使得驱动单元420基于用户的位置来操作的处理。图13是示出第四实施例中的处理的流程的流程图。在图13的流程图中，除了步骤S41之外的处理(步骤SlO至S19)和第一实施例中的一样。在第四实施例中，在步骤S41，驱动控制单元430执行用于控制驱动单元420的处理。下面，在步骤S17，已经对其进行了音频处理的音频从指向性扬声器440输出，指向性扬声器440的朝向已经根据用户的位置调整过。根据第四实施例，除了通过第一和/或第二实施例的音频处理，音频在用户位于指向性扬声器具有指向性的范围内的状态下输出。因此，用户更容易听到音频。结果，有可能实现令人满意的听觉环境。5.第五实施例5-1.包括音频处理装置的音频输出装置的配置下面，将要描述本技术的第五实施例。图14是说明第五实施例中的音频输出装置500的配置的框图。第五实施例与第三实施例不同在于提供了用户位置获取单元510和扬声器选择单元520。由于用户位置获取单元510与第四实施例中的用户位置获取单元410相同，因此省略对其的描述。此外，除了用户位置获取单元510和扬声器选择单元520以外的配置与第一至第三实施例中的相同，因此省略对其的描述。在第五实施例中，如图15所示，多个指向性扬声器彼此并排布置。在图14中，总共六个指向性扬声器，即第一指向性扬声器531、第二指向性扬声器532、第三指向性扬声器533、第四指向性扬声器534、第五指向性扬声器535和第六指向性扬声器536彼此并排布置。然而，指向性扬声器的数目不限于图15所示的六个，并且可以是任意数目。指向性扬声器的并列布置位置不限于显示器的前面。扬声器选择单元520基于由用户位置获取单元510获取的用户的位置，从多个指向性扬声器中选择应该从哪个指向性扬声器输出音频。扬声器选择单元520包括例如，对应于指向性扬声器的数目的开关电路，并且通过切换(switch)来自音频处理单元14的音频信号的供应源来选择扬声器。此外，可以通过向每个指向性扬声器发送预定控制信号而通过切换指向性扬声器的开/关来进行选择。例如，假定一种情况，其中图15示出用户A和用户B的位置以及每个指向性扬声器具有的指向性的范围。从每个指向性扬声器延伸出的虚线指示了每个扬声器在其中具有指向性的范围。在图15所示的状态的情况下，扬声器选择单元530使音频从第二指向性扬声器532向用户A输出。此外,扬声器选择单兀520使音频从第五指向性扬声器535向用户B输出。如上所述，进行了扬声器的选择。5-2.第五实施例中的处理在第五实施例中，除了在第一和/或第二实施例中的音频处理之外，进行用于使驱动单元420基于用户的位置来操作的处理。图16是说明第五实施例中的处理流程的流程图。在图16的流程图中，除了步骤S51以外的处理(步骤SlO至S19)与第一实施例中的相同。在第五实施例中，在步骤S51，进行其中扬声器选择单元520选择从中输出音频的指向性扬声器的处理。下面，在步骤S17，从已经根据用户的位置调整过朝向的指向性扬声器输出已经进行过音频处理的音频。根据第五实施例，除了通过第一和/或第二实施例的音频处理，音频在用户位于指向性扬声器具有指向性的范围内的状态下输出。因此，用户更容易听到音频。结果，有可能实现令人满意的听觉环境。6.修改在之前，已经对本技术的实施例进行了具体的描述。本技术不限于上述的实施例，并且基于本技术的技术概念的各种修改是可能的。在上述实施例中，使用用户的年龄段作为用户信息。除了年龄，可以获取用户的性别作为用户信息，并且基于用户的性别进行音频校正处理。取决于年龄和性别，人类可以感知的声音的频率是不同的。因此，通过基于性别进行音频校正处理，被认为可以提供一种更令人满意的观看环境。除了实施例中描述的再现内容的音频输出装置之外，音频处理装置还可以应用于任何输出音频的设备，诸如电话机、移动电话、智能电话或耳机。此外，本技术可以具有以下的配置。(I) 一种音频处理装置，包括用户检测单元，其检测用户存在与否；用户信息获取单元，其获取关于被所述用户检测单元检测到的用户的用户信息；以及音频处理单元，其基于用户信息进行用于强调输入音频中包含的预定音频的处理。(2)如上述(I)中所述的音频处理装置，其中所述用户信息获取单元估计用户的年龄并将该年龄设置为用户信息。(3)如上述(I)或(2)中所述的音频处理装置，其中所述音频处理单元通过提高包含该预定音频的频带的频率特性而强调预定音频。(4)根据上述(I)至(3)中一个所述的音频处理装置，其中所述音频处理单元通过降低除了该包含预定音频的频带之外的频带中的频率特性而强调预定音频。(5)根据上述(I)至(4)中一个所述的音频处理装置，其中所述音频处理单元通过提高主要包含预定音频的声道的音频的频率特性而强调预定音频。(6)根据上述(I)至(5)中一个所述的音频处理装置，其中所述音频处理单元通过降低除了主要包含预定音频的声道之外的声道的音频的频率特性而强调预定音频。
(7)根据上述(I)至(6)中一个所述的音频处理装置，其中所述预定音频是语音。
(8) —种音频处理方法，包括
检测用户存在与否；
获取关于被检测到的用户的用户信息；以及
基于用户信息强调输入音频中包含的预定音频。
(9) 一种音频输出装置，包括
音频处理装置，包括
用户检测单元，其检测用户存在与否，
用户信息获取单元，其获取关于被所述用户检测单元检测到的用户的用户信息，以及
音频处理单元，其基于用户信息进行用于强调输入音频中包含的预定音频的处理，以及
指向性扬声器，其输出已经由所述音频处理装置进行处理过的音频。
(10)根据上述(9)中所述的音频输出装置，还包括
驱动单元，其使所述指向性扬声器进行平移操作(pan operation)；·
驱动控制单元，其控制所述驱动单元；以及
用户位置获取单元，其获取用户的位置，
其中所述驱动控制单元基于由所述用户位置获取单元获取的用户的位置控制驱动单元的操作，使得用户位于指向性扬声器在其中具有指向性的范围内。
(11)根据上述(9)或(10)中所述的音频输出装置，还包括
扬声器选择单兀，其从多个指向性扬声器中选择用于输出音频的指向性扬声器;以及
用户位置获取单元，其获取用户的位置
其中所述多个指向性扬声器并排布置，以及
其中所述扬声器选择单元基于由所述用户位置获取单元获取的用户的位置，选择
输出音频的指向性扬声器，使得用户位于多个指向性扬声器中一个指向性扬声器的指向性的范围内。本申请包含与于2011年9月7日向日本专利局提交的日本优先权专利申请JP2011-194557中公开的内容有关的主题，其全部内容通过引用被并入于此。本领域的技术人员应该理解在不偏离所附权利要求及其等同物的范围内，取决于设计要求和此范围内的其它因素，可以作各种修改、组合、子组合和改变。
权利要求
1.一种音频处理装置，包括用户检测单元，其检测用户存在与否；用户信息获取单元，其获取关于被所述用户检测单元检测到的用户的用户信息；以及音频处理单元，其基于用户信息进行用于强调输入音频中包含的预定音频的处理。
2.根据权利要求1所述的音频处理装置，其中所述用户信息获取单元估计用户的年龄并将该年龄设置为用户信息。
3.根据权利要求1所述的音频处理装置，其中所述音频处理单元通过提高包含该预定音频的频带的频率特性而强调该预定音频。
4.根据权利要求1所述的音频处理装置，其中所述音频处理单元通过降低除了包含该预定音频的频带之外的频带中的频率特性而强调预定音频。
5.根据权利要求1所述的音频处理装置，其中所述音频处理单元通过提高主要包含该预定音频的声道的音频的频率特性而强调该预定音频。
6.根据权利要求1所述的音频处理装置，其中所述音频处理单元通过降低除了主要包含该预定音频的声道之外的其它声道的音频的频率特性而强调该预定音频。
7.根据权利要求1所述的音频处理装置，其中所述预定音频是语音。
8.一种音频处理方法，包括检测用户存在与否；获取关于被检测到的用户的用户信息；以及基于用户信息强调输入音频中包含的预定音频。
9.一种音频输出装置，包括音频处理装置，其包括用户检测单元，其检测用户存在与否，用户信息获取单元，其获取关于被所述用户检测单元检测到的用户的用户信息，以及音频处理单元，其基于用户信息进行用于强调输入音频中包含的预定音频的处理；以及指向性扬声器，其输出已经由所述音频处理装置进行处理过的音频。
10.根据权利要求9所述的音频输出装置，还包括驱动单元，其使所述指向性扬声器进行平移操作；驱动控制单元，其控制所述驱动单元；以及用户位置获取单元，其获取用户的位置，其中所述驱动控制单元基于由所述用户位置获取单元获取的用户的位置控制驱动单元的操作，使得该用户位于指向性扬声器具有指向性的范围内。
11.根据权利要求9所述的音频输出装置，还包括扬声器选择单兀，其从多个指向性扬声器中选择用于输出音频的指向性扬声器；以及用户位置获取单元，其获取用户的位置；其中所述多个指向性扬声器并排布置，以及其中所述扬声器选择单元基于由所述用户位置获取单元获取的用户的位置选择输出音频的指向性扬声器，使得该用户位于多个指向性扬声器中一个指向性扬声器的指向性的范围内。
全文摘要
一种音频处理装置包括用户检测单元，其检测用户存在与否；用户信息获取单元，其获取关于被用户检测单元检测到的用户的用户信息；以及音频处理单元，其基于用户信息进行用于强调输入音频中包含的预定音频的处理。
文档编号H04R3/00GK103002378SQ201210320138
公开日2013年3月27日申请日期2012年8月31日优先权日2011年9月7日
发明者加藤高志, 村林升申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：加藤高志;村林升
技术所有人：索尼公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。