运动用户的声音定位的制作方法

文档序号：6381385阅读：271来源：国知局

专利名称：运动用户的声音定位的制作方法
技术领域：
本发明涉及递送(deliver)声音的方法,更具体而言,涉及三维空间中模拟声音源的方法、系统和计算机程序。
背景技术：
电脑游戏业的发展趋势是增加用户和游戏系统之间的交互并为玩家提供更加逼真体验的游戏的开发。实现更丰富的交互体验的方式之一是利用环绕声系统，其递送在多个扬声器中产生的多个声音。然而，目前的环绕声系统没有考虑用户的身体特征、用户的位置、用户的移动或物理三维空间中虚拟对象的虚拟位置。在某些环境中，例如电影院中，假设观众正在看屏幕时递送声音。由于声音被递送到用户组，因此声音递送不考虑用户特征或者用户关于产生声音的扬声器的实际位置。在另一个场景中，当用户聆听来自便携式设备的音乐时，当声音直接来自于便携式设备时和当用户戴着耳机时相比，该聆听体验是不同的。正是在这种背景下，发明的实施例出现了。

发明内容
本发明实施例提供模拟声音源的方法、设备和计算机程序。本发明实施例跟踪将发出声音的位置和用户的当前位置，以便将该声音投射(project)为好像该声音来自位于三维空间内的模拟声音源。例如，该声音可能看起来源自便携式设备、游戏中的对象、虚拟嵌入并增强现实空间的虚拟对象、玩家等等。应该理解:可以以多种方式实施本发明，例如处理、设备、系统、装置或者计算机可读介质上的方法。下面描述本发明的几个创造性实施例。在一个实施例中，方法包括确定空间中用户头部位置的操作，其中使用用户的人脸识别确定该位置。此外确定递送到两个扬声器的声音，每个扬声器与用户的耳朵相关联。该方法还包括确定空间中的声音发出位置的操作，以及基于空间中头部的位置、声音、空间中发出位置以及用户的听觉(auditory)特征而为每个扬声器建立声信号(acousticsignal)的操作。该声信号传输到两个扬声器，而且当两个扬声器播放声信号时，该声信号模拟声音源自空间中的发出位置。在另一个实施例中，模拟声音源的方法包括用第一设备确定第一用户头部的第一位置的操作。在另一操作中，接收对应于第二用户头部的第二位置，其中用第二设备确定第二位置。此外，该方法包括确定对应于第二设备关于第一设备的位置的第三位置的操作，以及基于第一位置、第二位置以及第一用户的听觉特征而为多个扬声器建立声信号的另一个操作。该声信号被传输到多个扬声器，其中当多个扬声器播放时，声信号模拟与该声信号相关的声音源自第二用户。另一实施例中，模拟声音源的方法包括确定对应于用户头部的第一位置的操作，以及确定对应于对象的第二位置的另一操作。使用用户周围空间的图像分析确定第二位置。此外，基于第一位置、第二位置以及用户的听觉特征，为多个扬声器建立声信号，其中多个扬声器位于用户周围的空间中。声信号被传输到多个扬声器，其中当由多个扬声器播放时，声信号模拟与该声信号相关的声音源自该对象。在另一实施例中，模拟声音源的方法包括生成多个声线索(acoustic cue)的操作，每个声线索与空间中的位置相关。在该方法的另一实施例中，为每个声线索接收来自用户的输入，每个输入具有关于相应声线索的感知位置的信息。基于接收的输入，为用户建立声音定位函数(function)，其中通过从多个现有声音函数中选择现有声音函数，或者从多个现有声音函数中组合多于一个现有声音函数，建立声音定位函数。此外，基于声音定位函数、用户位置以及声音源的期望感知位置，将声音递送到多个扬声器，用以模拟声音源。结合附图从下面的详细描述中，其他方面将变得显而易见。

通过结合附图参考下列说明，可最佳地理解本发明。图1A-1C例示了声音从便携式设备递送到用户的不同实施例。图2描绘了根据一个实施例的多玩家增强现实环境。图3A例示了根据本发明一个实施例的人脸识别方法。图3B例示了根据一个实施例的当用户拿着可追踪控制器时用户的头部的追踪。图4例示了根据一个实施例的具有逼真声音递送的增强现实环境。图5例示了根据一个实施例的利用射频标识(RFID)检测用户头部位置的方法。图6例示了根据一个实施例的使用三角测量检测用户头部位置的方法。图7是执行本发明实施例的计算机系统的简化原理图。图8A-8B显示了根据本发明的实施例的模拟声音源的算法的流程图。图9A例示了根据一个实施例的、基于接收声音的用户感知而选择声音定位函数的方法。图9B例示了根据一个实施例的、基于源自用户前面的声音的感知而选择声音定位函数的方法。图1OA例示了根据一个实施例的、使用音频和视频线索(cues)选择声音定位函数的方法。
图1OB例示了根据一个实施例的、通过连续指向在用户前面移动的感知声音源而选择声音定位函数的方法。图11显示了根据一个实施例的选择一个或多个声音定位函数的流程图。图12显示了根据一个实施例的从声音定位函数数据库中选择一个或多个声音定位函数的流程图。图13例示了可用于执行本发明实施例的设备的架构。图14例示了可用于执行本发明实施例的硬件和用户界面。
具体实施例方式下列实施例描述了模拟声音源的方法、计算机程序及设备。显而易见的是:可以无需这些具体细节中的某些或全部而实施本实施例。在其他情况下，为了不会不必要地模糊本实施例，没有详细描述公知的步骤操作。图1A-1C例示了声音从便携式设备递送到用户的不同实施例。图1A显示了聆听从便携式设备104发出的音乐的用户102，图1B显示了戴着耳机106聆听音乐的用户102。当用户戴耳机时，在感知声音所发生之处(正好面对耳朵)和声音实际发出处(便携式设备)之间存在分离(disconnect)。因此，当戴着耳机时和不戴耳机听音乐时，用户102获得不同的体验。本发明实施例允许戴着耳机的用户具有和用户不戴耳机时所经历的相似体验。声音定位(sound localization)是指听众在方向和距离上识别所检测声音的位置或来源的能力。它也可以指模拟虚拟3D空间中声线索的放置的声学工程方法。人类听觉系统使用声音源定位的若干线索，包括双耳之间的时差和级差、频谱信息、时序分析、相关分析和模式匹配。人类有两只耳朵，但可在三维上-范围(距离)、方向的上和下、前和后以及任一侧上定位声音。大脑、内耳和外耳共同努力以做出关于位置的推论。通过获得源自一只耳朵的线索(单耳线索)并通过比较两只耳朵处接收的线索(差异线索或双耳线索)，人类估计源的位置。在这些差异中，线索是到达的时间差异以及强度差异。单耳线索来自声音源和人体解剖学之间的交互作用，其中在声音进入耳道而由听觉系统处理之前修改原始声音源。这些修改编码源位置，并可能通过与源位置和耳朵位置相关的脉冲响应而被捕获。此脉冲响应被称为与头相关的脉冲响应(head-related impulse response) (HRIR)。如果已在源位置处播放声音，同时听众的耳朵在接收器位置处，则任意声音源与HRIR的卷积(convolution)将声音转换为听众所听到的。HRIR可用于产生虚拟环绕声。声音定位函数f(此处还称为声音函数，定位函数，有时直接为“函数”)是基于声音和空间中被感知为声音源的位置而生成定位声音的函数或算法。当扬声器播放时，定位的声音给用户声音源自期望位置的印象，即使声音实际上是源自扬声器。函数f可数学表示为:Is = f (s, I)(I)其中s是声音(例如犬吠)， 1是期望声音发出的位置，而Is是定位的声音。声音定位函数的一个例子是与头相关的传输函数(HRTF)，它是刻画耳朵如何从空间点接收声音的响应。一对耳朵的HRTF可用于合成似乎来自空间特定点的双耳声音。HRTF还可被描述为将大气中一个方向的声音修改为到达耳膜的声音。这些修改包括听众外耳的形状、听众头部和身体的形状、其中播放声音的空间声学特征等。所有这些特征影响听众如何能够精确地区分声音来自什么方向。由于每个人的体质差异，每个人都有不同的HRTF。使用HRTF描述本发明的声音定位实施例，但说明听众体质特征的其他任何形式的声音定位可用于本发明的实施例。图1C例示了本发明的实施例，其中在耳机116处递送的声音被修改，这样用户102感知由耳机116递送的声音,仿佛该声音从便携式设备110发出，而不是感知到该声音直接来自耳机116。便携式设备110跟踪耳机(headphones)(也称为头戴式耳机(headset)、头戴受话器(earphones)或听筒(earpiece))关于便携式设备110位置的位置。一旦耳机关于便携式设备的相对位置已知，便携式设备操作该声音(例如使用用户的HRTF)来生成定位的声音，为的是使用户相信该声音直接来自便携式设备110。在图1C所示的实施例中，将定位的声音无线传输到无线耳机116。一旦由耳机116播放定位的声音,用户得到该声音来自便携式设备110的体验。不同的人有不同的HRTF，当使用用户的HRTF时递送最引人入胜(compelling)的体验。在一个实施例中，当对于用户来说HRTF不可得时使用标准的HRTF。标准的HRTF考虑到人类的平均特征。虽然没有利用用户的HRTF，但是标准的HRTF仍然可以为用户提供逼真的体验。此外，可使用校准方法来进一步为特定用户定制声音定位体验，用以为用户开发HRTF。存在跟踪耳机位置的多种方式，其依次定义用户耳朵的位置。通常，此处我们指的是跟踪用户耳朵的位置，因为耳朵的位置确定了如何定位声音。为了便于说明，此处我们是指有时跟踪用户的位置，跟踪用户头部的位置，或者跟踪用户正戴着的耳机的位置。所有这些跟踪方法是等效的，因为可以从头部、用户或耳机的位置推导出耳朵的位置。图1C的实施例中，耳机116包括光源，例如发光二极管(LED) 114。便携式设备110中的相机112拍摄用户102所位于的空间的图像，之后便携式设备112执行图像分析，以确定LED 114的位置。图像中的亮点参与LED位置的识别。此外，基于相机112拍摄的图像中LED 114的大小而估计从便携式设备到耳机的距离。一旦确定LED 114的位置，假定LED位于耳朵和连接该耳朵的线上方几英寸之间，根据耳机的物理特性，估计用户耳朵的位置。需要注意的是:图1C所示的实施例是示范性的。其他实施例可利用跟踪用户耳朵位置的不同方法，或者跟踪方法的组合可用于增加准确性。例如，通过使用人脸识别、超声波通信、RFID、红外光、全球定位系统(GPS)等可执行定位跟踪。因此图1C所例示的实施例不应该被解释为排斥性的或限制性的，而是示范性的或例示性的。声音投射为用户提供了引人入胜的体验，使得耳机从聆听体验中“消失”。用户并不觉得声音来自位于耳朵周围的两个扬声器元件，而是感觉声音来自空间中特殊点，依据该情况，其可能与便携式设备、来自游戏的虚拟元件、虚拟用户等有关。随着虚拟声音源变化或者随着用户位置改变，声音投射调适，因此该声音似乎是从正确的位置产生的。图2描述了根据一个实施例的多玩家增强现实环境。在共享空间的游戏中，多个设备交换位置和游戏信息以提供虚拟多玩家体验，其中用户的显示器投影共享的虚拟空间。这允许每个玩家系统访问来自其他所有玩家的相机视图和位置信息，用以同步其校准位置并共享虚拟空间，一起还被称为共享空间。
图2的实施例中，玩家202和204在同一个房间中，而玩家206正在远程游戏(用虚线表示为虚拟玩家)。当玩家202和204已经参照共同的3D空间中的点(例如桌子上的点)而同步或校准他们的便携式设备后，创建了共同的虚拟场景208。玩家206以类似方式将他的便携式设备同步到玩家206周围空间中的点。每个玩家都有虚拟场景208的视图，在这种情况下是战斗平台游戏的虚拟场景好像真的在玩家面前的桌子上。该便携式设备起相机的作用，使得当玩家四处移动设备时，随着相机指向不同方向，该视图与相机改变显示同样的方式改变。结果，每个显示器上的实际视图独立于其他显示器上的视图，该视图仅仅基于和虚拟场景有关的便携式设备的相对位置，其固定在3D空间上的实际物理位置上。通过使用多个相机、加速计和确定位置的其他机械设备以及便携式设备之间的高速通信，可能创建3D移动捕获体验，其以可信的方式允许玩家看见或者可能触摸虚拟的游戏人物和环境。共享空间游戏利用设备的高速连接性来在参加共享空间游戏体验的设备之间交流信息。通过将设备变成留存(persist)在每个设备之间空间内稳定的“魔术窗口”，通过该设备查看虚拟场景208游戏区。通过使用移动跟踪、图像分析和每个设备之间信息的高留存性，即使当设备四处移动时，游戏区呈现在稳定的位置。本发明的实施例提高了增强现实的体验，不仅包括用户所见，还包括用户所闻。玩游戏期间，玩家202觉察到声音来自板上的虚拟对象，例如军队218或者大炮220，来自其他玩家204和206，来自玩家握着的便携式设备212和214等等。在一个实施例中，玩家们戴着可包括麦克风228的耳机226。当用户202玩游戏时，便携式设备210重新创建虚拟增强的现实，其中其他玩家204和206坐在玩家202面前的桌子周围。一旦玩家们具有了虚拟空间中分配的地点，这些玩家发出的声音(例如语音)之后被模拟进入增强现实空间中。远程玩家206说话时，语音传输到便携式设备210，其又修改语音，所以玩家202感知到玩家206的语音，所述玩家206的语音被定位到玩家202所位于的同一房间中玩家206的虚拟位置上。每个便携式设备跟踪各个玩家的位置，而玩家的位置信息在便携式设备之间共享。如果玩家和该玩家所拿的便携式设备相关地移动，则该玩家的位置由其他便携式设备共享，而当玩家说话时，该语音被定位到玩家当前所在的地点。当两名玩家(例如玩家202和204)不远时，便携式设备不仅必须跟踪拿着便携式装置的玩家的位置，还必须跟踪附近其他便携式设备的位置。在一个实施例中，以与跟踪该玩家相似的方式(例如通过用相机所拍摄图像的图像识别)跟踪其他便携式设备的位置。在另一实施例中，便携式设备定义空间中的共同点(例如桌面中心)，然后每个便携式设备跟踪关于共同点的便携式设备的位置。之后关于共同点的便携式设备的位置与其他便携式设备共享，为的是确定便携式设备之间的相对位置。应当注意的是:声音并不是必须源自便携式设备中显示器所涵盖的空间内。声音可能来自视野之外的对象或玩家。例如，玩家可以直视前方，而声音可能来自玩家的右边。然后该声音对玩家来说变成了线索，关于产生来自右边声音的对象或人的行踪。然而，应当注意的是:好的HRTF模型将大大提高显示范围以外对象的声音定位准确性。这是因为虚拟环绕声系统中的不准确性由面临视觉反馈的大脑忽略。如果玩家认为声音来自可视对象，即使在声音传输中有一些错误，大脑使用视觉信息来识别声音源。然而，当声音源自视野夕卜，声音定位的额外视觉线索丢失。在这种情况下，好的HRTF增强了视野之外对象的声音定位。增强现实游戏中的声音定位可应用到多种类型的游戏中。在射击游戏中，由另一名玩家开的枪似乎来自其他玩家的武器。在冒险游戏中，人物的语音似乎来自人物的位置。在多玩家游戏中，来自另一名玩家的语音似乎来自正在说话的玩家的位置。在一个实施例中，由计算机程序生成玩家产生的语音。例如，一名玩家向另一名玩家发短信，计算机程序使用声音定位来“读取”发给另外玩家的短信，这使得计算机生成的语音似乎来自于发信息的玩家的口中。此外，虚拟现实产生的语音可能是经翻译的语音，也就是说由机器翻译工具生成的语音。例如，远程玩家用外语说话，随着远程玩家说话，外语被翻译成接收该语音的玩家的母语。图3A例示了根据按照本发明一个实施例的人脸识别方法。在一个实施例中，使用游戏区域360的视频图像的图像分析来完成玩家脸部或耳朵的位置确定，图像分析包括检测和跟踪用户特征，例如眼睛366和368，脸，鼻子372，嘴370，躯干364等等。在图3A的实施例中，跟踪脸部特征以估计头部的三维位置并得到耳朵的位置。跟踪的特征越多，头部跟踪越可靠。例如，如果用户远离相机转动头部，则对于相机来说只有一只眼睛是可见的。通过理解鼻子和嘴的位置，系统确定:用户已经转动头部而不是假设检测脸部失败。一旦确定用户耳朵的位置，根据声音源和耳朵的位置在声音上完成了声音定位。在一个实施例中，用户所在地区的图像由便携式设备中“脸部所对的”相机拍摄。此外，可将闪光灯或其他某一光源照耀到用户脸部以改善人脸识别。在另一个实施例中，不是跟踪用户的便携式设备，与用户相关联的设备跟踪便携式设备。例如，耳机352包括相机354,由相机354拍摄的图像用于发现便携式设备。在一个实施例中，由相机354拍摄的图像被发送到图像分析的便携式设备。一旦图像分析确定便携式设备的位置，便推导出关于便携式设备的用户的位置，使得声音定位成为可能。应当注意的是:此处所述的跟踪方法可用于在隔离或其任何组合中。例如，耳机上的相机354可用于追踪便携式设备的位置，而便携式设备可同事跟踪用户的脸部。此外可以利用其他跟踪方法，如红外光、超声波、GPS、RFID等。这些跟踪方法提供的信息可组合以进一步提闻跟踪精度。图3B例示了:根据一个实施例，当用户拿着可追踪控制器时用户头部的跟踪。图3B的实施例包括连接到图像捕获设备304的游戏控制台302。通过图像识别或通过其他类型的定位跟踪，控制器312是可追踪的。当用户310拿着控制器312时，游戏控制台302基于可跟踪控制器的位置并基于用户的位置(如使用人脸识别)执行声音定位。游戏控制台302内的位置跟踪模块基于控制器的位置确定空间中的头部位置。位于用户310周围的两个或多个扬声器314从游戏控制台302接收声音信号。当执行声音定位时，根据用户的位置、声音发出的位置以及扬声器的位置修改发送到扬声器314的声音信号。例如，如果射手从离显示器306大约20米的位置开枪，并且用户离显示器306三米远，声音定位将修改正被射击的枪的声音，因此射击似乎来自离用户310大约23米远的位置。
通常可定位递送给用户的声音，这样声音似乎源自游戏控制台302，来自显示器306上的游戏对象，来自控制器312，来自位于用户物理空间的虚拟游戏对象，等等。连续跟踪用户的位置，并且声音定位基于用户的当前位置。例如，如果用户转动头部，声音定位变化，因此该声音似乎来自正确位置，即使用户正在转动头部的时候。图4例示了根据一个实施例的具有声音真实递送的增强现实环境。玩家406a具有与位于桌子404上方的参考点402同步的设备408a。在一个实施例中，点PO 402是参考点而且还是具有坐标(Xci = OJtl = (^Zci = 0)的坐标原点。虽然玩家406a在房间内，此处还被称为虚拟场景的虚拟现实可扩展到超出房间的物理边界。玩家406b和玩家406a玩同样的游戏但是在远程位置，对于玩家406a来说，玩家406b被描绘成该游戏中的虚拟元素。玩家406b正拿着便携式设备408b，其已同步到玩家406b所在物理空间中的另一个参考点。在一个示范性实施例中，虚拟场景依赖参考点，因为虚拟场景的几何形状(正如通过设备屏幕所见到的)至少部分地基于该参考点。例如，可用参考点确定虚拟场景中虚拟对象的坐标。可使用任何衡量标准测量坐标。然而，为了提供可视化的例子并且不限制使用的实际坐标，如果用米测量虚拟场景的坐标，坐标为(1，0，0)的对象将位于参考点右方一米处。当然，随着场景变化，例如当虚拟对象在场景内移动时，可动态更新真实或虚拟的对象的坐标。此外，可通过计算机设定的动作(例如交互程序)定义该变化，可通过用户的动作和二者组合来驱动。此外，为清楚起见，交互程序可以是任何类型的程序，如视频游戏、商业程序、网络接口或者仅仅是向其他用户、程序或者对象提供数据访问的图形用户界面，该对象可能会或可能不会由扬声器显示或投射。此外，其他实施例还可具有不同的坐标系统或使用缩放。例如，替代直角坐标系，坐标系统可以是极性的，球面，抛物面等。此外，参考点并不是必须在坐标系的原点，可以位于不同的地方。为了提供实例，参考点可位于坐标(5，5，5)处，在超过5米的点上必须使用负坐标值之前，使得每个方向上有5米的缓冲区。在另一场景中，建立虚拟对象来缩放，也是用比例尺来测量坐标。例如，虚拟对象可建立在1: 10的比例尺上,几何轴也可具有I: 10的比例尺，这样具有坐标(1，0，0)的对象离“真实”世界I米远，而离虚拟世界10米远。图4中，虚拟对象包括直升机414a_414c、云、鸟、太阳416等。随着玩家406a移动便携式设备408a，虚拟场景的视野变化，好像玩家拿着相机进入到虚拟世界。应当注意的是:设备408a中所显示的视图可包括或可不包括参考点。房间包括除桌子404之外的其他静态对象,例如电视412和窗口 410。正如图4所看出的，虚拟对象可位于空间的任何地方。当便携式设备包含相机时，可由便携式设备使用房间中的静态特性，通过用来自其相机的视图调整其惯性测量来维持当前位置的精确测量。便携式设备中的图像分析可检测窗口边缘、光源、桌子边缘、墙壁上的画、电视等。游戏控制台422与便携式设备108a交流信息以发送增强现实环境。该信息包括游戏信息、用户跟踪、便携式设备位置、虚拟对象位置、远程玩家的位置等等中的一个或多个。在一个实施例中，游戏控制台422跟踪玩家406a的耳朵位置。当游戏中产生声音时(例如，直升机飞行的声音)，游戏控制台422确定虚拟空间中声音源的坐标。一旦耳朵的位置和声音源的位置已知，游戏控制台422确定声音源和感知声音的耳朵之间的相对位置。游戏控制台422还具有关于房间中扬声器420的位置信息。用户的HRTF用于将该声音转换成对于用户来说似乎来自声音源的经定位的声音。为了模拟声音源的位置，传送到扬声器420的经定位的声音包括用于每个扬声器420的不同声信号。在另一实施例中，用户406a正戴着耳机(未显不)。在这种情况下,定位的声音被传送到耳机而不是扬声器。使用扬声器和使用耳机的声音定位算法是类似的，但在扬声器的情况下，位置是固定的，而在耳机的情况下必须跟踪位置，因为用户移动时，耳机移动。此夕卜，在房间扬声器的情况下，对于来自每个扬声器的声音，存在行程时间(travel time)，其必须由声音定位算法考虑。声音定位算法采用用户的HRTF以及用户耳朵的当前位置生成用于耳机的定位声音。由耳机播放的定位声音的声信号为考虑空间中虚拟对象虚拟位置的用户提供声线索。在一个实施例中，当发出声音的对象或人显示在便携式设备显示器上或连接到游戏控制台422的显示器412上时，用更高的音量递送定位声音的声信号。便携式设备不仅充当相机，还充当定向(directional)麦克风。当声音源不在显示器上时，声音的音量较低。因为便携式设备作为相机和定向麦克风工作，随着用户移动便携式设备，用户具有声音源所在之处的声线索。给远程玩家406b分配玩家406a物理空间中的一个位置。声音定位包括产生似乎来自玩家406b或来自便携式设备408b的声音。例如，当玩家406b说话时，由便携式设备408b捕获该语音，然后传送到游戏控制台422或便携式设备408a。之后使用HRTF或某些其他声音定位算法将来自用户406b的语音转换，用以给用户406a递送该语音，好像玩家406b正站在玩家406a附近。在一个实施例中，GPS用于跟踪用户。例如，便携式设备中的GPS模块用于确定便携式设备的位置，当由便携式设备与用户跟踪相结合时，其将GPS位置提供给用户。如果用户406b位于远程位置(例如几英里远)，用户406b的GPS位置可用于音效。例如，用户406b具有由远程玩家投射的游戏炮。声音效果模拟来自用户406b实际位置的炮投射。首先听到开枪射击，随着炮弹经由空气从玩家406b的位置行进(travel)到玩家406a的位置，之后跟随有炮弹的声音。由于炮弹通过空气行进，声音强度增加，正如在现实生活那样。最后，当炮弹击中目标时听到爆炸，而且如果目标在用户附近，将用高音量递送声音。图5例示了根据一个实施例、利用射频标识(RFID)检测用户头部位置的方法。戴着耳机504的用户502在她口袋里携佩戴便携式设备506。便携式设备506包括RFID模块508，耳机504中的一个或两个耳机512包括RFID标签510。RFID模块508不仅能够阅读RFID标签510中的信息，还能够确定来自RFID标签510的无线电信号的方向和时序。因此，RFID技术的使用使得便携式设备获得RFID标签510的距离以及RFID信号方向的估计。这样，即使RFID模块508和RFID标签510之间不存在视线，便携式设备仍然可以得到耳机512位置的估计，其指示用户502的耳朵的位置。其他实施例可使用除RFID外的其他类型的无线通信，例如蓝牙、W1-F1、无线电传输、超声波、声信号等。在另一实施例中，耳机和便携式设备包括GPS模块。GPS模块提供空间中用户头部和便携式设备的绝对位置。便携式设备中的位置跟踪模块使用GPS位置，用以确定空间中关于便携式设备位置的头部位置。一旦确定了相对位置，便携式设备能够执行用户的声音定位，正如之前所述。可以使用任何类型的GPS技术，例如使用GPS卫星星座(constellation)，或者使用基于到移动电话塔距离的移动电话定位技术。GPS技术也可与其他形式的跟踪结合。例如，便携式设备可包括GPS模块，而便携式设备通过图像识别跟踪用户耳朵的位置。便携式设备的GPS定位可用于具有远程虚拟玩家的游戏中。所有玩家的GPS定位用于创建将玩家的相对位置彼此匹配的声音效果。图6例示了根据一个实施例使用三角测量检测头部位置的方法。在一个实施例中(未显示)，耳机包括超声波源，超声波信号用于跟踪玩家头部的位置。一个或多个定向麦克风可用于确定耳机的位置，因为定向麦克风提供声音的方向。此外，从耳机到便携式设备行进的超声波时间量计时提供了测距从耳机到麦克风的距离的信息。当多于一个麦克风可用时，三角测量可用于微调用户的位置。图6中的实施例中，超声波源位于便携式设备604处。耳机606包括三个超声波麦克风608a-608c。由麦克风608a_608c中每一个捕获的信息被传输到便携式设备604上。便携式设备604中的位置跟踪模块分析由麦克风捕获的声音信息，用以确定耳机的位置，其包括根据声音的方向和声音到达麦克风的时间执行三角测量。由位置跟踪模块执行的分析确定耳机关于便携式设备的相对位置。也可以用其他无线技术使用三角测量。例如，便携式设备可包括三个可读取由RFID标签发送的RFID无线电信号的RFID传感器。为了改善包括三角测量信号源的估计，空间上彼此远离地定位RFID传感器。同样，RFID标签可位于耳机内，一个在右边的耳机上，一个在左边耳机上，第三个在右边和左边耳机之间。应当注意:三角测量信号的其他实施例可包括除3外的不同数量的传感器，例如2，4等。因此图6所示的实施例不应被解释为排斥性的或限制性的，而是示范性的和说明性的。图7是执行本发明实施例的计算机系统的简化原理图。应当理解:可用诸如传统通用计算机系统的数字处理系统执行此处所述的方法。被设计或编程为执行唯一功能的专用计算机可用于备选。计算设备712包括处理器732，其耦合到存储器734、耦合到永久存储设备758、以及耦合到计算设备712内或者连接到计算设备712的其他模块。声音定位计算机程序736驻留在存储器734中，但也可以驻留在永久存储设备758中。计算设备712与超声波捕获设备708、图像捕获设备720和显示器726通信。在一个实施例中，声音捕获设备708、图像捕获设备720、RFID模块706和显示器726可嵌入到计算设备712中或者是独立的单元。在一个实施例中，超声波捕获设备包括麦克风，而在另一个实施例中，超声波捕获设备包括麦克风阵列。设备位置跟踪模块724确定便携式设备的位置。多种技术可用于位置跟踪，例如超声波、GPS、RFID、图像分析、三角测量、惯性等，或者其组合。头部跟踪模块738确定用户耳朵中一个或两个的位置(其可通过确定耳机的位置而间接确定)。通过使用一种或多种不同的技术，例如图像识别、RFID、超声波、红外线、三角测量等，头部跟踪模块738可确定用户耳朵的位置。为了执行声音定位，声音投射模块716修改声音信号，期望递送到声音系统，这样接收修改后的声音信号的用户将具有声音发自期望位置的印象。声音投射模块716使用设备位置跟踪模块724和头部跟踪模块738提供的位置信息以修改声音信号。永久存储设备758代表持续的数据存储设备，例如软盘驱动或固定光盘驱动，其可能是本地的或远程的。网络接口 746提供网络连接，允许与其他设备通信。应该理解处理器732可嵌入到通用处理器、专用处理器或者专门编程的逻辑器件中。输入/输出(I/0)接口 742提供了与不同外设的通信，例如显示器726、键盘752、鼠标750、超声波捕获设备708、图像捕获设备720、扬声器754、耳机704、按钮、传感器、触摸屏756等。通用串行总线(USB)模块744提供到USB设备的连接。显示器726被配置为显示此处所述的用户接口。为了向处理器732传送信息，键盘752、鼠标750和其他外设耦合到I/O接口 742。应该理解:可通过I/O接口 742将数据传送到外部设备并从外部设备传送数据。也可在分布式计算环境中实施本发明，其中由通过基于有线或无线网络连接的远程处理设备执行任务。数据库710包括与多个不同用户相关联的多个声音定位函数。在一个实施例中，声音定位函数是为多个用户获取的经测量的HRTF函数，但还可用其他的声音定位函数。正如以下关于图9A-12所论述的，数据库710用于为用户建立声音定位函数，其影响(leverage)为其他用户获得的现有函数。注意的是:图7所例示的实施例是示范性的。其他实施例可利用不同的模块，或者具有由一个模块执行的多种函数等。因此图7所示的实施例不应被解释为排斥性的或限制性的，而是示范性的或说明性的。图8A-8B显示根据本发明实施例的模拟声音源的算法流程图。图8A例示了声音定位的实施例。在操作802中确定空间中用户头部的位置，其中该用户戴着包括两个扬声器的耳机。如前所述，多种方法可用于确定耳机的位置，如超声波、图像分析、RFID、GPS、红外线等。此外，操作804中确定将被递送到扬声器的声音，每个扬声器与用户的一只耳朵相关联。换句话说，一个扬声器位于左耳旁，另一个扬声器位于右耳旁。操作806中确定声音发出位置。该声音发出位置指的是空间中定义将被递送给用户的虚拟声音源的点，这样用户得到该声音来自该声音源的印象。操作808中，基于空间中头部的位置、声音、空间中的发出位置和用户的听觉特征，为每个扬声器建立声信号。用户的听觉特征定义了影响用户如何定位声音出处的用户物理特征。在一个实施例中，用户的听觉特征由用户耳朵的HRTF对定义。操作808之后，该方法流向操作810，其中声信号被传送到两个扬声器。当声信号由两个扬声器播放时，该声音似乎源自空间中的发出位置。图SB例示了模拟声音源的方法流程图。操作842中确定空间中用户头部的位置。在一个实施例中，用户戴着包括两个扬声器的耳机，而在另一个实施例中，多个扬声器位于用户周围的空间中，例如用户和计算机设备交互的房间中。操作844中，该方法确定在增强现实环境中由虚拟对象产生的声音，其中该声音被递送到多个扬声器中。在操作846中确定对应于空间中虚拟对象的虚拟位置的空间中声音的发出位置。例如在一个实施例中，声音是由站在真实的物理桌子上的化身(avatar)所产生的语音。此外，在操作848中，基于空间中头部的位置、声音以及空间中的发出位置为每个扬声器建立声信号。一旦建立了声信号，声信号在操作850中被传送到两个扬声器上。声信号一旦由两个扬声器播放就模拟声音源自空间中的发出位置。操作852中，增强现实空间的一部分或者整个增强现实空间显示在便携式设备的屏幕上。
因为戴着耳机的人可能随着时间推移而移动她的头，因此需要跟踪来定期重新计算用户的位置。此外，声音的发出位置也可能随时间而改变。结果，需要用户和声音位置的连续跟踪，而在操作854中，该方法确定是否需要更新用户的位置。在一个实施例中，定期更新(例如每隔500ms，虽然其他值也是可能的)用户的位置。如果操作854中执行的检查确定将要更新位置，则该方法流回到操作842。另一方面，如果操作854中执行的检查决定不需要更新用户的位置，则该方法流回到操作844用以确定递送到耳机的新声音。根据一个实施例，图9A例示了:基于所接收声音的用户感知而选择声音定位函数的方法。通过耳机的虚拟环绕最适合人的HRTF(或某些其他的声音定位函数)的精确测量。测量HRTF的过程是困难的(也就是说，该过程需要在人耳中放入小麦克风，并且坐得笔直，当在头部周围不同的位置和距离处移动扬声器时)。本发明的实施例利用了用户人口的经测量的HRTF数据库。在一个实施例中，利用运动控制器创建用户的声音定位函数，其基于数据库中的一个或多个HRTF。实际上没有测量用户的HRTF，但是通过发现为用户“工作”的一个或多个HRTF，提供了具有虚拟声音递送的现实虚拟环绕声系统。具有用于数百万用户的声音定位函数是不实际的。发明的实施例利用用于人的常规片段的测量声音定位函数，然后执行测试以为特定用户选择这些函数中的一个。在图9A的实施例中，用户904在具有多个扬声器902的房间中。应当注意的是:当用户904戴着耳机时，还可执行校准过程。计算机系统通过扬声器902播放声音，用户被要求指出方向908a上的控制器906A，用户相信其是声音源的方向。基于由用户识别作为声音源的方向908a，该系统从匹配该方向的数据库中选择一个或多个声音定位函数。换句话说，由用户904的每个回应之后，该系统缩小了可满足用户904特征的声音定位函数。在一个实施例中，给用户提供两种选择。如果用户不确定声音来自哪里，按下控制器上的第一个按钮以表明用户不确定。另一方面，如果用户识别出方向，当指出声音的方向时用户按下第二个按钮。这允许人们通过搜索声音定位函数(例如HRTF)的数据库而找到适当的声音定位函数，并找到最匹配用户输入(例如由控制器识别的方向)的函数。该过程用在不同位置的其他的声音重复。基于控制器的位置(例如906b、906c)为每个声音获得新的方向(例如908b，908c)，并且分析声音定位函数以找到位置的最佳匹配。在一个实施例中，最佳匹配是为所有测试声音提供最佳整体性能的声音定位函数。在另一实施例中，用于此特定用户的函数是声音函数的组合，其中用户周围的空间被划分成部分(sector)，来自每个部分的声音使用与该部分相关的函数，其中每个部分具有相关联的不同函数。在一个实施例中使用了插值(interpolation),而某些部分使用来自两个或更多函数的插值。期望的目标不是具有完美的选择函数，而是该目标是在不同位置具有大量的可接受函数，其对于具体的游戏或者对于一系列游戏来说足够填满所需的3D体积。如果认为一定数量的离散传递函数比只选择一个函数更好，那么就没有必要只选择一个函数。在一个实施例中，插值用来填充其中尚未执行实际测试的区域中的空白，由于为用户周围的整个3-D空间执行测试是非常乏味的。为每个测试播放的声音可能是相同的声音，但从不同的位置投射，或者该声音可能随位置而改变，为的是获得不同音频频率的数据。这可能减少用户困惑，因为用户不会觉得所有声音恰好相同并且声音来自同一个地方。在一个实施例中，如果一个传递函数并没有恰当地匹配所有测试声音的用户声音特征，则为用户计算的声音函数是不仅考虑到了声音来自的区域而且考虑了正在产生的声音类型(例如声音的主频)的函数组合。例如，在3D空间中的特定地点，第一函数可用于低频声音，而第二函数可用于高频或中频声音。由于与用户904相关的函数未知，所以从数据库中选择的声音定位函数，开始校准过程。当用户在908a方向上点906a时，该系统分析:当使用生成声音时，什么定位函数fu或函数可能引起该响应。换句话说，系统需要将与数据库中的其他函数相关联。Ifs是为测试所选的声音(例如犬吠)，I1是声音的位置，而Is1是扬声器处递送的定位声音，等式⑴变为:Is1 = f: (s, I1)(2)当用户指向方向908a时，基于方向908a计算位置12。如果fu是为该声音和位置I2匹配声音s用户的函数，那么得到下面的公式:Is1 = fu(s, I2)(3)这意味着:对于同样的声音测试(例如犬吠)，和fu将产生发送到扬声器的相同声音，但是由用户感知的位置因为不同的声音定位函数而变化。换句话说，具有函数4的用户感知来自I1的声音，而具有函数fu的用户感知来自I2的目同声音。将等式⑵和(3)结合，得到以下恒等式:f^s, I1) = fu(s, I2)(4)因为Lsa1和I2是已知的，所以可用等式⑷获得fu。然而注意的是:fu为此用户的位置I2工作，但是fu可能不为其他位置工作。因为对于数据库中的许多函数来说可满足等式(4)，在不同地点继续该测试允许系统选择:哪个可能的函数更好地为用户服务。在一个实施例中，通过消除不工作的函数，测试过程继续，直到选择最后一个函数为止(更好地匹配用户特征的函数)。在一个实施例中，相同的函数用于所有的测试。在另一实施例中，随着该系统开始微调该函数或者为此用户最佳工作的函数，用于每个测试的函数变化。例如在第二测试中，之前测试中获得的选定函数fu用于第二测试，而不是f\。第二测试后，基于两次测量选择新的函数fu2。基于所有测试中的测量，每次测试后重复该过程以计算新的函数。注意的是:校准正在发生时，如果用户移动头部，该移动可能改变结果。在一个实施例中，声音短，消除或实质上减少了头部运动的影响。在另一个实施中，跟踪用户的头部，这意味着测试期间耳朵的位置是已知的。在一个实施例中，通过分析用户拍摄的图像而执行头部跟踪，但是也可用其他方法，例如使用具有磁力计的耳机等。根据一个实施例，图9B例示了基于源自用户前面的声音感知而选择声音定位函数的方法。戴着耳机962的用户904位于显示器952和相机956前，相机952用于拍摄用户和用户拿着的控制器的图像。相机956连接到计算机设备(未显示)上。在图9B所示的实施例中，将校准限制在用户前面的点。校准测试点可能在显示器952上，或者在位于显示器952后面的墙954上。测试步骤是与上述参考图9A类似的步骤，除了用户知道到声音的距离，因为声音在显示器952上或者在墙954上。此外，该系统能够计算用户904和显示器952之间以及用户904和墙954之间的距离。定位正在测试的声音，用以模拟源自显示器上或墙壁上的声音。此外，用户904和声音之间的距离等于用户和显示器952上声音源位置之间、或者用户和墙954上声音源位置之间的距离。在另一实施例中，用户周围的对象也可用于测试。这样，对象和用户之间的距离也是已知的，该距离可用于校准步骤。注意的是:图9A和9B的校准步骤比仅仅知道用户的HRTF更好，因为校准过程中也考虑了用户的主观部分(关于用户的声音感知)。如上所述，测量HRTF涉及将麦克风放在用户的耳朵中，但是HRTF没有说明声音进入耳道后会发生什么。该系统把用户的印象连接到物理位置上。不是使用“完美的”方法，其中该系统开发了人耳的精确模型，该系统实际上可将性能调整到个人的独特偏见。如果人认为:特定的声音似乎来自一个方向，不管它是否与人的HRTF匹配，该系统将比只是使用HRTF提供更加引人入胜的体验。上述标定方法不仅提供了选择声音定位函数的直观界面，该校准方法还提供用户感知到声音正在发出之处和运动控制器位置之间的登记。在一个实施例中，控制器和用户头部的位置与声音定位函数用于模拟:声音随着控制器正被四处移动而由运动控制器产生。根据一个实施例，图1OA例示了使用音频和视频线索选择声音定位函数的方法。图1OA的实施例使用视线检测和视觉线索执行校准。此外，校准过程可能是游戏的一部分，随着测试的进行，其给出了分数或奖励。利用相机156和计算设备(未显示)来检测用户158的视线154。扬声器152嵌入到电视机中并且用于递送本地化的声音。对于校准来说，屏幕由用户视线的潜在目标填充。目标是帮助用户识别声音源的视觉线索。图1OA所示的例子中包括多只鸟，声音测试是一声鸟鸣，其可能随测试而改变。校准过程中的每个声音提示后，用户将她的视线瞄准在用户认为发出声音的显示器上的对象上。在一个实施例中，动画发生以显示被选中的鸟儿，例如让鸟儿飞走、消失、倒在地上，
坐坐寸寸o在一个实施例中，在允许用户从之前输入中执行更正的过程中存在反馈环。3D可视化提供给映射用户所选的所有3D位置的用户。该系统允许用户重新定义感知的位置，并将输入彼此联系。例如，用户可以详述“这个声音在那一个的前面”，或者详述“这个声音在那一个的后面”。如果以可视化表现放置各种声音，并且可被单独选择，然后用户可以使用该信息重置声音样本。例如，用户可能指出:“这个声音在我正前方”，但在稍后时间听到另一个声音并详述“新声音是在我正前方的那个”。用户可以选择最初的“正前方”声音，确认声音并不位于她最初以为的地方，要么放弃要么重新定位(reposition)样本。根据一个实施例，图1OB例示了通过连续指向移动到用户前方的感知声音源而选择声音定位函数的方法。在一个实施例中，校准测试包括:播放声音源变化处的声音序列，模拟声音源正在移动。图1OB的实施例利用声音校准的标记分析。在这种情况下，用户168用她的手指指向162来指不声首来自何处。例如，声音是正在森林中沿着轨迹166运动的鸟儿164，但是该鸟儿是不可见的，因为它正在森林里飞。注意的是:轨迹166可能留在显示区域中，或者该轨迹可能扩展到显示器边界之外。随着鸟儿移动，用户168将162指向用户认为鸟儿当时所在的位置。系统分析由手指方向所识别的方向，并在上述为用户计算声音定位函数的过程使用类似的过程。在一个实施例中，该系统定期采样用户输入和相应的声音。然后用获得的离散样本计算声音函数，正如上所述。在一个实施例中，用户的声音定位函数存储在网络上的服务器中，其可由许多设备访问。为了在其他设备中递送声音定位，之后声音定位函数可与其他设备共享。例如，用户可以使用游戏控制台来计算函数，然后当用户戴着连接到便携式设备的耳机时，声音定位可提供给用户。注意的是:图9A-9B和10A-10B所示的实施例是示范性的。其他实施例可利用不同的声音，不同的扬声器配置，使用不同的输入(例如，控制器、手持设备的方向、用户所做的标志等)，使用不同类型的扬声器(例如，耳机，房间中的扬声器，电视上的扬声器等)。因此图9A-9B和10A-10B所示的实施例不应被解释为排斥性的或限制性的，而是示范性的或说明性的。根据一个实施例，图11显示了选择一个或多个声音定位函数的流程图。操作1102中，选择声音用于执行第一测试。定位该声音使其显不出声音源自某一位置。操作1104中，通过多个扬声器播放声音，例如环绕声系统、一副耳机、嵌入到电视机中的扬声器等。提示用户指出声音是来自何处。操作1106中，检测用户的输入，而用户的输入用于确定空间中从用户到感知声音源的指向向量。操作1108中，分析存储在数据库中的声音定位函数，并且基于播放和捕获的指向向量，给该函数打分。分数用来滤除用于此用户声音定位的某些可能函数。操作1110中，该方法确定是否需要更多的测量来继续减少候选函数的列表(list)。如果不需要更多的测量，该方法继续到操作1114，否则到操作1112。操作1112中，基于已经获得的结果选择新的定位声音。在一个实施例中，预先确定该声音并且该系统通过声音列表循环，直到耗尽该列表。例如，该列表可能包括来自7个不同地点的7个不同声音。收到相应的7个输入后，之后系统为用户选择一个函数(操作1114)。在另一个实施例中，基于之前的任务，该方法适应接收到的输入并选择下一个声音。例如，系统可能会下降到3个不同的候选函数，选择提供良好引导的声音，用于选择哪个是三个函数中最好的。操作1114中，为用户计算声音定位函数。例如看如上所述的关于图9A-9B和10A-10B的实施例。此外，操作1116中，计算出的声音定位函数存储在数据库中，这样其他设备可使用将声音定位到此用户的函数。根据一个实施例，图12显示了从声音定位函数的数据库中选择一个或多个声音定位函数的流程图。操作1202中，选择与空间中第一位置相关的第一声线索，操作1204中，通过扬声器递送声线索。递送声队列后，该系统在操作1206中从用户接收输入。来自用户的输入具有声线索的感知位置信息。操作1208中，该方法检查操作1204中是否递送最后的声线索。如果是最后的声线索，该方法继续到操作1212，否则到操作1210。操作1210中，该方法选择下一个声线索和声线索发出的位置。操作1210之后，该方法返回到操作1204用以递送新的声线索。操作1212中，执行新的检查以确定是否单个声音定位函数将用于此用户，或者是否声音函数的组合用于该用户。例如，如果系统确认存在将此用户和递送的测试良好匹配的声音定位函数，则该系统将使用从声音函数数据库中检索的此函数。然而，如果没有用于该用户的良好匹配，系统将使用根据空间中最佳匹配每个函数的部分而划分的函数组合。因此，操作1214中，基于接收的用户输入，该方法从数据库中选择现有的声音定位函数。另一方面，操作1216中，该方法从用户数据库中选择声音定位函数的结合。操作1218上，为了模拟声音源，基于声音定位函数、用户位置以及声音源的期望感知位置，声音被递送到多个扬声器。
图13例示了可用于实现发明实施例的设备架构。便携式设备是计算设备并且包括存在于计算设备中的常规模块，如处理器、内存(RAM、R0M等)、电池或其它电源以及永久性存储器(例如硬盘)。通信模块允许便携式设备与其他便携式设备、其他电脑、服务器等交流信息。该通信模块包括通用串行总线(USB)连接器、通信链接(例如以太网)、超声波通信、蓝牙和WiFi。输入模块包括输入按钮和传感器、麦克风、触控屏、相机(正面、背面、深度相机)和读卡器。其他输入/输出设备，例如键盘或鼠标，也可通过诸如USB或蓝牙的通信链接连接到便携式设备。输出模块包括显示屏(具有触控屏)、发光二极管(LED)、振动触觉反馈和扬声器。诸如耳机的其他输出设备还可以通过通信模块连接到便携式设备上。来自不同设备的信息可由定位模块用来计算便携式设备的位置。这些模块包括磁力计、加速度计、陀螺仪、GPS和指南针。此外，定位模块可分析用相机和麦克风捕获的声音或图像数据用以计算该位置。此外，定位模块可执行测试以确定便携式设备的位置或附近其他设备的位置，如WiFi ping测试或超声波测试。如前所述，使用定位模块计算出的位置，虚拟现实生成器创建虚拟或增强的现实。基于虚拟现实和位置，视图生成器创建屏幕上显示的视图。声音定位模块执行声音定位，用于将被递送到扬声器或耳机的声音。应当理解:图13所示的实施例是便携式设备的常规实现。其他实施例可使用不同的模块、模块子集，或者将相关的任务分配到不同的模块。因此图13所示的实施例不应被解释为排斥性的或限制性的，而是示范性或说明性的。图14例示了可用于实现发明实施例的硬件和用户接口。图14示意地例示了Sony PlayStation 3娱乐设备的整体系统架构。为系统单元1400提供可连接到系统单元1400的各种外围设备。系统单元1400包括:单元处理器1428 ;Rambus 动态随机存取存储器(XDRAM)单元1426 ;具有专用视频随机存取存储器(VRAM)单元1432的现实合成图形单元1430 ；以及I/O桥1434。系统单元1400还包括Blu-ray 盘的BD-ROM 光盘读取器1440，用于从盘1440a和可移动插槽硬盘驱动器(HDD) 1436中读取，通过I/O桥1434访问。可选地，系统单元1400还包括存储卡读取器1438,用于读取致密闪存卡、MemoryStick 存储卡和类似物，其同样地通过I/O桥1434访问。I/O桥1434还连接到6个通用串行总线(USB) 2.0端口 1424;吉比特以太网端口 1422 ；IEEE802.llb/g无线网络(W1-Fi)端口 1420 ;以及能够支持多达7个蓝牙连接的Bluetooth 无线链接端口 1418。在操作中，I/O桥1434处理所有无线、USB和以太网数据，包括来自一个或多个游戏控制器1402-1403的数据。例如，当用户玩游戏时，I/O桥1434通过蓝牙连接从游戏控制器1402-1403接收数据，并将其指向单元处理器1428，其相应地更新游戏的当前状态。无线、USB和以太网接口还提供除了游戏控制器1402-1403的其他外围设备的连接，例如远程控制1404 ;键盘1406 ;鼠标1408 ;诸如索尼PSP 娱乐设备的便携式娱乐设备1410 ;诸如Play Station Eye相机1412的视频相机；耳机1414以及麦克风1415。因此这些外围设备原则上可无线连接到系统单元1400上；例如便携式娱乐设备1410可通过W1-Fiad-hoc连接通信,而耳机1414可通过蓝牙链接通信。提供这些接口意味着:PlayStation3设备还潜在地与其它外围设备兼容，例如数字视频录像机(DVR)、机顶盒、数码相机、便携式媒体播放器、互联网协议(IP)电话上的语音、移动电话、打印机和扫描仪。此外，传统的存储卡读卡器1416可通过USB端口 1424连接到该系统单元，使得能够读取由PlayStation或PlayStation2设备使用这种存储卡。游戏控制器1402-1403是可操作的，用以通过蓝牙连接与系统单元1400无线通信，或者连接到USB端口，因此还提供了充电游戏控制器1402-1403电池的电力。游戏控制器1402-1403还可包括存储器，处理器，存储卡读取器，诸如闪存的永久性存储器，诸如发光球形部分、LED或红外灯的光投射器，用于超声波通信的麦克风和扬声器，声学室，数码相机，内部时钟，面对游戏控制台的可识别形状，以及使用诸如Bluetooth 、WiFi 等协议的无线通信。可识别的形状实质上可以是形状:球体、立方体、平行四边形、长方体、圆锥体、金字塔状、不完美的球体、英式足球、足球或橄榄球、球体的一部分、截棱锥、截圆锥、棒球棒、截断立方体、多面体、星形等，或者这些形状中两个或多个的组合。游戏控制器1402是设计成用双手使用的控制器，而游戏控制器1403是具有球形接头的单手控制器。除了一个或多个模拟操纵杆和常规控制按钮，该游戏控制器对三维位置的确定敏感。因此游戏控制器的用户的手势和移动可被翻译成游戏输入，除了或者不是传统按钮或操纵杆命令。可选地，诸如SonyPSP 便携式设备的其他无线使能外围设备可用作控制器。在SonyPSP 便携式设备的例子中，额外的游戏或控制信息(例如，控制指令或生命数量)可提供到设备屏幕上。也可使用其他替代或补充控制装置，如跳舞毯(未显示)，光枪(未显示)，方向盘和踏板(未显示)或定制的控制器，例如用于快速反应测试游戏的单个或几个大按钮(也未显示)。远程控制1404也是可操作的，用以通过蓝牙链接与系统单元1400无线通信。远程控制1404包括适于蓝光光盘BD-ROM阅读器1440以及用于盘内容导航的控制。蓝光光盘BD-ROM光盘阅读器1440读取与PlayStation和PlayStation2设备兼容的CD-ROM是可操作的，除了传统的预录和可记录CD，以及所谓的超级音频CD。阅读器1440读取与PlayStation2和PlayStation3设备兼容的DVD-R0M也是可操作的，除了传统的预录和可记录DVD。阅读器1440读取与PlayStation3设备以及传统的预录和可记录蓝光光盘兼容的BD-ROM是进一步可操作的。系统单元1400提供音频和视频是可操作的，通过现实合成图形单元(RSX) 1430，或者由PlayStation3设备生成或者由其解码,通过音频1450和视频1452连接器到显示和声音输出设备1442,例如具有显不器1444和一个或多个扬声器1446或独立扬声器1448的显示器或电视机。在一个实施例中，根据用户的视线点(POG)，利用声音和视线输入朝着特定的音响喇叭播放声音。音频连接器1450可包括传统的模拟和数字输出，同时视频连接器1452可能不同地包括分量视频、S-视频、复合视频和一个或多个高清晰度的多媒体接口(HDMI)输出。因此，视频输出可能以诸如PAL或NTSC，或者720P、1080i或1080p的高清晰度的形式。音频处理(生成、解码等)由单元处理器1428执行。PlayStation3设备的操作系统支持Dolby 5.1环绕声，Dolby 剧院环绕声(DTS)以及来自蓝光光盘的7.1环绕声的解码。本实施例中，视频摄像机1412包括单个电荷耦合器件(CXD)，LED指示灯，基于硬件的实时数据压缩和编码设备，以便可以适当的格式传送压缩视频数据，例如基于由系统单元1400解码的MPEG(运动图像专家组)标准的内部图像(intra-1mage)。安排摄像机LED指示灯，用以响应于来自系统单元1400的合适控制数据而照明，例如表示不利的照明条件。视频摄像机1412的实施例可能不同地通过USB、蓝牙或W1-Fi通信端口连接到系统单元1400。视频摄像机的实施例可能包括一个或多个相关的麦克风，还能够传输音频数据。在视频摄像机的实施例中，CCD可能具有适于闻清晰度视频捕获的分辨率。使用中，由视频摄像机捕获的图像例如可被纳入到游戏中或被解释为游戏控制输入。在另一实施例中，该摄像机是适于检测红外光的红外摄像机。通常，为了通过系统单元1400的一个通信端口、用诸如视频摄像机或远程控制的外围设备发生数据的成功传输，应该提供一款合适的软件，例如设备驱动程序(devicedriver)。设备驱动程序技术是众所周知的，此处将不会详细描述，但本领域技术人员将明白:所述的本实施例中可能需要设备驱动程序或类似的软件接口。可用各种计算机系统配置实施本发明的实施例，包括手持设备、微处理器系统、基于微处理器或可编程的消费类电子产品、微机、大型机和类似物。也可在分布式计算环境中实施本发明，其中由通过网络连接的远程处理设备执行任务。考虑到上述实施例，应该理解:该发明可以使用涉及计算机系统中存储数据的各种计算机执行的操作。这些操作是那些需要物理量的物理操作。此处所述的构成发明一部分的任何操作是有用的机器操作。本发明还涉及到执行这些操作的设备或仪器。该仪器可能是用于所需目的而专门构建的，例如专用计算机。当定义为专用计算机时，计算机也可以执行其他处理，程序执行或并非专用部分而仍然能够专门执行的程序。作为选择，可由通用计算机执行操作，通用计算机由计算机存储器、高速缓存中存储的或通过网络获得的一个或多个计算机程序选择性激活或配置。当通过网络获得数据时，该数据可由网络上的其他计算机处理，例如云计算资源。本发明的一个或多个实施例也可制作成计算机可读介质上的计算机可读代码。计算机可读介质是可存储数据的任意数据存储设备，之后该数据可由计算机系统读取。计算机可读介质的实例包括硬盘驱动器、网络附加存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带及其他光学和非光学的数据存储设备。计算机可读介质可以包括在网络耦合的计算机系统分布的计算机可读有形介质，这样以分布式存储和执行计算机可读代码。虽然以特定顺序描述方法操作，应该理解的是:在操作中可执行其他的内务管理(housekeeping)操作，或者可以调整操作，这样它们发生在稍微不同的时间处，或者可能分布在系统中，其允许与处理相关的不同时间间隔处发生处理操作，只要以期望的方式执行覆盖操作的处理。虽然为了清楚理解而稍微详细地描述了上述发明，但是显而易见的是:在附加权利要求的范围内可实施某些改变和修改。因此本实施例被认为是说明性的而不是限制性的，而发明不限于此处给出的细节，但可在附加权利要求的范围和等效物中修改。
权利要求
1.一种模拟声音源的方法,该方法包括: (a)确定空间中用户头部的位置，其中使用用户图像的人脸识别确定位置； (b)确定用于递送到两个扬声器的声音，每个扬声器与用户的耳朵相关； (C)确定空间中声音的发出位置； (d)基于空间中头部的位置、声音、空间中的发出位置以及用户的听觉特征，为每个扬声器建立声信号；以及 (e)将声信号传输到两个扬声器上，其中当两个扬声器播放声信号时，该声信号模拟声音源自空间中的发出位置。
2.如权利要求1所述的方法，还包括: 基于空间中头部的更新位置、用于两个扬声器的新声音以及更新的发出位置，重复操作(a)-(e)以更新传输到两个扬声器的声信号。
3.如权利要求1所述的方法，其中该声音由增强现实环境中的虚拟对象生成，其中发出位置是空间中的虚拟对象的虚拟位置。
4.如权利要求3所述的方法，还包括: 在屏幕上显示增强现实的一部分，其中由两个扬声器播放的声信号为用户提供关于空间中的虚拟对象的虚拟位置的声线索。
5.如权利要求4所述的方法,其中建立声信号还包括: 当在屏幕上显示虚拟对象时，为声信号提供比在屏幕上不显示虚拟对象时更高的音量。
6.如权利要求1所述的方法，其中用户的听觉特征基于用户的与头相关的传输函数(HRTF)。
7.—种模拟声音源的方法,该方法包括: 用第一设备确定第一用户头部的第一位置；接收对应于第二用户头部的第二位置，其中用第二设备确定第二位置；确定对应于第二设备关于第一设备的位置的第三位置；基于第一位置、第二位置、第三位置以及第一用户的听觉特征，为多个扬声器建立声信号；以及将声信号传输到多个扬声器，其中当由多个扬声器播放时，该声信号模拟与该声信号相关的声音源自第二用户。
8.如权利要求7所述的方法，还包括: 接收由第二用户创建的语音；以及将与该声信号相关的声音设置成接收的语音。
9.如权利要求7所述的方法，还包括: 接收由第二用户创建的语音；将该语音翻译成不同的语言；以及将与该声信号相关的声音设置成经翻译的语音。
10.如权利要求7所述的方法，还包括: 将第一位置和第三位置发送到第二设备。
11.如权利要求7所述的方法，还包括:基于第一位置、第三位置以及第一用户的听觉特征，为多个扬声器建立更新的声信号；以及将更新的声信号传输到多个扬声器，其中由多个扬声器播放时，更新的声信号模拟与第二设备相关的声音源自第二设备。
12.如权利要求7所述的方法，其中确定第三位置还包括: 使用全球定位系统(GPS)确定第三位置。
13.如权利要求7所述的方法，其中确定第一位置还包括: 从位于第一用户所戴耳机中的全球定位系统(GPS)模块中接收第一用户头部的第一位置。
14.如权利要求7所述的方法，其中第一用户拿着其位置可由第一设备跟踪的控制器。
15.—种模拟声音源的方法,该方法包括: 确定对应于用户头部的第一位置；确定对应于对象的第二位置，其中使用用户周围空间的图像分析确定第二位置；基于第一位置、第二位置以及用户的听觉特征，为多个扬声器建立声信号，其中多个扬声器位于用户周围的空间中；以及将声信号传输到多个扬声器，其中由多个扬声器播放时，该声信号模拟与该声信号相关的声首源自该对象。
16.如权利要求15所述的方法,还包括: 基于对象的移动，定期更新该声信号。
17.如权利要求15所述的方法,其中多个扬声器位于包含发光二级管(LED)的耳机中。
18.如权利要求15所述的方法，其中多个扬声器位于耳机中，该耳机具有用于确定第一位置的射频标识(RFID)。
19.如权利要求15所述的方法，其中确定第一位置还包括: 从用户所戴的耳机中接收超声波通信以确定第一位置。
20.如权利要求15所述的方法，其中确定第一位置还包括: 接收来自耳机的位置信息，该耳机具有用于使用三角测量确定第一位置的三个超声波传感器。
21.—种模拟声音源的方法,该方法包括: 生成多个声线索，每个声线索与空间中的位置相关；为每个声线索接收来自用户的输入，每个输入具有关于相应声线索的感知位置的信息；基于接收的输入，为用户建立声音定位函数，其中通过从多个现有声音函数中选择现有声音函数，或者从多个现有声音函数中组合多于一个现有声音函数，建立声音定位函数；以及基于声音定位函数、用户位置以及声音源的期望感知位置，将声音递送到多个扬声器，用以模拟声音源。
22.如权利要求21所述的方法，其中输入是用户所拿的控制器的方向，其中该控制器包括惯性传感器且该控制器是视觉上可跟踪的。
23.如权利要求21所述的方法，其中输入是用户手指的方向，其中通过执行用户的图像识别而检测该方向。
24.如权利要求21所述的方法，其中输入是用户视线的方向，其中通过执行用户的图像识别而检测该方向。
25.如权利要求21所述的方法，其中输入是用户所拿的便携式设备的方向。
26.如权利要求21所述的方法，其中通过从多个人中测量一个人的声音接收特征，获得每个现有声音函数。
27.如权利要求21所述的方法，其中当在显示器上呈现多个目标时生成该声线索，其中该输入是从多个目标中选择一个目标。
28.如权利要求21所述的方法，其中从多个现有声音函数中组合多于一个现有声音函数还包括: 将空间分成多个部分；以及将来自该组合的每个声音函数与各个部分相关联。
全文摘要
本发明涉及一种运动用户的声音定位。提供了一种模拟声音源的方法、设备和计算机程序。一种方法包括使用用户图像的人脸识别确定空间中用户头部的位置的操作。此外，该方法包括确定两个扬声器的声音的操作，以及确定空间中声音发出位置的操作，每个扬声器与用户的一只耳朵相关。基于空间中头部的位置、声音、空间中发出位置以及用户的听觉特征，为每个扬声器建立声信号。此外，声信号传输到两个扬声器。当两个扬声器播放声信号时，声信号模拟声音源自空间中的发出位置。
文档编号G06F3/16GK103218198SQ201210460338
公开日2013年7月24日申请日期2012年8月10日优先权日2011年8月12日
发明者S·奥斯曼申请人:索尼电脑娱乐公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S·奥斯曼
技术所有人：索尼电脑娱乐公司
我是此专利的发明人

上一篇：一种云平台调度方法及系统的制作方法
上一篇：显示装置和显示控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。