多相机设备的制作方法

文档序号：21789838发布日期：2020-08-07 20:44阅读：139来源：国知局

本说明书涉及使用多相机设备(诸如，合适的移动通信设备)捕获视频和音频内容。

背景技术：

包括摄像机的移动通信设备是已知的。而且，已知在移动通信设备的前面和后面设置这种相机。来自前置和后置相机的内容然后可以彼此相邻地呈现。视觉数据的这种呈现对于与这种视觉数据有关的一些音频数据的呈现具有影响。

技术实现要素：

在第一方面中，本说明书描述了一种方法，该方法包括：使用多相机设备的第一相机获得第一区域的第一视频数据；使用多相机设备的第二相机获得第二区域的第二视频数据，该第二相机被定向在与第一相机不同的方向上，使得第一区域和第二区域至少部分地不同；从第一视频数据和第二视频数据生成多相机视频输出，通过使用第一视频映射以将第一视频数据映射到多相机视频输出的第一部分并且使用第二视频映射以将第二视频数据映射到多相机视频输出的第二部分，来生成该多相机视频输出；使用多相机设备获得音频数据，该音频数据的至少一些音频数据具有方向分量；以及从所获得的音频数据生成音频输出，该音频输出包括具有在视频输出的第一部分内的方向分量的音频输出以及具有在视频输出的第二部分内的方向分量的音频输出，其中生成音频输出包括：使用第一音频映射以将具有在第一区域内的方向分量的音频数据映射到具有在视频输出的第一部分内的方向分量的音频输出，并且使用第二音频映射以将具有在第二区域内的方向分量的音频数据映射到具有在视频输出的第二部分内的方向分量的音频输出，其中第一音频映射和第二音频映射分别与第一视频映射和第二视频映射相对应。多相机输出的第一部分和第二部分可以并排呈现。多相机输出的第一部分和第二部分可以以一项数据输出在另一数据输出之上的方式被呈现。第一相机可以是前置相机。第二相机可以是后置相机。

第一和第二视频映射可以包括：修改第一和第二视频数据，使得视频输出的第一部分比第一视频数据窄并且第二部分比第二视频数据窄。

在第一和第二区域两者外具有方向分量的音频数据可以从音频输出中被排除。备选地，在第一和第二区域两者外具有方向分量的音频数据可以被包括在音频输出中，作为不具有方向分量的音频输出。

在又一备选方案中，在第一区域和第二区域两者外具有方向分量的音频数据可以被包括在音频输出中，作为具有方向分量的音频输出，其中在第一和第二区域两者外具有方向分量的音频数据经历第三音频映射。在第一区域和第二区域两者外具有方向分量的音频数据可以通过第三音频映射而被拉伸，使得与第一区域和第二区域外的面积相对应的音频输出的面积比所述第一区域和第二区域外的所述面积宽。备选或者另外地，第一音频映射、第二音频映射和第三音频映射可以使得音频输出提供360度的音频输出。

在一些实施例中，使用多相机设备获得音频数据可以包括：使用一个或多个空间麦克风或麦克风阵列。

该方法可以还包括：用户指示与多相机视频输出的第一部分或第二部分相关联的音频数据是否将被增强和/或衰减。用户指示可以通过用户分别接触多相机视频输出的第一部分和/或第二部分而被执行。

在第二方面中，本说明书描述了一种装置，该装置被配置为执行参照第一方面描述的任何方法。

在第三方面中，本说明书描述了计算机可读指令，该计算机可读指令在由计算装置执行时使计算装置执行参照第一方面描述的任何方法。

在第四方面中，本说明书描述了一种计算机可读介质，在其上存储有计算机可读代码，该计算机可读代码在由至少一个处理器执行时引起以下项的执行：使用多相机设备的第一相机来获得第一区域的第一视频数据；使用多相机设备的第二相机来获得第二区域的第二视频数据，该第二相机被定向在与第一相机不同的方向上，使得第一区域和第二区域至少部分地不同；从第一视频数据和第二视频数据生成多相机视频输出，通过使用第一视频映射将第一视频数据映射到多相机视频输出的第一部分并且使用第二视频映射将第二视频数据映射到多相机视频输出的第二部分，来生成多相机视频输出；使用多相机设备获得音频数据，该音频数据中的至少一些音频数据具有方向分量；以及从所获得的音频数据生成音频输出，该音频输出包括具有在视频输出的第一部分内的方向分量的音频输出以及具有在视频输出的第二部分内的方向分量的音频输出，其中生成音频输出包括：使用第一音频映射将具有在第一区域内的方向分量的音频数据映射到具有在视频输出的第一部分内的方向分量的音频输出，并且使用第二音频映射将具有在第二区域内的方向分量的音频数据映射到具有在视频输出的第二部分内的方向分量的音频输出，其中第一音频和第二音频映射分别与第一视频映射和第二视频映射相对应。

在第五方面中，本说明书描述了一种装置，该装置包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该计算机程序代码在由至少一个处理器执行时使该装置：使用多相机设备的第一相机获得第一区域的第一视频数据；使用多相机设备的第二相机获得第二区域的第二视频数据，该第二相机被定向在与第一相机不同的方向上，使得第一区域和第二区域至少部分地不同；从第一视频数据和第二视频数据生成多相机视频输出，通过使用第一视频映射将第一视频数据映射到多相机视频输出的第一部分并且使用第二视频映射将第二视频数据映射到多相机视频输出的第二部分，来生成多相机视频输出；使用多相机设备获得音频数据，该音频数据中的至少一些音频数据具有方向分量；以及从所获得的音频数据生成音频输出，该音频输出包括具有在视频输出的第一部分内的方向分量的音频输出以及具有在视频输出的第二部分内的方向分量的音频输出，其中生成音频输出包括：使用第一音频映射将具有在第一区域内的方向分量的音频数据映射到具有在视频输出的第一部分内的方向分量的音频输出，并且使用第二音频映射将具有在第二区域内的方向分量的音频数据映射到具有在视频输出的第二部分内的方向分量的音频输出，其中第一音频映射和第二音频映射分别与第一视频映射和第二视频映射相对应。

在第六方面中，本说明书描述了一种装置，该装置包括：用于使用多相机设备的第一相机来获得第一区域的第一视频数据的部件；用于使用多相机设备的第二相机来获得第二区域的第二视频数据的部件，该第二相机被定向在与第一相机不同的方向上，使得第一区域和第二区域至少部分地不同；用于从第一和第二视频数据生成多相机视频输出的部件，通过使用第一视频映射将第一视频数据映射到多相机视频输出的第一部分并且使用第二视频映射将第二视频数据映射到多相机视频输出的第二部分，来生成该多相机视频输出；用于使用多相机设备获得音频数据的部件，该音频数据中的至少一些音频数据具有方向分量；以及用于从所获得的音频数据生成音频输出的部件，该音频输出包括具有在视频输出的第一部分内的方向分量的音频输出以及具有在视频输出的第二部分内的方向分量的音频输出，其中生成音频输出包括：使用第一音频映射将具有在第一区域内的方向分量的音频数据映射到具有在视频输出的第一部分内的方向分量的音频输出，并且使用第二音频映射将具有在第二区域内的方向分量的音频数据映射到具有在视频输出的第二部分内的方向分量的音频输出，其中第一音频映射和第二音频映射分别与第一视频映射和第二视频映射相对应。多相机输出的第一部分和第二部分可以并排呈现。多相机输出的第一部分和第二部分可以以一项数据输出在另一数据输出之上的方式被呈现。第一相机可以是前置相机。第二相机可以是后置相机。用于使用多相机设备获得音频数据的部件可以包括：使用一个或多个空间麦克风或麦克风阵列。

该装置可以包括：用于修改第一和第二视频数据以实现第一视频映射和第二视频映射，使得视频输出的第一部分比第一视频数据窄并且第二部分比第二视频数据窄的部件。

在第一区域和第二区域两者外具有方向分量的音频数据可以从音频输出被排除。备选或者另外地，在第一区域和第二区域两者外具有方向分量的音频数据可以被包括在音频输出中，作为不具有方向分量的音频输出。

在又一备选方案中，具有在第一区域和第二区域两者外的方向分量的音频数据可以被包括在音频输出中，作为具有方向分量的音频输出，其中具有在第一区域和第二区域外的方向分量的音频数据经历第三音频映射。

该装置可以包括：用于通过第三音频映射来拉伸具有在第一区域和第二区域两者外的方向分量的音频数据，使得与第一区域和第二区域外的面积相对应的音频输出的面积比所述第一和第二区域外的所述面积宽的部件。

第一音频映射、第二音频映射和第三音频映射可以被布置为使得音频输出提供360度的音频输出。

该装置可以还包括：用于获得对与多相机视频输出的第一部分或第二部分相关联的音频数据是否将被增强和/或衰减的用户指示的部件。用户指示可以通过用户分别接触多相机视频输出的第一部分和/或第二部分而被执行。

所述部件可以包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序被配置为与至少一个处理器一起引起该装置的执行。

在第七方面中，本说明书描述了一种计算机可读介质(诸如，非暂时性计算机可读介质)，该计算机可读介质包括在其上存储的程序指令以用于执行至少以下项：使用多相机设备的第一相机来获得第一区域的第一视频数据；使用多相机设备的第二相机来获得第二区域的第二视频数据，该第二相机被定向在与第一相机不同的方向上，使得第一区域和第二区域至少部分地不同；从第一视频数据和第二视频数据生成多相机视频输出，通过使用第一视频映射将第一视频数据映射到多相机视频输出的第一部分并且使用第二视频映射将第二视频数据映射到多相机视频输出的第二部分，来生成多相机视频输出；使用多相机设备来获得音频数据，该音频数据中的至少一些音频数据具有方向分量；以及从所获得的音频数据生成音频输出，该音频输出包括具有在视频输出的第一部分内的方向分量的音频输出以及具有在视频输出的第二部分内的方向分量的音频输出，其中生成音频输出包括：使用第一音频映射将具有在第一区域内的方向分量的音频数据映射到具有在视频输出的第一部分内的方向分量的音频输出，并且使用第二音频映射将具有在第二区域内的方向分量的音频数据映射到具有在视频输出的第二部分内的方向分量的音频输出，其中第一音频映射和第二音频映射分别与第一视频映射和第二视频映射相对应。

附图说明

现在将参照以下示意图借助于非限制性示例来描述示例实施例，其中：

图1是根据示例实施例的系统的框图；

图2示出了由图1的系统输出的示例视图；

图3示出了由图1的系统输出的示例视图；

图4是根据示例实施例的系统的框图；

图5是根据示例实施例的系统的框图；

图6示出了根据示例实施例的由图5的系统捕获和输出的数据；

图7示出了根据示例实施例的由图5的系统输出的数据；

图8示出了根据示例实施例的由图5的系统输出的数据；

图9示出了根据示例实施例的由图5的系统输出的数据；

图10示出了根据示例实施例操纵的数据；

图11示出了根据示例实施例操纵的数据；

图12示出了根据示例实施例操纵的数据；

图13示出了根据示例实施例的由图5的系统输出的数据；

图14是示出了根据示例实施例的算法的流程图；

图15示出了根据示例实施例的与数据输出的用户交互；

图16是根据示例实施例的系统的框图；

图17是由图16的系统输出的示例视图；

图18是由图16的系统输出的示例视图；

图19是根据示例实施例的处理系统的组件的框图；

图20a和20b示出了有形介质，分别是存储计算机可读代码的可移动存储器单元和光盘(cd)，当由计算机运行时，该计算机可读代码执行根据实施例的操作。

具体实施方式

图1是根据示例实施例的通常由附图标记10指示的系统的框图。

系统10包括用户设备12，诸如，移动通信设备(例如，移动电话)。用户设备12具有前置相机13和后置相机14。第一对象15和第二对象16在前置相机13的视点内(如虚线所指示的)。第三对象17和第四对象18在后置相机14的视点内(如虚线所指示的)，其中后面的第四对象至少部分地被第三对象模糊。第三对象17可以例如是用户设备12的用户。第五对象19在用户设备的右边，并且在前置相机13和后置相机14的视野之外。

用户设备12是多相机设备的示例。根据本文描述的原理，可以使用其他多相机设备。

图2示出了由上面参照图1描述的用户设备12输出的示例视图，该示例视图通常由附图标记20指示。视图20是组合视图，其包括由前置相机13提供的第一视图21以及由后置相机14提供的第二视图22。如图2所示，组合视图20并排显示第一视图和第二视图。

第一视图21包括第一图像23和第二图像24。第一图像23(在视图21的左边)是第一对象15的表示。第二图像24是第二对象16的表示。以类似的方式，第二视图22包括作为第三对象17的表示的第三图像25和作为第四对象17的表示的第四图像26。第五对象19不被显示。

图3示出了由上面参照图1描述的用户设备12输出的示例视图，该示例视图通常由附图标记30指示。视图30是组合视图，包括由前置相机13提供的第一视图31以及由后置相机14提供的第二视图32。组合视图30与上述组合视图20的不同之处在于，在组合视图30中第一视图和第二视图在彼此之上示出。如图3所示，第一视图31被显示在第二视图32上方。在备选实施例中，第二视图可以被显示在第一视图上方。

第一视图31包括第一图像33和第二图像34。第一图像33(在视图31的左边)是第一对象15的表示。第二图像34是第二对象16的表示。以类似的方式，第二视图32包括作为第三对象17的表示的第三图像35和作为第四对象17的表示的第四图像36。不显示第五对象19。

因此，视图20和30是类似的，仅在构成视图20和视图30的第一视图和第二视图的布置上不同。(使用视图20还是使用30可能取决于用户设备12的定向。)

图4是根据示例实施例的通常由附图标记40指示的系统的框图。系统40以虚线示出了上述系统10的元件(用户设备12和对象15至19)。在系统40中还以实线形式示出了图2所示的那些对象的视觉表示的有效位置(即，图像23、24、25和26)。

如图4所示，对象15和16的视觉表示23和24向左移动。进一步地，将对象17和18的视觉表示25和26移动到用户设备的前面(而不是后面)。

如上面所提到的，空间音频技术是已知的，其中麦克风阵列被使用来捕获声音场景并受到参数化空间音频处理，使得在绘制期间呈现声音，声音被呈现使得听到的声音好像来自与录像相匹配的用户周围的方向。这种技术例如在虚拟现实或增强现实应用中是已知的。这种空间音频处理可以涉及估计声音场景的方向部分和声音场景的环境部分。

声音场景的方向部分可以包括具有明显到达方向(doa)的声音，并且可以包括直接声音，诸如，场景中的对象(诸如，扬声器)的声音以及来自墙壁或地板的早期反射。声音场景的周围环境可以包括不具有明显强烈方向性的声音，诸如，漫反射混响。可以在描述短时间帧和不同频率(频段)的空间音频内容的时频图块处执行到达方向和直接与环境之比的分析。在分析空间音频场景的方向部分和环境部分之后，可以以合适的格式来表示空间音频场景，诸如，两个音频信号和元数据，该元数据描述了每个时频图块的到达方向和扩散度。在回放中，空间音频场景的直接部分和环境部分可以被合成(绘制)。例如，声音场景的直接部分可以利用向量基幅度平移(vbap)进行绘制并在空间上被定位，以使它看起来是从与到达方向相对应的方向发散的。可以从所有方向(例如，所有输出通道)渲染环境部分，以使它看起来是从任何地方而不是从任何特定方向发散的。可以对环境信号部分的输出信号应用去相关滤波，以使通道之间的相干性最小化，并且输出信号被包围(环绕收听者)。如果期望适合于耳机听取的双耳输出，则可以使用头部相关传递函数(hrtf)滤波来代替vbap。

如果声音场景以上述参数格式被表示，则某些变换可以被应用。典型的示例是取决于用户头部的旋转来旋转声音到达方向，使得声音到达方向关于世界坐标源自固定的方向，并且不会随用户头部一起旋转。以类似的方式，通过将到达方向数据修改为新的期望到达方向，可以将直接声音重新定位到新的到达方向。

代替以上参数化的空间音频表示，空间音频数据可以被表示为基于对象的数据，其中每个声音对象表示为具有位置数据的其自己的音频通道。在这种情况下，变换空间音频数据涉及在渲染之前修改位置数据。音频数据还可以包括基于对象的数据和通道床数据(channelbeddata)或混响数据的组合。例如，音频数据可以是运动图像专家组(mpeg)-h3d音频格式，或者可以是便于进行某些转换的任何其他合适的格式。如果空间音频数据的格式不便于进行任何转换，那么设备可以对音频数据应用分析和/或参数化，使得其可以被转换为支持将至少至少将声音源或其部分的到达方向进行变换的格式。

空间音频也可以呈现给佩戴耳机并仅接收音频的用户。例如，在空间音频的情况下，用户离音频越近，对象的声音可能越大，因此仅利用扬声器(即，无需包括视频数据)就可以实现改善的用户体验。

考虑由用户设备12进行的并在图4所示的系统40中被呈现的空间音频记录。如果音频被呈现为3d声音场景，则来自对象15至19的声音将被听到，就好像来自在系统40中以虚线示出的位置一样。因此，在视觉视图23至25与对应音频之间将存在不匹配。

图5是根据示例实施例的通常由附图标记50指示的系统的框图。该系统包括上述用户设备12、第一相机13和第二相机14。系统50包括在第一相机13的视野内的第一对象51和第二对象52以及在第二相机14的视野内的第三对象53和第四对象54。第一相机的视野可以被称为第一区域，使得第一相机可以用于从第一区域获得数据(例如，视频数据)。同样地，第二相机的视野可以被称为第二区域，使得第二相机可以被用于从第二区域获得数据(例如，视频数据)。

除了这些可见对象之外，系统50还包括不在用户设备的任一相机的视野内的第五对象55、第六对象56、第七对象57和第八对象58。在这些中，第五对象和第六对象位于用户设备的左边(如图5所示)，并且第七和第八对象位于用户设备的右边(如图5所示)。

图6至图9示出了根据本发明的各个实施例的由系统50捕获并输出的数据。

图6示出了根据示例实施例的由系统50捕获并输出的通常由附图标记60指示的数据。数据60分别包括第一对象、第二对象、第三对象和第四对象51至54的第一视觉表示、第二视觉表示、第三视觉表示和第四视觉表示61至64(以及伴随的空间音频数据)。视觉表示61和62向左移动并被压缩/挤压得更近，以覆盖更窄的区域(通过比较表示61和62的位置与图5所示的对象51和52的位置可以看出)。进一步地，视觉表示63和64被移动到表示61和62的旁边(可以被视为旋转了约180度)。表示63和64也被压缩/挤压(通过比较表示63和64的位置与对象53和54的位置可以看出)。重要的是，还需要将对象51至54的空间音频移动(和压缩/挤压)相同的量，使得针对对象51至54的音频好像分别来自与视觉表示61至64相同的位置。因此，音频数据经历与视频数据的转换相对应的转换。通过这种方式，可以避免由于音频和视觉表示之间的不匹配而导致的上述混乱。(视觉和音频表示的各种转换可以分别称为视频和音频映射。)

在图7至图9中，针对对象51至54的视频数据和音频数据(表示61至64)与图6中的表示相同。图7至图9还示出了用于表示来自对象55至58(不在相机13和14的视野内)的音频数据的不同选项，但是针对该对象55至58的空间音频数据可以已经被获得。

图7示出了根据示例实施例的由系统50输出的通常由附图标记70指示的数据。如上文所提到的，数据70分别包括对象51至54的视频和音频表示61至64。图7还分别示出了用于第五至第八对象55至58的第一、第二、第三和第四有效音频位置71至74。(音频表示71至73由正方形指示以将它们与视频和音频表示61至64区分开。)如图7所示，表示71至74分别与对象55至58的实际位置相匹配。因此，没有空间数据被表示为来自后置相机13的视点。

图8示出了根据示例实施例的由系统50输出的通常由附图标记80指示的数据。如上文所提到的，数据80分别包括对象51至54的视频和音频表示61至64。图8不包括对象51至54的音频数据。因此，在示例输出80中，来自对象51至54的音频数据要么被完全省略，要么不表示为方向空间音频数据(这种音频数据可以例如表示为环境数据，而不是方向空间音频数据)。

图9示出了根据示例实施例的由系统50输出的通常由附图标记90指示的数据。如上文所提到的，数据90分别包括对象51至54的视频和音频表示61至64。图9还分别示出了用于第五至第八对象55至58的第一有效音频位置、第二有效音频位置、第三有效音频位置和第四有效音频位置91至94。如图9所示，与对象55至58的实际位置相比，表示91至94被移动，使得空间音频数据似乎来自用户周围的所有360度。表示91至94的移动有效地拉伸/散开了相机13和14的视野外的区域，并且与表示61至64的压缩相匹配(即，相机的视野内的区域)。因此，空间数据90与上述空间数据70的不同之处在于音频数据包括来自后置相机13的视点的音频。

图10示出了根据示例实施例操纵的通常由附图标记100指示的数据。具体地，图10示出了如何调整上面参照图5描述的系统50的捕获的视频和音频数据，以提供上面参照图9描述的表示90。

图10包括上文参照图5描述的第一至第八对象51至58。第一对象和第二对象51和52在用户设备12的第一相机13的视野内。第一对象和第二对象的视频和音频数据如箭头101所指示的那样逆时针旋转，并且还被压缩/挤压，使得它们出现在图9所示的视频和音频表示61和62所指示的位置。(如上所述，表示61和62出现的区域小于对象51和52所处的区域。)同样地，第三对象53和第四对象54在用户设备的第二相机14的视野内。第三对象和第四对象的视频和音频数据如箭头102所指示的那样逆时针旋转(并可选地反转)，并且还被压缩，使得它们出现在图9所示的视频和音频表示63和64所指示的位置。再次，表示63和表示64出现的区域小于对象53和54所处的区域。

箭头101所指示的映射可以被称为第一视频和音频映射。同样地，箭头102所指示的映射可以被称为第二视频和音频映射。

第五对象和第六对象55和56在第一相机和第二相机的视野外，并因此仅针对那些对象的音频数据被捕获。针对第五对象和第六对象的空间音频数据如箭头103所指示的那样逆时针旋转并且还被移动(或者伸展/散开)，使得它们出现在图9所示的音频表示91和92所指示的位置。(如上所述，表示91和92出现的区域大于对象55和56所处的区域。)同样地，第七对象和第八对象57和58在第一相机和第二相机的视野外，因此仅捕获那些对象的音频数据。第七和第八对象的空间音频数据如箭头104所指示的那样逆时针旋转并且还被移动(或者伸展/散开)，以使它们出现在图9所示的音频表示93和94所指示的位置。再次，表示93和94出现的区域大于对象57和58所处的区域。

由于旋转101和102而导致的压缩与由于旋转103和104而导致的扩展相匹配，使得音频输出数据提供360度的音频输出。因此，音频数据可以潜在地在用户的整个周围被听到，这在某些情况下可以给出音频数据的足够明显的三维表示。箭头103和104所指示的映射可以被统称为第三音频映射。

如上所述，图6至图10描述了一种布置，通过该布置，可以以并排布置来提供来自上面参照图5描述的系统50的视频和音频数据，诸如上面参照图2描述的显示器20。图11至图13描述了这样一种布置，通过该布置，来自系统50的视频和数据可以以一项显示在另一显示之上而被提供。

图11示出了根据示例实施例操纵的通常由附图标记110指示的数据。数据110基于的是上述系统50的数据。数据110分别包括第一、第二、第三和第四对象51至54的第一、第二、第三和第四视觉表示111至114(以及伴随的空间音频数据)。数据110还包括分别在相机13和14的视野外的第五至第八对象55至58的空间音频数据的空间音频表示115至118。

表示111、112、115和117处于与记录相同的位置(即，分别与对象51、52、55和57相同的位置)。表示113、114、116和118(视觉和空间音频数据)被翻转，使得它们是对象53、54、56和58的位置的镜像(围绕从相机14向下延伸的线119成镜像)。

图12示出了根据示例实施例操纵的通常由附图标记120指示的数据。数据120与数据110的不同之处在于，图12所示的表示113、114、116和118(与第三、第四、第六和第八对象53、54、56和58相关的数据，即，在图12中的线121下方的数据)旋转180度(然后向下移动，使得它仍出现在图12所示的线121下方)。

图13示出了通常由附图标记130指示的显示器，通过该显示器，来自系统50的视频和音频数据可以与上面参照图3描述的显示器30一样以一项显示在另一显示之上而被提供。显示器130基于的是上述数据120。

显示器130包括与上面参照图3描述的第一视图31和第二视图32相对应的第一区域131和第二区域132。第一区域131包括在第一区域131内的第一对象51和第二对象52的第一视觉表示141和第二视觉表示142(以及伴随的空间音频数据)。第二区域132包括在第二区域132内可见的第三和第四对象53和54的第三和第四视觉表示(以及伴随的空间音频数据)143和144。第一至第四视觉表示141至144基于上面分别参照图12描述的表示111、112、113和114。

数据130还包括与来自第五对象和第六对象55和56的空间音频数据相对应的第五音频表示145和第六146音频表示。因此，来自那些对象的音频在数据130中呈现为来自显示器131和132的左边。同样地，数据包括与来自第七和第八对象57和58的空间音频数据相对应的第七147和第八148音频表示。因此，来自那些对象的音频在数据120中被呈现为来自显示器131和132的右边。第五音频表示至第八音频表示145至148基于的是上文分别参照图12描述的表示115、116、117和118。

图14是示出了根据示例实施例的通常由附图标记150指示的算法的流程图。

算法150在其中获得数据的操作152处开始。在操作152处获得的数据包括视频数据(例如，从上述相机13和14获得)和音频数据(例如，上述空间和环境音频数据)。

在操作152获得的数据在算法150的操作154中以一些方式被变换。然后，在输出数据操作156中输出变换后的数据。

数据变换操作154的示例包括上文参照图6至13描述的变换。

图15示出了根据示例实施例的通常由附图标记160指示的用户交互。用户交互160示出了上面参照图2描述的示例性视图20的第一视图21和第二视图22。

用户交互160采用用户手指(由附图标记166指示)压在第二视图22上的形式。通过将手指保持在第二输出视图22上，用户可以从所指示的方向(即，在图15所示的情况下为向后方向)衰减音频内容。因此，来自用户设备后面的所有声音被衰减。

当然，对用户交互160的许多变型是可能的。当然，用户可以指示第一视图(前视图)应该被衰减(通过按压第一视图21)。备选地，用户指示可以指示应该被增强(而不是衰减)的所指示的区域。进一步地，不必通过用户手指接触显示器来指示交互。例如，可以使用手写笔。其他选择选项也是可能的，例如可以使用语音命令和键盘或鼠标指令。

已经参照并排显示器20描述了用户交互160。当然，相同的原理可以应用于一项显示被呈现在另一显示之上的显示格式30。

通过示例的方式，图16至18示出了可应用本文描述的一些原理的示例系统。

图16是根据本文描述的一些原理的系统的框图，其通常由附图标记400指示。该系统包括第一对象401、第二对象402、第三对象403、第四对象404和第五对象405。第一和第二对象在用户设备406的前置相机的视野内。第三对象403(可以是用户设备406的操作者)和第四对象404在用户设备的后置相机的视野内。第五对象405在相机的视野之外。

图17是由上述系统400输出的示例视图410。视图410包括第一图像411和第二图像412，它们分别是用户设备406的前置相机拍摄的第一对象401和第二对象402的表示。第三对象至第五对象在视图410中不可见，因为它们在用户设备406的前置相机的视野之外。

假设用户设备记录空间音频，包括用于第一对象401至第五对象405的空间音频数据。可以使用麦克风阵列来记录这种空间音频。可以将空间音频与视图410一起呈现，使得可以像与听到声音被录制的方向一样地听到录制场景中的声音。

图18是由上述系统400输出的示例视图420。视图420包括并排被呈现的第一视图430和第二视图440。第一视图430包括第一图像421和第二图像422，它们分别是用户设备406的前置相机拍摄的第一对象401和第二对象402的表示。同样地，第二视图440包括第三图像423和第四图像424，它们分别是用户设备406的后置相机拍摄的第三对象403和第四对象404的表示。

如上文参照图17所描述的，当仅用一个相机和空间音频记录视频时，所捕获的视频和声音场景被对准。因此，如果在视频的前中心存在声音产生对象，则在绘制期间该声音好像被听到来自相同的方向。视图420不是这种情况。所绘制的音频将与所绘制的视频不匹配。例如，来自用户设备406后面的视频数据被绘制在视图420的右前方。因此，特别是来自例如第三和第四对象403和404的音频将与视觉呈现423和424不匹配。这可能会给系统400的用户造成混乱，并可能减轻旨在使用空间音频所提供的沉浸效果。

为了完整起见，图19是根据示例实施例的先前描述的一个或多个模块的组件的示例示意图，其在下文中统称为处理系统300。处理系统300可以包括处理器302、被紧密耦合到处理器的存储器304，并且包括ram314和rom312，以及可选地包括用户输入310和显示器318。处理系统300可以包括一个或多个网络接口308，以连接至网络，例如，可以是有线或无线的调制解调器。

处理器302连接至每个其他组件，以便控制其操作。

存储器304可以包括非易失性存储器，诸如，硬盘驱动器(hdd)或固态驱动器(ssd)。存储器304的rom312还存储操作系统315，并且可以存储软件应用316。处理器304将存储器304的ram314用于数据的临时存储。操作系统315可以包含代码，该代码在由处理器执行时实现算法150的各个方面。

处理器302可以采用任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器或多个处理器。

处理系统300可以是独立的计算机、服务器、控制台或其网络。

在一些实施例中，处理系统300还可以与外部软件应用相关联。这些可以是存储在远程服务器设备上的应用，并且可以部分或专门在远程服务器设备上运行。这些应用可以称为云托管应用。处理系统300可以与远程服务器设备通信，以利用存储在此处的软件应用。可以通过网络接口308来处理通信。

图20a和图20b示出了有形介质，分别是存储计算机可读代码的可移动存储器单元365和光盘(cd)368，当由计算机运行时，该计算机可读代码可以执行根据上述实施例的方法。可移动存储器单元365可以是记忆棒，例如，usb记忆棒，其具有存储计算机可读代码的内部存储器366。存储器366可以由计算机系统经由连接器367访问。cd368可以是cd-rom或dvd或类似物。可以使用其他形式的有形存储介质。

可以以软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合来实现本发明的实施例。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中，应用逻辑、软件或指令集被保持在各种传统的计算机可读介质中的任何一个上。在本文的上下文中，“存储器”或“计算机可读介质”可以是可以包含、存储、通信、传播或传输由指令执行系统、装置或设备(诸如，计算机)使用或与其结合使用的指令的任何非暂时性介质或装置。

在相关的情况下，对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“处理器”、“处理电路系统”等的引用应该理解为不仅包括具有不同架构(诸如，单/多处理器架构和顺序/并行架构)的计算机，还包括专用电路，诸如，现场可编程门阵列fpga、专用电路asic、信号处理设备和其他设备。对计算机程序、指令、代码等的引用应该理解为表示用于可编程处理器固件的软件，诸如，硬件设备的可编程内容，无论是用于处理器的指令还是用于固定功能设备、门阵列、可编程逻辑设备等的配置设置。

如在本申请中所使用的，术语“电路系统”指代以下中的所有：(a)仅硬件电路实现，(诸如，仅模拟和/或数字电路系统中的实施方式)，以及(b)电路和软件(和/或固件)的组合，诸如(如果适用的话)：(i)(多个)处理器的组合，或者(ii)(多个)处理器/软件的一部分，(包括一起工作以使诸如服务器等装置执行各种功能的(多个)数字信号处理器、软件和(多个)存储器)，以及(c)即使软件或固件不是物理存在的也需要软件或固件进行操作的电路，诸如，(多个)微处理器或(多个)微处理器的一部分。

如果需要的话，本文讨论的不同功能可以以不同顺序执行和/或彼此并发地执行。此外，如果需要的话，上述功能中的一个或多个可以是可选的或者可以组合。同样地，还将了解到，图14的流程图仅是示例，并且可以省略、重新排序和/或组合其中所描绘的各种操作。

要了解的是，上述示例实施例仅是说明性的，并且不限制本发明的范围。在阅读本说明书之后，其他变型和修改对本领域技术人员将是显而易见的。

而且，应该理解本申请的公开内容包括本文中明确或隐含公开的任何新颖特征或特征的任何新颖组合或其任何概括，并且在本申请或由此衍生的任何申请的起诉期间，可以制定新的权利要求以覆盖任何这种特征和/或这种特征的组合。

尽管在独立权利要求中陈述了本发明的各个方面，但是本发明的其他方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不是仅仅在权利要求中明确陈述的组合。

在本文中还要注意的是，尽管上文描述了各个示例，但是这些描述不应该被视为限制性的。相反，存在可以在不脱离所附权利要求限定的本发明的范围的情况下做出的若干变型和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·勒帕南;A·勒蒂涅米;S·S·马特;A·埃罗南
技术所有人：诺基亚技术有限公司
我是此专利的发明人

上一篇：改善车辆中的驾驶员的收听体验的非对称的声学实现方式的制作方法
上一篇：带互动显示屏的耳机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。