用于计算机介导现实系统的渲染的制作方法

文档序号:20788896发布日期:2020-05-19 21:59阅读:165来源:国知局
用于计算机介导现实系统的渲染的制作方法

本申请案要求2017年10月12日申请的美国专利申请案第15/782,252号的权益,所述专利申请案的全部内容以引用的方式并入本文中。

本公开涉及媒体数据,例如音频数据的处理。



背景技术:

高阶立体混响(hoa)信号(常常由多个球谐系数(shc)或其它阶层元素来表示)为声场的三维表示。hoa或shc表示可按独立于用以播放从shc信号渲染的多声道音频信号的本地扬声器几何布置的方式来表示声场。shc信号还可促进回溯兼容性,这是因为可将shc信号渲染为熟知且经高度采用的多声道格式,例如5.1音频声道格式或7.1音频声道格式。因此,shc表示可实现对声场的优选表示,其也适应回溯兼容性。



技术实现要素:

本公开大体上涉及计算机介导现实系统的用户体验的听觉方面,所述计算机介导现实系统包含虚拟现实(vr)、混合现实(mr)、扩增现实(ar)、计算机视觉和图形系统。所述技术可实现对考虑头部移动的三自由度(横摆、俯仰和偏转)以及受限的头部的平移移动的vr、mr、ar等高阶立体混响(hoa)音频数据的渲染,其为称作三自由度加(3dof+)音频渲染的音频渲染的形式。

在一个实例中,所述技术涉及一种装置,其包括:存储器,其经配置以存储表示声场的高阶立体混响音频数据;以及处理器,其耦合到存储器且经配置以获取表示与装置介接的用户的平移头部移动的平移距离。处理器可进一步经配置以基于平移距离调适高阶立体混响音频数据,以提供使声场适应平移头部移动的三自由度加效应,且基于调适的高阶环境音频数据生成扬声器馈送。

在另一实例中,所述技术涉及一种方法,其包括获取表示与装置介接的用户的平移头部移动的平移距离。方法可进一步包括:基于平移距离调适高阶立体混响音频数据,以提供使由高阶立体混响音频数据表示的声场适应平移头部移动的三自由度加效应;以及基于调适的高阶环境音频数据生成扬声器馈送。

在另一实例中,所述技术涉及一种装置,其包括用于获取表示与装置介接的用户的平移头部移动的平移距离的装置。装置可进一步包括:用于基于平移距离调适高阶立体混响音频数据,以提供使由高阶立体混响音频数据表示的声场适应平移头部移动的三自由度加效应的装置;以及用于基于调适的高阶环境音频数据生成扬声器馈送的装置。

在另一实例中,技术涉及一种非暂时性计算机可读存储媒体,其上已存储有指令,所述指令在执行时,促使一或多个处理器:获取表示与装置介接的用户的平移头部移动的平移距离;基于平移距离调适高阶立体混响音频数据,以提供使由高阶立体混响音频数据表示的声场适应平移头部移动的三自由度加效应;且基于调适的高阶环境音频数据生成扬声器馈送。

在随附图式和以下描述中阐述本公开的一或多个实例的细节。技术的各个方面的其它特征、目标和优点将从描述和图式以及从权利要求书显而易见。

附图说明

图1为说明具有各种阶数和子阶数的球谐基函数的图。

图2a和2b为说明可执行本公开中所描述的技术的各个方面的系统的图。

图3为说明由用户穿戴的vr装置的实例的图。

图4为更详细地说明图2a和2b中所示的音频播放系统在执行本公开中所描述的效应技术的各个方面时的框图。

图5为更详细地说明图4的实例中所示的效应单元如何根据本公开中所描述的技术的各个方面获取效应矩阵的图。

图6为说明图4中所示的深度映射已经更新以根据本公开中所描述的技术的各个方面反映锚点与深度映射的映射的图。

图7为说明可根据本公开中所描述的技术的各个方面来操作的可穿戴式装置的实例的图。

图8a和8b为说明可执行本公开中所描述的技术的各个方面的其它实例系统的图。

图9为说明音频播放装置可根据本公开的各个方面执行的实例过程的流程图。

具体实施方式

在市场中存在各种基于“环场音效”声道的格式。举例来说,其范围从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由nhk(日本广播协会(nipponhosokyokai或japanbroadcastingcorporation))所开发的22.2系统。内容创建者(例如好莱坞(hollywood)工作室)将希望一次性产生影片的音轨,且不花费精力来针对每一扬声器配置对其进行重混。运动图片专家组(mpeg)已发布一标准,所述标准允许使用元素(例如高阶立体混响hoa系数)的阶层集合来表示声场,对于大多数扬声器配置(包含无论在由各种标准定义的位置中或在不均匀位置中的5.1和22.2配置),所述元素的集合可渲染到扬声器馈送。

mpeg发布如mpeg-h3d音频标准的标准,所述标准正式标题为“信息技术:异构环境中的高效编码和媒体传递,第3部分:3d音频(informationtechnology-highefficiencycodingandmediadeliveryinheterogeneousenvironments-part3:3daudio)”,由iso/iecjtc1/sc29阐述,具有文件标识符iso/iecdis23008-3,且日期为2014年7月25日。mpeg还发布3d音频标准的第二版本,所述标准标题为“信息技术:异构环境中的高效编码和媒体传递,第3部分:3d音频(informationtechnology-highefficiencycodingandmediadeliveryinheterogeneousenvironments-part3:3daudio)”,由iso/iecjtc1/sc29阐述,具有文件标识符iso/iec23008-3:201x(e),且日期为2016年10月12日。在本公开中对“3d音频标准”的参考可指以上标准中的一个或两个。

如上文所指出,元素的阶层集合的一个实例为球谐系数(shc)的集合。以下表达式表明使用shc对声场的描述或表示:

表达式展示在时间t处,声场的任一点处的压力pi可由唯一地表示。此处,c为声音的速度(约343m/s),为参考点(或观测点),jn(·)为阶数n的球贝塞尔(bessel)函数,且为阶数n和子阶数m的球谐基函数(其也可称作球基函数)。可认识到,方括号中的项为信号的频域表示(即),其可通过各种时间-频率变换(例如离散傅立叶变换(dft)、离散余弦变换(dct)或小波变换)来近似。阶层集合的其它实例包含小波变换系数的集合和多分辨率基函数的系数的其它集合。

图1为说明从零阶(n=0)到四阶(n=4)的球谐基函数的图。如可见,对于每一阶,存在子阶m的展开,出于易于说明的目的,在图1的实例中展示所述子阶但未明确地指出。

可由各种麦克风数组配置物理地获取(例如记录)或可替代地,其可从声场的基于声道或基于对象的描述导出。shc(其也可称作高阶立体混响hoa系数)表示基于场景的音频,其中可将shc输入到音频编码器以获取可促进更高效传输或存储的经编码shc。举例来说,可使用涉及(1+4)2(25,且因此为四阶)个系数的四阶表示。

如上文所指出,可使用麦克风数组从麦克风记录导出shc。可如何从麦克风数组导出shc的各种实例描述于波莱蒂m.(poletti,m.)的“基于球谐的三维环绕声系统(three-dimensionalsurroundsoundsystemsbasedonsphericalharmonics)”,音频工程学会会刊(j.audioeng.soc.),第53卷,第11期,2005年11月,第1004到1025页中。

为说明可如何从基于对象的描述导出shc,考虑以下等式。可将与单个音频对象相对应的声场的系数表达为:

其中i为为n阶的球汉克尔(hankel)函数(第二种类),且为对象的位置。知晓作为频率变化的函数的对象源能量g(ω)(例如使用时间-频率分析技术,例如对pcm串流执行快速傅立叶变换)允许吾等将每一pcm对象和相应位置转换为此外,可展示(由于以上为线性和正交分解):每一对象的系数为附加性的。以此方式,数个pcm对象可由系数(例如作为单个对象的系数向量的总和)来表示。基本上,所述系数含有关于声场的信息(作为3d坐标的函数的压力),且以上表示在观测点附近从单个对象到总声场的表示的变换。下文在基于shc的音频编码的上下文中描述剩余附图。

图2a和2b为说明可执行本公开中所描述的技术的各个方面的系统的图。如图2a的实例中所展示,系统10包含源装置12和内容消费者装置14。虽然在源装置12和内容消费者装置14的上下文中描述,但所述技术可实施于其中声场的任何阶层表示经编码以形成表示音频数据的位流的任何上下文中。此外,源装置12可表示能够生成声场的阶层表示的任何形式的计算装置,且本文中一般在为vr内容创建者装置的上下文中描述。同样,内容消费者装置14可表示能够实施本公开中所描述的声场表示选择技术以及音频播放的任何形式的计算装置,且本文中一般在为vr客户端装置的上下文中描述。

源装置12可由娱乐公司或可生成多声道音频内容以供内容消费者装置(例如内容消费者装置14)的操作者消耗的其它实体来操作。在许多vr情境中,源装置12结合视频内容生成音频内容。源装置12包含内容捕获装置300和内容捕获辅助装置302。内容捕获装置300可经配置以与麦克风5介接或以其它方式通信。麦克风5可表示或能够捕获声场且将声场表示为hoa系数11的其它类型的3d音频麦克风。

在一些实例中,内容捕获装置300可包含集成到内容捕获装置300的壳体中的集成式麦克风5。内容捕获装置300可以无线方式或经由有线连接与麦克风5介接。替代经由麦克风5捕获或结合捕获音频数据,在以无线方式经由一些类型的可移式存储器和/或经由有线输入过程输入hoa系数11之后,内容捕获装置300可处理hoa系数11。如此,根据本公开,内容捕获装置300与麦克风5的各种组合为可能的。

内容捕获装置300也可经配置以与声场表示生成器302介接或以其它方式通信。声场表示生成器302可包含能够与内容捕获装置300介接的任何类型的硬件装置。声场表示生成器302可使用由内容捕获装置300提供的hoa系数11来生成由hoa系数11所表示的相同声场的不同表示。举例来说,为使用hoa系数11生成声场的不同表示,声场表示生成器302可使用称作混合阶数立体混响(moa)的声场的立体混响表示的编码方案,如在标题为“计算机介导现实系统的混合阶立体混响(moa)音频数据(mixed-orderambisonics(moa)audiodatafocomputer-mediatedrealitysystems)”且于2017年8月8日申请的美国申请案第15/672,058号中更详细地论述。

为生成声场的特定moa表示,声场表示生成器302可生成hoa系数11的全集的部分子集。举例来说,由声场表示生成器302所生成的每一moa表示可相对于声场的一些区域提供精确度,但于其它区域中精确度较小。在一个实例中,声场的moa表示可包含hoa系数11的八(8)个未经压缩hoa系数,而相同声场的三阶hoa表示可包含hoa系数11的十六(16)个未经压缩hoa系数。如此,相较于从hoa系数11生成的相同声场的相应三阶hoa表示,生成为hoa系数11的部分子集的声场的每一moa表示可为较低存储器密集型和较低带宽密集型(如果且当作为位流21的部分在所说明传输声道上传输时)。

虽然参照moa表示来描述,但本公开的技术也可参照全阶立体混响(foa)表示来执行,在所述全阶立体混响表示中,所给阶数n的所有hoa系数用以表示声场。换句话说,替代使用hoa系数11的部分非零子集来表示声场,声场表示生成器302可使用所给阶数n的所有hoa系数11来表示声场,产生等于(n+1)2的总hoa系数。

就此来说,高阶立体混响音频数据11可包含与具有一或小于一的阶数的球基函数相关联的高阶立体混响系数11(其可称作“第一阶立体混响音频数据11”)、与具有混合阶数和子阶数的球基函数相关联的高阶立体混响系数(其可称作上文所论述的“moa表示”),或与具有大于一的阶数的球基函数相关联的高阶立体混响系数(其在上文称作“foa表示”)。

在一些实例中,内容捕获装置300可经配置以与声场表示生成器302无线通信。在一些实例中,内容捕获装置300可经由无线连接或有线连接中的一个或两个与声场表示生成器302通信。经由内容捕获装置300与声场表示生成器302之间的连接,内容捕获装置300可以各种内容形式来提供内容,其在本文中出于论述的目的而描述为hoa系数11的部分。

在一些实例中,内容捕获装置300可充分利用声场表示生成器302的各种方面(就声场表示生成器302的硬件或软件能力来说)。举例来说,声场表示生成器302可包含专用硬件,所述专用硬件经配置以(或专用软件,其在执行时促使一或多个处理器)执行音质音频编码(例如表示为由运动图片专家组(mpeg)或mpeg-h3d音频编码标准阐述的“usac”的通用语音和音频编码器)。内容捕获装置300可能不包含音质音频编码器专用硬件或专用软件,且替代地以非音质音频编码形式提供内容301的音频方面。声场表示生成器302可通过关于内容301的音频方面至少部分地执行音质音频编码来辅助对内容301的捕获。

声场表示生成器302也可通过至少部分地基于从hoa系数11生成的音频内容(例如moa表示和/或三阶hoa表示)生成一或多个位流21来辅助内容捕获和传输。位流21可表示hoa系数11的经压缩版本(和/或其用以形成声场的moa表示的部分子集)以及任何其它不同类型的内容301(例如球视频数据、图像数据或文本数据的经压缩版本)。

声场表示生成器302可生成位流21以供(作为一个实例)跨传输声道传输,所述传输声道可为有线或无线声道、数据存储装置或其类似物。位流21可表示hoa系数11的经编码版本(和/或其用以形成声场的moa表示的部分子集)且可包含主位流和另一侧位流,其可称作旁侧信道信息。在一些情况下,表示hoa系数的经压缩版本的位流21可符合根据mpeg-h3d音频编码标准所产生的位流。

内容消费者装置14可由个人操作,且可表示vr客户端装置。虽然参照vr客户端装置来描述,但内容消费者装置14可表示其它类型的装置,例如扩增现实(ar)客户端装置、混合现实(mr)客户端装置、标准计算机、耳机、头戴式耳机或能够跟踪操作客户端消费者装置14的个人的头部移动和/或一般平移移动的任何其它装置。如图2a的实例中所示,内容消费者装置14包含音频播放系统16,所述音频播放系统可指能够渲染用于作为多声道音频内容播放的shc(无论呈三阶hoa表示和/或moa表示的形式)的任何形式的音频播放系统。

虽然于图2a中展示为直接传输到内容消费者装置14,但源装置12可将位流21输出到定位于源装置12与内容消费者装置14之间的中间装置。中间装置可存储位流21以供稍后传递到可能请求位流的内容消费者装置14。中间装置可包括文件服务器、网页服务器、桌面计算机、膝上型计算机、平板计算机、移动电话、智能型手机,或能够存储位流21以供由音频解码器稍后检索的任何其它装置。中间装置可驻留于能够将位流21(且可能结合传输对应视频数据位流)串流传输到请求位流21的订户(例如内容消费者装置14)的内容传递网络中。

可替代地,源装置12可将位流21存储到存储媒体,例如紧密光盘、数字视频光盘、高清晰度视盘或其它存储媒体,所述存储媒体中的大多数能够由计算机读取且因此可称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在这一上下文中,传输声道可指借以传输存储到所述媒体的内容的声道(且可包含零售商店和其它基于商店的传递机构)。在任何情况下,本公开的技术因而就此来说不应限于图2a的实例。

如上文所指出,内容消费者装置14包含音频播放系统16。音频播放系统16可表示能够播放多声道音频数据的任何系统。音频播放系统16可包含数个不同渲染器22。渲染器22可各自提供不同形式的渲染,其中不同形式的渲染可包含执行基于向量的振幅移动(vbap)的各种方式中的一或多个和/或执行声场合成的各种方式中的一或多个。如本文中所使用,“a和/或b”意谓“a或b”,或“a和b”两者。

音频播放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码位流21从而输出hoa音频数据15(其可形成全三阶hoa表示或其子集,所述子集形成相同声场的moa表示或其分解,例如主导音频信号、环境hoa系数和描述于mpeg-h3d音频编码标准中的基于向量的信号)的装置。如此,hoa音频数据15可类似于hoa系数11的全集或部分子集,但可能由于有损操作(例如量化)和/或经由传输声道的传输而不同。音频播放系统16可在解码位流21以获取hoa音频数据15之后渲染hoa音频数据15以输出扬声器馈送25。扬声器馈送25可驱动一或多个扬声器(出于易于说明的目的,其未在图2a的实例中展示)。可以数种方式将声场的立体混响表示标准化,所述方式包含n3d、sn3d、fuma、n2d或sn2d。

为选择适当渲染器,或在一些情况下生成适当显现器,音频播放系统16可获取指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频播放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器而获得扩音器信息13。在其它情况下,或结合扩音器信息13的动态确定,音频播放系统16可提示用户与音频播放系统16介接且输入扩音器信息13。

音频播放系统16可基于扩音器信息13选择音频渲染器22中的一个。在一些情况下,在音频渲染器22中无一者处于对扩音器信息13中所指定的扩音器几何布置的一些阈值类似性测量(就扩音器几何布置来说)内时,音频播放系统16可基于扩音器信息13生成音频渲染器22中的一个。在一些情况下,音频播放系统16可基于扩音器信息13生成音频渲染器22中的一个,而并不首先尝试选择音频渲染器22中的现有一者。

在将扬声器馈送25输出到头戴式耳机时,音频播放系统16可利用渲染器22中的一个,所述渲染器使用头部相关变换函数(hrtf)或能够渲染头戴式耳机扬声器播放的左侧和右侧扬声器馈送25的其它函数来提供双耳渲染。术语“扬声器”或“换能器”一般可指任何扬声器,包含扩音器、头戴式耳机扬声器等。一或多个扬声器可随后播放渲染的扬声器馈送25。

虽然描述为从hoa音频数据11'渲染扬声器馈送25,但对扬声器馈送25的渲染的参考可指其它类型的渲染,例如直接并入到对来自位流21的hoa音频数据15的解码中的渲染。替代渲染的实例可发现于mpeg-h3d音频编码标准的annexg中,其中渲染在声场复合之前发生于主导信号形成和背景信号调配期间。如此,对hoa音频数据15的渲染的参考应理解为指代实际hoa音频数据15的渲染或hoa音频数据15的分解或其表示两者(例如上文所指出的主导音频信号、环境hoa系数和/或基于向量的信号,其也可称作v向量)。

如上文所描述,内容消费者装置14可表示其中人类可穿戴式显示器安装于操作vr装置的用户的眼部前方的vr装置。图3为说明由用户402穿戴的vr装置400的实例的图。vr装置400耦合到或另外包含头戴式耳机404,所述头戴式耳机可经由对扬声器馈送25的播放而重现由hoa音频数据11'(其为对hoa系数11'的参考的另一路径)表示的声场。扬声器馈送25可表示能够促使头戴式耳机404的换能器内的膜以不同频率振动的模拟或数字信号,其中这种过程通常称作驱动头戴式耳机404。

视频、音频和其它感测数据可于vr体验中发挥重要角色。为参与vr体验,用户402可穿戴vr装置400(其也可称作vr耳机400)或其它可穿戴式电子装置。vr客户端装置(例如vr耳机400)可跟踪用户402的头部移动,并经由vr耳机400使所展示视频数据适应头部移动,提供其中用户402可体验到以视觉三维形式展示于视频数据中的虚拟世界的身历其境体验。

当vr(和其它形式的ar和/或mr)可使得用户402以视觉方式驻留于虚拟世界中时,通常vr耳机400可能缺乏将用户有声地置于虚拟世界中的能力。换句话说,vr系统(其可包含负责渲染视频数据和音频数据的计算机和vr耳机400,出于易于说明的目的,所述计算机未展示于图3的实例中)可能无法有声地支持全三维身历其境。

vr的音频方面已经分为三种独立的身历其境类别。第一类别提供最低水平的身历其境且称作三自由度(3dof)。3dof指代考虑头部于三个自由度(横摆、俯仰和偏转)中的移动的音频渲染,进而使得用户在任何方向上自由环顾。然而,3dof未能考虑到其中头部并不以声场的光学和声学中心为中心的平移头部移动。

除因远离声场内的光学中心和声学中心的头部移动而受限的空间平移移动以外,称作3dof加(3dof+)的第二类别还提供三个自由度(横摆、俯仰和偏转)。3dof+可提供对例如运动视差的知觉效应的支持,其可增强身历其境的感觉。

称作六自由度(6dof)的第三类别以考虑头部移动(横摆、俯仰和偏转)的三个自由度并且考虑用户在空间中的平移(x平移、y平移和z平移)的方式渲染音频数据。空间平移可通过传感器跟踪用户于物理世界中的位置或借助于输入控制器来诱导。

3dof渲染为vr领域的现行状态。如此,vr的音频方面相较于视频方面为较低身历其境的,因而潜在地降低由用户所体验到的整体沉浸。

根据本公开中所描述的技术,借以调节高阶立体混响(hoa)音频数据的不同方式可实现3dof+音频渲染。如上文所指出,3dof+渲染通过以考虑头部移动的三个自由度(横摆、俯仰和偏转)以及因头部移动并不以光学和声学中心为中心而受限的平移移动(在空间二维坐标系统x、y,或空间三维坐标系统x、y、z)两者的方式渲染hoa音频数据来提供更身历其境的听觉体验。

在操作中,音频播放系统16可首先获取头部跟踪信息17。头部跟踪信息17可包含表示与内容消费者装置14介接的用户的平移头部移动的平移距离、指示与内容消费者装置14介接的用户的旋转头部移动的旋转指示,或平移头部移动和旋转指示两者。音频播放系统16可以多种不同方式获取头部跟踪信息17。如图2a的实例中所示,内容消费者装置14与跟踪装置306介接。跟踪装置306可表示以下各者的任何组合:用于感测和视频显示的微机电系统(mems)、摄影机或其它视觉传感器,或能够提供支持头部和/或身体跟踪的信息的任何其它类型的传感器。

在一个实例中,跟踪装置306可表示用于感测和视频显示的mems,类似于用于例如所谓“智能电话”的蜂窝式电话中的那些。音频播放装置16可使用包含于感测平移头部移动的跟踪装置306的mems中的运动传感器来获取头部跟踪信息17。关于用于执行头部跟踪的感测和视频显示的mems的更多信息可于拉瓦勒(lavalle)等人的在2017年8月17日以msl.cs.illinois.edu/~lavalle/papers/lavyerkatant14.pdf的url存取的标题为“oculusrift的头部跟踪(headtrackingfortheoculusrift)”的论文中发现。

在另一实例中,音频播放系统16可与跟踪装置306介接以标识头部跟踪信息17,所述跟踪装置可表示摄影机(包含红外摄影机)或其它视觉传感器。音频播放系统16可参照由跟踪装置306捕获的图像执行图像分析。关于使用摄影机和各种其它传感器的头部和身体跟踪的更多信息可发现于杰斯帕·廷瓦尔(jespertingvall)的日期为2015年11月1日标题为“虚拟现实中的室内设计和导航(interiordesignandnavigationinvirtualreality)”的论文中。

当展示为与内容消费者装置14分离时,可将跟踪装置306集成到内容消费者装置14中。换句话说,例如当跟踪装置306表示mems时,内容消费者装置14可包含跟踪装置306,所述跟踪装置为能够集成于内容消费者装置14中的小型半导体芯片。

在确定头部跟踪信息17之后,音频播放系统16可基于头部跟踪信息17调适hoa音频数据15,以提供使由hoa音频数据15表示的声场适应平移头部移动、旋转头部移动或平移头部移动和旋转头部移动两者的三自由度加(3dof+)效应。

在一个实例中,为调适hoa音频数据15,音频播放系统16确定效应矩阵26。效应矩阵26可类似于论述于用于响度补偿和/或屏幕调适的mpeg-h3d音频编码标准中的初始效应矩阵。

然而,在使用初始效应矩阵执行响度补偿和/或屏幕调适时,音频播放系统16并不基于用户402的任何平移移动来调适初始效应矩阵。根据本文中所描述的技术,音频播放系统16可基于如下文更详细论述的头部跟踪信息17的平移距离来确定效应矩阵26。

当于本公开中描述为基于头部跟踪信息17的平移距离来确定效应矩阵26时,音频播放系统16可基于头部跟踪信息17的旋转指示或基于平移距离和头部跟踪信息17的旋转指示两者来确定效应矩阵26。换句话说,3dof+效应并有3dof的旋转方面且进一步考虑平移头部移动。就此来说,音频播放系统16可获取指示与装置介接的用户的旋转头部移动的旋转指示,且基于平移头部距离和旋转指示,获取高阶立体混响音频数据,以提供使声场适应平移头部移动和旋转头部移动的三自由度加效应。

虽然可参照旋转指示来执行所述技术,但在下文中参照平移距离来描述所述技术。如此,为易于解释,下文将头部跟踪信息17称作平移距离17。

在生成效应矩阵26之后,音频播放系统16可将效应矩阵26应用于音频渲染器22中的所选一者(其在具有集成式头戴式耳机404的vr装置400的上下文中可指本文中所表示为双耳渲染器22之物)。音频播放系统16可经由将效应矩阵26应用于双耳渲染器22来生成更新的双耳渲染器22。随后,音频播放系统16可将更新的双耳渲染器22应用于hoa音频数据15,以基于平移距离17来调适hoa音频数据15以提供3dof+效应,并且基于调适的hoa音频数据15来生成扬声器馈送25。

就此来说,音频播放系统16可执行本公开中所描述的技术的各个方面以提供3dof+渲染,相较于3dof渲染导致更沉浸。相对于3dof+的经增加沉浸可提升由用户402所体验到的整体沉浸,且有可能提供等于或超过通过视频体验所提供沉浸水平的沉浸水平。

虽然参照如图3的实例中所示的vr装置来描述,但所述技术可通过包含以下各者的其它类型的穿戴式装置来执行:手表(例如所谓“智能型手表”)、眼镜(例如所谓“智能型眼镜”)、头戴式耳机(包含经由无线连接耦合的无线头戴式耳机或经由有线或无线连接耦合的智能型头戴式耳机)以及任何其它类型的可穿戴式装置。如此,所述技术可通过在由用户穿戴时,用户可借以与可穿戴式装置交互的任何类型的可穿戴式装置来执行。

图2b为说明经配置以执行本公开中所描述的技术的各个方面的另一实例系统100的框图。除图2a中所展示的音频渲染器22通过能够使用一或多种hrtf或能够渲染左侧和右侧扬声器馈送103的其它函数来执行双耳渲染的双耳渲染器102替换以外,系统100类似于图2a中所展示的系统10。

音频播放系统16可将左侧和右侧扬声器馈送103输出到头戴式耳机104,所述头戴式耳机可表示可穿戴式装置的另一实例且其可耦合到额外穿戴式装置以便于声场的重现,例如手表、上文所指出的vr耳机、智能型眼镜、智能型服饰、智能型戒指、智能型手镯或任何其它类型的智能型珠宝(包含智能型项链)以及其类似物。头戴式耳机104可以无线方式或经由有线连接耦合到额外穿戴式装置。

另外,头戴式耳机104可经由有线连接(例如标准3.5mm音频插口、通用系统总线(usb)连接、光学音频插口或其它形式的有线连接)或以无线方式(例如借助于bluetoothtm连接、无线网络连接以及其类似物)耦合到音频播放系统16。头戴式耳机104可基于左侧和右侧扬声器馈送103来重建由hoa系数11表示的声场。头戴式耳机104可包含由相应左侧和右侧扬声器馈送103供电(或换句话说,驱动)的左侧头戴式耳机扬声器和右侧头戴式耳机扬声器。

图4为更详细地说明图2a和2b中所示的音频播放系统在执行本公开中所描述的效应技术的各个方面时的框图。如图4的实例中所示,除上述音频解码装置24以外,音频播放系统16还包含效应单元510和渲染单元512。效应单元510表示经配置以获取上文所描述的效应矩阵26(于图4的实例中展示为“em26”)的单元。渲染单元512表示经配置以确定且/或应用上述音频渲染器22(于图4的实例中展示为“ar22”)中的一或多个的单元。

如上文所指出,音频解码装置24可表示经配置以根据mpeg-h3d音频编码标准来解码位流21的单元。音频解码装置24可包含位流提取单元500、反增益控制和再指派单元502、主导声音合成单元504、环境合成单元506和复合单元508。关于前述单元500到单元508中的每一个的更多信息可发现于mpeg-h3d音频编码标准中。

尽管详细地描述于mpeg-h3d音频编码标准中,但在下文提供单元500到单元508中的每一个的简要描述。位流提取单元500可表示经配置以提取对hoa系数11连同构成由hoa系数11所定义声场的表示所需的其它语法元素或数据的分解的单元。位流提取单元500可标识位流11中各自可指定环境音频信号(其可指一或多个环境hoa系数11)或主导音频信号(其可指从hoa系数11经由线性可逆变换的应用所分解的u向量与s向量的乘积,例如奇异值分解、特征值分解、klt等)的一或多个传输声道501。位流提取单元500可提取传输声道501并将传输声道501输出到反增益控制和再指派单元502。

尽管出于易于说明的目的而未于图4的实例中展示,但音频解码装置24可包含参照传输声道501来执行音质音频解码(例如高级音频编码aac)的音质音频解码器。此外,音频解码装置24可包含执行未展示于图4的实例中的各种其它操作的其它单元,所述其它操作例如传输声道501之间的衰减以及其类似物。

位流提取单元500可进一步提取限定语法元素和用于执行增益控制和指派的其它数据的旁侧信息521。位流提取单元500可将旁侧信息521输出到反增益控制和再指派单元502。

位流提取单元500也可提取限定语法元素和用于执行主导声音合成的其它数据的旁侧信息523(包含限定相应主导音频信号的空间特征的向量,所述空间特征例如宽度、方向和/或形状,所述主导音频信号限定于传输声道501中)。另外,位流提取单元500可提取限定语法元素和用于执行环境合成的其它数据的旁侧信息525。位流提取单元500将旁侧信息523输出到主导声音合成单元504,且将旁侧信息525输出到环境合成单元506。

反增益控制和再指派单元502可表示经配置以基于旁侧信息521参照传输声道501执行反增益控制和再指派的单元。反增益控制和再指派单元502可基于旁侧信息521确定增益控制信息,且将增益控制信息应用于传输声道501中的每一个,从而将应用于通过声场表示生成302所实施的音频编码装置处的增益控制反转,以致力于降低传输声道501的动态范围。随后,反增益控制和再指派单元502可基于旁侧信息523确定传输声道501中的每一个指定主导音频信号503或指定环境音频信号505。反增益控制和再指派单元502可将主导音频信号503输出到主导声音合成单元504,且将环境音频信号505输出到环境合成单元506。

主导声音合成单元504可表示经配置以基于旁侧信息523合成由hoa系数11所表示声场的主导音频分量的单元。主导声音合成单元504可将主导音频信号503中的每一个与旁侧信息523中所指定的相应空间向量(其也可称作“基于向量的信号”)相乘。主导声音合成单元504向复合单元508输出乘积的结果作为主导声音表示507。

环境合成单元506可表示经配置以基于旁侧信息525合成由hoa系数11所表示声场的环境分量的单元。环境合成单元506向复合单元508输出合成的结果作为环境hoa系数509。

复合单元508可表示经配置以基于主导声音表示507和环境hoa系数509构成hoa音频数据15的单元。在一些实例中,复合单元508可将主导声音表示507(其可限定描述最初由hoa系数11所表示声场的主导声音的主导hoa系数)添加到环境hoa系数509以获取hoa音频数据15。复合单元508可将hoa音频数据15输出到效应单元510。

效应单元510可表示经配置以执行本公开中所描述的效应技术的各个方面以基于平移距离17或(如下文更详细描述)平移距离17和深度映射509来生成em26的单元。效应单元510可将em26应用于hoa音频数据15以获取调适的hoa音频数据511。调适的hoa音频数据511可调适的以提供于声场中考虑由平移距离17所指示的平移头部移动的三自由度加效应。效应单元510可将调适的hoa音频数据511输出到渲染单元512。

渲染单元512可表示经配置以将一或多个ar22应用于调适的hoa音频数据511且从而获取扬声器馈送25的单元。渲染单元512可将扬声器馈送25输出到图3的实例中所示的头戴式耳机404。

虽然描述为独立单元510与单元512,但效应单元510可并入渲染单元512内,其中以下文更详细描述的方式将em26乘以ar22中的所选一者。em26与ar22中的所选一者的乘积可产生更新的ar(其可表示为“更新的ar22”)。渲染单元512可随后将更新的ar22应用于hoa音频数据15,从而调适hoa音频数据15以提供考虑平移距离17的3dof+效应并且渲染扬声器馈送25。

图5为更详细地说明图4的实例中所示的效应单元如何根据本公开中所描述的技术的各个方面获取效应矩阵的图。如图5的实例中所示,用户402最初驻留于经重建声场600中间,如在图5左侧所表示的“初始用户位置(initialuserlocation)”所示。当展示为圆形时,经重建声场600经建模为以参考距离602环绕用户402的球体。在一些实例中,用户402可在对用于播放音频数据的vr装置14进行配置时输入参考距离602。在其它实例中,参考距离602为静态的,或经限定为位流21的语法元素。当使用语法元素来限定时,参考距离602可为静态的(例如单次发送且因此静态持续体验的时间)或动态的(例如在体验期间多次发送,例如每音频帧或每一些周期性或非周期性数目的音频帧)。

效应单元510可接收参考距离602并于平移头部移动606之前确定定位于离用户402的头部参考距离602处的锚点604。锚点604于图5的实例中经展示为“x”标记。效应单元510可将锚点604确定为具有等于参考距离602的半径的球体声场600的表面上的多个均匀分布锚点。

锚点604可表示借以确定平移头部移动606的参考点。换句话说,锚点604可表示围绕可借以确定平移头部移动606以便调适声场的球体声场600分布的参考点。不应将锚点604与视觉图像搜索算法中所理解的锚点或关键点相混淆。再者,锚点604可表示离用户402的头部参考距离处的参考点,所述参考点用于确定相对于锚点604中的每一个的平移头部移动606。相对于锚点604中的每一个的平移头部移动606的范围可能影响对其中驻留有锚点604中的各别一者的声场的部分的渲染。如此,锚点604也可表示借以确定平移头部移动606并基于相对平移头部移动606调适声场的渲染的声场采样点。

在任何情况下,用户402可随后执行平移头部移动606,如图5于标题“平移移动之后的用户位置(userlocationaftertranslationalmovement)”下的实例中所示,使头部向右侧移动平移距离17。效应单元510可在平移头部移动606之后确定相对于多个锚点604中的每一个的更新距离608。虽然仅单个更新距离608展示于图5的实例中,但效应单元510可确定相对于锚点604中的每一个的更新距离608。效应单元510可随后基于更新距离608中的每一个确定em26。

效应单元510可计算每一平移锚定点的距离依赖型响度调节(呈em26的形式)。对每一参考点的计算可经表示为g|,其中初始参考距离602经表示为distref,且更新距离608可经表示为distnew,|。对于锚点604中的每一个,效应单元510可使用等式来计算g|。distpow参数可控制效应强度,所述参数可由用户402输入以控制效应强度的幅值。当描述为可变目标以通过用户402控制时,distpow参数也可通过内容创建者动态或静态地指定。

数学上,环绕用户402的声场600可经表示为具有定位于用户402的头部处的中心的球体上的m个等距锚点604(其也可称作“空间点604”)。可变“m”典型地经选择以使得m大于或等于(n+1)2,其中n表示与hoa音频数据15相关联的最大阶数。

m等距空间点604产生从用户402的头部延伸到m个等距空间点604中的每一个的m个空间方向。m个空间方向可由表示。效应单元510可基于m个空间方向来获取应用于渲染矩阵的em26。在一个实例中,效应单元510获取根据与m个空间方向中的每一个相关联的hoa系数计算的em26。效应单元510可随后针对空间方向l=1…m中的每一个执行响度补偿,所述响度补偿应用于em26以生成补偿em26。当描述为m个等距空间点604时,点604也可为非等距的,或换句话说,以非均匀方式围绕球体分布。

就由mpeg-h3d音频编码标准“dis”版本的annexf.1.5所使用的变量来说,当作为一个实例论述响度补偿时,效应单元510可根据与m个空间方向相关联的hoa系数按以下来计算em26:

其中

符号可表示伪逆矩阵操作。

效应单元510可随后执行每一空间方向l=1…m的响度补偿,根据以下将所述响度补偿应用于矩阵f:

其中

效应单元510可随后将ar22中的所选一者(下文由变量“r”表示)乘以em26(上文和下文由变量“f”表示)以生成上文所论述且如下由变量“d”所表示的更新的ar22。

d=rf

当禁用距离依赖型响度调节时,前述可在数学上表示经去除与g|的乘积的距离独立型响度调节,得到以下:

在所有其它方面中,当启用距离独立型响度调节时(或换句话说,当禁用距离依赖型响度调节时),数学表示不变。

以此方式,效应单元510可将em26提供到渲染单元512,所述渲染单元使将hoa音频数据15从球谐域转换到空间域扬声器信号25(其在这类情况下可为将hoa音频数据渲染为双耳音频头戴式耳机扬声器信号的双耳渲染)的音频翻译器22乘以经补偿em26,以创建能够考虑三个自由度和平移头部移动606两者的调适的空间渲染矩阵(其在本文中称作“更新的ar22”)。

在一些情况下,效应单元510可确定多个em26。举例来说,效应单元510可确定第一频率范围的第一em26、第二频率范围的第二em26等。第一em26与第二em26的频率范围可重迭,或可能不重迭(或换句话说,可彼此不同)。如此,本公开中所描述的技术不应受限于单个em26,但应包含多个em26的应用,包含(但不限于)实例多个频率依赖型em26。

如上文所论述,效应单元510还可基于平移距离17和深度映射509来确定em26。位流21可包含与hoa音频数据16相对应的视频数据,其中这类视频数据与hoa音频数据16同步(使用例如帧同步化信息)。虽然未展示于图2到4的实例中,但客户端消费者装置14可包含解码提供视频数据的相应位流的视频播放系统,所述视频数据可包含深度映射,例如深度映射509。深度映射509提供360度虚拟现实场景的灰阶表示,其中黑色表示非常远的距离,且白色表示具有指示黑色与白色之间的中间距离的各种灰度的较近距离。

视频播放系统的视频解码装置可利用深度映射509以根据视频位流中所指定的各别右眼视图或左眼视图来调配左眼或右眼的视图。视频解码装置可基于深度映射来改变右眼视图与左眼视图之间横向距离的量,基于较深灰度按比例将横向距离调整为较小。如此,在深度映射509中以白色或较浅灰度所表示的较近对象可具有左眼与右眼视图之间的较大横向距离,而在深度映射509中以黑色或较深灰度所表示的较远目标可具有左眼与右眼视图之间的较小横向距离(借此更接近类似于远点)。

效应单元510可利用由深度映射509提供的深度信息来调适锚点604相对于用户402的头部的位置。即,效应单元510可将锚点604映射到深度映射509,且利用深度映射509于深度映射509内的所映像位置处的深度信息来标识锚点604中的每一个的更精确参考距离602。图6为说明图4中所示的深度映射已经更新以根据本公开中所描述的技术的各个方面反映锚点与深度映射的映射的图。

就此来说,替代假设单个参考距离602,效应单元510可利用深度映射509来估计锚点604中的每一个的单个参考物距离602。如此,效应单元510可确定相对于锚点604的经单个确定的参考距离602中的每一个的更新距离608。

当描述为参照灰阶深度映射509来执行时,所述技术可参照提供深度信息的其它类型的信息来执行,例如色彩图像、色阶或灰阶立体声图像、红外摄影机图像等。换句话说,所述技术可参照提供与相应hoa音频数据15相关联的场景的深度信息的任何类型的信息来执行。

图7为说明可根据本公开中所描述的技术的各个方面来操作的可穿戴式装置800的实例的图。在各种实例中,可穿戴式装置800可表示vr耳机(例如上述vr耳机400)、ar耳机、mr耳机或扩展现实(xr)耳机。扩增现实“ar”可指重迭于用户实际上所定位的真实世界上的计算机渲染图像或数据。混合现实“mr”可指锁定于真实世界中的特定位置的世界的计算机渲染图像或数据,或可指其中部分计算机渲染3d元素和部分摄影真实元素经组合为仿真用户于环境中的物理存在的身历其境体验的vr的变型。扩展现实“xr”可指vr、ar和mr的统称术语。关于xr的术语的更多信息可发现于杰森·彼得森(jasonpeterson)的标题为“虚拟现实、扩增现实和混合现实定义(virtualreality,augmentedreality,andmixedrealitydefinitions)”且日期为2017年7月7日的文件中。

可穿戴式装置800可表示其它类型的装置,例如手表(包含所谓“智能型手表”)、眼镜(包含所谓“智能型眼镜”)、头戴式耳机(包含所谓“无线头戴式耳机”和“智能型头戴式耳机”)、智能型服饰、智能型珠宝以及其类似物。无论表示vr装置、手表、眼镜和/或头戴式耳机,可穿戴式装置800可与经由有线连接或无线连接来支持可穿戴式装置800的计算装置通信。

在一些情况下,支持可穿戴式装置800的计算装置可经集成于可穿戴式装置800内,且如此,可穿戴式装置800可视为与支持可穿戴式装置800的计算装置相同的装置。在其它情况下,可穿戴式装置800可与能够支持可穿戴式装置800的独立计算装置通信。就此来说,术语“支持”不应理解为需要独立专用装置,而为经配置以执行本公开中所描述的技术的各个方面的一或多个处理器可经集成于可穿戴式装置800内或经集成于与可穿戴式装置800分离的计算装置内。

举例来说,当可穿戴式装置800表示vr装置400时,独立专用计算装置(例如包含一或多个处理器的个人计算机)可渲染音频和视觉内容,而可穿戴式装置800可确定平移头部移动,接着专用计算装置可根据本公开中所描述的技术的各个方面基于平移头部移动来渲染音频内容(作为扬声器馈送)。作为另一实例,当可穿戴式装置800表示智能型眼镜时,可穿戴式装置800可包含确定平移头部移动(通过介接于可穿戴式装置800的一或多个传感器内)并且基于所确定平移头部移动来渲染扬声器馈送的一或多个处理器。

如所展示,可穿戴式装置800包含后部摄影机、一或多个定向扬声器、一或多个跟踪和/或记录摄影机和一或多个发光二极管(led)灯。在一些实例中,led灯可称作“超亮”led灯。另外,可穿戴式装置800包含一或多个眼部跟踪摄影机、高灵敏度音频麦克风和光学/投影硬件。可穿戴式装置800的光学/投影硬件可包含持久半透明显示技术和硬件。

可穿戴式装置800还包含连接硬件,所述连接硬件可表示支持多模式连接的一或多个网络接口,例如4g通信、5g通信等。可穿戴式装置800还包含环境光传感器和骨传导换能器。在一些情况下,可穿戴式装置800还可包含具有鱼眼透镜和/或摄远透镜的一或多个被动和/或主动摄影机。根据本公开的各种技术,本公开例如图2a的内容消费者装置14的各种装置可使用可穿戴式装置800的转向角来选择声场的音频表示(例如moa表示中的一个),从而经由可穿戴式装置800的定向扬声器头戴式耳机404输出。将了解,可穿戴式装置800可渲染多种不同形式因子。

此外,跟踪和记录摄影机以及其它传感器可促进对平移距离606的确定。虽然未展示于图7的实例中,但可穿戴式装置800可包含上文所论述的mems或用于检测平移距离606的其它类型的传感器。

虽然参照穿戴式装置(例如上文参照图3的实例所论述的vr装置400和阐述于图2a和2b的实例中的其它装置)的特定实例来描述,但所属领域的一般技术人员将了解与图2a到3相关的描述可应用于穿戴式装置的其它实例。举例来说,例如智能型眼镜的其它穿戴式装置可包含借以获取平移头部移动的传感器。作为另一实例,例如智能型手表的其它穿戴式装置可包含借以获取平移移动的传感器。如此,本公开中所描述的技术不应受限于特定类型的可穿戴式装置,而为任何可穿戴式装置可经配置以执行本公开中所描述的技术。

图8a和8b为说明可执行本公开中所描述的技术的各个方面的实例系统的图。图8a说明其中源装置12进一步包含摄影机200的实例。摄影机200可经配置以捕获视频数据,且提供所捕获的内容捕获装置300的原始视频数据。内容捕获装置300可将视频数据提供到源装置12的另一组件,以供进一步处理为经视端口分割部分。

在图8a的实例中,内容消费者装置14还包含可穿戴式装置800。将理解,在各种实施方案中,可穿戴式装置800可包含于内容消费者装置14中或经外部耦合到内容消费者装置14。如上文参照图7所论述,可穿戴式装置800包含用于输出视频数据(例如与各种视端口相关联)以及用于渲染音频数据的显示器硬件和扬声器硬件。

除图8a中所展示的音频渲染器22通过能够使用一或多种hrtf或能够渲染左侧和右侧扬声器馈送103的其它函数来执行双耳渲染的双耳渲染器102替换以外,图8b说明由图8a说明的类似实例的实例。音频播放系统16可将左侧和右侧扬声器馈送103输出到头戴式耳机104。

头戴式耳机104可经由有线连接(例如标准3.5mm音频插口、通用系统总线(usb)连接、光学音频插口或其它形式的有线连接)或以无线方式(例如借助于bluetoothtm连接、无线网络连接以及其类似物)耦合到音频播放系统16。头戴式耳机104可基于左侧和右侧扬声器馈送103来重建由hoa系数11表示的声场。头戴式耳机104可包含由相应左侧和右侧扬声器馈送103供电(或换句话说,驱动)的左侧头戴式耳机扬声器和右侧头戴式耳机扬声器。

图9为说明音频播放装置可根据本公开的各个方面执行的实例过程700的流程图。最初,如上文所描述,图2a的音频播放装置16可获取表示与图5的实例中所示的装置14介接的用户的平移头部移动606的平移距离17(702)。

在接收平移距离17之后和在上述方式中,音频播放装置16可基于平移距离17调适hoa音频数据15以提供使声场600适应平移头部移动306的三自由度加(3dof+)效应(704)。再如上文所描述,音频播放装置16可随后基于调适的hoa音频数据511生成扬声器馈送25(706)。音频播放装置16可随后输出扬声器馈送25以供头戴式耳机404播放(708)。

如上文所指出,在将扬声器馈送25输出到头戴式耳机时,音频播放系统16可利用使用头部相关变换函数或其它函数提供双耳渲染的渲染器22中的一个。术语“扬声器”或“换能器”一般可指任何扬声器,包含扩音器、头戴式耳机扬声器等。一或多个扬声器可随后播放渲染的扬声器馈送25。

将认识到,取决于实例,本文中所描述的技术中的任一个的某些动作或事件可以不同次序经执行、可经添加、合并或完全省去(例如并非全部所描述动作或事件均为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非依序执移动作或事件。

在一些实例中,vr装置(或流传输装置)可使用耦合到vr/流传输装置的存储器的网络接口将交换消息传送到外部装置,其中交换消息与声场的多个可用表示相关联。在一些实例中,vr装置可使用耦合到网络接口的天线来接收包含数据包、音频包、视频包的无线信号,或传输与声场的多个可用表示相关联的协议数据。在一些实例中,一或多个麦克风数组可捕获声场。

在一些实例中,存储到存储器装置的声场的多个可用表示可包含声场的多个基于对象的表示、声场的高阶立体混响表示、声场的混合阶数立体混响表示、声场的基于对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混合阶数立体混响表示的组合,或声场的混合阶数表示与声场的高阶立体混响表示的组合。

在一些实例中,声场的多个可用表示的声场表示中的一或多个可包含至少一个高分辨率区域和至少一个较低分辨率区域,且其中基于转向角的所选呈现针对至少一个高分辨率区域提供较大空间精确度且针对较低分辨率区域提供较小空间精确度。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或于计算机可读媒体上传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体或通信媒体,所述计算机可读存储媒体与例如数据存储媒体的有形媒体相对应,所述通信媒体包含例如根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可与(1)作为非暂时性的有形计算机可读存储媒体相对应,或与(2)例如信号或载波的通信媒体相对应。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本公开中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

通过实例而非限制,这类计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用以存储呈指令或数据结构形式的所需代码且可由计算机存取的任何其它媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(dsl)或例如红外线、无线电和微波的无线技术从网站、服务器或其它远程源来传输指令,那么同轴缆线、光纤缆线、双绞线、dsl或例如红外线、无线电和微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为关于非暂时性有形存储媒体。如本文中所使用,盘片和光盘包含紧密光盘(cd)、激光光盘、光学光盘、数字激光视盘(dvd)、软盘和蓝光光盘,其中盘片通常以磁性方式重现数据,而光盘通过激光以光学方式重现数据。以上的组合还应包含于计算机可读媒体的范围内。

指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(dsp)、通用微处理器、特殊应用集成电路(asic)、场可程序化门阵列(fpga)或其它等效的积体或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能可提供于经配置以供编码和解码或并入于经组合编解码器中的专用硬件和/或软件模块内。此外,所述技术可完全实施于一或多个电路或逻辑组件中。

本公开的技术可实施于包含无线手持机、集成电路(ic)或ic集合(例如芯片集合)的广泛多种装置或装置中。在本公开中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能方面,但未必要求由不同硬件单元来实现。相反,如上文所描述,各种单元可经组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合结合合适的软件和/或固件来提供。

各种实例已予以描述。这些和其它实例在以下权利要求书的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1