用于音频渲染的隐私限制的制作方法

文档序号:28812324发布日期:2022-02-09 04:28阅读:111来源:国知局
用于音频渲染的隐私限制的制作方法
用于音频渲染的隐私限制
1.本技术要求于2020年7月1日提交的美国申请第16/918,297号的优先权,该申请要求于2019年7月3日提交的美国临时申请第62/870,473号的权益,其通过引用整体并入本文。
技术领域
2.本公开涉及媒体数据(比如音频数据)的处理。


背景技术:

3.计算机为媒介的现实系统正在被开发以允许计算设备对用户体验的现有现实增强或添加、从用户体验的现有现实中移除或减去,或者总体上修改用户体验的现有现实。计算机为媒介的现实系统(其也可以被称为“扩展现实系统”或“xr系统”)可以包括例如,虚拟现实(vr)系统、增强现实(ar)系统和混合现实(mr)系统。计算机为媒介的现实系统的感知到的成功总体上涉及这样的计算机为媒介的现实系统在视频和音频体验两方面提供真实的沉浸式体验的能力,其中视频和音频体验符合用户期望的形式。尽管人类视觉系统比人类听觉系统更敏感(例如,在场景内的各种对象的感知定位方面),但是确保足够的听觉体验是确保逼真的沉浸体验的越来越重要的因素,特别是随着视频体验改进以允许视频对象的更好定位,这使得用户能够更好地识别音频内容源。


技术实现要素:

4.本公开总体上涉及计算机为媒介的现实系统的用户体验的听觉方面,包括虚拟现实(vr)、混合现实(mr)、增强现实(ar)、计算机视觉和图形系统。该技术的各个方面可以为用户提供对扩展现实系统的声学空间的音频渲染的控制。如本文所使用的,声学环境表示为室内环境或室外环境,或者室内环境和室外环境。声学环境可以包括一个或多个子声学空间,其可以包括各种声学元素。例如,子声学空间可以是房间、房间或建筑物内的区域、交通工具的舱室、教室、教室内的区域,或任何类型的声学空间的任何子集。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例,并且可以是室内空间或室外空间。如本文所使用,音频元素可为由麦克风捕获的声音(例如,直接从近场源捕获或来自真实或合成的远场源的反射)、由麦克风阵列捕获的声音、先前合成的声场、从文本到语音合成的单声道声音,和/或来自声学环境中的对象的虚拟声音的反射。
5.当渲染具有可从实况场景的音频元素获得的许多音频源的xr场景(例如,六自由度(6dof)xr场景)时,某些音频元素或音频元素聚类可能包括敏感信息和/或可能意图用于受限或独占访问。根据本公开的技术,音频回放设备(例如,vr或xr设备)可以被配置为根据指示多个音频流中的一者或多者是受限的还是不受限的隐私限制来确定一个或多个音频流。
6.隐私限制可以嵌入在音频流中的信息中和/或可以在伴随音频流的元数据中传输。音频回放设备然后可以基于隐私限制生成对应声场,包括限制被指示为受限的某些音
频流的回放。隐私限制也可以应用于单独的音频元素和/或音频元素聚类。在一些示例中,可以对隐私限制进行分级。本公开的技术允许对可在vr/xr场景中回放的音频流进行灵活且精细粒度的控制。本公开的技术还可减少带宽消耗。
7.在一个示例中,本公开描述了被配置为处理一个或多个音频流的设备,该设备包括被配置为存储一个或多个音频流的存储器,以及耦合到该存储器的一个或多个处理器,并被配置为从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流,该一个或多个音频流中的每一者表示相应声场,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流,生成不受限音频流的对应的相应声场,以及限制受限音频流的对应的相应声场的回放。
8.在另一个示例中,本公开描述了处理一个或多个音频流的方法,该方法包括:从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流,该一个或多个音频流中的每一者表示相应声场,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流,生成不受限音频流的对应的相应声场,以及限制受限音频流的对应的相应声场的回放。
9.在另一个示例中,本公开描述了存储指令的非暂时性计算机可读介质,该指令在执行时使设备的一个或多个处理器被配置为处理一个或多个音频流,从而:从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流,该一个或多个音频流中的每一者表示相应声场,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流,生成不受限音频流的对应的相应声场,以及限制受限音频流的对应的相应声场的回放。
10.在另一个示例中,本公开描述了被配置为处理一个或多个音频流的装置,该装置包括:用于从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流的部件,一个或多个音频流中的每一者表示相应声场;用于基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流的部件;用于基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流的部件;用于生成不受限音频流的对应的相应声场的部件;以及用于限制受限音频流的对应的相应声场的回放的部件。
11.在附图和以下描述中阐述本公开的一个或多个示例的细节。根据说明书和附图以及根据权利要求书,该技术的各个方面的其他特征、目的和优点将显而易见。
附图说明
12.图1a和1b是图示可执行本公开中所描述的技术的各个方面的系统的示图。
13.图2是图示由用户穿戴的vr设备的示例的示图。
14.图3a-3d是更详细地图示图1a的示例中所示的流选择单元的示例性操作的示图。
15.图4a-4e是图示由图1a和1b的示例中所示的源设备和/或内容消费者设备执行的隐私限制的示例性操作的示图。
16.图5是图示可根据本公开中描述的技术的各方面操作的可穿戴设备的示例的示图。
17.图6a和6b是图示可执行本公开中描述的技术的各方面的其他示例系统的示图。
18.图7是图示图1的示例中所示的源设备和内容消费者设备中的一者或多者的示例性组件的框图。
19.图8a-8c是图示图1a和1b的示例中所示的流选择单元在执行流选择技术的各个方面时的示例性操作的流程图。
20.图9是图示用于使用本公开的技术基于隐私限制来处理一个或多个音频流的示例性过程的流程图。
21.图10图示了根据本公开的各方面的支持隐私限制的无线通信系统的示例。
具体实施方式
22.表示声场的方式多种多样。示例性格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道定位到收听者周围的特定位置以便重建声场的任何其他基于声道的格式。
23.基于对象的音频格式可以指这样的格式,其中指定通常使用脉冲编解码调制(pcm)编码并且被称为pcm音频对象的音频对象以便表示声场。这样的音频对象可以包括元数据,该元数据标识音频对象相对于收听者或声场中的其他参考点的位置,使得音频对象可以被渲染到一个或多个扬声器声道以供回放,以重建声场。本公开中所描述的技术可应用于前述格式中的任一者,包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任意组合。
24.基于场景的音频格式可以包括在三维中定义声场的元素的分层集。元素的分层集的一个示例是球谐系数(shc)集。以下表达式展示了使用shc的声场的描述或表示:
[0025][0026]
该表达式示出了在时间t的声场的任意点处的压力pi可以由shc,唯一地表示。这里,c是声速(~343m/s),是参考点(或观测点),jn(
·
)是n阶的球面贝塞尔函数,并且是n阶和m阶的球面谐波基函数(也可以称为球面基函数)。可以认识到,方括号中的项是信号(即,)的频域表示,其可以通过各种时间-频率变换来近似,例如,离散傅立叶变换(dft)、离散余弦变换(dct)或小波变换。分层集的其他示例包括小波变换系数集和多分辨率基函数的其他系数集。
[0027]
shc可由各种麦克风阵列配置物理地获取(例如,记录),或替代地,其可从声场的基于声道或基于对象的描述导出。shc(其也可称为高保真度立体声响系数(ambisonic coeffiecient))表示基于场景的音频,其中可将shc输入到音频编码器以获得
可促进更高效传输或存储的经编码的shc。例如,可以使用涉及(1+4)2(25,因此是四阶)系数的四阶表示。
[0028]
如上所述,shc可以从使用麦克风阵列的麦克风记录导出。在以下中描述了如何从麦克风阵列物理地获取shc的各种示例:poletti,m.的“three-dimensional surround sound systems based on spherical harmonics”,j.audio eng.soc.,第53卷,第11期,2005年11月,第1004-1025页。
[0029]
以下等式可说明shc可如何从基于对象的描述导出。对应于单个音频对象的声场的系数可以表示为:
[0030][0031]
其中i是是(第二类的)n阶球形hankel函数,以及是对象的位置。知道作为频率的函数的对象源能量g(ω)(例如,使用时间-频率分析技术,比如对脉码调制-pcm-流执行快速傅立叶变换)可以使得能够将每个pcm对象和对应位置转换为shc。此外,可以看出(由于以上是线性和正交分解)每个对象的系数是加性的。以这种方式,多个pcm对象可以由系数表示(例如,作为各个对象的系数矢量的和)。这些系数可以包括针对声场的信息(作为3d坐标的函数的压力),并且以上表示在观察点附近从单个对象到整个声场的表示的变换。
[0032]
正在开发计算机为媒介的现实系统(也可称为“扩展现实系统”或“xr系统”),以利用高保真度立体声响系数所提供的许多潜在益处。例如,高保真度立体声响系数可以以潜在地能够实现声场内声源的精确三维(3d)定位的方式表示三维声场。这样,xr设备可以将高保真度立体声响系数渲染到扬声器馈入,当通过一个或多个扬声器播放时,扬声器馈入精确地重现声场。
[0033]
作为另一个示例,高保真度立体声响系数可被转换(例如,旋转)以考虑用户移动而无需过度复杂的数学运算,从而潜在地适应xr的低等待时间要求。此外,高保真度立体声响系数为阶层式,且借此通过阶次减少(其可消除与较高阶次相关联的高保真度立体声响系数)而自然地适应可缩放性,且借此潜在地实现声场的动态调适以适应xr设备的等待时间及/或电池要求。
[0034]
将高保真度立体声响系数用于xr可实现依赖于由高保真度立体声响系数提供的更沉浸式声场的许多使用情况的开发,尤其是用于计算机游戏应用程序及实况视频串流应用程序。在依赖于声场的低等待时间重现的这些高度动态使用情况中,xr设备可相对于更难以操纵或涉及复杂渲染的其他表示而优选高保真度立体声响系数。下面参考图1a和1b提供针对这些使用情况的更多信息。
[0035]
虽然在本公开中针对vr设备进行了描述,但是可以在比如移动设备的其他设备的上下文中执行该技术的各个方面。在这种情况下,移动设备(比如所谓的智能电话)可以经由屏幕呈现所显示的世界,该屏幕可以被安装到用户1102的头部,或者如在正常使用移动设备时所进行的那样被观看。这样,屏幕上的任何信息可以是移动设备的一部分。移动设备能够提供跟踪信息41,从而允许vr体验(当头戴式时)和正常体验来观看所显示的世界,其
中正常体验仍可以允许用户观看所显示的世界,从而提供vr-lite类型的体验(例如,拿起设备并旋转或平移设备来观看所显示的世界的不同部分)。
[0036]
本公开总体上涉及计算机为媒介的现实系统的用户体验的听觉方面,包括虚拟现实(vr)、混合现实(mr)、增强现实(ar)、计算机视觉和图形系统。该技术的各个方面可以为用户提供对扩展现实系统的声学空间的音频渲染的控制。如本文所使用的,声学环境表示为室内环境或室外环境,或者室内环境和室外环境两者。声学环境可以包括一个或多个子声学空间,其可以包括各种声学元素。例如,子声学空间可以是房间、房间或建筑物内的区域、交通工具的舱室、教室、教室内的区域,或任何类型的声学空间的任何子集。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例,并且可以是室内空间或室外空间。如本文所使用,音频元素可为由麦克风捕获的声音(例如,直接从近场源捕获或来自真实或合成的远场源的反射)、由麦克风阵列捕获的声音、先前合成的声场、从文本到语音合成的单声道声音,和/或来自声学环境中的对象的虚拟声音的反射。
[0037]
当渲染具有可从实况场景的音频元素获得的许多音频源的xr场景(例如,六自由度(6dof)xr场景)时,某些音频元素或音频元素聚类可包括敏感信息和/或可能用于受限或独占访问。根据本公开的技术,音频回放设备(例如,vr或xr设备)可以被配置为由指示多个音频流中的一者或多者受限还是不受限的隐私限制来确定一个或多个音频流。
[0038]
隐私限制可以嵌入在音频流中的信息中和/或可以在伴随音频流的元数据中传输。音频回放设备然后可以基于隐私限制生成对应声场,包括限制被指示为受限的某些音频流的回放。隐私限制也可以应用于单独的音频元素和/或音频元素聚类。在一些示例中,可以对隐私限制进行分级。本公开的技术允许对可在vr/xr场景中回放的音频流进行灵活且精细粒度的控制。本公开的技术还可减少带宽消耗。
[0039]
图1a和1b是图示可执行本公开中所描述的技术的各个方面的系统的示图。如图1a的示例所示,系统10包括源设备12和内容消费者设备14。虽然在源设备12和内容消费者设备14的上下文中进行了描述,但是这些技术可以在其中对声场的任何表示进行编码以形成表示音频数据的比特流的任何上下文中实现。此外,源设备12可以表示能够生成声场表示的任何形式的计算设备,并且在此通常在作为vr内容创建者设备的上下文中进行描述。同样地,内容消费者设备14可以表示能够实现本公开中所描述的渲染元数据技术以及音频回放的任何形式的计算设备,并且通常在作为vr客户端设备的上下文中进行描述。
[0040]
源设备12可以由娱乐公司或其他实体来操作,该娱乐公司或其他实体可以生成多声道音频内容以供内容消费者设备(比如内容消费者设备14)的操作者消费。在一些vr场景中,源设备12结合视频内容生成音频内容。源设备12包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18相接或以其他方式通信。
[0041]
麦克风18可表示能够捕获声场且将声场表示为音频数据19的或其他类型的3d音频麦克风,该音频数据可指代上文所提及的基于场景的音频数据(比如高保真度立体声响系数)、基于对象的音频数据和基于声道的音频数据中的一者或多者。尽管被描述为3d音频麦克风,但是麦克风18还可以表示被配置为捕获音频数据19的其他类型的麦克风(比如全向麦克风、点麦克风、单向麦克风等)。
[0042]
在一些示例中,内容捕获设备20可以包括集成到内容捕获设备20的外壳中的集成麦克风18。内容捕获设备20可无线地或经由有线连接与麦克风18相接。不是经由麦克风18
捕捉或结合捕捉音频数据19,内容捕捉设备20可在经由某种类型的可移动存储、无线地和/或经由有线输入过程输入音频数据19之后处理音频数据19。因此,根据本公开,内容捕获设备20和麦克风18的各种组合是可能的。
[0043]
内容捕获设备20还可以被配置为与内容编辑设备22相接或以其他方式通信。在一些情况下,内容捕获设备20可包括内容编辑设备22(其在一些情况下可表示软件或软件与硬件的组合,包括由内容捕获设备20执行以将内容捕获设备20被配置为执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其他方式改变从内容捕获设备20接收的包括音频数据19的内容21的单元。内容编辑设备22可以将经编辑的内容23和相关联的元数据25输出到声场表示生成器24。
[0044]
声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)相接的任何类型的硬件设备。尽管在图1a的示例中未示出,声场表示生成器24可以使用由内容编辑设备22提供的包括音频数据19和元数据25的编辑内容23来生成一个或多个比特流27。在图1a的关注于音频数据19的示例中,声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示,以获得包括声场表示和音频元数据25的比特流27。
[0045]
举例来说,为了使用高保真度立体声响系数(其再次为音频数据19的一个示例)生成声场的不同表示,声场表示生成器24可使用用于声场的高保真度立体声响表示的编解码方案,其被称为混合阶高保真度立体声响(moa),如在以下中详细描述的:于2017年8月8日提交的标题为“mixed-order ambisonics(moa)audio data fo computer-mediated reality systems”美国申请序列号15/672,058(于2019年1月3日公开为美国专利公开号20190007781)。
[0046]
为了生成声场的特定moa表示,声场表示生成器24可生成高保真度立体声响系数的完整集合的部分子集。举例来说,由声场表示生成器24生成的每一moa表示可提供针对声场的一些区域的精度,但在其他区域中精度较低。在一个示例中,声场的moa表示可包括八(8)个未经压缩的高保真度立体声响系数,而同一声场的三阶高保真度立体声响表示可包括十六(16)个未经压缩的高保真度立体声响系数。这样,作为高保真度立体声响系数的部分子集生成的声场的每个moa表示可以比从高保真度立体声响系数生成的相同声场的对应三阶高保真度立体声响表示具有更低的存储密集度和更低的带宽密集度(如果并且当作为比特流27的一部分在所图示的传输信道上传输时)。
[0047]
虽然针对moa表示来描述,但本公开的技术也可针对一阶高保真度立体声响(foa)表示来执行,其中使用与一阶球面基函数和零阶球面基函数相关联的所有高保真度立体声响系数来表示声场。换句话说,不是使用高保真度立体声响系数的部分非零子集来表示声场,而是声场表示生成器24可以使用给定阶数n的所有高保真度立体声响系数来表示声场,导致高保真度立体声响系数的总和等于(n+1)2。
[0048]
在此方面,该高保真度立体声响音频数据(其为指代moa表示或全阶表示(例如,上文所述的一阶表示)中的高保真度立体声响系数的另一方式)可包括与具有一或更小阶的球形基函数相关联的高保真度立体声响系数(其可被称作“1阶高保真度立体声响音频数据”)、与具有混合阶和子阶的球形基函数相关联的高保真度立体声响系数(其可被称作上文所论述的“moa表示”)或与具有大于一阶的球形基函数相关联的高保真度立体声响系数(其上文被称作“全阶表示”)。
[0049]
在一些示例中,内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24进行无线通信。在一些示例中,内容捕获设备20或内容编辑设备22可经由无线连接或有线连接中的一个或两个与声场表示生成器24通信。经由内容捕获设备20与声场表示产生器24之间的连接,内容捕获设备20可提供各种形式的内容,出于论述的目的,本文将所述内容描述为音频数据19的部分。
[0050]
在一些示例中,内容捕获设备20可以利用声场表示生成器24的各个方面(在声场表示生成器24的硬件或软件能力方面)。例如,声场表示产生器24可包括被配置为执行心理声学音频编码(比如由运动图像专家组(mpeg)、mpeg-h 3d音频编码标准、mpeg-i沉浸式音频标准或专有标准阐述的表示为“usac”的统一语音和音频编码器)(或当被执行时使得一个或多个处理器执行心理声学音频编码的专用软件,该专有标准为比如aptx
tm
(包括各种版本的aptx,比如增强型aptx-e-aptx、aptx live、aptx立体声和aptx高清晰度-aptx-hd)、高级音频编解码(aac)、音频编解码器3(ac-3)、apple音频无损编解码器(alac)、mpeg-4音频流(als)、增强型ac-3、自由无损音频编解码器(flac)、monkey’s audio、mpeg-1audio layer ii(mp2)、mpeg-1audio layer iii(mp3)、opus和媒体音频(wma)。
[0051]
内容捕获设备20可以不包括心理声学音频编码器专用硬件或专用软件,而是可以以非心理声学音频编解码形式提供内容21的音频方面。声场表示生成器24可以至少部分地通过执行针对内容21的音频方面的心理声学音频编码来帮助捕获内容21。
[0052]
声场表示生成器24还可以通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如,moa表示和/或三阶高保真度立体声响表示)生成一个或多个比特流27来辅助内容捕获和传输。比特流27可表示音频数据19和任何其他不同类型的内容21的压缩版本(比如球形视频数据、图像数据或文本数据的压缩版本)。
[0053]
作为一个示例,声场表示生成器24可以生成比特流27,用于通过传输信道传输,该传输信道可以是有线或无线信道、数据存储设备等。比特流27可以表示音频数据19的经编码的版本,并且可以包括主比特流和另一个侧比特流,其可以被称为侧信道信息或元数据。在一些情况下,表示音频数据19的压缩版本的比特流27(其再次可以表示基于场景的音频数据、基于对象的音频数据、基于声道的音频数据或其组合)可以符合根据mpeg-h 3d音频编码标准和/或mpeg-i沉浸式音频标准产生的比特流。
[0054]
在本公开的一些示例中,源设备12可以被配置为生成多个音频流以传输到内容消费者设备14。源设备12可以被配置为生成单个内容捕获设备20和/或聚类(例如,多个)内容捕获设备20的多个音频流中的每一者。在一些使用情况下,可能希望能够控制由源设备12生成的多个音频流中的哪些可用于由内容消费者设备14回放。
[0055]
例如,来自内容捕获设备20中的某些捕获设备的音频可以包括敏感信息和/或来自内容捕获设备20的某些捕获设备的音频可以不是意图用于独占访问(例如,由所有用户不受限访问)。在一些示例中,可能期望基于由内容捕获设备20捕获的信息的类型和/或基于内容捕获设备20所在的物理区域的位置来限制对来自内容捕获设备20的某些捕获设备的音频的访问。
[0056]
根据本公开的示例性技术,源设备12还可以包括控制器31,其被配置为生成隐私限制(例如,在音频元数据中),该隐私限制指示针对由源设备12生成的多个音频流中的一
者或多者的侧信道33中的隐私限制(隐私限制元数据)。在其他示例中,控制器31可以在音频流内的数据中嵌入隐私限制。在一个示例中,隐私限制指示多个音频流中的一者或多者是受限的还是不受限的。在其他示例中,控制器31可仅生成指示是否限制音频流的隐私限制。在该示例中,内容消费者设备14可以推断没有与指示受限音频流的隐私限制相关联的音频流是不受限的。内容消费者设备14可接收隐私限制并基于隐私限制确定可用于解码和/或回放的一个或多个音频流。内容消费者设备14可以基于所确定的一个或多个音频流来生成对应声场。
[0057]
在图1a的示例中,控制器31在侧信道33中将隐私限制作为元数据传输。在其他示例中,控制器31可以将隐私限制作为元数据在比特流27中传输。在其他示例中,控制器31可以将隐私限制嵌入到比特流中的音频流中的数据中。例如,控制器31可将隐私限制嵌入音频样本的几个比特(例如,最低有效位)或高保真度立体声响系数的部分中(例如,前12或13个比特可表示高保真度立体声响系数,且后3或4个比特可为隐私限制)。在一些示例中,控制器31不需要是单独的物理单元。相反,控制器31可以集成到内容编辑设备22或声场表示生成器24中。
[0058]
内容消费者设备14可以由个人操作,并且可以表示vr客户端设备。尽管针对vr客户端设备进行了描述,但是内容消费者设备14可以表示其他类型的设备,比如增强现实(ar)客户端设备、混合现实(mr)客户端设备(或其他xr客户端设备)、标准计算机、头戴式受话器、头戴式耳机、移动设备(包括所谓的智能电话)或能够跟踪操作内容消费者设备14的个人的头部移动和/或通常平移移动的任何其他设备。如图1a的示例所示,内容消费者设备14包括音频回放系统16a,其可以指能够将用于回放的音频数据渲染为多声道音频内容的任何形式的音频回放系统。
[0059]
虽然在图1a中被示为被直接传输到内容消费者设备14,但是源设备12可以将比特流27输出到位于源设备12和内容消费者设备14之间的中间设备。该中间设备可存储比特流27以供稍后传递到可请求比特流27的内容消费者设备14。中间设备可包括文件服务器、网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供音频解码器稍后取回的任何其他设备。中间设备可以驻留在内容传递网络中,该内容传递网络能够将比特流27串流(并且可能与传输对应视频数据比特流相结合)到请求比特流27的订户,比如内容消费者设备14。
[0060]
替代地,源设备12可以将比特流27存储到存储介质,比如光盘、数字视频盘、高清晰度视频盘或其他存储介质,其大部分能够由计算机读取,并且因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在此上下文中,传输信道可指代用以传输存储到媒体的内容(例如,呈一个或多个比特流27的形式)的渠道(且可包括零售店和其他基于商店的递送机制)。在任何情况下,本公开的技术因此不应在这方面限于图1a的示例。
[0061]
如上所述,内容消费者设备14包括音频回放系统16a。音频回放系统16a可以表示能够回放多声道音频数据的任何系统。音频回放系统16a可以包括多个不同的渲染器32。渲染器32可以相应提供不同形式的渲染,其中不同形式的渲染可以包括执行矢量基振幅平移(vbap)的各种方式中的一种或多种和/或执行声场合成的各种方式中的一种或多种。如本文所用,“a和/或b”是指“a或b”,或“a和b”两者。
[0062]
音频回放系统16a还可以包括音频解码设备34。音频解码设备34可表示被配置为
解码比特流27以输出音频数据19’(其中撇号可表示音频数据19’由于音频数据19的有损压缩(比如量化)而不同于音频数据19)的设备。再次,音频数据19’可包括基于场景的音频数据,其在一些示例中可形成完整的第一(或较高)阶高保真度立体声响表示或其子集,该子集形成相同声场的moa表示、其分解,比如主要音频信号、环境高保真度立体声响系数和mpeg-h 3d音频编解码标准中描述的基于矢量的信号,或其他形式的基于场景的音频数据。
[0063]
其他形式的基于场景的音频数据包括根据hoa(高阶高保真度立体声响)传输格式(htf)定义的音频数据。针对htf的更多信息可以在2018年6月(2018-06)的欧洲电信标准协会(etsi)标题为“higher order ambisonics(hoa)transport format”etsi ts 103 589v1.1.1的技术规范(ts)中找到,也可以在2018年12月20日提交的标题为“priority information for higher order ambisonic audio data”的美国专利公开号2019/0918028中找到。在任何情况下,音频数据19’可相似于音频数据19’的完整集合或部分子集,但可由于有损操作(例如,量化)和/或经由传输信道的传输而不同。
[0064]
作为基于场景的音频数据的替代或与基于场景的音频数据结合,该音频数据19’可以包括基于声道的音频数据。该音频数据19’可以包括基于对象的音频数据,作为基于场景的音频数据的替代或与基于场景的音频数据结合。这样,音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于声道的音频数据的任意组合。
[0065]
在音频解码设备34已解码比特流27以获得音频数据19’之后,音频回放系统16a的音频渲染器32可将音频数据19’渲染到输出扬声器馈入35。扬声器馈入35可以驱动一个或多个扬声器(为了便于说明,在图1a的示例中没有示出)。可以以多种方式归一化声场的包括基于场景的音频数据(以及可能的基于声道的音频数据和/或基于对象的音频数据)的各种音频表示,包括n3d、sn3d、fuma、n2d或sn2d。
[0066]
为了选择适当的渲染器或者在一些情况下生成适当的渲染器,音频回放系统16a可以获得指示扬声器(例如,扬声器或头戴式耳机扬声器)的数目和/或扬声器的空间几何形状的扬声器信息37。在一些情况下,音频回放系统16a可以使用参考麦克风来获得扬声器信息37,并且可以以动态地确定扬声器信息37的方式来驱动扬声器(其可以指输出电信号以使换能器振动)。在其他情况下,或者结合扬声器信息37的动态确定,音频回放系统16a可以提示用户与音频回放系统16a交互并输入扬声器信息37。
[0067]
音频回放系统16a可以基于扬声器信息37选择音频渲染器32之一。在一些情况下,当音频渲染器32中没有一个在与扬声器信息37中指定的扬声器几何形状的某一阈值相似性度量(就扬声器几何形状而言)内时,音频回放系统16a可基于扬声器信息37生成音频渲染器32中的所述一者。在一些情况下,音频回放系统16a可以基于扬声器信息37生成音频渲染器32中的一个,而无需首先尝试选择音频渲染器32中的现有的一个。
[0068]
当将扬声器馈入35输出到头戴式耳机时,音频回放系统16a可利用渲染器32中的一个渲染器,其使用头部相关传递函数(hrtf)或能够渲染到左和右扬声器馈入35以用于头戴式耳机扬声器回放的其他函数来提供双耳渲染,比如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指任何扬声器,包括扩音器、头戴式耳机扬声器、骨传导扬声器、耳塞扬声器、无线头戴式耳机扬声器等。一个或多个扬声器可接着回放经渲染的扬声器馈入35以重现声场。
[0069]
尽管被描述为从音频数据19’渲染扬声器馈入35,但对扬声器馈入(例如,音频数
据19’)的渲染的参考可指代其他类型的渲染,比如直接并入到来自比特流27的来自扬声器馈入35的音频数据的解码中的渲染。在mpeg-h3d音频标准的附录g中可以找到替代的渲染的示例,其中渲染发生在声场合成之前的主要信号形成和背景信号形成期间。因此,对音频数据19’的渲染的参考应被理解为指代实际音频数据19’的渲染或音频数据19’的分解或其表示(例如,上文提到的主要音频信号、环境高保真度立体声响系数和/或基于矢量的信号,其也可被称为v矢量或多维高保真度立体声响空间矢量)两者。
[0070]
音频回放系统16a还可以基于跟踪信息41来适配音频渲染器32。即,音频回放系统16a可以与跟踪设备40相接,该跟踪设备40被配置为跟踪vr设备的用户的头部运动和可能的平移运动。跟踪设备40可表示一个或多个传感器(例如,相机-包括深度相机、陀螺仪、磁力计、加速计、发光二极管-led等),其配置成跟踪vr设备的用户的头部运动以及可能的平移运动。音频回放系统16a可基于跟踪信息41调适音频渲染器32,使得扬声器馈入35反映用户的头部的改变和可能的平移移动,以校正重现响应于此些移动的声场。
[0071]
如上所述,内容消费者设备14可以表示vr设备,其中人类可穿戴显示器(也可以称为“头戴式显示器”)安装在操作vr设备的用户的眼睛的前面。图2是图示由用户1102穿戴的vr设备1100的示例的示图。vr设备1100耦合到头戴式耳机1104,或者包括头戴式耳机1104,该头戴式耳机1104可以通过扬声器馈入35的回放来重现由音频数据19’表示的声场。扬声器馈入35可以表示能够使头戴式耳机1104的换能器内的膜以各种频率振动的模拟或数字信号,其中这种处理通常被称为驱动头戴式耳机1104。
[0072]
视频、音频和其他感觉数据可在vr体验中起重要作用。为了参与vr体验,用户1102可以穿戴vr设备1100(其也可称为vr头戴式受话器1100)或其他可穿戴电子设备。vr客户端设备(比如vr头戴式受话器1100)可以包括跟踪设备(例如,跟踪设备40),其被配置为跟踪用户1102的头部移动,并且调整经由vr头戴式受话器1100示出的视频数据以考虑头部移动,从而提供沉浸式体验,其中用户1102可以体验视频数据中以视觉三维示出的所显示的世界。所显示的世界可以指虚拟世界(其中模拟了整个世界)、增强世界(其中通过虚拟对象来增强世界的各部分),或物理世界(其中虚拟地导航现实世界图像)。
[0073]
虽然vr(以及其他形式的xr、ar和/或mr)可以允许用户1102可视地驻留在虚拟世界中,但是vr头戴式受话器1100通常可能缺乏可听地将用户放置在所显示的世界中的能力。换句话说,vr系统(其可以包括负责渲染视频数据和音频数据的计算机,为了便于说明,在图2的示例中未示出,以及vr头戴式受话器1100)可能不能支持可听地(并且在一些情况下,以反映经由vr头戴式受话器1100呈现给用户的显示场景的方式逼真地)全三维沉浸。
[0074]
虽然在本公开中针对vr设备进行了描述,但是可以在比如移动设备的其他设备的上下文中执行该技术的各个方面。在这种情况下,移动设备(比如所谓的智能电话)可以经由屏幕呈现所显示的世界,该屏幕可以被安装到用户1102的头部,或者如在正常使用移动设备时所进行的那样被观看。这样,屏幕上的任何信息可以是移动设备的一部分。移动设备能够提供跟踪信息41,从而允许vr体验(当头戴时)和正常体验来观看所显示的世界,其中正常体验仍可以允许用户观看所显示的世界,从而提供vr-lite类型的体验(例如,拿起设备并旋转或平移设备来观看所显示的世界的不同部分)。
[0075]
在任何情况下,回到vr设备的环境,vr的音频方面已经被分类为三种独立的沉浸类别。第一类提供最低的沉浸级别,并且被称为三个自由度(3dof)。3dof指的是考虑头部在
三个自由度(偏转(yaw)、俯仰(pitch)和滚转(roll))上的移动的音频渲染,由此允许用户在任何方向上自由地环顾。然而,3dof不能解释其中头部不以声场的光学和声学中心为中心的平移头部运动。
[0076]
第二类,称为3dof加(3dof+),除了由于头部在声场内远离光学中心和声学中心的移动而导致的有限的空间平移移动之外,还提供了三个自由度(偏转、俯仰和滚转)。3dof+可以为比如运动视差的感知效果提供支持,这可以增强沉浸。
[0077]
第三类,称为六个自由度(6dof),以考虑头部移动(偏转、俯仰和翻滚)方面的三个自由度并且还考虑用户在空间中的平移(x、y和z平移)的方式来渲染音频数据。可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器来引入空间平移。
[0078]
3dof渲染是vr的音频方面的当前技术级别。这样,vr的音频方面比视频方面更不沉浸,从而潜在地减少了用户体验的整体沉浸。然而,vr迅速转变并且可以迅速发展为支持3dof+和6dof,这可能暴露额外使用情况的时机。
[0079]
例如,交互式游戏应用可以利用6dof来促进完全沉浸式游戏,其中用户自己在vr世界内移动并且可以通过走到虚拟对象来与虚拟对象交互。此外,交互式实况流传输应用可以利用6dof来允许vr客户端设备体验音乐会或体育赛事的实况流,就像在音乐会本身处存在一样,从而允许用户在音乐会或体育赛事内移动。
[0080]
存在与这些使用情况相关联的多种困难。在完全沉浸式游戏的情况下,可能需要保持低等待时间以便玩游戏而不导致恶心或晕动病。此外,从音频角度来看,导致与视频数据失去同步的音频回放中的等待时间可减少沉浸。此外,对于某些类型的游戏应用,空间准确度对于允许准确的响应可能是重要的,包括针对用户如何感知声音,因为这允许用户预期当前不在视野中的动作。
[0081]
在实况串流应用的上下文中,大量源设备12可以串流内容21,其中源设备12可以具有广泛不同的能力。例如,一个源设备可以是具有数字固定镜头相机和一个或多个麦克风的智能电话,而另一个源设备可以是能够获得比智能电话高得多的分辨率和质量的视频的产品级电视设备。然而,在实况串流应用的上下文中,所有源设备可提供变化质量的流,vr设备可从这些流中尝试选择适当的流来提供预期体验。
[0082]
此外,类似于游戏应用,音频数据中的等待时间使得与视频数据发生同步丢失可以导致更少的沉浸。此外,空间精度也可能是重要的,使得用户可以更好地理解不同音频源的上下文或位置。此外,当用户正在使用相机和麦克风进行实况流传输时,隐私可能成为问题,因为用户可能不希望实况流对公众完全可用。
[0083]
在串流应用(实况的或记录的)的上下文中,可能存在与变化的质量和/或内容等级相关联的大量音频流。音频流可表示任何类型的音频数据,包括基于场景的音频数据(例如,高保真度立体声响音频数据,包括foa音频数据、moa音频数据及/或hoa音频数据)、基于声道的音频数据及基于对象的音频数据。仅选择重建声场的可能大量的音频流中的一个可能不提供确保足够沉浸级别的体验。然而,由于多个音频流之间的不同空间定位,选择多个音频流可能生成干扰,从而潜在地减少了沉浸。
[0084]
根据本公开中所描述的示例性技术,音频解码设备34可适应性地在经由比特流27可用的音频流(其由比特流27表示且因此比特流27可称为“音频流27”)之间进行选择。音频解码设备34可基于作为伴随音频流27的元数据而包括的捕获位置信息(cli)45a在音频流
27的不同音频流之间进行选择,其中捕获位置信息可定义捕获相应音频流27的麦克风在所显示的世界中的捕获坐标。cli 45a可以表示在所显示的世界中捕获音频流27的对应一个的捕获位置。音频解码设备34可基于cli 45a选择音频流27的子集,其中音频流27的子集排除音频流27中的至少一者。音频解码设备34可输出音频流27的子集作为音频数据19’(其也可称为“音频流19
’”
)。本公开的适应性音频流选择技术可与下文描述的任何隐私限制技术一起使用。
[0085]
此外,音频解码设备34可获得跟踪信息41,内容消费者设备14可将其转换成虚拟位置信息(vli)45b。vli 45b可以表示内容消费者设备14在所显示的世界中的虚拟位置,其可以被定义为所显示的世界中的一个或多个设备坐标。内容消费者设备15可向音频解码设备34提供vli 45b。音频解码设备34接着可基于cli 45a和vli 45b从音频流27选择音频流19’。音频回放系统16a然后可以基于音频流19’重现对应声场。
[0086]
在此方面,音频解码设备34可适应性地选择音频流27的子集以获得可导致更沉浸体验的音频流19’(与选择单个音频流或所有音频流19’相比)。因此,本公开中所描述的技术的各种方面可通过可能使音频解码设备34能够更好地空间化声场内的声源且借此改进沉浸而改进音频解码设备34(以及音频回放系统16a和内容消费者设备14)本身的操作。
[0087]
在操作中,音频解码设备34可与一个或多个源设备12相接以确定音频流27中的每一者的cli 45a。如图1a的示例中所示,音频解码设备34可包括流选择单元44,其可表示被配置为执行本公开中所描述的音频流选择技术的各种方面的单元。
[0088]
流选择单元44可以基于cli 45a生成星座图(cm)47。cm 47可以为每个音频流27定义cli 45a。流选择单元44还可以针对每个音频流27执行能量分析,以确定每个音频流27的能量分布图,将该能量分布图与cli 45a一起存储在cm 47中。能量分布图可以共同定义由音频流27表示的公共声场的能量。
[0089]
流选择单元44接下来可以确定由vli 45b表示的虚拟位置和由cli 45a表示的捕获位置之间的距离,该捕获位置与音频流27中的至少一者和可能的每一者相关联。流选择单元44接着可基于所述(多个)距离中的至少一者且可能基于所述(多个)距离中的每一者而从音频流27选择音频流19’,如下文针对图3a到3d更详细地论述。
[0090]
此外,在一些示例中,流选择单元44还可基于存储到cm 47的能量分布图、cli 45a和vli 45b(在cli 45a和vli 45b以上述距离的形式呈现的情况下,其也可被称为“相对距离”)来从音频流27选择音频流19’。例如,流选择单元44可分析cm 47中呈现的能量分布图以确定发出由麦克风(比如麦克风18)捕获并由音频流27表示的声音的共同声场中的音频源位置(asl)49。然后,流选择单元44可以基于cli 45a、vli 45b和asl 49从音频流27确定音频流19’。下面参考图3a-3d讨论针对流选择单元44如何选择流的更多信息。
[0091]
此外,根据本公开的其他技术,内容消费者设备14可以被配置为基于隐私限制从多个音频流中确定一个或多个音频流。例如,内容消费者设备14可以被配置为从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流,该一个或多个音频流中的每一者表示相应声场,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流,基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流,生成不受限音频流的对应的相应声场,以及限制受限音频流的对应的相应声场的回放。
[0092]
图1b是图示被配置为执行本公开中所描述的技术的各个方面的另一个示例性系统50的框图。系统50类似于图1a中所示的系统10,除了图1a中所示的音频渲染器32被替换为能够使用一个或多个头部相关传递函数hrtf或能够渲染到左和右扬声器馈入43的其他函数来执行双耳渲染的双耳渲染器42。
[0093]
音频回放系统16b可以将左扬声器馈入和右扬声器馈入43输出到头戴式耳机1104,其可以表示可穿戴设备的另一个示例并且其可以耦合到附加的可穿戴设备以促进声场的重现,比如手表、上文提到的vr头戴式受话器、智能眼镜、智能服装、智能戒指、智能手镯或任何其他类型的智能珠宝(包括智能项链)等。头戴式耳机1104可以无线地或经由有线连接耦合到附加可穿戴设备。
[0094]
此外,头戴式耳机1104可以经由有线连接(比如标准3.5mm音频插孔、通用系统总线(usb)连接、光学音频插孔或其他形式的有线连接)或无线地(比如通过蓝牙连接、无线网络连接等)耦合到音频回放系统16b。头戴式耳机1104可以基于左和右扬声器馈入43重建由音频数据19’表示的声场。头戴式耳机1104可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应左和右扬声器馈源43供电(换句话说,驱动)。
[0095]
图3a-3d是更详细地图示图1a的示例中所示的流选择单元的示例性操作的示图。如图3a的示例所示,流选择单元44可以确定vli 45b指示内容消费者设备14(被示为vr设备1100)处于虚拟位置300a。流选择单元44接下来可确定音频元素302a-302j(其可不仅表示麦克风,例如,图1a中所示的麦克风18,而且表示其他类型的捕获设备,包括麦克风阵列、其他xr设备、合成音频源、移动电话(包括所谓的智能电话)等)中的一者或多者的cli 45a。
[0096]
如上所述,流选择单元44可以获得音频流27。流选择单元44可以与音频元素302a-302j相接以获得音频流27。在一些示例中,流选择单元44可与接口(例如,调制解调器、接收器、发射器和/或收发器)交互以根据第五代(5g)蜂窝标准wifi、比如bluetooth
tm
的个人区域网络pan或某一其他开放源专有或标准化通信协议获得音频流27。音频流的无线通信在图3a-3d的示例中被表示为闪电,其中所选择的音频流19’被示出为从所选择的一个或多个音频元素302到vr设备1100的通信。
[0097]
在任何情况下,流选择单元44接下来可以以上述方式获得能量分布图,分析该能量分布图以确定音频源位置304,其可以表示图1a的示例中所示的asl 49的一个示例。能量分布图可表示音频源位置304,因为音频源位置304处的能量可高于周围区域。假定每个能量分布图可以表示该较高能量,则流选择单元44可以基于能量分布图中的较高能量对音频源位置304进行三角测量。
[0098]
接下来,流选择单元44可将音频源距离306a确定为音频源位置304与vr设备1100的虚拟位置300a之间的距离。流选择单元44可以将音频源距离306a与音频源距离阈值进行比较。在一些示例中,流选择单元44可以基于音频源308的能量导出音频源距离阈值。也就是说,当音频源308具有较高能量时(或者换句话说,当音频源308较大时),流选择单元44可以增加音频源距离阈值。当音频源308具有较低能量时(或换句话说,当音频源308较安静时),流选择单元44可减小音频源距离阈值。在其他示例中,流选择单元44可获得静态界定的音频源距离阈值,其可由用户1102静态限定或指定。
[0099]
在任何情况下,当音频源距离306a大于音频源距离阈值(在该示例中为说明的目的而假设)时,流选择单元44可以选择由音频元素302a-302j(“音频元素302”)捕获的音频
流27中的单个音频流(即,在图3a的示例中由音频元素302a捕获的音频流)。流选择单元44可输出音频流27中的对应一者,音频解码设备34可解码该对应一者并将其作为音频流19’输出。
[0100]
假设用户从虚拟位置300a移动到虚拟位置300b,流选择单元44可以将音频源位置304与虚拟位置300b之间的距离确定为音频源距离306b。在一些示例中,流选择单元44可以仅在某个可配置释放时间之后更新,该可配置释放时间可以指在收听者停止移动之后直到接收器区域增大的时间。
[0101]
在任何情况下,流选择单元44可以再次将音频源距离306b与音频源距离阈值进行比较。当音频源距离306小于或等于音频源距离阈值(在此示例中出于说明的目的而假定)时,流选择单元44可选择由音频元素302a-302j捕获的音频流27(“音频元素302”)的多个音频流(即,在图3a的示例中由音频元素302f-302j捕获的音频流)。流选择单元44可输出音频流27中的对应一者,音频解码设备34可解码该对应一者并将其作为音频流19’输出。
[0102]
流选择单元44还可以确定虚拟位置300a与由cli 45a表示的一个或多个(并且可能每个)捕获位置之间的接近距离,以获得一个或多个接近距离。流选择单元44然后可以将一个或多个邻近距离与阈值邻近距离进行比较。与当接近距离小于或等于阈值接近距离时相比,当一个或多个接近距离大于阈值接近距离时,流选择单元44可以选择较少数量的音频流27以获得音频流19’。然而,与当接近距离小于或等于阈值接近距离时相比,当一个或多个接近距离小于或等于阈值接近距离时,流选择单元44可以选择更多数量的音频流27以获得音频流19’。
[0103]
换句话说,流选择单元44可尝试选择音频流27中的那些音频流,使得音频流19’与虚拟位置300b最接近地对准且环绕虚拟位置300b。接近距离阈值可以定义这样的阈值,用户1100可以设置该阈值,或者流选择单元44可以再次基于音频元素302f-302j的质量、音频源308的增益或响度、跟踪信息41(例如,以确定用户是否面向音频源308)或任何其他因素来动态地确定该阈值。
[0104]
在这方面,当收听者在位置300b时,流选择单元44可以增加音频空间化精度。此外,当在位置300a时,流选择单元44可以降低比特率,因为仅由音频元素302a捕获的音频流被用于重现声场,而不是由音频元素302b-302j捕获的多个音频流。
[0105]
接下来参考图3b的示例,流选择单元44可以确定由音频元素302a捕获的音频流被破坏、有噪声或不可用。假设音频源距离306a大于音频源距离阈值,流选择单元44可从cm 47移除音频流,并根据以上更详细描述的技术通过音频流27重复,以选择音频流27中的单个音频流(即,在图3b的示例中由音频元素302b捕获的音频流)。
[0106]
接下来参考图3c的示例,流选择单元44可以获得新的音频流(由音频元素302k生成)和包括cli 45a的对应新的音频元数据。流选择单元44可以将新的音频流添加到表示音频流27的cm 47。假定音频源距离306a大于音频源距离阈值,流选择单元44接着可根据上文更详细描述的技术重复通过音频流27以选择音频流27中的单个音频流(即,在图3c的实例中由音频元素302b捕获的音频流)。
[0107]
在图3d的示例中,音频元素302被特定设备320a-320j(“设备320”)替换,其中设备320a表示专用麦克风320a,而设备320b、320c、320d、320g、320h和320j表示智能电话320。设备320e、320f和320i可以表示vr设备320。设备320中的每一者可包括音频元素302,其捕获
根据本公开中所描述的流选择技术的各种方面而选择的音频流27。
[0108]
图4a-4e是图示由图1a和1b的示例中所示的源设备和/或内容消费者设备执行的隐私限制的示例性操作的示图。如上所述,在一些使用情况下,可能希望能够控制由源设备12生成的多个音频流中的哪些可用于由内容消费者设备14回放。
[0109]
例如,来自内容捕获设备20的某些捕获设备的音频可包括敏感信息,和/或来自内容捕获设备20(图1a和图1b)的某些捕获设备的音频和/或音频元素302(图3a-3d)可能不是意图用于独占访问(例如,由所有用户不受限访问)。可能希望基于所捕获/生成的信息的类型和/或基于内容捕获设备20和/或音频元素302所处的物理区域的位置来限制对来自内容捕获设备20和/或音频元素302的某些捕获设备的音频的访问。
[0110]
如图4a的示例所示,流选择单元44可以确定vli 45b指示内容消费者设备14(被示为vr设备400)处于虚拟位置401。vr设备400可以是6dof回放系统上的收听者。流选择单元44接下来可确定音频元素402a到402h(其可不仅表示麦克风,比如图1a中所示的麦克风18,而且表示其他类型的捕获和/或音频产生装置,包括麦克风阵列、麦克风群、合成音频源、其他xr设备、移动电话(包括所谓的智能电话)等)中的一者或多者的cli 45a。
[0111]
如上所述,流选择单元44可以获得音频流27。流选择单元44可以与音频元素402a-402h和/或源设备12相接以获得音频流27。在一些示例中,流选择单元44可与接口(例如,调制解调器、接收器、发射器和/或收发器)交互以根据第五代(5g)蜂窝标准wifi、比如bluetooth
tm
的个人区域网络pan或某一其他开放源专有或标准化通信协议获得音频流27。音频流的无线通信在图4a的示例中表示为闪电,其中所选音频流19’被示为从所选的一个或多个音频元素402和/或源设备12到vr设备400的通信。
[0112]
在图4a的示例中,vr设备400在位置401,它在音频源409附近。使用上述技术并在下面更详细地描述,vr设备400可以使用能量分布图来确定音频源409在位置401。图4a示出了位置401处的音频元素402d-402h。音频元素402a-402c可以不在vr设备400附近。
[0113]
在声学环境中捕获和/或生成音频元素402a-402f。如本文所使用的,声学环境表示为室内环境或室外环境,或者室内环境和室外环境。声学环境可以包括一个或多个子声学空间,其可以包括各种声学元素。例如,子声学空间可以是房间、房间或建筑物内的区域、交通工具的舱室、教室、教室内的区域,或任何类型的声学空间的任何子集。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例,并且可以是室内空间或室外空间。如本文所使用,音频元素可为由麦克风捕获的声音(例如,直接从近场源捕获或来自真实或合成的远场源的反射)、由麦克风阵列捕获的声音、先前合成的声场、从文本到语音合成的单声道声音,和/或来自声学环境中的对象的虚拟声音的反射。
[0114]
在本公开的一个示例中,源设备12可以被配置为生成多个音频流的隐私限制。例如,如图4a所示,源设备12可以被配置为生成隐私限制,该隐私限制指示与音频元素402h相关联的音频流对于vr设备400(或任何其他内容消费者设备)的用户是受限的。在一个示例中,源设备12在侧信道33中传输作为元数据的隐私限制。在其他示例中,源设备12可以将隐私限制作为元数据在比特流27中传输。在其他示例中,源设备12可在比特流中的音频流中(例如,在与音频元素402h相关联的音频流中)的数据中嵌入隐私限制。例如,源设备12可将隐私限制嵌入音频样本的几个比特(例如,最低有效比特)或高保真度立体声响系数的部分中(例如,前12或13个比特可表示高保真度立体声响系数,且后3或4个比特可为隐私限制)。
源设备12可向vr设备400(或任何其他内容消费者设备)传输隐私限制。
[0115]
vr设备400可以被配置为接收多个音频流和对应隐私限制并将它们存储在存储器中。每个音频流代表声场,并且隐私限制包括对多个音频流中的一者或多者的限制。vr设备400可以被配置为基于隐私限制来确定一个或多个音频流。例如,vr设备400可以被配置为基于隐私限制来确定能够回放的音频流。然后,vr设备400可以基于一个或多个音频流生成对应声场。同样地,vr设备400可以被配置为基于隐私限制从音频元数据确定一个或多个受限音频流(例如,与音频元素402h相关联的音频流),而不生成用于一个或多个受限音频流的对应声场。
[0116]
因此,在本公开的一个示例中,vr设备400可以被配置为从在包括一个或多个子声空间的声环境中表示的音频元素402接收一个或多个音频流。在该示例中,一个或多个音频流中的每一者表示相应声场。音频元素402可以是任何音频数据源,包括单个麦克风、麦克风阵列、移动设备或合成音频源中的一者或多者。
[0117]
vr设备400还可以被配置为基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的不受限音频流(例如,来自音频元素402a到g的音频流),且基于与一个或多个音频流相关联的隐私限制确定一个或多个音频流中的受限音频流(例如,来自音频元素402h的音频流)。在一个示例中,与一个或多个音频流相关联的隐私限制被嵌入在一个或多个音频流中。在该示例中,vr设备400可以被配置为从一个或多个音频流中提取隐私限制。在另一个示例中,vr设备400可以被配置为接收包括与一个或多个音频流相关联的隐私限制的元数据。
[0118]
然后,vr设备400可生成不受限音频流的对应的相应声场,并限制受限音频流的对应的相应声场的回放。在一个示例中,为了限制受限音频流的对应的相应声场的回放,vr设备400还被配置为切换关闭受限音频流。在另一个示例中,为了限制受限音频流的对应的相应声场的回放,vr设备400还被配置为屏蔽受限音频流。在另一个示例中,为了限制受限音频流的对应的相应声场的回放,vr设备400还被配置为使受限音频流无效。在另一个示例中,为了限制受限音频流的对应的相应声场的回放,vr设备400还被配置为对受限音频流应用声学封堵器。
[0119]
图4b是图示本公开的一个示例中的控制器31的操作的框图。在一个示例中,控制器31可以实现为处理器712。下面参考图7更详细地描述处理器712。如上参考图1a所述,源设备12可以使用内容捕获设备20来捕获和/或生成音频数据。内容捕获设备20可以从音频元素402捕获和/或生成音频数据。音频元素402可以包括静态源,比如静态单麦克风或麦克风群。音频元素402可以是实况源。替代地或附加地,音频元素402可以包括动态音频源(例如,在用途和/或位置方面是动态的),比如移动电话。在一些示例中,动态音频源可以是合成音频源。音频流可以来自单个物理上间隔开的音频源,或者来自单个物理位置中的音频源的聚类。
[0120]
在一些示例中,将物理上彼此靠近地定位的音频源(例如,真实或合成音频元素)分组为聚类可能是有益的,因为物理上共处一地的聚类中的每个单独的音频源可以将一些或全部音频感测为聚类中的每个其他音频源。照此,在本公开的一些示例中,控制器31可以被配置为切换来自音频元素聚类的音频流(在图4b中标记为c),以及切换来自单独音频元素的音频流(在图4b中标记为r)。在此上下文中,切换可指将音频流或音频流组标记为不受
限(例如,能够被解码和/或播放)或受限(例如,不能被解码和/或播放)。开启的隐私切换(例如,受限)指示vr设备400应当静音和/或通常不解码或回放音频流。关闭的隐私切换(例如,不受限或公共访问)指示任何用户可以解码和回放音频流。这样,音频工程师或内容创建者可以为不受限用户或基于分级隐私设置等级来授予对某些音频源的独占访问。
[0121]
如图4b所示,控制器31可以被配置为接收和/或访问由内容捕获设备20捕获的多个音频流。控制器31可以被配置为检查是否存在与音频流相关联的任何隐私设置。即,控制器31可以被配置为从多个音频流中确定一个或多个不受限音频流和一个或多个受限音频流。
[0122]
在一些示例中,内容创建者可以被配置为在每个音频源或音频源的聚类处设置隐私设置。在其他示例中,控制器31可以被配置为比如通过显式指令来确定多个音频流的集合是否需要隐私设置。在一个示例中,控制器31可以接收包括隐私限制404的聚类图,该隐私限制404指示一个或多个音频源或音频源聚类的隐私限制。在一个示例中,隐私限制指示多个音频流中的一者或多者是受限的还是不受限的。在其他示例中,隐私限制仅指示受限音频流。如将更详细地解释的,隐私限制可以限制单独的音频源、音频源的组(聚类),或者指示音频源之间的限制(组间限制)。
[0123]
在图4b的示例中,隐私限制404还包括音频流的相应隐私限制,其指示多个音频流中的一者或多者对于多个隐私设置等级中的每一者是受限的还是不受限的。隐私限制404包括两个隐私设置等级。当然,可以使用更多或更少的隐私设置等级。图4b的隐私限制404仅指示什么音频源的聚类或单独音频源对于特定隐私设置等级是受限的。vr设备400可以确定来自未被列为在隐私限制404中受限的音频源的任何音频流可以是不受限的(即,可以被播放)。vr设备400可以确定不可以播放来自在隐私限制404中列出为受限的音频源的任何音频流。在其他示例中,隐私限制404可以指示每个隐私设置等级的不受限和受限音频源/流。
[0124]
因此,在本公开的另一个示例中,隐私限制指示一个或多个音频流中的一者或多者对于多个隐私设置等级中的每一者是受限的还是不受限的。在该示例中,vr设备400还被配置为从多个隐私设置等级确定隐私设置等级,基于与一个或多个音频流相关联的隐私限制和隐私设置等级确定一个或多个音频流中的不受限音频流,以及基于与一个或多个音频流相关联的隐私限制和隐私设置等级确定一个或多个音频流中的受限音频流。
[0125]
如上所述,控制器31可以被配置为将隐私限制404嵌入比特流27和/或侧信道33(参见图1a)中,并将音频元数据传输到vr设备400或任何其他内容消费者设备,包括图1a和图1b的内容消费者设备14。此外,在一些示例中,控制器31可以被配置为生成vr设备400的多个隐私设置等级中的隐私设置等级,并将该隐私设置等级传输给vr设备400。
[0126]
隐私设置等级可以基于任何数量的因素来设置,并且可以基于可用于回放的音频元素的区域或聚类。在其他示例中,隐私设置等级还可以启用或禁用某些合成音频元素,比如特殊效果。在其他示例中,隐私设置等级可以基于内容等级(例如,高级内容与非高级内容)。
[0127]
用于隐私设置等级的标准的其他示例可以包括以下:
[0128]-用户被邀请到会议/聚会/事件,但是用户不能进入会议/聚会/事件,因此会议组织者提高会议/事件/聚会的持续时间的等级(区域/聚类是会议/事件/聚会)
[0129]-用户为课堂或讲课付费,付费后,等级对课堂/讲课的时长而提高(区域/聚类是虚拟教室)
[0130]-用户为电影付费,获得对电影长度的访问(区域/聚类是虚拟剧院)
[0131]-当汽车/xr设备经过时,它们可以从附近的汽车/xr设备对音乐采样的情况。汽车/xr设备可以串流音频,或者区域/聚类中的所有汽车/xr设备可以串流音频。汽车/xr设备可在距汽车/xr设备一定距离内访问汽车/xr设备。这样,当在高速公路或街道上时,则隐私设置等级被提高,但是如果汽车/xr设备在家或在特定位置,则隐私设置等级不被提高。
[0132]
如上所述,控制器31可以是任何数量类型的设备的一部分,包括服务器、网络连接的服务器(例如,云服务器)、内容捕获设备和/或移动终端。控制器31可以被配置为通过包括5g空中接口和/或比如蓝牙接口的个人区域网络的无线链路传输多个音频流。
[0133]
在一些示例中,当控制器31被配置为向vr设备400传输多个音频流(例如,在所谓的在线模式下)时,控制器31可以被配置为不向vr设备400传输在音频元数据404中被标记为受限的任何音频流。控制器31仍可将隐私限制404传输到vr设备400,使得vr设备400可确定正在接收哪些音频流。在其他示例中,控制器31可以不向vr设备400传输音频流。相反,在一些示例中,vr设备400可直接从一个或多个音频源接收音频流。在这些示例中,vr设备400仍然从控制器(或直接从音频源)接收隐私限制404。然后,vr设备400将根据隐私限制404和vr设备400的隐私设置等级来确定不受限的和受限的音频流,并且将避免对被标记为不受限(例如,基于隐私设置等级)的任何音频流进行解码和/或回放。
[0134]
鉴于上述内容,在一个示例中,vr设备400可以被配置为接收多个隐私设置等级中的隐私设置等级、解码隐私限制404,并访问相应的隐私限制,以指示多个音频流中的一者或多者对应于所接收的隐私设置等级是受限的还是不受限的。vr设备400可以被配置为通过比如5g空中接口和/或蓝牙接口的无线链路接收多个音频流。如上所述,vr设备400可以是扩展现实头戴式受话器。在该示例中,vr设备400可包括被配置为呈现所显示的世界的头戴式显示器。在其他示例中,vr设备400可以是移动终端。
[0135]
在本公开的其他示例中,vr设备400可以被配置为结合上述音频元数据隐私限制来还执行本公开的能量分布技术。在该示例中,音频元数据还包括表示在所显示的世界中捕获多个音频流中的对应一个的捕获位置的捕获位置信息。vr设备400还可以被配置为确定表示设备在所显示的世界中的位置信息,基于该位置信息及捕获位置信息选择多个音频流的子集,该多个音频流的子集排除多个音频流中的至少一者,及基于该多个音频流的子集生成对应声场。
[0136]
图4c是图示单个音频源(r4)在隐私限制406中被标记为受限的示例的概念图。在此示例中,控制器31可以被配置为生成隐私限制406以包括指示来自第一音频捕获设备(例如,r4)的音频流是受限的还是不受限的隐私限制。vr设备400接收隐私设置等级3。然后,vr设备400可确定音频源r4受到隐私限制406的隐私设置等级3列的限制。因此,vr设备400将避免解码和/或回放来自音频源r4的音频流。图4c的示例可应用于音频源物理扩展到足以使单个音频源的单个切换有效的情况。音频工程师或内容创建者可以基于物理扩展来选择切换(即,指示为不受限或受限的)某些音频元素。
[0137]
图4d是图示音频源聚类(c1)在隐私限制408中被标记为受限的示例的概念图。在此示例中,控制器31可以被配置为生成包括指示来自第一音频捕获设备聚类(例如,c1)的
音频流是受限的还是不受限的隐私限制的隐私限制408。vr设备400接收隐私设置等级3。然后,vr设备400可确定音频源聚类c1受到隐私限制408的隐私设置等级3列的限制。因此,vr设备400将避免解码和/或回放来自音频源聚类c1的音频流。图4d的示例可以适用于音频源密集地打包或聚集在物理位置中使得单独音频源的单独切换无效的情况。在一些示例中,聚类内的单个音频源可被指定为主音频源,并且切换主音频源的隐私限制影响聚类内的所有其他音频源。可以使用邻近(例如,距离)阈值来确定属于聚类的音频源。
[0138]
图4e是图示音频源聚类(c1)在隐私限制410中被标记为受限的示例的概念图。此外,隐私限制410还包括子列。子列中的任何音频源继承从隐私限制410的受限列中标记的隐私限制。这样,音频源聚类c2也被标记为受限。这样,某些音频源或音频源聚类可以是相互依赖的,并且控制器31仅需要切换单个聚类或音频源来实现多个聚类或音频源。
[0139]
在此示例中,控制器31可以被配置为生成隐私限制410,以包括指示来自第二音频捕获设备聚类(例如,c2)的音频流共享与第一音频捕获设备聚类(例如,c1)相同的隐私限制的信息。vr设备400接收隐私设置等级3。然后,vr设备400可确定音频源聚类c1和c2的受到隐私限制410的隐私设置等级3列的限制。因此,vr设备400将避免解码和/或回放来自音频源聚类c1和c2的音频流。
[0140]
图5是图示可根据本公开中描述的技术的各方面操作的可穿戴设备500的示例的示图。在各种示例中,可穿戴设备500可表示vr头戴式受话器或(比如上述vr头戴式受话器或1100)、ar头戴式受话器或、mr头戴式受话器或任何其他类型的扩展现实(xr)头戴式受话器。增强现实“ar”可指覆盖在用户实际所在的真实世界上的计算机渲染图像或数据。混合现实“mr”可以指被世界锁定到现实世界中的特定位置的计算机渲染的图像或数据,或者可以指vr的变体,其中部分计算机渲染的3d元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸体验。扩展现实“xr”可以表示vr、ar和mr的通用术语。针对xr的术语的更多信息可在jason peterson的题为“virtual reality,augmented reality,and mixed reality definitions”且日期为2017年7月7日的文档中找到。
[0141]
可穿戴设备500可以表示其他类型的设备,比如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴式耳机(包括所谓的“无线头戴式耳机”和“智能头戴式耳机”)、智能服装、智能珠宝等。无论代表vr设备、手表、眼镜和/或头戴式耳机,可穿戴设备500都可以经由有线连接或无线连接与支持可穿戴设备500的计算设备通信。
[0142]
在一些情况下,支持可穿戴设备500的计算设备可以集成在可穿戴设备500内,并且因此,可穿戴设备500可以被认为是与支持可穿戴设备500的计算设备相同的设备。在其他情况下,可穿戴设备500可与可支持可穿戴设备500的分开的计算设备通信。在这方面,术语“支持”不应当被理解为需要分开的专用设备,而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备500内或者被集成在与可穿戴设备500分开的计算设备内。
[0143]
例如,根据本公开中描述的技术的各个方面,当可穿戴设备500表示vr设备500时,分开的专用计算设备(比如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴设备500可以基于平移的头部移动来确定专用计算设备可以在其上渲染音频内容(作为扬声器馈入)的平移的头部移动。作为另一个示例,当可穿戴设备500表示智能眼镜时,可穿戴设备500可以包括一个或多个处理器,该一个或多个处理器既确定平移头部移
或(多个)“处理器”)图形处理单元(gpu)714、系统存储器716、显示器处理器718、一个或多个集成扬声器740、显示器703、用户接口720、天线721和收发器模块722。在设备710是移动设备的示例中,显示处理器718是移动显示处理器(mdp)。在一些示例中,例如,在设备710是移动设备的示例中,处理器712、gpu 714和显示处理器718可形成为集成电路(ic)。收发器模块722可以被配置为调制解调器。
[0153]
例如,ic可以被认为是芯片封装内的处理芯片,并且可以是片上系统(soc)。在一些示例中,处理器712、gpu 714和显示处理器718中的两者可一起容纳在同一ic中,且另一者容纳在不同集成电路(即,不同芯片封装)中,或所有三者可容纳在不同ic中或同一ic上。然而,在设备710为移动设备的示例中,处理器712、gpu 714和显示处理器718可全部容纳在不同集成电路中。
[0154]
处理器712、gpu 714和显示处理器718的示例包括(但不限于)一个或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、现场可编程逻辑阵列(fpga)或其他等效集成或离散逻辑电路。处理器712可以是源设备710的中央处理单元(cpu)。在一些示例中,gpu 714可为包括向gpu 714提供适合于图形处理的大量并行处理能力的集成和/或离散逻辑电路的专用硬件。在一些情况下,gpu 714还可包括通用处理能力,且在实施通用处理任务(即,非图形相关任务)时可称为通用gpu(gpgpu)。显示处理器718也可以是专门的集成电路硬件,其被设计成从系统存储器716取回图像内容、将图像内容组成图像帧,并将图像帧输出到显示器703。
[0155]
处理器712可以执行各种类型的应用。应用的示例包括web浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其他应用程序,或以上更详细列出的任何应用类型。系统存储器716可以存储用于执行应用程序的指令。在处理器712上执行应用程序之一使处理器712产生要显示的图像内容的图形数据和要播放的音频数据19(可能通过集成扬声器740)。处理器712可将图像内容的图形数据传输到gpu 414以基于处理器712传输到gpu 714的指令或命令进行进一步处理。
[0156]
处理器712可根据特定应用处理接口(api)与gpu 714通信。这种api的示例包括的api、khronos集团的或或和opencl
tm
;然而,本公开的各方面不限于directx、opengl或opencl api,并且可以扩展到其他类型的api。此外,本公开中所描述的技术不需要根据api来起作用,且处理器712和gpu 714可利用任何过程来进行通信。
[0157]
系统存储器716可以是设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(ram)、电可擦除可编程只读存储器(eeprom)、闪存或可用于携带或存储指令和/或数据结构形式的所需程序代码并可由计算机或处理器访问的其他介质。
[0158]
在一些示例中,系统存储器716可包括使处理器712、gpu 714和/或显示处理器718执行本公开中赋予处理器712、gpu 714和/或显示处理器718的功能的指令。因此,系统存储器716可以是其上存储有指令的计算机可读存储媒体,指令在执行时使一个或多个处理器(例如,处理器712、gpu 714和/或显示处理器718)执行各种功能。
[0159]
系统存储器716可以包括非暂时性存储介质。术语“非暂时性”表示存储介质不包括在载波或传播信号中。然而,术语“非暂时性”不应被解释为意味着系统存储器716是不可
移动的或其内容是静态的。作为一个示例,系统存储器716可从设备710移除并移动到另一设备。作为另一个示例,可以将基本上类似于系统存储器716的存储器插入设备710中。在某些示例中,非暂时性存储媒体可存储可随时间改变的数据(例如,在ram中)。
[0160]
用户接口720可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)用户接口,通过这些接口用户可以与设备710相接。用户接口720可以包括物理按钮、开关、触发器、灯或其虚拟版本。用户接口720还可以包括物理或虚拟键盘,比如触摸屏的触摸接口、触觉反馈等。
[0161]
处理器712可以包括一个或多个硬件单元(包括所谓的“处理核”),其被配置为执行以上针对内容创建者设备和/或内容消费者设备的任何模块、单元或其他功能组件中的一者或多者所讨论的操作的全部或一些部分。天线721和收发器模块722可以表示被配置为建立和维持内容消费者设备12和内容消费者设备14之间的连接的单元。天线721和收发器模块722可以表示能够根据一个或多个无线通信协议进行无线通信的一个或多个接收器和/或一个或多个发射器,该无线通信协议例如是第五代(5g)蜂窝标准、比如bluetooth
tm
的个人区域网(pan)协议或者其他开放源、专有或其他通信标准。即,收发器模块722可以表示分开的发射器、分开的接收器、分开的发射器和分开的接收器两者,或组合的发射器和接收器。天线721和收发器722可以被配置为接收编码的音频数据。同样地,天线721和收发器722可以被配置为传输编码的音频数据。
[0162]
图8a-8c是图示图1a和1b的示例中所示的流选择单元在执行流选择技术的各个方面时的示例性操作的流程图。首先参考图8a的示例,流选择单元44可以从所有启用的接收器(这是称呼麦克风(比如麦克风18)的另一种方式)获得音频流27,其中音频流27可以包括对应音频元数据,比如cli 45a(800)。流选择单元44可以针对每个音频流27执行能量分析以计算相应的能量分布图(802)。
[0163]
流选择单元44接下来可基于到音频源308的接近(如由音频源距离306a和/或306b所定义)和到接收器的接近(如由以上所讨论的接近度距离所定义)来迭代接收器的不同组合(在cm 47中所定义)(804)。如图8a所示,接收器可以被分级或以其他方式与不同的访问权限相关联。流选择单元44可基于由vli 45b表示的收听者位置(其是指代“虚拟位置”的另一种方式)和由cli 45a表示的接收器位置以上文描述的方式迭代,以识别需要音频流27的较大子集还是音频流27的缩减子集(806、808)。
[0164]
当需要音频流27的较大子集时,流选择单元44可以向音频流19’添加接收器,或换言之添加附加的音频流(比如当用户更接近图3a的示例中的音频源时)(810)。当需要音频流27的缩减子集时,流选择单元44可从音频流19’中移除接收器,或换言之移除现有音频流(比如当用户远离图3a的示例中的音频源时)(812)。
[0165]
在一些示例中,流选择单元44可以确定接收器的当前星座图是最佳集合(或者换句话说,现有音频流19’将保持与本文描述的选择过程相同,从而生成相同的音频流19’)(804)。然而,当音频流被添加或从音频流19’中移除时,流选择单元44可以更新cm 47(814),生成星座历史(815)。
[0166]
此外,流选择单元44可确定隐私设置是启用还是禁用接收器的添加(其中隐私设置可指代例如通过密码、权限级别或等级、时间等限制对音频流27中的一者或多者的存取的数字访问权限)(816、818)。当隐私设置启用添加接收器时,流选择单元44可以将接收器
添加到更新的cm 47(其指的是将音频流添加到音频流19’)(820)。当隐私设置禁用添加接收器时,流选择单元44可以从更新的cm 47中移除接收器(这是指从音频流19’中移除音频流)(822)。以这种方式,流选择单元44可以识别一组新的启用的接收器(824)。
[0167]
流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以用户接口速率更新隐私设置(意味着,通过经由用户接口输入的更新来驱动更新)。作为另一个示例,流选择单元44可以以传感器速率更新位置(意味着随着位置通过接收器的移动而改变)。流选择单元44还可以以音频帧速率更新能量分布图(意味着每个帧更新能量分布图)。
[0168]
接下来参考图8b的示例,流选择单元44可以以上文针对图8a描述的方式操作,除了流选择单元44可以不基于能量分布图确定cm 47。
[0169]
这样,流选择单元44可以从所有启用的接收器(这是称呼麦克风(比如麦克风18)的另一种方式)获得音频流27,其中音频流27可以包括对应音频元数据,比如cli 45a(840)。流选择单元44可确定隐私设置是启用还是禁用接收器的添加(其中隐私设置可指例如通过密码、权限级别或等级、时间等来限制对音频流27中的一者或多者的存取的数字访问权限)(842、844)。
[0170]
当隐私设置允许添加接收器时,流选择单元44可以将接收器添加到更新的cm 47(其指的是将音频流添加到音频流19’)(846)。当隐私设置禁止添加接收器时,流选择单元44可以从更新的cm 47中移除接收器(这是指从音频流19’中移除音频流)(848)。以这种方式,流选择单元44可以识别一组新的启用的接收器(850)。流选择单元44可以迭代通过cm 47中的接收器的不同组合,以确定星座图历史(854),其表示音频流19’。
[0171]
流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以用户接口速率更新隐私设置(意味着,通过经由用户接口输入的更新来驱动更新)。作为另一个示例,流选择单元44可以以传感器速率更新位置(意味着随着位置通过接收器的移动而改变)。
[0172]
接下来参考图8c的示例,流选择单元44可以以上文针对图8a所描述的方式操作,不同之处在于流选择单元44可不基于cm 47启用的接收器的确定。这样,流选择单元44可以从所有启用的接收器(这是称呼是麦克风(比如麦克风18)的另一种方式)获得音频流27,其中音频流27可以包括对应音频元数据,比如cli 45a(860)。流选择单元44可以针对每个音频流27执行能量分析以计算相应的能量分布图(862)。
[0173]
流选择单元44接下来可基于到音频源308的接近度(如由音频源距离306a和/或306b所定义)和到接收器的接近度(如由以上所讨论的接近度距离所定义)来迭代接收器的不同组合(在cm 47中所定义)(864)。如图8c所示,接收器可以被分级或以其他方式与不同的访问权限相关联。流选择单元44可基于由vli 45b表示的收听者位置(其再次为指代上文所论述的“虚拟位置”的另一方式)和由cli 45a表示的接收器位置以上文所描述的方式进行迭代,以识别需要音频流27的较大子集还是音频流27的缩减子集(866、868)。
[0174]
当需要音频流27的较大子集时,流选择单元44可以向音频流添加附加的音频流(比如当用户更接近图3a的示例中的音频源时)(870)。当需要音频流27的缩减子集时,流选择单元44可从音频流19’中移除接收器,或换言之移除现有音频流(比如当用户远离图3a的示例中的音频源时)(872)。
[0175]
在一些示例中,流选择单元44可以确定接收器的当前星座图是最佳集合(或者换句话说,现有音频流19’将保持与本文描述的选择过程相同,从而生成相同的音频流19’)(864)。然而,当音频流被添加到音频流19’或从音频流19’中移除时,流选择单元44可以更新cm 47(874),生成星座历史(875)。
[0176]
流选择单元44可以以这种方式迭代并根据任何给定频率更新各种输入。例如,作为另一个示例,流选择单元44可以以传感器速率更新位置(意味着随着位置通过接收器的移动而改变)。流选择单元44还可以以音频帧速率更新能量分布图(意味着每个帧更新能量分布图)。
[0177]
应所述认识到,根据示例,本文中描述的任何技术的某些动作或事件可以以不同的序列执行,可以被增加、合并或一并省去(例如,不是所有描述的动作或事件是技术实践所必须的)。此外,在某些示例中,动作或事件可以同时执行,例如,通过多线程处理、中断处理或多个处理器,而非顺序执行。
[0178]
在一些示例中,vr设备(或串流设备)可使用耦合到vr/串流设备的存储器的网络接口来传输交换消息到外部设备,其中交换消息与声场的多个可用表示相关联。在一些示例中,vr设备可以使用耦合到网络接口的天线来接收无线信号,该无线信号包括与声场的多个可用表示相关联的数据分组、音频分组、视频协定或传输协议数据。在一些示例中,一个或多个麦克风阵列可以捕获声场。
[0179]
在一些示例中,存储到存储器设备的声场的多个可用表示可包括声场的多个基于对象的表示、声场的高阶高保真度立体声响表示、声场的混合阶高保真度立体声响表示、声场的基于对象的表示与声场的高阶高保真度立体声响表示的组合、声场的基于对象的表示与声场的混合阶高保真度立体声响表示的组合,或声场的混合阶表示与声场的高阶高保真度立体声响表示的组合。
[0180]
在一些实例中,声场的多个可用表示中的声场表示中的一者或多者可包括至少一个高分辨率区域及至少一个较低分辨率区域,且其中基于转向角的选定呈现提供针对至少一个高分辨率区域的较高空间精度及针对较低分辨率区域的较低空间精度。
[0181]
图9是图示用于使用本公开的技术基于隐私限制来处理一个或多个音频流的示例性过程的流程图。图9的技术可以由内容消费者设备(比如图1a和1b的内容消费者设备14)的一个或多个处理器和/或电路来执行。如上所述,在一些示例中,图1a和1b的内容消费者设备14可以是vr设备400(例如,参见图4b)或另一xr设备(例如,xr头戴式受话器)。
[0182]
在本公开的一个示例中,内容消费者设备14可以被配置为从在包括一个或多个子声学空间的声学环境中表示的音频元素接收一个或多个音频流(900)。在该示例中,一个或多个音频流中的每一者表示相应声场。音频元素可以是任何音频数据源,包括单个麦克风、麦克风阵列、移动设备或合成音频源中的一者或多者。
[0183]
内容消费者设备14还可以被配置为基于与一个或多个音频流相关联的隐私限制来确定一个或多个音频流中的不受限音频流(902),并且基于与一个或多个音频流相关联的隐私限制来确定一个或多个音频流中的受限音频流(904)。在一个示例中,与一个或多个音频流相关联的隐私限制被嵌入在一个或多个音频流中。在该示例中,内容消费者设备14可以被配置为从一个或多个音频流中提取隐私限制。在另一个示例中,内容消费者设备14可以被配置为接收包括与一个或多个音频流相关联的隐私限制的元数据。
[0184]
内容消费者设备14然后可以生成不受限音频流的对应的相应声场(906),并且限制受限音频流的对应的相应声场的回放(908)。在一个示例中,为了限制受限音频流的对应的相应声场的回放,内容消费者设备14还被配置为切换关闭受限音频流。在另一个示例中,为了限制受限音频流的对应的相应声场的回放,内容消费者设备14还被配置为屏蔽受限音频流。在另一个示例中,为了限制受限音频流的对应的相应声场的回放,内容消费者设备14还被配置为使受限音频流无效。在另一个示例中,为了限制受限音频流的对应的相应声场的回放,内容消费者设备14被还配置成将声学封堵器应用于受限音频流。
[0185]
在本公开的另一个示例中,隐私限制指示一个或多个音频流中的一者或多者、一个或多个音频流中的一者或多者是受限的还是不受限的。在该示例中,内容消费者设备14还被配置为从多个隐私设置等级确定隐私设置等级,基于与一个或多个音频流相关联的隐私限制和隐私设置等级确定一个或多个音频流中的不受限音频流,以及基于与一个或多个音频流相关联的隐私限制和隐私设置等级确定一个或多个音频流中的受限音频流。
[0186]
在本公开的一个示例中,隐私限制指示一个或多个音频流中的单个音频流是受限的还是不受限的。在本公开的另一个示例中,隐私限制指示一个或多个音频流的音频流聚类是受限的还是不受限的,其中音频流聚类与一个或多个子声空间中的子声空间相关联。在隐私限制指示一个或多个音频流的音频流聚类是受限的还是不受限的示例中,隐私限制可指示来自第一音频元素聚类的相应音频流是受限或不受限,且隐私指令还可以指示来自第二音频元素聚类的相应音频流是否共享与第一音频元素聚类相同的隐私限制。
[0187]
在内容消费者设备14是xr头戴式受话器的示例中,内容消费者设备14可以包括被配置为呈现所显示的世界的头戴式显示器。在该示例中,隐私限制还可包括表示在所显示的世界中生成一个或多个音频流中的相应音频流的相应位置的相应音频元素位置信息。此外,在此示例中,内容消费者设备14还可以被配置为确定表示设备在所显示的世界中的位置的设备位置信息,基于设备位置信息和音频元素位置信息选择一个或多个音频流的子集,一个或多个音频流的子集排除一个或多个音频流中的至少一者,且基于一个或多个音频流的子集产生对应声场。
[0188]
图10图示了根据本公开的各方面的支持隐私限制的无线通信系统100的示例。无线通信系统100包括基站105、ue 115和核心网络130。在一些示例中,无线通信系统100可以是长期演进(lte)网络、高级lte(lte-a)网络、lte-a pro网络或新无线电(nr)网络。在一些情况下,无线通信系统100可以支持增强型宽带通信、超可靠(例如,任务关键)通信、低延时通信或与低成本和低复杂度设备的通信。
[0189]
基站105可以经由一个或多个基站天线与ue 115无线地通信。本文所述的基站105可以包括或者可以被本领域技术人员称为基站收发器、无线电基站、接入点、无线电收发器、nodeb、enodeb(enb)、下一代nodeb或千兆nodeb(这些中的任一者都可以称为gnb)、家庭nodeb、家庭enodeb或其他一些合适的术语。无线通信系统100可以包括不同类型的基站105(例如,宏小区基站或小小区基站)。本文所述的ue 115可以能够与各种类型的基站105和网络设备进行通信,包括宏enb、小小区enb、gnb、中继基站等。
[0190]
每个基站105可以与特定的地理覆盖区域110相关联,在该地理覆盖区域110中支持与各个ue 115的通信。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖,并且基站105和ue 115之间的通信链路125可以利用一个或多个载波。无线通
信系统100中示出的通信链路125可以包括从ue 115到基站105的上行链路传输,或者从基站105到ue 115的下行链路传输。下行链路传输也可以称为前向链路传输,而上行链路传输也可以被称为反向链路传输。
[0191]
可以将基站105的地理覆盖区域110划分为构成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以为宏小区、小小区、热点或其他类型的小区或其各种组合提供通信覆盖。在一些示例中,基站105可以是可移动的,因此为移动地理覆盖区域110提供通信覆盖。在一些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且与不同技术相关联的重叠的地理覆盖区域110可以由相同的基站105或不同的基站105来支持。无线通信系统100可以包括例如,异构lte/lte-a/lte-a pro或nr网络,其中不同类型的基站105为各种地理覆盖区域110提供覆盖。
[0192]
ue 115可以分散在整个无线通信系统100中,并且每个ue 115可以是固定的或移动的。ue 115也可以被称为移动设备、无线设备、远程设备、手持设备或订户设备,或一些其他合适的术语,其中“设备”也可以被称为单元、站、终端或客户端。ue 115还可以是个人电子设备,比如蜂窝电话、个人数字助理(pda)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中,ue 115可以是本公开中描述的音频源中的任何一个,包括vr头戴式受话器、xr头戴式受话器、ar头戴式受话器、车辆、智能电话、麦克风、麦克风阵列,或者包括麦克风或者能够发送捕获的和/或合成的音频流的任何其他设备。在一些示例中,合成音频流可以是存储在存储器中或先前创建或合成的音频流。在一些示例中,ue 115还可以指代无线本地环路(wll)站、物联网(iot)设备、万物联网(ioe)设备或mtc设备等,它们可以在各种制品中实现,比如电器、交通工具、仪表等。
[0193]
一些ue 115(比如mtc或iot设备)可以是低成本或低复杂度设备,并且可以提供机器之间的自动通信(例如,经由机器到机器(m2m)通信)。m2m通信或mtc可以指代允许设备在无需人工干预的情况下彼此通信或与基站105通信的数据通信技术。在一些示例中,m2m通信或mtc可以包括来自交换和/或使用音频元数据的设备的通信,该音频元数据指示隐私限制和/或嵌入式隐私限制以切换、屏蔽和/或无效各种音频流和/或音频源,如上所述。
[0194]
在一些情况下,ue 115也可以能够直接与其他ue 115通信(例如,使用对等(p2p)或设备对设备(d2d)协议)。利用d2d通信的一组ue 115中的一个或多个ue可以在基站105的地理覆盖区域110内。这种组中的其他ue 115可在基站105的地理覆盖区域110外部,或在其他情况下不能接收来自基站105的传输。在一些情况下,经由d2d通信进行通信的ue 115组可以利用一对多(1:m)系统,在该系统中,每个ue 115向该组中的每个其他ue 115进行传输。在一些情况下,基站105促进用于d2d通信的资源的调度。在其他情况下,在ue 115之间执行d2d通信而不涉及基站105。
[0195]
基站105可以与核心网络130通信并且可以彼此通信。例如,基站105可以通过回程链路132(例如,经由s1、n2、n3或其他接口)与核心网130相接。基站105可以在回程链路134上(例如,经由x2、xn或其他接口)直接(例如,在基站105之间直接)或间接(例如,经由核心网130)彼此通信。
[0196]
在一些情况下,无线通信系统100可以利用许可和未许可的射频谱带两者。例如,无线通信系统100可采用许可辅助接入(laa)、lte未许可(lte-u)无线电接入技术或比如5ghz ism频带的未许可的频带中的nr技术。当在未许可的射频谱带中进行操作时,比如基
站105和ue 115的无线设备可以采用对话前侦听(lbt)过程,以确保在传输数据之前频率信道是畅通的。在一些情况下,未许可频带中的操作可以基于载波聚合配置连同在许可频带(例如,laa)中操作的分量载波。未许可的频谱中的操作可以包括下行链路传输、上行链路传输、对等传输或这些传输的组合。未许可频谱中的双工可以基于频分双工(fdd)、时分双工(tdd)或两者的组合。
[0197]
下面描述本公开的其他说明性示例。
[0198]
示例1-一种被配置为处理多个音频流中的一个或多个音频流的设备,该设备包括:存储器,其被配置为存储该多个音频流及对应音频元数据,该音频流中的每一者表示声场,且该音频元数据包括用于该多个音频流中的一者或多者的隐私限制;以及一个或多个处理器,其耦合到该存储器,并且被配置为:基于该隐私限制从该音频元数据确定一个或多个音频流;以及基于该一个或多个音频流产生该对应声场。
[0199]
示例2-根据示例1的设备,其中,该一个或多个处理器还被配置为:基于该隐私限制从该音频元数据确定一个或多个受限音频流;并且不生成该一个或多个受限音频流的对应声场。
[0200]
示例3-根据示例1的设备,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0201]
示例4-根据示例1的设备,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0202]
示例5-根据示例4的设备,其中,该一个或多个处理器还被配置为:接收该多个隐私设置等级的隐私设置等级;解码该音频元数据;并访问相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者对应于所接收的隐私设置等级是受限的还是不受限的。
[0203]
示例6-根据示例1的设备,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0204]
示例7-根据示例6的设备,其中,该音频捕获设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0205]
示例8-根据示例6的设备,其中,该音频捕获设备可以包括移动设备。
[0206]
示例9-根据示例6的设备,其中,该音频元数据包括指示来自第一音频捕捉设备的音频流是受限的还是不受限的隐私限制。
[0207]
示例10-根据示例6的设备,其中,该音频元数据包括隐私限制,该隐私限制指示来自第一音频捕获设备聚类的音频流是受限的还是不受限的。
[0208]
示例11-根据示例10的设备,其中,该音频元数据包括指示来自第二音频捕获设备聚类的音频流与该第一音频捕获设备聚类共享相同的隐私限制的信息。
[0209]
示例12-根据示例1的设备,其中,该一个或多个处理器还被配置为:通过无线链路接收该多个音频流。
[0210]
示例13-根据示例12的设备,其中,该无线链路是5g空中接口。
[0211]
示例14-根据示例12的设备,其中,该无线链路是蓝牙接口。
[0212]
示例15-根据示例1-14的任意组合的设备,其中,该设备包括扩展现实头戴式受话器。
[0213]
示例16-根据示例1-15的任意组合的设备,还包括被配置为呈现所显示的世界的头戴式显示器。
[0214]
示例17-根据示例1-15的任意组合的设备,其中,该设备包括移动终端。
[0215]
示例18-根据示例1的设备,其中,该音频元数据还包括捕获位置信息,该捕获位置信息表示在所显示的世界中捕获该多个音频流中的对应一个的捕获位置,并且其中,该一个或多个处理器被配置为:确定表示该设备在该所显示的世界中的位置的位置信息;基于该位置信息和该捕获位置信息选择该多个音频流的子集,该多个音频流的子集不包括该多个音频流中的至少一者;以及基于该多个音频流的该子集生成对应声场。
[0216]
示例19-一种处理多个音频流中的一者或多者的方法,该方法包括:在存储器中存储该多个音频流和对应音频元数据,该音频流中的每一者表示声场,且该音频元数据包括该多个音频流中的一者或多者的隐私限制;由一个或多个处理器基于该隐私限制从该音频元数据确定一个或多个音频流;以及由该一个或多个处理器基于该一个或多个音频流生成对应声场。
[0217]
示例20-根据示例19的方法,还包括:基于该隐私限制从该音频元数据确定一个或多个受限音频流;以及不为该一个或多个受限音频流生成对应声场。
[0218]
示例21-根据示例19的方法,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0219]
示例22-根据示例19的方法,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0220]
示例23-根据示例22的方法,还包括:接收该多个隐私设置等级中的隐私设置等级;解码该音频元数据;以及访问相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者对应于所接收的隐私设置等级是受限的还是不受限的。
[0221]
示例24-根据示例19的方法,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0222]
示例25-根据示例24的方法,其中,该音频捕获设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0223]
示例26-根据示例24的方法,其中,该音频捕捉设备可以包括移动设备。
[0224]
示例27-根据示例24的方法,其中,该音频元数据包括隐私限制,该隐私限制指示来自第一音频捕捉设备的音频流是受限的还是不受限的。
[0225]
示例28-根据示例24的方法,其中,该音频元数据包括隐私限制,该隐私限制指示来自第一音频捕获设备聚类的音频流是受限的还是不受限的。
[0226]
示例29-根据示例28的方法,其中,该音频元数据包括指示来自第二音频捕捉设备聚类的音频流共享与第一音频捕捉设备聚类相同的隐私限制的信息。
[0227]
示例30-根据示例19的方法,还包括:通过无线链路接收多个音频流。
[0228]
示例31-根据示例30的方法,其中,该无线链路是5g空中接口。
[0229]
示例32-根据示例30的方法,其中,该无线链路是蓝牙接口。
[0230]
示例33-根据示例19-32的任意组合的方法,其中,该方法由扩展现实头戴式受话器执行。
[0231]
示例34-根据示例19-33的任意组合的方法,还包括:在头戴式显示器上呈现所显示的世界。
[0232]
示例35-根据示例19-32的任意组合的方法,其中,该方法由移动终端执行。
[0233]
示例36-根据示例19的方法,其中,该音频元数据还包括捕获位置信息,该捕获位置信息表示在所显示的世界中捕获该多个音频流中的对应一个的捕获位置,该方法还包括:确定表示该设备在所显示的世界中的位置的位置信息;基于该位置信息和该捕获位置信息来选择该多个音频流的子集,该多个音频流的子集不包括该多个音频流中的至少一者;以及基于该多个音频流的子集生成对应声场。
[0234]
示例37-一种被配置为处理多个音频流中的一者或多者的设备,该设备包括:用于存储该多个音频流和对应音频元数据的部件,该音频流中的每一者表示声场,且该音频元数据包括该多个音频流中的一者或多者的隐私限制;用于基于该隐私限制从该音频元数据确定一个或多个音频流的部件;以及用于基于该一个或多个音频流生成对应声场的部件。
[0235]
示例38-根据示例37的设备,还包括:用于基于该隐私限制从该音频元数据确定一个或多个受限音频流的部件;以及用于不为该一个或多个受限音频流生成对应声场的部件。
[0236]
示例39-根据示例37的设备,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0237]
示例40-根据示例37的设备,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0238]
示例41-根据示例40的设备,还包括:用于接收该多个隐私设置等级中的隐私设置等级的部件;用于解码该音频元数据的部件;以及用于访问相应的隐私限制的部件,该隐私限制指示该多个音频流中的一者或多者对应于所接收的隐私设置等级是受限的还是不受限的。
[0239]
示例42-根据示例37的设备,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0240]
示例43-根据示例42的设备,其中,该音频捕获设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0241]
示例44-根据示例42的设备,其中,该音频捕获设备可以包括移动设备。
[0242]
示例45-根据示例42的设备,其中,该音频元数据包括指示来自第一音频捕捉设备的音频流是受限的还是不受限的隐私限制。
[0243]
示例46-根据示例42的设备,其中,该音频元数据包括隐私限制,该隐私限制指示来自第一音频捕获设备聚类的音频流是受限的还是不受限的。
[0244]
示例47-根据示例46的设备,其中,该音频元数据包括指示来自第二音频捕获设备聚类的音频流与该第一音频捕获设备聚类共享相同的隐私限制的信息。
[0245]
示例48-根据示例47的设备,还包括:用于通过无线链路接收该多个音频流的部件。
[0246]
示例49-根据示例48的设备,其中,该无线链路是5g空中接口。
[0247]
示例50-根据示例48的设备,其中,该无线链路是蓝牙接口。
[0248]
示例51-根据示例37-50的任意组合的设备,其中,该设备是扩展现实头戴式受话器。
[0249]
示例52-根据示例37-51的任意组合的设备,还包括:用于呈现所显示的世界的部件。
[0250]
示例53-根据示例37-50的任意组合的设备,其中,该设备是移动终端。
[0251]
示例54-根据示例37的设备,其中,该音频元数据还包括捕获位置信息,该捕获位置信息表示在所显示的世界中捕获该多个音频流中的对应一个的捕获位置,该设备还包括:用于确定表示该设备在所显示的世界中的位置的位置信息的部件;用于基于该位置信息和该捕获位置信息来选择该多个音频流的子集的部件,该多个音频流的子集不包括该多个音频流中的至少一者;以及用于基于该多个音频流的子集生成对应声场的部件。
[0252]
示例55-一种非暂时性计算机可读存储媒体,其上存储有指令,该指令在被执行时使一个或多个处理器:存储多个音频流及对应音频元数据,该音频流中的每一者表示声场,且该音频元数据包括用于该多个音频流中的一者或多者的隐私限制;基于该隐私限制从该音频元数据确定一个或多个音频流;以及基于该一个或多个音频流产生该对应声场。
[0253]
示例56-根据示例55的非暂时性计算机可读存储介质,其中,该指令还使该一个或多个处理器:基于该隐私限制从该音频元数据确定一个或多个受限音频流;并且不生成该一个或多个受限音频流的对应声场。
[0254]
示例57-根据示例55的非暂时性计算机可读存储介质,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0255]
示例58-根据示例55的非暂时性计算机可读存储介质,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0256]
示例59-根据示例58的非暂时性计算机可读存储介质,其中,该指令还使该一个或多个处理器:接收该多个隐私设置等级的隐私设置等级;解码该音频元数据;并访问相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者对应于所接收的隐私设置等级是受限的还是不受限的。
[0257]
示例60-根据示例55的非暂时性计算机可读存储介质,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0258]
示例61-根据示例60的非暂时性计算机可读存储介质,其中,该音频捕捉设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0259]
示例62-根据示例60的非暂时性计算机可读存储介质,其中,该音频捕捉设备可以包括移动设备。
[0260]
示例63-根据示例60的非暂时性计算机可读存储介质,其中,该音频元数据包括隐私限制,该隐私限制指示来自第一音频捕捉设备的音频流是受限的还是不受限的。
[0261]
示例64-根据示例60的非暂时性计算机可读存储介质,其中,该音频元数据包括隐私限制,该隐私限制指示来自第一音频捕获设备聚类的音频流是受限的还是不受限的。
[0262]
示例65-根据示例64的非暂时性计算机可读存储介质,其中,该音频元数据包括指示来自第二音频捕获设备聚类的音频流与该第一音频捕获设备聚类共享相同的隐私限制的信息。
[0263]
示例66-根据示例55的非暂时性计算机可读存储介质,其中,该指令还使该一个或多个处理器:通过无线链路接收该多个音频流。
[0264]
示例67-根据示例66的非暂时性计算机可读存储介质,其中,该无线链路是5g空中接口。
[0265]
示例68-根据示例66的非暂时性计算机可读存储介质,其中,该无线链路是蓝牙接口。
[0266]
示例69-根据示例55-68的任意组合的非暂时性计算机可读存储介质,其中,该一个或多个处理器是扩展现实头戴式受话器的一部分。
[0267]
示例70-根据示例55-69的任意组合的非暂时性计算机可读存储介质,其中,该一个或多个处理器是被配置为呈现所显示的世界的头戴式显示器的一部分。
[0268]
示例71-根据示例55-68的任意组合的非暂时性计算机可读存储介质,其中,该一个或多个处理器是移动终端的一部分。
[0269]
示例72-根据示例55的非暂时性计算机可读存储介质,其中,该音频元数据还包括捕获位置信息,该捕获位置信息表示在所显示的世界中捕获该多个音频流中的对应一个音频流的捕获位置,并且其中,该指令还使得该一个或多个处理器:确定表示该设备在该所显示的世界中的位置的位置信息;基于该位置信息和该捕获位置信息选择该多个音频流的子集,该多个音频流的子集不包括该多个音频流中的至少一者;以及基于该多个音频流的该子集生成对应声场。
[0270]
示例73-一种被配置为传输多个音频流的设备,该设备包括:存储器,其被配置为存储该多个音频流和对应音频元数据,该音频流中的每一者表示声场;以及一个或多个处理器,其耦合到该存储器,并且被配置为:为该多个音频流生成包括隐私限制的音频元数据。
[0271]
示例74-根据示例73的设备,其中,该一个或多个处理器还被配置为:将该音频元数据传输到内容消费者设备。
[0272]
示例75-根据示例73的设备,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0273]
示例76-根据示例75的设备,其中,为了生成该音频元数据,该一个或多个处理器被配置为:从该多个音频流中确定一个或多个不受限音频流和一个或多个受限音频流。
[0274]
示例77-根据示例73的设备,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0275]
示例78-根据示例77的设备,其中,该一个或多个处理器还被配置为:生成用于该内容消费者设备的该多个隐私设置等级中的隐私设置等级;以及向该内容消费者设备传输该隐私设置等级。
[0276]
示例79-根据示例73的设备,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0277]
示例80-根据示例79的设备,其中,该音频捕获设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0278]
示例81-根据示例79的设备,其中,该音频捕获设备可以包括移动设备。
[0279]
示例82-根据示例79的设备,其中,为了生成该音频元数据,该一个或多个处理器被配置为:生成包括隐私限制的该音频元数据,该隐私限制指示来自第一音频捕捉设备的音频流是受限的还是不受限的。
[0280]
示例83-根据示例79的设备,其中,为了生成该音频元数据,该一个或多个处理器被配置为:生成包括隐私限制的该音频元数据,该隐私限制指示来自第一音频捕捉设备聚类的音频流是受限的还是不受限的。
[0281]
示例84-根据示例79的设备,其中,为了生成该音频元数据,该一个或多个处理器被配置为:生成包括指示来自第二音频捕捉设备聚类的音频流共享与第一音频捕捉设备聚类相同的隐私限制的信息的该音频元数据。
[0282]
示例85-根据示例73-84的任意组合的设备,其中,该设备包括内容捕获设备。
[0283]
示例86-根据示例73-85的任意组合的设备,其中,该设备包括移动终端。
[0284]
示例87-根据示例73的设备,其中,该一个或多个处理器还被配置为:通过无线链路传输该多个音频流。
[0285]
示例88-根据示例87的设备,其中,该无线链路是5g空中接口。
[0286]
示例89-根据示例87的设备,其中,该无线链路是蓝牙接口。
[0287]
示例90-处理多个音频流中的一者或多者的方法,该方法包括:由存储器存储该多个音频流和对应音频元数据,该音频流中的每一者表示声场;以及由一个或多个处理器生成包括该多个音频流的隐私限制的音频元数据。
[0288]
示例91-根据示例90的方法,还包括:将该音频元数据传输到内容消费者设备。
[0289]
示例92-根据示例90的方法,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0290]
示例93-根据示例92的方法,其中,生成该音频元数据包括:从该多个音频流中确定一个或多个不受限音频流和一个或多个受限音频流。
[0291]
示例94-根据示例90的方法,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0292]
示例95-根据示例94的方法,还包括:为该内容消费者设备生成该多个隐私设置等级中的隐私设置等级;以及向该内容消费者设备传输该隐私设置等级。
[0293]
示例96-根据示例90的方法,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0294]
示例97-根据示例96的方法,其中,该音频捕获设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0295]
示例98-根据示例96的方法,其中,该音频捕捉设备可以包括移动设备。
[0296]
示例99-根据示例96的方法,其中,生成该音频元数据包括:生成包括隐私限制的该音频元数据,该隐私限制指示来自第一音频捕捉设备的音频流是受限的还是不受限的。
[0297]
示例100-根据示例96的方法,其中,生成该音频元数据包括:生成包括隐私限制的该音频元数据,该隐私限制指示来自第一音频捕捉设备聚类的音频流是受限的还是不受限的。
[0298]
示例101-根据示例96的方法,其中,生成该音频元数据包括:生成包括指示来自第
二音频捕获设备聚类的音频流共享与该第一音频捕获设备聚类相同的隐私限制的信息的该音频元数据。
[0299]
示例102-根据示例90-101的任意组合的方法,其中,该方法由内容捕获设备执行。
[0300]
示例103-根据示例90-102的任意组合的方法,其中,该方法由移动终端执行。
[0301]
示例104-根据示例90的方法,还包括:通过无线链路传输该多个音频流。
[0302]
示例105-根据示例104的方法,其中,该无线链路是5g空中接口。
[0303]
示例106-根据示例104的方法,其中,该无线链路是蓝牙接口。
[0304]
示例107-一种被配置为处理多个音频流中的一者或多者的设备,该设备包括:用于存储该多个音频流和对应音频元数据的部件,该音频流中的每一者表示声场;以及用于生成包括该多个音频流的隐私限制的音频元数据的部件。
[0305]
示例108-根据示例107的设备,还包括:用于将该音频元数据传输到内容消费者设备的部件。
[0306]
示例109-根据示例107的设备,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0307]
示例110-根据示例109的设备,其中,用于生成音频元数据的部件包括:用于从该多个音频流中确定一个或多个不受限音频流和一个或多个受限音频流的部件。
[0308]
示例111-根据示例107的设备,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0309]
示例112-根据示例111的设备,还包括:用于为该内容消费者设备生成该多个隐私设置等级中的隐私设置等级的部件;以及用于向该内容消费者设备传输该隐私设置等级的部件。
[0310]
示例113-根据示例107的设备,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0311]
示例114-根据示例113的设备,其中,该音频捕获设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0312]
示例115-根据示例113的设备,其中,该音频捕获设备可以包括移动设备。
[0313]
示例116-根据示例113的设备,其中,用于生成该音频元数据的部件包括:用于生成包括隐私限制的该音频元数据的部件,该隐私限制指示来自第一音频捕捉设备的音频流是受限的还是不受限的。
[0314]
示例117-根据示例113的设备,其中,用于生成该音频元数据的部件包括:用于生成包括隐私限制的该音频元数据的部件,该隐私限制指示来自第一音频捕捉设备聚类的音频流是受限的还是不受限的。
[0315]
示例118-根据示例113的设备,其中,用于生成音频元数据的部件包括:用于生成包括指示来自第二音频捕获设备聚类的音频流共享与该第一音频捕获设备聚类相同的隐私限制的信息的该音频元数据的部件。
[0316]
示例119-根据示例107-118的任意组合的设备,其中,该设备是内容捕获设备。
[0317]
示例120-根据示例107-119的任意组合的设备,其中,该设备是移动终端。
[0318]
示例121-根据示例107的设备,还包括:用于通过无线链路传输该多个音频流的部
件。
[0319]
示例122-根据示例121的设备,其中,该无线链路是5g空中接口。
[0320]
示例123-根据示例121的设备,其中,该无线链路是蓝牙接口。
[0321]
示例124-其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使得一个或多个处理器:存储该多个音频流和对应音频元数据,该音频流中的每一者表示声场;以及生成包括该多个音频流的隐私限制的音频元数据。
[0322]
示例125-根据示例124的非暂时性计算机可读存储介质,其中,指令还使一个或多个处理器:将该音频元数据传输到内容消费者设备。
[0323]
示例126-根据示例125的非暂时性计算机可读存储介质,其中,该隐私限制指示该多个音频流中的一者或多者是受限的还是不受限的。
[0324]
示例127-根据示例126的非暂时性计算机可读存储介质,其中,为了生成该音频元数据,该指令还使得该一个或多个处理器:从该多个音频流中确定一个或多个不受限音频流和一个或多个受限音频流。
[0325]
示例128-根据示例124的非暂时性计算机可读存储介质,其中,该音频元数据还包括相应隐私限制,该相应隐私限制指示该多个音频流中的一者或多者针对多个隐私设置等级中的每一者是受限的还是不受限的。
[0326]
示例129-根据示例128的非暂时性计算机可读存储介质,其中,指令还使一个或多个处理器:生成用于该内容消费者设备的该多个隐私设置等级中的隐私设置等级;以及向该内容消费者设备传输该隐私设置等级。
[0327]
示例130-根据示例124的非暂时性计算机可读存储介质,其中,该多个音频流包括来自音频捕获设备或音频捕获设备聚类中的一个或多个的音频流。
[0328]
示例131-根据示例130的非暂时性计算机可读存储介质,其中,该音频捕捉设备可以包括单个麦克风和麦克风阵列中的一者或多者。
[0329]
示例132-根据示例130的非暂时性计算机可读存储介质,其中,该音频捕捉设备可以包括移动设备。
[0330]
示例133-根据示例130的非暂时性计算机可读存储介质,其中,为了生成该音频元数据,该指令还使得该一个或多个处理器:生成包括隐私限制的该音频元数据,该隐私限制指示来自第一音频捕捉设备的音频流是受限的还是不受限的。
[0331]
示例134-根据示例130的非暂时性计算机可读存储介质,其中,为了生成该音频元数据,该指令还使得该一个或多个处理器:生成包括隐私限制的该音频元数据,该隐私限制指示来自第一音频捕捉设备聚类的音频流是受限的还是不受限的。
[0332]
示例135-根据示例130的非暂时性计算机可读存储介质,其中,为了生成该音频元数据,该指令还使得该一个或多个处理器:生成包括指示来自第二音频捕捉设备聚类的音频流共享与第一音频捕捉设备聚类相同的隐私限制的信息的该音频元数据。
[0333]
示例136-根据示例124-135的任意组合的非暂时性计算机可读存储介质,其中,该一个或多个处理器是内容捕获设备的一部分。
[0334]
示例137-根据示例124-136的任意组合的非暂时性计算机可读存储介质,其中,该一个或多个处理器是移动终端的一部分。
[0335]
示例138-根据示例124的非暂时性计算机可读存储介质,其中,该指令还使得该一
个或多个处理器:通过无线链路传输该多个音频流。
[0336]
示例139-根据示例138的非暂时性计算机可读存储介质,其中,该无线链路是5g空中接口。
[0337]
示例140-根据示例138的非暂时性计算机可读存储介质,其中,该无线链路是蓝牙接口。
[0338]
在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任意组合中实施。如果在软件中实施,这些功能可以作为一个或多个指令或代码存储或传输到计算机可读介质上并由基于硬件的处理单元运行。计算机可读介质可以包括与比如数据存储介质的有形介质对应计算机可读存储介质,或包括例如,根据通信协议促进将计算机程序从一个地方转移到另一个地方的任何介质的通信介质。以此方式,计算机可读媒介通常可对应于(1)非暂时性的有形计算机可读存储媒介或(2)比如信号或载波的通信媒介。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以取回指令、代码和/或数据结构以用于实施本公开中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。
[0339]
作为示例而不受限,这种计算机可读存储介质可以包括ram、rom、eeprom、cd-rom或其他光盘存储、磁盘存储或其他磁性存储设备、闪存或可以用于以指令或数据结构形式存储所需程序代码并且可以由计算机访问的任何其他介质。此外,任何连接都适当地被称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)或无线技术(比如红外线、无线电以及微波)从网站、服务器或其他远程源传输的,则同轴电缆、光纤电缆、双绞线、dsl或无线技术(比如红外线、无线电以及微波)都被包括在介质的定义中。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质,而是指向非暂时性有形存储介质。如本技术中使用的磁盘和光盘包括压缩光盘(cd)、激光光盘、光学光盘、数字多功能光盘(dvd)、软盘和蓝光光盘,其中,磁盘通常以磁性方式重现数据,而光盘用激光光学地重现数据。上述的组合也应包括在计算机可读介质的范围内。
[0340]
指令可以由一个或多个处理器执行,比如一个或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、现场可编程门阵列(fpga)或其他等效集成的或分立逻辑电路。相应地,如本文所使用的术语“处理器”可以指前述结构的任何一种或适合于实施本文描述的技术的任何其他结构。此外,在一些方面,本文描述的功能性可以在被配置为用于编码和解码的专用硬件和/或软件模块中提供,或者被结合在组合编解码器中。同样,所述技术可以在一个或多个电路或逻辑元件中完全实现。
[0341]
本公开的技术可实施于多种设备或装置中,包括无线手持机、集成电路(ic)或一组ic(例如,芯片集)。在本公开中描述了各种组件、模块或单元,以强调被配置为执行所公开的技术的设备的各功能方面,但是不一定要求通过不同的硬件单元来实现。相反,如上所述,各种单元可以被组合在编码解码器硬件单元中,或者由包括如上所述的一个或多个处理器的互操作硬件单元的集合,结合合适的软件和/或固件来提供。
[0342]
已经描述了各种示例。这些和其他示例在所附权利要求的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1