重构360度音频/视频文件的方法和装置与流程

文档序号:15521848发布日期:2018-09-25 19:40阅读:167来源:国知局

本发明有关于从多个捕获设备产生的多个音频和视频轨道的360度音频和视频重构(reconstruction)。具体地说,本发明涉及不同音频和视频轨道(track)之间的音频和视频同步。



背景技术:

360度视频,也称为沉浸式视频(immersivevideo),是一种新兴的技术,它能提供“感觉身临其境(feelingassensationofpresent)”。通过围绕用户覆盖全景(panoramicview)的环绕场景,特别是360度视野,使用户获得沉浸感。“感觉身临其境”可以进一步通过立体渲染来提高。因此,全景视频被广泛应用于虚拟现实(virtualreality,vr)应用中。

360度视频涉及使用多台摄像机来捕获一个场景,以覆盖全景,如360度视野。伴随着音频,一组相机(或捕获设备)被安排捕获每个视频的360度视野。通常两个或更多捕获设备用于捕获与相关音频的360度视频。来自多个捕获设备的视频和音频被用来形成重构的360度视频和重构的360度音频。在本发明中,来自每个捕获设备的音频和视频分别被称为音频轨道和视频轨道。

在360度音频/视频录制方案中,从多个捕获设备记录的视频和音频轨道需要对齐(aligned)。每个捕获设备可以使用自己的设置。360度音频和360度视频也分别被缩写为“360音频”和“360视频”。通常每个捕获设备都可以在自己的时钟上操作,并且在不同的捕获设备之间没有共同时钟(commonclock)。因此,来自各种捕获设备的音频/视频轨道可能不是对齐的。也有其他因素造成的各种捕获设备之间的对齐问题。例如,捕获设备的设备设置可能是不同的。

图1为在360度音频和视频重构处理中的对齐问题的方案。如图1所示,使用n个捕获设备(110-1,110,…,110-n)以及n是等于或大于2的整数。每个捕获设备产生相应的音频轨道(120-1,120-2,…,或120-n)和相应的视频轨道(130-1,130-2,…,或130-n)。这些音频轨道被提供给360度音频重构单元140,以生成重构的360度音频,这些视频轨道被提供给360度视频重构单元150,以生成重构的360度视频。重构的360度音频和重构的360度视频都被包含在360度文件160中。由于不同的捕获设备的音频轨道和视频轨道可能是不同步的,对于360度音频重构和360度视频重构来说,如何同步这些音频和视频轨道成为一个问题。

在该领域中众所周知各种各样的360度音频重构技术。例如,音频信号处理可以作为产生360度音频的一种手段,用来产生空间音频(spatialaudio)。关于360度音频重构,用户可以根据他/她的观看方向听到声音,实现身临其境的声音体验。有多种不同的360度音频形式被广泛使用,如基于信道的,基于对象的或基于场景的。在本领域中,已知各种图像/视频拼接技术。也有各种虚拟现实视频格式(vrvideoformats)或各种360度视频格式,如球形格式(sphericalformat)和立方格式(cubicformat)。这些技术是本领域已知的技术。由于本发明的重点是在各种音频/视频轨道之间的同步问题,因此在本申请中省略360度音频重构和360度视频重构的细节。

由于各种音频/视频轨道之间的同步问题,因此希望开发出音频/视频对齐技术,以正确对齐来自各种捕获设备的音频/视频轨道,以提高重构的360度音频和视频的质量。



技术实现要素:

有鉴于此,本发明提供一种重构360度音频/视频文件的方法和装置。

依据本发明一实施方式,提供一种重构360度音频/视频文件的方法,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,包括:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道与所述第二音频轨道和所述第二视频轨道分别对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。

依据本发明另一实施方式,提供一种重构360度音频/视频文件的装置,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,包括:所述装置包括一个或多个电子电路或处理器,并用于执行以下步骤:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道与所述第二音频轨道和所述第二视频轨道对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。

本发明所提供的重构360度音频/视频文件的方法和装置,能够正确对齐来自各种捕获设备的音频/视频轨道,并提高重构的360度音频和视频的质量。

对于已经阅读后续由各附图及内容所显示的较佳实施方式的本领域的技术人员来说,本发明的各目的是明显的。

附图说明

图1为在360度音频和视频重构处理中的对齐问题的方案,其中来自n个捕获设备的n个音频/视频轨道被重构以分别形成360度音频和360度视频,以及音频/视频轨道可能会偏移。

图2为基于对齐技术的波峰的实施例,在音频轨道#1中的波峰和在音频轨道#2中的相应的波峰被识别并用于音频对齐。

图3为基于信号能量的特征段检测的实施例,其中在音频轨道#1检测到三个特征段,以及在音频轨道#2检测到相应的三个特征段。

图4为使用尺度不变特征变换(sift)的视频拼接的实施例。

图5为根据本发明的实施例的方案1的音频/视频对齐处理的示例,其中检测到明显特征段,并且没有检测到明显对象运动。

图6a为根据本发明的方案1的一实施例的基于明显特征段的音频同步点确定的示例,其中在音频轨道#1和音频轨道#2中检测到明显特征信号。

图6b为根据本发明的方案1的一实施例的使用音频同步点的音频轨道和视频轨道对齐的示例。

图7为根据本发明一实施例的方案2的音频/视频对齐处理的示例,其中没有检测到明显特征段,但检测到明显对象运动。

图8a为根据本发明的方案2的一实施例的基于明显对象运动的音频同步点确定的示例,其中在视频轨道#1和视频轨道#2检测到明显对象运动。

图8b为根据本发明的方案2的一实施例的音频/视频对齐的示例,其中使用视频同步点来辅助音频对齐。

图9为根据本发明一实施例的方案3的音频/视频对齐处理的示例,其中检测到明显特征音频信号和明显对象运动。

图10为根据本发明一实施例的方案4的音频/视频对齐处理的示例,其中没有检测到明显特征音频信号和明显对象运动。

图11为根据本发明一实施例的系统重构由多个捕获设备从多个音频/视频轨道捕获的360度音频/视频(av)文件的流程图。

具体实施方式

下面的描述为实施本发明的示范性实施例。以下实施例仅用来说明本发明的一般原理,并非用来限制本发明的范围。本发明的范围应以权利要求书所界定的为准。

如前所述,通常使用多个与独立视角(separateperspective)相关的捕获设备来捕获360度音频和视频。个别(individual)音频和视频轨道被重构,以形成360度音频和视频。根据现有技术,当音频/视频捕获开始时,通过刻意制作出的声音造成在音频上的波峰(wavespike),来对齐音频轨道,其中可以制作出的声音可以是拍板声或人声,或其他。这两个声波,然后手动对齐。图2为基于对齐技术的波峰的实施例。在音频轨道#1中的波峰210和在音频轨道#2中的相应的波峰220被识别。如图2左侧部分所示,这两个波峰(即,210和220)是有偏移的。由于这两个波峰对应于同一时间发生的声音,因此,这两个波峰(即,210和220)应当对齐,如图2的右侧部分所示。这种技术可能不适合所有的场合,因为它需要在录音开始时产生一个明显的声音。

有一个类似的技术,其使用自动音频对齐。根据这种自动音频对齐技术,使用音频匹配技术(例如,自相关)自动识别音频轨道中的特征段(featuredsegment)。如音频熵计算、信号能量或信号噪声(snr)等各种技术,可以用来区分“特征段”和噪声。如图3所示,在音频轨道#1中检测到三个特征段310以及在音频轨道#1中检测到相应的三个特征段320。在图3的左侧部分显示了两个音频轨道的特征段之间的偏移。在候选特征段之间应用自相关,以实现自动音频对齐。在图3中,两个音频轨道被对齐,如图3右侧部分所示。虽然自动音频对齐可以在不需手动处理的情况下对齐音频轨道,但是这种方法存在几个问题。例如,在特征段检测期间,信号阈值可能设置得太高,因此没有检测到匹配的特征段。另一方面,信号阈值也可能设置得太低,使得检测到太多的特征段以进行匹配,这将导致计算复杂度过高。

通过“拼接(stitching)”来自捕获设备的视频轨道来重构360度视频。在现有技术中存在多种拼接技术。在两个图像可以被拼接之前,两个图像之间的对应关系(correspondence)必须被识别(即,配准(registration))。例如,可以使用基于特征的配准和拼接,其中两个图像(特别是在两个图像之间的重叠区域)的对应的特征相匹配,以确定对应关系。这两个图像,然后可以根据匹配的特征来进行拼接。尺度不变特征变换(scale-invariantfeaturetransform,sift)是一种常用的图像拼接技术。图4为使用sift的视频拼接的实施例。图像410表示来自视频轨道#1的图像和图像420代表来自视频轨道#2的图像。识别该对图像430的特征点(即关键点432)。这两个图像的单色对照440和拼接全景图450,如图4所示。对于从不同的视频轨道进行的360度视频拼接,当方案是静态的时,难以确定视频同步点。

为了改善不同音频/视频轨道之间的音频/视频同步,以便产生更好的360度音频/视频重构,本发明公开了利用音频和视频信息进行自动360度音频/视频重构的技术。虽然常规方法只检查是否可以确定音频同步点,本发明进一步利用视频轨道导出视频同步点。基于音频同步点和视频同步点的组合条件,可以选择合适的音频/视频对齐处理来调整音频轨道和视频轨道。本发明公开了音频同步点和视频同步点的各种条件的对齐处理。

方案1:在音频的辅助下同步视频

在这种情况下,为音频轨道检测明显特征音频信号,但是,在视频轨道中没有检测到明显物体运动。因此,可确定音频同步点并用于辅助视频轨道的视频对齐。

图5为根据本发明的实施例的方案1的音频/视频对齐处理的示例。将360度音频/视频(audio/video,av)捕获数据510提供给对齐处理。360度音频/视频捕获数据510可以对应于预先录制的360度音频/视频数据或来自捕获设备的现场360度音频/视频数据。可以通过无线链路(例如wifi)从捕获设备提供360度音频/视频捕获数据。在步骤520中对音频轨道执行明显特征信号检测。例如,前面提到的自动特征分割可以用于从音频轨道中提取特征片段。在这种情况下,信号能量可以与阈值进行比较(例如threshold_a),以确定在音频轨道中是否存在任何明显特征信号。另一方面,在步骤530中对视频轨道执行明显对象运动检测。例如,可以为每个视频轨道得出特征运动,如果运动超过阈值(例如threshold_v),则可以确定明显对象运动。从步骤520得到的音频的检测结果和从步骤530得到的视频的检测结果提供给步骤540,其中检查(check)是否存在任何明显特征信号,以及检查是否没有检测到明显对象运动(即方案1的两个条件)。如果两个条件都满足,通过从步骤540提供控制(即“是”路径),应用音频轨道的自相关处理(auto-correlationprocess)525和视频轨道的视频拼接处理535,以使能(enable)音频轨道的自相关处理525,以及使能视频轨道的视频拼接处理535。否则(即步骤540中的“否”路径),对齐处理结束。在这种情况下,它意味着满足其他条件以及其他对齐处理被应用到音频轨道和视频轨道。如图5所示,使用自相关处理525,相应地可以得到音频同步点以及可以对齐音频轨道。此外,音频同步点(即,sp_audio)的信息被提供给视频拼接处理535以辅助视频对齐。例如,最接近音频同步点的视频同步点(即sp_video)也可以选择来用于视频对齐。360重构音频和视频,然后被包括在360度音频/视频文件550中。

图6a和图6b为根据本发明的方案1的一实施例的音频/视频对齐的示例。如图6a所示,360度音频/视频捕获数据包括音频轨道#1、视频轨道#1、音频轨道#2和视频轨道#2。在音频轨道#1和音频轨道#2检测到明显特征信号(610-1和610-2)。这些明显特征信号可以用来确定音频同步点。可以使用自相关处理525来获得音频同步点,音频同步点也可以用来对齐音频轨道。另一方面,在视频轨道没有检测到明显对象运动。因此,根据上述实施例的音频/视频对齐被应用于音频轨道和视频轨道。如图6b所示,根据音频同步点对齐多个音频/视频轨道。根据音频同步点对齐相应的视频轨道。如图6b所示,两个音频/视频轨道大约偏移1个视频帧周期。在这种情况下,视频同步点可以被选为与音频同步点最近的一个。

方案2:在视频的辅助下同步音频

在本方案中,在音频轨道没有检测到明显特征音频信号,但是,在视频轨道检测到明显对象运动。因此,确定视频同步点并用于辅助音频轨道的音频对齐。

图7为根据本发明一实施例的方案2的音频/视频对齐处理的示例。360度音频/视频捕获数据710被提供给对齐处理。在步骤720中对音频轨道执行明显特征信号检测。另一方面,在步骤730中对视频轨道执行明显对象运动检测。从步骤720得到的音频的检测结果和从步骤730得到的视频的检测结果被提供给步骤740,其中检查是否没有检测到明显特征信号,以及检查是否存在任何明显对象运动(即方案2的两个条件)。如果两个条件都满足,通过从步骤740提供控制(即“是”路径),应用音频轨道的自相关处理725和视频轨道的视频拼接处理735,以使能音频轨道的自相关处理725,以及使能视频轨道的视频拼接处理735。否则(即步骤740中的“否”路径),对齐处理结束。在这种情况下,它意味着满足另一个条件以及其他对齐处理被应用到音频轨道和视频轨道。如图7所示,使用具有特征匹配的视频拼接处理735,相应地可以得到视频同步点以及可以对齐视频轨道。此外,视频同步点(即sp_video)的信息被提供给音频自相关处理725以辅助音频对齐。例如,视频同步点(即sp_video)可以作为音频自相关的参考起点。由于视频采样点(如视频时间戳)比音频自相关处理的起点要粗得多(muchcoarser),可能需要更精细(finer)的音频对齐方式。有了已知的视频同步点,它可以减少音频自相关的搜索范围。360重构音频和视频,然后被包括在360度音频视频文件750中。

图8a和图8b为根据本发明的方案2的一实施例的音频/视频对齐的示例。如图8a所示,360度音频/视频捕获的数据包括音频轨道#1、视频轨道#1、音频轨道#2和视频轨道#2。在音频轨道#1和音频轨道#2没有明显检测到明显特征信号。然而,在视频轨道检测到明显对象运动。例如,在视频轨道#1的帧1和帧2之间检测到明显运动。在视频轨道#2的帧2和帧3之间也检测到相应的明显运动。由于多个捕获设备的配置是已知的,相邻摄像机的重叠区域可以被确定。对象检测和运动估计至少可以应用于给定摄像机的连续帧的重叠区域。重叠区域中明显对象运动可以据此确定。因此,通过对齐视频轨道#1的帧1和视频轨道#2的帧2,可以确定视频同步点以及可以对齐视频轨道,如图8b所示。相似地,视频轨道#1的帧2可与视频轨道#2的帧3对齐。音频轨道首先根据视频同步点对齐。音频自相关可以使用视频同步点作为参考起点以加快进程。

方案3:具有明显视频运动和明显特征音频信号的同步

在本方案中,在音频轨道中检测到明显特征音频信号,并且在视频轨道中检测到明显对象运动。因此,确定视频同步点和音频同步点并用于音频和视频对齐。

图9为根据本发明一实施例的方案3的音频/视频对齐处理的示例。360度音频/视频捕获数据910被提供给对齐处理。在步骤920中对音频轨道执行明显特征信号检测。另一方面,在步骤930中对视频轨道执行明显对象运动检测。从步骤920得到的音频的检测结果和从步骤930得到的视频的检测结果被提供给步骤940,其中检查是否检测到任何明显特征信号,以及检查是否检测到任何明显对象运动(即方案3的两个条件)。如果两个条件都满足,通过从步骤940提供控制(即“是”路径),应用音频轨道的自相关处理925和视频轨道的具有特征匹配的视频拼接处理935,以使能音频轨道的自相关处理925,以及使能视频轨道的视频拼接处理935。否则(即从步骤940的“否”路径),对齐处理结束。在这种情况下,它意味着满足另一个条件,并且其他对齐处理被应用到音频轨道和视频轨道。可以得出音频同步点和视频同步点。使用具有特征匹配的视频拼接处理935,可以相应地对齐视频轨道,如图9所示。此外,视频同步点(即sp_video)的信息被提供给音频自相关处理925以辅助音频对齐。可以应用基于音频/视频同步的音频同步点,以及可以确定匹配音频/视频误差(简称error_1)。可以应用基于音频/视频对齐的视频同步点,以及也可以确定匹配音频/视频误差(简称error_2)。基于对齐的音频同步点的匹配的音频/视频误差(即error_1)和基于对齐的视频同步点的匹配的音频/视频误差(即error_2)可进行比较。具有较低匹配音频/视频误差的360重构音频和视频被包括在360度文件950中。当在音频轨道中检测到明显特征信号,并且在视频轨道中检测到明显对象运动时,得到的音视频同步点和视频同步点可能不匹配。因此,在另一实施例中,在步骤942中检查音频同步点和视频同步点是否匹配。如果同步点匹配(即,从步骤942的“是”路径),根据音频或视频同步点,实现了较低匹配音频/视频误差的360重构音频和视频被包括在360度文件950中。否则(即从步骤942的“否”路径),在步骤944中执行处理以找到更好的同步点。例如,通过对随后的音频/视频数据再次执行步骤920和930,直到找到更好的同步点为止,可以找到更好的同步点。换句话说,本发明的实施例选择最佳同步点,以在音频同步点和视频同步点之间达到最低匹配误差。

方案4:没有明显视频运动和没有明显特征音频信号的同步

在本方案中,在音频轨道中没有检测到明显特征音频信号,并且在视频轨道中没有检测到明显对象运动。

图10为根据本发明一实施例的方案4的音频/视频对齐处理的示例。360度音频/视频捕获数据1010被提供给对齐处理。在步骤1020中对音频轨道执行明显特征信号检测。另一方面,在步骤1030中对视频轨道执行明显对象运动检测。从步骤1020得到的音频的检测结果和从步骤1030得到的视频的检测结果被提供给步骤1040,其中检查是否没有检测到明显特征信号,以及检查是否没有检测到明显对象运动(即方案4的两个条件)。如果两个条件都满足,则降低该音频阈值(即threshold_a),比提供新的threshold_a给明显特征信号检测1044,以执行明显特征信号检测。检测结果被提供给步骤1046,检查是否检测到明显特征信号。如果检测盗明显特征信号(即从步骤1046的“是”路径),通过从步骤1040提供控制(即“是”路径),应用音频轨道的自相关处理1025和视频轨道的视频拼接处理1035,以使能音频轨道的自相关处理1025,以及使能视频轨道的视频拼接处理1035。否则(即从步骤1046“否”的路径),该音频阈值(即threshold-a)被再次降低,直到检测到明显特征信号。由于可以得到音频同步点,因此可以根据音频同步点对齐视频轨道,以及使用基于音频同步点的视频拼接1035,可以拼接对齐的视频轨道,如图10所示。例如,最接近音频同步点的视频同步点可用于视频对齐。在步骤1040中,如果结果是“否”,则进程结束。在这种情况下,它意味着满足另一个条件和其他对齐处理应用到音频轨道和视频轨道。360重构音频和视频,然后被包括到360度音频/视频文件1050中。

图11为根据本发明一实施例的系统重构由多个捕获设备从多个音频/视频轨道捕获的360度音频/视频(av)文件的流程图。在流程图中显示的步骤以及本发明中的其他流程图,可由在编码器侧和/或解码器侧的一个或多个处理器(例如,一个或多个cpu)可执行的程序代码来实现。流程图中所示的步骤也可以基于硬件来实现,例如一个或多个电子设备或处理器,它们被布置以执行流程图中的步骤。根据该方法,在步骤1110,接收由多个捕获设备捕获的多个音频轨道和多个视频轨道,其中该多个音频轨道至少包括第一音频轨道和第二音频轨道,该多个视频轨道至少包括第一视频轨道和第二视频轨道,第一捕获设备捕获第一音频轨道和第一视频轨道,以及第二捕获设备捕获第二音频轨道和第二视频轨道。如图5、7、9和10所示,360度视频捕获数据(即,由多个捕获设备捕获的多个音频轨道和多个视频)被提供以进行明显特征信号检测和明显对象运动检测。在步骤1120中,检查关于“来自第一视频轨道和第二视频轨道的视频同步信息是否可用”的条件。此步骤包括图7中的步骤740和图9中的步骤940。在步骤1120中,如果满足条件(即“是”路径),则执行步骤1130至步骤1160。否则(即从步骤1120的“否”路径),处理结束。在这种情况下,它意味着满足另一个条件,并且其他对齐处理被应用到音频轨道和视频轨道上。在步骤1130中,通过使用视频同步信息,将第一音频轨道和第一视频轨道与第二音频轨道和第二视频轨道对齐。在步骤1140中,从包括第一音频轨道和第二音频轨道的对齐音频轨道生成360度音频,以及在步骤1150中,从包括第一视频轨道和第二视频轨道的对齐视频轨道生成360度视频。在步骤1160中,提供包括360度音频和360度视频的360度音频和视频数据。

本领域的技术人员可以修改每个步骤、重新安排步骤的顺序、拆分步骤或者结合某些步骤来实现本发明,而不脱离本发明的精神。

以上的描述是使本领域的技术人员在本文提供的特定应用和需求下能够实践本发明。本领域的技术人员将容易地观察到,在不脱离本发明的精神和范围内,可以进行多种修改和变动。因此,本发明并非限定在所示和描述的特定的实施例上,而本发明公开是为了符合原则和新颖性的最广泛的范围。在上述详细的描述中,各种具体的细节,用以提供对本发明的透彻的了解。尽管如此,将被本领域的技术人员理解的是,本发明能够被实践。

如上述所述的本发明的实施例,可以使用硬件、软件或其组合来实现。例如,本发明的一实施例可以是集成到视频压缩芯片中的电路或集成到视频压缩软件中的程序代码,以执行所描述的处理。本发明的实施例也可以是将在数字信号处理器上执行的程序代码来执行所描述的处理。本发明还涉及一系列的由计算机处理器、数字信号处理器、微处理器和现场可编程门阵列(fpga)执行的功能。根据本发明,这些处理器可以被配置为执行特定任务,通过执行定义特定方法的计算机可读软件代码或固件代码来实现。软件代码或固件代码可以用不同的编程语言和不同的格式或样式来开发。软件代码也可以为不同的目标平台所编译。然而,软件代码的不同的代码格式、风格和语言,以及配置代码的其他方式以执行任务,均不脱离本发明之精神和范围。

本发明可以以其它具体形式实施而不背离其精神或本质特征。所描述的实施例在所有方面都仅是说明性的而不是限制性。本发明的范围因此由所附权利要求为准而不是由前面的描述所界定。因此,各种修改、改编以及所描述的实施例的各种特征的组合可以在不脱离本发明的范围如权利要求书中阐述的情况下实施。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1