多视角视频传递的制作方法

文档序号：6569555阅读：183来源：国知局

专利名称：多视角视频传递的制作方法
多视角视频传递
背景
常规的单视角(single-view)视频流通常包括用一台数码照相机捕捉并编码为视频流以使其能被存储或实时传递的各帧。多台照相机可用于从不同的视角捕捉视频数据，诸如从相对物体呈不同方向的视角来捕捉。可以对来自不同照相机的视频数据进行编辑以提供带有来自各视角拍照的视频流，从而实现增强的用户体验。然而，这些增强的视频要求广泛且富有经验的编辑，并且不适于视频的实时传递。此外，用户基本上无法对接收到的视频视角加以控制。
概述
下面提供本揭示的简化概要以便为读者提供基本的理解。本概要不是本揭示的详尽概观，并且既不标识本发明的关键/本质元素也不描绘本发明的范围。其唯一目的是以简化形式提供在此揭示一些概念作为稍后提供的更详细描述的序言。
本发明的示例提供用于传递带多视角(multi-view)效果的视频流的系统。各自与一具体视角相关联的单视角视频流由服务器提供。客户机可以选择接收单视角视频流中的任何视频流。服务器还被配置为从单视角视频流的各个帧中生成多视角视频流。多视角视频流可以包括视觉效果并且可被提供给客户机以增强用户体验。视觉效果可以包括冻结瞬间(frozen moment)和视角扫描(view sweeping)。
许多伴随特征将随着参考下面的详细描述并结合附图进行理解而得到更好的认识。

从结合附图的下列详细描述将更好地理解本描述，在附图中图1示出了示例性多视角视频传递系统。图2示出了图1所示视频服务器的示例性组件。
图3示出了由视频传递系统生成的示例性单视角视频流。
图4示出了带冻结瞬间效果的多视角视频流的示例。
图5示出了带视角扫描效果的多视角视频流的示例。
图6示出了用于观看多视角视频的示例性用户界面。
图7示出了示例性冻结瞬间多视角视频流的各帧。
图8示出了示例性视角扫描多视角视频流的各帧。
图9示出了用于传递多视角视频流的示例性进程。
图IO示出了用于生成带多视角效果视频流的示例性进程。
图11示出用于实现所述系统和方法的示例性计算机设备。
相同的标号用于指示附图中相同的部分。
详细描述
下面结合附图提供的详细描述旨在作为对本示例的描述，而非表示用于解释或利用本示例的唯一形式。该描述阐述本示例的功能以及用于构造和操作本示例的步骤序列。然而，相同或等价的功能与序列可由不同的示例来完成。
虽然在此将描述并示出的本发明各示例被实现为用于捕捉并提供不同视角方向的视频的视频传递系统，但是描述的系统只是提供作为一个示例而非限制。本领域普通技术人员将会认识到本发明的示例适用于在各种不同类型的视频传递系统中能够传递从多个视频流的各帧中创建的视频的应用。
图1示出了示例性多视角视频传递系统100。如图1所示，系统100包括被配置为捕捉视频数据的多个捕捉设备111-116。在此示例中，每个捕捉设备被配置为从某一具体视角方向捕捉对象105的视频数据，该具体视角方向与关联于其他捕捉设备的视角方向有所不同。于是，在图l中的示例性实现内，捕捉设备111-116被配置为捕捉会聚的视角。其他实现可以提供不同的视角，诸如平行视角，发散视角等。捕捉设备111-116可被配置为更改它们的位置和/ 或定向。例如，捕捉设备111-116可被配置为响应于控制设备发出的命令改变其相对于对象105的视角方向。
控制设备123-125可被配置为针对视频捕捉控制捕捉设备111-116。例如，控制设备123-125可被配置为控制捕捉设备111-116的视角方向。控制设备 123-125也可被配置为处理由捕捉设备111-116生成的视频数据。在示例性实现中，控制设备123-125被配置为把来自捕捉设备111-116的视频数据编码为可以作为数字视频信号传送给其他设备(诸如，视频服务器132)的视频流。
视频服务器132被配置为向客户机153-156提供视频流。由视频服务器132 提供的视频流可以是单视角视频流或多视角视频流。单视角视频流包括与具体捕捉设备相关联的单视角方向的各视频帧。多视角视频流则包含来自多个视角方向的视频帧。典型地，来自多视角视频流的帧包括由多个捕捉设备捕捉的视频数据。单视角视频流可以由捕捉设备111-116、控制设备123-125和视频服务器132中的一个或多个编码。在一个实现中，单视角视频流由控制设备 123-125编码，后者将视频流提供给视频服务器132用于对客户机153-156的传递。视频服务器132被配置为实时或按要求地将单视角和多视角视频流提供给客户机123-125。视频服务器132可被配置为能够让客户机123-125选择要接收的视频流。
图1所示的示例性多视角视频传递系统100的各组件只是出于示例性目的示出的。在实际的实现中，可以使用更多、更少或不同的组件来完成基本相同的功能性。示例性的组件可以通过各种类型的连接，诸如有线、无线、直接或网络等进行连接。
图2示出了图1所示视频服务器132的示例性组件。如图2所示，视频服务器132可以包括捕捉设备处理程序226、多视角视频编码器227以及客户机交互处理程序228。捕捉设备处理程序226被配置为接收来自捕捉设备111-116 的视频数据。视频数据可被编码为视频流并由控制设备123-125提供。捕捉设备处理程序226可被配置为通过控制设备123-125来控制捕捉设备111-116的各个工作参数。这些工作参数可以包括位置、定向、焦点、光圈、帧率、分辨率等。捕捉设备处理程序226还可被配置为确定关于由捕捉设备111-116提供的单视角视频流的信息。例如，这些信息可以包括与每个视频流相关联的视角方向、在各流中各帧相对于彼此的定时、与每一个视频流相关联的捕捉设备的工作参数等。
多视角视频编码器227被配置为生成多视角视频流。更具体地，从捕捉设备111-116提供的单视角视频流的各帧生成多视角视频流。基于想要在多视角
视频流内包括的视觉效果来选择单视角视频流内的各帧。将结合图4和图5讨论多视角视频流的两类示例性视觉效果。视频服务器107可以接收由控制设备 123-125编码并压縮的单视角视频流。
多视角视频编码器227及其附随组件被配置为解码单视角视频流以获取可用于编码多视角视频流的帧。例如，如果从单视角视频流中选出的帧是预测
帧(P帧)或者双向帧(B帧)，那么多视角视频编码器227及其附随模块就可被配置为获取该帧的全部数据并将该帧用于多视角视频流编码。多视角视频编码器227可被配置为响应于请求生成多视角视频流，或者持续生成视频流并将其存储在缓冲器中以供即时访问。在一个实现中，多视角视频流生成为包括
预定持续时间的快照或视频剪辑。
客户机交互处理程序228被配置为向客户机153-156发送数据并从其接收数据。更具体地。客户机交互处理程序228向客户机153-156提供视频流以供观看。客户机交互处理程序228还可被配置为接收来自客户机153-156的有关视频流的选择。例如，客户机153-156可以请求接收针对具体视角方向的视频。客户机交互处理程序228被配置为基于请求来确定要发送哪个单视角视频流。客户机153-156还可以请求接收多视角视频流。作为响应，客户机交互处理程序228可以与多视角视频编码器227交互以生成请求的多视角视频流并将其提供给客户机。客户机交互处理程序228还可以在多视角视频流己经生成并且可用的情况下提供来自缓冲器的多视角视频流。
图3示出了由视频传递系统生成的示例性单视角视频流301-304。单视角视频流301-304对应于四个不同的视角方向。单视角视频流301-304中的每一个皆包括多个帧，这些帧按图3同步的时间排列。将每一帧标记为
f"i)
其中n代表视角方向，i代表时间索引。
单视角视频流301-304通常由视频服务器提供给客户机。因为带宽限制，视频服务器在给定时刻仅能提供一个单视角视频流给客户机。视频服务器能够让客户机选择要接收的视频流。例如，客户机可以接收与第一视角方向相关联的单视角视频流301,并且可以像指示符315表示的那样选择切换至第二视角方向。响应地，视频服务器可以将单视角视频流302提供给客户机。随后，客户机可以像指示符316表示的那样选择切换至第四视角方向，随后响应地提供视频流304给客户机。
图4示出了带冻结瞬间效果的多视角视频流的示例。在带有冻结瞬间效果的视频流中，时间被冻结并且视角方向关于给定点滚动。对于图4所示的示例，带冻结瞬间效果的多视角视频流401包括帧f"3)、 f2(3)、 f"3)和f4(3)。于是，视频服务器就生成带有来自不同单视角流并对应于同一瞬间的各帧的多视角视频流401如图4所示，各帧被标识并编码为新视频流401。视频服务器必需解码视频流301-304以获取有关帧f"3)、 f2(3)、 f"3)和f4(3)的全部数据。
图5示出了带视角扫描效果的多视角视频流的示例。在带有视角扫描效果的视频流中，随着时间行进视频扫过相邻的各个视角方向。于是，带有视角扫描效果的视频流就允许从不同的视角方向观看行进中的事件。对于图5所示的示例，多视角视频流501包括帧&(2)、 f2(3)、 f3(4)和f"3)。于是，视频服务器就生成带有来自不同流并对应于行进中的时间索引的各帧的多视角视频流 401。
当通过各通信信道向终端用户提供多视角视频(诸如，上述效果)时，带宽限制会变成一个挑战性的问题。多视角视频剪辑包括大量数据，使得通信带宽可能并不足以将完整的多视角视频传递给终端用户。在示例性实现中，视频服务器用于组织并传递多视角视频流。在服务器侧，准备单视角视频流和多视
角视频流。常规的单视角视频流由Vn(K:lK-N)指示，并且被表示为
Vn={fn(l),fn(2),fn(3)，... } 其中fjl)指示第n个视角方向的第i帧。每个Vn可由运动补偿型视频编码
器(即，以IPPP格式，其中I代表I帧，p代表p帧)独立压縮。多视角视频流可以包括带有视觉效果的视频流，诸如可以带有冻结瞬间流
F和视角扫描流S，它们分别提供冻结瞬间效果和视角扫描效果。每流皆可包
括多张快照
F = {F(1),F(2),F(3), ... } S = {S(1)， S(2)， S(3), ... } 其中每张快照包括来自不同视角方向的N帧<formula>formula see original document page 10</formula>虽然F和S的对应帧业已压縮至Vn中，但是这些帧无法直接用于形成 F(i)和S(i)。例如，Vn可按时间上预测方式编码；于是解码某一P帧就要求依
赖于最新I帧的各帧。同样地，即使在所有这些帧都被编码为不依赖于其他帧的I帧的情况下，压縮效率也可能很低。为了解决这些问题，视频服务器可以将这些帧重新编码至多视角视频流。
由于F(i)或S(i)的各帧可以从同一事件中但从不同视角方向捕捉，因而各
帧高度相关。为了利用视角相关，重新编码同一快照的各帧。在一个示例性的
实现中，使用常规的运动补偿型视频编码。例如，第一帧&(i)可被编码为I帧，随后的N-1帧可被编码为P帧，其中第i帧是从第i-l帧预测的。这一实现由于利用了视角相关因而可以达到更高的编码效率。同样地，可以在不具备对其他快照的知识的情况下独立解码每张快照，因为每张快照都是分开编码的，而不是从不同快照的其他帧中预测的。这一实现能够简化快照处理并縮短解码等待延时。此外，如果采用常规算法(例如，象是MPEG的运动补偿型视频压縮算法)来解码快照，解码器将可以将比特流看作相同格式的单视频流，而不考虑其提供什么样的效果。这有利于与诸如机顶盒的诸多终端设备内的解码器兼容。
如果单视角视频是预捕捉的，就可以离线处理多视角快照。另一方面，如果单视角视频是实时捕捉的，或许就只能处理快照中的一部分。这样就变成了要求重新编码快照F(i)和S(i)的计算，而由于现阶段计算资源的限制，使得这种计算对视频服务器处理每张快照而言是相当困难的。然而，随着硬件性能的增加，这种限制自然会消除。此外，不必将每张多视角快照包含在视频流F或 S之内，因为用户并非对所有的快照感兴趣，特别是在带慢动作的事件的情况下。出于上述原因，可以对各快照进行二次采样(sub-sample)。在示例性实现中，可以按诸如每15帧的预定时间间隔生成快照。于是，实际应用中经二次采样的F或S为<formula>formula see original document page 10</formula>在组织了各流之后，流Vn、 F和S可用于交互传递。在一个示例中，视
频服务器可以缓冲一定时间段的二次釆样的F和S，以补偿网络等待延时。当
某一用户订阅视频服务器时，可以提供多视角视频服务。通常情况下，用户首
先将会看到默认的视角方向，该方向可以是N个视角方向中最为吸引人的方
向。用户随后可以切换至其他视角方向，或者通过控制客户机播放器来欣赏冻结瞬间效果或视角扫描效果。
如果接收到视角切换命令，服务器可以继续发送当前视角方向的视频流，直至到达新视角方向的下一个I帧。在此之后，视频服务器发送自该I帧开始的新视角方向的视频流。如果接收到冻结瞬间或视角扫描命令，服务器可以从
缓冲的F或S流确定合适的快照F(i)或S(i)。例如，合适快照可以是其时间戳接近命令创建时间的快照。经确定的快照被立即发送。在发送快照之后，服务器可以照常发送当前视角方向的视频流。
图6示出了用于观看多视角视频的示例性用户界面600。用户界面600可以由客户机上的应用提供并与视频服务器交互。如图6所示，用户界面600包括显示区域602用来示出视频服务器提供的视频流。用户界面600还包括控制触发器603用来控制视频流的播放。视角方向选择器606能够让用户选择视频的视角方向。更具体地，该应用被配置为请求并显示对应于所选视角方向的视频流。效果选择器607能够让用户选择以接收多视角视频。该应用被配置为请求并显示对应于所选效果，诸如冻结瞬间效果和视角扫描效果的视频流。
图7示出了示例性冻结瞬间多视角视频流的各帧700。如图7所示，各帧与某一具体瞬间相关联并且包括来自不同视角方向的图像。
图8示出了示例性视角扫描多视角视频流的各帧800。如图8所示，各帧包括来自不同视角方向的图像并且对应于不同的行进瞬间。图9示出了用于传递多视角视频流的示例性进程900。进程卯O可以由视频服务器实现，用来向客户机提供带多视角效果的视频流。在框卯2，标识针对不同视角方向的单视角视频流。在框904，时间上同步各单视角视频流。在框906，生成带有与多视角效果相关联各帧的新视频流。上述各帧从各单视角视频流中选出。将结合图9讨论生成多视角视频流的示例性进程。在框90S，提供带有所选帧的新视频流。图IO示出了用于生成带多视角效果视频流的示例性进程1000。在框1002，接收对多视角视频的选择。在框1004，做出是否选择了冻结瞬间效果和视角扫描效果的判定。如果选择了冻结瞬间效果，进程1000行进至框1006，其中标识了冻结瞬间的时刻。在框1008，确定每个视频流中与所标识时刻相关联的各帧。在框IOIO，根据视角方向的顺序排列各帧。过程随后移至框1012。
回到判定框1004，如果选择视角扫描效果，则进程1000移至框1022，其中标识开始时间。在框1024，确定对应于第一视角方向的视频流中的与开始时间相对应的帧。在框1026，根据时间行进和视角方向的顺序确定视频流内的其他帧。在框1012，将确定的各帧编码入新的视频流。
图11示出用于实现所述系统和方法的示例性计算机设备1100。在其最基本的配置中，计算设备IIOO—般至少包括一个中央处理单元(CPU) 1105和存储器1110。
取决于计算设备的确切配置和类型，存储器1110可以是易失性的(诸如 RAM)、非易失性的(诸如ROM、闪存等)或是两者的某种组合。另外，计算设备1100还可具有附加的特征/功能性。例如，计算设备1100可包括多个 CPU。所述方法可由计算设备1100中的任何处理单元以任何方式来执行。例如，所述过程可由多CPU中的两个CPU并行执行。
计算设备IIOO还可包括其它存储(可移动和/或不可移动)，其中包括但不限于磁或光盘或带。这样的其它存储在图11中由存储1115例示。计算机存储介质包括易失性和非易失性、可移动和不可移动介质，它们以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现。存储器1110和存储1115都是计算机存储介质的示例。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术，CD-ROM、数字多功能盘(DVD)或其它光存储，磁带盒、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并且可由计算设备1100访问的任何其它介质。任何这样的计算机存储介质可以是计算设备1100的一部分。
计算设备1100还可包含允许该设备与其它设备通信的通信设备1140。通信设备1140是通信介质的一个示例。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据，且包含任何信息传递介质。术语"己调制数据信号"是指以在该信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为示例，而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。如此处所用的术语计算机可读介质既包括计算机存储介质又包括通信介质。所述方法可用任何形式编码在任何计算机可读介质中，这些形式诸如数据、计算机可执行指令等等。
计算设备iioo也可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输
入设备等输入设备1135。也可以包括诸如显示器、扬声器、打印机等的输出设备1130。所有这些设备在本领域是公知的，因此不必在此详细讨论。
本领域的技术人员将认识到用于存储程序指令的存储设备可分布在网络上。例如，远程计算机可存储描述为软件的该过程的示例。本地或终端计算机可访问远程计算机并下载该软件的一部分或全部以运行该程序。可替换地，本地计算机可按需下载软件的片断，或者通过在本地机器上执行一些软件指令而在远程计算机(或计算机网络)上执行一些软件指令来分布式地处理。本领域的技术人员将认识到，通过使用本领域技术人员已知的常规技术，软件指令的全部或部分可由专用电路如DSP、可编程逻辑阵列等来执行。
权利要求
1. 一个或多个设备可读介质，带有设备可执行指令用于执行以下步骤标识视频流，每个视频流都与一不同的视角方向相关联；在所标识的每一视频流中确定与多视角效果相关联的各帧；以及用所确定的各帧生成新的视频流。
2. 如权利要求1所述的一个或多个设备可读介质，其特征在于，还包括: 标识与冻结瞬间效果相关联的时刻；在所标识的每一视频流中确定与所标识时刻相关联的各帧；根据与所标识视频流相关联的视角方向的顺序排列所述各帧；以及编码经排列的各帧以生成所述新的视频流。
3. 如权利要求1所述的一个或多个设备可读介质，其特征在于，还包括: 标识与视角扫描效果相关联的开始时间；确定对应于所述开始时间的帧，所述帧在对应于第一视角方向的视频流；根据时间行进和视角方向的顺序确定其他所标识视频流内的其他各帧；以编码所确定的各帧以生成所述新的视频流。
4. 如权利要求1所述的一个或多个设备可读介质，其特征在于，所述多视角视频流被生成为快照或视频剪辑中的至少一种。
5. 如权利要求1所述的一个或多个设备可读介质，其特征在于，还包括向客户机提供至少一个标识的视频流；响应于接收带有多视角效果的视频的请求，向所述客户机提供所述新的视频流而非所述至少一个标识的视频流；以及当所述新的视频流已被提供给所述客户机时，继续提供所述至少一个标识的视频流。
6. 如权利要求l所述的一个或多个设备可读介质，其特征在于，还包括二次采样给所述客户机的所述新的视频流；缓冲所述新的视频流；以及向所述客户机实时提供所述新的视频流。
7. 如权利要求1所述的一个或多个设备可读介质，其特征在于，还包括:解码所标识的视频流以获取与所确定的各帧相关联的数据；以及将所述各帧重新编码成所述新的视频流。
8. —种提供视频流的系统，包括被配置为生成视频数据的捕捉设备，每个捕捉设备与一具体视角方向相关联；以及被配置为向客户机提供单视角视频流的服务器，所述单视角视频流包括由所述捕捉设备生成的视频数据，所述服务器还被配置为标识每一单视角视频流中与多视角效果相关联的各帧并将所述各帧编码入新的视频流。
9. 如权利要求8所述的系统，其特征在于，所述服务器进一步被配置为响应于接收带有多视角效果的视频的请求向至少一个客户机提供所述新的视频流，并且在已经发送所述带有多视角效果的新的视频流之后继续向所述至少一个客户机提供单视角视频流。
10. 如权利要求8所述的系统，其特征在于，所述新的视频流包括冻结瞬间效果或视角扫描效果中的至少一种。
11. 如权利要求8所述的系统，其特征在于，所述服务器进一步被配置为持续生成并缓冲所述带有多视角效果的新的视频流，并且响应于来自至少一个客户机的请求，实时地提供来自所述缓冲器的所述新的视频流。
12. 如权利要求8所述的系统，其特征在于，所述新的视频流是快照或视频剪辑中的至少一种。
13. 如权利要求8所述的系统，其特征在于，还包括被配置为与所述捕捉设备交互的控制设备，每个所述控制设备还被配置为处理由至少一个捕捉设备生成的视频数据，所述控制设备还被配置为将所述视频数据编码为单视角视频流并将所述单视角视频流提供给所述服务器。
14. 如权利要求13所述的系统，其特征在于，所述控制设备进一步被配置为控制包括位置、定向、焦点、光圈、帧率和分辨率中的至少一者的工作参数。
15. 如权利要求8所述的系统，其特征在于，所述控制设备进一步被配置为响应于来自所述服务器的请求，指定针对所述捕捉设备的工作参数的值。
16. —种设备，包括用于获取单视角视频流的装置，每个单视角视频流对应于一不同的视角方向；用于从所述单视角视频流的各帧中生成多视角视频流的装置，所述各帧对应于一多视角效果；以及响应于来自客户机的请求交互式地传递所述单视角视频流和所述多视角视频流中的至少一者的装置。
17. 如权利要求16所述的设备，其特征在于，还包括用于二次采样所述多视角视频流的装置；以及基于来自所述客户机的选择而将所述单视角视频流和所述多视角视频流实时传递给所述客户机的装置。
18. 如权利要求16所述的设备，其特征在于，还包括用于将所述各帧重新编码成所述多视角视频流的装置。
19. 如权利要求16所述的设备，其特征在于，还包括从所述单视角视频流中选择所述各帧用于冻结瞬间效果的装置。
20. 如权利要求16所述的设备，其特征在于，还包括从所述单视角视频流中选择所述各帧用于视角扫描效果的装置。
全文摘要
本发明的示例提供用于传递带多视角效果的视频流的系统。各自与一具体视角相关联的单视角视频流由服务器提供。客户可以选择接收单视角视频流中的任何视频流。服务器还被配置为从单视角视频流的各个帧中生成多视角视频流。多视角视频流可以包括视觉效果并且可被提供给客户以增强用户体验。视觉效果可以包括冻结瞬间和视角扫描。
文档编号G06F17/00GK101300840SQ200680041248
公开日2008年11月5日申请日期2006年11月1日优先权日2005年11月4日
发明者J·李, 楼建光, 华蔡申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡华;楼建光;J.李
技术所有人：微软公司
我是此专利的发明人

上一篇：服务器端动态页面的执行的制作方法
上一篇：用于接近式设备中安全账号的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。