生成基于视频文件格式的形状识别列表的方法与流程

文档序号:18167551发布日期:2019-07-13 09:43阅读:213来源:国知局
生成基于视频文件格式的形状识别列表的方法与流程

本发明涉及生成基于视频文件格式的形状识别列表的方法,特别是涉及生成基于用于存储和压缩立体或光场视频的视频文件格式的形状识别列表的方法。



背景技术:

目前大多数的视觉内容仍然是以图像序列形式存在的二维的图像或视频。随着显示技术的发展,现在可以广泛获得具有主动快门或被动式偏光眼镜的立体或三维(3d)显示。三维显示的输入通常有如下几种形式:(1)视频内容或视频纹理与描述视频内容中每个像素深度的深度图(即,2d+z格式);(2)以一定格式将临近视点的一套视频多路复用在一个图像帧上,临近视点的一套视频有时被称为多视角视频。基于传统2d+z视频格式的多视图的重构质量高度依赖于深度图的质量。当深度图和视频纹理被压缩时,失真误差可能在两个文件中累积,并且这可能由于深度不连续性(例如,不同对象的不同边界)的未对准而引入伪像。现有技术存在一种伪影感知视图合成系统。它采用形状信息来提高多视图的重构质量。然而,它主要通过探索形状的冗余,直接压缩形状来处理形状的压缩。

需要新的通过改善传统2d+z格式视频重构质量的方法来改善基于2d+z格式的立体视频。



技术实现要素:

本发明提供一种生成基于视频文件格式的形状识别列表的方法,包括:从三维视频中获得对象的视频内容屏或视频内容帧的列表;获得所述三维视频的深度屏的列表;向所述三维视频的每个视频帧增加形状屏;将每一视频内容屏或视频内容帧和深度屏和形状屏相叠加形成形状标识库;将所述形状标识库存储于压缩文件的开头,用于对象的解除遮蔽。其中所述形状屏为形状信息标识,包括所述视频内容屏或所述视频内容帧的分类标识、对象识别标识和方向向量。其中所述形状信息标识还包括时间标识和坐标标识。其中所述形状信息标识由下面20位字节表示:

ccnnnnvvvttttttttxyz(1)

其中cc代表为分类标识,用于将某一对象与其他对象相区别;nnnn为对象识别标识,同样的对象识别标识表示二者为同一对象;vvv为方向向量,其中每个字节由1,0,或-1来表示,分别表示对象的方向;tttttttt为时间标识,可以以下列格式来表示时间:hh:mm:ss.ss;其中hh表示小时,mm表示分钟,ss表示秒,ss表示10毫秒的倍数;xyz为三位字节的坐标标识,表示对象内的坐标。包括:调用分类算法对每一帧分配分类标识(cc),对象标识(nnnn),方向向量(vvv)和位置xyz;接收所述视频内容屏、深度屏和形状屏作为输入;以所述分类标识(cc),对象标识(nnnn),方向向量(vvv)和位置xyz作为输出;通过训练数据样本训练将所述输入映射到所述输出的函数;并以数据库或形状库的形式存储所述训练数据样本。所述形状库使用一种包含分辨器所有可能的输出的文件集合的索引,利用所述索引来标记所述形状屏,相似的形状屏被分在相同的索引下。本发明还提供一种进行三维视频重构的编码器,包括:提取模块,利用聚类算法从完整视频的所有内容屏,形状屏和深度屏中发现并提取对象的视频内容帧、深度帧以及形状标识列表信息;叠加模块,将所述视频内容帧、深度帧以及形状标识列表信息相叠加;形状库生成模块,将所叠加的信息组合起来,构成形状识别列表视频文件格式,以生成形状库,并将所述形状库存储于压缩文件的头部,用于对象的解除遮蔽。以及一种进行三维视频重构的解码器,包括:读取模块,读取所述的编码器中的形状标识列表;和复制模块,将与分类标识(cc)、对象标识(nnnn)和方向向量(vvv)相关的形状从所述形状库复制到形状屏的坐标标识xyz处;和重建模块,通过已训练的分辨器重建深度屏和生成形状屏;以及还原模块,依照时间标识(tttttttt)与其所代表的视频特定时间hh:mm:ss.ss的视频内容帧结合,还原完整视频内容。

本发明旨在提供一种基于2d+z格式用于立体视频的新的存储和压缩格式,所述2d+z格式具有基于形状信息的附加辅助数据。形状信息通过对视频提供额外的深度连续性对准信息,提高视频的重构质量。本发明通过解析所有的视频内容屏或视频内容帧、形状屏(所述形状屏通过ai产生或者通过人的介入手动提供)以及整个影片的深度屏,来生成所有对象的形状库。将不同的对象分组到不同的类别,并为它们分配类别识别标识。可以通过给不同的对象增加对象类别识别标记、对象编号、方向、时间和对象的位置坐标来压缩形状屏。所生成的文件格式被称为形状识别列表(shapeidlisting)。由于相同的形状和对象能够在不同的帧中多次重复出现,新的形状识别列表格式能够通过标识替换原始形状来显著降低存储尺寸并提高压缩比。此外,ai可以生成某些形状的某些方向并存储在库中。这有助于提高渲染质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实例,对于本领域普通技术人员来讲,在不付出创新性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为利用本发明的形状库展示具有相同方向的对象的示意图。

图2为利用本发明的形状屏通过ai生成的相同形状和方向的对象示意图。

图3示意性地示出了用于执行根据本发明的方法的服务器的框图。

图4示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

图5示意性地示出了本发明对深度屏进行分类的示例。

具体实施方式

以下阐述的是当前被认为是所要求保护的发明的优选实施例或最佳表示性示例的内容。仔细考虑了对实施例和优选实施例的将来和现在的表示或修改,在功能、目的、结构或结果方面作出实质性改变的任何变更或修改,都旨在被本专利的权利要求所涵盖。现在将参考附图仅以举例的方式描述本发明的优选实施例。

以2d+z格式存在的立体视频由视频内容屏/视频内容画面(videocontentscreens)或视频内容帧序列和深度屏组成。本发明是建立在2d+z格式的基础上,被压缩的立体视频包括:从一个典型2d+z视频中获得的视频内容屏或视频内容帧的序列;视频内容屏或视频内容帧是指在视频中的特定时刻捕获的静止图像,其中所述“视频”是指用于记录、复制、回放、广播和显示一系列静止图像的电子媒体,也称为电影,所述“静止图像”是指静态状态的图像。从一个典型2d+z视频中获得的深度屏的序列;以及本发明提供的额外形状屏序列,所述形状屏可以通过ai产生或者通过人的介入手动提供。生成形状屏的细节将在下文详细描述。

立体视频的2d+z格式,又称为2d加深度(2d-plus-depth)格式,每个2d图像帧补充有灰度深度图,该灰度图指示2d图像中的特定像素是否需要显示在显示器前面(白色)或屏幕平面后面(黑色)。256个灰度可以在图像内建立平滑的深度梯度。监视器内的处理使用此输入来渲染多视图图像。视频内容屏和深度屏分别为典型的2d+z格式的视频中的信息,其中视频内容屏(又称为视频内容帧)表示每个2d图像帧;深度屏表示每个灰度深度图。

与传统的2d+z格式不同,本发明涉及的立体视频还包括新增加的形状屏,形状屏表示每个视频帧的形状信息。本发明给每个形状屏设立一个形状标识,所述形状标识由下面20位字节表示:

ccnnnnvvvttttttttxyz(1)

其中cc代表为分类标识,由两个中文字节表示,例如:男人、小狗、桌子等,用于将某一对象与其他对象相区别。

nnnn为四个字节的对象识别标识,例如0001,0002等,同样的对象识别标识,例如0001,表示二者为同一对象。

vvv为三个字节的方向向量,其中每个字节由1,0,或-1来表示,分别表示对象的方向,例如,(-1,0,0)表示对象向左;(1,0,0)表示对象向右;(0,-1,0)表示对象向下;(0,1,0)表示对象向上;(0,0,-1)表示对象向后;(0,0,1)表示对象向前。

图1为利用本发明的形状库展示具有相同方向的对象的示意图。

其中,图1(a)为拍摄获得的人脸视频内容帧,图1(b)为根据图1(a)通过具有相同方向向量的形状识别标识生成的人脸视频内容帧,生成的人脸视频内容帧与图1(a)具有相同分类标识cc,表明二者均为男人;具有不同对象识别标识,即具有不同的nnnn值,表示不是相同的对象或不是同一个人;具有相同或者基本相同的方向向量vvv,表明在图1(b)中的对象或者人的方向与图1(a)中一致。在图1的示例中,图1(a,b)(1)-图1(a,b)(6)分别具有方向向量:(1)(1,-1,1);(2)(-1,0,1);(3)(-1,1,1);(4)(0,0,1);(5)(0,0,1);(6)(0,-1,1)。

tttttttt为八位字节的时间标识,可以以下列格式来表示时间:hh:mm:ss.ss;其中hh表示小时,mm表示分钟,ss表示秒,ss表示10毫秒的倍数。

xyz为三位字节的坐标标识,表示对象内的坐标。

本发明提供的一个典型的形状识别列表视频文件格式为:视频内容帧与深度帧与形状标识列表相叠加;每个视频内容帧与深度帧与形状标识列表相叠加后形成的文件集合构成形状标识库。

本发明提供一种编码器,利用聚类算法(“clusteringalgorithm”)从完整视频的所有内容屏,形状屏和深度屏中发现并提取视频内容帧、深度帧以及形状标识列表信息,并将这些信息相叠加,构成形状识别列表视频文件格式,以生成形状库,用于对象的解除遮蔽。形状库存储于压缩文件的开头。对于一个特定的时间:hh:mm:ss.ss,以上述表达式(1)中的形状标识列表格式对形状屏的对象进行编码以解除遮蔽。

聚类是一个无监督学习(unsupervisedlearning)的过程,不需要进行样本数据的训练。设计出适合的距离度量方法后,即可对目标数据集进行聚类。上述聚类算法的目标在于寻找练习紧密的对象,把他们区分出来,主要是标识两个对象之间的关联度的值,即相关距离度量值。可选择分级聚类或类似层次聚类算法,连续不断地将最为相似的两个群组合并;或者,k均值聚类算法,随机选择k点,获得k个类别,并对所得类别进行均值计算,算出新的k值,循环该过程,直到找到相同的k值,最后完成聚类过程。所述聚类算法相对为较为典型的示例,其他的聚类算法,例如模糊k均值聚类算法、二分k均值聚类算法、canopy聚类算法等均可以实现本发明的目的。

本发明进一步提供一个编码器和解码器,对于一个特定的时间:hh:mm:ss.ss,编码器利用将信息转换为已定义的特定格式;其中:

编码器:

在步骤101,利用聚类算法(“clusteringalgorithm”)从完整视频的所有内容屏,形状屏和深度屏中发现并提取视频内容帧、深度帧以及形状标识列表信息,并将这些信息相叠加,构成形状识别列表视频文件格式。在步骤102,进一步将所构成的形状识别列表视频文件生成形状库,用于对象的解除遮蔽。形状库存储于压缩文件的开头。所述开头还指示合成形状库的尺寸。

在步骤103,基于步骤102中所获得的形状库,调用分类算法对每一帧分配分类标识(cc),对象标识(nnnn),方向向量(vvv)和位置xyz。所述分类算法(也称为“分辨器”)是一种ai算法,接收视频内容屏、深度屏和形状屏作为输入;以分类标识(cc),对象标识(nnnn),方向向量(vvv)和位置xyz作为输出。在步骤104,通过一组训练数据样本训练将所述输入映射到所述输出的函数。所述“训练”是指基于一系列输入和输出数据样本来确定函数的过程。所述训练数据样本以数据库或形状库的形式进行存储。

所述形状库是指一种数据库或文件结构形式,这种数据库或文件结构形式使用一种包含分类算法所有可能的输出的文件集合的索引,例如分类标识(cc),对象标识(nnnn),方向向量(vvv)and位置xyz,在步骤105,用这种索引来标记形状屏,相似的形状屏被分在相同的索引下。所述分类算法包括但不限于卷积神经网络(cnn)方法,利用周期性神经网络或时间递归神经网络(“rnn”)。

在步骤106,使用下列形状标识(“id”)列表格式对所述形状屏的解除遮蔽的对象进行编码:ccnnnnvvvttttttttxyz。所述编码步骤是指为将信息转换为已定义的特定格式。ccnnnnvvvttttttttxyz。

解码器:

与编码器的步骤相反,解码器用来将已编码后获得的特定格式转换为信息所代表的内容。

在步骤201,读取已编码的某帧的形状标识列表;在步骤202将与上述分类标识(cc)、对象标识(nnnn)和方向向量(vvv)相关的形状从形状库复制到形状屏的位置xyz处;在步骤203通过已训练的分辨器重建深度屏和生成形状屏;在步骤204依照时间标识(tttttttt)与其所代表的视频特定时间hh:mm:ss.ss的视频内容帧结合,还原完整视频内容,完成解码步骤。

图2为利用本发明的形状屏通过ai生成的相同形状和方向的对象示意图。

其中图2(a)(1)-(8)为原始的2d+z视频图,给每个2d+z视频帧和深度帧增加形状标识,图2(b)(1)-(8)分别为图2(a)(1)-(8)通过ai生成的。图2(b)(1)-(8)对应于图2(a)(1)-(8)的形状标识,二者具有同样的分类标识cc,方向向量vvv,但是,可能具有相同或者不同的对象识别标识nnnn,例如,图2(a)(1)-(8)和图2(b)(1)-(8)分别是男人,但是ai生成的图2(b)(1)-(8)中的男人可能与图2(a)(1)-(8)中的男人不是同一个人;也可以在对象识别标识nnnn一致时表示同一个人。在图2的示例中,图2(a,b)(1)-图2(a,b)(8)分别具有方向向量:(1)(-1,-1,1);(2)(0,0,1);(3)(1,0,1);(4)(1,0,1);(5)(0,0,1);(6)(1,-1,1);(7)(1,-1,1);(8)(1,-1,1)。

ai生成方法包括但不限于传统的卷积神经网络(cnn)方法、或者ai学习3d面部重构(ailearns3dfacereconstruction),或者通过类似乐高碎片的方式重构3d面部,可参考直接体积回归的方法重构3d面部,利用周期性神经网络或时间递归神经网络(“rnn”)的长短期记忆方式(“lstm”)还可以改善片段的连贯性。

在本发明的另外一个实施方式中,可以根据视频帧中对象的深度信息对对象进行归类,提供了额外的信息,提高了重构质量。具体地图5示意性地示出了本发明对深度屏进行分类的示例。利用特定对象的视频内容屏502,深度屏503、504和形状屏505重复训练分辨器501(即分类算法);在每次重复训练的过程中,对象的深度屏503可以通过随机失真来变成深度屏504;例如,随机移除部分深度屏来模仿深度屏503上的洞。已训练的分辨器507接收模仿后的深度屏506(即深度屏504)作为输入并生成形状屏509(即形状屏505)和重建的深度屏508。重建后的深度屏508保留了随机失真前的深度屏503的信息。也就是说,链接到形状库的已训练的分辨器507能够修复缺失的信息,以提高深度屏的质量。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的提升视频分辨率和质量的方法以及视频编码器和显示终端的解码器的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

例如,图3示出了可以实现根据本发明的服务器,例如应用服务器。该服务器传统上包括处理器1010和以存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如,用于程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘、光盘(cd)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图4所述的便携式或者固定存储单元。该存储单元可以具有与图3的服务器中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码1031’,即可以由例如诸如1010之类的处理器读取的代码,这些代码当由服务器运行时,导致该服务器执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。

以上描述并非旨在限制在限定本发明的以下权利要求书中使用的词语的含义或范围。而是提供了描述和说明以帮助理解各种实施例。预期未来在结构、功能或结果方面的修改将存在而并非实质性改变,并且权利要求书中的所有这些非实质性改变都旨在被权利要求所涵盖。因此,尽管已经说明和描述了本发明的优选实施例,但本领域技术人员将会理解,可以在不脱离要求保护的本发明的情况下做出许多改变和修改。另外,虽然术语“要求保护的发明”或“本发明”在本文中有时以单数形式使用,但将理解,存在如所描述和要求保护的多个发明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1