用于提供视频中的分割的系统和方法与流程

文档序号:26053136发布日期:2021-07-27 15:29阅读:113来源:国知局
用于提供视频中的分割的系统和方法与流程
本申请总体而言涉及图像分割(segmentation),具体地涉及使用深度卷积细分和情境感知跳跃连接进行的针对视频数据的高保真度交互式分割。
背景技术
:在交互式视频分割中,用户输入被接收,该用户输入经由用户在图像、图像的前景对象或感兴趣对象(例如,正点击(positiveclick))和背景(例如,负点击(negativeclick))上的点击来进行指示。然后,用户输入被用于自动地渲染整个视频剪辑中感兴趣对象相对于背景的像素级别的分割。这样的交互式视频分割可以用在转描机(rotoscoping)(例如,将图像转移到另一视频序列中的过程)或其他应用中。值得注意的是,得到的语义分割数据在诸如视觉效果应用之类的各种情境中是有用的。例如,自动视频分割可以有利地代替在媒体、电影和相关行业中使用的劳动密集且昂贵的转描机技术。当前的语义分割技术包括使用手工制作的特征和距离度量并且使用卷积神经网络来将静态图像分割为例如前景和背景区域。然而,仍然存在对改进的高保真度分割的兴趣。鉴于这些和其他考虑,需要当前进行改进。这种改进可能随着对在视频中应用高保真度分割的期望越来越普遍而变得至关重要。技术实现要素:根据本公开的一方面,提供了一种用于提供视频中的分割的系统,包括:存储器,用于存储当前视频帧;以及耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:生成与所述当前视频帧相对应的特征体量,该特征体量包括所述当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符;将所述特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征;将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量;将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量;将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量;以及基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。根据本公开的一方面,提供了一种用于提供视频中的分割的系统,包括:存储器,用于存储当前视频帧;以及耦合到所述存储器的一个或多个处理器,所述一个或多个处理器用于进行以下操作:将所述当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;将所述对象分类卷积神经网络应用于每个子图像,并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量,其中每个特征值来自所述对象分类卷积神经网络的层中的一个层;将所述对象分类输出体量调整大小到所述当前视频帧的尺寸;将至少包括所述当前视频帧的特征体量与多个特征帧组合以生成输入体量,其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征;以及将分割卷积神经网络应用于所述输入体量,以生成针对所述当前视频帧的当前分割帧。根据本公开的一方面,提供了一种用于提供视频中的分割的方法,包括:生成与当前视频帧相对应的特征体量,该特征体量包括所述当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符;将所述特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征;将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量;将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量;将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量;以及基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。根据本公开的一方面,提供了一种用于提供视频中的分割的方法,包括:将当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;将所述对象分类卷积神经网络应用于每个子图像,并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量,其中每个特征值来自所述对象分类卷积神经网络的层中的一个层;将所述对象分类输出体量调整大小到所述当前视频帧的尺寸;将至少包括所述当前视频帧的特征体量与多个特征帧组合以生成输入体量,其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征;以及将分割卷积神经网络应用于所述输入体量,以生成针对所述当前视频帧的当前分割帧。附图说明在附图中以示例而非限制的方式示出了本文描述的材料。为了图示的简单和清楚起见,附图中示出的元件不必按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被放大。此外,在被认为适当的情况下,参考标记在附图之间重复以指示相应或类似的元件。在附图中:图1示出了用于将视频帧分割成一个或多个分割帧的系统;图2示出了被应用于当前视频帧以生成特征体量(volume)的示例性深度卷积细分(tessellation)技术;图3示出了从被应用于示例输入图像的对象分类卷积神经网络的卷积层提取的针对该输入图像的卷积网络特征的示例体量;图4示出了示例性图像;图5示出了在没用细分的情况下从示例性图像获得的示例性特征图;图6示出了在使用细分的情况下从示例性图像获得的示例性特征图;图7示出了对特征体量进行的示例压缩以生成用于分割网络输入的特征帧;图8示出了具有情境感知(contextaware)跳跃连接(skipconnection)的示例分割网络;图9是示出了用于根据输入视频和用户对象及背景选择来生成分割的示例过程的流程图;图10是示出了用于训练分割网络的示例过程的流程图;图11示出了用于分割的示例输入视频帧和相应得到的分割;图12是示出了用于使用分割网络提供视频中的分割的示例过程的流程图,该分割网络采用了情境感知连接;图13是示出了用于使用细分技术提供视频中的分割的示例过程的流程图;图14是用于提供视频中的分割的示例系统的说明图;图15是示例系统的说明图;并且图16示出了全部根据本公开的至少一些实现方式布置的示例设备。具体实施方式现在参考附图来描述一个或多个实施例或实现方式。虽然讨论了具体的配置和布置,但是应当理解,这样做仅出于说明的目的。相关领域的技术人员将认识到,在不脱离说明书的精神和范围的情况下,可以采用其他配置和布置。对于相关领域的技术人员将显而易见的是,本文描述的技术和/或布置也可以在除本文描述的之外的各种其他系统和应用中被采用。尽管下面的描述阐述了可以在诸如例如片上系统(soc)架构之类的架构中体现的各种实现方式,但是本文描述的技术和/或布置的实现方式不限于特定的架构和/或计算系统,并且可以出于类似的目的而由任何架构和/或计算系统来实现。例如,采用例如多个集成电路(ic)芯片和/或封装的各种架构,和/或各种计算设备和/或消费者电子(ce)设备(例如,机顶盒、智能电话等)可以实现本文描述的技术和/或布置。此外,尽管以下描述可以阐述许多具体细节(例如,系统组件的逻辑实现、类型和相互关系,逻辑分区/集成选择等),但是可以在没有这些具体细节的情况下实践所要求保护的主题。在其他情况下,可能不会详细示出某些材料(例如,控制结构和完整的软件指令序列),以免使本文公开的材料不清楚。本文公开的材料可以以硬件、固件、软件、或其任何组合被实现。本文公开的材料还可以被实现为存储在机器可读介质上的指令,这些指令可以由一个或多个处理器读取和执行。机器可读介质可以包括用于以机器(例如,计算设备)可读的形式存储或传输信息的任何介质和/或机构。例如,机器可读介质可以包括只读存储器(rom);随机存取存储器(ram);磁盘存储介质;光学存储介质;闪存设备;电的,光学的,声学的或其他形式的传播信号(例如,载波、红外信号、数字信号等)等等。说明书中对“一个实现方式”、“实现方式”、“示例实现方式”等的引用指示所描述的实现方式可以包括特定的特征、结构、或特性,但是每个实施例可能不一定包括该特定的特征、结构、或特性。而且,这样的短语不一定指代同一实现方式。此外,当结合实施例描述特定的特征、结构、或特性时,则认为将这种特征、结构、或特性结合其他实现方式(无论本文是否明确描述)来实现是在本领域技术人员的知识范围内的。本文描述了与使用深度卷积细分和情境感知跳跃连接进行的视频中的高保真度语义分割有关的方法、设备、装置、计算平台、和物品。如上所述,在语义上将视频序列的每个视频帧分割成例如前景和背景区域可能是有利的。值得注意的是,交互式视频分割可以被设计为针对以下问题:应用用户输入(例如,正和负点击和/或近似分割)以自动地渲染整个视频剪辑中感兴趣对象的像素级别的分割。例如,用户可以在序列的第一视频帧上提供点击,以指示该帧中包括感兴趣对象的位置(例如,正点击)以及背景位置或不包括感兴趣对象的位置(例如,负点击)。通过使用这种用户提供的信息,期望将每个视频帧分割成具有感兴趣对象的区域以及具有背景的另一区域。在各种视觉效果情境中,准确的高保真度分割数据是期望的。这种分割数据可以包括指示像素是在感兴趣对象中还是在背景中的任何像素级(pixelwise)信息(或者诸如2×2像素区域之类的密集区域信息)。这种数据可以是二进制的,或者可以指示像素在感兴趣对象中的可能性或概率(例如,从0到1,包括0和1)。这种概率数据可以被用于使用为例如0.5的阈值来生成二进制掩膜(binarymask)。如本文所使用的,术语分割或分割帧可以包括提供这种像素级信息或密集区域信息的任何数据结构。如本文所讨论的,分割网络(分割卷积神经网络(cnn))被用于基于将分割网络应用于输入体量来生成针对当前视频帧的一个或多个分割。输入体量包括多个帧。如本文所使用的,术语帧在ccn输入的情境下指示针对帧的每个像素具有特征值的2d数据结构。对于视频帧,这种特征值包括例如以下项:红色值、绿色值、和蓝色值(例如,针对rgb颜色值中的每一者的输入帧),指示正用户点击或投影出的正用户点击的指示符(例如,在正用户点击的位置处值为1并且在其他地方值为0),指示从像素到正或负用户点击的距离的值,指示运动的值(例如,每像素速度运动向量),从对象分类cnn的层压缩而来的特征值等等。本文进一步讨论这种数据结构。在一些实施例中,分割网络输入体量包括情境特征体量(contextfeaturevolume)(或者简称为,特征体量)和多个特征帧或深度特征帧(deepfeatureframe)。术语情境特征体量指示来自当前视频帧并将情境提供给当前视频帧的特征。例如,情境特征体量可以包括以下项中的一个或多个:当前视频帧,时间上先前的视频帧,包括关于当前视频帧中的感兴趣对象的一个或多个指示符的用户输入帧,包括关于当前视频帧中的背景的一个或多个指示符的用户输入帧,正距离变换帧(包括有关像素与感兴趣对象指示符的接近度的信息),负距离变换帧(包括有关像素与背景指示符的接近度的信息),包括指示从先前视频帧到当前视频帧的运动的运动指示符的运动帧。特征帧包括从对象分类卷积神经网络的特征层压缩而来的特征。也就是说,对象分类卷积神经网络被应用于当前视频帧,并且针对对象分类卷积神经网络的一些卷积层或全部卷积层,特征值被获得。特征值可以具有例如与当前视频帧相同的分辨率,并且多个特征值针对当前视频帧的每个像素被获得。值得注意的是,可以在每个卷积层处针对每个像素获得多个特征值,这取决于来自卷积层的输出体量的深度。例如,针对深度为75的卷积层,针对每个像素获得75个特征值。从而,可以针对每个像素获得数百或甚至上千个(例如,1,500个)特征值。针对每个像素的特征值可以被表征为超列(hypercolumn),并且全部的超列合起来可以被表征为对象分类卷积神经网络、输出体量、特征体量等。然后可以使用tucker分解来压缩完整的特征体量以生成特征帧,如所讨论的,这些特征帧是从对象分类卷积神经网络的特征层压缩而来的。然后,情境特征体量(例如,多个情境帧)被与深度特征帧组合(例如,串接(concatenate)),并作为输入提供给分割网络。在一些实施例中,深度特征帧是使用细分技术来生成的。这种细分技术包括使用插值技术将当前视频帧调整大小(例如,上采样)为经调整大小的当前视频帧,使得经调整大小的当前视频帧包括子图像的网格,其中每个子图像的尺寸与用于训练对象分类卷积神经网络的尺寸相对应。例如,如果对象分类卷积神经网络是在224×224的图像上训练的,则经调整大小的当前视频帧被上采样以包括224×224的子图像的网格,使得这些子图像充满经调整大小的当前视频帧的整体。然后,子图像被对象分类卷积神经网络可选地并行处理,并且针对每个像素,多个特征值(例如,超列)被获得。然后,可以将超列合并以形成特征体量,该特征体量具有经调整大小的当前视频帧的分辨率以及为特征值数目的深度。如本文所使用的,相对于帧或体量,术语分辨率指示在空间或像素域中帧的高度和宽度,而深度指示针对每个像素的值或特征。例如,1920×1080的rgb帧具有为1920×1080的分辨率以及为3(针对r、g和b中的每一者都有一个)的深度,而针对具有224×224个像素的子图像并且总体量为224×224×75的特征体量具有为224×224的分辨率(对应于像素空间或域中的高度和宽度)以及为75个特征的深度。值得注意的是,体量为224×224×3的输入子图像将具有为224×224的分辨率(例如,像素分辨率)以及为3的深度(针对r、g和b中的每一者都有一个)。返回到对所合并的超列的讨论,然后可以将(具有经调整大小的当前视频帧的分辨率的)得到的特征体量调整大小(或下采样)到当前视频帧的分辨率。如所讨论的,然后可以压缩经下采样的特征体量以生成特征帧。值得注意的是,对经下采样的特征体量进行的压缩或分解可以大大减少特征的数目以提高计算效率,同时保留重要的特征信息以用于分割。所组合的情境特征体量和深度特征帧(无论是否是使用细分生成的)可以被表征为分割网络输入体量。然后将经预训练的分割网络应用于分割网络输入体量,以生成针对当前帧的一个或多个分割。在一些实施例中,分割网络包括情境感知跳跃连接。如本文所使用的,术语情境感知跳跃连接指示如下的跳跃连接:其将来自先前卷积层的输出与先前讨论的情境特征体量组合(例如,串接)以针对紧接着的下一个分割网络卷积层生成卷积层输入体量。值得注意的是,跳跃连接不会将来自先前卷积层的输出与来自另一先前卷积层的另一输出组合。替代地,本文讨论的情境感知跳跃连接提供情境特征体量(例如,当前视频帧、先前视频帧等)作为到分割网络的一些或全部卷积层的输入。从而,一些或全部卷积层具有完整的情境信息(例如,没有由于对网络的任何先前卷积层的应用而产生的损失),以提高分割保真度。在一些实施例中,可以应用细分技术和情境感知跳跃连接两者。本文讨论的技术针对视频数据中的交互式对象分割问题向深度学习技术提供了架构上的改进。这种技术可以使用如下各项来提供端到端高保真度深度学习工作流:密集的卷积网络,用卷积细分过程渲染的高分辨率且密集的图像特征以及情境感知跳跃连接。这种技术提供了改进的高保真度分割,以供在各种情境中使用。图1示出了根据本公开的至少一些实现方式布置的,用于将视频帧111分割成一个或多个分割帧151的系统100。值得注意的是,卷积神经网络(cnn)输入或分割网络输入121可以被输入到分割网络101以获得当前视频帧111的一个或多个分割帧151。如本文所使用的,术语分割网络或分割cnn指示这样的cnn:其基于分割输入来生成单个分割或多个候选分割,使得每个分割指示其每个像素位于感兴趣对象中的概率。概率可以是二进制的(例如,对于在感兴趣对象中为1或者对于在感兴趣对象外部为0)或被缩放到特定范围(例如,从0到1,包括0和1)。如图1所示,系统100包括分割网络101、特征提取模块102和特征压缩模块103。系统100可以包括经由如本文讨论的任何适当的形状因数设备实现的处理器、存储器等。例如,系统100可以被实现为个人计算机、膝上型计算机、平板电脑、平板手机、智能电话、数码相机、游戏机、可穿戴设备、显示设备、多合一设备、二合一设备等。例如,系统100可以执行本文讨论的分割。在一些实施例中,系统100还包括一个或多个图像捕获设备以捕获输入视频110,不过这种输入视频可以接收自另一设备。分割网络输入121包括情境特征体量130和特征帧119(φt)。例如,情境特征体量130和特征帧119可以被串接以形成分割网络输入121。值得注意的是,情境特征体量130可以包括帧的堆叠,并且同样地,多个特征帧119可以被表征为体量。此外,情境特征体量130中的帧和特征帧119中的每个帧可以具有相同的分辨率(例如,当前视频帧111的分辨率)。如图所示,情境特征体量130可以包括:输入视频110的当前视频帧111(xt)、输入视频110的先前视频帧112(xt-1)、运动帧113(mvt)、先前分割帧114(mt-1)、感兴趣对象指示符帧115(或正指示符帧)(sp)、背景指示符帧117(或负指示符帧)(sn)、正距离变换帧116(或距感兴趣对象距离指示符帧)(tp)、以及负距离变换帧118(或距背景距离指示符帧)(tn)。下面本文讨论情境特征体量130中每个这样的帧。此外,特征帧119包括从被应用于当前视频帧的对象分类卷积神经网络的层压缩而来的特征,如下面本文进一步讨论的。系统100接收输入视频110和用户点击指示符120。输入视频110可以以任何适当的分辨率包括任何适当的视频帧、视频图片、视频帧序列、一个图片组、多个图片组、视频数据等。例如,视频可以是视频图形阵列(vga)、高清晰度(hd)、全hd(例如,1080p)、2k分辨率视频、4k分辨率视频、8k分辨率视频等,并且视频可以包括任何数目的视频帧、视频帧序列、图片、图片组等。在一些实施例中,输入视频110在cnn处理之前被下采样。为了展现清楚起见,针对视频帧来讨论本文讨论的技术。然而,这种帧可以被表征为图片、视频图片、图片序列、视频序列等。在一些实施例中,输入视频具有诸如rgb通道之类的三个通道,不过可以使用诸如yuv、ycbcr等之类的其他格式。值得注意的是,如本文所使用的,当作为情境特征体量130的一部分时,视频帧(当前或先前的)可以包括单个帧(例如,亮度(luma)帧)或多个帧(例如,用于r通道的一个帧、用于g通道的一个帧、和用于b通道的一个帧)。先前视频帧112可以是相对于当前视频帧111(在捕获和显示顺序中)在时间上在前或在先的任何帧,例如时间上紧接在前的帧,使得在先前视频帧112和当前视频帧111之间没有中间帧。如所讨论的,系统100还接收用户点击指示符120,该用户点击指示符120指示在感兴趣对象之内或包括感兴趣对象(例如,在长颈鹿之内)的位置(这被表征为正点击),以及在感兴趣对象之外或不包括感兴趣对象(例如,在长颈鹿之外)的位置。如本文所使用的,术语感兴趣对象指示在图像内用户期望相对于该图像的其余部分(例如,背景)分割出的任何对象。通常,感兴趣对象是连续的,因为它具有单个边界并且在该边界内形成无破损(unbroken)的整体。感兴趣对象可以是任何的物体、人、动物等。用户输入可以是使用任何适当的一种或多种技术来接收的。在一些实施例中,代替这种用户点击指示符120,可以使用对象识别cnn或其他机器学习技术来获得在感兴趣对象之内或之外的位置。此外,如所讨论的,可以仅针对输入视频110的第一视频帧来接收用户点击指示符120。对于输入视频110的后续帧,可以从初始用户点击位置投影出感兴趣对象指示符帧115内的诸如正位置122之类的正位置(例如,指示在感兴趣对象之内的位置的正指示符的位置)。例如,对于感兴趣对象指示符帧115,可以从初始感兴趣对象帧中的种子正位置投影出正位置122,其中使得种子正位置是用户提供的。在实施例中,投影正(或负)位置包括根据运动帧113中与位置相对应的运动向量(指示每像素速度)(例如,并置的(collocated)运动向量、在该位置周围附近的运动向量的平均值等)对该位置进行平移。类似地,可以从初始用户点击位置投影出背景指示符帧117内的负位置124(例如,指示不包括感兴趣对象的位置的负指示符的位置)。例如,对于背景指示符帧117,可以从初始背景帧中的种子负位置投影出负位置124,其中使得种子负位置是用户提供的。尽管关于单个正位置122和单个负位置124示出,但是可以使用任何数目的正位置和负位置。感兴趣对象指示符帧115可以包括任何适当的如下数据结构:该数据结构包括指示在感兴趣对象之内的位置的指示符(例如,与一个或多个位置相对应的一个或多个指示符),例如,针对被标识为感兴趣对象位置的第一值(例如,1)和针对全部其他像素位置的第二值(例如,0)。类似地,背景指示符帧117可以包括任何适当的如下数据结构:该数据结构包括指示在背景之内并且不包括感兴趣对象的位置的指示符,例如,针对被标识为在背景中的像素位置的第一值(例如,1)以及针对全部其他像素位置的第二值(例如,0)。例如,感兴趣对象指示符帧115和背景指示符帧117包括关于感兴趣对象和背景的指示符,使得这些指示符分别指示(例如,使用第一值)包括感兴趣对象的像素和包括背景的像素。运动帧113可以包括指示从先前视频帧112到当前视频帧111的运动的任何数据结构。例如,运动帧113包括指示从先前视频帧112到当前视频帧111的运动的指示符,例如,每像素速度运动向量(例如,针对其每个像素的运动向量)或其他运动指示符。此外,运动帧113可以是使用任何适当的一种或多种技术(例如,密集光流技术)来生成的。在实施例中,情境特征体量130使得分割网络101接收应用在图像空间上的在先前视频帧112和当前视频帧111之间确定的密集光流特征。正距离变换帧116和负距离变换帧118可以分别从感兴趣对象指示符帧115和背景指示符帧117生成。正距离变换帧116和负距离变换帧118可以包括任何适当的如下数据结构:该数据结构指示与感兴趣对象指示符帧115和背景指示符帧117内的正和负指示符的位置的接近度。在实施例中,正距离变换帧116针对其每个像素包括指示距感兴趣对象指示符帧115中的正指示符的任何(一个或多个)位置的最小距离的值。类似地,在实施例中,负距离变换帧118针对其每个像素包括指示距背景指示符帧117中的负指示符的任何(一个或多个)位置的最小距离的值。在实施例中,正距离变换帧116和负距离变换帧118的每个值被确定如关于等式(1)所示:其中,tp是正距离变换帧116,tn是负距离变换帧118,p是正距离变换帧116或负距离变换帧内的任何像素位置,q是最接近的正指示符位置(例如,感兴趣对象指示符帧115中的正位置122)或负指示符位置(例如,背景指示符帧117中的负位置124)。在等式(1)的示例中,每像素最小距离被确定为欧几里得距离,但是可以使用任何适当的距离度量。如关于正距离变换帧116所示,等式(1)的应用在相对于正位置122的并置位置周围生成区域123,使得区域123具有随着同中心地远离相对于正位置122的并置位置移动而越来越大的值。尽管关于在相对于正位置122的并置位置处的较小值和随着远离该位置移动而越来越大的值进行了讨论,但是可选地,可以在相对于正位置122的并置位置处使用较大值并且值随着远离该位置移动而变得越来越小。例如,可以使用等式(1)的相反情况(inverse)等。类似地,等式(1)的应用在相对于负位置124的并置位置周围生成区域125,使得区域125也具有随着同中心地远离该位置而越来越大的值,不过也可以使用相反情况。将理解的是,多个正位置122(或负位置124)的应用允许了可能重叠的附加区域123(或区域125)。例如,正距离变换帧116和负距离变换帧118提供有关距最接近的正或负位置的距离的热图或轮廓,以在可能是感兴趣对象或背景区域的区域中引导cnn。此外,分割网络输入121包括先前分割帧114,其是与先前视频帧112相对应的分割。值得注意的是,针对输入视频110的第一帧,静止图像分割cnn和静止图像选择cnn或对象识别cnn可以被用于生成初始分割帧。如本文所讨论的,后续的分割帧由分割网络101生成。先前分割帧114可以包括指示分割的任何适当的数据结构,例如,针对每个像素指示该像素在感兴趣对象中的可能性的每像素值(例如,范围从0到1且包括0和1的值,或者为0或1的值)。生成特征帧119以包括在分割网络输入121中,使得特征帧119中的每个特征帧包括从被应用于当前视频帧的对象分类卷积神经网络的层压缩而来的特征。如本文所使用的,术语特征或特征值指示作为特征图或特征帧的一部分的值,其中使得特征图或帧中的全部特征一致,因为它们是经由相同的处理(例如,应用cnn、压缩等)来获得的。值得注意的是,特征帧119可以包括许多(例如,大约700个)特征帧,每个特征帧以当前视频帧111的分辨率包括每像素特征,使得特征帧119是以诸如50%之类的压缩率从情境特征体量130(例如,大约1400个)压缩而来的。尽管关于为50%的压缩率进行了讨论,但是可以使用任何比率,例如,将特征帧减少30%至40%,将特征帧减少40%至60%等。在一些实施例中,特征帧119是通过以下操作来生成的:将对象分类cnn应用于当前视频帧111,经由特征提取模块102针对当前视频帧111的每个像素取回(retrieve)多个值(每个值来自分类卷积神经网络的一个层)以针对每个像素生成特征值的超列,以及经由特征压缩模块103将超列压缩成特征帧119。来自特征提取模块102所应用的对象分类cnn的特征值的超列合起来定义了多个特征图,这些特征图随后由特征压缩模块103压缩为更少的特征图。以另一种方式来看对象分类cnn的应用,在应用之后,可以从对象分类cnn取回多个特征图,使得每个特征图对应于对象分类cnn的层,其中每个特征图具有与当前视频帧111的像素相对应的特征值。在一些实施例中,特征提取模块102应用细分技术以生成特征体量130。在一些实施例中,在应用对象分类cnn之前,将当前视频帧111调整大小为经调整大小的当前视频帧,使得经调整大小的当前视频帧包括子图像的网格,每个子图像具有与被接受用于由对象分类cnn进行处理的图像大小或尺寸(例如,对象分类cnn针对其被预训练的图像的大小或尺寸)相对应的大小或尺寸。然后将对象分类cnn(可选择地至少部分并行地)分开地应用于每个子图像,并且如上所讨论的,然后针对每个子图像的每个像素取回特征值的超列。合并的超列提供了特征体量,该特征体量可以被调整大小(例如,下采样)以形成特征体量130,使得特征体量130在像素域具有等于当前视频帧111的大小或分辨率的大小或分辨率,同时具有任何数目的特征值(例如,大约1400个或大约1500个)。特征压缩模块103然后可以压缩特征体量130以生成特征帧119。值得注意的是,这种技术提供了明显更高的特征分辨率以改进分割结果。如所讨论的,将对象分类cnn应用于当前视频帧111,并且从对象分类cnn的层提取特征体量130。如本文所使用的,术语对象分类cnn指示用于对输入图像执行对象检测和/或分类的任何cnn。尽管关于对象分类cnn进行了讨论,但可以使用任何经预训练的cnn。在实施例中,对象检测cnn是诸如vgg-19cnn之类的经预训练的cnn。在实施例中,特征体量130是从对象检测cnn的卷积层提取的特征图。也就是说,来自卷积层的特征图可以被复制并堆叠以形成特征体量130,特征体量130包括像素级特征的体量。例如,针对每个像素,一列特征(来自所提取的特征图中的每个特征图的一列)可以被表征为超列。被合起来的超列提供了针对当前视频帧111的像素级特征的体量。图2示出了根据本公开的至少一些实现方式布置的,应用于当前视频帧111以生成特征体量130的示例性深度卷积细分技术。例如,关于图2讨论的操作可以由特征提取模块102执行。如图2所示,接收当前视频帧111以进行处理。在所示的实施例中,当前视频帧111具有为1920×1080的分辨率和为3的深度(例如,红色图像平面、绿色图像平面、和蓝色图像平面)。然而,当前视频帧111可以具有被一般化为wi×hi的任何适当的分辨率(其中i表示输入)。值得注意的是,对象分类cnn202可以被预训练为接受并处理具有特定大小或分辨率(例如,具有特定尺寸)的图像。例如,大规模的经预训练的深度cnn模型是在平均分辨率为大约469×387的相对较低分辨率的图像数据上训练的,这导致相对较低的保真度特征,如关于图5所示。在所示的实施例中,对象分类cnn202被配置为处理深度为3(例如,对于rgb)的224×224分辨率的图像。然而,对象检测可以被配置和预训练为处理被一般化为wm×hm(其中m表示模型)的任何适当分辨率(小于当前视频帧111的分辨率)的图像。在调整大小操作201处将当前视频帧111调整大小为插值图像211,其也可以被表征为经调整大小的当前视频帧、经调整大小的帧等。插值图像211可以是使用任何适当的一种或多种技术(例如,线性或非线性插值等)从当前视频帧111上采样而来的。值得注意的是,生成插值图像211,使得其深度与当前视频帧111的深度(例如,针对rgb为3的深度)匹配同时其分辨率已被增加,使得插值图像211由诸如子图像212、213之类的子图像221的网格组成。值得注意的是,插值图像211可以整体且均匀地被划分为子图像221的网格。例如,当前视频帧111被调整大小为经调整大小的当前视频帧或插值图像211,使得插值图像211包括子图像221,每个子图像具有与对象分类cnn202的尺寸相对应的尺寸。也就是说,子图像221的大小和尺寸与要由对象分类cnn202处理的图像的大小和尺寸匹配。在一些实施例中,插值图像211的大小(其可以被一般化为wr×hr(其中r表示经调整大小)可以被生成为关于等式(2)所示:其中,wr是插值图像211的宽度,hr是插值图像211的高度,wi是当前视频帧111的宽度,hi是当前视频帧111的高度,wm是要由对象分类cnn202处理的图像的宽度(例如,对象分类cnn202的输入宽度),hm是要由对象分类cnn202处理的图像的高度(例如,对象分类cnn202的输入高度),并且是上取整函数(ceilingfunction),该函数将其输入映射到大于该输入的最小整数。如本文关于对象分类cnn202所使用的,术语宽度。如在等式(2)中所提供的,插值图像211(即,经调整大小的当前视频帧)的分辨率具有作为如下两项的积的宽度(即,wr):对象分类cnn202的输入宽度(即,wm);和来自被应用于当前视频帧111的宽度(即,wi)与对象分类cnn202的输入宽度(即,wm)的比率的上取整函数的输出,并且类似地,插值图像211(即,经调整大小的当前视频帧)的分辨率具有作为如下两项的积的高度(即,hr):对象分类cnn202的输入高度(即,hm);和来自被应用于当前视频帧111的高度(即,hi)与对象分类cnn202的输入高度(即,hm)的比率的上取整函数的输出。如本文中所使用的,术语输入宽度和输入高度指示将由cnn处理的输入图像的宽度和高度(即,分辨率)。值得注意的是,输入还具有诸如为3(针对rgb图像)、为1(针对灰度图像)等之类的深度。在所示的实施例中,当前视频帧111具有为1920×1080的分辨率,并且对象分类cnn202具有为224×224的输入分辨率。如通过等式(2)的应用所看出的,插值图像211于是具有2016×1120的分辨率,使得子图像221的网格包括9×5的子图像221网格。如所讨论的,插值图像211的每个像素是子图像221中的一个且仅一个子图像的一部分,并且插值图像211中没有像素不是子图像221中的一个且仅一个子图像的一部分。也就是说,插值图像211(即,经调整大小的当前视频帧)被提供,使得插值图像211由子图像221的网格组成。然后在堆叠操作203处,对插值图像211进行重新组织或堆叠等,以从大小为wr×hr×dr的3d图像张量(其中,d表示深度,例如,2016×1120×3)到大小为(wr/wm)(hr/hm)×dr×wm×hm的4d张量(例如,45个有序子图像,每个子图像的大小为224×224×3,其中4d尺寸为45×3×224×224)。例如,可以按光栅扫描顺序等将子图像221排序成阵列,以提供4d张量222,该4d张量222包括与子图像221相对应的3d平铺(tiled)张量223的有序阵列。例如,包括与子图像221的网格相对应的平铺张量223的4d张量222可以具有为(wr/wm)(hr/hm)(例如,在所示的示例中为45)的大小,其表示图块(tile)(即,子图像221)的数目。如图所示,3d平铺张量223沿着张量的第一轴堆叠,该第一轴表示平铺张量223的顺序。也就是说,4d张量222的第一轴可以沿着或者表示有序平铺张量223。在一些实施例中,4d张量222可以被表征为i'。如图所示,在特征提取操作204处,传递4d张量222通过对象分类cnn202(或本文讨论的任何适当的cnn)以生成对象分类输出体量214。对象分类输出体量214也可以被表征为细分输出、cnn输出等,并且对象分类输出体量214针对每个子图像221的每个像素(并且因此针对每个平铺张量223)包括任何数目的特征值,每个特征值来自对象分类输出体量214的一个层。也就是说,访问来自任何数目的对象分类输出体量214的卷积层的输出,并且将来自卷积层的输出体量的一帧或多帧或者整个输出体量串接以生成对象分类输出体量214。例如,针对子图像212的特定像素,访问任何数目的卷积层并且取回相应卷积层输出体量中针对该像素的一些或全部特征值。因此,针对每个子图像221的每个像素获得特征的超列,并且被合起来的超列提供对象分类输出体量214。在一些实施例中,不是全部卷积层都可以被使用,并且不是来自所选层的全部特征都可以被使用。如本文所使用的,术语cnn指示经预训练的深度学习神经网络,其包括任何数目的卷积层,每个卷积层至少包括卷积运算(并且可选地包括例如,泄漏relu层、池化或求和层、和/或归一化(normalization)层)。术语卷积层指示如下的层:该层通过应用任何数目的卷积核来提供对该层的输入体量进行的卷积运算以生成输出体量。这种卷积层还可以包括其他操作。如所讨论的,传递4d张量222(i')通过对象分类cnn202(模型,m)。在一些实施例中,将4d张量222作为沿着所讨论的第一轴的小批量(具有为45的大小)传递通过对象分类cnn202,使得模型(例如,对象分类cnn202)可以被并行地调用,从而使得模型并行地对一个或多个3d平铺张量223进行操作以改进速度和处理效率。在一些实施例中,将对象分类cnn202应用于子图像221包括并行地应用子图像221中的两个或更多个子图像221(例如,第一和第二子图像),使得所述特征值生成和取回针对两个或更多个子图像221被并行地执行。此外,对象分类cnn202(模型,m)的应用针对4d张量222提供了输出4d张量,该输出4d张量沿第一轴具有相同的尺寸(例如,45或者更一般地为(wr/wm)(hr/hm)),每个具有相同的分辨率(例如,224×224或更一般地为wm×hm),并且每个具有为所取回特征数目的深度(例如,1500或更一般地为df,其中f指示特征的数目)。然后可以将输出4d张量(未示出)合并或展开等,以生成3d对象分类输出体量214。这种合并可以通过根据子图像221的网格合并每个4d张量来提供。例如,如果使用光栅扫描来生成4d张量222,则可以使用该光栅扫描的相反情况来组装子图像221的网格。值得注意的是,子图像221的网格具有与插值图像211相同的分辨率,并且深度等于提取的特征的数目(例如,wr×hr×df)。然后,在调整大小操作205处,将对象分类输出体量214调整大小到当前视频帧111的分辨率,以生成特征体量130。调整大小操作205可以是使用任何适当的一种或多种技术(例如,下采样技术等)来执行的。如图所示,对象分类输出体量214被调整大小以生成尺寸为wi×hi×df的特征体量130,使得分辨率与当前视频帧111的分辨率(wi×hi)相同并且深度与对象分类输出体量214的深度(df)相同。参考图1,特征体量130被提供给特征压缩模块103,特征压缩模块103将特征体量130压缩成特征帧119,如本文进一步讨论的。例如,特征体量130的特征深度(例如,大约1500个特征)可以以约50%的压缩率被压缩以生成具有约750个特征的特征帧119。这种特征减少可以在不损失分割准确度的情况下改进分割网络101的计算性能。现在讨论转向特征提取模块102对特征的取回或提取。在一些实施例中,这种提取或取回可以基于关于图2所讨论的细分操作的实现来执行。例如,提取可以关于在4d张量222上(例如,在有序的子图像221上)实现的对象分类cnn202来执行。在其他实施例中,提取或取回是基于在没用细分的情况下对输入图像进行操作的对象分类cnn来执行的。在这种实施例中,可以在实现对象分类cnn之前对输入图像进行下采样。值得注意的是,分割网络121可以对用或没用细分技术生成的特征帧119进行操作。图3示出了根据本公开的至少一些实现方式布置的,从被应用于输入图像302的对象分类卷积神经网络的卷积层提取的针对示例输入图像302的卷积网络特征301的示例体量。在图3中,在将对象检测cnn应用于输入图像302之后,从对象分类cnn(例如,对象分类cnn202)提取卷积网络特征301的体量的每个特征图,例如,特征图304、306。输入图像302可以是与子图像221中的任何一个子图像相对应的图像(当细分被实现时)或与当前视频帧111的经下采样版本相对应的图像(当细分未被实现时)。例如,当细分被实现时,卷积网络特征301的体量对应于针对子图像221中的一个子图像的输出特征体量。当细分未被实现时,卷积网络特征301的体量对应于特征体量130。如关于输入图像302的像素311所示,卷积网络特征301的体量的每个特征图(例如,特征图304、306)具有相应的特征或特征值(例如,特征图304的特征值313和特征图306的特征值312等),使得针对像素311,特征值305的超列303被提供。被合起来并包括超列303的超列提供了卷积网络特征301的体量。如所讨论的,特征图304、306中的每一个对应于所应用的对象分类cnn的卷积层的输出体量。例如,包括特征图306的特征图批量321可以来自特定卷积层的特定输出体量,包括特征图304的特征图批量322可以来自另一卷积层的另一输出体量,等等。如所讨论的,在一些实施例中,对象分类cnn的每个可用特征图都被使用。但是,不是全部都需要被使用。此外,在细分操作的情境中,将包括卷积网络特征301的体量的卷积网络特征的多个体量合并以生成对象分类输出体量214。参考图2,在所示的示例中,卷积网络特征的45((wr/wm)(hr/hm))个体量被合并以生成对象分类输出体量214,其中使得卷积网络特征的每个体量的分辨率为224×224(wm×hm)并且深度为1500(dm)。如所讨论的,这种技术可以提供更密集的特征以进行更准确的分割。图4示出了根据本公开的至少一些实现方式布置的示例性图像400。例如,示例性图像400可以是当前视频帧111。如图4所示,示例性图像400包括风景场景。值得注意的是,示例性图像400不包括前景对象,但示例性图像400被用于示出与非细分技术相比,使用细分获得的特征的密度。图5示出了根据本公开的至少一些实现方式布置的,在没用细分的情况下从示例性图像400获得的示例性特征图500。例如,特征图500对应于示例性图像400,并且示出了来自通过将对象分类cnn应用于示例性图像400来获得的特定特征图(例如,特征图306)的特征值。如图5所示,示例性特征图500包括风景场景的处于特定密度和保真度的特征。值得注意的是,示例性特征图500提供了相对较稀疏的特征密度。图6示出了根据本公开的至少一些实现方式布置的,在使用细分的情况下从示例性图像400获得的示例性特征图600。与特征图500一样,特征图600对应于示例性图像400,但是,特征图500是使用细分技术获得的。例如,特征图600示出了来自通过以下操作来生成的特定特征图的特征值:将对象分类cnn应用于来自被扩大大小的(upsized)图像(例如,被从示例性图像400扩大大小到与子图像的网格相适配(fit)的大小,这些子图像的输入分辨率与对象分类cnn的输入分辨率相对应)的子图像,合并通过将对象分类cnn应用于每个子图像而获得的得到的特征图(例如,多个诸如特征图306之类的特征图),以及将得到的特征图下采样到示例性图像400的分辨率。如图6所示,相对于特征图500,示例性特征图600包括处于高得多的密度和保真度的特征。这种改进的特征密度和保真度提供了改进的分割。例如,包括特征图600(以及许多其他特征图)的特征体量可以被压缩并被提供给分割网络,如本文进一步讨论的。参考图1,讨论现在转向对(用或没用细分获得的)特征体量130进行的压缩以生成特征帧119。值得注意的是,特征帧119也表示特征体量,并且特征帧119可以被表征为经压缩的特征体量等。可以使用任何适当的一种或多种技术来执行对特征体量130的压缩以生成特征帧119(例如,具有减小的深度的特征体量)。值得注意的是,特征帧119也可以被表征为具有每像素超列深度特征,不过它们是来自对象分类cnn的层的经压缩特征。在一些实施例中,特征帧119是经由使用了对特征体量130的tucker分解的压缩来生成的。例如,每像素超列深度特征(特征帧119)可以是从(经由tucker分解)压缩的对象检测cnn101(例如,vgg-19)特征来生成的。图7示出了根据本公开的至少一些实现方式布置的对特征体量130的示例压缩以生成针对分割网络输入121的特征帧119。如图7所示,(例如,如由特征提取模块102提取的)特征体量130(x)可以通过特征帧119(g)和主分量703、704、705(a,b,c)来被粗略估计。值得注意的是,主分量703、704、705被丢弃,而特征帧119被提供作为分割网络输入121的一部分。例如,tucker分解是高阶奇异值分解(higherordersingularvaluedecomposition,hosvd)的示例,其可以被应用以将特征体量130压缩为特征帧119。值得注意的是,tucker分解利用关于分割网络101的预训练来被应用,以执行降维并同时保留所需的细节以供特征体量130使用。经由tucker分解的特征压缩的这种预训练可以是使用任何适当的一种或多种技术来执行的。在实施例中,主分量703、704、705在训练阶段期间被选择以在推断阶段中应用,不过任何适当的tucker分解参数可以在预训练期间被修改。例如,针对3-张量(例如,如本文提供的3d张量),tucker分解可以被设计为针对以下问题:使用以下的等式(3)来用核心张量g(特征帧119)以及主分量a(例如,主分量703)、主分量b(例如,主分量704)、和主分量c(例如,主分量705)找到张量x(例如,特征体量130)的分解,其中使得(例如,x具有体量尺寸为i×j×k的实数),使得(例如,g具有体量尺寸为p×q×r的实数),使得(例如,a具有面积尺寸为i×p的实数),使得(例如,b具有面积尺寸为j×q的实数),使得(例如,c具有面积尺寸为k×r的实数)。值得注意的是,在这种情境下,k约为1500(提取的特征图的数目),r约为750(例如,使用50%的压缩),并且i=p且j=q,其中i×j是输入视频帧111(以及分割网络输入121的其他帧)的分辨率。在一些实施例中,tucker分解可以被确定为如关于等式(3)所示:其中,e表示外积,g是核心张量(特征帧119),并且a、b、c是相应张量模式下的因子矩阵或主分量,并且其中,度量化版本可以被表示为如等式(4)所示:其中,指示kronecker积。通常,压缩是在p<i,q<j,并且/或者r<k时(例如,其中,核心张量g是原始张量x的压缩版本)时实现的。如所讨论的,在将特征体量130压缩为特征帧119的情境中,压缩仅在一个尺寸(例如,深度或特征图数目)中被提供。返回到图1,如图所示,分割网络输入121被提供给分割网络101,该分割网络101生成对应于当前视频帧111的一个或多个分割151。如所讨论的,包括情境特征体量130与特征帧119的串接。如图所示,在一些实施例中,分割网络101生成包括分割152和分割153的多个分割151。在这种实施例中,可以实现经预训练的选择网络以生成最终的分割结果。在一些实施例中,分割网络101基于准确度的可能性对多个分割141进行排序。在其他实施例中,分割网络101提供单个分割142。分割网络101可以包括任何适当的cnn,并且如本文所使用的,术语分割网络指示如下的cnn:该cnn基于分割网络输入来生成一个或多个分割帧151,使得多个候选分割中的每个候选分割指示其每个像素在感兴趣对象中的概率。在一些实施例中,分割网络101采用具有情境感知跳跃连接的分割网络。这种情境感知跳跃连接将来自分割网络中紧接在前的卷积层的输出体量与作为到分割网络的输入的一部分而提供的情境特征体量(例如,情境特征体量130)串接。包括该在前的卷积层输出体量与情境特征体量的串接体量作为到紧接的下一个卷积层的输入被提供,以此类推。这种技术向分割网络的全部或一些卷积层提供了情境特征体量。值得注意的是,情境特征体量还连同特征帧119一起被提供给分割网络的第一层。此外,要注意的是,这种情境感知跳跃连接不会将来自一个卷积层的输出提供给除紧接在后的卷积层之外的任何其他卷积层。因此,这种情境感知跳跃连接不提供针对卷积层输出的跳跃连接,而是提供针对情境特征体量到在分割网络的第一层之后的每个(或一个或多个)卷积层的跳跃连接。这种情境感知跳跃连接也可以被表征为情境感知深度连接或简单地被表征为情境感知连接。这种情境感知连接允许来自情境特征体量的特征绕过层,并且到深卷积层(例如,除第一层之外的层)保持不稀释。从而,与严格的分层循序特征表示相比,分割网络在该网络内较深处被提供对更大范围的特征表示(例如,来自情境特征体量)的访问。图8示出了根据本公开的至少一些实现方式布置的,具有情境感知跳跃连接的示例分割网络800。例如,分割网络800可以被实现为分割网络101。如图所示,分割网络800可以包括任何数目的卷积层(cl)801、802、803、804,其包括接收分割网络输入体量811的第一卷积层801。例如,分割网络输入体量811可以是分割网络输入121,其包括如由串接操作821执行的情境特征体量130与特征帧119的串接。分割网络输入体量811被提供给第一卷积层801,该第一卷积层801通过以下操作来处理分割网络输入体量811:将任何数目的使用了(如分割网络预训练所定义的)经预训练的过滤器权重的(如分割网络架构所定义的)卷积过滤器应用于分割网络输入体量811以生成卷积层输出体量812,该卷积层输出体量812可以具有例如与分割网络输入体量811相同的分辨率以及由第一卷积层801所应用的卷积过滤器或核的数目定义的深度。例如,卷积层输出体量812可以包括数目等于第一卷积层801所应用的卷积过滤器或核的数目的特征图以及与分割网络输入体量811相同的分辨率。然后在串接操作822处,将卷积层输出体量812与情境特征体量130串接以生成卷积层输入体量813,该卷积层输入体量813包括情境特征体量130和卷积层输出体量812的组合。卷积层输入体量813被提供给第二卷积层802,该第二卷积层802通过如下操作来处理卷积层输入体量813:将任何数目的使用了经预训练的过滤器权重的卷积过滤器应用于卷积层输入体量813以生成卷积层输出体量814。卷积层输出体量814可以具有与分割网络输入体量811相同的分辨率,以及由第二卷积层802所应用的卷积过滤器或核的数目定义的深度。如图所示,第二卷积层802紧接在第一卷积层801之后,使得它们之间没有中间卷积层。类似地,然后在串接操作823处将卷积层输出体量814与情境特征体量130串接以生成卷积层输入体量815,该卷积层输入体量815包括情境特征体量130与卷积层输出体量814的组合。卷积层输入体量815被提供给卷积层803,该卷积层803如关于卷积层801、802所讨论的那样处理卷积层输入体量815以生成卷积层输出体量(未示出)。这种处理针对任何数目的卷积层继续进行直至卷积层804,该卷积层804接收卷积层输入体量816,其作为由串接操作824所提供的情境特征体量130与来自卷积层803或分割网络800的另一卷积层的卷积层输出体量的串接。如图所示,卷积层804(即,分割网络800的最后的卷积层)处理卷积层输入体量816以生成针对当前视频帧111的一个或多个分割帧151(包括一个或多个分割帧152、153)。尽管关于每个卷积层都具有情境感知跳跃连接进行了讨论,但是在一些实施例中,卷积层中的一个或多个不接收情境特征体量130。例如,情境特征体量130可以包括当前视频帧111、先前视频帧112、感兴趣对象指示符帧115、背景指示符帧117、正距离变换帧116、负距离变换帧118、和先前分割帧114。如图所示,在一些实施例中,(如由情境特征体量130所提供的)这些特征与先前卷积层输出串接并被传递给分割网络800的当前卷积层。这种基于情境的特征被有利地提供给深的卷积层,因为情境特征向语义分割任务提供了高保真度的且信息丰富的特征,并因此具有很高的识别力。此外,通过传播情境特征作为跳跃连接,分割网络有利地可访问与正在被执行的分割任务具有高相关性的特征。因此,分割网络不留出用于对网络的后续层中与任务相关的特征进行冗余编码的开销。分割网络800可以包括具有任何数目卷积层的任何cnn架构,每个卷积层具有任何大小、数目和膨胀的卷积核。此外,一些卷积层可以跟随有修正线性单元(rectifiedlinearunits),并且分割网络800在其最后的卷积层之后可以包括激活层或激活功能层以提供每个像素在感兴趣对象之中的像素级概率。分割网络800的输出可以包括一个或多个分割151,每个分割151包括关于像素是否被包括在感兴趣对象中的像素级概率,如上所讨论的。概率可以在特定范围(例如,0到1,包括0和1)上,或者它们可以是二进制的。在实施例中,分割网络800具有如下面的表1所概述的cnn架构,使得分割网络101具有9层,其后跟随有激活功能层,如上所讨论的。如图所示,第一卷积层可以以为1的膨胀来应用75个1×1卷积核,第二至第八卷积层可以以为1、4、8、16、32、64和128的递增的膨胀来应用75个3×3卷积核,并且第九卷积层可以以为1的膨胀来应用75个1×1卷积核。层1个23456789卷积1×13×33×33×33×33×33×33×33×3膨胀11481632641281深度808080808080808080表1:示例分割网络架构分割网络800实现如下文所讨论的被预训练的网络参数。图9是示出了根据本公开的至少一些实现方式布置的,用于根据输入视频和用户对象及背景选择来生成分割的示例过程900的流程图。过程900可以包括如图9所示的一个或多个操作901-909。过程900可以由本文讨论的任何设备或系统来执行以生成分割或分割掩膜。可以针对任何数目的当前视频帧、视频序列等重复过程900或其一部分。得到的分割掩膜可以进一步用在诸如转描机操作之类的任何视觉效果应用中。过程900开始于操作901,其中,获得当前视频帧和时间上先前的视频帧(以捕获和展现顺序)。当前视频帧和时间上先前的视频帧可以各自包括单个亮度通道帧或者多个(例如,三个)平面或帧(例如,亮度帧和两个色度帧(例如,yuv、ycbcr),或三个色度帧(例如,rgb))。处理在操作902处继续,其中,接收或投影出表示在感兴趣对象内的位置的正和负指示符,并且生成距离变换帧,其中一个对应于正位置帧,一个对应于负位置帧。例如,对于视频序列的第一视频帧,正和负指示符可以由用户提供,而对于视频序列的后续视频帧,正和负指示符可以是使用光流技术来投影出的。此外,在操作902处,可以生成分别与正指示符以及负指示符相对应的感兴趣对象帧或正位置帧以及背景帧或负位置帧,使得正位置帧(经由诸如1之类的值)指示正指示符的位置并且负位置帧(经由诸如1之类的值)指示负指示符的位置,其中帧值中的其他值与无指示相对应(例如,使用为0的值)。此外,如关于等式(1)所讨论的,可以生成正和负距离变换帧,使得正距离变换帧针对其每个像素包括指示距正指示符的任何位置的最小距离的值,并且负距离变换帧针对其每个像素包括指示距负指示符的任何位置的最小距离的值。处理在操作903处继续,其中,使用诸如密集光流技术之类的任何适当的运动跟踪技术来生成运动帧。在其他实施例中,可以使用诸如块匹配技术之类的运动估计技术。如所讨论的,运动帧包括指示从先前视频帧到当前视频帧的运动的运动指示符,例如,每像素速度运动向量(例如,针对运动帧的每个像素的运动向量)。处理在操作904处继续,其中,对在操作901处接收的当前视频帧调整大小(例如,上采样)并且生成子图像,使得每个子图像具有与经预训练的对象分类cnn的输入大小相对应的大小。在一些实施例中,如关于等式(2)所讨论的那样生成经调整大小的视频帧或图像的大小或分辨率,使得在经调整大小的视频帧或图像内提供离散的(discrete)整数个子图像。也就是说,给定经预训练的对象分类cnn的输入大小,则经调整大小的视频帧或图像的大小被确定为使得该大小比输入当前视频帧大出如下的量:该量将使整体子图像在水平(沿着宽度)和垂直(沿着高度)尺寸两者上都适配。尽管本文关于对输入当前视频帧进行的示例性扩大大小进行了讨论,但是在一些实施例中,输入当前视频帧可以被缩小大小以使整体子图像适配。例如,在等式(2)中,上取整函数可以被下取整函数(floorfunction)代替。经调整大小的视频帧或图像可以是使用任何适当的一种或多种技术(例如,插值技术)来生成的。处理在操作905处继续,其中,将对象分类cnn或其他对象cnn应用于在操作904处生成的每个子图像,并取回像素级超列。对象分类cnn可以是任何适当的cnn,例如,经vgg-19预训练的cnn。此外,像素级超列可以包括来自经预训练的cnn的任何层(例如,隐藏层)的特征值。每个超列包括跨越特征图的针对每个像素的多个特征(例如,约1500个特征或值),使得每个像素具有每个特征图中的特征值,如关于图3所示。所取回的超列和特征图可以被视为其两个尺寸与每个特征图的尺寸相对应并且第三个尺寸(例如,深度)与每个超列的尺寸(以及特征图的数目)相对应的体量。然后,像素级超列在每个子图像上被合并以生成特征体量并且然后通过合并每个子图像体量来在所输入的经调整大小的图像上被再次合并以确定对象分类输出体量。值得注意的是,对象分类输出体量针对其每个像素包括跨越特征图的特征的超列。此外,对象分类输出体量的深度等于所取回的特征的数目并且其分辨率等于在操作904处生成的经调整大小的视频帧或图像。处理在操作906处继续,其中,将在操作905处生成的对象分类输出体量调整大小到在操作901处获得的当前视频帧的分辨率。可以使用任何适当的一种或多种技术(例如,下采样技术)来对对象分类输出体量调整大小。尽管关于在操作906处的调整大小和在操作907处的压缩(如下文立即讨论的)进行了说明,但是在一些实施例中,可以首先执行压缩(以经调整大小的视频帧或图像的分辨率),并且可以随后执行调整大小(到当前视频帧的分辨率)。处理在操作907处继续,其中,压缩在操作906处确定的经调整大小的对象分类输出体量以生成经压缩特征的特征帧。如所讨论的,这种压缩减小了体量的深度的维度(例如,特征图的数目),同时维持了与每个特征图的尺寸相对应的维度(例如,大小或分辨率)。压缩可以是使用任何适当的一种或多种技术(例如,tucker分解)来执行的。在实施例中,压缩经调整大小的对象分类输出体量包括应用tucker分解来确定作为经压缩特征帧的核心张量。处理在操作908处继续,其中,串接情境特征体量和在操作907处生成的经压缩特征帧。如本文所讨论的,情境特征体量包括以下各项的任何组合:当前视频帧、先前视频帧、运动帧、先前分割帧、感兴趣对象指示符帧、背景指示符帧、正距离变换帧、和负距离变换帧。这种帧的任何组合被组合以提供情境特征体量,该情境特征体量被与经压缩特征帧串接。值得注意的是,情境特征体量也被提供给分割网络的较深层,如关于操作909所讨论的。尽管本文关于作为分割网络输入体量和卷积层输入体量的一部分被提供给分割网络的一些卷积层的相同情境特征体量进行了讨论,但是在一些实施例中,情境特征体量可以是不同的。在实施例中,在分割网络的输入处提供情境特征体量,而在分割网络中在输入层之后的一个或多个层或全部层处提供减小的情境特征体量。在实施例中,情境特征体量包括当前视频帧、先前视频帧、运动帧、先前分割帧、感兴趣对象指示符帧、背景指示符帧、正距离变换帧、和负距离变换帧的组合,而减小的情境特征体量消除了这种帧中的一个或多个。在实施例中,减小的情境特征体量消除了运动帧。在实施例中,减小的情境特征体量消除了正和负距离变换帧。在实施例中,减小的情境特征体量消除了运动帧以及正和负距离变换帧。这种技术可以有利地降低计算复杂度并同时保持将情境特征传递到分割网络的较深层的一些优点。处理在操作909处继续,其中,将分割网络应用于在操作908处生成的分割输入体量,使得分割网络采用本文所讨论的情境特征体量感知跳跃连接以生成一个或多个分割。例如,分割网络中在第一卷积层之后的每个卷积层可以接收情境特征体量和来自紧接在前的卷积层的输出。分割网络如关于图10所进一步讨论的那样被预训练。在一些实施例中,分割网络是使用包括边界损失项的损失函数来预训练的,该边界损失项包括以下两项之间的差:与训练感兴趣对象相对应的针对基准真实(groundtruth)边界点的基准真实值,以及与在训练期间应用分割卷积神经网络相对应的针对边界点得到的值。在一些实施例中,可以使用任何适当的阈值(例如,0.5)来对在操作909处获得的具有以任何精度范围从0到1的值的非二进制分割进行阈值处理以生成二进制分割掩膜,其中的第一指示符或值(例如,为1的值)指示被认为在感兴趣对象内的像素。例如,低于0.5的最终分割的值可以被认为是背景并且被分配以第二指示符或值(例如,为零的值),而大于或等于0.5的最终分割的值可以被认为是感兴趣对象的一部分并被分配以第一指示符或值。非二进制分割和/或二进制分割掩膜可以在任何适当的情境(例如,视觉效果、转描机等)中被使用。值得注意的是,二进制分割掩膜可以用于(例如,通过相对于当前视频帧进行叠加)获得感兴趣对象的像素以提取感兴趣对象。所提取的感兴趣对象然后可以被放置在不同的背景上,被操纵等。图10是示出了根据本公开的至少一些实现方式布置的,用于训练分割网络的示例过程1000的流程图。过程1000可以包括如图10所示的一个或多个操作1001-1007。过程1000可以由本文讨论的任何设备或系统执行以训练本文讨论的任何分割网络。过程1000或其部分可以针对任何训练、训练集等重复。由过程1000生成的参数权重可以被存储到存储器并经由处理器被实现,例如,以生成如本文所讨论的针对视频帧的分割和分割掩膜。过程1000在操作1001处开始,其中,获得训练帧并生成针对这些训练帧的基准真实数据。训练帧可以包括具有本文讨论的特性的任何数目的视频序列的训练集。例如,期望相对于推断期间将获得的预计帧,训练帧具有相同或相似的特性。在一些实施例中,基准真实数据针对每个训练帧的每个像素包括关于该像素是感兴趣对象的一部分还是背景的一部分的指示。这种基准真实数据可以是二进制的,例如其中,针对作为感兴趣对象的一部分的像素的值为1,并且针对其他像素(例如,背景像素)的值为0。处理在操作1002处继续,其中,定义分割网络的架构。分割网络架构可以包括任何特性,例如本文关于分割网络101所讨论的那些特性。处理在操作1003处继续,其中,将当前分割网络应用于训练帧中的至少一些。例如,对分割网络的训练可以是迭代的过程,使得在每个训练时期,包括卷积核过滤器权重、激活功能权重等的分割网络参数基于在操作1004处讨论的损失函数来更新。然后更新当前分割网络,依此类推,直到收敛(convergence)为止。在操作1003的第一次迭代中,分割网络可以是用使用了任何适当的一种或多种技术(例如,在某些边界内随机应用权重、将权重设置为平均权重等)的参数和权重来启动的。处理在操作1004处继续,其中,基于来自在操作1003处应用当前分割网络的结果,基于损失函数来确定损失。如图10所示,在一些实施例中,适用于损失的损失函数将jaccard损失、交互式内容损失、排名多样性损失(rankeddiversityloss)、和边界损失求和,如下面进一步讨论的。在其他实施例中,刚刚描述的这些损失中的一个或多个可以被丢弃并且/或者附加的损失可以被使用。值得注意的是,在操作1004处应用的损失函数包括边界损失,用于强烈鼓励由分割网络生成的候选分割中的边界点与基准真实边界点匹配。如所讨论的,在一些实施例中,损失函数包括jaccard损失、交互式内容损失、排名多样性损失、和边界损失的总和。在一些实施例中,损失函数基于如下的等式(5)来应用:其中,等号后的第一项是jaccard损失,第二项是交互式内容损失,第三项是排名多样性损失,并且第四项是边界损失。关于等式(5)示出的损失函数可以被表征为总损失函数。如所讨论的,项l(yi,fm(xi;θf))指示jaccard损失(或宽松的(relaxed)jaccard损失),其中l指示损失,yi指示基准事实帧,fm指示m个候选分割f,xi是当前输入帧,并且θf表示分割网络的当前参数。在一些实施例中,宽松的jaccard损失如下在等式(6)中被定义:其中,y(p)表示在基准真实帧中像素位置(或点)p处的基准真实分割的值,并且f(p)表示在像素位置(或点)p处的分割网络输出。例如,宽松的jaccard类似于联合度量上的交集(intersectionoverunionmetric),其在分割出的感兴趣区域具有较好的重叠时提供较少的损失。项指示交互式内容损失,该交互式内容损失被定义为关于如本文讨论的输入指示符(例如,输入点击位置)和相应的距离变换帧的约束。在一些实施例中,交互式内容损失如下在等式(7)中被定义:lic(sp,sn,f(xi;θf))=||sp*(sp-f(xi;θf))||1+||sn*(sn-(1-f(xi;θf)))|||(7)其中,*指示hadamard(例如,输入级积(entry-wiseproduct))。值得注意的是,交互式内容损失会针对所讨论的用户输入位置惩罚不准确的结果。项λml(yi,fm(xi;θf))指示排名多样性损失,并用于鼓励分割网络产生视觉上多样的分割以及将固有的排名应用于分割。由于语义分割问题所固有的多模态,所以这种条件是有利的。此外,该条件可以通过选择标量集{λm}来被直接施加在分割网络上以促进必须由分割网络本身解决的任意排名。最后,项指示边界损失函数,使得边界像素处的损失被惩罚并且分割网络被鼓励使边界点与基准真实相匹配。例如,针对(如由基准真实数据所定义的)边界像素,损失是基于针对边界像素的基准真实值(例如,值1)和针对边界像素的分割值(例如,范围为从0到1(含0和1)的概率)之间的差来确定的。如本文所使用的,术语边界像素指示感兴趣对象内的像素,使得至少与边界像素相邻的像素在感兴趣对象之外(并且,通常,至少一个其他相邻像素在感兴趣对象之内)。例如,分割网络是使用包括边界损失项的损失函数来预训练的,该边界损失项包括以下两项之间的差:与训练感兴趣对象相对应的针对基准真实边界点的基准真实值,以及与在训练期间应用分割卷积神经网络相对应的针对边界点得到的值。在一些实施例中,边界损失项包括伪huber损失项,该伪huber损失项包括该差与陡度(steepness)参数的分数的平方,该陡度参数用于惩罚分割卷积神经网络中的边界分割错误。在一些实施例中,边界损失项包括如等式(8)所定义的伪huber损失:其中,是伪huber损失,y表示基准真实分割,表示基准真实帧中边界像素位置(或点)p处的基准真实分割的值,表示相应边界像素位置处的分割网络输出,并且δ是陡度参数。例如,宽松的jaccard类似于联合度量上的交集,其在分割出的感兴趣区域具有较好的重叠时提供较少的损失。如图所示,伪huber损失包括以下两项之间的差:与训练感兴趣对象相对应的针对基准真实边界点的基准真实值以及与在训练期间应用分割卷积神经网络相对应的针对边界点得到的值此外,边界损失项包括该差与陡度参数的分数的平方陡度参数用于惩罚分割卷积神经网络中的边界分割错误。陡度参数可以是任何值,并且可以使用启发式技术来被确定。如所讨论的,总损失可以基于对所讨论的损失项求和来被确定。处理在操作1005处继续,其中,通过分割网络传播损失。损失可以是使用任何适当的一种或多种技术(例如,反向传播技术)来通过分割网络传播的。值得注意的是,可以基于损失来调整分割网络的权重和参数,以生成现在的当前分割网络。处理在判定操作1006处继续,其中,进行关于是否已经达到了分割网络的收敛的确定。收敛判定可以是使用任何适当的一种或多种技术(例如,分割网络的总损失小于预定阈值,最大数目的训练时期被执行等)来进行的。如果收敛尚未被满足,则处理在操作1003–1006处继续,直到收敛被达到为止。在收敛已被达到之后,处理在操作1007处继续,其中,将分割网络的权重和参数存储到存储器中,以经由诸如系统100之类的系统或本文讨论的设备的任何其他系统来应用。图11示出了根据本公开的至少一些实现方式布置的,用于分割的示例输入视频帧1101和相应得到的分割1102。值得注意的是,分割1102可以是使用本文讨论的技术来生成的。在图11的示例中,分割1102示出了二进制掩膜,其中白色表示感兴趣对象并且黑色表示背景,如本文所讨论的。如图所示,分割1102忠实地表示输入视频帧1101中的感兴趣对象(在该情况中,感兴趣对象是骑手和摩托车的组合)。此外,得到的分割1102产生高保真度的分割结果,其具有平滑且准确的边界轮廓以及从帧到帧贯穿视频的时间连贯性(coherence)(在保真度和减少的颤动两者方面)。所讨论的技术提供了视频中改进的语义分割,其包括:可选的对2k推断的使用(用于增强分辨率),基于对初始用户输入的投影来自动化进行的低用户输入分割(例如,仅需要在视频序列的第一帧上进行正和负点击),在被应用于从分类cnn提取的特征的应用驱动的张量分解以用于减少存储器使用和计算复杂度,对边界损失函数的实现以渲染具有高质量边界轮廓的分割,以及经由对诸如光流数据之类的运动数据的使用的改进的时间连贯性。图12是示出了根据本公开的至少一些实现方式布置的,用于使用采用情境感知连接的分割网络来提供视频中的分割的示例过程1200的流程图。过程1200可以包括如图12所示的一个或多个操作1201-1206。过程1200可以形成视频分割过程的至少一部分。如本文所使用的,术语视频分割指示对视频的一个或多个视频帧进行分割,使得视频帧的每个像素(或小像素区域)包括该像素是否在视频帧的特定区域(例如,感兴趣对象区域、主要区域等)之内的概率。通过非限制性示例的方式,过程1200可以形成在实现或推断阶段期间如本文所讨论的由系统100执行的视频分割过程的至少一部分。图13是示出了根据本公开的至少一些实现方式布置的,用于使用细分技术来提供视频中的分割的示例过程1300的流程图。过程1300可以包括如图13所示的一个或多个操作1301-1305。过程1300可以形成视频分割过程的至少一部分。通过非限制性示例的方式,过程1300可以形成在实现或推断阶段期间如本文所讨论的由系统100执行的视频分割过程的至少一部分。此外,过程1200和/或过程1300可以由图14的系统1400执行。值得注意的是,过程1200、1300的操作或特征可以被分开采用或彼此结合地采用。图14是根据本公开的至少一些实现方式布置的用于提供视频中的分割的示例系统1400的说明图。如图14所示,系统1400可以包括一个或多个中央处理单元(cpu)1401(即,(一个或多个)中央处理器)、图形处理单元1402(即,图形处理器)、以及存储器存储装置1403。同样如图所示,图形处理单元1402可以包括或实现分割网络101、特征提取模块102、和特征压缩模块103。这种模块或组件可以被实现为执行本文讨论的操作。在系统1400的示例中,存储器存储装置1403可以存储视频帧数据、运动数据、分割数据、特征帧数据、用户输入数据、感兴趣对象指示符或背景指示符帧数据、正或负距离变换帧数据、特征图数据、cnn参数或权重、或本文讨论的任何其他数据或数据结构。如图所示,在一些示例中,分割网络101、特征提取模块102、和特征压缩模块103经由图形处理单元1402被实现。在其他示例中,分割网络101、特征提取模块102、和特征压缩模块103中的一个或多个或者其部分经由系统1400的中央处理单元1401或图像处理单元(未示出)被实现。在其他示例中,分割网络101、特征提取模块102、和特征压缩模块103中的一个或多个或者其部分可以经由成像处理管线、图形管线等被实现。图形处理单元1402可以包括可以提供本文讨论的操作的任何数目和类型的图形处理单元。这种操作可以是经由软件或硬件或其组合来实现的。例如,图形处理单元1402可以包括专用于对从存储器存储装置1403获得的视频数据、cnn数据等进行操纵的电路系统。中央处理单元1401可以包括任何数目和类型的处理单元或模块,其可以向系统1400提供控制和其他高级功能并且/或者可以提供本文讨论的任何操作。存储器存储装置1403可以是任何类型的存储器,例如,易失性存储器(例如,静态随机存取存储器(sram)、动态随机存取存储器(dram)等)或非易失性存储器(例如,闪存等),等等。在非限制性示例中,存储器存储装置1403可以由缓存存储器实现。在实施例中,分割网络101、特征提取模块102、和特征压缩模块103中的一个或多个或者其部分经由图形处理单元1402的执行单元(eu)被实现。eu可以包括例如可以提供各种各样的可编程逻辑功能的可编程逻辑或电路系统(例如,一个或多个逻辑核心)。在实施例中,分割网络101、特征提取模块102、和特征压缩模块103中的一个或多个或者其部分是经由诸如固定功能电路系统等之类的专用硬件来实现的。固定功能电路系统可以包括专用逻辑或电路系统,并且可以提供一组固定功能入口点,其可以映射到用于固定目的或功能的专用逻辑。在一些实施例中,分割网络101、特征提取模块102、和特征压缩模块103中的一个或多个或者其部分是经由专用集成电路(asic)来实现的。asic可以包括被定制为执行本文讨论的操作的集成电路系统。返回到对图12的讨论,过程1200开始于操作1201,其中,生成与当前视频帧相对应的特征体量。特征体量或情境特征体量可以包括以下项的任何组合:当前视频帧、先前视频帧、运动帧、先前分割帧、感兴趣对象指示符帧、背景指示符帧、正距离变换帧、和负距离变换帧。在实施例中,特征体量包括当前视频帧和以下项中的一个或多个:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,该感兴趣对象指示符帧包括关于当前视频帧中的感兴趣对象的一个或多个指示符。在实施例中,特征体量包括当前视频帧、时间上先前的视频帧、时间上先前的分割帧、和感兴趣对象指示符帧。在实施例中,感兴趣对象指示符帧中的一个或多个指示符指示正指示符的位置,这些正指示符指示感兴趣对象,并且特征体量还包括背景指示符帧、正距离变换帧、和负距离变换帧,其中,背景指示符帧包括指示不包括感兴趣对象的背景的位置的负指示符,正距离变换帧针对其每个像素包括指示距正指示符的任何位置的最小距离的值,并且负距离变换帧针对其每个像素包括指示距负指示符的任何位置的最小距离的值。处理在操作1202处继续,其中,将特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于当前视频帧的卷积神经网络的特征层压缩而来的特征。在一些实施例中,卷积神经网络被应用于当前视频帧以生成cnn特征体量,该cnn特征体量然后被压缩以提供特征帧。在一些实施例中,卷积神经网络被应用于来自当前视频帧的经调整大小版本的子图像以生成cnn特征体量,该cnn特征体量然后被压缩以提供特征帧。在实施例中,特征帧是通过以下操作来生成的:将当前视频帧调整大小到包括多个子图像的经调整大小的当前视频帧(其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸),将卷积神经网络应用于每个子图像,针对每个子图像的每个像素取回多个特征值(每个特征值来自卷积神经网络的一个层)以针对每个像素生成特征值的超列,以及压缩特征值的超列以确定多个特征帧。在实施例中,压缩超列包括:将tucker分解应用于包括超列的特征体量以确定包括多个经压缩的特征帧的核心张量。处理在操作1203处继续,其中,将分割网络的多个卷积层中的第一卷积层应用于分割网络输入体量。分割网络可以包括任何数目的卷积层,其中第一卷积层接收分割网络输入体量以进行处理。例如,第一卷积层可以基于分割网络输入体量来生成相应的卷积层输出体量。处理在操作1204处继续,其中,将特征体量与来自卷积层中的第一卷积层或第二卷积层的卷积层输出体量组合以生成卷积层输入体量。值得注意的是,特征体量可以被与来自在最后卷积层之前的一个、一些、或全部卷积层的输出体量组合。然后,后续的卷积层接收组合的体量(即,卷积层输入体量)以在该后续的卷积层处进行处理。在一些实施例中,特征体量被与来自卷积层中每个非最后卷积层的相应输出体量组合,以针对卷积层中每个后续的卷积层生成相应的卷积层输入体量。也就是说,分割网络的除了第一层之外的每一层可以处理来自紧接在前的层的输出体量与特征体量的串接。在一些实施例中,组合特征体量与来自第一卷积层或第二卷积层的卷积层输出体量包括:串接特征体量与输出体量,使得特征体量和卷积层输出体量具有相同的分辨率。在一些实施例中,第二卷积层输入体量由特征体量和来自第一卷积层或第二卷积层的卷积层输出体量组成,并且其中不存在来自分割网络的任何其他卷积层的任何卷积层输出体量。处理在操作1205处继续,其中,将卷积层中的第三卷积层应用于卷积层输入体量以生成第二卷积层输出体量。值得注意的是,第三卷积层可以紧接在第一卷积层(即,分割网络中的第一层和处理了分割网络输入体量的层)之后或者可以是另一卷积层(即,除了第一卷积层之外的层)。如所讨论的,在一些实施例中,分割网络的除了第一层之外的每一层可以处理来自紧接在前的层的输出体量与特征体量的串接。在其他实施例中,并非分割网络的除了第一层之外的所有层都处理来自紧接在前的层的输出体量与特征体量的组合。也就是说,一些层可以不实现情境感知跳跃连接。处理在操作1206处继续,其中,基于第二卷积层输出体量来生成来自分割网络的当前分割帧。例如,第二卷积层输出体量可以被传递到分割网络的后续卷积层(并且可选地与特征体量串接),并且这种处理可以继续进行直至分段网络的最后卷积层,该最后卷积层提供与当前视频帧相对应的得到的分割或多个得到的候选分割。过程1200可以允许生成针对当前视频帧的一个或多个分割。过程1200可以针对任何数目的视频帧、视频序列等或者串行或者并行地重复任何次数。现在转到对图13的讨论,过程1300在操作1301处开始,其中,将当前视频帧调整大小为具有多个子图像的经调整大小的当前视频帧,其中每个子图像的尺寸对应于对象分类卷积神经网络的尺寸。也就是说,每个子图像具有等于对象分类卷积神经网络的输入分辨率的大小或分辨率(例如,高度和宽度)。在一些实施例中,经调整大小的当前视频帧的大小或分辨率可以被确定为使得经调整大小的当前视频帧的分辨率具有等于如下两项的积的宽度:对象分类卷积神经网络的输入宽度;和来自应用于当前视频帧的宽度与对象分类卷积神经网络的输入宽度的比率的上取整函数的输出,并且经调整大小的当前视频帧的分辨率具有等于如下两项的积的高度:对象分类卷积神经网络的输入高度;和来自应用于当前视频帧的高度与对象分类卷积神经网络的输入高度的比率的上取整函数的输出。因此,经调整大小的当前视频帧包括离散的整数个子图像,每个子图像具有适合于由对象分类卷积神经网络进行处理的尺寸。在一些实施例中,经调整大小的当前视频帧由子图像的网格组成。处理在操作1302处继续,其中,将对象分类卷积神经网络应用于每个子图像,并且针对每个子图像的每个像素取回多个特征值(每个特征值来自对象分类卷积神经网络的一个层)以生成对象分类输出体量。例如,对象分类输出体量可以包括多个特征图(每个特征图针对经调整大小的当前视频帧的像素具有特征值),使得每个特征图是从对象分类卷积神经网络的特定卷积层输出体量中获得或取回的。值得注意的是,任何数目的这种特征图可以来自任何数目的卷积层。在一些实施例中,从每个卷积层获得全部特征图。在其他实施例中,取回选择的特征图。在一些实施例中,与子图像相对应的(例如,针对每个像素具有特征的超列的)特征体量被合并以确定针对经调整大小的当前视频帧的(例如,针对每个像素具有特征的超列的)对象分类输出体量。在一些实施例中,这种子图像处理由对象分类卷积神经网络针对两个或更多个子图像并行地执行。在一些实施例中,将对象分类卷积神经网络应用于每个子图像包括:并行地将对象分类应用于第一子图像和第二子图像。处理在操作1303处继续,其中,将对象分类输出体量调整大小到当前视频帧的尺寸。例如,对象分类输出体量可以被下采样或缩小大小到当前视频帧的尺寸,其中当前视频帧曾经被上采样为经调整大小的当前视频帧。值得注意的是,在这种处理中对象分类输出体量的深度未被修改。处理在操作1304处继续,其中,将同当前视频帧相对应的特征体量与特征帧(其中每个特征帧包括从在操作1303处生成的经调整大小的对象分类输出体量压缩而来的特征)组合以生成输入体量。如本文所讨论的,特征体量或情境特征体量可以包括来自当前视频帧的情境特征的任何组合,这些情境特征例如是,当前视频帧、时间上先前的视频帧、时间上先前的分割帧、感兴趣对象指示符帧、背景指示符帧、正距离变换帧、负距离变换帧、和运动帧。在一些实施例中,特征体量包括当前视频帧、时间上先前的视频帧、时间上先前的分割帧、以及感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于当前视频帧中的感兴趣对象的一个或多个指示符。将特征体量与经压缩的对象分类输出体量组合,其中该经压缩的对象分类输出体量可以是使用任何适当的一种或多种技术(例如,本文讨论的tucker分解技术)从对象分类输出体量压缩而来的。得到的输入体量适合于由本文讨论的分割网络进行处理,并且可以被表征为分割网络输入体量、分割网络输入特征体量等。处理在操作1305处继续,其中,将分割卷积神经网络应用于输入体量以生成针对当前视频帧的当前分割帧。在一些实施例中,分割卷积神经网络实现如本文讨论的情境感知跳跃连接。在一些实施例中,分割卷积神经网络是没有这种情境感知跳跃连接的仅前馈网络。分割卷积神经网络提供与当前视频帧相对应的得到的分割或多个得到的候选分割。过程1300可以允许生成针对当前视频帧的一个或多个分割。过程1300可以针对任何数目的视频帧、视频序列等或者串行或者并行地重复任何次数。本文描述的系统的各种组件可以以软件、固件、和/或硬件和/或其任何组合被实现。例如,本文讨论的设备或系统的各种组件可以至少部分地由(例如,可以在计算系统(诸如例如,计算机、膝上型计算机、平板电脑、或智能电话)中找到的)计算片上系统(soc)的硬件来提供。例如,这种组件或模块可以经由多核soc处理器被实现。本领域技术人员可以认识到,本文描述的系统可以包括未在相应附图中描绘的附加组件。尽管本文讨论的示例过程的实现可以包括按所示顺序进行示出的全部操作,但本公开在此方面不受限制,并且在各种示例中,本文的示例过程的实现可以包括:仅所示操作的子集、以与所示不同的顺序执行的操作、或附加的操作。另外,本文讨论的任何一个或多个操作可以响应于由一个或多个计算机程序产品提供的指令来进行。这种程序产品可以包括提供指令的信号承载介质,这些指令在由例如处理器执行时可以提供本文描述的功能。可以以一种或多种机器可读介质的任何形式来提供计算机程序产品。因此,例如,包括一个或多个图形处理单元或(一个或多个)处理器核的处理器可以响应于由一种或多种机器可读介质传递给该处理器的程序代码和/或指令或指令集而进行本文的示例过程的一个或多个框。通常,机器可读介质可以以程序代码和/或指令或指令集的形式来传递软件,该程序代码和/或指令或指令集可以使得本文描述的任何设备和/或系统实现所讨论的操作、模块或本文讨论的组件的至少一部分。如在本文描述的任何实现方式中所使用的,术语“模块”是指被配置为提供本文描述的功能的软件逻辑、固件逻辑、硬件逻辑、和/或电路系统的任何组合。软件可以被体现为软件包、代码和/或指令集或指令,并且在本文描述的任何实现方式中使用的“硬件”可以包括例如单个的或任意组合的硬接线电路系统、可编程电路系统、状态机电路系统、固定功能电路系统、执行单元电路系统、和/或存储由可编程电路系统执行的指令的固件。模块可以共同地或单独地被体现为形成较大系统(例如,集成电路(ic)、片上系统(soc)等等)的一部分的电路系统。图15是根据本公开的至少一些实现方式布置的示例系统1500的说明图。在各种实现方式中,系统1500可以是计算系统,不过系统1500不限于此情境。例如,系统1500可以被合并到个人计算机(pc)、膝上型计算机、超膝上型计算机、平板电脑、平板手机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(pda)、蜂窝电话、组合蜂窝电话/pda、电视、智能设备(例如,智能电话、智能平板电脑或智能电视)、移动互联网设备(mid)、消息传递设备、数据通信设备、外围设备、游戏机、可穿戴设备、显示设备、全合一设备、二合一设备等等。在各种实现方式中,系统1500包括耦合到显示器1520的平台1502。平台1502可以从内容设备(例如,(一个或多个)内容服务设备1530或(一个或多个)内容递送设备1540)或其他类似的内容源(例如,摄像头或摄像头模块等)接收内容。包括一个或多个导航特征的导航控制器1550可用于与例如平台1502和/或显示器1520交互。下面更详细地描述这些组件中的每个组件。在各种实现方式中,平台1502可以包括以下各项的任何组合:芯片组1505、处理器1510、存储器1512、天线1513、存储装置1514、图形子系统1517、应用1516和/或无线电1518。芯片组1505可以提供处理器1510、存储器1512、存储装置1514、图形子系统1517、应用1516和/或无线电1518之间的互通信。例如,芯片组1505可以包括能够提供与存储装置1514的互通信的存储装置适配器(未描绘)。处理器1510可以被实现为复杂指令集计算机(cisc)或精简指令集计算机(risc)处理器、与x86指令集兼容的处理器、多核、或任何其他微处理器或中央处理单元(cpu)。在各种实现方式中,处理器1510可以是(一个或多个)双核处理器、(一个或多个)双核移动处理器等等。存储器1512可以被实现为易失性存储器设备,例如但不限于,随机存取存储器(ram)、动态随机存取存储器(dram)、或静态ram(sram)。存储装置1514可以被实现为非易失性存储设备,例如但不限于,磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接的存储设备、闪存、电池备份的sdram(同步dram)、和/或网络可访问的存储设备。在各种实现方式中,存储装置1514可以包括用于在例如多个硬驱动器被包括时增加对有价值的数字介质的存储性能增强保护的技术。图形子系统1517可以执行对诸如静态图像、图形、或视频之类的图像的处理以进行显示。图形子系统1517可以是例如图形处理单元(gpu)、视觉处理单元(vpu)、或图像处理单元。在一些示例中,图形子系统1517可以执行本文讨论的扫描图像渲染。模拟或数字接口可用于通信地耦合图形子系统1517和显示器1520。例如,该接口可以是以下各项中的任何一种:高清晰度多媒体接口、displayport、无线hdmi、和/或符合无线hd的技术。图形子系统1517可以集成到处理器1510或芯片组1505中。在一些实现方式中,图形子系统1517可以是通信地耦合到芯片组1505的独立设备。本文描述的图像处理技术可以在各种硬件架构中实现。例如,图像处理功能可以集成在芯片组内。替代地,可以使用分立的图形和/或图像处理器和/或专用集成电路。作为又一实现方式,图像处理可以由包括多核处理器的通用处理器提供。在其他实施例中,功能可以在消费者电子设备中实现。无线电1518可以包括能够使用各种适当的无线通信技术来发送和接收信号的一个或多个无线电。这种技术可能涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(wlan)、无线个域网(wpan)、无线城域网(wman)、蜂窝网络、和卫星网络。在跨这种网络进行通信时,无线电1518可以根据任何版本的一个或多个适用标准来进行操作。在各种实现方式中,显示器1520可以包括任何扁平平板监视器或显示器。显示器1520可以包括例如计算机显示屏、触摸屏显示器、视频监视器、类似电视的设备、和/或电视。显示器1520可以是数字的和/或模拟的。在各种实现方式中,显示器1520可以是全息显示器。而且,显示器1520可以是可以接收视觉投影的透明表面。这种投影可以传达各种形式的信息、图像和/或对象。例如,这种投影可以是用于移动增强现实(mar)应用的视觉覆盖。在一个或多个软件应用1516的控制下,平台1502可以在显示器1520上显示用户界面1522。在各种实现方式中,(一个或多个)内容服务设备1530可以由任何国家的、国际的和/或独立的服务托管,并且因此可经由例如互联网被平台1502访问。(一个或多个)内容服务设备1530可以耦合到平台1502和/或显示器1520。平台1502和/或(一个或多个)内容服务设备1530可以耦合到网络1560以向网络1560和从网络1560传送(例如,发送和/或接收)媒体信息。(一个或多个)内容递送设备1540也可以耦合到平台1502和/或显示器1520。在各种实现方式中,(一个或多个)内容服务设备1530可以包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的启用互联网的设备或器具、以及能够经由网络1560或直接地在内容提供者与平台1502和/显示器1520之间单向地或双向地传送内容的任何其他类似的设备。将理解的是,内容可以经由网络1560向和从系统1500中的组件与内容提供者中的任何一者单向和/或双向地传送。内容的示例可以包括任何媒体信息,包括例如视频、音乐、医疗和游戏信息等。(一个或多个)内容服务设备1530可以接收诸如有线电视节目之类的内容,包括媒体信息、数字信息、和/或其他内容。内容提供者的示例可以包括任何有线或卫星电视或无线电或互联网内容提供者。所提供的示例并不意味着以任何方式限制根据本公开的实现方式。在各种实现方式中,平台1502可以从具有一个或多个导航特征的导航控制器1550接收控制信号。导航控制器1550的导航特征可以用于与例如用户界面1522交互。在各种实施例中,导航控制器1550可以是指点设备,该指点设备可以是允许用户将空间(例如,连续的和多维的)数据输入到计算机中的计算机硬件组件(具体地,人机接口设备)。许多的系统(例如,图形用户界面(gui))以及电视和监视器允许用户使用物理手势来控制数据并将数据提供给计算机或电视。导航控制器1550的导航特征的运动可以通过指针、光标、聚焦环、或显示在显示器(例如,显示器1520)上的其他视觉指示符的运动来复制在显示器上。例如,在软件应用1516的控制下,位于导航控制器1550上的导航特征可以被映射到例如显示在用户界面1522上的虚拟导航特征。在各种实施例中,导航控制器1550可以不是单独的组件,而是可以被集成到平台1502和/或显示器1520中。然而,本公开不限于本文示出或描述的元件或情境。在各种实现方式中,驱动(未示出)可以包括用于(例如,在被启用时)使用户能够在初始启动之后通过触摸按钮来立即打开和关闭平台1502(如电视)的技术。即使在平台被“关闭”时,程序逻辑也可以允许平台1502将内容流式传输到媒体适配器或其他(一个或多个)内容服务设备1530或(一个或多个)内容递送设备1540。另外,芯片组1505可以包括例如针对5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动可以包括用于集成图形平台的图形驱动。在各种实施例中,图形驱动可以包括外围组件互连(pci)express图形卡。在各种实现方式中,可以集成系统1500中所示的任何一个或多个组件。例如,可以集成平台1502和(一个或多个)内容服务设备1530,或者可以集成平台1502和(一个或多个)内容递送设备1540,或者例如可以集成平台1502、(一个或多个)内容服务设备1530、和(一个或多个)内容递送设备1540。在各种实施例中,平台1502和显示器1520可以是集成单元。例如,可以集成显示器1520和(一个或多个)内容服务设备1530,或者可以集成显示器1520和(一个或多个)内容递送设备1540。这些示例并不意味着限制本公开。在各种实施例中,系统1500可以被实现为无线系统、有线系统、或两者的组合。当被实现为无线系统时,系统1500可以包括适合于在无线共享介质上进行通信的组件和接口,例如,一个或多个天线、发射机、接收机、收发机、放大器、过滤器、控制逻辑等。无线共享介质的示例可以包括无线频谱的一部分,例如,rf频谱等。当被实现为有线系统时,系统1500可以包括适合于在有线通信介质上进行通信的组件和接口,例如,输入/输出(i/o)适配器、用于将i/o适配器与相应的有线通信介质连接的物理连接器、网络接口卡(nic)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、电缆、金属引线、印刷电路板(pcb)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。平台1502可以建立一个或多个逻辑或物理信道来传送信息。该信息可以包括媒体信息和控制信息。媒体信息可以指代表示用于用户的内容的任何数据。内容的示例可以包括例如来自以下各项的数据:语音对话、视频会议、流视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等。来自语音对话的数据可以是例如话语信息、沉默时段、背景噪声、舒适噪声、音调等。控制信息可以指代表示用于自动化系统的命令、指令或控制字的任何数据。例如,控制信息可以用于路由媒体信息通过系统,或者指示节点以预定的方式处理媒体信息。然而,实施例不限于图15中示出或描述的元件或情境。如上所描述的,系统1500可以以变化的物理样式或形状因数来体现。图16示出了根据本公开的至少一些实现方式布置的示例小形状因数设备1600。在一些示例中,系统1500可以经由设备1600被实现。在其他示例中,本文讨论的其他系统、组件、或模块或者其一部分可以经由设备1600被实现。在各种实施例中,例如,设备1600可以被实现为具有无线能力的移动计算设备。例如,移动计算设备可以指代具有处理系统和移动电源或电力供应(例如,一个或多个电池)的任何设备。移动计算设备的示例可以包括个人计算机(pc)、膝上型计算机、超膝上型计算机、平板电脑、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(pda)、蜂窝电话、组合蜂窝电话/pda、智能设备(例如,智能电话、智能平板电脑或智能移动电视)、移动互联网设备(mid)、消息传递设备、数据通信设备、摄像头(例如,傻瓜摄像头、超变焦摄像头、数字单镜头反光(dslr)摄像头)等等。移动计算设备的示例还可以包括被布置为由机动车或机器人实现或者由人穿戴的计算机,例如,腕式计算机、手指计算机、戒指计算机(ringcomputer)、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、服装计算机、以及其他可穿戴计算机。在各种实施例中,例如,移动计算设备可以被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管可以通过示例的方式用被实现为智能电话的移动计算设备来描述一些实施例,但是可以理解,也可以使用其他无线移动计算设备来实现其他实施例。实施例不限于此情境。如图16所示,设备1600可以包括具有前部1601和背部1602的壳体。设备1600包括显示器1604、输入/输出(i/o)设备1606、彩色摄像头1621、彩色摄像头1622、和集成天线1608。例如,彩色摄像头1621和彩色摄像头1622可以输入如本文讨论的图像数据(例如,左和右图像)。设备1600还可以包括导航特征1612。i/o设备1606可以包括用于将信息输入到移动计算设备中的任何适当的i/o设备。i/o设备1606的示例可以包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、麦克风、扬声器、语音识别设备和软件等。信息也可以通过麦克风(未示出)被输入到设备1600中,或者可以由语音识别设备数字化。如图所示,设备1600可以包括集成到设备1600的背部1602(或其他地方)中的彩色摄像头1621、1622和闪光灯1610。在其他示例中,可以将彩色摄像头1621、1622和闪光灯1610集成到设备1600的前部1601中,或者可以提供前面的一组摄像头和背面的一组摄像头两者。例如,彩色摄像头1621、1622和闪光灯1610可以是摄像头模块的组件,用于引起彩色图像数据,该彩色图像数据可以被处理成图像或流视频,该图像或流视频被输出到显示器1604和/或经由天线1608被从设备1600远程地传送。各种实施例可以使用硬件元件、软件元件、或两者的组合被实现。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(asic)、可编程逻辑器件(pld)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口(api)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任何组合。确定实施例是否使用硬件元件和/或软件元件被实现可以根据任何数目的因素而变化,这些因素例如是期望的计算速率、功率水平、热耐受性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其他设计或性能约束。至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令被实现,这些代表性指令表示处理器内的各种逻辑,并且在被机器读取时使得该机器制造用于执行本文描述的技术的逻辑。这样的表示(被称为ip核)可以被存储在有形的机器可读介质上,并且被提供给各种客户或制造设施以加载到实际制造逻辑或处理器的制造机器中。在一个或多个第一实施例中,一种用于提供视频中的分割的方法包括:生成与当前视频帧相对应的特征体量,该特征体量包括当前视频帧和以下项中的至少一者:时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于当前视频帧中的感兴趣对象的一个或多个指示符;将特征体量与多个特征帧组合以生成分割网络输入体量,其中每个特征帧包括从被应用于当前视频帧的卷积神经网络的特征层压缩而来的特征;将分割网络的多个卷积层中的第一卷积层应用于分割网络输入体量;将特征体量与来自卷积层中的第一卷积层或第二卷积层的卷积层输出体量组合以生成卷积层输入体量;将卷积层中的第三卷积层应用于卷积层输入体量以生成第二卷积层输出体量;以及基于第二卷积层输出体量来生成来自分割网络的当前分割帧。在一个或多个第二实施例中,继第一实施例,该方法还包括:将特征体量与来自卷积层中每个非最后卷积层的相应输出体量组合,以针对卷积层中的每个后续卷积层生成相应的卷积层输入体量。在一个或多个第三实施例中,继第一或第二实施例,将特征体量与来自第一卷积层或第二卷积层的卷积层输出体量组合包括:串接特征体量和该输出体量,其中特征体量和卷积层输出体量包括相同的分辨率。在一个或多个第四实施例中,继第一至第三实施例中的任一项,特征体量包括当前视频帧、时间上先前的视频帧、时间上先前的分割帧、和感兴趣对象指示符帧。在一个或多个第五实施例中,继第一至第四实施例中的任一项,感兴趣对象指示符帧中的一个或多个指示符指示正指示符的位置,其中这些正指示符指示感兴趣对象,特征体量还包括背景指示符帧、正距离变换帧、和负距离变换帧,其中,背景指示符帧包括指示背景的位置的负指示符,该背景不包括感兴趣对象,正距离变换帧针对其每个像素包括指示距正指示符的任何位置的最小距离的值,负距离变换帧针对其每个像素包括指示距负指示符的任何位置的最小距离的值。在一个或多个第六实施例中,继第一至第五实施例中的任一项,第二卷积层输入体量由特征体量与来自第一卷积层或第二卷积层的卷积层输出体量组成,并且其中不存在来自分割网络的任何其他卷积层的任何卷积层输出体量。在一个或多个第七实施例中,继第一至第六实施例中的任一项,该方法还包括通过以下操作来生成特征帧:将当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧(每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸),将卷积神经网络应用于每个子图像,针对每个子图像的每个像素取回多个特征值(每个特征值来自卷积神经网络的一个层)以针对每个像素生成特征值的超列,以及压缩特征值的超列以确定多个特征帧。在一个或多个第八实施例中,继第一至第七实施例中的任一项,压缩超列包括:将tucker分解应用于包括超列的特征体量,以确定包括多个经压缩的特征帧的核心张量。在一个或多个第九实施例中,一种用于提供视频中的分割的方法包括:将当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧,其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸;将对象分类卷积神经网络应用于每个子图像,并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量,其中每个特征值来自对象分类卷积神经网络的层中的一个层;将对象分类输出体量调整大小到当前视频帧的尺寸;将至少包括当前视频帧的特征体量与多个特征帧组合以生成输入体量,其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征;以及将分割卷积神经网络应用于输入体量,以生成针对当前视频帧的当前分割帧。在一个或多个第十实施例中,继第九实施例,经调整大小的当前视频帧的分辨率具有如下的宽度:该宽度包括对象分类卷积神经网络的输入宽度与来自上取整函数的输出的积,其中该上取整函数被应用于当前视频帧的宽度与对象分类卷积神经网络的输入宽度的比率。在一个或多个第十一实施例中,继第九或第十实施例,经调整大小的当前视频帧由子图像的网格组成。在一个或多个第十二实施例中,继第九至第十一实施例中的任一项,特征体量还包括时间上先前的视频帧、时间上先前的分割帧、和感兴趣对象指示符帧,其中该感兴趣对象指示符帧包括关于当前视频帧中的感兴趣对象的一个或多个指示符。在一个或多个第十三实施例中,继第九至第十二实施例中的任一项,将对象分类卷积神经网络应用于每个子图像包括:并行地将对象分类应用于第一子图像和第二子图像。在一个或多个第十四实施例中,一种设备或系统包括存储器和处理器,用于执行根据以上实施例中的任一项的方法。在一个或多个第十五实施例中,至少一种机器可读介质包括多个指令,该多个指令响应于在计算设备上被执行而使该计算设备执行根据以上实施例中的任一项的方法。在一个或多个第十六实施例中,一种装置包括用于执行根据以上实施例中的任一项的方法的构件。尽管已经参考各种实现方式描述了本文阐述的某些特征,但是该描述并非旨在以限制性的意义来解释。因此,对于本公开所属领域的技术人员而言显而易见的对本文描述的实现方式的各种修改以及其他实现方式被认为落在本公开的精神和范围内。将认识到,实施例不限于所描述的实施例,而是可以在不脱离所附权利要求的范围的情况下以修改和变更来实践。例如,以上实施例可以包括特征的特定组合。然而,以上实施例在此方面不受限制,并且在各种实现方式中,以上实施例可以包括:仅进行这种特征的子集、进行这种特征的不同顺序、进行这种特征的不同组合、和/或进行除了明确列出的那些特征之外的附加特征。因此,实施例的范围应当参考所附权利要求以及这种权利要求被赋予的等同物的全部范围来确定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1