特征传播方法和装置、电子设备、程序和介质与流程

文档序号:14844681发布日期:2018-06-30 14:44阅读:271来源:国知局
特征传播方法和装置、电子设备、程序和介质与流程

本发明涉及计算机视觉技术,尤其是一种特征传播方法和装置、电子设备、程序和介质。



背景技术:

视频语义分割是计算机视觉和视频语义理解任务中的重要问题。视频语义分割模型在很多领域,例如自动驾驶,视频监控,以及视频目标分析等领域,有重要的应用。

目前,虽然对图像的语义分割技术研究的比较多,但是对视频语义分割技术却研究的比较少。视频语义分割要求较高的实时性,同时能够保证足够的精度。



技术实现要素:

本发明实施例提供一种视频中的特征传播技术方案。

根据本发明实施例的一个方面,提供的一种特征传播方法,包括:

判断当前帧是否为关键帧;

响应于所述当前帧为视频中的非关键帧,根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,由所述前一关键帧的高层特征获取所述当前帧的高层特征;其中,神经网络中,提取得到所述前一关键帧的低层特征对应的第一网络层的网络深度,浅于提取得到所述前一关键帧的高层特征对应的第二网络层的网络深度。

可选地,在本发明上述任一方法实施例中,所述根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,由所述前一关键帧的高层特征获取所述当前帧的高层特征,包括:

根据相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取从所述前一关键帧的低层特征变换到所述当前帧的低层特征的转换权值;

根据所述前一关键帧的高层特征和所述转换权值,将所述前一关键帧的高层特征转换为所述当前帧的高层特征。

可选地,在本发明上述任一方法实施例中,响应于所述当前帧为视频中的非关键帧,还包括:

至少基于所述当前帧的高层特征,对所述当前帧进行语义分割,获得所述当前帧的语义标签。

可选地,在本发明上述任一方法实施例中,所述至少基于所述当前帧的高层特征,对所述当前帧进行语义分割,包括:

基于所述当前帧的低层特征和高层特征,对所述当前帧进行语义分割,获得所述当前帧的语义标签。

可选地,在本发明上述任一方法实施例中,基于所述当前帧的低层特征和高层特征,对所述当前帧进行语义分割,包括:

对所述当前帧的低层特征进行转换,获得与所述当前帧的高层特征的通道数一致的特征;

将所述当前帧转换得到的特征与所述当前帧的高层特征进行拼接或融合,获得当前帧特征;

基于所述当前帧特征,对所述当前帧进行语义分割。

可选地,在本发明上述任一方法实施例中,所述判断当前帧是否为关键帧,包括:

利用关键帧调度策略判断所述当前帧是否为关键帧。

可选地,在本发明上述任一方法实施例中,所述利用关键帧调度策略判断所述当前帧是否为关键帧,包括:利用固定长度调度法判断所述当前帧是否为关键帧;

响应于所述当前帧为视频中的非关键帧,所述方法还包括:对所述当前帧进行特征提取,获得所述当前帧的低层特征。

可选地,在本发明上述任一方法实施例中,利用关键帧调度策略判断所述当前帧是否为关键帧,包括:

对所述当前帧进行特征提取,获得所述当前帧的低层特征;

根据所述前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;

根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧。

可选地,在本发明上述任一方法实施例中,根据所述前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值,包括:

将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接,得到拼接特征;

通过关键帧调度网络,基于所述拼接特征获取所述当前帧是否应该被调度为关键帧的调度概率值。

可选地,在本发明上述任一方法实施例中,还包括:

响应于当前帧为视频中的关键帧,对所述当前帧进行特征提取,获得所述当前帧的低层特征并缓存;

对所述当前帧的低层特征进行特征提取,获得所述当前帧的高层特征并缓存。

可选地,在本发明上述任一方法实施例中,还包括:

响应于当前帧为所述视频中的关键帧,基于所述当前帧的高层特征,对所述当前帧进行语义分割,获得所述当前帧的语义标签。

根据本发明实施例的另一个方面,提供的一种特征传播装置,包括:

判断模块,用于判断当前帧是否为关键帧;

特征传播模块,用于根据所述判断模块的判断结果,响应于当前帧为视频中的非关键帧,根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,由所述前一关键帧的高层特征获取所述当前帧的高层特征;其中,神经网络中,提取得到所述前一关键帧的低层特征的第一网络层的网络深度,浅于提取得到所述前一关键帧的高层特征对应的第二网络层的网络深度。

可选地,在本发明上述任一装置实施例中,所述特征传播模块,具体用于:

根据所述前一关键帧的低层特征和所述当前帧的低层特征,获取从所述前一关键帧的低层特征变换到所述当前帧的低层特征的转换权值;以及

根据所述前一关键帧的高层特征和所述转换权值,将所述前一关键帧的高层特征转换为所述当前帧的高层特征。

可选地,在本发明上述任一装置实施例中,还包括:

语义分割模块,用于根据所述判断模块的判断结果,响应于当前帧为视频中的非关键帧,至少基于所述当前帧的高层特征,对所述当前帧进行语义分割,获得所述当前帧的语义标签。

可选地,在本发明上述任一装置实施例中,所述语义分割模块至少基于所述当前帧的高层特征,对所述当前帧进行语义分割时,具体用于:基于所述当前帧的低层特征和高层特征,对所述当前帧进行语义分割。

可选地,在本发明上述任一装置实施例中,所述语义分割模块基于所述当前帧的低层特征和高层特征,对所述当前帧进行语义分割时,具体用于:

对所述当前帧的低层特征进行转换,获得与所述当前帧的高层特征的通道数一致的特征;

将所述当前帧转换得到的特征与所述当前帧的高层特征进行拼接或融合,获得当前帧特征;以及

基于所述当前帧特征,对所述当前帧进行语义分割。

可选地,在本发明上述任一装置实施例中,所述判断模块,具体用于利用关键帧调度策略判断所述当前帧是否为关键帧。

可选地,在本发明上述任一装置实施例中,所述判断模块,具体用于利用固定长度调度法判断所述当前帧是否为关键帧;

所述装置还包括:

第一特征提取模块,用于根据所述判断模块的判断结果,响应于当前帧为视频中的非关键帧,对所述当前帧进行特征提取,获得所述当前帧的低层特征。

可选地,在本发明上述任一装置实施例中,还包括:

第一特征提取模块,用于对所述当前帧进行特征提取,获得所述当前帧的低层特征;

获取模块,用于根据相邻的前一关键帧的低层特征和所述当前帧的低层特征,获取所述当前帧被调度为关键帧的调度概率值;

所述判断模块,具体用于根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧。

可选地,在本发明上述任一装置实施例中,所述获取模块包括:

拼接单元,用于对所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接,得到拼接特征;

关键帧调度网络,用于基于所述拼接特征获取所述当前帧是否应该被调度为关键帧的调度概率值。

可选地,在本发明上述任一装置实施例中,所述第一特征提取模块,还用于根据所述判断模块的判断结果,响应于当前帧为视频中的关键帧,对所述当前帧进行特征提取,获得所述当前帧的低层特征并缓存;

所述装置还包括:

第二特征提取模块,用于对所述关键帧的低层特征进行特征提取,获得所述关键帧的高层特征并缓存。

可选地,在本发明上述任一装置实施例中,所述语义分割模块,还用于根据所述判断模块的判断结果,响应于当前帧为视频中的关键帧,基于所述当前帧的高层特征,对所述当前帧进行语义分割,获得所述当前帧的语义标签。

根据本发明实施例的又一个方面,提供的一种电子设备,包括:本发明上述任一实施例所述的特征传播装置。

根据本发明实施例的又一个方面,提供的另一种电子设备,包括:

处理器和本发明上述任一实施例所述的特征传播装置;

在处理器运行所述特征传播装置时,本发明上述任一实施例所述的特征传播装置中的单元被运行。

根据本发明实施例的又一个方面,提供的又一种电子设备,包括:处理器和存储器;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本发明上述任一实施例所述的特征传播方法中各步骤的操作。

根据本发明实施例的又一个方面,提供的一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现本发明上述任一实施例所述的特征传播方法中各步骤的指令。

根据本发明实施例的又一个方面,提供的一种计算机可读介质,用于存储计算机可读取的指令,所述指令被执行时实现本发明上述任一实施例所述的特征传播方法中各步骤的操作。

基于本发明上述实施例提供的特征传播放方法和装置、电子设备、程序和介质,在当前帧为视频中的非关键帧时,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,由前一关键帧的高层特征获取当前帧的高层特征,以便基于该高层特征对非关键帧进行语义分割。本发明实施例利用了视频帧之间的一致性信息,利用邻近帧之间的语义标签相近的特点,将用于进行视频语义分割的高层特征从相邻的前一关键帧传播到当前帧,以便基于该当前帧的高层特征对当前帧进行语义分割,无需对视频连续帧逐帧提取用于语义分割的高层特征,相对于逐帧提取用于语义分割的高层特征的方式,减少了重复计算时间;另外,本发明实施例将前一关键帧的高层特征传播到当前帧以用于语义分割而非直接传播语义标签,相对于光流传播关键帧语义标签的方式,提高了语义分割的准确性。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:

图1为本发明特征传播方法一个实施例的流程图。

图2为本发明特征传播方法另一个实施例的流程图。

图3为本发明特征传播方法又一个实施例的流程图。

图4为本发明特征传播装置一个实施例的结构示意图。

图5为本发明特征传播装置另一个实施例的结构示意图。

图6为本发明特征传播装置又一个实施例的结构示意图。

图7为本发明电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中,发明人通过研究发现,目前现有的一种视频语义分割方法中,直接将用于图像语义分割的模型应用到视频中,由于视频连续帧有很多的冗余信息,逐帧处理并没有利用这种信息,从而导致计算复杂性大;在另一种视频语义分割方法中,使用光流从关键帧传播特征到非关键帧,其利用一个深度神经网络计算关键帧的语义标签,然后用一个小的网络计算关键帧和当前帧的光流,即关键帧和当前帧中逐像素点的位移向量,然后通过光流从关键帧传播语义标签到当前帧,即:基于该逐像素点的位移向量对关键帧传播语义标签进行处理以得到当前帧的语义标签,由于视频中目标运动等原因可能导致视频中图像的画面晃动、模糊,使获得的光流并不准确,从而降低了语义分割精度。

图1为本发明特征传播方法一个实施例的流程图。如图1所示,该实施例的特征传播方法包括:

102,判断当前帧是否为关键帧。

例如,可以利用关键帧调度策略判断当前帧是否为关键帧。

104,响应于当前帧为视频中的非关键帧,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,由前一关键帧的高层特征获取当前帧的高层特征。

其中,神经网络中,提取得到前一关键帧和当前帧的低层特征和当前帧的低层特征的第一网络层的网络深度,浅于神经网络中对低层特征进行特征提取得到高层特征的第二网络层的网络深度。

本发明各实施例中,神经网络包括两个以上网络深度不同的网络层,神经网络包括的网络层中,用于进行特征提取的网络层可以称为特征层,神经网络接收到一个帧后,通过第一个特征层对输入的帧进行特征提取,并将其输入第二个特征层,从第二个特征层起,每个特征层依次对输入的特征进行特征提取,将提取到的特征输入至下一个网络层进行特征提取,直至得到用于进行语义分割的特征。神经网络中各特征层的网络深度依据特征提取的顺序由浅至深,依据网络深度,可以将神经网络中用于进行特征提取的特征层划分为低层特征层和高层特征层两部分,即上述第一网络层和第二网络层。其中,低层特征层中的各特征层依次进行特征提取最终输出的特征称为低层特征,高层特征层中的各特征层依次进行特征提取最终输出的特征称为高层特征。相对于同一神经网络中网络深度较浅的特征层,网络深度较深的特征层视野域较大,较多的关注空间结构信息,提取到的特征用于语义分割时,使得语义分割更准确,然而,网络深度越深,计算难度和复杂度越高。实际应用中,可以根据预设标准,例如计算量,将神经网络中的特征层划分为低层特征层和高层特征层,该预设标准可以根据实际需求调整。例如,对于一个包括101个依次连接的特征层的神经网络,可以根据预先设定,将该100个特征层中的第1个至第30个这前30个(也可以是其他数量)的特征层作为低层特征层,将第31个至第100个这后70个特征层作为高层特征层。例如,对于金字塔场景解析网络(Pyramid Scene Parsing Network,PSPN),该神经网络可以包括四部分卷积网络(conv1到conv4)和一个分类层,每一部分卷积网络又包括多个卷积层,可以依据计算量的大小,将该PSPN中从conv1到conv4_3中的卷积层作为低层特征层,其占了该PSPN约1/8的计算量,将该PSPN中从conv4_4到最后分类层前的各卷积层作为高层特征层,其占了PSPN约7/8的计算量;分类层用于对高层特征层输出的高层特征进行语义分割。基于本发明上述实施例提供的特征传播放方法,在当前帧为视频中的非关键帧时,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,由前一关键帧的高层特征获取当前帧的高层特征,以便基于该高层特征对非关键帧进行语义分割。本发明实施例利用了视频帧之间的一致性信息,利用邻近帧之间的语义标签相近的特点,将用于进行视频语义分割的高层特征从相邻的前一关键帧传播到当前帧,以便基于该当前帧的高层特征对当前帧进行语义分割,无需对视频连续帧逐帧提取用于语义分割的高层特征,相对于逐帧提取用于语义分割的高层特征的方式,减少了重复计算时间;另外,本发明实施例将前一关键帧的高层特征传播到当前帧以用于语义分割而非直接传播语义标签,相对于光流传播关键帧语义标签的方式,提高了语义分割的准确性。

在本发明各实施例的其中一个实施方式中,操作102中,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,由前一关键帧的高层特征获取当前帧的高层特征,可以包括:

根据相邻的前一关键帧的低层特征和当前帧的低层特征,获取从前一关键帧的低层特征变换到当前帧的低层特征的转换权值;

根据前一关键帧的高层特征和转换权值,将前一关键帧的高层特征转换为当前帧的高层特征,该特征为从前一关键帧传播下来的特征,也称为传播特征。

在其中一个可选示例中,可以通过多个卷积层,获取从前一关键帧的低层特征变换到当前帧的低层特征的转换权值。

在本发明特征传播方法的另一个实施例中,还可以包括:响应于当前帧为视频中的非关键帧,至少基于当前帧的高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

在其中一个实施方式中,至少基于当前帧的高层特征,对当前帧进行语义分割,可以包括:基于当前帧的低层特征和高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

在实际应用中,提取得到高层特征的第一网络层的通道数通常多于提取得到低层特征的第一网络层的通道数,为了将当前帧的低层特征和高层特征进行融合,在其中一个示例性中,基于当前帧的低层特征和高层特征,对当前帧进行语义分割,可以包括:

对当前帧的低层特征进行转换,获得与当前帧的高层特征的通道数一致的特征;

将当前帧转换得到的特征与当前帧的高层特征进行拼接或融合,获得当前帧特征;

基于当前帧特征,对当前帧进行语义分割。

本发明上述实施例中,融合由前一关键帧的高层特征征下来的高层特征和当前帧的特征以用于语义分割,而无需利用计算代价大的单帧模型获取非关键帧的特征,在减少计算量的同时,保证了语义分割的准确性。

另外,在本发明特征传播方法的再一个实施例中,还可以缓存前一关键帧之后各非关键帧的高层特征,在当前帧为非关键帧时,将当前帧转换得到的特征与当前帧的高层特征、前一关键帧的高层特征、以及前一关键帧与当前帧之前各非关键帧的高层特征进行拼接或融合,获得当前帧特征,以及基于当前帧特征,对当前帧进行语义分割。

基于该实施例,可以传播前一关键帧和当前帧之间的所有缓存的高层特征到当前帧,并进行拼接或融合以进行语义分割,这样可以在极小的融合代价下获得获得更加鲁棒的语义分割效果。

在本发明各实施例的一个实施方式中,其中的关键帧调度策略可以是固定长度调度法,例如每隔l~5帧判断为一次关键帧,即:可以利用固定长度调度法判断当前帧是否为关键帧。

图2为本发明特征传播方法另一个实施例的流程图。如图2所示,该实施例的特征传播方法包括:

202,利用固定长度调度法判断当前帧是否为关键帧。

若当前帧是否为关键帧,执行操作212。否则,若当前帧为视频中的非关键帧,执行操作204。

204,对当前帧(也称为:当前非关键帧)进行特征提取,获得当前帧的低层特征。

在本发明各实施例的一个示例中,可以通过神经网络的低层特征层(即:第一网络层)对当前帧进行特征提取,获得当前帧的低层特征。

206,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,获取从该前一关键帧的低层特征变换到当前帧的低层特征的转换权值。

其中,转换权值可以是前一关键帧的低层特征与当前帧的低层特征这两个特征之间的转换矩阵,包括前一关键帧的低层特征与当前帧的低层特征中,逐像素点的特征之间的转换元素。

208,根据该前一关键帧的高层特征和转换权值,将该前一关键帧的高层特征转换为当前帧的高层特征。

210,基于当前帧的低层特征和高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

至步骤210语义分割的流程结束,之后,不执行本实施例的后续流程。

212,对当前帧(也称为:当前关键帧)进行特征提取,获得当前帧的低层特征并缓存。

在其中一个实例中,可以通过神经网络的低层特征层(即:第一网络层)对当前帧进行特征提取。

214,对当前帧的低层特征进行特征提取,获得当前帧的高层特征并缓存。

在其中一个实例中,可以通过神经网络的高层特征层(即:第二网络层)对当前帧的低层特征进行特征提取。

216,基于当前帧的高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

本发明各实施例中,关键帧和非关键帧可以共享神经网络的低层特征层进行低层特征提取,此处的神经网络可以采用PSPN,该神经网络可以包括四部分卷积网络(conv1到conv4)和一个分类层,每一部分卷积网络又分为多个卷积层,其中,神经网络的低层特征层可以包括PSPN中从conv1到conv4_3中的卷积层,占了PSPN约7/8的计算量;神经网络的高层特征层可以包括从conv4_4到最后分类层前的各卷积层,占了PSPN约1/8的计算量,用于提取关键帧的高层特征;分类层用于基于关键帧或非关键帧的高层特征对应识别关键帧或非关键帧中至少一个像素的类别,从而实现对关键帧或非关键帧的语义分割。

本发明各实施例中,对于关键帧,可以调用计算代价大的单帧模型,例如PSPN进行语义分割,从而获得高精度的语义分割结果。对于非关键帧,可以将关键帧的高层特征自适应的传播到当前帧,得到当前帧的高层特征,充分利用了视频连续帧之间的一致性信息,避免了重复计算时间,基于当前帧的低层特征和高层特征,对当前帧进行语义分割,获得当前帧的语义标签。本实施例即确保了关键帧的语义分割精度,也不需要采用计算代价大的单帧模型对非关键帧逐帧进行语义分割,减少了计算复杂度和计算时间,节省了计算资源。

图3为本发明特征传播方法又一个实施例的流程图。如图3所示,该实施例的特征传播方法包括:

302,对当前帧进行特征提取,获得当前帧的低层特征。

在本发明各实施例的一个示例中,可以通过神经网络的低层特征层(即:第一网络层)对当前帧进行特征提取,获得当前帧的低层特征。

304,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值。

在其中一个示例中,可以将前一关键帧的低层特征和当前帧的低层特征进行拼接,并将得到的拼接特征输入一关键帧调度网络,由该关键帧调度网络基于该拼接特征获取当前帧是否应该被调度为关键帧的调度概率值。

306,根据当前帧的调度概率值确定当前帧是否被调度为关键帧。

若当前帧是否为关键帧,执行操作314。否则,若当前帧为视频中的非关键帧,执行操作308。

308,根据当前帧(也称为:当前非关键帧)相邻的前一关键帧的低层特征和当前帧的低层特征,获取从该前一关键帧的低层特征到当前帧的低层特征的转换权值。

310,根据该前一关键帧的高层特征和转换权值,将前一关键帧的高层特征转换为当前帧的高层特征。

312,基于当前帧的低层特征和高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

之后,不执行本实施例的后续流程。

314,对当前帧(也称为:当前关键帧)进行特征提取,获得当前帧的低层特征并缓存。

在其中一个实例中,可以通过神经网络的低层特征层(即:第一网络层)对当前帧进行特征提取。

316,对当前帧的低层特征进行特征提取,获得当前帧的高层特征并缓存。

在其中一个实例中,可以通过神经网络的高层特征层(即:第二网络层)对当前帧的低层特征进行特征提取。

318,基于当前帧的高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

本发明实施例可以用于自动驾驶场景、视频监控场景、人像分割等互联网娱乐产品等,例如:

1,在自动驾驶的场景下,可以利用本发明实施例将视频中的目标快速分割出来,例如人和车辆;

2,在视频监控场景中,可以将人快速的分割出来;

3,在人像分割等互联网娱乐产品中,可以快速的从视频帧中把人分割出来。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明特征传播装置一个实施例的结构示意图。本发明各实施例的特征传播装置可用于实现上述各实施例的特征传播方法。如图4所示,其中一个实施例的特征传播装置包括:判断模块和特征传播模块。其中:

判断模块,用于判断当前帧是否为关键帧。

特征传播模块,用于根据判断模块的判断结果,响应于当前帧为视频中的非关键帧,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,由前一关键帧的高层特征获取当前帧的高层特征。

其中,神经网络中,提取得到前一关键帧的低层特征的第一网络层的网络深度,浅于提取得到前一关键帧的高层特征对应的第二网络层的网络深度。

基于本发明上述实施例提供的特征传播放装置,在当前帧为视频中的非关键帧时,根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征,由前一关键帧的高层特征获取当前帧的高层特征,以便基于该高层特征对非关键帧进行语义分割。本发明实施例利用了视频帧之间的一致性信息,利用邻近帧之间的语义标签相近的特点,将用于进行视频语义分割的高层特征从相邻的前一关键帧传播到当前帧,以便基于该当前帧的高层特征对当前帧进行语义分割,无需对视频连续帧逐帧提取用于语义分割的高层特征,相对于逐帧提取用于语义分割的高层特征的方式,减少了重复计算时间;另外,本发明实施例将前一关键帧的高层特征传播到当前帧以用于语义分割而非直接传播语义标签,相对于光流传播关键帧语义标签的方式,提高了语义分割的准确性。

在其中一个实施例方式中,特征传播模块具体用于:根据前一关键帧的低层特征和当前帧的低层特征,获取从前一关键帧的低层特征变换到当前帧的低层特征的转换权值;以及根据前一关键帧的高层特征和转换权值,将前一关键帧的高层特征转换为当前帧的高层特征。

图5为本发明特征传播装置另一个实施例的结构示意图。如图5所示,与图4所示实施例相比,该实施例的特征传播装置还包括:语义分割模块,用于根据判断模块的判断结果,响应于当前帧为视频中的非关键帧,至少基于当前帧的高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

在其中一个实施例方式中,语义分割模块至少基于当前帧的高层特征,对当前帧进行语义分割时,具体用于基于当前帧的低层特征和高层特征,对当前帧进行语义分割。

在其中一个可选示例中,语义分割模块基于当前帧的低层特征和高层特征,对当前帧进行语义分割时,具体用于:对当前帧的低层特征进行转换,获得与当前帧的高层特征的通道数一致的特征;将当前帧转换得到的特征与当前帧的高层特征进行拼接或融合,获得当前帧特征;以及基于当前帧特征,对当前帧进行语义分割。

在本发明上述各特征传播装置实施例的一个实施方式中,判断模块具体用于利用关键帧调度策略判断当前帧是否为关键帧。

在其中一个可选示例中,判断模块具体用于利用固定长度调度法判断当前帧是否为关键帧。相应地,再参见图5,又一实施例的特征传播装置还可以包括:第一特征提取模块,用于根据判断模块的判断结果,响应于当前帧为视频中的非关键帧,对当前帧进行特征提取,获得当前帧的低层特征。

或者,参见图6,在再一实施例的特征传播装置中,还可以包括第一特征提取模块和获取模块。其中:第一特征提取模块,用于对当前帧进行特征提取,获得当前帧的低层特征。获取模块,用于根据相邻的前一关键帧的低层特征和当前帧的低层特征,获取当前帧被调度为关键帧的调度概率值。相应地,该实施例中,判断模块具体用于根据当前帧的调度概率值确定当前帧是否被调度为关键帧。

在其中一个实施方式中,获取模块可以包括:拼接单元,用于对前一关键帧的低层特征和当前帧的低层特征进行拼接,得到拼接特征;关键帧调度网络,用于基于拼接特征获取当前帧是否应该被调度为关键帧的调度概率值。

示例性地,在上述各实施例的特征传播装置中,第一特征提取模块还可用于根据判断模块的判断结果,响应于当前帧为视频中的关键帧,对当前帧进行特征提取,获得当前帧的低层特征并缓存。再参见图5或图6,在进一步实施例的特征传播装置中,还可以包括:第二特征提取模块,用于根据判断模块的判断结果,对关键帧的低层特征进行特征提取,获得关键帧的高层特征并缓存。

可选地,在上述各实施例的特征传播装置中,语义分割模块还可用于根据判断模块的判断结果,响应于当前帧为视频中的关键帧,基于当前帧的高层特征,对当前帧进行语义分割,获得当前帧的语义标签。

另外,本发明实施例还提供了一种电子设备,包括本发明上述任一实施例的特征传播装置。

另外,本发明实施例还提供了另一种电子设备,包括:

存储器,用于存储可执行指令;以及

一个或多个处理器,用于与存储器通信以执行可执行指令从而完成本发明上述任一实施例的特征传播方法的操作。

另外,本发明实施例还提供了又一种电子设备,包括:

处理器和本发明上述任一实施例的特征传播装置;

在处理器运行特征传播装置时,本发明上述任一实施例的特征传播装置中的单元被运行。

图7为本发明电子设备一个应用实施例的结构示意图。下面参考图7,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图7所示,该电子设备包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU),和/或一个或多个图像处理器(GPU)等,处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令,通过总线与通信部相连、并经通信部与其他目标设备通信,从而完成本申请实施例提供的任一方法对应的操作,例如,判断当前帧是否为关键帧;响应于所述当前帧为视频中的非关键帧,根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征,由所述前一关键帧的高层特征获取所述当前帧的高层特征;其中,神经网络中,提取得到所述前一关键帧的低层特征对应的第一网络层的网络深度,浅于提取得到所述前一关键帧的高层特征对应的第二网络层的网络深度。

此外,在RAM中,还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下,ROM为可选模块。RAM存储可执行指令,或在运行时向ROM中写入可执行指令,可执行指令使处理器执行本发明上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。

以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。

另外,本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,该指令被执行时实现本发明上述任一实施例特征传播方法的操作。

另外,本发明实施例还提供了一种计算机程序,包括计算机可读取的指令,当计算机可读取的指令在设备中运行时,设备中的处理器执行用于实现本发明上述任一实施例特征传播方法中的步骤的可执行指令。

在一个可选实施方式中,所述计算机程序具体为软件产品,例如软件开发包(Software Development Kit,SDK),等等。

在一个或多个可选实施方式中,本发明实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的特征传播方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如SDK等等。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1