视频识别方法和装置与流程

文档序号:12125781阅读:424来源:国知局
视频识别方法和装置与流程

本申请涉及视频处理技术领域,特别涉及一种视频识别方法和装置。



背景技术:

色情内容作为互联网的一种不良信息,是需要严格管控的,而视频作为互联网流量的主要部分,更加需要对其进行有效识别并进行管控。目前,色情内容的识别方法主要有以下几种:

1)基于特征库的匹配识别。在预先存储的人体特征库中查找与待识别图像匹配的人体敏感部位图片所对应的特征数据,然后根据匹配的特征数据计算待识别图像对应的置信度,并进一步根据置信度判断对应的待识别图像是否为色情图像。该方法的召回率和精准度依赖人体特征库的完备性和匹配规则,对人体姿态、遮挡、光照比较敏感,特别地,对于暴露不充分的图像,识别率较低。

2)基于肤色模型或敏感部位模型的识别。这种方法主要是通过大量样本图像肤色区域或人体敏感器官训练人体皮肤的颜色模型或人体敏感器官的颜色模型。然后根据上述模型对待识别图像进行人体皮肤区域或敏感器官检测。此种方法虽然对光照和不同肤色的人种比较敏感,但对于正常的裸露,如脸和手臂,误判率较高。此外,敏感部位模型对遮挡比较敏感,特征的提取速度和识别速度都较慢。

3)基于卷积神经网络的识别方法的识别。该方法基于卷积神经网络,通过循环训练大量的样本,得到最终的检测模型,并通过检测模型对待识别视频中的图像帧进行识别。

虽然,基于卷积神经网络的识别方法能够克服因环境光线的多样化、人种的多样性等问题,但是该方法与方法1)和2)都只是图像级的识别方法。目前在对视频的识别中,可通过抽取视频的关键帧,然后将以上一种或几种图像级的处理方法应用到每个关键帧上进行识别。但是这种方法中关键帧抽取没有考虑到视频中图像在时间域上的连续性,而且决策模型简单,分类特征值区分度不高,导致精度不理想;此外,需要解码整个视频,有大量冗余计算,识别速度非常不理想。



技术实现要素:

本申请旨在至少在一定程度上解决上述技术问题。

为此,本申请的第一个目的在于提出一种视频识别方法,降低了识别耗时,提高了识别速度和精度。

本申请的第二个目的在于提出一种视频识别装置。

为达上述目的,根据本申请第一方面实施例提出了一种视频识别方法,包括以下步骤:将待识别视频划分为多个区间;分别对所述多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标,并根据所述色情统计指标判断所述待识别视频是否为色情视频。

本申请实施例的视频识别方法,可将待识别视频划分为多个区间,并进行多层级探测,根据探测过程中的色情统计指标判断待识别视频是否为色情视频,通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得的色情统计指标鲁棒性强,并且在探测过程中可根据探测的进度更新色情统计指标,从而并进行判断,从而可提前返回判断结果,无需解码和探测整个待识别视频,降低了识别耗时,提高了识别速度和精度。

本申请第二方面实施例提供了一种视频识别装置,包括:划分模块,用于将待识别视频划分为多个区间;探测模块,用于分别对所述多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标;判断模块,用于在对每个区间进行多层级探测的过程中根据所述色情统计指标判断所述待识别视频是否为色情视频。

本申请实施例的视频识别装置,可将待识别视频划分为多个区间,并进行多层级探测,根据探测过程中的色情统计指标判断待识别视频是否为色情视频,通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得的色情统计指标鲁棒性强,并且在探测过程中可根据探测的进度更新色情统计指标,从而并进行判断,从而可提前返回判断结果,无需解码和探测整个待识别视频,降低了识别耗时,提高了识别速度和精度。

本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本申请一个实施例的视频识别方法的流程图;

图2为根据本申请一个实施例的多层级结构的示意图;

图3为根据本申请一个实施例的对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标的流程图;

图4为根据本申请一个实施例的对待识别帧所在的镜头进行镜头级色情识别的流程图;

图5为根据本申请一个实施例的对待检测片段进行片段级色情识别的流程图;

图6为根据申请一个实施例的获取两个图像帧之间的帧差的流程图;

图7为根据本申请另一个实施例的对待识别帧所在的镜头进行镜头级色情识别的流程图;

图8为根据本申请一个实施例的对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标并判断待识别视频是否为色情视频的流程图;

图9为根据本申请一个实施例的视频识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述根据本申请实施例的视频识别方法和装置。

图1为根据本申请一个实施例的视频识别方法的流程图。

如图1所示,根据本申请实施例的视频识别方法,包括:

S101,将待识别视频划分为多个区间。

在本申请的一个实施例中,可根据待识别视频的时长将其划分为多个区间。本申请对区间的划分的规则不做限定。举例而言,可根据待识别视频的时长将待识别视频平均划分为等长度的多个区间,或者将待识别视频划分为时长为预设时长的多个区间,当待识别视频的时长不能整除预设时长时,可将不能整除的剩余部分单独作为一个区间或者合并至其相邻区间。

在本申请的一个实施例中,多个区间可分别具有各自的处理优先级。该处理优先级可在划分区间时对每个区间分别进行设定。处理优先级越高,则在后续进行多层级探测时可被优先处理。具体地,在设定处理优先级时,可根据历史经验进行设定,例如,根据对大量色情视频的分析,得知大部分色情视频中敏感内容大多位于视频中后部,则可将位于待识别视频中后部的区间的处理优先级设置为高。

S102,分别对多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标,并根据色情统计指标判断待识别视频是否为色情视频。

其中,多层级探测是指根据视频的多层级结构对待识别视频进行探测。具体地,如图2所示,视频自上而下可分别包括:

第一级:区间级(图2中用range[i]表示第i个区间)。即将视频根据其时长分为多个区间,可通过S101实现。

第二级:镜头级(图2中用shot[i]表示第i个镜头)。镜头是次语义级别的视频处理单元,一个镜头是时间上连续且视觉相似的帧的集合。色情识别在镜头中进行时,以镜头为单位统计色情概率值,并累计时长。

第三级:片段级(图2中用segment[i]表示第i个片段)。由于超长的镜头会导致较长的处理耗时,因此,可将长镜头进行切分为一定时长(即第三时间,例如可为15秒)的片段。色情识别在片段中进行时,将片段的统计概率值累加至从属镜头的统计概率值。

第四级:帧级(图2中用frame[i]表示第i个图像帧)。从视频中解码获得一个完整的图像帧,基于深度卷积神经网络的色情图像识别算法对图像帧进行识别,将获得色情概率值累加至片段或镜头统计值中。

其中,区间中镜头的划分以及镜头中片段的划分是在探测过程中在逐帧识别时生成的。

具体地,镜头的划分是在对每一图像帧进行识别时计算该图像帧与其相邻图像帧的帧差,如果帧差为1,则这两个图像帧之间即为两个镜头的分隔点。

镜头中的片段的划分是在镜头识别过程中,从镜头中的第一个图像帧开始向后累积各个图像帧的时长,当累计时长达到设定的片段时长时,则生成一个片段,并开始下一片段的生成。镜头中第一片段的开始是该镜头的初始帧,最后一个片段的结尾是该镜头的结束帧。

在本申请的一个实施例中,对多个区间进行多层级探测时,可将多个区间分为N个区间组,并通过N个并行线程对N个区间组分别进行探测,其中,每个线程按照处理优先级依次对其对应的区间组中的区间进行多层级探测,其中,N为正整数。

应当理解,在本申请的另一个实施例中,也可无需对多个区间进行分组,可直接通过多个并行线程按照多个区间的处理优先级对多个区间并行探测。

由此,可通过多个并行线程按照一定的策略对多个区间进行并多层级探测,能够充分硬件计算资源,利用多线程技术将硬件资源转化为速度的提升,从而提高了视频识别效率。

在本申请的实施例中,色情统计指标可包括总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数、待识别视频的视频时长和帧率中的一种或多种。可基于预先训练的支持向量机判别模型对累计色情概率值、非色情次数、总色情帧数、总色情时长、镜头处理总数、帧处理总数、待识别视频的视频时长和帧率进行分析,以判断待识别视频是否为色情视频。

其中,累计色情概率值为在探测过程中镜头时长不小于第一时间且色情概率值大于第二概率阈值的已识别镜头的镜头时长总和,总色情时长是随着镜头检测过程逐渐累计得到的。

非色情次数为在探测过程中识别到色情概率值不大于第一概率阈值的图像帧的次数。

总色情帧数为在探测过程中识别出的色情图像帧的总数。其中,色情图像帧为色情概率值大于第四概率阈值的图像帧。另外,如果一个图像帧集合中的图像帧的平均色情概率阈值 大于第四概率阈值,则判断该图像帧集合中的图像帧为色情图像帧。

镜头处理总数为在探测过程中进行镜头级色情识别的镜头总数。

帧处理总数为在探测过程中进行色情识别的图像帧总数。

总色情时长为在探测过程中镜头时长不小于第一时间且色情概率值大于第二概率阈值的已识别镜头的镜头时长总和。

应当理解,上述色情统计指标中的待识别视频的视频时长和帧率为待识别视频的固有属性。而总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数是在探测过程中随着探测的进行不断变换的,则探测过程中,当每个指标发生更新时,即可据此判断待识别视频是否为色情视频。而

在本申请的实施例中,可通过对大量的被人工标记的样本视频(包括色情视频和非色情视频)进程探测,以得到的统计指标,然后根据得到的统计指标进行训练并支持向量机(Support Vector Machine,SVM)建立该判别模型。

应当理解,在本申请的实施例中,多层级探测可为上述四个层级中两个或两个以上层级的组合探测,例如,区间级探测->镜头级探测->片段级探测->帧级探测,或者区间级探测->镜头级探测->帧级探测,或者区间级探测->帧级探测等。

具体地,区间级探测->镜头级探测->片段级探测->帧级探测可如图3、图4和图5所示,区间级探测->镜头级探测->帧级探测可如图3和图7所示,区间级探测->帧级探测可如图8所示。

下面结合图3-图8对本申请的对每个区间进行多层级探测的过程进行说明。

图3为根据本申请一个实施例的对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标的流程图。如图3所示,对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标包括以下步骤:

S1,将当前探测区间的第一个图像帧作为待识别帧。

S2,对待识别帧进行色情识别,以获取待识别帧的色情概率值,并将当前的帧处理总数加1。

具体地,可首先对待识别帧进行解码,并在解码后对待识别帧进行色情识别。在本申请的实施例中,将当前探测区间的第一个图像帧作为待识别帧。

本申请的实施例中,可基于深度卷积神经网络对待识别帧图像进行色情识别,以获取待识别帧的色情概率值。基于深度卷积神经网络的识别方法能够根据图像帧的颜色、形状、纹理、结构等信息对图像帧进行识别,避免了传统识别算法中特征提取和数据重建的复杂过程,图像帧可直接作为深度卷积神经网络的输入,对图像的平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。根据实验统计结果,本申请实施例中,基于深度卷积神经网络的识 别方法的召回率和精度可分别达到90%和95%,由此可见,该方法大大提高了单帧图像的识别精度和召回率。

S3,如果待识别帧的色情概率值大于第一概率阈值,则对待识别帧所在的镜头进行镜头级色情识别,以获取待识别帧所在镜头的色情概率值和色情时长。

在本申请的一个实施例中,第一概率阈值用于对单帧图像进行判断,如果图像帧的色情概率值大于第一概率阈值,则可判断该图像帧为可疑色情帧。因此,如果待识别帧的色情概率值大于第一概率阈值,则可通过图4所示的实施例进一步对待识别帧所在的镜头进行镜头级色情识别,以获取待识别帧所在镜头的色情概率值和色情时长,并进行后续判断识别。

S4,如果待识别帧所在镜头的色情概率值大于第二概率阈值,则进一步判断待识别帧所在镜头的色情时长是否小于第一时间。

S5,如果小于第一时间,则将待识别帧所在镜头与相邻的同类镜头进行合并,以使合并后的镜头的时长不小于第一时间。

如果镜头的时长小于第一时间,则表示该镜头为短镜头。由于短镜头的可信度较低,因此可对镜头进行合并。其中,第一时间可以是2秒。

具体地,镜头合并的规则是相邻的色情镜头进行合并,相邻的非色情镜头进行合并。也就是说,如若当前镜头是短的色情镜头,且其前相邻镜头也是色情镜头,则将该镜头合并到前一个镜头中。若当前镜头是短的色情镜头,且其前相邻镜头不是色情镜头,则将该镜头不会合并。同样,若当前镜头是短的非色情镜头,且其前相邻镜头也是非色情镜头,则将该镜头合并到前一个镜头中。若当前镜头不是短镜头,但其前相邻镜头是短镜头,亦会尝试合并。在合并时,镜头时长相加,镜头的色情概率值分数相加。

S6,如果不小于第一时间,则将待识别帧所在镜头的色情时长累加至当前的总色情时长,以对总色情时长进行更新。

此外,可将待识别帧所在镜头的色情概率值累加至当前的累计色情概率值,以对累计色情概率值进行更新。

S7,如果总色情时长大于第二时间,则判断待识别视频为色情视频;

S8,如果总色情时长不大于第二时间,则将待识别帧的下一图像帧作为新的待识别帧,并重复S2-S8,直至当前探测区间探测完成,其中,第一时间小于第二时间。

其中,第一时间小于第二时间。

总色情时长为当前已探测完成的所有区间的色情时长的总和,在区间探测过程中,是随着探测过程的进行实时变化的。具体地,每对一个镜头识别结束后,将该镜头的色情时长累加至当前的总色情时长,以对总色情时长进行更新。

如果总色情时长大于第二时间,则可判断待识别视频为色情视频,否则继续探测,直至 总色情时长大于第二时间判断待识别视频为色情视频,或者全部多个区间都探测完成判断带视频为非色情视频。

S9,如果待识别帧的色情概率值不大于第一概率阈值,则将非色情次数加1,并判断非色情次数是否大于次数阈值。

S10,如果非色情次数大于次数阈值,则判断待识别帧所在镜头为非色情镜头并将非色情镜头数加1,并结束当前探测区间的探测,并对当前探测区间的下一区间进行探测。

如果待识别帧的色情概率值不大于第一概率阈值,则表示该待识别帧为非色情帧,则可直接对下一区间进行探测,而不需要进一步进行镜头级识别。从而能够控制镜头级识别的次数,提高了识别效率。

S11,如果非色情次数不大于次数阈值,则将待识别帧的下一图像帧作为新的待识别帧,并重复S2-S11,直至当前探测区间的探测结束。

由此,完成了一个区间的探测。

在本申请的实施例中,由于可通过多个线程对区间进行并行探测,也就是说,每个线程各自处理一个区间序列,因此,当一个线程探测完成一个区间后,可继续对该线程所处理的区间序列中的下一区间进行探测,从而使视频的识别过程有序高效的进行。

图4为根据本申请一个实施例的对待识别帧所在的镜头进行镜头级色情识别的流程图。如图4所示,对待识别帧所在的镜头进行镜头级色情识别具体包括以下步骤:

S301,判断待识别帧是否为待识别视频的最后一帧图像。

如果是,则镜头色情概率值和镜头色情时长分别作为待识别帧所在镜头的色情概率值和色情时长。

S302,如果否,则进一步判断待识别帧所在镜头中已识别图像帧的数量是否大于预设数量。

S303,如果已识别图像帧的数量大于预设数量,则对后续图像帧进行搜索,直至达到镜头边界,并将待识别帧的下一图像帧作为新的待识别帧。

具体地,在一次镜头级色情识过程中,每次对一个图像帧进行识别时,都将已识别图像帧的数量加1,以实时更新已识别图像帧的数量。当镜头中已识别的图像帧的数量大于预设数量时,可直接搜索后续图像帧,找到镜头边界,结束待识别帧所在镜头的识别过程。此时,可将搜索到的镜头边界的下一图像帧作为待识别帧。

S304,如果已识别图像帧的数量不大于预设数量,则将待识别帧缓存至待检测片段。

其中,第三时间可为15秒。

S305,检测待识别帧是否达到镜头边界检测。

在本申请的一个具体实施例中,S305可具体包括:通过颜色统计直方图法计算待识别 帧和待识别帧的下一图像帧的帧差;如果该帧差为1,则判断待识别帧达到镜头边界检测;如果帧差为0,则判断待识别帧是未否达到镜头边界检测。

S306,如果待识别帧未达到镜头边界,则判断待检测片段中的图像帧的总时长是否达到第三时间。

S307,如果待检测片段中的图像帧的总时长未达到第三时间,则将待识别帧的下一帧作为新的待识别帧,并重复S303-S307,直至待检测片段中的图像帧的总时长达到第三时间。

其中,第三时间用于控制片段的长度。如果待检测片段中的图像帧的总时长达到第三时间或者待识别帧达到镜头边界,则待检测片段中缓存的图像帧可构成一个片段。从而可对待检测片段进行片段级色情识别,以获取待检测片段的色情概率值和色情时长。

也就是说,可在镜头级识别开始时生成一个空的集合作为待检测片段,然后依次将相邻的将图像帧添加至待检测片段,直至待检测片段中图像帧的总时长达到第三时间,则该待检测片段完成。从而可通过此方式控制片段的长度,并在识别过程中动态生成片段。

S308,如果待识别帧达到镜头边界或者待检测片段中的图像帧的总时长达到第三时间,则对待检测片段进行片段级色情识别,以获取待检测片段的色情概率值和色情时长。

具体地,可通过如图5的实施例进一步对待检测片段进行片段级色情识别。

S309,将待检测片段的色情概率值累加至当前的镜头色情概率值,并将待检测片段的色情时长累加至当前的镜头色情时长,以分别对当前的镜头色情概率值和当前的镜头色情时长进行更新。

S310,如果当前的镜头色情概率值大于第三概率阈值,则将镜头色情概率值和镜头色情时长分别作为待识别帧所在镜头的色情概率值和色情时长。

第三概率阈值用于对镜头进行判断,如果镜头的色情概率阈值大于第三概率阈值,则可判断该镜头为色情镜头。因此,如果当前的镜头色情概率值大于第三概率阈值,则可将镜头色情概率值和镜头色情时长分别作为待识别帧所在镜头的色情概率值和色情时长。

S311,如果片段总色情概率值不大于第三概率阈值,则检测待识别帧是否达到镜头边界。

S312,如果待识别帧达到镜头边界,或者S301中判断待识别帧为待识别视频的最后一帧图像,或者在S303中搜索到镜头边界后,将镜头色情概率值和镜头色情时长分别作为待识别帧所在镜头的色情概率值和色情时长。

具体地,如果S311中判断达到镜头边界或者在S303中搜索到镜头边界后,则需要返回区间级探测,以触发下一镜头的镜头级色情识别,因此,可将得到的镜头色情概率值和镜头色情时长分别作为待识别帧所在镜头的色情概率值和色情时长。

如果S301中判断待识别帧为待识别视频的最后一帧图像,则表面待识别视频已探测结束,可将镜头色情概率值和镜头色情时长分别作为待识别帧所在镜头的色情概率值和色情时 长,以进一步得到总色情时长和累计色情概率值,并输入到判别模型,对待识别视频进行识别判断。

S313,如果待识别帧未达到镜头边界,则将待识别帧的下一图像帧作为新的待识别帧,并重复S301-S313。

由此,完成了镜头级色情识别的过程。

图5为根据本申请一个实施例的对待检测片段进行片段级色情识别的流程图。如图5所示,对待检测片段进行片段级色情识别具体包括以下步骤:

S501,按照预设规则对待检测片段中的图像帧进行采样,其中,被采样的图像帧组成第三初始评估集合。

具体地,待检测片段是一组时间连续的图像帧序列,可根据预设采样率等间隔地对该图像帧序列进行采样,以得到第三初始评估集合。举例来说,如果待检测片段中有100个图像帧,预设采样率为50%,则可每两隔一个图像帧采样一次,从而从得到第三初始评估集合中的50个图像帧。

S502,对第三初始评估集合进行色情识别,以获取第三初始评估集合中每个图像帧的色情概率值。

在本申请的实施例中,可通过多个线程对第三初始评估集合中的图像帧并行地进行帧级识别,即通过上述基于深度卷积神经网络对每个图像帧进行色情识别,从而得到第三初始评估集合中每个图像帧的色情概率值。

S503,根据第三初始评估集合中每个图像帧的色情概率值计算第三初始评估集合中的图像帧的平均色情概率值,并确定第三初始评估集合中色情概率值最小的图像帧。

S504,判断第三初始评估集合中的图像帧的平均色情概率值是否大于第四概率阈值。

S505,如果第三初始评估集合中的图像帧的平均色情概率值大于第四概率阈值,则将第三初始评估集合中的图像帧的平均色情概率值作为待检测片段的色情概率值,其中,第四概率阈值大于第一概率阈值。

其中,第四概率阈值用于对单帧图像进行判断,如果图像帧的色情概率值大于第四概率阈值,则可判断该图像帧为色情帧。如果第三初始评估集合中的图像帧的平均色情概率值大于第四概率阈值,则表示第三初始评估集合中的图像帧为色情帧。此时,可结束片段级色情识别的过程,并将平均色情概率值作为待检测片段的色情概率值。

S506,如果第三初始评估集合中的图像帧的平均色情概率值不大于第四概率阈值,则分别计算待检测片段中未被采样的每个图像帧与色情概率值最小的图像帧的帧差,并将帧差为1的未被采样的图像帧添加至第三初始评估集合中,以得到第三目标评估集合。

S507,对第三目标评估集合进行色情识别,以获取第三目标评估集合中每个图像帧中的 色情概率值。

同样地,可基于深度卷积神经网络对第三目标评估集合中的图像进行色情识别。

S508,根据第三目标评估集合中每个图像帧中的色情概率值计算第三目标评估集合中图像帧的平均色情概率值,并作为待检测片段的色情概率值。

然后,可同样地并行地进行帧级识别,获得每个图像帧的色情概率值后进行平均,得到第三目标评估集合中图像帧的平均色情概率值。二次评估和并行处理的方式保证了理想的处理速度和精度。该处理流程如图5所示。

由于第三目标评估集合中的图像帧与色情概率值最小的图像帧的帧差为1,即第三目标评估集合中的图像帧与色情概率值最小的图像帧的差别较大,而色情概率值最小的图像帧为色情图像帧的概率较低,因此,第三目标评估集合中的图像帧的色情概率值更高,从而,第三目标评估集合在很大程度上弥补了第三初始评估集合的采样不足的问题,提高了对色情内容的敏感度。

由此,完成了片段级色情识别。在片段级色情识别的过程中,通过并行帧级识别和第二评估的方式,进一步提高了识别的速度和精度。

图6为根据申请一个实施例的获取两个图像帧之间的帧差的流程图。具体地,如图6所示,获取两个图像帧之间的帧差包括以下步骤:

S601,按照预设规则将两个图像帧分别划分为M个区域,并为M个区域分别进行编号,其中,M为大于2的正整数。

举例来说,将每个图像帧划分为4×4的方阵区域,此时,M=16。其中,每个区域对应的标号分别0-15。

S602,计算两个图像帧中每个像素点的颜色值。

其中,颜色值可以是RGB(Red,Green,Blue,红,绿,蓝)空间、HSV(Hue,Saturation,Value,色调,饱和度,亮度)空间、YUV(色度、亮度)空间等中的任意一种颜色空间对应的颜色值。举例来说,YUV空间对应的颜色值为灰度值。

S603,根据两个图像帧中各个区域中像素点的颜色值分别计算两个图像帧的局部颜色统计直方图。

其中,以灰度值为例,计算两个图像帧的局部颜色统计直方图是指,对于图像帧中的每个区域来说,各个灰度值在区域内全部像素点中所占的比例的统计结果,其中,可通过公式(1)来表示:

Hi(y)=Σ{x:I(x)=y} (1)

其中,0≤i≤M-1表示区域的编号,0≤y≤255表示灰度值。

S604,根据两个图像帧的局部颜色统计直方图计算两个图像帧的帧差。

具体地,可通过公式(2)计算两个图像帧的帧差f:

其中,表示两个图像帧中第i个区域的颜色统计直方图的差,LTH表示局部阈值,GTH表示全局阈值,其中,LTH和GTH为预设的。

由此,可通过如图6所示的实施例计算图4所示实施例中待识别帧和待识别帧的下一图像帧的帧差,以对镜头边界进行检测。还可通过如图6所示的实施例计算图5所示实施例中待检测片段中未被采样的每个图像帧与色情概率值最小的图像帧的帧差,以进行二次评估。

通过局部颜色直方图的方法计算待识别帧和待识别帧的下一图像帧的帧差,以进行镜头边界检测,对于较大局部变化的区域能够准确地检测为不同镜头,检测精度更高,从而与深度卷积神经网络的单帧识别的配合度更高。

图7为根据本申请另一个实施例的对待识别帧所在的镜头进行镜头级色情识别的流程图。如图7所示,对待识别帧所在的镜头进行镜头级色情识别具体包括以下步骤:

S701,按照预设规则对待识别帧所在的镜头中的图像帧进行采样,其中,被采样的图像帧组成第二初始评估集合。

其中,可从待识别帧开始搜索到镜头边界,从而确定待识别帧所在的镜头。

S702,对第二初始评估集合进行色情识别,以获取第二初始评估集合中每个图像帧的色情概率值。

S703,根据第二初始评估集合中每个图像帧的色情概率值计算第二初始评估集合中的图像帧的平均色情概率值。

其中,S701-S703可参照S501-S503.

S704,判断第二初始评估集合中的图像帧的平均色情概率值是否大于第六概率阈值。

S705,如果第二初始评估集合中的图像帧的平均色情概率值大于第六概率阈值,则将第二初始评估集合中的图像帧的平均色情概率值作为待识别帧所在镜头的色情概率值,并将第二初始评估集合中的图像帧的累计时长作为待识别帧所在镜头的色情时长。

S706,如果第二初始评估集合中的图像帧的平均色情概率值不大于第六概率阈值,则确定第二初始评估集合中色情概率值最小的图像帧。

S707,分别计算待检测片段中未被采样的每个图像帧与色情概率值最小的图像帧的帧差,并将帧差为1的未被采样的图像帧添加至第二初始评估集合中,以得到第二目标评估集合。

S708,对第二目标评估集合进行色情识别,以获取第二目标评估集合中每个图像帧中的色情概率值。

同样地,可基于深度卷积神经网络对第二目标评估集合中的图像进行色情识别。

S709,根据第二目标评估集合中每个图像帧中的色情概率值计算第二目标评估集合中图像帧的平均色情概率值。

S710,如果第二目标评估集合中图像帧的平均色情概率值大于第六概率阈值,则将第二目标评估集合中的图像帧的平均色情概率值作为待识别帧所在镜头的色情概率值,并将第二目标评估集合中的图像帧的累计时长作为待识别帧所在镜头的色情时长。

图8为根据本申请一个实施例的对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标并判断待识别视频是否为色情视频的流程图。如图8所示,具体包括以下步骤:

S801,按照预设规则对当前探测区间中的图像帧进行采样,其中,被采样的图像帧组成第第一初始评估集合。

S802,对第一初始评估集合进行色情识别,以获取第一初始评估集合中每个图像帧的色情概率值。

S803,根据第一初始评估集合中每个图像帧的色情概率值计算第一初始评估集合中的图像帧的平均色情概率值。

具体地,S801-S803可参照S501-S503。

S804,判断第一初始评估集合中的图像帧的平均色情概率值是否大于第五概率阈值。

S805,如果第一初始评估集合中的图像帧的平均色情概率值大于第五概率阈值,则判断待识别视频为色情视频。

S806,如果第一初始评估集合中的图像帧的平均色情概率值不大于第五概率阈值,则确定第一始评估集合中色情概率值最小的图像帧。

S807,分别计算当前探测区间中未被采样的每个图像帧与色情概率值最小的图像帧的帧差,并将帧差为1的未被采样的图像帧添加至第一初始评估集合中,以得到第一目标评估集合。

S808,对第一目标评估集合进行色情识别,以获取第一目标评估集合中每个图像帧中的色情概率值。

同样地,可基于深度卷积神经网络对第一目标评估集合中的图像进行色情识别。

S809,根据第一目标评估集合中每个图像帧中的色情概率值计算第一目标评估集合中图像帧的平均色情概率值。

S810,如果第一目标评估集合中图像帧的平均色情概率值大于第五概率阈值,则判断待 识别视频为色情视频,否则对下一区间进行探测。

本申请实施例的视频识别方法,可将待识别视频划分为多个区间,并进行多层级探测,根据探测过程中的色情统计指标判断待识别视频是否为色情视频,通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得的色情统计指标鲁棒性强,并且在探测过程中可根据探测的进度更新色情统计指标,从而并进行判断,从而可提前返回判断结果,无需解码和探测整个待识别视频,降低了识别耗时,提高了识别速度和精度。

此外,本申请实施例的视频识别方法还具有以下优点:

1、基于深度卷积神经网络对视频单帧进行色情程度的判定,提高了单帧识别的精度;

2、基于级探测的识别方法,以镜头为处理基本单元,利用了镜头内画面视觉相似性和时间连续性,并通过采样和差异性二次评估,降低了帧级识别误报和漏报带来的噪声,也减少了冗余计算;

3、利用局部色情直方图差进行视频镜头边界检测,使得同一镜头内的图像有很高的概率在基于深度神经网络的色情图像识别模型下有相近的特征表达;

4、利用先验知识将待识别视频划分为多个具有各自处理优先级、可并行处理的区间,在片段级色情识别过程中通过缓存帧,使得可进行并行处理多帧,提高识别效率;

5、在每个图像帧进行识别之前对其进行解码,而不是在视频识别之初将视频中的全部图像帧进行解码,从而在提前返回结果时,可大大减少解码的图像帧的数量,提高处理速度;

6、在各层级识别过程中,通过镜头中已识别图像帧的数量的上限、色情时长的阈值、片段时长的阈值、区间非色情次数的上限来控制计算额度,使得总体识别速度可控,并与视频时长无关;

7、利用总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数、待识别视频的视频时长和帧率等为变量建立判别模型进行色情判断识别,提高了识别精度。

为了实现上述实施例,本申请还提出一种视频识别装置。

图9为根据本申请一个实施例的视频识别装置的结构示意图。

如图9所示,根据本申请实施例的视频识别装置,包括:划分模块10、探测模块20和判断模块30。

具体地,划分模块10用于将待识别视频划分为多个区间。

在本申请的一个实施例中,划分模块10可根据待识别视频的时长将其划分为多个区间。本申请对区间的划分的规则不做限定。举例而言,划分模块10可根据待识别视频的时长将待识别视频平均划分为等长度的多个区间,或者将待识别视频划分为时长为预设时长的多个区间,当待识别视频的时长不能整除预设时长时,可将不能整除的剩余部分单独作为一个区 间或者合并至其相邻区间。

在本申请的一个实施例中,多个区间可分别具有各自的处理优先级。该处理优先级可在划分区间时对每个区间分别进行设定。处理优先级越高,则在后续进行多层级探测时可被优先处理。具体地,在设定处理优先级时,可根据历史经验进行设定,例如,根据对大量色情视频的分析,得知大部分色情视频中敏感内容大多位于视频中后部,则可将位于待识别视频中后部的区间的处理优先级设置为高。

探测模块20用于分别对多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标。

其中,多层级探测是指根据视频的多层级结构对待识别视频进行探测,具体可如图2所示。

其中,区间中镜头的划分以及镜头中片段的划分是在探测过程中在逐帧识别时生成的。

具体地,镜头的划分是在对每一图像帧进行识别时计算该图像帧与其相邻图像帧的帧差,如果帧差为1,则这两个图像帧之间即为两个镜头的分隔点。

镜头中的片段的划分是在镜头识别过程中,从镜头中的第一个图像帧开始向后累积各个图像帧的时长,当累计时长达到设定的片段时长时,则生成一个片段,并开始下一片段的生成。镜头中第一片段的开始是该镜头的初始帧,最后一个片段的结尾是该镜头的结束帧。

在本申请的一个实施例中,探测模块对多个区间进行多层级探测时,具体用于:将多个区间分为N个区间组,其中,N为正整数;通过N个并行线程对N个区间组分别进行探测,其中,每个线程按照处理优先级依次对其对应的区间组中的区间进行多层级探测。

应当理解,在本申请的另一个实施例中,也可无需对多个区间进行分组,可直接通过多个并行线程按照多个区间的处理优先级对多个区间并行探测。

由此,可通过多个并行线程按照一定的策略对多个区间进行并多层级探测,能够充分硬件计算资源,利用多线程技术将硬件资源转化为速度的提升,从而提高了视频识别效率。

具体地,探测模块20具体用于执行图3所示步骤对每个区间进行多层级探测,并在探测过程中获取待识别视频的色情统计指标。在对区间进行多层级探测过程中,可对可疑色情图像帧所在的镜头进一步进行镜头级色情识别,具体过程可如图4所示。进一步地,在镜头级色情识别的过程中,可将镜头划分为片段,并进行片段级色情识别。其中,片段级色情识别过程中对片段中的多个连续图像帧进行采样后并行处理,并在处理后进行二次评估。具体方案可参照上述实施例,在此不再赘述。由此,可通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得鲁棒性强的色情统计指标。

应当理解,在本申请的实施例中,探测模块20不但可通过如图3、图4和图5所示的实施例进行区间级探测->镜头级探测->片段级探测->帧级探测的层级探测,还可通过图3和 图7所示的实施例进行区间级探测->镜头级探测->帧级探测,还可通过图8所示的实施例进行区间级探测->帧级探测。

判断模块30用于在对每个区间进行多层级探测的过程中根据色情统计指标判断待识别视频是否为色情视频。

在本申请的实施例中,色情统计指标可包括总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数、待识别视频的视频时长和帧率中的一种或多种。判断模块30可基于预先训练的支持向量机判别模型对累计色情概率值、非色情次数、总色情帧数、总色情时长、镜头处理总数、帧处理总数、待识别视频的视频时长和帧率进行分析,以判断待识别视频是否为色情视频。

其中,累计色情概率值为在探测过程中镜头时长不小于第一时间且色情概率值大于第二概率阈值的已识别镜头的镜头时长总和,总色情时长是随着镜头检测过程逐渐累计得到的。

非色情次数为在探测过程中识别到色情概率值不大于第一概率阈值的图像帧的次数。

总色情帧数为在探测过程中识别出的色情图像帧的总数。其中,色情图像帧为色情概率值大于第四概率阈值的图像帧。另外,如果一个图像帧集合中的图像帧的平均色情概率阈值大于第四概率阈值,则判断该图像帧集合中的图像帧为色情图像帧。

镜头处理总数为在探测过程中进行镜头级色情识别的镜头总数。

帧处理总数为在探测过程中进行色情识别的图像帧总数。

总色情时长为在探测过程中镜头时长不小于第一时间且色情概率值大于第二概率阈值的已识别镜头的镜头时长总和。

应当理解,上述色情统计指标中的待识别视频的视频时长和帧率为待识别视频的固有属性。而总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数是在探测过程中随着探测的进行不断变换的,则探测过程中,当每个指标发生更新时,即可据此判断待识别视频是否为色情视频。而

在本申请的实施例中,可通过对大量的被人工标记的样本视频(包括色情视频和非色情视频)进程探测,以得到的统计指标,然后根据得到的统计指标进行训练并支持向量机(Support Vector Machine,SVM)建立该判别模型。

本申请实施例的视频识别装置,可将待识别视频划分为多个区间,并进行多层级探测,根据探测过程中的色情统计指标判断待识别视频是否为色情视频,通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得的色情统计指标鲁棒性强,并且在探测过程中可根据探测的进度更新色情统计指标,从而并进行判断,从而可提前返回判断结果,无需解码和探测整个待识别视频,降低了识别耗时,提高了识别速度和精度。

此外,本申请实施例的视频识别装置还具有以下优点:

1、基于深度卷积神经网络对视频单帧进行色情程度的判定,提高了单帧识别的精度;

2、基于级探测的识别方法,以镜头为处理基本单元,利用了镜头内画面视觉相似性和时间连续性,并通过采样和差异性二次评估,降低了帧级识别误报和漏报带来的噪声,也减少了冗余计算;

3、利用局部色情直方图差进行视频镜头边界检测,使得同一镜头内的图像有很高的概率在基于深度神经网络的色情图像识别模型下有相近的特征表达;

4、利用先验知识将待识别视频划分为多个具有各自处理优先级、可并行处理的区间,在片段级色情识别过程中通过缓存帧,使得可进行并行处理多帧,提高识别效率;

5、在每个图像帧进行识别之前对其进行解码,而不是在视频识别之初将视频中的全部图像帧进行解码,从而在提前返回结果时,可大大减少解码的图像帧的数量,提高处理速度;

6、在各层级识别过程中,通过镜头中已识别图像帧的数量的上限、色情时长的阈值、片段时长的阈值、区间非色情次数的上限来控制计算额度,使得总体识别速度可控,并与视频时长无关;

7、利用总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数、待识别视频的视频时长和帧率等为变量建立判别模型进行色情判断识别,提高了识别精度。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其 他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1