一种视频检测方法及装置的制造方法_3

文档序号：9631785阅读：来源：国知局

了对子段视频进行图像检测，得到子段视频的图像检测结果，可以包括以下步骤：
[0076] 1021 :提取子段视频中每帧图像的检测区域的视觉特征。在本发明实施例中每帧图像的检测区域是指的每帧图像的部分区域，其可以采用现有的显著性检测方法来定位得到每帧图像中待检测对象所在的检测区域，即采用现有的显著性检测方法来定位出每帧图像中可能为目标对象的待检测对象，然后在提取其所在检测区域的视觉特征，又或者采用滑窗法在整帧图像上逐区域来提取每个检测区域的视觉特征。
[0077] 其中视觉特征可以采用H0G(HistogramofOrientedGradient，方向梯度直方图）特征，其提取过程是：对于每个检测区域逐像素提取像素点的水平方向梯度和垂直方向梯度，水平方向梯度为6 11(1，7)=;^1+1，7)-;^1-1，7)，垂直方向梯度为6"1，7)= f (X，y+1)-f (X，y-1)，f (X，y)是（X，y)处的像素值；
[0078] 然后基于上述水平方向梯度和垂直方向梯度计算像素点的梯度幅值M(x，y)和梯度方向Θ(X，y):
[0079]
[0080]Θ(X，y)=arctan(Gh(x,y)/Gv(x,y))，其中梯度方向限定在（0 ~180° )，
[0081]
[0082] 1022 :将所提取的视觉特征与预先建立的图像对象模型进行匹配分析，以得到每帧图像中的不良对象和不良对象的等级，其中图像检测结果包括每帧图像中的不良对象和不良对象的等级。
[0083] 在本发明实施例中，预先建立的图像对象模型可以是一SVM(SupportVector Machine，支持向量机）模型，在提取到视觉特征后，可以将其代入SVM模型的最优分类函数中，如
中，其中，sgn()是符号函数，xt为提取到的视觉特征，如果g(xt)= 1，则判断检测区域包含不良对象，反之不包含。在得到不良对象后，将其与不良视频目标对象库中的各个目标对象进行比对，来确定其等级。其中不良视频目标对象库是根据现有不良视频得到的一个对象库，其存储有现有不良视频中被认定为不良对象的多种目标队形，并根据目标对象的重要程度将多个目标对象划分为两级，例如一级是不良视频中独有的目标对象，如暴恐视频中的恐怖分子首领的画像、徽章；色情视频中的裸体；二级是多个不良视频中出现频度高，但是其他视频中也可能出现的目标对象，如暴恐视频中的炸药等。
[0084] 其中SVM模型可以基于H0G特征进行建模，其建立过程为：收集一定数量包括上述目标对象的带标识图像，提取目标对象所在区域的H0G特征，标记为正向样本集合，并同样收集一定数量不包括上述目标对象的图像，提取任意区域的H0G特征，标记为负向样本集合；将上述正向样本集合和负向样本集合送入SVM模型，训练得到模型的如下目标函数：其中，N是所有样本的个数，即正向样本和负向样
i=l '，本的总数，Xl是上述各个样本的HOG特征，yi是样本的标签，如何是正向样本就是+1，否则是-1 ;通过求解上述目标函数最小化，得到SVM模型的相关参数:w，a和b;对不良视频对象库中的每个目标对象训练得到各自SVM模型，共同构成不良视频对象模型库。首先提取不良视频目标对象库中的各个目标对象的H0G特征；然后基于各个目标对象的H0G特征，分别建立各个目标对象的SVM模型，其中建立的SVM模型是由多个参数（w，a，b)组成的最优分类函数。
[0085] 其中各个目标对象提取H0G特征的过程是：将上述各个目标对象所在区域归一化到224X224,按照8X8个像素为单位划分成Cell(单元），每4个Cell组成1个 Block(块），如图4所示，这样每个目标对象所在区域划分成49个Block;
[0086] 对于每个Cell，得到每个Cell中每个像素点的梯度幅值M(x，y)和梯度方向 Θ(x，y)，并统计每个Cell中各像素的梯度幅值和方向，形成梯度直方图，如图5所示；将每个Block中的4个Cell的梯度直方图特征进行串联，形成4X9 = 36维的特征；最后将所有Block的梯度直方图特征串联形成36X49 = 1746维的HOG特征，即目标对象的HOG特征。其中图5中横轴表示的幅值是根据像素值计算得到的，像素值的取值范围是[0, 255]，无单位。
[0087] 在这里需要说明的一点是：本发明实施例仅是以H0G特征和SVM模型来举例说明，在实际应用过程中，上述视觉特征和图像对象模型还可以采用其他方式，对此本发明实施例不再--说明。
[0088] 请参阅图6,其示出了本发明实施例提供的视频检测方法中对子段视频进行文本检测，得到子段视频的文本检测结果的过程，可以包括以下步骤：
[0089] 1023 :确定子段视频中每帧图像中的文本区域。其中文本区域是每帧图像中可能包括文本的区域，在本发明实施例可以通过检测每帧图像中的MSER(MaximallyStable ExtremalRegion,最大稳定极值区域）来锁定含有字幕或者场景文本的区域；其中MSER的检测过程为：使用多个灰度阈值对每帧图像进行二值化处理，得到与每个灰度阈值对应的二值图像；对于每个灰度阈值得到的二值图像，获得每个二值图像中的黑色区域与白色区域；当多个连续的灰度阈值对应的二值图像中都包括一个形状相似的区域时，视该形状相似的区域为一个形状保存稳定的区域，这个形状稳定的区域就是MSER。
[0090] 1024 :对所确定的文本区域进行文本识别，得到文本区域包括的文本。在本发明实施例中，可以采用0CR(0pticalCharacterRecognition，光学字符识别）技术对文本区域进行识别，进一步在采用OCR技术对文本区域进行识别时可以对上述文本区域进行增强处理，使得OCR技术更有对文本进行识别。
[0091] 1025 :将得到的文本与预先建立的文本库进行匹配，以得到每帧图像中的不良文本和不良文本的等级，其中文本检测结果包括每帧图像中的不良文本和不良文本的等级。
[0092] 其中预先建立的文本库是根据现有不良视频中包含的典型场景文本和字幕中的敏感词来构建，并且根据典型场景文本和敏感词的重要程度，划分成两级，一级是不良视频中独有文本，如暴恐视频中的"圣战"、色情视频中的"色情选秀"、诈骗广告视频中的"一次根治不复发"等；二级是不良视频中出现频度高，但是其他视频中也可能出现的文本，如暴恐视频中的"古兰经"、色情视频中的"诱惑"、诈骗广告视频中的"无效退款"等。这样在确定图像中包括不良文本后，将不良文本与预先建立的文本库中的各级文本进行比对即可得到不良文本的等级。
[0093] 请参阅图7,其示出了本发明实施例提供的视频检测方法中对子段视频进行话音检测，得到子段视频的话音检测结果，可以包括以下步骤：
[0094] 1026 :提取子段视频中的音频数据，并获得音频数据的语音特征序列。其中语音特征序列可以是MFCC(Mel_frequencyCepstralCoefficient，美尔频率倒谱系数）特征序列，其提取过程为：以一定时间间隔对音频数据进行分帧，得到多帧语音数据；对每帧语音数据进行FFT(FastFrequencyTransformation，快速傅立叶变换）运算，并将FFT运算的结果送入预先划分的Mel滤波器组，得到各滤波器的输出；取滤波器输出的对数并进行 DCT(DiscreteCosineTransform，离散余弦变换）变换即得到语音数据的12维MFCC特征。
[0095] 在本发明实施例中，时间间隔为预设的一个时间数据，其可以根据实际应用情况随机设定，对此本发明实施例并不进行限制。Mel滤波器组是一系列划分Mel频率范围的上下边界组成的数组，其由给定数目的三角带带通滤波器组成，三角带带通滤波器的中心频率和带宽在[0-4000]Hz范围对应的Mel刻度频率上均匀排列。其中Mel频率是基于人耳的听觉特性提出来的，其和Hz频率成非线性对应关系，转换公式为：Mel(f)= 25951og1Q(l+f/700)。
[0096] 1027:将所获得的语音特征序列与预先建立的话音库中各个关键词的语音特征序列进行比对，得到所获得的语音特征序列与各个关键词的语音特征序列之间的距离。
[0097]在本发明实施例中，预先建立的话音库中各个关键词根据现有不良视频中包含的典型关键词得到，并且根据这些关键词的重要程度，划分成两级。一级是不良视频中独有的关键词，如暴恐视频中的"杀戮和自杀"、诈骗广告视频中的"治愈率100%"等；二级是不良视频中出现频度高，但是其他视频中也可能出现的关键词，如暴恐视频中的"进天堂"、诈骗广告视频中的"大量临床验证"等。
[0098]对于话音库中的这些关键词，其语音特征序列也可以是MFCC特征序列，提取过程可以参阅上述步骤1026中的说明，对此本发明实施例不再阐述。
[0099] 1028 :当所获得的语音特征序列与任意一个关键词的语音特征序列之间的距离的取值小于距离阈值时，确定子段视频中包括不良话音。
[0100] 在对所获得的语音特征序列与预先建立的话音库中各个关键词的语音特征序列进行比对时可以

完整全部详细技术资料下载

当前第3页1 2 3 4 5