一种基于音视频结合的内容检测方法与流程

文档序号：12498685阅读：来源：国知局

技术特征：

1.一种基于音视频结合的内容检测方法，其特征在于，所述方法包括以下步骤：

步骤1、从待测视频中提取出与图像同步的音频；

步骤2、检测出所述音频中的所有静音段，具体包括：将所述音频分割成连续的无重叠的音频帧，计算每帧的平均能量，若平均能量小于预设能量阈值，该音频帧为静音帧，计算连续静音帧的时长，时长大于预设长度阈值的为静音段；

步骤3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测，在有镜头切变的两相邻图像之间插入标记，计算两两相邻标记之间的时长，从待测视频中提取出时长小于预设时长阈值的视频段；

步骤4、将步骤3得到的视频段分割成若干镜头，提取每个镜头的关键帧，使用无监督神经网络算法对关键帧进行分类，分类结果为广告的关键帧所在的视频段为广告片段，计算广告片段的时长为广告播放时长。

2.根据权利要求1所述的方法，其特征在于，步骤3中使用颜色直方图法进行镜头切变检测，具体包括：

1)计算每帧图像的颜色直方图：

$<mrow> <msub> <mi>H</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>H</mi> <mo>_</mo> <msub> <mi>follow</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>M</mi> <mo>×</mo> <mi>N</mi> </mrow> </mfrac> </mrow>$

$<mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>S</mi> <mo>_</mo> <msub> <mi>follow</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>M</mi> <mo>×</mo> <mi>N</mi> </mrow> </mfrac> </mrow>$

$<mrow> <msub> <mi>V</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>V</mi> <mo>_</mo> <msub> <mi>follow</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>M</mi> <mo>×</mo> <mi>N</mi> </mrow> </mfrac> </mrow>$

其中H_n(i)表示第n帧图像的H分量直方图，H_follow_n(i)为第n帧图像的H值为i的像素个数，i∈[1,12]，S_n(i)表示第n帧图像的S分量直方图，S_follow_n(j)为第n帧图像的S值为j的像素个数，j∈[1,5]，V_n(i)表示第n帧图像的V分量直方图，V_follow_n(k)为第n帧图像的V值为k的像素个数，k∈[1,5]，M×N为第n帧图像的总像素数；

2)计算每相邻两帧图像分别在H、S、V三分量的相似性：

$<mrow> <msub> <mi>sim</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>12</mn> </munderover> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mi>n</mi> </msub> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>H</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>sim</mi> <mi>S</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>(</mo> <mi>j</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>(</mo> <mi>j</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>sim</mi> <mi>V</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>n</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>V</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>$

其中sim_H(n,n+1)为第n帧与第n+1帧在H分量的相似性，H_n(i)是第n帧的H分量直方图，H_n+1(i)是第n+1帧的H分量直方图，sim_S(n,n+1)为第n帧与第n+1帧在S分量的相似性，S_n(j)是第n帧的S分量直方图，S_n+1(j)是第n+1帧的S分量直方图，sim_V(n,n+1)为第n帧与第n+1帧在V分量的相似性，V_n(k)是第n帧的V分量直方图，V_n+1(k)是第n+1帧的V分量直方图；

3.3、计算每相邻两帧的总相似性：

$<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>α</mi> <mo>×</mo> <msub> <mi>sim</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mi>β</mi> <mo>×</mo> <msub> <mi>sim</mi> <mi>S</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mi>γ</mi> <mo>×</mo> <msub> <mi>sim</mi> <mi>V</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mn>3</mn> </mfrac> </mrow>$

其中sim(n,n+1)为第n帧与第n+1帧的总相似度，α、β、γ分别是H、S、V三分量的相似性系数，且α≥β，α≥γ；

3.4、若相邻两帧的总相似性大于预设相似阈值，则确定在这两帧之间有镜头切变。

3.根据权利要求1或2所述的方法，其特征在于，步骤4中提取每个镜头的关键帧具体包括：

1)计算每个镜头中每个图像在H、S、V三个分量上的图像熵：

$<mrow> <msub> <mi>E</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>12</mn> </munderover> <msub> <mi>h</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <msub> <mi>h</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>E</mi> <mi>S</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>s</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <msub> <mi>s</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>E</mi> <mi>V</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>v</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <msub> <mi>v</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>$

其中E_H(n)是第n帧图像在H分量上的图像熵，h_n(i)为第n帧图像的H值为i的像素个数与总像素数的比例，E_S(n)是第n帧图像在S分量上的图像熵，s_n(j)为第n帧图像的S值为j的像素个数与总像素数的比例，E_V(n)是第n帧图像在V分量上的图像熵，v_n(k)为第n帧图像的V值为k的像素个数与总像素数的比例；

2)计算每个图像的总图像熵为：

E(n)＝α'×E_H(n)+β'×E_S(n)+γ'×E_V(n)

其中E(n)是第n帧的总图像熵，α'、β'、γ'分别是H、S、V三分量的图像熵系数；

3)将每个镜头中总图像熵最大的图像作为关键帧提取出来。

完整全部详细技术资料下载

当前第2页1 2 3