检测视频片断切点位置的方法及装置的制作方法

文档序号:7911171阅读:125来源:国知局
专利名称:检测视频片断切点位置的方法及装置的制作方法
技术领域
本发明涉及视频领域,具体而言,涉及一种检测视频片断切点位置的方法及装置。
背景技术
随着网络视频行业的高速发展,越来越多的用户选择在网上观看电视节目,视频网站每天都有大量的新电视节目视频更新上线。这些视频的来源一般都是电视直播信号, 由于电视台电视频道数量非常多,每天制作出来的电视节目视频数量也就非常庞大,绝大部分电视节目都可以在视频网站上找到。为了给用户提供更好的体验,很多视频网站提供了检测到预定位置的视频,针对该位置的视频进行跳过或删除的处理。以视频网站自动跳过片头片尾的功能为例,一般在影视剧视频播放时提供这个功能,用户在观看一个影视剧的时候,播放器的进度条上会标注出该视频的片头和片尾的位置,用户可以选择自动或手动的方式,跳过片头和片尾直接观看视频内容。比如一个用户观看“红楼梦”这个电视剧,他不想每一集都看一遍片头曲和片尾曲,就可以选择跳过片头片尾。目前这个功能的便利性已经被广大网友认可。有上述例子可知,由于每天新的电视节目视频数量很庞大,若要将所有视频都对用户提供自动跳过预定位置视频(例如片头片尾)的功能,是一件比较困难的事情,这需要很多编辑来人工寻找并标注每一个影视节目视频的片头片尾的位置,这需要编辑花费较多时间观看视频。目前针对相关技术的无法快速、高效的检测并获取特定位置的视频片断,且浪费大量人力的问题,目前尚未提出有效的解决方案。

发明内容
针对相关技术的无法快速、高效的检测并获取特定位置的视频片断,且浪费大量人力的问题,目前尚未提出有效的问题而提出本发明,为此,本发明的主要目的在于提供一种检测视频片断切点位置的方法及装置,以解决上述问题。为了实现上述目的,根据本发明的一个方面,提供了一种检测视频片断切点位置的方法,该检测视频片断切点位置的方法包括获取视频中预定时间段的视频片断;对获取到的视频片断进行静音点检测以获取一个或多个静音点,同时对视频片断进行镜头切点检测,以获取一个或多个镜头切点;对获取到的所有静音点和镜头切点进行合并筛选处理, 以获取一个或多个候选视频片断切点;根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置。进一步地,,对获取到的视频片断进行静音点检测以获取一个或多个静音点包括 提取视频片断中的音频数据;按照时间长度阈值将音频数据分割成多个连续的时间片;通过计算任意一个时间片内任意多个时间点的音频值的平均值,来获取每个时间片的音量; 通过将时间片断的音量与预定的静音点阈值进行比较来获取视频片断的静音点,静音点包括绝对静音点和相对静音点。
6
进一步地,通过将时间片断的音量与预定的静音点阈值进行比较来获取视频片断的静音点包括判断时间片断的音量是否大于等于第一静音点阈值,其中,在时间片断的音量小于第一静音点阈值的情况下,将该时间片的音量标记为绝对静音点;在时间片断的音量大于等于第一静音点阈值的情况下,判断时间片断的音量是否大于等于第二静音点阈值,在时间片断的音量小于第二静音点阈值的情况下,将该时间片的音量标记为候选相对静音点,并将满足预定条件的候选相对静音点标记为相对静音点。进一步地,将满足预定条件的候选相对静音点标记为相对静音点包括分别读取位于时间片断之前的第一时间片断的第一音量,以及位于时间片断之后的第二时间片断的第二音量,其中时间片断与第一时间片断和第二时间片断之间的距离为预定时间距离;计算并获取时间片断的音量与第一音量之间的第一音量差,同时计算并获取时间片断的音量与第二音量之间的第二音量差;判断第一音量差的绝对值和/或第二音量差的绝对值是否大于等于音量差阈值,其中,在任意一个音量差的差值大于等于音量差阈值的情况下,标记该时间片段为相对静音点,否则标记为非静音点。进一步地,对视频片断进行镜头切点检测,以获一个或多个镜头切点包括解码视频片断以获取视频帧图像;提取每一帧视频帧图像的图像特征,特征包括直方图特征;通过计算所有相邻视频帧图像的图像特征之间的距离,来获取多个帧差值;对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的增强帧差值标记为镜头切点。进一步地,对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的增强帧差值标记为镜头切点包括将每个帧差值乘以二之后,减去该帧差值相邻的两个帧差值,以获取每一帧视频帧图像的增强帧差值;当一个增强帧差值的绝对值大于与其相邻的两个增强帧差值,且相邻的两个增强帧差值都小于等于零时,将该增强帧差值所对应的视频帧图像的位置标记为镜头切点。进一步地,对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点包括获取任意一个镜头切点位置的时间点;判断包含镜头切点位置时间点的预定时间范围内是否存在静音点,其中,在存在静音点的情况下,将镜头切点的位置作为候选视频片断切点;在不存在静音点的情况下,丢弃该镜头切点的位置的值。进一步地,根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置包括判断候选视频片断切点的数目是否超过1,其中,如果只有一个候选视频片断切点时,则该候选视频片断切点为视频片断切点的位置;如果有多个候选视频片断切点时,从预定位置开始通过每个候选视频片断切点将预定时间段的视频片断切分为多个候选片断, 获取时间长度大于等于阈值的一个或多个候选片断,并按照顺序选择第一个候选片断的结束时间点作为视频片断切点的位置。为了实现上述目的,根据本发明的另一方面,提供了一种检测视频片断切点位置的装置,该检测视频片断切点位置的装置包括获取模块,用于获取视频中预定时间段的视频片断;检测模块,用于对获取到的视频片断进行静音点检测以获取一个或多个静音点,同时对视频片断进行镜头切点检测,以获取一个或多个镜头切点;处理模块,用于对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点;过滤模块,用于根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置。进一步地,检测模块包括第一提取模块,用于提取视频片断中的音频数据;分割模块,用于按照时间长度阈值将音频数据分割成多个连续的时间片;第一计算模块,用于通过计算任意一个时间片内任意多个时间点的音频值的平均值,来获取每个时间片的音量; 比较模块,用于通过将时间片断的音量与预定的静音点阈值进行比较来获取视频片断的静音点,静音点包括绝对静音点和相对静音点。进一步地,比较模块包括第一判断模块,用于判断时间片断的音量是否大于等于第一静音点阈值;第一标记模块,用于在时间片断的音量小于第一静音点阈值的情况下,将该时间片的音量标记为绝对静音点;第二标记模块,用于在时间片断的音量大于等于第一静音点阈值的情况下,判断时间片断的音量是否大于等于第二静音点阈值,在时间片断的音量小于第二静音点阈值的情况下,将该时间片的音量标记为候选相对静音点,并将满足预定条件的候选相对静音点标记为相对静音点。进一步地,比较模块还包括读取模块,用于分别读取位于时间片断之前的第一时间片断的第一音量,以及位于时间片断之后的第二时间片断的第二音量,其中时间片断与第一时间片断和第二时间片断之间的距离为预定时间距离;运算模块,用于计算并获取时间片断的音量与第一音量之间的第一音量差,同时计算并获取时间片断的音量与第二音量之间的第二音量差;第二判断模块,用于判断第一音量差的绝对值和/或第二音量差的绝对值是否大于等于音量差阈值;第三标记模块,用于在任意一个音量差的差值大于等于音量差阈值的情况下,标记该时间片段为相对静音点,否则标记为非静音点。进一步地,比较模块包括解码模块,用于解码视频片断以获取视频帧图像;第二提取模块,用于提取每一帧视频帧图像的图像特征,特征包括直方图特征;第二计算模块,用于通过计算所有相邻视频帧图像的图像特征之间的距离,来获取多个帧差值;增强处理模块,用于对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的增强帧差值标记为镜头切点。进一步地,增强处理模块包括第三计算模块,用于将每个帧差值乘以二之后,减去该帧差值相邻的两个帧差值,以获取每一帧视频帧图像的增强帧差值;第四标记模块,用于当一个增强帧差值的绝对值大于与其相邻的两个增强帧差值,且相邻的两个增强帧差值都小于等于零时,将该增强帧差值所对应的视频帧图像的位置标记为镜头切点。进一步地,处理模块包括第三提取模块,用于获取任意一个镜头切点位置的时间点;第三判断模块,用于判断包含镜头切点位置时间点的预定时间范围内是否存在静音点; 第一确定模块,用于在存在静音点的情况下,将镜头切点的位置作为候选视频片断切点;删除模块,用于在不存在静音点的情况下,丢弃该镜头切点的位置的值。进一步地,过滤模块包括第四判断模块,用于判断候选视频片断切点的数目是否超过1 ;第二确定模块,用于如果只有一个候选视频片断切点时,则该候选视频片断切点为视频片断切点的位置;第三确定模块,用于如果有多个候选视频片断切点时,从预定位置开始通过每个候选视频片断切点将预定时间段的视频片断切分为多个候选片断,获取时间长度大于等于阈值的一个或多个候选片断,并按照顺序选择第一个候选片断的结束时间点作为视频片断切点的位置。通过本发明,采用获取视频中预定时间段的视频片断;对获取到的视频片断进行静音点检测以获取一个或多个静音点,同时对视频片断进行镜头切点检测,以获取一个或多个镜头切点;对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点;根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置,解决了相关现有技术的无法快速、高效的检测并获取特定位置的视频片断,且浪费大量人力的问题,进而实现通过自动分析电视节目视频结构来获取到特定位置的视频,节省了大量的人力成本的效果。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1是根据本发明实施例的检测视频片断切点位置的模块结构示意图;图2是根据本发明实施例的检测视频片断切点位置的方法流程图;图3是根据图2所示实施例的检测视频片头切点位置的方法流程图;图4是根据图3所示实施例的检测静音点的方法流程图;图5是根据图3所示实施例的检测镜头切点的方法流程图;图6是根据图5所示实施例的对镜头图像分块的结构示意图;以及图7是根据图2所示实施例的检测视频片尾切点位置的方法流程图。
具体实施例方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。图1是根据本发明实施例的检测视频片断切点位置的模块结构示意图。如图1所示,该模块包括获取模块10、检测模块30、处理模块50以及过滤模块70。其中,获取模块10用于获取视频中预定时间段的视频片断;检测模块30,用于对获取到的视频片断进行静音点检测以获取一个或多个静音点,同时对视频片断进行镜头切点检测,以获取一个或多个镜头切点;处理模块50,用于对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点;过滤模块70,用于根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置。上述实施例在获取模块10确定预定时间段的视频片断之后,通过检测模块30和处理模块50来自动分析电视节目视频结构,从而自动找到特定视频片断的切点位置,例如找到视频片断的片头和片尾的位置,节省了大量的人力成本,进一步地,视频网站利用该模块获取到的视频片断切点的位置来进行处理,例如可以实现在大量电视节目视频上使用自动跳过片头片尾的功能。由于上述实施利避免了使用目前视频网站采用的人工编辑的方式标注影视节目的片头和片尾的位置,从而不需要编辑人员花费较多时间观看视频,节省了人力,使得视频网站可以在更多的电视节目视频上使用自动跳过片头片尾的功能。本发明上述实施例中的检测模块30可以包括第一提取模块301,用于提取视频片断中的音频数据;分割模块302,用于按照时间长度阈值将音频数据分割成多个连续的时间片;第一计算模块303,用于通过计算任意一个时间片内任意多个时间点的音频值的平均值,来获取每个时间片的音量;比较模块304,用于通过将时间片断的音量与预定的静音点阈值进行比较来获取视频片断的静音点,静音点包括绝对静音点和相对静音点。
9
上述实施例中的比较模块304的一种实施方式,可以包括第一判断模块,用于判断时间片断的音量是否大于等于第一静音点阈值;第一标记模块,用于在时间片断的音量小于第一静音点阈值的情况下,将该时间片的音量标记为绝对静音点;第二标记模块,用于在时间片断的音量大于等于第一静音点阈值的情况下,判断时间片断的音量是否大于等于第二静音点阈值,在时间片断的音量小于第二静音点阈值的情况下,将该时间片的音量标记为候选相对静音点,并将满足预定条件的候选相对静音点标记为相对静音点。优选地,上述实施里中的比较模块304还可以包括读取模块,用于分别读取位于时间片断之前的第一时间片断的第一音量,以及位于时间片断之后的第二时间片断的第二音量,其中时间片断与第一时间片断和第二时间片断之间的距离为预定时间距离;运算模块,用于计算并获取时间片断的音量与第一音量之间的第一音量差,同时计算并获取时间片断的音量与第二音量之间的第二音量差;第二判断模块,用于判断第一音量差的绝对值和/或第二音量差的绝对值是否大于等于音量差阈值;第三标记模块,用于在任意一个音量差的差值大于等于音量差阈值的情况下,标记该时间片段为相对静音点,否则标记为非静首点。上述实施例中的比较模块304的另一种实施方式,可以包括解码模块,用于解码视频片断以获取视频帧图像;第二提取模块,用于提取每一帧视频帧图像的图像特征,特征包括直方图特征;第二计算模块,用于通过计算所有相邻视频帧图像的图像特征之间的距离,来获取多个帧差值;增强处理模块50,用于对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的增强帧差值标记为镜头切点。优选地,上述实施例中的增强处理模块50可以包括第三计算模块,用于将每个帧差值乘以二之后,减去该帧差值相邻的两个帧差值,以获取每一帧视频帧图像的增强帧差值;第四标记模块,用于当一个增强帧差值的绝对值大于与其相邻的两个增强帧差值,且相邻的两个增强帧差值都小于等于零时,将该增强帧差值所对应的视频帧图像的位置标记为镜头切点。本发明上述实施例中的处理模块50可以包括第三提取模块501,用于获取任意一个镜头切点位置的时间点;第三判断模块502,用于判断包含镜头切点位置时间点的预定时间范围内是否存在静音点;第一确定模块503,用于在存在静音点的情况下,将镜头切点的位置作为候选视频片断切点;删除模块504,用于在不存在静音点的情况下,丢弃该镜头切点的位置的值。本发明上述实施例中的过滤模块70可以包括第四判断模块701,用于判断候选视频片断切点的数目是否超过1 ;第二确定模块702,用于如果只有一个候选视频片断切点时,则该候选视频片断切点为视频片断切点的位置;第三确定模块703,用于如果有多个候选视频片断切点时,从预定位置开始通过每个候选视频片断切点将预定时间段的视频片断切分为多个候选片断,获取时间长度大于等于阈值的一个或多个候选片断,并按照顺序选择第一个候选片断的结束时间点作为视频片断切点的位置。本发明上述各个实施例中涉及到的预定时间段的视频片断可以是一个视频中的片头片断或片尾片断,其中,片头检测和片尾检测的过程很相似。电视节目的片头一般在几秒到几十秒不等,比如娱乐节目的片头最短的可能只有几秒,而电视剧的片头曲一般会有几十秒。检测片头不必分析整个视频,只需分析一下起始
10一段预定时间段的视频,这个预定时间段可根据经验来选择,比如选择视频起始的120秒片段作为本次检测视频片断切点的位置的视频片断的片长。本发明利用片头/片尾在播放结束后会有一个镜头切换来实现从片头/片尾切换到节目正文,同时,镜头切换处的声音一般都相对很小,或者是静音的特点,来对预定时间段内的视频片头/片尾进行处理,首先对视频进行镜头切点检测和静音点检测,然后根据获取到的检测信息找到若干候选的片头/片尾切点,最后根据电视节目的规律筛选出合适的片头/片尾切点。具体的,可以以片头检测为例,选取输入视频的起始一段时间,对其进行静音点检测和镜头切点检测,得到很多静音点和镜头切点,然后将这些点进行合并筛选,得到若干候选片头切点,最后根据片头规律,选取最合适的切点作为片头切点。片尾检测的流程与片头的检测流程大概一致,区别在于开始的输入视频的时间选取和最后的规律分析上有所不同。图2是根据本发明实施例的检测视频片断切点位置的方法流程图,如图2所示该方法包括如下步骤步骤S202,通过图1中的获取模块10来获取视频中预定时间段的视频片断。步骤S204,通过图1中的检测模块30执行对获取到的视频片断进行静音点检测以获取一个或多个静音点,同时对视频片断进行镜头切点检测,以获取一个或多个镜头切点。步骤S206,通过图1中的处理模块50来实现对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点。步骤S208,通过图1中的过滤模块70来执行根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置。本发明上述方法实施例在确定预定时间段的视频片断之后,通过自动分析电视节目视频结构,而自动找到特定视频片断的切点位置,例如找到视频片断的片头和片尾的位置,节省了大量的人力成本,进一步地,视频网站利用该模块获取到的视频片断切点的位置来进行处理,例如可以实现在大量电视节目视频上使用自动跳过片头片尾的功能。本发明上述实施例步骤S204中对获取到的视频片断进行静音点检测以获取一个或多个静音点可以包括提取视频片断中的音频数据;按照时间长度阈值将音频数据分割成多个连续的时间片;通过计算任意一个时间片内任意多个时间点的音频值的平均值,来获取每个时间片的音量;通过将时间片断的音量与预定的静音点阈值进行比较来获取视频片断的静音点,静音点包括绝对静音点和相对静音点。优选地,上述实施例中通过将时间片断的音量与预定的静音点阈值进行比较来获取视频片断的静音点的步骤可以包括判断时间片断的音量是否大于等于第一静音点阈值,其中,在时间片断的音量小于第一静音点阈值的情况下,将该时间片的音量标记为绝对静音点;在时间片断的音量大于等于第一静音点阈值的情况下,判断时间片断的音量是否大于等于第二静音点阈值,在时间片断的音量小于第二静音点阈值的情况下,将该时间片的音量标记为候选相对静音点,并将满足预定条件的候选相对静音点标记为相对静音点。优选地,将满足预定条件的候选相对静音点标记为相对静音点包括分别读取位于时间片断之前的第一时间片断的第一音量,以及位于时间片断之后的第二时间片断的第二音量,其中时间片断与第一时间片断和第二时间片断之间的距离为预定时间距离;计算并获取时间片断的音量与第一音量之间的第一音量差,同时计算并获取时间片断的音量与第二音量之间的第二音量差;判断第一音量差的绝对值和/或第二音量差的绝对值是否大于等于音量差阈值,其中,在任意一个音量差的差值大于等于音量差阈值的情况下,标记该时间片段为相对静音点,否则标记为非静音点。本发明上述实施例步骤S204中对视频片断进行镜头切点检测,以获一个或多个镜头切点的步骤可以包括解码视频片断以获取视频帧图像;提取每一帧视频帧图像的图像特征,特征包括直方图特征;通过计算所有相邻视频帧图像的图像特征之间的距离,来获取多个帧差值;对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的增强帧差值标记为镜头切点。优选地,上述实施利中的对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的增强帧差值标记为镜头切点的步骤可以包括将每个帧差值乘以二之后,减去该帧差值相邻的两个帧差值,以获取每一帧视频帧图像的增强帧差值;当一个增强帧差值的绝对值大于与其相邻的两个增强帧差值,且相邻的两个增强帧差值都小于等于零时,将该增强帧差值所对应的视频帧图像的位置标记为镜头切点。本发明上述实施例中步骤S206对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点可以包括获取任意一个镜头切点位置的时间点;判断包含镜头切点位置时间点的预定时间范围内是否存在静音点,其中,在存在静音点的情况下,将镜头切点的位置作为候选视频片断切点;在不存在静音点的情况下,丢弃该镜头切点的位置的值。具体的,以视频片头为例,本实施例中由于片头切点的特点是既有镜头切点,又有短暂的静音。根据已经得到的镜头切点和静音点,可以快速得到候选的片头切点。本发明针对候选片头切点生成的步骤详细如下首先,根据镜头切点位置的时间T,确定一个时间范围Tl至T2。设定两个时间阈值dtl和dt2,Tl = T_dtl,T2 = T_dt2。其中dtl和dt2是经验阈值,0. 5秒以内比较合适,而时间T在Tl与T2之间。如果在Tl与T2之间有静音点存在,那么就标记时间T的位置为候选片头切点。本发明上述实施例中步骤S208根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置可以包括判断候选视频片断切点的数目是否超过1,其中,如果只有一个候选视频片断切点时,则该候选视频片断切点为视频片断切点的位置;如果有多个候选视频片断切点时,从预定位置开始通过每个候选视频片断切点将预定时间段的视频片断切分为多个候选片断,获取时间长度大于等于阈值的一个或多个候选片断,并按照顺序选择第一个候选片断的结束时间点作为视频片断切点的位置。本申请以视频的片头为例说明本发明的工作流程。电视节目的片头一般在几秒到几十秒不等,比如娱乐节目的片头最短的可能只有几秒,而电视剧的片头曲一般会有几十秒。本发明的实施例可以选择视频起始的120秒片段来进行分析。图3是根据图2所示实施例的检测视频片头切点位置的方法流程图;图4是根据图3所示实施例的检测静音点的方法流程图;图5是根据图3所示实施例的检测镜头切点的方法流程图;图6是根据图5所示实施例的对镜头图像分块的结构示意图。本发明利用视频片头在播放结束后会有一个镜头切换,从片头切换到节目正文,同时,镜头切换处的声音一般都相对很小,或者是静音的特性,来首先对视频片头进行镜头切点检测和静音点检测,然后根据获取到的检测信息找到若干候选的片头/片尾切点,最后根据电视节目的规律筛选出合适的片头/片尾切点。如图3所示,首先截取影视剧视频片头的内容,即截取其实一段视频,然后对该截取到的视频进行静音点检测和镜头切点检测, 从而生成一个或多个候选片头切点,最有根据片头固有的规律来分析每个候选片头切点, 最后确定视频片头的片头切点位置。具体的,如图4所示,本发明图3所示的实施例中的静音点检测具体包括如下步骤首先,在输入的视频中提取该视频的音频数据。其次,选取一个时间长度阈值dt,根据dt将提取到的音频数据分割成连续的时间片,每个时间片的长度为dt。阈值dt的长度比较重要,如果太长很容易检测不到短暂的静音点,如果太短也会引入很多噪声,降低检测的准确率和查全率。阈值dt根据经验来确定, 比如选择0. 04秒就比较合适。然后,在音频切成时间片以后,计算每个时间片的音量,具体的可以采用对时间片内每个时间点的音频值求绝对值,将所有绝对值求和,结果除以时间点的数量,得到的均值作为该时间片的音量。优选地,再得到时间片的音量之后,为了减少由于音频编码噪声或者节目制作本身噪声的影响而在音频数据中可能存在噪声点的情况进行噪声去除处理。由于如果在静音区域出现噪声点,会表现为非常短暂的相对较大的变化,因此可以通过平滑处理可以去掉。 在时间去除噪声的过程中,可以通过用每个时间片的音量分别和它相邻的两个时间片音量做差来判断是否存在噪声,如果差值大于阈值,则该时间片可能存在噪声,对其进行平滑操作,将与其相邻的两个时间片音量的均值作为它的音量。最后,在获取该时间片的音量或者由噪音而去除噪音之后,系统可以先判断时间片是否为绝对静音点,如果不是,再判断它是否为相对静音点。其中,对于绝对静音点的判断,设定一个绝对静音点阈值thresholdl,如果时间片的音量小于阈值thresholdl,则标记它为绝对静音点。对于相对静音点的判断,设定另一个相对静音点阈值threshold〗,它比绝对静音点阈值要大一点。如果时间片的音量小于阈值threshold〗,则标记它为候选的相对静音点,然后进一步判断。设定一个邻域时间距离timeDist和另一个音量差值阈值threShold3,用时间片的音量和与它时间距离为 timeDist的前后两个时间片的音量分别做差并取绝对值,如果两个绝对值的大小有任何一个大于阈值threshold3,标记该时间片为相对静音点。如图5所示,本发明图3所示的实施例中的镜头切点检测首先对输入视频解码成视频帧图像,在每一帧图像上提取特征,然后对所有相邻帧的特征做差,之后用一种方法对差值进行显著性增强,最后根据预先设置的规则筛选镜头切点。具体详细实现过程可以包括如下步骤首先,在获取输入视频的视频帧之后,提取视频帧的特征。具体的,由于视频的特征选择直接影响到切点检测的准确率和速度,本申请为了保证速度,本实施例选择YUV空间的颜色直方图特征,YUV空间比RGB空间更符合人眼的视觉特性。如图6所示,本发明的对整个图像计算直方图特征,没有包含图像的位置信息,为了使得图像特征包含一定的位置信息,本发明对图像进行分块,然后对每一块分别提取直方图特征,将这些特征组合后作为图像的整体特征。具体如图6的实施例,将图像切割成3x3的9宫格,水平方向和垂直方向所采用的比例都是0.25 0.5 0.25,即1 2 1。这样切割下来,中间格占了图像四分之一的面积,4个角的4个格共占了图像四分之一面积,剩下4个边的4个格占了剩下的二分之一的面积。对于每一个格,赋予不同的权值,中间格最重要,权重最大为4,四角的4个格最不重要,权重赋为零,其他4个格权重为1。综上所述,本申请所提供的图像特征提取的步骤为1)将图像分成若干块,每一块给予不同的权重;幻在每一个图形块上提取YUV颜色空间的直方图;;3)将每个图像块的颜色直方图乘以相应的权重后,顺序连接起来,作为最终的图像特征。然后,在得到图像特征后,通过计算相邻图像的特征的距离来得到帧差。图像特征是一个由浮点数组成的特征向量,特征的每一维都是一个浮点数,N维直方图特征就是N个浮点数。两个N维的特征向量进行距离计算,可以直接采用欧氏距离,但通常该方法会有N 次浮点数相乘和一次开方运算,计算量较大。为了提高特征比较的速度,优选地可以采用棋盘距离,即将每一维的距离求和作为两个向量的距离,这样只需要N次加减运算,计算量大大减小。最后,为了使得镜头切点的特征更加明显,对所有的帧差的值做一次增强处理,具体步骤为用每一个帧差的值乘以二,然后减去与它相邻的前后两个帧差的值,运算的结果作为该位置的增强帧差值。当增强帧差值满足下面所有条件以后,该位置被标记为镜头切点1)该增强帧差值的绝对值大于与它相邻的两个增强帧差值的绝对值;幻与它相邻的两个增强帧差值都小于零。具体的,虽然可以从帧差数据上可以找到镜头切点的位置。但由于如果直接从帧差上判断,例如采用阈值,寻找帧差值大于阈值的点作为切点,存在错误率较大的检测结果,例如,当镜头中有照相闪光的时候,直接用阈值判断会把照相闪光错误当成镜头切点。本发明为了实现突出镜头切点在帧差数据上特点的功能,可以对帧差数据进行进一步处理,这里统称为增强处理。增强处理方法有很多,复杂的可以采用经过机器学习的分类器的方式对帧差数据进行分类,简单的可以根据相邻几个帧差进行运算,本发明中可以采用一种简洁的方式,具体步骤包括用每一个帧差的值乘以二,然后减去与它相邻的前后两个帧差的值,运算的结果作为该位置的增强帧差值。当增强帧差值满足下面所有条件以后,该位置被标记为镜头切点1)该增强帧差值的绝对值大于与它相邻的两个增强帧差值的绝对值;2)与它相邻的两个增强帧差值都小于零。本申请实施例中的片头规律分析的详细工作流程如下检测到的候选片头切点如果只有一个,那么就标记这个候选片头切点为结果片头切点。如果候选片头切点有多个,需要根据片头规律选择一个可能性最大的作为结果片头切点。具体步骤如下1)如果只有一个候选片头切点,则标记它为片头切点,流程结束。否则继续下面步骤。2)从起始位置开始,根据每个候选片头切点将开始时间段的片头视频片断从时间的纬度上切分成若干个对应候选片断的时间片段,每一个时间片段都是一个候选片头。3)对于每一个时间片段,如果它小于阈值minTime,则标记这个候选片头为无效。其中minTime为经验阈值。4)如果所有的候选片头都无效,那么片头检测失败,流程结束;否则继续。5)选取剩下的候选片头中的第一个作为片头,将这个候选片头的结束时间作为片头切点,流程结束。本发明还可以获取视频片尾的视频切点。图7是根据图2所示实施例的检测视频片尾切点位置的方法流程图。如图7所示的实施例中,获取影视剧视频该片尾切点的方式与获取片头切点的方法基本相同。具体的,在截取视频片断的步骤有所不同,片头检测过程中,系统从视频起始位置截取一段视频,优选长度可以为120秒左右,由一个阈值来定。片尾检测的过程中,系统从视频的结尾位置截取一段视频,同样用另一个阈值来定长度,预选长度也可以选择120秒。在获取预定时间段视频片断之后,在对片头视频片断或片尾视频片断进行静音点检测和镜头切点检测的具体细节,本发明可以采用相同的技术手段实现。对于片尾规律分析,本发明所采用的技术手段与片头规律分析十分类似,具体步骤描述如下1)如果只有一个候选片尾切点,则标记它为片尾切点,流程结束。否则继续下面步骤。2)从结束位置开始,根据每个候选片尾切点将结束时间段的片尾视频片断从时间的纬度上切分成若干个对应候选片断的时间片段,每一个时间片段都是一个候选片尾。3)对于每一个时间片段,如果它小于阈值minTime,则标记这个候选片尾为无效。其中 minTime为经验阈值。4)如果所有的候选片尾都无效,那么片尾检测失败,流程结束;否则继续。5)选取剩下的候选片尾中的第一个作为片尾,将这个候选片尾的结束时间作为片尾切点,流程结束。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。从以上的描述中,可以看出,本发明实现了如下技术效果。目前视频网站都是采用人工编辑的方式,标注影视节目的片头和片尾的位置,这需要编辑花费较多时间观看视频。本专利通过视频分析算法自动检测电视节目视频的片头和片尾的位置,节省了人力,使得视频网站可以在更多的电视节目视频上使用自动跳过片头片尾的功能。自动检测。本专利可实现电视节目视频的片头片尾检测全自动化,编辑只需要确认一下即可。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种检测视频片断切点位置的方法,其特征在于,包括 获取视频中预定时间段的视频片断;对获取到的所述视频片断进行静音点检测以获取一个或多个静音点,同时对所述视频片断进行镜头切点检测,以获取一个或多个镜头切点;对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点;根据预定规则过滤所有的候选视频片断切点,以获取所述视频片断切点的位置。
2.根据权利要求1所述的方法,其特征在于,对获取到的所述视频片断进行静音点检测以获取一个或多个静音点包括提取所述视频片断中的音频数据;按照时间长度阈值将所述音频数据分割成多个连续的时间片; 通过计算任意一个时间片内任意多个时间点的音频值的平均值,来获取每个时间片的首量;通过将时间片断的音量与预定的静音点阈值进行比较来获取所述视频片断的静音点, 所述静音点包括绝对静音点和相对静音点。
3.根据权利要求2所述的方法,其特征在于,通过将时间片断的音量与预定的静音点阈值进行比较来获取所述视频片断的静音点包括判断所述时间片断的音量是否大于等于第一静音点阈值,其中, 在所述时间片断的音量小于所述第一静音点阈值的情况下,将该时间片的音量标记为所述绝对静音点;在所述时间片断的音量大于等于所述第一静音点阈值的情况下,判断所述时间片断的音量是否大于等于第二静音点阈值,在所述时间片断的音量小于所述第二静音点阈值的情况下,将该时间片的音量标记为候选相对静音点,并将满足预定条件的候选相对静音点标记为所述相对静音点。
4.根据权利要求3所述的方法,其特征在于,将满足预定条件的候选相对静音点标记为所述相对静音点包括分别读取位于所述时间片断之前的第一时间片断的第一音量,以及位于所述时间片断之后的第二时间片断的第二音量,其中所述时间片断与所述第一时间片断和所述第二时间片断之间的距离为预定时间距离;计算并获取所述时间片断的音量与所述第一音量之间的第一音量差,同时计算并获取所述时间片断的音量与所述第二音量之间的第二音量差;判断所述第一音量差的绝对值和/或所述第二音量差的绝对值是否大于等于音量差阈值,其中,在任意一个音量差的差值大于等于所述音量差阈值的情况下,标记该时间片段为相对静音点,否则标记为非静音点。
5.根据权利要求1所述的方法,其特征在于,对所述视频片断进行镜头切点检测,以获一个或多个镜头切点包括解码所述视频片断以获取视频帧图像;提取每一帧视频帧图像的图像特征,所述特征包括直方图特征; 通过计算所有相邻视频帧图像的图像特征之间的距离,来获取多个帧差值;对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的所述增强帧差值标记为所述镜头切点。
6.根据权利要求5所述的方法,其特征在于,对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的所述增强帧差值标记为所述镜头切点包括将每个帧差值乘以二之后,减去该帧差值相邻的两个帧差值,以获取所述每一帧视频帧图像的增强帧差值;当一个增强帧差值的绝对值大于与其相邻的两个增强帧差值,且所述相邻的两个增强帧差值都小于等于零时,将该增强帧差值所对应的视频帧图像的位置标记为所述镜头切点ο
7.根据权利要求1-6中任意一项所述的方法,其特征在于,对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点包括获取任意一个所述镜头切点位置的时间点;判断包含所述镜头切点位置时间点的预定时间范围内是否存在静音点,其中, 在存在静音点的情况下,将所述镜头切点的位置作为候选视频片断切点; 在不存在静音点的情况下,丢弃该镜头切点的位置的值。
8.根据权利要求7所述的方法,其特征在于,根据预定规则过滤所有的候选视频片断切点,以获取所述视频片断切点的位置包括判断所述候选视频片断切点的数目是否超过1,其中,如果只有一个候选视频片断切点时,则该候选视频片断切点为所述视频片断切点的位置;如果有多个候选视频片断切点时,从预定位置开始通过每个候选视频片断切点将所述预定时间段的视频片断切分为多个候选片断,获取时间长度大于等于阈值的一个或多个候选片断,并按照顺序选择第一个候选片断的结束时间点作为所述视频片断切点的位置。
9.一种检测视频片断切点位置的装置,其特征在于,包括 获取模块,用于获取视频中预定时间段的视频片断;检测模块,用于对获取到的所述视频片断进行静音点检测以获取一个或多个静音点, 同时对所述视频片断进行镜头切点检测,以获取一个或多个镜头切点;处理模块,用于对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点;过滤模块,用于根据预定规则过滤所有的候选视频片断切点,以获取所述视频片断切点的位置。
10.根据权利要求9所述的装置,其特征在于,所述检测模块包括 第一提取模块,用于提取所述视频片断中的音频数据;分割模块,用于按照时间长度阈值将所述音频数据分割成多个连续的时间片; 第一计算模块,用于通过计算任意一个时间片内任意多个时间点的音频值的平均值, 来获取每个时间片的音量;比较模块,用于通过将时间片断的音量与预定的静音点阈值进行比较来获取所述视频片断的静音点,所述静音点包括绝对静音点和相对静音点。
11.根据权利要求10所述的装置,其特征在于,所述比较模块包括第一判断模块,用于判断所述时间片断的音量是否大于等于第一静音点阈值; 第一标记模块,用于在所述时间片断的音量小于所述第一静音点阈值的情况下,将该时间片的音量标记为所述绝对静音点;第二标记模块,用于在所述时间片断的音量大于等于所述第一静音点阈值的情况下, 判断所述时间片断的音量是否大于等于第二静音点阈值,在所述时间片断的音量小于所述第二静音点阈值的情况下,将该时间片的音量标记为候选相对静音点,并将满足预定条件的候选相对静音点标记为所述相对静音点。
12.根据权利要求11所述的装置,其特征在于,所述比较模块还包括读取模块,用于分别读取位于所述时间片断之前的第一时间片断的第一音量,以及位于所述时间片断之后的第二时间片断的第二音量,其中所述时间片断与所述第一时间片断和所述第二时间片断之间的距离为预定时间距离;运算模块,用于计算并获取所述时间片断的音量与所述第一音量之间的第一音量差, 同时计算并获取所述时间片断的音量与所述第二音量之间的第二音量差;第二判断模块,用于判断所述第一音量差的绝对值和/或所述第二音量差的绝对值是否大于等于音量差阈值;第三标记模块,用于在任意一个音量差的差值大于等于所述音量差阈值的情况下,标记该时间片段为相对静音点,否则标记为非静音点。
13.根据权利要求9所述的装置,其特征在于,所述比较模块包括 解码模块,用于解码所述视频片断以获取视频帧图像;第二提取模块,用于提取每一帧视频帧图像的图像特征,所述特征包括直方图特征; 第二计算模块,用于通过计算所有相邻视频帧图像的图像特征之间的距离,来获取多个帧差值;增强处理模块,用于对所有的帧差值作增强处理来获取增强帧差值,将满足预定条件的所述增强帧差值标记为所述镜头切点。
14.根据权利要求13所述的装置,其特征在于,所述增强处理模块包括第三计算模块,用于将每个帧差值乘以二之后,减去该帧差值相邻的两个帧差值,以获取所述每一帧视频帧图像的增强帧差值;第四标记模块,用于当一个增强帧差值的绝对值大于与其相邻的两个增强帧差值,且所述相邻的两个增强帧差值都小于等于零时,将该增强帧差值所对应的视频帧图像的位置标记为所述镜头切点。
15.根据权利要求9-14中任意一项所述的装置,其特征在于,所述处理模块包括 第三提取模块,用于获取任意一个所述镜头切点位置的时间点;第三判断模块,用于判断包含所述镜头切点位置时间点的预定时间范围内是否存在静立占.曰/… 9第一确定模块,用于在存在静音点的情况下,将所述镜头切点的位置作为候选视频片断切点;删除模块,用于在不存在静音点的情况下,丢弃该镜头切点的位置的值。
16.根据权利要求15所述的装置,其特征在于,所述过滤模块包括 第四判断模块,用于判断所述候选视频片断切点的数目是否超过1 ;第二确定模块,用于如果只有一个候选视频片断切点时,则该候选视频片断切点为所述视频片断切点的位置;第三确定模块,用于如果有多个候选视频片断切点时,从预定位置开始通过每个候选视频片断切点将所述预定时间段的视频片断切分为多个候选片断,获取时间长度大于等于阈值的一个或多个候选片断,并按照顺序选择第一个候选片断的结束时间点作为所述视频片断切点的位置。
全文摘要
本发明公开了一种检测视频片断切点位置的方法及装置。其中,该方法包括获取视频中预定时间段的视频片断;对获取到的视频片断进行静音点检测以获取一个或多个静音点,同时对视频片断进行镜头切点检测,以获取一个或多个镜头切点;对获取到的所有静音点和镜头切点进行合并筛选处理,以获取一个或多个候选视频片断切点;根据预定规则过滤所有的候选视频片断切点,以获取视频片断切点的位置。通过本发明,能够实现通过自动分析电视节目视频结构来获取到特定位置的视频,节省了大量的人力成本。
文档编号H04N5/222GK102348049SQ20111027523
公开日2012年2月8日 申请日期2011年9月16日 优先权日2011年9月16日
发明者张名举, 苗广艺 申请人:央视国际网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1