一种新闻视频切分方法和装置与流程

文档序号:11844898阅读:509来源:国知局
一种新闻视频切分方法和装置与流程

本发明涉及视频处理技术领域,特别是涉及一种新闻视频切分方法和一种新闻视频切分装置。



背景技术:

新闻视频是电视台和视频网站等媒体单位的重要处理对象。一方面,经过多年的积累,大量涵盖生活各方面内容的新闻视频成为这些媒体单位的宝贵资产,另一方面,这些媒体单位每天都有新的新闻视频需要及时有效地完成处理。其中,对新闻视频的处理包括对新闻视频进行切分处理,使得切分后得到的每一个视频片段只包含一个新闻内容。

目前市场上的对新闻视频的切分处理,都是采用基于人工或者半人工的方式。例如,人工设定对新闻视频进行切分的切分点,然后再对新闻视频进行切分。但是此时需要耗费大量人工来设定切分点,效率低,成本高。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种新闻视频切分方法和相应的一种新闻视频切分装置。

依据本发明的一个方面,提供了一种新闻视频切分方法,其特征在于,包括:

获取新闻视频图像数据;

从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据;

按第一时间序列比较各图片数据中标题相似度;

基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点;

基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

可选地,所述按第一时间序列比较各图片数据中标题相似度的步骤,包括:

识别各图片数据中的标题所对应的字符串;

按第一时间序列比较前后两张图片数据的字符串之间的相似度。

可选地,所述按第一时间序列比较前后两张图片数据的字符串之间的相似度的步骤,包括:

计算前后两张图片数据的字符串之间的文本距离以作为相似度。

可选地,所述基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点的步骤包括:

根据所述标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧;

根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点。

可选地,所述根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点的步骤,包括:

将所述音频数据按第二时间序列切分为各子音频数据;

利用预置的主持人语音模型识别各子音频数据所对应的声源特征;所述声源特征包括主持人声源特征、非主持人声源特征;

查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点。

可选地,所述查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点的步骤,包括:

将各关键帧及相应的声源特征输入预先训练的第一切分点识别模型,得到各关键帧为切分点的概率;

选择概率最大的关键帧作为切分点。

可选地,所述查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点的步骤之 前,还包括:

从各关键帧对应的图片数据中提取图片特征。

可选地,所述查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点的步骤,还包括:

以各关键帧及相应的图片特征和声源特征输入预先训练的第二切分点识别模型,得到各关键帧为切分点的概率;

选择概率最大的关键帧作为切分点。

可选地,所述利用预置的主持人语音模型识别各子音频数据所对应的声源特征的步骤,包括:

获取所述视频数据所对应的录制方标识;

提取与录制方标识相应的主持人语音模型;

利用与录制方标识相应的主持人语音模型识别各子音频数据所对应的声源特征。

可选地,所述按第一时间序列比较各图片数据中标题相似度的步骤,包括:

按第一时间序列比较前后两张图片数据之间的图像的相似度。

依据本发明的另一个方面,提供了一种新闻视频切分装置,其特征在于,包括:

新闻视频获取模块,适于获取新闻视频图像数据;

图片数据提取模块,适于从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据;

标题相似度比较模块,适于按第一时间序列比较各图片数据中标题相似度;

切分点计算模块,适于基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点;

切分模块,适于基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

可选地,所述标题相似度比较模块,包括:

字符串识别子模块,适于识别各图片数据中的标题所对应的字符串;

字符串相似度比较子模块,适于按第一时间序列比较前后两张图片数据的字符串之间的相似度。

可选地,所述字符串相似度比较子模块,包括:

相似度计算子模块,适于计算前后两张图片数据的字符串之间的文本距离以作为相似度。

可选地,所述切分点计算模块包括:

音频数据以及关键帧获取子模块,适于根据所述标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧;

切分点确认子模块,适于根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点。

可选地,所述切分点确认子模块,包括:

音频数据切分子模块,适于将所述音频数据按第二时间序列切分为各子音频数据;

声源特征识别子模块,适于利用预置的主持人语音模型识别各子音频数据所对应的声源特征;所述声源特征包括主持人声源特征、非主持人声源特征;

第一切分点确认子模块,适于查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点。

可选地,所述第一切分点确认子模块,包括:

第一概率计算子模块,适于将各关键帧及相应的声源特征输入预先训练的第一切分点识别模型,得到各关键帧为切分点的概率;

第二切分点确认子模块,适于选择概率最大的关键帧作为切分点。

可选地,所述第一切分点确认子模块之前,还包括:

图片特征提取子模块,适于从各关键帧对应的图片数据中提取图片特 征。

可选地,所述第一切分点确认子模块,还包括:

第二概率计算子模块,适于以各关键帧及相应的图片特征和声源特征输入预先训练的第二切分点识别模型,得到各关键帧为切分点的概率,然后进入第二切分点确认子模块。

可选地,所述声源特征识别子模块,包括:

录制方标识获取子模块,适于获取所述视频数据所对应的录制方标识;

主持人语音模型提取子模块,适于提取与录制方标识相应的主持人语音模型;

第一声源特征识别子模块,适于利用与录制方标识相应的主持人语音模型识别各子音频数据所对应的声源特征。

可选地,所述标题相似度比较模块,包括:

图像相似度比较子模块,适于按第一时间序列比较前后两张图片数据之间的图像的相似度。

根据本发明的一种新闻视频切分方法以装置可以在获取新闻视频图像数据后,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据,按第一时间序列比较各图片数据中标题相似度,基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。由此解决了先有技术中需要耗费大量人工来设定对新闻视频进行切分处理的切分点,效率低,成本高的问题。取得了提高了对新闻视频图像数据切分的效率、降低了人力成本的有益效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于 本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种新闻视频切分方法实施例的步骤流程图;

图1A示出了根据本发明一个实施例的一个新闻视频图像数据在某一时刻显示的新闻内容示意图;

图2示出了根据本发明一个实施例的一种新闻视频切分方法实施例的步骤流程图;

图3示出了根据本发明一个实施例的一种新闻视频切分装置实施例的结构框图;以及

图4示出了根据本发明一个实施例的一种新闻视频切分装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1,示出了根据本发明一个实施例的一种新闻视频切分方法实施例的步骤流程图,具体可以包括如下步骤:

步骤110,获取新闻视频图像数据。

新闻视频图像数据是一种比较常见的视频,例如“新闻联播”、“早间新闻”等等都是新闻视频图像数据。新闻视频图像数据的结构特征比较明显,其主体内容是一系列新闻事件,各个新闻事件占据新闻视频图像数据中的一段连续的部分。例如,“新闻联播”包括了一系列单独的新闻事件的视频数据。

新闻视频图像数据是新闻的存在形式。在实际应用中,对新闻视频的处理,就是对新闻视频图像数据的处理。但是本发明中的新闻视频可以是包含例如完整的“新闻联播”的新闻视频图像数据,也可以是由例如“新闻联播”的一部分构成的新闻视频图像数据,对此本发明实施例不加以限定。

步骤120,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据。

在实际应用中,新闻视频是按照时间顺序播放的。在本发明实施例中,可以按照新闻视频播放的时间顺序以第一时间周期,也即按第一时间序列,从新闻视频图像数据的指定区域中提取对应标题部分的各图片数据。其中第一时间序列所包含的第一时间周期是可以根据需求预置的,对此本发明实施例不加以限定。当然,第一时间序列也可以为新闻视频播放顺序的反方向,对此本发明实施例也不加以限定。

另外,在新闻视频图像数据中会存在一定的标题部分。其中的标题部分是对应于新闻视频图像数据中包含的各个新闻内容。对于一个固定的发布新闻视频图像数据的媒体节目而言,其新闻视频图像数据的显示界面框架也比较固定。因此,其中的标题部分也比较固定。在本发明实施例中,可以针对各个需要进行切分的新闻视频图像数据所使用的显示界面框架,相应地设置提取对应标题部分的各图片数据的指定区域。

例如,图1A所示的一个新闻视频图像数据在某一时刻显示的新闻内容。在本发明实施例中,可以定义其中所示的框图①中的“aaa”以及“aaabbbbbb”为副标题;框图②中的“ccccc”以及“dddddddddddd”为主标题。副标题与主标题都属于标题部分。因此,在本发明实施例中,可以以第一时间序列,从对应副标题以及主标题部分的区域中,提取各图片数据。例如,从该新闻视频图像数据开始播放开始,每隔1秒,则从对应副标题以及主标题部分的区域中,提取图片数据。

当然,本发明实施例中,上述标题部分根据不同的新闻节目,其标题形式不一样,比如某些新闻节目存在如图1A的主标题部分和副标题部分,而某些新闻节目可能只有一个主标题部分。本发明实施例不对其加以 限制。

当然,本发明实施例中,对于不同新闻节目的新闻视频图像数据,可以设置相应的提取模板,并将该提取模板与所属新闻节目的新闻节目标识对应。然后在获取到新闻视频图像数据后,根据该新闻视频图像数据所属新闻节目标识查找相应的提取模板,然后即可从该新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据。

其中,上述提取模板定义了从新闻视频图像数据的显示界面框架的哪个位置提取对应标题部分的各图片数据。

当然,在实际应用中提取模板可以根据新闻视频图像数据的显示界面中标题部分相对显示界面边框的相对位置。该相对比如相对新闻视频图像数据的显示界面的左上角的{左上、左下、右上、右下}的四个相对坐标所确定的区域,作为对应标题部分区域。

当然,也可以采用其他形式构建上述提取模板,本发明实施例不对其加以限定。

步骤130,按第一时间序列比较各图片数据中标题相似度。

在本发明实施例中,按第一时间序列提取对应标题部分的各图片数据之后,可以按第一时间序列比较各图片数据中标题相似度。即按照提取的各图片数据的第一时间顺序,从第一个提取的图片数据开始,将当前图片数据对应地与其之后的一个图片数据进行标题相似度比较。例如,若第一时刻提取的图片数据为a1、b1,其中a1为副标题部分图片数据,b1为主标题部分图片数据。在第一时刻的一个时间间隔之后的第二时刻提取的图片数据为a2、b2,其中a2为副标题部分图片数据,b2为主标题部分图片数据。在第二时刻的一个第一时间周期之后的第三时刻提取的图片数据为a3、b3,其中a3为副标题部分图片数据,b3为主标题部分图片数据。那么在本步骤中,对于第一时刻和第二时刻,可以分别比较副标题部分的连续的图片数据a1与a2的标题相似度、主标题部分的图片数据b1与b2的标题相似度;然后对第二时刻和第三时刻,可以分别比较副标题部分的连续的图片数据a2与a3的标题相似度、主标题部分的图片数据b2与b3的标题相似度。可以不比较a1 与a3,或者b1与b3的标题相似度。

对于标题部分划分为了多个子标题部分的情况,如前述划分为了主标题部分和子标题部分,对前后两个时刻的图片数据的比较,则分别将各标题部分对图片数据进行相似度比较的结果进行加权计算,得到前后两个时刻的总的标题相似度。比如a1与a2标题相似度为M,b1与b2标题相似度为N,那么第一时刻和第二时刻的图片数据的总的标题相似度可以为M*N。当然,也可以采用其他加权方式,本发明实施例不对其加以限制。

当然,对于标题部分未划分的情况,直接对前后两个时刻的图片数据计算器标题相似度即可。

另外,各图片数据中标题相似度可以理解为,各图片数据中包含的标题信息的相似程度。其中,两个图片数据的标题相似度的值越大,则该两个图片数据的标题相似程度越高,进而可以知该两个图片数据属于同一新闻内容的可能性越大。

具体地,可以利用图像识别等技术,按照第一时间序列计算并比较前后两个图片数据之间的图像的相似度,作为对应的各个图片数据中标题相似度;或者是按照第一时间序列识别前后两个图片数据中包含的字符串,并比较前后两个图片数据包含的字符串的相似度作为对应的各个图片数据中标题相似度。当然,也可以采用可用的其他方式按第一时间序列比较各图片数据中标题相似度,对比本发明实施例不加以限定。

优选地,在本发明实施例中,所述步骤130,包括:

子步骤131,按第一时间序列比较前后两张图片数据之间的图像的相似度。

在本发明实施例中,可以按第一时间序列比较前后两张图片数据之间的图像的相似度。例如,对于上述的图片数据a1和a2、b1和b2。可以直接比较a1与a2之间的图像的相似度,以及b1和b2之间的图像的相似度。

其中,图像的相似度,可以理解为图像之间的相似程度。在本发明实施例中,进行相似度比较的图片数据的尺寸都是一致的。因此,在本发明实施例中,可以计算前后两张图片数据之间的图像中可以完全重合的区域,也即 像素值完全相同的区域,并计算该区域在进行比较的任一图片数据的图像中所占的比例,作为对应的两张图片数据之间的图像的相似度。

例如,假设图片数据a1和a2之间的图像可以重合的区域为C,而a1和a2的尺寸都为S。那么a1和a2之间的图像的相似度可以为C/S。

需要说明的是,在本发明实施例中,还可以采用其他的可用方式按第一时间序列比较前后两张图片数据之间的图像的相似度。对此本发明实施例不加以限定。

步骤140,基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点。

如前述,在本发明实施例中,如果前后两张图片数据的标题相似度越高,说明这两张图片数据对应同一件新闻事件的可能性越高。反之,如果前后两张图片数据的标题相似度越低,说明这两张图片数据对应不同新闻事件的可能性越高。所以,在本发明实施例中,可以预置一个第一阈值,认定标题相似度低于第一阈值的前后两张图片数据对应于两个不同的新闻事件,然后基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点。其中,第一阈值可以在本步骤之前,或者是本步骤之前的任一步骤之前根据经验或需求预置,对此本发明实施例不加以限定。

而在本发明实施例中任意的前后两张图片数据之间的时间间隔都为第一时间周期,而对于新闻视频图像数据而言,第一时间周期内都对应于一段新闻视频,如果认定标题相似度低于第一阈值的前后两张图片数据对应于两个不同的新闻事件,那么在这前后两张图像之间的第一时间周期中必然存在一个切点,可以以该切点,将新闻视频图像数据进行切分,从而将上述的两个不同的新闻事件切分开来。

该切分点比如选择新闻视频图像数据中对于前后两张图片数据所在时刻的中间时刻,作为切分点。当然还可以采用其他方式确认切分点,本发明实施例不对其加以限制。

步骤150,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

在确定了切分点之后,则可以以切分点对应在新闻视频图像数据中的位置,将新闻视频图像数据切分为各子新闻视频图像数据。

在实际应用中,可以采用任意一种视频切分工具对视频进行切割。当然,本发明实施例中,为了实现自动对新闻视频图像数据的切分,则可以调用视频切分工具的切分接口,通过该切分接口将上述步骤得到切分点序列输入切分工具,使切分工具可以按序对新闻视频进行切割。

需要说明的是,在本发明实施例中,新闻视频图像数据开头和第一个切分点之间切分为一个子新闻视频图像数据,第一个切分点和第二个切分点之间切分为另一个子新闻视频图像数据,其他情况以此类推,将整个新闻视频图像数据切分为n个子新闻视频图像数据。其中,n为大于0的整数。

在实际应用中,新闻视频图像数据一般是各电视台整体录制的,而某个网站的如果要引用该新闻视频图像数据,是按照新闻事件进行引用的,比如,一个新闻事件一个网页,在该网页中引用对应该新闻事件的整个新闻视频图像数据中该新闻事件的子新闻视频图像数据,因此需要将获取到的整个新闻视频图像数据按照新闻事件进行切分,方便后续引用。

在本发明实施例中,可以对切分得到的各子新闻视频图像数据,从其开始部分的各帧图片数据中,提取标题部分的图片数据,然后从该图片数据中识别其文本数据,然后将该文本数据与该子新闻视频图像数据进行关联,方便后续引用。

在本发明实施例中,可以在获取新闻视频图像数据后,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据,按第一时间序列比较各图片数据中标题相似度,基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。实现了自动确定切分点并对新闻视频图像数据进行切分处理,从而提高了对新闻视频图像数据切分的效率、降低了人力成本。

实施例二

参照图2,示出了根据本发明一个实施例的一种新闻视频切分方法实施例的步骤流程图,具体可以包括如下步骤:

步骤210,获取新闻视频图像数据。

步骤220,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据。

步骤230,识别各图片数据中的标题所对应的字符串。

在实际应用中,新闻视频画面中存在当前播报的新闻事件的标题,而且不同的新闻事件的标题也不同。因此,也可以利用各图片数据中的标题判断前后两个图片数据是否对应于同一个新闻视频。

在本发明实施例中,可以利用图像识别技术,识别各图片数据中的标题所对应的字符串。例如,可以利用SVM(Support Vector Machine,支持向量机)分类器、神经网络分类器等现有的分类器,当前,也可以利用其他可用的技术,识别各图片数据中的标题所对应的字符串。对于识别各图片数据中的标题所对应的字符串的技术,本发明实施例不加以限定。另外,对于同一图片数据中的标题,可以按照从左往右,从上到下的顺序,分别识别该标题对应的字符串,当然也可以按照其他顺序,可以根据需求在本步骤之前设置具体的顺序,对此本发明实施例不加以限定。

例如,对于图1A中所示的图片数据,本步骤识别其副标题以及主标题所对应的字符串,可以得到“aaaaaabbb bbb”以及“cccccdddddddddddd”两个字符串,或者是直接合并得到“aaaaaabbb bbbcccccdddddddddddd”一个字符串。当然,为了方便后续的比较,而且空格对后续操作并不会造成太多影响,在本发明实施例中,也可以将识别出的空格直接忽略,从而可以得到“aaaaaabbbbbbcccccdddddddddddd”的字符串。对于具体的识别原则,例如识别得到的字符串数量、字符串的构成等等,都可以根据需求设定,对此本发明实施例不加以限定。

步骤240,按第一时间序列比较前后两张图片数据的字符串之间的相似度。

在获取了各图片数据中的标题所对应的字符串之后,则可以按第一时间 序列比较前后两张图片数据的字符串之间的相似度。

在实际应用中,图片数据中的标题对应于不同的新闻事件,属于同一新闻事件的图片数据中的标题一般而言是一致的,而属于不同新闻事件的图片数据的标题必然不完全相同。因此,在本发明实施例中,可以按照第一时间序列比较前后两张图片数据的字符串之间的相似度。

具体地,可以对前后两张图片数据的字符串进行切分,每个切片中包含多个字符,然后利用属于同一字符串的切片构建一个分块策略集合,即k-shingle集合,其中k是指集合中每个切片所包含的字符数,k的值可以根据需求或多次试验确定,对此本发明实施例不加以限定,但是对于需要计算相似度的两个字符串而言,分别将两个字符串转换成k-shingle集合时的k的取值是一致的。具体的切分过程可以为:从字符串中的首个字符开始,逐个从当前字符向后提取k个字符作为一个切片,直至将字符串的最后一个字符提取至一个切片中为止。

此时可以定义两个用户标识之间的相似度为

Jaccard(a,b)=(|A∩B|)/(|A∪B|) (1)

其中,Jaccard(a,b)表示字符串a和b之间的相似度,A是指对应于a的分块策略集合中包含的元素,即切片的数量,B是指对应于b的分块策略集合中包含的元素,即切片的数量。

当然,在本发明实施例中,也可以利用其他的可用方法比较前后两张图片数据的字符串之间的相似度,本发明实施例不加以限定。

优选地,在本发明实施例中,步骤240,包括:

子步骤241,计算前后两张图片数据的字符串之间的文本距离以作为相似度。

两个字符串之间的文本距离,是指以字符为单位,将一个字符转换至另一个字符需要删除、增加、移动的字符数量以及每个字符移动的次数之和。其中,字符向前或向后移动一个字符的位置称为移动一次。因此可知,前后两张图片数据的字符串之间的文本距离越小,则说明这两张图片数据的字符串之间的相似度越大。在本发明实施例中,对于文本相似度,则会将其进行 转换,使值越小,相似度越小,值越大相似度越大,比如1/x,x表示文本距离,则文本距离越大,1/x越小,则1/x可以表示两张图片数据的相似度越大。然后,可以对1/x设置一个第一阈值,确定出小于第一阈值的前后两张图片数据。

对于文本距离,例如,假设前后两张图片数据的字符串分别为:HIJK、IHKM,那么要将第一个字符串转换至第二个字符串,需要将字符I向后移动一次、删除字符J、增加字符M,因此该两个字符串之间的文本距离为3。

步骤250,根据所述标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧。

在实际应用中,视频是由一系列帧(frame)组成的,本发明所针对的新闻视频图像数据也是由帧组成的。帧是影像动画中最小单位的单幅影像画面,一帧就是一副静止的画面,连续的帧就形成动画。因此前述步骤中提取的一个图片数据可以理解为一帧中的部分图片数据。对于视频来说,其音频数据则与各帧按时间对应。那么可以根据帧,去提取两个帧之间的音频数据。

在提取图片数据时,可以获取各图片数据在新闻视频图像数据中的位置,比如在哪个时刻。由于新闻视频可以包括显示画面以及声音,所以新闻视频图像数据可以包括帧以及音频数据。所以在本发明实施例中,可以获取前后两张图片数据之间的音频数据以及各关键帧。其中关键帧又称为I帧(I frame),属于帧内压缩,I帧是一个完整的画面。I帧通常是每个GOP(Group of Pictures,MPEG(Moving Pictures Experts Group/Motion Pictures Experts Group,动态图像专家组)所使用的一种视频压缩技术)的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成一个完整的画面。

步骤260,根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点。

在实际应用中,可以从前后两张图片数据之间的新闻视频片段获取多个关键帧,所以需要根据获取的音频数据对各关键帧进行识别,确定一个关键 帧为切分点。

比如识别音频数据中由记者声音或者其他非主持人声音转换为主持人声音所对应的时刻,可以将该时刻的关键帧作为一个切分点。因为,对于目前的新闻视频来说,其一个新闻事件的具体内容基本上由记者描述,一个新闻事件结束后,跳转到播放间时,则是主持人描述,因此可以通过记者的声音跳转至主持人的声音的时刻去确定切分点。

优选地,在本发明实施例中,所述步骤260包括:

子步骤261,将所述音频数据按第二时间序列切分为各子音频数据。

首先,可以利用第二时间序列将音频数据切分为各子音频数据。第二时间序列可以按照新闻视频播放的时间顺序,将音频数据切分为各子音频数据,使每个子音频数据的时间长度为第二时间周期。

因为,在本发明实施例中,一个音频数据的时间长度为第一时间周期,所以第二时间周期必然不大于第一时间周期。但是对于第二时间周期的具体取值,可以根据需求设定,对此本发明实施例不加以限定。比如两个图片数据之间的音频数据长度为30s,则将30s的音频数据切分为5s的音频数据。

子步骤262,利用预置的主持人语音模型识别各子音频数据所对应的声源特征;所述声源特征包括主持人声源特征、非主持人声源特征。

在实际应用中,每个视频节目的主持人的比较固定,可能为固定的一个或几个。因此,在本发明实施例中,可以预先采集每个主持人的声音,并训练一个主持人语音模型,进而可以利用该主持人语音模型识别各个子音频数据所对应的声源特征是主持人声源特征,还是非主持人声源特征。

例如,将子音频数据输入主持人语音模型,如果该子音频数据与某个主持人的声音相匹配,那么可以认定该子音频数据对应于主持人声源特征;而如果该子音频数据与全部主持人的声音都不匹配,那么可以认定该子音频数据对应于非主持人声源特征。

在实际应用中,可以利用主持人语音模型识别各子音频数据对应主持人声源特征、非主持人声源特征的概率。

优选地,在本发明实施例中,所述子步骤262包括:

子步骤2621,获取所述视频数据所对应的录制方标识。

在实际应用中,不同录制方的主持人也不一样,该录制方可以理解为电视台,而不同的电视台的新闻的主持人不同。所以在本发明实施例中,可以训练针对不同的录制方标识的主持人语音模型。那么此时,需要先获取视频数据所对应的录制方标识。其中,录制方标识为可以唯一标识录制方的标识,例如录制方的名称、代号等等。

子步骤2622,提取与录制方标识相应的主持人语音模型。

在获取了录制方标识之后,即可以提取与录制方标识相应的主持人语音模型。

可以理解,本发明实施例可以预先针对不同的录制方,训练相应的主持人语音模型。当然,在后续使用中,根据录制方新闻的主持人的变化,可以根据变化后的各主持人的语音样本,训练主持人语音模型、

子步骤2623,利用与录制方标识相应的主持人语音模型识别各子音频数据所对应的声源特征。

该步骤与前述的子步骤262类似,此时是利用与录制方标识相应的主持人语音模型识别各子音频数据所对应的声源特征,在此不再赘述。

子步骤264,查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点。

通过对新闻视频的结构进行分析可以知道,新闻主持人语音播新闻的开始通常意味着上一个新闻事件的结束和一个新的新闻事件的开始。对于按照第二时间序列切分得到的各子音频数据中的前后两个子音频数据,如果前一个子音频数据对应于非主持人声源特征,后一个子音频数据对应于主持人声源特征,那么该种情况很大可能是一个新闻事件结束,而新闻视频回到播放间背景,主持人开始介绍另一个新闻事件。因此,可以根据这两个子音频数据确定一个关键帧为切分点。例如,以最靠近这两个子音频数据的交接点的一个关键帧为切分点。当然,也可以按照其他原则,对此本发明实施例不加以限定。

优选地,在本发明实施例中,所述子步骤264包括:

子步骤2641,将各关键帧及相应的声源特征输入预先训练的第一切分点识别模型,得到各关键帧为切分点的概率。

在本发明实施例中,可以在本步骤之前,或者是本步骤之前的任一步骤之前,利用已知切分点的新闻视频图像数据,预先训练第一切分点识别模型。第一切分点识别模型可以为贝叶斯模型。贝叶斯模型是运用贝叶斯统计进行的一种预测。贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息,其在做统计推断时的一般模式是:先验信息+总体分布信息+样本信息→后验分布信息。可以看出贝叶斯模型不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。当然,第一切分点识别模型也可以利用其他可用的模型,对此本发明实施例不加以限定。

具体的训练过程可以为,将已知切分点的新闻视频图像数据的各关键帧,以及各子声频数据对应的声源特征作为第一切分点识别模型的输入,相应地将已知的切分点对应作为输出,进而实现对第一切分点识别模型的训练。

将各关键帧以及相应子声频数据对应的的声源特征输入预先训练的第一切分点识别模型之后,可以得到各关键帧为切分点的概率。

子步骤2642,选择概率最大的关键帧作为切分点。

在本发明实施例中,利用第一切分点识别模型计算得到的概率越大,则说明对应该概率的关键帧为切分点的可能性越大。因此,可以选择概率最大的关键帧作为切分点。

优选地,在本发明实施例中,在所述子步骤264之前,还包括:

子步骤263,从各关键帧对应的图片数据中提取图片特征。

在本发明实施例中,为了提高计算得到的概率的精确性,还可以利用各关键帧及相应的图片特征和声源特征计算各关键帧为切分点的概率。此时,还需要从各关键帧对应的图片数据中提取图片特征。其中,图片特征可以包括图片数据的显示画面、结构等等。

优选地,在本发明实施例中,所述子步骤264,还包括:

子步骤2643,以各关键帧及相应的图片特征和声源特征输入预先训练的第二切分点识别模型,得到各关键帧为切分点的概率,然后进入子步骤2642。

第二切分点识别模型也可以为贝叶斯模型。但是此时是利用已知切分点的新闻视频图像数据的各关键帧及相应的图片特征和声源特征作为输入,以相应切分点作为输出,训练得到的第二切分点识别模型。因此,第一切分点识别模型和第二切分点识别模型虽然都可以为贝叶斯模型,但是两者具体的形式,例如参数等并不相同。相对而言,第二切分点识别模型计算得到的各关键帧为切分点的概率准确度更高。

步骤270,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

在本发明实施例中,同样可以在获取新闻视频图像数据后,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据,按第一时间序列比较各图片数据中标题相似度,基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。实现了自动确定切分点并对新闻视频图像数据进行切分处理,从而提高了对新闻视频图像数据切分的效率。

另外,本发明实施例还可以根据标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧,然后基于音频数据以及各关键帧确定一个关键帧为切分点。从而进一步地提高了对新闻视频图像数据进行切分的准确度。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

实施例三

参照图3,示出了根据本发明一个实施例的一种新闻视频切分装置实施例的结构框图,具体可以包括如下模块:

新闻视频获取模块310,适于获取新闻视频图像数据。

图片数据提取模块320,适于从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据。

标题相似度比较模块330,适于按第一时间序列比较各图片数据中标题相似度。

优选地,在本发明实施例中,所述标题相似度比较模块330,包括:

图像相似度比较子模块,适于按第一时间序列比较前后两张图片数据之间的图像的相似度。

切分点计算模块340,适于基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点。

切分模块350,适于基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

在本发明实施例中,可以在获取新闻视频图像数据后,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据,按第一时间序列比较各图片数据中标题相似度,基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。实现了自动确定切分点并对新闻视频图像数据进行切分处理,从而提高了对新闻视频图像数据切分的效率、降低了人力成本。

实施例四

参照图4,示出了根据本发明一个实施例的一种新闻视频切分装置实施例的结构框图,具体可以包括如下模块:

新闻视频获取模块410,适于获取新闻视频图像数据。

图片数据提取模块420,适于从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据。

标题相似度比较模块430,适于按第一时间序列比较各图片数据中标题相似度。具体包括:

字符串识别子模块431,适于识别各图片数据中的标题所对应的字符串。

字符串相似度比较子模块432,适于按第一时间序列比较前后两张图片数据的字符串之间的相似度。

优选地,在本发明实施例中,所述字符串相似度比较子模块432,包括:

相似度计算子模块,适于计算前后两张图片数据的字符串之间的文本距离以作为相似度。

切分点计算模块440,适于基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点。具体包括:

音频数据以及关键帧获取子模块441,适于根据所述标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧。

切分点确认子模块442,适于根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点。

优选地,在本发明实施例中,所述切分点确认子模块442,包括:

音频数据切分子模块,适于将所述音频数据按第二时间序列切分为各子音频数据。

声源特征识别子模块,适于利用预置的主持人语音模型识别各子音频数据所对应的声源特征;所述声源特征包括主持人声源特征、非主持人声源特征。

优选地,在本发明实施例中,所述声源特征识别子模块,包括:

录制方标识获取子模块,适于获取所述视频数据所对应的录制方标识。

主持人语音模型提取子模块,适于提取与录制方标识相应的主持人语音模型。

第一声源特征识别子模块,适于利用与录制方标识相应的主持人 语音模型识别各子音频数据所对应的声源特征。

第一切分点确认子模块,适于查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点。

优选地,在本发明实施例中,所述第一切分点确认子模块,包括:

第一概率计算子模块,适于将各关键帧及相应的声源特征输入预先训练的第一切分点识别模型,得到各关键帧为切分点的概率。

第二切分点确认子模块,适于选择概率最大的关键帧作为切分点。

优选地,在本发明实施例中,在所述第一切分点确认子模块之前,还包括:

图片特征提取子模块,适于从各关键帧对应的图片数据中提取图片特征。

优选地,在本发明实施例中,所述第一切分点确认子模块,还包括:

第二概率计算子模块,适于以各关键帧及相应的图片特征和声源特征输入预先训练的第二切分点识别模型,得到各关键帧为切分点的概率,然后进入第二切分点确认子模块。

切分模块450,适于基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

在本发明实施例中,同样可以在获取新闻视频图像数据后,从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据,按第一时间序列比较各图片数据中标题相似度,基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点,基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。实现了自动确定切分点并对新闻视频图像数据进行切分处理,从而提高了对新闻视频图像数据切分的效率、降低了人力成本。

另外,本发明实施例还可以根据标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧,然后基于音频数据以及各关键帧确定一个关键帧为切 分点。从而进一步地提高了对新闻视频图像数据进行切分的准确度。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相 同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的新闻视频切分设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种新闻视频切分方法,包括:

获取新闻视频图像数据;

从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据;

按第一时间序列比较各图片数据中标题相似度;

基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点;

基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

A2、如A1所述的方法,所述按第一时间序列比较各图片数据中标题相似度的步骤,包括:

识别各图片数据中的标题所对应的字符串;

按第一时间序列比较前后两张图片数据的字符串之间的相似度。

A3、如A2所述的方法,所述按第一时间序列比较前后两张图片数据的字符串之间的相似度的步骤,包括:

计算前后两张图片数据的字符串之间的文本距离以作为相似度。

A4、如A1-A3其中之一所述的方法,所述基于标题相似度低于第一阈值的前后两张图片数据,计算对新闻视频图像数据的切分点的步骤包括:

根据所述标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧;

根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点。

A5、如A4所述的方法,所述根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点的步骤,包括:

将所述音频数据按第二时间序列切分为各子音频数据;

利用预置的主持人语音模型识别各子音频数据所对应的声源特征;所述声源特征包括主持人声源特征、非主持人声源特征;

查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点。

A6、如A5所述的方法,所述查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点的步骤,包括:

将各关键帧及相应的声源特征输入预先训练的第一切分点识别模型,得 到各关键帧为切分点的概率;

选择概率最大的关键帧作为切分点。

A7、如A5所述的方法,所述查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点的步骤之前,还包括:

从各关键帧对应的图片数据中提取图片特征。

A8、如A7所述的方法,所述查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点的步骤,还包括:

以各关键帧及相应的图片特征和声源特征输入预先训练的第二切分点识别模型,得到各关键帧为切分点的概率;

选择概率最大的关键帧作为切分点。

A9、如A5所述的方法,所述利用预置的主持人语音模型识别各子音频数据所对应的声源特征的步骤,包括:

获取所述视频数据所对应的录制方标识;

提取与录制方标识相应的主持人语音模型;

利用与录制方标识相应的主持人语音模型识别各子音频数据所对应的声源特征。

A10、如A1所述的方法,所述按第一时间序列比较各图片数据中标题相似度的步骤,包括:

按第一时间序列比较前后两张图片数据之间的图像的相似度。

本发明还公开了B11、一种新闻视频切分装置,包括:

新闻视频获取模块,适于获取新闻视频图像数据;

图片数据提取模块,适于从新闻视频图像数据的指定区域中,按第一时间序列提取对应标题部分的各图片数据;

标题相似度比较模块,适于按第一时间序列比较各图片数据中标题相似度;

切分点计算模块,适于基于标题相似度低于第一阈值的前后两张图片数 据,计算对新闻视频图像数据的切分点;

切分模块,适于基于所述切分点,将新闻视频图像数据切分为各子新闻视频图像数据。

B12、如B11所述的装置,所述标题相似度比较模块,包括:

字符串识别子模块,适于识别各图片数据中的标题所对应的字符串;

字符串相似度比较子模块,适于按第一时间序列比较前后两张图片数据的字符串之间的相似度。

B13、如B12所述的装置,所述字符串相似度比较子模块,包括:

相似度计算子模块,适于计算前后两张图片数据的字符串之间的文本距离以作为相似度。

B14、如B11-B13其中之一所述的装置,所述切分点计算模块包括:

音频数据以及关键帧获取子模块,适于根据所述标题相似度低于第一阈值的前后两张图片数据各自在新闻视频图像数据中的位置,获取前后两张图片数据之间的音频数据以及各关键帧;

切分点确认子模块,适于根据所述音频数据对各关键帧进行识别,确定一个关键帧为切分点。

B15、如B14所述的装置,所述切分点确认子模块,包括:

音频数据切分子模块,适于将所述音频数据按第二时间序列切分为各子音频数据;

声源特征识别子模块,适于利用预置的主持人语音模型识别各子音频数据所对应的声源特征;所述声源特征包括主持人声源特征、非主持人声源特征;

第一切分点确认子模块,适于查找由非主持人声源特征跳转到主持人声源特征的两个子音频数据,并根据所述两个子音频数据确定一个关键帧为切分点。

B16、如B15所述的装置,所述第一切分点确认子模块,包括:

第一概率计算子模块,适于将各关键帧及相应的声源特征输入预先训练的第一切分点识别模型,得到各关键帧为切分点的概率;

第二切分点确认子模块,适于选择概率最大的关键帧作为切分点。

B17、如B15所述的装置,所述第一切分点确认子模块之前,还包括:

图片特征提取子模块,适于从各关键帧对应的图片数据中提取图片特征。

B18、如B17所述的装置,所述第一切分点确认子模块,还包括:

第二概率计算子模块,适于以各关键帧及相应的图片特征和声源特征输入预先训练的第二切分点识别模型,得到各关键帧为切分点的概率,然后进入第二切分点确认子模块。

B19、如B15所述的装置,所述声源特征识别子模块,包括:

录制方标识获取子模块,适于获取所述视频数据所对应的录制方标识;

主持人语音模型提取子模块,适于提取与录制方标识相应的主持人语音模型;

第一声源特征识别子模块,适于利用与录制方标识相应的主持人语音模型识别各子音频数据所对应的声源特征。

B20、如B11所述的装置,所述标题相似度比较模块,包括:

图像相似度比较子模块,适于按第一时间序列比较前后两张图片数据之间的图像的相似度。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1