视频拆条方法、装置、计算机设备和存储介质与流程

文档序号:31604938发布日期:2022-09-21 10:17阅读:1070来源:国知局
视频拆条方法、装置、计算机设备和存储介质与流程

1.本发明属于计算机视觉技术领域,尤其涉及一种视频拆条方法、装置、计算机设备和存储介质。


背景技术:

2.视频拆条是指将视频按照内容和语义拆分成若干个视频片段,便于后续再根据视频内容和语义对视频片段编写标签和目录完成视频编目,以方便后续的视频检索。由此可见,视频拆条是视频编目的前提,是视频处理过程中不可或缺的处理步骤。目前,传统的视频拆条和编目方式通常采用人工进行。
3.然而,随着新媒体业务视频数据量的爆发式增长,根据公开数据统计,每天影视媒体行业能新增上万小时的视频,自媒体行业新增视频数据就更不计其数了。因此,面对如此海量的视频资源,传统人工拆条和编目的方式无法满足新媒体业务需求,并且由于人工处理方式劳动密集且效率低下的因素,进一步降低了视频拆条效率和准确性。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高拆条效率和准确性的视频拆条方法、装置、计算机设备和存储介质。
5.本发明提供一种视频拆条方法,包括:
6.对待处理视频进行时间节点采样,提取各所述时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征;
7.将各所述时间节点作为聚类节点两两分组,基于所述视频图像特征、所述视频人脸特征、所述视频语音特征以及所述视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;
8.根据所述聚类距离和时间区间的重叠对各所述时间节点合并,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并,得到最终的合并时间节点;
9.基于最终的所述合并时间节点进行视频拆条。
10.在其中一个实施例中,所述提取各所述时间节点对应的视频图像特征、视频人脸特征,包括:
11.根据各所述时间节点进行视频帧提取,得到视频图像集合;
12.分别对所述视频图像集合中各视频图像进行图像特征编码转化为高维度特征向量,得到各所述时间节点对应的视频图像特征;
13.分别对各所述视频图像进行人脸检测得到人脸子图,对所述人脸子图进行人脸编码转化为高维度特征向量,得到各所述时间节点对应的视频人脸特征。
14.在其中一个实施例中,所述提取各所述时间节点对应的视频语音特征,包括:
15.对所述待处理视频进行音轨提取,得到所述待处理视频的音频文件;
16.将所述音频文件分割为音频片段,分别对各所述音频片段进行特征编码,得到对应的音频特征;
17.根据各所述音频片段包含的时间范围确定各所述时间节点的所属音频片段,得到各所述时间节点对应的视频语音特征。
18.在其中一个实施例中,所述提取各所述时间节点对应的视频字幕特征,包括:
19.获取所述待处理视频的视频图像集合,ocr识别所述视频图像集合中的各视频图像,得到各所述视频图像的字幕位置和字幕文本内容作为视频字幕特征;
20.根据各所述视频图像与各所述时间节点以及所述视频字幕特征的对应关系,确定各所述时间节点对应的所述视频字幕特征。
21.在其中一个实施例中,所述根据所述聚类距离和时间区间的重叠对各所述时间节点合并,从合并后的时间节点集中选择满足阈值要求的时间节点作为新的聚类节点,包括:
22.当所述聚类距离中的最小距离值小于预设聚类阈值时,将所述最小距离值对应的时间节点合并,若合并后的时间节点所构成的时间区间与非合并时间节点重叠,则将所述非合并时间节点进行二次合并;
23.从二次合并后的时间节点中选择最小时间和最大时间与预设时间约束阈值构建时间节点并集,选择属于所述时间节点并集内的时间节点;
24.将选择的时间节点与当前剩余的非合并时间节点共同作为新的聚类节点。
25.在其中一个实施例中,所述聚类距离计算公式包括:
[0026][0027]
其中,dis_kf(ti,tj)是时间节点ti和tj的聚类距离,k是聚类节点集合,dt是预设时间约束阈值,dis_c(ti,tj)是时间节点ti和tj的视频图像相似度,dis_f(ti,tj)是时间节点ti和tj的视频人脸相似度,dis_a(ti,tj)是时间节点ti和tj的视频语音相似度,dis_q(ti,tj)是时间节点ti和tj的视频字母相似度。
[0028]
在其中一个实施例中,所述视频图像相似度,视频人脸相似度,视频语音相似度以及视频字母相似度的计算公式如下:
[0029][0030]
[0031][0032][0033]
其中,ci和cj分别表示时间节点ti和tj的视频图像特征,fi和fj分别表示时间节点ti和tj的视频人脸特征,ai和aj分别表示时间节点ti和tj的视频语音特征,qi和qj分别表示时间节点ti和tj的视频字幕特征,edit_dis()为字符串编辑距离,loc_dis()为空间中两个矩形框的中心位置欧式距离。
[0034]
一种视频拆条装置,包括:
[0035]
特征提取模块,用于对待处理视频进行时间节点采样,提取各所述时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征;
[0036]
聚类模块,用于将各所述时间节点作为聚类节点两两分组,基于所述视频图像特征、所述视频人脸特征、所述视频语音特征以及所述视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;
[0037]
合并模块,用于根据所述聚类距离和时间区间的重叠对各所述时间节点合并,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并得到最终的合并时间节点;
[0038]
拆条模块,用于基于最终的所述合并时间节点进行视频拆条。
[0039]
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的视频拆条方法的步骤。
[0040]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的视频拆条方法的步骤。
[0041]
上述视频拆条方法、装置、计算机设备和存储介质,通过对待处理视频进行时间节点采样提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征和视频字幕特征,然后将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征和视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;根据聚类距离和时间区间的重叠合并各时间节点,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行迭代聚类,直至时间节点无法合并得到最终的合并时间节点,最后基于最终的合并时间节点进行视频拆条。该方法融合视频图像、视频人脸、视频语音、视频字幕等特征,能够更为精准的理解视频中语义信息,并通过视频时空信息进行自约束聚类,减少不必要的对比操作,加快视频拆条速度,从而提高视频拆条效率和准确性。
附图说明
[0042]
图1为一个实施例中视频拆条方法的应用环境图。
[0043]
图2为一个实施例中视频拆条方法的流程示意图。
[0044]
图3为一个实施例中初始聚类节点的示意图。
[0045]
图4为一个实施例中基于聚类距离合并结果示意图。
[0046]
图5为一个实施例中基于时间区间的重叠合并结果示意图。
[0047]
图6为一个实施例中最终聚类合并结果示意图。
[0048]
图7为一个实施例中视频拆条装置的结构框图。
具体实施方式
[0049]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0050]
本技术提供的视频拆条方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0051]
当终端102接收到视频拆条指令时,可以由终端102单独实现上述视频拆条方法。也可以由终端102将视频拆条指令发送给通信的服务器104,由服务器104实现上述视频拆条方法。以服务器104为例,具体的,服务器104对待处理视频进行时间节点采样,提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征;服务器104将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;服务器104根据聚类距离和时间区间的重叠对各时间节点合并,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并得到最终的合并时间节点;服务器104基于最终的合并时间节点进行视频拆条。
[0052]
在一个实施例中,如图2所示,提供一种视频拆条方法,以该方法应用于服务器为例进行说明,包括以下步骤:
[0053]
步骤s201,对待处理视频进行时间节点采样,提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征。
[0054]
其中,待处理视频是指需要进行视频拆条的视频,时间节点采样是指按照一定时间间隔将视频采样成多个片段。
[0055]
具体的,当接收到视频拆条指令时,服务器首先获取视频拆条指令对应的待处理视频v。然后基于待处理视频v的视频时长t和预设的时间步长step对待处理视频v进行时间节点采样,记录为n={t1,t2,t3,
……
,tn|n=t/step}。假设t=5秒,step=1秒,从待处理视频v的视频开始处进行采样,所对应的时间节点n={t1,t2,t3,t4,t5,t6},t1时间节点为视频开始0秒处,t2时间节点的起始时间是第0秒,结束时间是第1秒
……
t6时间节点的起始时间是第5秒,结束时间是第6秒,因此整个待处理视频v可以视为由一系列时间节点构成。最后,服务器以采样的时间节点ti为基准,提取各个时间节点对应视频的图像特征、人脸特征、语音特征以及视频字幕特征。
[0056]
步骤s202,将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距
离。
[0057]
具体的,首先将时间节点n={t1,t2,t3,
……
,tn|n=t/step}作为初始的聚类节点k={k1,k2,
……
,kn}。然后,服务器将各个聚类节点ki中所包括的时间节点ti进行两两分组,初始的聚类节点是未经过合并处理的,所以每个聚类节点ki中此时只包括一个时间节点。最后基于每组里两个时间节点之间视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征的相似度进行聚类,从而确定每组节点之间的聚类距离。其中,两两分组可以理解为所有的时间节点ti分别进行组合成对,比如6个时间节点t1,t2,t3,t4,t5,t6一共能有15组(t1,t2)(t1,t3)(t1,t4)(t1,t5)(t1,t6)(t2,t3)(t2,t4)(t2,t5)(t2,t6)(t3,t4)(t3,t5)(t3,t6)(t4,t5)(t4,t6)(t5,t6),然后基于视频图像、视频人脸、视频语音以及视频字幕等多模态的特征分别对这15组时间节点进行聚类,确定每一组的聚类距离。两个时间节点之间的聚类距离dis_kf(ti,tj)计算公式如下:
[0058][0059]
k是聚类节点集合,dt是预设时间约束阈值,dis_c(ti,tj)是时间节点ti和tj的视频图像相似度,dis_f(ti,tj)是时间节点ti和tj的视频人脸相似度,dis_a(ti,tj)是时间节点ti和tj的视频语音相似度,dis_q(ti,tj)是时间节点ti和tj的视频字母相似度,各个特征的相似度计算公式如下:
[0060][0061][0062][0063][0064]
其中,ci和cj分别表示时间节点ti和tj的视频图像特征,fi和fj分别表示时间节点ti和tj的视频人脸特征,ai和aj分别表示时间节点ti和tj的视频语音特征,qi和qj分别表示时间节点ti和tj的视频字幕特征,edit_dis()为字符串编辑距离,loc_dis()为空间中两个矩形框的中心位置欧式距离。
[0065]
步骤s203,根据聚类距离和时间区间的重叠对各时间节点合并,从合并后的时间
节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并得到最终的合并时间节点。
[0066]
具体的,当完成一次聚类得到每组时间节点的聚类距离之后,根据所得到的聚类距离判断是否能够将时间节点进行合并,以及再根据合并后时间节点所形成的时间区间的重叠进一步判断是否还有能够合并的时间节点。若在聚类之后时间节点能够实现合并,则可以继续进行下一次的聚类,判断是否还存在可以合并的时间节点。而下一次聚类所用的聚类节点需要从完成合并后的时间节点中选择满足阈值要求的时间节点。而若在聚类之后存在时间节点无法合并的情况,则表示时间节点的聚类完成,保留此时最终的合并时间节点用于后续的视频拆条。
[0067]
参考图3-图6,以6个时间节点为例,图3所示的是初始的聚类节点,此时的聚类节点为初始状态,k={k1,k2,k3,k4,k5,k6},ki与ti一一对应。图4所示为第一轮聚类后,根据聚类距离合并后的聚类结果,时间节点t1和t3被合并在一起,此时的聚类节点k={k1,k2,k3,k4,k5},其中k1={t1,t3},k2,k3,k4,k5分别与t2,t4,t5,t6对应。图5所示的为第一轮聚类且基于聚类距离合并后,再根据时间区间的重叠进行合并后的结果,基于时间区间的重叠情况,t2与t1,t3被合并到一起,此时k={k1,k2,k3,k4},k1={t1,t2,t3},k2,k3,k4分别与t4,t5,t6对应。然后,由于第一轮聚类后存在合并的时间节点,需要进行第二轮聚类,第二轮聚类的聚类中心则从合并的时间节点中选择满足阈值要求的时间节点。即从k1={t1,t2,t3}中选择满足阈值要求的时间节点,而k2,k3,k4中是非合并时间节点,其只对应一个时间节点,则可以确定该时间节点作为新的聚类节点。选择完第二轮聚类所用的聚类节点之后,再次按照聚类距离dis_kf(ti,tj)计算公式进行第二轮聚类并根据第二轮结果进行合并,得到如图6所示的合并结果。当以图6所示的合并结果选择新的时间节点作为聚类节点进行第三轮聚类之后并未得到新的合并结果,那么图6所示的合并结果即为最终的合并时间节点。应当理解的是,从合并的时间节点中选择满足阈值要求的聚类节点时,不对所选节点数量做限制,只要满足阈值要求的都需要被选择,即从k1={t1,t2,t3}中选择,可能是其中任意一个满足要求、或者其中任意两个满足要求,也可能是三个都满足要求。
[0068]
步骤s204,基于最终的合并时间节点进行视频拆条。
[0069]
具体的,当服务器得到最终的合并时间节点之后,即可基于该合并时间节点进行视频拆条。以图6所示的合并时间节点结果为例,待处理视频v进行视频拆条后能够得到三段视频片段,分别是t1~t3,t3~t5,t5~t6。视频拆条可以使用ffmpeg工具从待处理视频v中截取对应的时间片段。另外,当拆条所得视频片段过短时,可以根据实际需求进行舍弃。比如,若时间节点是按照1秒的时间步长采样得到,那么t5~t6之间实际上只有1秒的视频,即可以根据实际情况进行舍弃。
[0070]
上述视频拆条方法,通过对待处理视频进行时间节点采样提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征和视频字幕特征,然后将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征和视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;根据聚类距离和时间区间的重叠合并各时间节点,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行迭代聚类,直至时间节点无法合并得到最终的合并时间节点,最后基于最终的合并时间节点进行视频拆条。该方法融合视频图像、视频人脸、视频语音、视频
字幕等特征,能够更为精准的理解视频中语义信息,并通过视频时空信息进行自约束聚类,减少不必要的对比操作,加快视频拆条速度,从而提高视频拆条效率和准确性。
[0071]
在一个实施例中,步骤s201,提取各时间节点对应的视频图像特征、视频人脸特征,包括:根据各时间节点进行视频帧提取,得到视频图像集合;分别对视频图像集合中各视频图像进行图像特征编码转化为高维度特征向量,得到各时间节点对应的视频图像特征;分别对各视频图像进行人脸检测得到人脸子图,对人脸子图进行人脸编码转化为高维度特征向量,得到各时间节点对应的视频人脸特征。
[0072]
具体的,服务器提取视频图像特征时,首先利用ffmpeg工具根据时间节点对待处理视频v进行视频帧的提取,提取每个时间节点对应的视频图像集合s={i1,i2,
……
,in},假设采样时间步长step=1秒,1秒包括24帧图像,则每个时间节点ti对应的视频图像集合s内将包括24张视频图像。然后,服务器进一步对每个时间节点ti对应的各张视频图像进行图像特征编码,转化为高维度特征向量作为视频图像特征ci。同时,服务器对每个时间节点ti对应的各张视频图像进行人脸检测得到一系列的人脸子图,再对人脸子图进行人脸编码技术转化为高维度特征向量作为视频人脸特征fi。其中,图像特征编码、人脸检测以及人脸编码技术都可以采用现有任意一种方法,本实施例优选使用resnet模型对图像进行特征编码,优选使用facebox人脸检测技术进行人脸检测,以及优选使用arcface人脸编码技术。
[0073]
在一个实施例中,步骤s201,提取各时间节点对应的视频语音特征,包括:对待处理视频进行音轨提取,得到待处理视频的音频文件;将音频文件分割为音频片段,分别对各音频片段进行特征编码,得到对应的音频特征;根据各音频片段包含的时间范围确定各时间节点的所属音频片段,得到各时间节点对应的视频语音特征。
[0074]
具体的,服务器进行视频语音特征提取时,首先利用ffmpeg工具对待处理视频v进行音轨提取,得到相应的音频文件a。然后,对音频文件a采用音频分割技术得到音频片段后,分别对音频片段进行特征编码,得到对应的音频特征,记录为a={(a1,t
s1
,t
e1
),
……
,(an,t
sn
,t
en
)},其中ai为音频片段对应的音频特征,ts为音频片段在视频中对应的开始时间,te为音频片段在视频中对应的结束时间。最后,对于任意时间节点ti,在a中若存在音频片段满足ts≤ti≤te,则将对应的音频特征ai赋予给时间节点ti作为该时间节点对应的视频语音特征。
[0075]
在一个实施例中,步骤s201,提取各时间节点对应的视频字幕特征,包括:获取待处理视频的视频图像集合,ocr识别视频图像集合中的各视频图像,得到各视频图像的字幕位置和字幕文本内容作为视频字幕特征;根据各视频图像与各时间节点以及视频字幕特征的对应关系,确定各时间节点对应的视频字幕特征。
[0076]
具体的,服务器进行视频字幕特征提取时,首先获取到每个时间节点ti对应的视频图像集合s={i1,i2,
……
,in}。对于每个时间节点ti对应的视频图像采用ocr技术检测和识别图像中字幕的位置和文本内容作为视频字幕特征q,记录为q={(l1,p1),
……
,(ln,pn)},l为字幕位置,p为字幕文本内容。然后,基于时间节点ti与视频图像s的对应关系、视频图像s与视频字幕特征q的对应关系,确定时间节点ti对应的视频字幕特征qi。
[0077]
在一个实施例中,步骤s203,包括:当聚类距离中的最小距离值小于预设聚类阈值时,将最小距离值对应的时间节点合并,若合并后的时间节点所构成的时间区间与非合并时间节点重叠,则将非合并时间节点进行二次合并;从二次合并后的时间节点中选择最小
时间和最大时间与预设时间约束阈值构建时间节点并集,选择属于时间节点并集内的时间节点,与当前剩余的非合并时间节点共同作为新的聚类节点。
[0078]
其中,非合并时间节点是指未与其他时间节点进行合并的时间节点。预设聚类阈值和预设时间约束阈值为预先根据实际情况和经验设定的值,在此不作限定。
[0079]
具体的,服务器在进行时间节点合并时,首先从所得到的各个聚类距离中的筛选能得到最小距离值min(dis_kf),如果最小距离值min(dis_kf)小于预设聚类阈值dd,将该最小距离值min(dis_kf)对应的两个时间节点进行合并,完成基于聚类距离的合并。即,步骤s203中所述的从k={k1,k2,k3,k4,k5,k6}得到k={k1,k2,k3,k4,k5}的过程,此时的合并时间节点为k1={t1,t3}。然后,从合并时间节点内选择最小时间节点和最大时间节点构成该合并时间节点集所包括的时间区间,判断是否存在重叠的非合并时间节点。此时可以确定t1~t3构成的时间区间包括非合并时间节点t2,因此将t2进行二次合并得到k1={t1,t2,t3}。最后,从二次合并后的时间节点中选择最小时间min_t和最大时间max_t,相当于是从k1中选择min_t=t1和max_t=t3。将最小时间min_t和最大时间max_t和预设时间约束阈值dt构建时间节点并集[min_t,min_t+dt]∪[max_t-dt,max_t],从k1中选择满足该并集的时间节点,随后将所选择的时间节点与当前剩余的非合并时间节点共同作为新的聚类节点。即,从k1={t1,t2,t3}中选择满足该并集的时间节点与当前剩余的非合并时间节点t4,t5,t6共同作为新的聚类节点,若非合并时间节点为空则为空,直接将满足的并集的时间节点作为聚类节点即可。
[0080]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0081]
在一个实施例中,如图7所示,提供一种视频拆条装置,包括:
[0082]
特征提取模块701,用于对待处理视频进行时间节点采样,提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征。
[0083]
聚类模块702,用于将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离。
[0084]
合并模块703,用于根据聚类距离和时间区间的重叠对各时间节点合并,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并,得到最终的合并时间节点。
[0085]
拆条模块704,用于基于最终的合并时间节点进行视频拆条。
[0086]
在一个实施例中,特征提取模块701还用于根据各时间节点进行视频帧提取,得到视频图像集合;分别对视频图像集合中各视频图像进行图像特征编码转化为高维度特征向量,得到各时间节点对应的视频图像特征;分别对各视频图像进行人脸检测得到人脸子图,对人脸子图进行人脸编码转化为高维度特征向量,得到各时间节点对应的视频人脸特征。
[0087]
在一个实施例中,特征提取模块701还用于对待处理视频进行音轨提取,得到待处
理视频的音频文件;将音频文件分割为音频片段,分别对各音频片段进行特征编码,得到对应的音频特征;根据各音频片段包含的时间范围确定各时间节点的所属音频片段,得到各时间节点对应的视频语音特征。
[0088]
在一个实施例中,特征提取模块701还用于获取待处理视频的视频图像集合,ocr识别视频图像集合中的各视频图像,得到各视频图像的字幕位置和字幕文本内容作为视频字幕特征;根据各视频图像与各时间节点以及视频字幕特征的对应关系,确定各时间节点对应的视频字幕特征。
[0089]
在一个实施例中,合并模块703还用于当聚类距离中的最小距离值小于预设聚类阈值时,将最小距离值对应的时间节点合并,若合并后的时间节点所构成的时间区间与非合并时间节点重叠,则将非合并时间节点进行二次合并;从二次合并后的时间节点中选择最小时间和最大时间与预设时间约束阈值构建时间节点并集,选择属于时间节点并集内的时间节点,与当前剩余的非合并时间节点共同作为新的聚类节点。
[0090]
关于视频拆条装置的具体限定可以参见上文中对于视频拆条方法的限定,在此不再赘述。上述视频拆条装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个视频拆条方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
[0091]
在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频拆条方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
[0092]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
[0093]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述
计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0094]
本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0095]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0096]
对待处理视频进行时间节点采样,提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征;
[0097]
将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;
[0098]
根据聚类距离和时间区间的重叠对各时间节点合并,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并,得到最终的合并时间节点;
[0099]
基于最终的合并时间节点进行视频拆条。
[0100]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据各时间节点进行视频帧提取,得到视频图像集合;分别对视频图像集合中各视频图像进行图像特征编码转化为高维度特征向量,得到各时间节点对应的视频图像特征;分别对各视频图像进行人脸检测得到人脸子图,对人脸子图进行人脸编码转化为高维度特征向量,得到各时间节点对应的视频人脸特征。
[0101]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待处理视频进行音轨提取,得到待处理视频的音频文件;将音频文件分割为音频片段,分别对各音频片段进行特征编码,得到对应的音频特征;根据各音频片段包含的时间范围确定各时间节点的所属音频片段,得到各时间节点对应的视频语音特征。
[0102]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待处理视频的视频图像集合,ocr识别视频图像集合中的各视频图像,得到各视频图像的字幕位置和字幕文本内容作为视频字幕特征;根据各视频图像与各时间节点以及视频字幕特征的对应关系,确定各时间节点对应的视频字幕特征。
[0103]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当聚类距离中的最小距离值小于预设聚类阈值时,将最小距离值对应的时间节点合并,若合并后的时间节点所构成的时间区间与非合并时间节点重叠,则将非合并时间节点进行二次合并;从二次合并后的时间节点中选择最小时间和最大时间与预设时间约束阈值构建时间节点并集,选择属于时间节点并集内的时间节点,与当前剩余的非合并时间节点共同作为新的聚类节点。
[0104]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0105]
对待处理视频进行时间节点采样,提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征;
[0106]
将各时间节点作为聚类节点两两分组,基于视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征的相似度进行聚类,分别确定每组节点之间的聚类距离;
[0107]
根据聚类距离和时间区间的重叠对各时间节点合并,从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点,返回将聚类节点两两分组进行聚类的步骤,直至时间节点无法合并,得到最终的合并时间节点;
[0108]
基于最终的合并时间节点进行视频拆条。
[0109]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各时间节点进行视频帧提取,得到视频图像集合;分别对视频图像集合中各视频图像进行图像特征编码转化为高维度特征向量,得到各时间节点对应的视频图像特征;分别对各视频图像进行人脸检测得到人脸子图,对人脸子图进行人脸编码转化为高维度特征向量,得到各时间节点对应的视频人脸特征。
[0110]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待处理视频进行音轨提取,得到待处理视频的音频文件;将音频文件分割为音频片段,分别对各音频片段进行特征编码,得到对应的音频特征;根据各音频片段包含的时间范围确定各时间节点的所属音频片段,得到各时间节点对应的视频语音特征。
[0111]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待处理视频的视频图像集合,ocr识别视频图像集合中的各视频图像,得到各视频图像的字幕位置和字幕文本内容作为视频字幕特征;根据各视频图像与各时间节点以及视频字幕特征的对应关系,确定各时间节点对应的视频字幕特征。
[0112]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当聚类距离中的最小距离值小于预设聚类阈值时,将最小距离值对应的时间节点合并,若合并后的时间节点所构成的时间区间与非合并时间节点重叠,则将非合并时间节点进行二次合并;从二次合并后的时间节点中选择最小时间和最大时间与预设时间约束阈值构建时间节点并集,选择属于时间节点并集内的时间节点,与当前剩余的非合并时间节点共同作为新的聚类节点。
[0113]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0114]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0115]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1