1.一种视频基因的生成方法,其特征在于,包括:
获取与当前视频相关的源数据;其中,所述源数据包括与所述当前视频相关的网页文本、所述当前视频内的字幕文本和所述当前视频对应的音频数据中的一种或多种;
按照所述源数据中单体数据出现的频率从所述源数据中提取所述当前视频的特征数据;其中,对于所述网页文本和所述字幕文本,所述单体数据为词语,对于所述音频数据,所述单体数据为音频单元;
根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词;其中,所述预先建立的视频基因词库包括样本视频、所述样本视频的特征数据和所述样本视频的基因词;其中,所述样本视频的特征数据包括所述字幕文本的向量化词语和所述音频数据的特征数据。
2.根据权利要求1所述的方法,其特征在于,获取与当前视频相关的源数据,包括:
从当前视频相关的网页中,通过网页数据采集器获取与所述当前视频相关的所述网页文本作为源数据;所述当前视频相关的网页是从预设的主流网站中获取的所述当前视频的链接网页;或;
对所述当前视频进行分帧处理,获取所述当前视频的视频帧集合;从所述视频帧集合中提取所述当前视频的关键帧,并通过字符识别技术提取所述关键帧的字幕文本作为所述源数据。
3.根据权利要求1所述的方法,其特征在于,按照所述源数据中单体数据出现的频率从所述源数据中提取所述当前视频的特征数据,包括:
当所述源数据为所述网页文本或所述字幕文本时,对所述源数据进行分词处理,生成所述词语的集合;并对所述词语的集合进行词语过滤操作和词语频率统计操作;将频率大于预设阈值的所述词语作为所述当前视频的特征数据;
当所述源数据为所述音频数据时,采用梅尔频率倒谱系数MFCC算法计算所述音频数据中所述单体数据的频率特征,并将所述频率特征作为所述当前视频的特征数据。
4.根据权利要求1所述的方法,其特征在于,根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词,包括:
当所述源数据为所述字幕文本或所述音频数据时,将所述特征数据和预先建立的视频基因词库进行匹配操作,根据匹配成功的所述特征数据确定所述特征数据对应的样本视频;
将所述样本视频的基因词确定为所述当前视频的候选基因词;
将所述候选基因词输入预设的神经网络,生成所述当前视频的基因词。
5.根据权利要求1所述的方法,其特征在于,根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词,还包括:
当所述源数据为所述网页文本或所述字幕文本时,通过词语生成工具获取所述特征数据的同义词或近义词;
将所述同义词或近义词逐一与预先建立的视频基因词库进行匹配,并将匹配成功的所述同义词或近义词确定为所述当前视频的候选基因词;
将所述候选基因词输入预设的神经网络,生成所述当前视频的基因词。
6.根据权利要求4或5所述的方法,其特征在于,将所述候选基因词输入预设的神经网络,生成所述当前视频的基因词的步骤之前,所述方法还包括:
对所述当前视频的候选基因词中相同的所述候选基因词进行频率统计,根据统计的结果对所述候选基因词进行筛选,去除所述候选基因词中所述频率小于预设阈值的候选基因词。
7.根据权利要求4或5所述的方法,其特征在于,将所述候选基因词输入预设的神经网络,生成所述当前视频的基因词,包括:
将所述候选基因词输入预设的神经网络,所述神经网络根据所述候选基因词和所述视频基因词库中的视频样本对应的视频基因确定与所述当前视频的关联度最高的视频样本;
根据所述关联度最高的视频样本的视频基因和所述候选基因词确定所述当前视频的视频基因。
8.一种视频基因的生成装置,其特征在于,包括:
源数据获取模块,用于获取与当前视频相关的源数据;其中,所述源数据包括与所述当前视频相关的网页文本、所述当前视频内的字幕文本和所述当前视频对应的音频数据中的一种或多种;
特征数据提取模块,用于按照所述源数据中单体数据出现的频率从所述源数据中提取所述当前视频的特征数据;其中,对于所述网页文本和所述字幕文本,所述单体数据为词语,对于所述音频数据,所述单体数据为音频单元;
基因词确定模块,用于根据提取到的所述特征数据和预先建立的视频基因词库确定所述当前视频的基因词;其中,所述预先建立的视频基因词库包括样本视频、所述样本视频的特征数据和所述样本视频的基因词;其中,所述样本视频的特征数据包括所述字幕文本的向量化词语和所述音频数据的特征数据。
9.根据权利要求8所述的装置,其特征在于,所述基因词确定模块包括:
样本视频确定单元,用于当所述源数据为所述字幕文本或所述音频数据时,将所述特征数据和预先建立的视频基因词库进行匹配操作,根据匹配成功的所述特征数据确定所述特征数据对应的样本视频;
候选基因词确定单元,用于将所述样本视频的基因词确定为所述当前视频的候选基因词;
第一基因词生成单元,用于将所述候选基因词输入预设的神经网络,生成所述当前视频的基因词。
10.根据权利要求8所述的装置,其特征在于,所述基因词确定模块还包括:
同义词或近义词生成单元,用于当所述源数据为所述网页文本或所述字幕文本时,通过词语生成工具获取所述特征数据的同义词或近义词;
匹配单元,用于将所述同义词或近义词逐一与预先建立的视频基因词库进行匹配,并将匹配成功的所述同义词或近义词确定为所述当前视频的候选基因词;
第二基因词生成单元,用于将所述候选基因词输入预设的神经网络,生成所述当前视频的基因词。