一种视频数据的挖掘方法和装置的制造方法

文档序号:9865757阅读:566来源:国知局
一种视频数据的挖掘方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别是涉及一种视频数据的挖掘方法和一种视频数据的挖掘装置。
【背景技术】
[0002]随着网络技术的不断发展和个性化需求的不断提高,视频网站中用户的参与度得到极大提升,用户生成内容(User Generated Content,UGC)呈爆炸式增长。
[0003]通常,视频网站上的UGC视频均具有数量庞大、复杂多样、极其分散的特点,UGC视频中具有大量的优质视频,同时也混杂着大量劣质视频,如何挖掘出散落在海量UGC视频中满足长尾需求(Long-tail)的、优质的视频成为一种需求。
[0004]目前,尽管某些网站允许用户建立个人专辑,但由于用户自身的随意性和资源的不完整性,大部分专辑的质量不高、视频内容混乱,导致这些专辑都缺乏实际的可用性,同时,由于UGC视频的数量过于庞大,通过人工的方式来挖掘优质视频也变的不切实际,成本过尚。

【发明内容】

[0005]鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频数据的挖掘方法和相应的一种视频数据的挖掘装置。
[0006]为了解决上述问题,本发明实施例公开了一种视频数据的挖掘方法,包括:
[0007]采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;
[0008]针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;
[0009]对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;
[0010]获取各个所述视频聚类集合的视频集关键短语;
[0011 ]针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数据,形成新的视频聚类集合;
[0012]对各个所述新的视频聚类集合进行去重处理;
[0013]计算各个所述新的视频聚类集合的平均相似度;
[0014]保留平均相似度大于或等于预设阈值的新的视频聚类集合。
[0015]优选的,所述获取各个所述视频聚类集合的视频集关键短语的步骤包括:
[0016]获取各个所述视频聚类集合中视频数据的第一视频文本;
[0017]根据所述第一视频文本获取分词关键短语;
[0018]根据所述第一视频文本获取模板关键短语;
[0019]将所述分词关键短语和所述模板关键短语进行融合,获得视频集关键短语。
[0020]优选的,所述根据所述第一视频文本获取分词关键短语的步骤包括:
[0021]对所述第一视频文本进行分词处理,获得视频文本分词;
[0022]统计各个所述视频文本分词在相应视频聚类集合中的出现频率;
[0023]提取出现频率高于第一预设频率值的视频文本分词作为关键分词;
[0024]将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分词关键短语。
[0025]优选的,所述根据所述第一视频文本获取模板关键短语的步骤包括:
[0026]加载预置关键短语模板;
[0027]将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短语;
[0028]统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率;
[0029]提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。
[0030]优选的,所述频道分类器通过以下方式训练:
[0031 ]确定各个频道下的视频样本数据;
[0032]获取各个频道下的视频样本数据的第二视频文本;
[0033]采用所述第二视频文本训练频道分类器。
[0034]优选的,所述对各个所述新的视频聚类集合进行去重处理的步骤包括:
[0035]获取各个所述新的视频聚类集合中视频数据的第三视频文本;
[0036]针对各个所述新的视频聚类集合,提取视频数据的第三视频文本中的量词;
[0037]针对各个所述新的视频聚类集合,对具有相同量词的多个视频数据,只保留其中一个视频数据。
[0038]优选的,还包括:
[0039]采用视频文本中的量词,对各个所述新的视频聚类集合中的视频数据进行排序。
[0040]优选的,所述计算各个所述新的视频聚类集合的平均相似度的步骤包括:
[0041]计算各个所述新的视频聚类集合中的视频数据两两之间的相似度;
[0042]将所计算获得的相似度累加,获得总和相似度;
[0043]统计所计算获得的相似度的个数;
[0044]将所述总和相似度与所述相似度的个数的比值作为平均相似度。
[0045]本发明实施例还公开了一种视频数据的挖掘装置,包括:
[0046]频道分类模块,用于采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;
[0047]过滤模块,用于针对各个所述频道视频集,过滤掉不满足预设过滤条件的视频数据;
[0048]聚类模块,用于对各个所述频道视频集中的视频数据进行聚类,获得视频聚类集合;
[0049]视频集关键短语获取模块,用于获取各个所述视频聚类集合的视频集关键短语;
[0050]新的视频聚类集合生成模块,用于针对各个所述视频聚类集合,提取包含所述视频集关键短语的视频数据,形成新的视频聚类集合;
[0051]去重模块,用于对各个所述新的视频聚类集合进行去重处理;
[0052]平均相似度计算模块,用于计算各个所述新的视频聚类集合的平均相似度;
[0053]挖掘结果确定模块,用于保留平均相似度大于或等于预设阈值的新的视频聚类集入口 ο
[0054]优选的,所述视频集关键短语获取模块包括:
[0055]第一视频文本获取子模块,用于获取各个所述视频聚类集合中视频数据的第一视频文本;
[0056]分词关键短语获取模块,用于根据所述第一视频文本获取分词关键短语;
[0057]模板关键短语获取模块,用于根据所述第一视频文本获取模板关键短语;
[0058]视频集关键短语获取模块,用于将所述分词关键短语和所述模板关键短语进行融合,获得视频集关键短语。
[0059]本发明实施例包括以下优点:
[0060]本发明实施可以采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集,针对各个频道视频集,过滤掉不满足预设过滤条件的视频数据,对各个频道视频集中的视频数据进行聚类,获得视频聚类集合,获取各个视频聚类集合的视频集关键短语,针对各个视频聚类集合,提取包含视频集关键短语的视频数据,形成新的视频聚类集合,对各个新的视频聚类集合进行去重处理,计算各个新的视频聚类集合的平均相似度,保留平均相似度大于或等于预设阈值的新的视频聚类集合,最终所获得的新的视频聚类集合中的视频数据具有高度的趋同性,进而实现了从海量的UGC视频中挖掘出优质的UGC视频,并将这些优质的UGC视频进行归类,提高了优质视频的挖掘效率,避免了人工挖掘优质视频的成本过高的问题。
【附图说明】
[0061 ]图1是本发明的一种视频数据的挖掘方法实施例的步骤流程图;
[0062]图2是本发明的一种视频数据的挖掘装置实施例的结构框图。
【具体实施方式】
[0063]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0064]本发明实施例的核心构思之一在于,本发明实施可以采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集,针对各个频道视频集,过滤掉不满足预设过滤条件的视频数据,对各个频道视频集中的视频数据进行聚类,获得视频聚类集合,获取各个视频聚类集合的视频集关键短语,针对各个视频聚类集合,提取包含视频集关键短语的视频数据,形成新的视频聚类集合,对各个新的视频聚类集合进行去重处理,计算各个新的视频聚类集合的平均相似度,保留平均相似度大于或等于预设阈值的新的视频聚类集合,最终所获得的新的视频聚类集合中的视频数据具有高度的趋同性,进而实现了从海量的UGC视频中挖掘出优质的UGC视频,并将这些优质的UGC视频进行归类,提高了优质视频的挖掘效率,避免了人工挖掘优质视频的成本过高的问题。
[0065]参照图1,示出了本发明的一种视频数据的挖掘方法实施例的步骤流程图,具体可以包括如下步骤:
[0066]步骤101,采用预先训练的频道分类器对待挖掘视频数据进行频道分类,获得频道视频集;
[0067]在本发明实施例中,待挖掘视频数据主要是指用户生成(Generated Content,UGC)的视频数据,即UGC视频数据,这些UGC视频通常由
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1