一种视频数据的挖掘方法和装置的制造方法_4

文档序号：9865757阅读：来源：国知局

据进行排序。
[0170]在本发明实施例中，所述平均相似度计算模块可以包括:
[0171]相似度计算子模块，用于计算各个所述新的视频聚类集合中的视频数据两两之间的相似度；
[0172]总和相似度计算子模块，用于将所计算获得的相似度累加，获得总和相似度；
[0173]相似度的个数统计子模块，用于统计所计算获得的相似度的个数；
[0174]平均相似度计算子模块，用于将所述总和相似度与所述相似度的个数的比值作为平均相似度。
[0175]对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0176]本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0177]本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0178]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0179]这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0180]尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0181]最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0182]以上对本发明所提供的一种视频数据的挖掘方法和一种视频数据的挖掘装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种视频数据的挖掘方法，其特征在于，包括: 采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；针对各个所述频道视频集，过滤掉不满足预设过滤条件的视频数据；对各个所述频道视频集中的视频数据进行聚类，获得视频聚类集合；获取各个所述视频聚类集合的视频集关键短语；针对各个所述视频聚类集合，提取包含所述视频集关键短语的视频数据，形成新的视频聚类集合；对各个所述新的视频聚类集合进行去重处理；计算各个所述新的视频聚类集合的平均相似度；保留平均相似度大于或等于预设阈值的新的视频聚类集合。2.根据权利要求1所述的方法，其特征在于，所述获取各个所述视频聚类集合的视频集关键短语的步骤包括: 获取各个所述视频聚类集合中视频数据的第一视频文本；根据所述第一视频文本获取分词关键短语；根据所述第一视频文本获取模板关键短语；将所述分词关键短语和所述模板关键短语进行融合，获得视频集关键短语。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一视频文本获取分词关键短语的步骤包括: 对所述第一视频文本进行分词处理，获得视频文本分词；统计各个所述视频文本分词在相应视频聚类集合中的出现频率；提取出现频率高于第一预设频率值的视频文本分词作为关键分词；将各个所述视频聚类集合中的关键分词组合成符合自然语言表达的分词关键短语。4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一视频文本获取模板关键短语的步骤包括: 加载预置关键短语模板；将与所述预置关键短语模板匹配的第一视频文本作为候选模板关键短语；统计各个所述候选模板关键短语在相应视频聚类集合中的出现频率；提取出现频率高于第二预设频率值的候选模板关键短语作为模板关键短语。5.根据权利要求1所述的方法，其特征在于，所述频道分类器通过以下方式训练: 确定各个频道下的视频样本数据；获取各个频道下的视频样本数据的第二视频文本；采用所述第二视频文本训练频道分类器。6.根据权利要求1或2或3所述的方法，其特征在于，所述对各个所述新的视频聚类集合进行去重处理的步骤包括: 获取各个所述新的视频聚类集合中视频数据的第三视频文本；针对各个所述新的视频聚类集合，提取视频数据的第三视频文本中的量词；针对各个所述新的视频聚类集合，对具有相同量词的多个视频数据，只保留其中一个视频数据。7.根据权利要求6所述的方法，其特征在于，还包括: 采用视频文本中的量词，对各个所述新的视频聚类集合中的视频数据进行排序。8.根据权利要求1或2或3所述的方法，其特征在于，所述计算各个所述新的视频聚类集合的平均相似度的步骤包括: 计算各个所述新的视频聚类集合中的视频数据两两之间的相似度；将所计算获得的相似度累加，获得总和相似度；统计所计算获得的相似度的个数；将所述总和相似度与所述相似度的个数的比值作为平均相似度。9.一种视频数据的挖掘装置，其特征在于，包括: 频道分类模块，用于采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；过滤模块，用于针对各个所述频道视频集，过滤掉不满足预设过滤条件的视频数据；聚类模块，用于对各个所述频道视频集中的视频数据进行聚类，获得视频聚类集合；视频集关键短语获取模块，用于获取各个所述视频聚类集合的视频集关键短语；新的视频聚类集合生成模块，用于针对各个所述视频聚类集合，提取包含所述视频集关键短语的视频数据，形成新的视频聚类集合；去重模块，用于对各个所述新的视频聚类集合进行去重处理；平均相似度计算模块，用于计算各个所述新的视频聚类集合的平均相似度；挖掘结果确定模块，用于保留平均相似度大于或等于预设阈值的新的视频聚类集合。10.根据权利要求8所述的装置，其特征在于，所述视频集关键短语获取模块包括: 第一视频文本获取子模块，用于获取各个所述视频聚类集合中视频数据的第一视频文本；分词关键短语获取模块，用于根据所述第一视频文本获取分词关键短语；模板关键短语获取模块，用于根据所述第一视频文本获取模板关键短语；视频集关键短语获取模块，用于将所述分词关键短语和所述模板关键短语进行融合，获得视频集关键短语。
【专利摘要】本发明实施例提供了一种视频数据的挖掘方法和装置，其中，所述方法包括：采用预先训练的频道分类器对待挖掘视频数据进行频道分类，获得频道视频集；针对各个频道视频集，过滤掉不满足预设过滤条件的视频数据；对各个频道视频集中的视频数据进行聚类，获得视频聚类集合；获取各个视频聚类集合的视频集关键短语；针对各个视频聚类集合，提取包含视频集关键短语的视频数据，形成新的视频聚类集合；对各个新的视频聚类集合进行去重处理；计算各个新的视频聚类集合的平均相似度；保留平均相似度大于或等于预设阈值的新的视频聚类集合。本发明实施例可以提高优质视频的挖掘效率，避免人工挖掘优质视频的成本过高的问题。
【IPC分类】G06F17/30
【公开号】CN105631033
【申请号】CN201511032706
【发明人】乔奇
【申请人】北京奇艺世纪科技有限公司
【公开日】2016年6月1日
【申请日】2015年12月31日

完整全部详细技术资料下载

当前第4页1 2 3 4