一种基于大数据挖掘的视频内容解构方法和系统与流程

文档序号：23629278发布日期：2021-01-12 10:43阅读：165来源：国知局

本发明涉及大数据挖掘技术领域，尤其涉及一种基于大数据挖掘的视频内容解构方法和系统。

背景技术：

视频内容解构技术，是视频类网站在大数据、人工智能等技术逐渐兴起后，逐渐应用于内容分析的一种方法。现有的视频内容解构技术大致如下：

第一步是视频的精细化切分。一个高质量的影视剧视频里面会包含很多人工编辑的元素或者痕迹，例如，镜头拼接的边界、场景的边界，片头、片尾、背景音乐等等，首先需要把视频进行拆分，找到视频中人工编辑或添加的视频元素。

第二步是对视频做了精细化切分之后，会对切分出的视频片段进行理解和自动标注，并对部分内容做视频级别的标注。

第三步是基于对数据的充分理解和标注，在内容生成方面做了部分尝试，包括生成各种thumbnails(照相机缓存文件)，找到视频非常精彩的地方，合成视频摘要，亦或用ai(artificialintelligence，人工智能)算法生成一些音乐、头像等内容。

综上所述，现有的视频内容解构技术，还需要人工和技术进行组合处理。

因此，在对视频内容进行解构时，如何降低人力成本，提高节目制作的效率和质量，是一项亟待解决的问题。

技术实现要素：

有鉴于此，本发明提供了一种基于大数据挖掘的视频内容解构方法，能够通过数据算法模型直接挖掘视频关键信息元素，并通过图片识别对片段进行深度理解，最终自动形成细分片段内容的解构与分析，保证了整个过程全自动化处理，进而在节省大量人力成本的同时，也保证了视频分析结论的客观性、多维性和科学性。

本发明提供了一种基于大数据挖掘的视频内容解构方法，包括：

采集目标视频的多维数据；

通过样本数据对所述多维数据进行清洗，得到清洗后的数据；

对所述清洗后的数据进行模型化分析处理，得到所述目标视频的视频内容分析结果。

优选地，所述采集目标视频的多维数据包括：

通过图像识别和语义识别，获取视频元素数据；

通过播放器数据埋点，获取用户播放行为数据；

通过对媒资库数据的字段进行处理，获取媒资属性数据。

优选地，所述通过样本数据对所述多维数据进行清洗，得到清洗后的数据，包括：

通过样本数据对所述多维数据进行数据完整性校验、数据规范性校验和数据安全性校验，得到校验后的数据；

将所述校验后的数据存储至数据仓库；

对存储至所述数据仓库中的数据进行数据业务逻辑校验。

优选地，所述对所述清洗后的数据进行模型化分析处理，得到所述目标视频的视频内容分析结果，包括：

对所述清洗后的数据进行元素抽取，得到元素抽取结果；

对所述清洗后的数据进行指标拟合，得到指标拟合结果；

对所述清洗后的数据进行分类，得到分类结果；

基于所述元素抽取结果、指标拟合结果和分类结果对核心元素进行评估分析，得到分析结果；

结合知识图谱对所述分析结果进行数据可视化显示。

一种基于大数据挖掘的视频内容解构系统，包括：

数据采集模块，用于采集目标视频的多维数据；

数据清洗模块，用于通过样本数据对所述多维数据进行清洗，得到清洗后的数据；

数据分析模块，用于对所述清洗后的数据进行模型化分析处理，得到所述目标视频的视频内容分析结果。

优选地，所述数据采集模块具体用于：

通过图像识别和语义识别，获取视频元素数据；

通过播放器数据埋点，获取用户播放行为数据；

通过对媒资库数据的字段进行处理，获取媒资属性数据。

优选地，所述数据清洗模块具体用于：

通过样本数据对所述多维数据进行数据完整性校验、数据规范性校验和数据安全性校验，得到校验后的数据；

将所述校验后的数据存储至数据仓库；

对存储至所述数据仓库中的数据进行数据业务逻辑校验。

优选地，所述数据分析模块具体用于：

对所述清洗后的数据进行元素抽取，得到元素抽取结果；

对所述清洗后的数据进行指标拟合，得到指标拟合结果；

对所述清洗后的数据进行分类，得到分类结果；

基于所述元素抽取结果、指标拟合结果和分类结果对核心元素进行评估分析，得到分析结果；

结合知识图谱对所述分析结果进行数据可视化显示。

综上所述，本发明公开了一种基于大数据挖掘的视频内容解构方法，当需要对视频内容进行解构时，首先采集目标视频的多维数据，然后通过样本数据对多维数据进行清洗，得到清洗后的数据；最后对所述清洗后的数据进行模型化分析处理，得到目标视频的视频内容分析结果。本发明能够通过数据算法模型直接挖掘视频关键信息元素，并通过图片识别对片段进行深度理解，最终自动形成细分片段内容的解构与分析，保证了整个过程全自动化处理，进而在节省大量人力成本的同时，也保证了视频分析结论的客观性、多维性和科学性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于大数据挖掘的视频内容解构方法实施例的流程图；

图2为本发明公开的一种数据采集流程示意图；

图3为本发明公开的一种数据清洗流程示意图；

图4为本发明公开的一种数据分析流程示意图；

图5为本发明公开的一种基于大数据挖掘的视频内容解构系统实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于大数据挖掘的视频内容解构方法实施例的流程图，所述方法可以包括以下步骤：

s101、采集目标视频的多维数据；

当需要对视频内容进行解构时，首先采集目标视频的多维数据，即，首先采集需要进行视频内容解构的视频的多维数据。

具体的，如图2所示，在采集目标视频的多维数据时，通过图像识别和语义识别，获取视频元素数据，例如，通过图像识别定位明星、情节主题内容，抓取视频时间段相应元素；通过播放器数据埋点，获取用户播放行为数据，例如，通过sdk、apk埋点的方式，对用户操作播放器的行为数据进行分类采集，包括心跳、倍速播放、发弹幕等观看行为和互动行为数据；通过对媒资库数据的字段进行处理，获取媒资属性数据，例如，通过对媒资库数据的字段进行分类、转化、整合，形成媒资自身属性库。

明星出现时间点位start_time和end_time形成明星片段，情节话题出现的时间点位time形成内容片段，自动抽取出视频的核心元素，形成核心元素库；

用户播放行为数据，如心跳、倍速播放、发弹幕等各类行为分类采集存储，形成用户行为库；

将用户行为数据、核心元素数据、媒资属性数据通过媒资时间进行串联，并通过lstm、k-means聚类、svn分类等算法对数据形成统一时间维度的数据集。

s102、通过样本数据对多维数据进行清洗，得到清洗后的数据；

然后，通过样本数据对获取到的多维数据进行过滤、分类和场景化存储。

具体的，如图3所示，通过样本数据对数据集进行校验和过滤，主要包括数据完整性、规范性、及时性等方面；

然后，对清洗好的数据进行统一存储，形成分析底层的dw数据仓库；

然后，通过业务场景模型搭建，如：用户观看全路径等对数据的关联性进行计算；

s103、对清洗后的数据进行模型化分析处理，得到目标视频的视频内容分析结果。

然后，对清洗后的数据按照节目场景进行建模、分析并得出结论。

具体的，如图4所示，首先通过各基础业务模型，如：用户观看场景、用户互动场景等，建立数据集市层dm，支撑业务分析；

然后，通过图片识别及rnn，对视频主要元素进行进一步抽取和细分，定位明星时间段start_time和end_time中的主要话题以及各类基础指标表现；

通过基础数据的拟合、计算，统一输出与节目表现相关的评估指标；

通过结合核心元素以及媒资基础属性，分类输出各种评估维度指标；

然后，依赖于各类场景算法模型，特别是对用户行为模型的不断修正和迭代，形成自动化、定量的明星、话题、桥段等核心元素评估分析，形成固定的结果层数据st；

最终自动形成细分片段内容的解构与分析，通过echart结合自研可视化技术，形成产品(芒果智树)中视频解析功能模块。

同时，依赖图数据构造的知识图谱可以进一步支撑视频片段数据多维钻取，以及支撑多类可视化场景，分场景展示各个视频不同内容的评分以及关联性。

综上所述，在上述实施例中，当需要对视频内容进行解构时，首先采集目标视频的多维数据，然后通过样本数据对多维数据进行清洗，得到清洗后的数据；最后对所述清洗后的数据进行模型化分析处理，得到目标视频的视频内容分析结果。能够通过数据算法模型直接挖掘视频关键信息元素，并通过图片识别对片段进行深度理解，最终自动形成细分片段内容的解构与分析，保证了整个过程全自动化处理，进而在节省大量人力成本的同时，也保证了视频分析结论的客观性、多维性和科学性。

如图5所示，为本发明公开的一种基于大数据挖掘的视频内容解构系统实施例的结构示意图，所述系统可以包括以下步骤：

数据采集模块501，用于采集目标视频的多维数据；

当需要对视频内容进行解构时，首先通过数据采集模块501采集目标视频的多维数据，即，首先采集需要进行视频内容解构的视频的多维数据。

具体的，如图2所示，数据采集模块501在采集目标视频的多维数据时，通过图像识别和语义识别，获取视频元素数据，例如，通过图像识别定位明星、情节主题内容，抓取视频时间段相应元素；通过播放器数据埋点，获取用户播放行为数据，例如，通过sdk、apk埋点的方式，对用户操作播放器的行为数据进行分类采集，包括心跳、倍速播放、发弹幕等观看行为和互动行为数据；通过对媒资库数据的字段进行处理，获取媒资属性数据，例如，通过对媒资库数据的字段进行分类、转化、整合，形成媒资自身属性库。

明星出现时间点位start_time和end_time形成明星片段，情节话题出现的时间点位time形成内容片段，自动抽取出视频的核心元素，形成核心元素库；

用户播放行为数据，如心跳、倍速播放、发弹幕等各类行为分类采集存储，形成用户行为库；

将用户行为数据、核心元素数据、媒资属性数据通过媒资时间进行串联，并通过lstm、k-means聚类、svn分类等算法对数据形成统一时间维度的数据集。

数据清洗模块502，用于通过样本数据对多维数据进行清洗，得到清洗后的数据；

然后，数据清洗模块502通过样本数据对获取到的多维数据进行过滤、分类和场景化存储。

具体的，如图3所示，数据清洗模块502通过样本数据对数据集进行校验和过滤，主要包括数据完整性、规范性、及时性等方面；

然后，对清洗好的数据进行统一存储，形成分析底层的dw数据仓库；

然后，通过业务场景模型搭建，如：用户观看全路径等对数据的关联性进行计算；

数据分析模块503，用于对清洗后的数据进行模型化分析处理，得到目标视频的视频内容分析结果。

然后，数据分析模块503对清洗后的数据按照节目场景进行建模、分析并得出结论。

具体的，如图4所示，数据分析模块503首先通过各基础业务模型，如：用户观看场景、用户互动场景等，建立数据集市层dm，支撑业务分析；

然后，通过图片识别及rnn，对视频主要元素进行进一步抽取和细分，定位明星时间段start_time和end_time中的主要话题以及各类基础指标表现；

通过基础数据的拟合、计算，统一输出与节目表现相关的评估指标；

通过结合核心元素以及媒资基础属性，分类输出各种评估维度指标；

最终自动形成细分片段内容的解构与分析，通过echart结合自研可视化技术，形成产品(芒果智树)中视频解析功能模块。

综上所述，本发明基于大数据计算框架、用户行为分析算法，以及图片识别技术，对视频内容中的情节、明星、结构等元素进行定量化分析和综合评估，最终自动形成细分片段内容的解构与分析，保证了整个过程全自动化处理，进而在节省大量人力成本的同时，也保证了视频分析结论的客观性、多维性和科学性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗贝尔;李俊俊;谭丽莎
技术所有人：湖南快乐阳光互动娱乐传媒有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。