一种基于弹幕和标题分析的有监督视频分类方法

文档序号:26050742发布日期:2021-07-27 15:25阅读:157来源:国知局
一种基于弹幕和标题分析的有监督视频分类方法

技术领域:

本公开涉及自然语言处理和视频处理领域,特别涉及一种通过深度学习bert模型和有监督学习的弹幕标题分析对视频内容分类方法。



背景技术:

近年来,随着网络视频技术的快速发展,许多在线视频网站应运而生,特别是显示弹幕的视频网站异军突起。视频弹幕是一种在用户在观看过程中可以直接实时发送,并且在视频画面同步显示的简短评论。借助视频弹幕,用户在观看视频的时候不仅能对视频进行实时评论,也能与其他用户互动。正是由于弹幕视频存在互动性强,可视性强的特点,弹幕视频深受年轻网友的喜爱。当前,弹幕视频网站用户数量大幅度增加,投稿视频同步激增,整体行业处于飞速发展的状态。

目前,对于众多的投稿视频,弹幕视频网站主要依靠人工审核或者上传者自己选择的频道标签来区分视频内容的类别。对于网站审核员来说,他们需要花费大量的时间和精力来观看视频进行审核分类;对于上传者来说,他们可能不知道该把视频提交到哪个分区。因此,寻找到一种智能、高效的方法来帮助人们分类弹幕视频,对于网站的运营具有重要意义。

可以注意到,用户在参与弹幕交互时会产生丰富的文本数据,那么如何从这个庞大的数据库中挖掘到有价值的视频信息便是一个现实的问题。鉴于研究者在自然语言处理领域已经取得了巨大的成就,因此可以考虑将这些成就应用到弹幕视频的分类任务中。针对这一设想,本公开提出了一种基于弹幕和标题分析的有监督视频分类方法,分类结果可以作为网站管理视频时的参考信息,协助视频网站分类审核。



技术实现要素:

为解决上述存在的技术问题,本公开提供了一种基于弹幕和标题分析的有监督视频分类方法。其特点在于不仅能从弹幕视频的标题和弹幕中提取视频内容的相关信息,而且还能在不处理视频画面的情况下,仅通过处理文字就可以获知视频内容,从而对视频进行自动分类。通过本方法对弹幕视频分类具有较高的准确性,是传统方法之外的一种新探索,极大地拓展了处理思路,降低了处理成本。

本公开提出了一种基于弹幕文本和标题文本分析的有监督视频内容分类方法,所述方法流程包括:

s11、获取弹幕视频数据并进行预处理,根据视频内容对每个弹幕文本和标题文本进行标注,去除文本数据中的特殊符号和停止词,构建弹幕视频文本数据集。

s12、将每个弹幕视频的弹幕拼接为一个长文本,再将其按顺序分割为同样长度的小片段seg,相邻两个片段含有部分相同的文本。

s13、将训练集文本所有的分割片段seg传入预训练bert模型,对bert模型进行微调,以便后续流程中能得到更准确的文本向量。

s14、将数据集中所有分割片段seg传入微调好的bert模型,通过模型产生每个分割片的片段向量vseg。将所有标题传入微调好的bert模型,产生每个标题的标题向量vtitle。通过这种方式将文字文本表示为数字向量。

s15、计算一个视频对应所有片段向量vseg的平均值,得到该视频的平均向量vage,以此综合所有片段向量的内在信息。

s16、根据一个视频中弹幕的数量n,确定标题权重a和弹幕权重b,加权计算对应的视频平均向量vavg和标题向量vtitle,以生成复合向量vcom。通过这种方式融合弹幕和标题所蕴含的文本信息。

s17、使用机器学习模型对复合向量vcom进行分类预测,完成内容分类任务。所述机器学习模型包括knn模型、svm模型、cnn模型和lstm模型。

本公开的技术特点,主要为以下几个方面:

1、相较于传统视频分类方法,本方法使用自然语言处理的理论方法来对机器视觉领域的问题进行处理,从另一个角度使用文本信息对弹幕视频进行内容分类,充分使用了用户的先验知识,利用了弹幕视频的文本,不仅在有弹幕的时候能进行分类,在无弹幕的情况下也能通过对标题进行分析。

2、本方法实际效果优良,准确率高。在弹幕数量较多的情况下本方法分类效果较接近人工分类效果。

3、本方法中对弹幕文本的处理方式,不仅绕过了bert模型对输入字符长度的限制,也保留了视频全局信息,更捕捉到了相邻弹幕之间前后文的关系。

4、本方法使用的bert模型,已经经过google公司大量数据的预训练,相较于cnn、rnn、lstm、mlp等模型,能够减少预训练准备工作,提高文本向量生成效率和准确度。

5、本方法在弹幕较少或者没有弹幕时,会根据弹幕数量自动提高标题向量所占的权重,更多地利用标题信息完成内容分类任务

6、本方法同时使用bert模型和机器学习模型,既能获得了准确的文本向量,又能高效地对向量完成分类。

参照下文附图、附图说明和细节描述,本领域的技术工作人员可以更明白本方法的目的、优点和特征。

附图说明

本文附图是以示例性而非限制性的方式详细描述本公开的一些具体实施例,与本说明书一起用于解释本公开方法的原理。本文附图未必是按比例绘制的,对于本领域的技术工作人员应该能够轻易理解,下面说明为对附图的详细解释。

在附图中:

图1是根据本公开一个实施例的一种基于弹幕文本和标题文本分析的有监督视频内容分类方法的示意流程图;

图2是根据本公开一个实施例的弹幕文本处理示意流程图;

图3是根据本公开一个实施例的文本向量处理示意流程图。

具体实施方式:

图1是根据本公开显示的一个实施例的一种基于弹幕文本和标题文本分析的有监督视频内容分类方法的示意流程图。其具体实施方式为:

s11、获取弹幕视频数据,设置停止词表,将弹幕数据中的特殊符号和停止词去除。数据集中的视频被分为8个类别——动画、鬼畜、音乐、科技、生活、时尚、音乐、舞蹈。每一个视频对应着该视频所属的所有弹幕,同时该视频所属的标题和弹幕也对应着视频类别,并将此类别作为数据标签。最后这些数据以视频为基准按照4:1的比例分为训练集和测试集。

s12、将每个视频所属所有弹幕按照如图2所示进行处理。所有弹幕被按照时间顺序拼接为一个长文本,之后长文本再被按顺序分割为多个相同长度的短片段,每个片段的长度不超过500个字符。同时,相邻的两个片段之间拥有一部分相同的字符,相同部分的字符长度不应超过片段字符长度的1/5。

s13、将s12过程中所得的训练集片段传入google开发的开源预训练bert模型。具体bert模型的选择是:chinese_l-12_h-768_a-12,微调过程具体参数为:batch_size=4,learning_rate=2e-5,num_train_epochs=3.0。

s14、如图3示意图所示,将数据集中所有标题传入微调好的bert模型,产生标题向量vtitle;将所有分割片段seg传入微调好的bert模型,产生片段向量vseg。

s15、把所有弹幕向量相加后计算平均值,作并将它为视频的平均向量vavg。

s16、统计弹幕数量并记为n,计算标题向量加权系数a和弹幕向量加权系数b,a和b的计算公式如下所示:

b=1-a

得到加权系数后,计算视频的加权复合向量vcom:

vcom=a*vtitle+b*vavg

s17、使用余弦相似度模型或机器学习模型对复合向量vcom进行分类预测。其中所述机器学习模型包括cnn、lstm、knn和svm模型。针对每个模型,其具体结构、参数和公式算法公布如下:

cnn模型:该模型包括一个输入层、一个一维卷积层、一个丢失层、一个最大池化层、一个压平层和两个全连接层。具体网络参数设置如下:一维卷积层包含64个神经元,丢失层丢失率为0.2,最大池化层池化步长为3,两个全连接层神经元个数分别为64和8,优化器为adam,学习率为1e-4。

lstm模型:该模型包括一个输入层、一个lstm层、一个丢失层、一个压平层和两个全连接层。具体网络参数设置如下:lstm层含64个神经元,丢失层丢失率为0.2,两个全连接层神经元个数分别为32和8,优化器为adam,学习率为1e-4。

knn模型:邻居数量为5。

svm模型:伽马值为0.001。

余弦相似度模型:根据训练集中每个视频的平均向量,计算每个分区的平均标准向量vstandard,设其中一类视频在训练集中共有m个,则该类别标准向量的计算公式为:

计算测试集中每个待测视频平均向量和每个分区标准向量之间的余弦相似度,具体公式如下:

结果中最大sim值所对应的标准向量,其所属的视频类别即为预测视频的所属类别。

以上附图和说明描述了本公开的基本方法、基本原理、基本公式、主要特征和优点。本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本领域的技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构和参数,在不脱离本公开精神和范围的前提下,可以在其范围内进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1