一种基于弹幕和标题分析的有监督视频分类方法

文档序号：26050742发布日期：2021-07-27 15:25阅读：来源：国知局

技术特征：

1.一种基于弹幕和标题分析的有监督视频分类方法，包括：

获取弹幕视频数据并对弹幕进行预处理，构建弹幕数据集。将数据集视频的标题文本和弹幕文本按照一定方式进行处理，之后输入预训练bert模型从而对模型进行微调。

将数据集的数据输入微调好的bert模型，之后整合生成的弹幕文本向量，并与标题文本向量加权，形成加权复合向量，最后使用机器学习算法对加权复合向量进行分类预测。

2.根据权利要求1所述的方法，其特征在于，所述将训练集视频的标题文本和弹幕文本按照一定方式进行处理，包括：

提取一个视频的标题和所有弹幕，将所有弹幕按照发送的时间先后顺序直接拼接为一条长文本；

针对所述长文本，再将长文本按顺序分割为短文本片段；

针对短文本片段，其特征在于每个短文本为相同长度，并且所有相邻短文本之间都有部分重复的字符。

3.根据权利要求1所述的方法，其特征在于，所述整合生成的弹幕文本向量，是由权利要求2中每一个短文本片段的文本向量加权计算而出。

4.根据权利要求1所述的方法，其特征在于，所述加权复合向量由标题向量和弹幕向量分别乘以加权系数后相加而得。

5.根据权利要求1所述的方法，其特征在于，将权利要求4中的加权复合向量传入机器学习模型进行分类，最后得到加权复合向量对应视频的分类结果。

技术总结
弹幕视频是近几年来兴起的一种全新视频模式，这类视频广泛受到青少年喜欢。在观看传统类型的视频时，浏览者只能在视频外部固定的地方留言，而在观看弹幕视频时，浏览者不仅可以在视频画面上发表实时评论弹幕，也可以与其他浏览者发表的弹幕互动。弹幕视频作为一种包含文本信息的视频模式，我们可以挖掘其文本的有效信息对视频内容进行预测分类，本公开针对该问题，提供了一种基于弹幕和标题分析的有监督视频分类方法。本公开包括：一、收集并且预处理有标签的弹幕视频文本数据集。二、将处理好的文本数据传入预训练BERT模型以对模型进行微调。三、将弹幕视频的弹幕文本和标题文本数据传入微调好的BERT模型，分别生成文本向量表达。四、将弹幕文本向量和标题文本向量按照弹幕的数量进行加权，生成加权复合向量。五、将加权复合向量传入机器学习模型中分类，完成视频内容分类任务。

技术研发人员：卢峰;胡泽宇;王维华
受保护的技术使用者：南开大学
技术研发日：2021.04.30
技术公布日：2021.07.27

完整全部详细技术资料下载

当前第2页1 2