1.一种基于弹幕和标题分析的有监督视频分类方法,包括:
获取弹幕视频数据并对弹幕进行预处理,构建弹幕数据集。将数据集视频的标题文本和弹幕文本按照一定方式进行处理,之后输入预训练bert模型从而对模型进行微调。
将数据集的数据输入微调好的bert模型,之后整合生成的弹幕文本向量,并与标题文本向量加权,形成加权复合向量,最后使用机器学习算法对加权复合向量进行分类预测。
2.根据权利要求1所述的方法,其特征在于,所述将训练集视频的标题文本和弹幕文本按照一定方式进行处理,包括:
提取一个视频的标题和所有弹幕,将所有弹幕按照发送的时间先后顺序直接拼接为一条长文本;
针对所述长文本,再将长文本按顺序分割为短文本片段;
针对短文本片段,其特征在于每个短文本为相同长度,并且所有相邻短文本之间都有部分重复的字符。
3.根据权利要求1所述的方法,其特征在于,所述整合生成的弹幕文本向量,是由权利要求2中每一个短文本片段的文本向量加权计算而出。
4.根据权利要求1所述的方法,其特征在于,所述加权复合向量由标题向量和弹幕向量分别乘以加权系数后相加而得。
5.根据权利要求1所述的方法,其特征在于,将权利要求4中的加权复合向量传入机器学习模型进行分类,最后得到加权复合向量对应视频的分类结果。