基于改进贝叶斯模型的视频弹幕情感分类方法与流程

文档序号:16000981发布日期:2018-11-20 19:27阅读:263来源:国知局

本发明涉及一种视频弹幕情感分类方法,尤其涉及一种基于改进贝叶斯模 型的视频弹幕情感分类方法。



背景技术:

现在已进入Web2.0时代,互联网技术和社交媒体得到飞速发展,催生出了 一种新型的评论形式——视频弹幕。视频弹幕是指出现在视频播放器上的一种 能够使用户评论与视频同步播放的技术。视频弹幕一经出现便引起了网民的欢 迎,其使用量居高不下。视频弹幕受其吐槽文化的影响包含了大量的情感信息, 同时,其高实时性的出现形式也有别于传统的用户评论。因此对视频弹幕进行 情感分析具有很高的研究价值。

情感分析的主要内容可归纳为情感信息的抽取和情感信息的分类,所关注 的内容多在于评价对象、观点持有者、评价词、情感极性分类等。其中情感极 性分类是情感分析的重点,比如,使用基于情感词典的方法对情感极性进行判 别;定义词与词之间的点互信息(Point Mutual Information)来判定语句情感极性; 在基于机器学习的方法中,使用NB、ME、SVM三种分类模型对文本情感极性 进行分类并比较了各自的结果;通过多种算法实验表明在大规模数据集中 n-gram模型对情感分类起到了重要的作用。也有学者在情感极性分类中混合使 用多种分类模型。纵观所有情感分析的研究,均未考虑评论提出的时间。

目前对视频弹幕的研究多局限于新闻学和传播学的角度,使用计算机技术 特别是情感分析技术对视频弹幕的研究目前鲜有出现,即使有文献在情感分析 和可视化中使用视频弹幕作为数据集,但并未利用视频弹幕实时性的特点。全 面系统地介绍视频弹幕的特点并应用于情感分类的研究更是尚未见诸文献。

综上,现有分类算法对视频弹幕评论的分类效果不理想、过于依赖先验知 识和领域词典。由于人类语言的复杂性,对评论的情感分类工作一直都比较困 难。视频弹幕受互联网文化的影响,当中充满了网络用语、词义变形和一词多 意的现象,影响了算法的判断。



技术实现要素:

本发明的目的就在于为了解决上述问题而提供一种基于改进贝叶斯模型的 视频弹幕情感分类方法。

本发明通过以下技术方案来实现上述目的:

一种基于改进贝叶斯模型的视频弹幕情感分类方法,包括以下步骤:

步骤(1):使用聚类算法对视频弹幕进行时段划分,确定参数q、v,其中 q为替换率,v为目标矫正率;

步骤(2):使用贝叶斯模型对数据集进行初始分类,记录时段类别概率θ和 先验概率ω;

步骤(3):使用ω+q(θ-ω)替换先验概率ω,对样本重新分类,计算并记录 矫正量d与其变化量Δd,更新时段类别概率θ;

步骤(4):若Δd≠0,返回步骤(3);

步骤(5):选择矫正率与v最接近的矫正结果作为最后结果;

上述各参数定义如下:

时段类别概率θ:设某时段下的视频弹幕R,经过贝叶斯模型分类后各类别 所占的比例为c1,c2,…,cn,其中n为类别数,则R的时段类别概率为 θ=(c1,c2,…,cn);

矫正量d-:设首次使用贝叶斯模型分类后得到的时段类别概率为 θ0=(x1,x2,…,xn),若第k次矫正后的时段类别概率为θk=(y1,y2,…,yn),则第k次矫 正的矫正量为dk=|θk-θ0|;

替换率q:替换ω后的概率为令替换率为q(0≤q≤1),使得

矫正率v:设最后一次矫正的矫正量为dmax,第k次矫正的矫正量为dk。则 第k次矫正的矫正率为

本发明的有益效果在于:

本发明结合视频弹幕的实时性特点,提出一种基于时段划分的矫正贝叶斯 算法即改进贝叶斯模型,并将其用于视频弹幕情感分类中,矫正了传统贝叶斯 模型错分的样本,具有良好的分类效果,特别适用于情感倾向一致性较高的视 频弹幕;将本发明的基于时段划分的矫正贝叶斯算法(modified Bayesian algorithmbased onperiod division,简称pd-MBA)的分类结果与传统多项式朴素 贝叶斯分类结果进行对比,可以看出,pd-MBA在三种时段划分方法下的效果都 优于多项式朴素贝叶斯算法,并且F值有可观的提升量;这里的F值全称是 F-Meansure,是评估分类算法的标准之一,为精准率和召回率的综合考量,计算 方法为F-Meansure=2*P*R/(P+R),其中P、R分别为精准率和召回率。

附图说明

图1是本发明所述基于改进贝叶斯模型的视频弹幕情感分类方法的流程示 意图;

图2是本发明实施例中《湄公河惨案》的视频弹幕分布示意图;

图3-1是本发明实施例中使用DBSCAN时段划分方法的结果F值提升量与 信息熵之间的线形关系示意图;

图3-2是本发明实施例中使用K-means时段划分方法的结果F值提升量与 信息熵之间的线形关系示意图;

图3-3是本发明实施例中使用GMM时段划分方法的结果F值提升量与信 息熵之间的线形关系示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明:

如图1所示,本发明所述基于改进贝叶斯模型的视频弹幕情感分类方法, 包括以下步骤:

步骤(1):使用聚类算法对视频弹幕进行时段划分,确定参数q、v,其中 q为替换率,v为目标矫正率;

步骤(2):使用贝叶斯模型对数据集进行初始分类,记录时段类别概率θ和 先验概率ω;

步骤(3):使用ω+q(θ-ω)替换先验概率ω,对样本重新分类,计算并记录 矫正量d与其变化量Δd,更新时段类别概率θ;

步骤(4):若Δd≠0,返回步骤(3);

步骤(5):选择矫正率与v最接近的矫正结果作为最后结果。

上述各参数定义如下:

定义1:时段类别概率θ:设某时段下的视频弹幕R,经过贝叶斯模型分类 后各类别所占的比例为c1,c2,…,cn,其中n为类别数,则R的时段类别概率为 θ=(c1,c2,…,cn)。

从定义1可以看出,时段类别概率θ是贝叶斯模型后验概率在一个时段下的 统计结果,其数值表示该时段的视频弹幕属于各类别的概率,可以将其视为该 时段视频弹幕的情感倾向,因此同时段视频弹幕情感倾向具有相对一致性的特 点在时段类别概率上的表现可以描述如下:在时段类别概率θ上概率的分布是不 均匀的,即在c1,c2,…,cn中某些数值明显大于其他数值。

贝叶斯分类模型基于贝叶斯公式:

式中先验概率P(H)是训练集的统计结果,而时段类别概率是时段下视频弹 幕情感倾向的代表,在情感分类中时段类别概率的作用大于先验概率;因此 pd-MBA使用时段类别概率替换公式中的先验概率P(H),对样本进行重新分类; 在重新分类过程中,时段类别概率又因样本归属的改变而改变,使用最新的时 段类别概率继续进行替换与重新分类,从而形成多次矫正过程。

定义2:矫正量d-:为设置pd-MBA的收敛条件,提出了矫正量;设首次 使用贝叶斯模型分类后得到的时段类别概率θ为θ0=(x1,x2,…,xn),若第k次矫正后 的时段类别概率为θk=(y1,y2,…,yn),则第k次矫正的矫正量为dk=|θk-θ0|。

从定义2可以看出,矫正量d-表示了时段类别概率的变化量;随着矫正过 程的进行,矫正量d-不断增大,直至没有样本被从新分类;因此当矫正量不再 变化时算法收敛。

由于用户表达的随意性,在一个时段内并不是所有的视频弹幕都有相同的 情感倾向(只是一致性比较高),会存在一些相对较少的视频弹幕与该时段的情 感倾向不同;在pd-MBA过程中,与该时段情感倾向对应的时段类别概率θ的分 量不断增大,将那些相对较少却分类正确的视频弹幕错误地重新归类为该时段 情感倾向最强的类别,本文将这种现象称为过度矫正。

定义3:替换率q:为了解决过度矫正的问题提出了替换率和矫正率;替换 ω后的概率为令替换率为q(0≤q≤1),使得

定义4:矫正率v:设最后一次矫正的矫正量为dmax,第k次矫正的矫正量 为dk。则第k次矫正的矫正率为

替换率q通过在先验概率ω和时段类别概率θ之间采取折中的方式削弱 pd-MBA的矫正力度,调整替换率的大小可以在不同矫正力度之间进行选择;然 而往往很难设置一个非常合适的替换率既保证有很好的矫正效果又保证 pd-MBA收敛时没有过度矫正的情况,因此需要记录每一次矫正的结果,并在 pd-MBA收敛后选择一个合适的矫正作为最终结果;选择过程可以使用矫正率v 实现:设置一个目标矫正率v,选择与v最接近的第k次矫正的矫正率vk作为 最后结果,调整矫正率的大小可以选择不同的矫正结果,从矫正的次数上干预 了过度矫正问题。

如图1所示,整个流程分为3个阶段:Stage1为时段划分阶段;Stage2为 初始分类阶段,此阶段与一次传统贝叶斯分类过程相同;Stage3为迭代矫正阶 段,此阶段保存了多次分类结果以供选择;说明:图1中的流程与上述各步骤 相互对应,但在语言表达方面不是完全相同。由图1可以看出,本发明所述改 进贝叶斯模型即基于时段划分的矫正贝叶斯算法(下称pd-MBA)建立在一次完 整的贝叶斯分类过程上,但pd-MBA的迭代仅发生在替换先验概率的重新分类 上,当迭代次数较少时其代价非常小。与一次普通的贝叶斯分类相比,pd-MBA 多出来的时间开销主要在于数据的时段划分,并且聚类算法的划分结果也将影 响pd-MBA的效果。

下面以实施例对本发明进行更具体描述:

实施例:

1、为了便于进一步理解,下面先对视频弹幕的特点进行分析:

1.1、视频弹幕的实时性:

视频弹幕是一种新兴的用户评论形式,由于其具备较高的实时性有别于传 统用户评论。视频弹幕的实时性表现在:视频弹幕的评价对象是视频当时播放 的内容(如某时刻下视频中的人物、事件或情节),随着播放时间的推移,视频内 容不断变化,这种变化导致了视频弹幕评价对象和情感倾向的改变。因此,即 使来自于同一视频,不同发表时间的视频弹幕具有不同的评价对象,其情感倾 向也可能截然相反。

在情感分析方面,情感信息通常由四个元素组成,即主题(Topic)、持有者 (Holder)、陈述(Claim)和情感(Sentiment)。传统用户评论可表示为:(claim,holder, topic,sentiment)。对于视频弹幕,由于其实时性,发表的时间也应纳入考虑范围, 而持有者可视为视频弹幕的发表者,则视频弹幕可表示为:(claim,topic, sentiment,period),其中period为视频弹幕发表的时间段。对评价对象的提取(即 主题抽取)工作已有大量的研究,本文仅对视频弹幕发表时间在情感分类中发挥 的作用进行研究,则视频弹幕可简化表示为:(claim,sentiment,period)。

加入period后,可以将研究的对象从单个视频弹幕扩展到同一时段下的所 有视频弹幕,如某时段k下的视频弹幕Rk={(claim,sentiment,period)|period=k}。 各时段都对应相同的主题和情感倾向,这为后续的研究提供了很大的启示。

1.2、视频弹幕的特点:

本文采集了弹幕视频分享网站bilibili上46个视频中的弹幕,共计94024条, 其中主观弹幕10455条,视频内容包括动漫、游戏、科技、生活、影视等多种 题材。为了表示视频弹幕的实时性,按在视频中出现的时间对其进行聚类,每 个聚类代表一个时段。聚类采用DBSCAN、K-means和GMM三种算法。通过 对各时段视频弹幕的统计与挖掘,考察了实时性在视频弹幕的产生和情感倾向 上的影响。

1.2.1、视频弹幕所在时段与数量的关系:

各时段包含视频弹幕的最大最小值和标准差如表1所示。从表1可以看出, 三种时段划分方法的平均最大最小值比例达到了185:4.3,平均标准差超过72。 说明各时段视频弹幕数量分布十分不平衡。以纪录片《湄公河惨案》为例,图2显示了每5秒出现的弹幕数量与视频时间的关系。从图2可以看出,视频弹幕 的爆发有两个高峰:第一个高峰发生在视频前50秒的片头画面;第二个高峰发 生在2200~2300秒。由此可见视频弹幕的产生与视频内容息息相关,视频弹幕 的爆发具有时段性。

表1各时段视频弹幕数量统计结果

1.2.2、视频弹幕所在时段与数量的关系:

在下面的实验中,使用信息熵表示视频弹幕情感倾向的一致性大小。首先 计算划分时间段前视频弹幕的信息熵,如公式(1)所示,式中n为情感类别数, ci为第i类视频弹幕所占的比例。

划分时间段后的信息增益则表示同时段视频弹幕的情感倾向一致性相对于 所在视频中所有弹幕的大小,如公式(2)所示,式中m为时间段数量,ti为第i 时段视频弹幕所占的比例,Ei为第i时段的信息熵。

对视频弹幕进行主观信息提取和正负情感标注后,使用公式(2)计算平均信 息增益,结果如表2所示。从表2可以看出,三种时段划分方法所得到的结果 都有正信息增益,平均值为0.14621。以信息增益与划分前信息熵的比值作为 增益比率,平均增益比率超过26%。因此可以认为,相比于同一视频的所有视 频弹幕,同时段内视频弹幕的情感倾向一致性更大。

表2各时段视频弹幕信息增益统计结果

2、下面对本发明的pd-MBA进行实验分析:

首先分析不同参数对pd-MBA结果的影响,然后进行分类对比实验来验证 pd-MBA的有效性,最后对pd-MBA的适用性进行了分析。实验均采用10-折交 叉验证进行,贝叶斯模型使用多项式朴素贝叶斯(Naive Bayes Multinomial)。

2.1实验参数对算法结果的影响:

选取10个视频中的弹幕作为数据集,使用不同的替换率q和目标矫正率v 进行pd-MBA情感分类实验,时段划分使用DBSCAN聚类算法,实验结果如表 3所示。

表3不同参数取值下pd-MBA的F值

从表3可以看出,替换率q和目标矫正率v的取值对pd-MBA的结果有较 大的影响。F值随q、v取值的增大而增大,当q、v取值分别为0.9和0.8时,F 值达到最大,此时pd-MBA的效果最佳。但当q、v取值继续增大时F值有所降 低,这是由于过度矫正影响了算法的效果。

2.2 pd-MBA的验证:

为验证pd-MBA的有效性,以剩下36个视频中的弹幕作为数据集,使用 DBSCAN、K-means和GMM三种聚类算法划分时段,参数q、v取值分别为0.9 和0.8,将pd-MBA分类结果与多项式朴素贝叶斯分类结果进行对比,如表4所 示。从表4可以看出,pd-MBA在三种时段划分方法下的效果都优于多项式朴素 贝叶斯算法,并且F值有可观的提升量。

表4两种分类算法F值对比

2.3 pd-MBA的适用性分析:

使用pd-MBA的基本前提是同时段视频弹幕情感倾向具有相对一致性,矫 正的本质是利用这种相对一致性将样本重新分类,消除了贝叶斯模型对先验概 率的盲目依赖。因此,同时段视频弹幕情感倾向的相对一致性大小将影响 pd-MBA的效果。用各时段视频弹幕平均信息熵表示同时段视频弹幕情感倾向的 一致性大小,用F值提升量表示pd-MBA的提升效果,统计了实验中36个视频 中各时段弹幕平均信息熵与F值提升量的关系,如图3-1、图3-2、图3-3所示。

图3-1、图3-2、图3-3分别为使用DBSCAN、K-means和GMM三种时段 划分方法的结果。可以看出平均信息熵与F值提升量呈线性关系:y=kx+b,其 中斜率k分别为-0.4779、-0.5843和-0.4801,pd-MBA的提升效果与各时段的平 均信息熵成反比。可见pd-MBA特别适用于情感倾向一致性较高的视频弹幕, 对于情感倾向均匀分布于各时段的视频弹幕提升效果不高。

3、结论:

如今弹幕视频分享网站的兴起促使了视频弹幕的大量产生,这种与视频内 容紧密相关并实时产生的用户评论不同于以往情感分析处理的对象,具有很高 的研究价值。本文探讨了视频弹幕的实时性,并通过对数据的统计与挖掘发现 了视频弹幕在产生和情感倾向方面的特点。将发表时间纳入考虑范围,为研究 视频弹幕提供了基本思路,也给情感分析领域开辟了新的研究角度。在情感分 类方面,本发明提出了基于时段划分的矫正贝叶斯算法即pd-MBA,利用同时段 情感倾向具有的相对一致性,矫正了贝叶斯模型错分的样本。实验证明,pd-MBA 有较好的效果,并且特别适用于那些情感倾向一致性较高的视频弹幕。

上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制, 只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视 为落入本发明专利的权利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1