1.一种基于多模态超图学习的微博情感预测方法,其特征在于包括以下步骤:
1)提取微博多模态特征;
2)计算微博间距离;
3)构建多模态超图模型;
4)超图学习。
2.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤1中,所述提取微博多模态特征的具体方法如下:
步骤1.1对于文本模态,首先使用中科院自动分词工具ICTCLAS对微博文本内容进行分词,然后利用处理后的中文情感词典对分词后的每条微博文本构建词袋模型,作为最后筛选后的文本情感特征,所述中文情感词典由知网HowNet中文情感词典和台湾大学NTUSD中文情感词典组成,并筛选出在微博文本语料中出现的较高频度的2547个情感词,将其组成中文情感词典;第i条微博文本特征表示为Fibotw;
步骤1.2对于视觉模态,首先提取图片底层视觉特征,包括局部二值模式特征、彩色直方图特征、GIST特征以及PHOW描述子词袋特征,然后使用形容词-动词对检测器库SentiBank对提取了底层视觉特征的每张微博图片进行中层特征的提取,获得1200个形容词-动词对的置信度值,并保留在0.8以上的置信度值,其余置为0,这样最终获得视觉情感特征;第i条微博图像特征表示为Fibovw;
步骤1.3对于表情符号情感特征,首先收集文本语料里所有的表情符号,然后筛选出高频使用的49个表情符号,最后为每条微博构建表情符号词袋模型最为表情符号特征;第i条微博表情符号特征表示为Fiboew。
3.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤2中,所述计算微博间距离的具体方法如下:
对于文本、视觉、表情符号三个模态特征,都使用欧氏距离进行计算,得到所有任意两条微博间三种模态的距离,分别用距离矩阵表示为Distbotw,Distbovw和Distboew。
4.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤3中,所述构建多模态超图模型的具体方法如下:
步骤3.1计算不同模态下样本间的相似度,具体方法如下:使用欧式距离计算得到的三种模态下任意两条微博i和j间的情感距离,进而计算其相似度s(i,j);
步骤3.2计算超图的关联矩阵,超图可表示成其中表示所有结点集合,表示所有超边集合,w表示超边的权重集合;构建超图关联矩阵H:若结点vi在超边ej内,则H(vi,ej)=s(i,j);反之,H(vi,ej)=0;
步骤3.3计算结点度数和超边的度数:
结点v度数的计算如下:对于所有包含结点v的超边e,将超边e对应的权重w(e)与关联矩阵H中结点v和超边e对应关联值h(v,e)相乘并累加,得到结点v度数;
超边e度数的计算如下:将超边e与其包含的所有结点v对应的关联值h(v,e)作累加,得到超边e的度数;
步骤3.4计算超图拉普拉斯矩阵Δ和拉普拉斯正则化项Ω:
Ω(f)=fTΔf
其中,Dv、De、W和I分别表示结点度数对角矩阵、超边度数对角矩阵、超边权重对角矩阵和单位矩阵,f表示预测的情感类别向量,超图拉普拉斯矩阵反映了各结点的关联情况,拉普拉斯正则化项则反映了带有不同类别标签的结点的关联情况;
步骤3.5构建目标函数,即最小化由拉普拉斯正则化项Ω、期望损失项Remp(f)以及关于W正则化项组成的损失函数,求得最优的f和W;
其中Remp(f)=||f-y||2,表示预测类别向量f和标签向量y间的期望损失,表示L2正正则项,wi表示W对角线上的第i项,ne表示超边的个数,λ和μ分别为损失项系数和正则项系数。
5.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤4中,所述超图学习的具体方法如下:
使用交替迭代优化方法对目标函数进行优化,即每次迭代,先固定W,令目标函数对f求偏导数,求得当前迭代最优f,然后固定优化的f,令目标函数对W求偏导数,求得当前迭代最优W;将每次迭代后优化的f和W的值来初始化下一次迭代中f和W,如此反复迭代优化,直到损失函数值收敛,即得最终最优的f和W,其中f包含对无情感标签微博的情感预测。