基于大数据的新闻话语权评估及预测方法与流程

文档序号:25907578发布日期:2021-07-16 21:21阅读:119来源:国知局
基于大数据的新闻话语权评估及预测方法与流程

1.本发明涉及一种基于大数据的新闻话语权评估及预测方法,该方法主要实现对新闻的话语权的评估以及新闻话语权的预测,在大数据环境下,对于及时发现舆情导向,从而正确、及时的制定舆情应对方案具有积极作用。


背景技术:

2.传统的新闻话语权主要是综合用户的活跃度(用户的活跃度包括用户所发新闻和用户转发的新闻)和用户所发新闻质量(用户所发的新闻质量包括用户新闻被转发和被评论的次数)作为综合指标得到话语权权重,并结合网络扑结构计算用户在社交网络中的话语权;或从感知度、参与度和社会关注度三个维度进行测度。感知度可分为点击量和阅读时长;参与度为转发量和评论量;社会关注度为社交媒体的提及量、其他媒体的转载量以及后续报道量。最后利用极大似然估计法进行结构方程模型的估计与拟合,利用r软件提供的拟合度指标来分析模型的整体适配度,确定权重,最终根据权重求解话语权。但是这些方法中,基于该新闻的简单的转发或评论来进行话语权的评估,难以区分那些恶意转发的行为的干扰,另外,这些方法都没有考虑到新闻的转载及评论与作者本身的粉丝以及关注度成正比,这种情况下传统的那些计算规则更倾向于那些大v账号,难以及时发掘那些普通账号的爆炸性兴起。
3.用户话语权的预测方法,有人通过对用户话语权进行分析,建立了关于用户话语权的度量指标,把每篇博文基本属性作为衡量该微博的话语权的主要特征,再通过计算用户所发微博话语权的总和来得到该用户的话语权,然后针对四种特征集群分开使用xgboost进行训练,得到一个具有较好拟合效果的预测模型;还有人对信息的话语权做对数处理,早期话语权和晚期话语权会呈现出很强的线性关联性,利用这种强关联性,建立了线性回归模型;还有人使用机器学习算法,对于用户特征、转发行为、流行度等影响因素作为机器学习模型的输入,然后利用线性回归、分类回归树、高斯过程回归、支持向量回归和神经网络回归等方法进行预测;这些方法中,仅仅选用静态指标,没有考虑到时间的相关性,效果较差。


技术实现要素:

4.本发明要解决的技术问题是提供一种基于大数据的新闻话语权评估及预测方法。
5.为了解决上述技术问题,本发明采用的技术方案是,基于大数据的新闻话语权评估及预测方法,包括如下步骤:
6.一、话语权的评估:
7.(1)n阶转载网络的创建:考虑到数据量的扩散性,一般n取3;新闻a的一阶转载网络g1=(a,a1),其中a1为转载a的所有新闻集合,a1={a
1i
,i=1,2,

,m1},二阶转载网络g2=(a1,a2),a2为转载对应的a1的新闻集合,以此类推,n阶转载网络g
n
=(a
n
‑1,a
n
),a
n
为转载对应的a
n
‑1的新闻集合,a
n
={a
ni
,i=1,2,

,m
n
};
8.(2)话语权计算:
9.计算情感指数:情感指数与话语权呈正相关,则对新闻a的n阶转载网络g={g1,g2,g3,

,g
n
}中新闻的全部评论com={c1,c2,

,c
m
},利用bert模型训练一个三分类情感分析模型senti_model,(neu_index,pos_index,neg_index),对每条评论c
i
分析得到其中性、正面、负面的概率分布为neu_index,pos_index,neg_index,则c
i
的情感指数为sc
i
=pos_index+neg_index,则评论指数所有评论的情感指数之和,即为
10.计算转载指数:对于新闻a的n阶转载网络g={c1,c2,c3,

,g
n
}全部的新闻new={a1,a2,a3,

,a
n
},则转载指数},则转载指数
11.其中|a1|为转载a的新闻数量,为转载a
(k

1)i
的新闻数量,其中k=2,3,

,n;则为新闻a
(k

1)i
的作者的转载追随指数,其求解过程为:对新闻a
(k

1)i
的作者的全部新闻按照转载量由高到低排序,即{r1,r2,

,rn},则,其中∑ri≤i2;
12.计算点赞指数:与转载指数求解类似,首先构建n阶点赞网络,其结构与转载网络一致,其中,新闻a的一阶点赞网络r1=(a,b1),n阶点赞网络r
n
=(b
n
‑1,b
n
),b
n
为点赞对应的b
n
‑1的新闻集合,b
n
={b
ni
,i=1,2,

,m
n
},则点赞指数为其中,|b1|为点赞a的新闻数量,为点赞b
(k

1)i
的新闻数量,k=2,3,

,n;则为新闻b
(k

1)i
的作者的点赞追随指数,求解方式与类似,即对新闻b
(k

1)i
的作者的全部新闻按照点赞数由高到低排序,即{c1,c2,

,cn},则,其中∑ci≤i2;
13.则最终的话语权speech=com_index+rep_index+fav_index;
14.二、话语权的预测:
15.(3)选定训练集与测试集,对训练集d={d1,d2,

,d
n
},其中n为数据集个数,d
i
为d中第i条新闻数据;
16.(4)求解训练集d的话语权特征量x={x
d1
,x
d2
,

,x
dn
}:设时刻t0,t1,
……
,t
n
,t
i

t
i
‑1>0,对每条新闻d
i
,以δk为时间间隔求解不同时间段内d
i
的话语权特征量x
di
,x
di
={x1,x2,

,x
n

δk+1
},其中x
j
为其在(t
j
,t
j+δk
]时间段内的话语权评测特征,j=0,1,...,n

δk;x
j
={a1,a2,

,a8},a1,a2,

,a8分别为(t
j
,t
j+δk
]时间段内的转发量、评论数、情感指数、点赞数、follow
a
,mean(∑follow
g
),assit
a
,mean(∑assit
g
),其中g为转载a的所有新闻,mean为均值;
17.(5)根据步骤(2)所述的话语权计算方法求解训练集d的话语权y={y1,y2,

,y
n
};
18.(6)将x和y归一化输入到seq2last模型进行学习得到话语权预测模型;其中seq2last模型由lstm神经网络、平均池化层、回归层组成,将各时刻的lstm输出输入至平均池化层,最终在全连接层后连接回归层实现预测,回归层中采用了如下式的改进的sigmoid函数:
[0019][0020]
上式中添加了一个限制参数α,通过调整不同α值下的激活函数,并利用测试集确定最优预测模型;
[0021]
(7)对需要预测的数据a,按照步骤(4)求解得到话语权特征量x
a
,归一化后输入到学习好的模型并进行反归一化,即可得到话语权。
[0022]
本发明的有益效果是:
[0023]
1、传统的方法中对于新闻话语权的评估大多是基于转发量(或阅读量)来进行评估的,但是对于那些恶意转发或刷评的情况不能够很好的识别并排除,故本发明提出一种基于高阶转载关系网络的话语权评估方法,基于高阶依赖关系排除那些恶意转发的情况。
[0024]
2、由于新闻的转载及评论与作者本身的粉丝以及关注度成正比,这种情况下传统的那些计算规则更倾向于那些大v账号,难以及时发掘那些普通账号的爆炸性兴起,故本发明引入一个作者追随指数概念,基于该指数的特征“归一化”能有效解决该问题,同时引入情感指数,提高评估可信度。
[0025]
3、以实际经验来看,某段时间的话语权与其之前的时间内的话语权是相关的,传统的话语权预测方法大多没有考虑到时间因素,本发明考虑到时间的关联性,基于时间相关性来进行预测。
[0026]
4、同时本发明基于一种改进的seq2last模型来实现话语权的预测,最终的lstm层结果不再是直接取最后一个时刻的值作为最终结果,而是添加了一个最大池化层取各个时刻的平均值最为最终的结果,同时回归层的激活函数使用了改进的sigmoid函数,发现预测效果更优。
附图说明
[0027]
下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0028]
图1是本发明实施例的转载网络形。
[0029]
图2是本发明实施例的的seq2last模型模型。
具体实施方式
[0030]
一、对一篇新闻a的话语权的评估主要包括以下步骤:
[0031]
(1)首先创建n阶转载网络:考虑到数据量的扩散性,一般n取3。以3阶转载网络为例,新闻a的一阶转载网络g1=(a,a1),其中a1为转载a的所有新闻集合,二阶转载网络g2=(a1,a2),a2为转载对应的a1的新闻集合,以此类推,g3=(a2,a3),a3为转载对应的a2的新闻集合。图1是1

n阶转载网络形。
[0032]
(2)话语权计算:
[0033]
计算情感指数:研究发现评论情感指数与话语权呈正相关,则对新闻a的3阶转载
网络g={g1,g2,g3}中新闻的全部评论com={c1,c2,

,c
m
},利用一个三分类情感分析bert模型senti_model(neu_index,pos_index,neg_index),对每条评论c
i
分析得到其概率分布,则c
i
的情感指数为sc
i
=pos_index+neg_index,则评论指数为
[0034]
计算转载指数:对于新闻a的3阶转载网络g={g1,g2,g3}全部的新闻new={a1,a2,a3},则转载指数},则转载指数
[0035]
其中|a1|为转载a的新闻数量,为转载a
(k

1)i
的新闻数量,其中k=2,3,

,n;则为新闻a
(k

1)i
的作者的转载追随指数,其求解过程为:对新闻a
(k

1)i
的作者的所有新闻按照转载量由高到低排序,即{r1,r2,

,rn},则,其中∑ri≤i2;
[0036]
计算点赞指数:与转载指数求解类似,首先构建n阶点赞网络,其结构与转载网络一致,其中,新闻a的一阶点赞网络r1=(a,b1),n阶点赞网络r
n
=(b
n
‑1,b
n
),b
n
为点赞对应的b
n
‑1的新闻集合,b
n
={b
ni
,i=1,2,

,m
n
},则点赞指数为其中,|b1|为点赞a的新闻数量,为点赞b
(k

1)i
的新闻数量,k=2,3,

,n;则为新闻b
(k

1)i
的作者的点赞追随指数,求解方式与类似,即对新闻b
(k

1)i
的作者的全部新闻按照点赞数由高到低排序,即{c1,c2,

,cn},则,其中∑ci≤i2;
[0037]
则最终的话语权speech=com_index+rep_index+fav_index;
[0038]
二、根据变量特征来完成话语权的预测,主要是构建一个预测模型,具体步骤如下:
[0039]
(1)选定训练集与测试集,对训练集d={d1,d2,

,d
n
},其中n为数据集个数,d
i
为d中第i条新闻数据;
[0040]
(2)求解数据集d的话语权特征量x={x
d1
,x
d2
,

,x
dn
}:设时刻t0,t1……
t
n
,t
i

t
i
‑1>0,对每条新闻d
i
,以δk为时间间隔求解不同时间段内d
i
的话语权特征量x
di
,x
di
={x1,x2,

,x
n

δk+1
},其中x
j
为其在(t
j
,t
j+δk
]时间段内的话语权评测特征,j=0,1,...,n

δk,x
j
={a1,a2,

,a8},a1,a2,

,a8分别为(t
j
,t
j+δk
]时间段内的转发量、评论数、情感指数、点赞数、follow
a
,mean(∑follow
g
),assit
a
,mean(∑assit
g
),其中g为转载a的所有新闻,mean为均值;
[0041]
(3)根据话语权计算方法求解训练集d的话语权y={y1,y2,

,y
n
};
[0042]
(4)将x和y归一化输入到seq2last模型进行学习得到话语权预测模型,seq2last模型结构如附图2所示;
[0043]
(5)通过模型参数优化,如回归层激活函数的限制参数α的调整,并利用测试集确定最优模型;
[0044]
(6)对需要预测的数据a,按照步骤(2)求解得到话语权特征量x
a
,归一化后输入到学习好的模型并进行反归一化,即可得到话语权。
[0045]
本实施例具有以下技术特点:
[0046]
1、本实施例提出一种基于高阶转载关系网络的话语权评估方法,基于高阶依赖关系排除那些恶意转发的情况。
[0047]
2、由于新闻的转载及评论与作者本身的粉丝以及关注度成正比,这种情况下传统的那些计算规则更倾向于那些大v账号,难以及时发掘那些普通账号的爆炸性兴起,故本实施例引入一个作者追随指数概念,基于该指数的特征“归一化”能有效解决该问题,同时引入情感指数,进行评估。
[0048]
3、本实施例考虑到时间的关联性,基于时间相关性来进行预测。
[0049]
4、本实施例基于一种改进的seq2last模型来实现话语权的预测,最终的lstm层结果不再是直接取最后一个时刻的值作为最终结果,而是添加了一个最大池化层取各个时刻的平均值最为最终的结果,同时回归层的激活函数使用了改进的sigmoid函数。
[0050]
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1