一种基于集成学习的网络不可靠信息早期检测方法

文档序号:35401570发布日期:2023-09-09 18:16阅读:28来源:国知局
一种基于集成学习的网络不可靠信息早期检测方法

本发明涉及网络不可靠信息早期检测领域,尤其是涉及一种基于集成学习的网络不可靠信息早期检测方法。


背景技术:

1、不可靠信息检测在大多数研究中都被视作一个二分类问题,即将待检测的内容分为不可靠信息和可靠信息两类。其中,无论是基于传统机器学习还是深度学习的检测方法,核心都是从待检测博文本身及其相关的属性中提取有助于检测的特征,用于训练和预测,从而判断待检测博文是不可靠信息还是可靠信息。而这些不可靠信息检测方法中,主要依靠于选取文本内容特征、社交上下文特征以及传播结构特征中的一种或多种。

2、以上不可靠信息检测方法的缺陷主要体现在如下两个方面:

3、(1)提取内容特征时语法和结构特征丢失严重

4、不可靠信息的形式复杂多样,同时不可靠信息制造者也会采取各种手段来模糊其意图,以躲避检测。现有的不可靠信息检测方法在提取内容特征时存在语法和结构特征提取丢失严重,以至于不可靠信息检测效果差的问题。

5、(2)不可靠信息早期检测能力尚有较大提升空间

6、现有不可靠信息检测方法大多数基于待检测博文已经拥有大量特征信息,特别大量转发评论等社交上下文特征以及传播结构特征。然而,这些特征需要在不可靠信息发布的较长一段时间后才足够明显,此时不可靠信息可能已经造成了严重的负面影响。这些方法无法在不可靠信息发布早期尚未被广泛转发评论和传播前具有较高的准确率,不可靠信息早期检测能力有待提升。

7、因此,需要提出一种网络不可靠信息早期检测方法,仅需选择文本内容特征和社交上下文特征中的少量转发评论特征来提升不可靠信息检测效果,以达到网络不可靠信息早期检测的效果。


技术实现思路

1、本发明的目的是提供一种基于集成学习的网络不可靠信息早期检测方法,缓解现有不可靠信息检测方法存在语法语义和结构特征提取丢失严重的问题,最大程度保存网络不可靠信息数据文本中捕捉到的特征,以此提升网络不可靠信息检测的效果;同时,解决现有不可靠信息检测方法因依赖传播结构和社交上下文特征而造成的早期无法准确进行检测的问题。

2、为实现上述目的,本发明提供了如下技术方案:

3、一种基于集成学习的网络不可靠信息早期检测方法,包括以下步骤:

4、步骤1:将输入的文本序列转换成词向量序列:首先将原博文s整合对应的转发评论c,得到一个长度为n的文本序列m=[m1,m2,...,mn],然后利用经预训练得到的glove将文本序列m转化成词向量序列x,x=x1,x2,...,xn(xi∈rd),其中d代表维度;

5、步骤2:将词向量序列分别输入到三个基模型transformer、bi-satt-caps、bitcn中以完成不可靠信息检测的分类,利用基模型bi-satt-caps进行不可靠信息检测的分类方法步骤为:

6、(1)将词向量序列x输入到双向lstm中进行特征提取,正向lstm的和反向lstm的隐藏状态向量拼接在一起得到的向量代表了提取的特征:

7、

8、其中,表示正向lstm的隐藏状态向量,表示反向lstm的隐藏状态向量,[,]表示拼接操作;

9、(2)使用多头自注意力机制,对双向lstm的输出hn进行多头自注意力计算,实现对不同位置上的输入信息进行共同关注;

10、(2.1)wq、wk、wv是不同的权重矩阵,将这些权重矩阵分别与hn相乘后计算得到q、k、v矩阵;

11、(2.2)多头自主注意力将得到的q、k、v矩阵根据设计的多头自注意力的头的数量进行拆分,然后分别计算三部分的注意力分数;

12、

13、其中,为第i个头的输出,分别为第i个头中q、k、v的参数矩阵;

14、(2.3)将计算结果进行合并

15、

16、其中r为多头注意力的头数,wo为权重矩阵。

17、(2.4)最终多头自注意力计算结果合并拼接的结果multihead(q,k,v)经过线性层得到输出特征v;

18、(3)将上一步的输出特征v输入到卷积胶囊层中;

19、(3.1)卷积胶囊层中相邻的两个胶囊之间,i层的子胶囊vi乘以一个权重矩阵wij得到子胶囊vi到第i+1层父胶囊的预测向量

20、

21、(3.2)计算动态路由算法所决定的耦合系数cij,将对数概率bij的初始值设为0,并通过cij的连续变换,即使用softmax函数进行迭代更新:

22、

23、(3.3)由所有来自子胶囊的预测向量加权求和可得到每个父胶囊的最终特征表示sj

24、

25、(3.4)父胶囊sj通过激活函数squash进行缩放,从而得到最终的父胶囊vj:

26、

27、(3.5)将卷积胶囊层的输出向量vj输入到分类胶囊中进行分类:

28、vf=f(w·vj+b)

29、其中,w表示权重矩阵,b表示偏置项;

30、(3.6)将分类胶囊分类后得到的向量vf输入到softmax分类器进行归一化,以此完成不可靠信息检测分类;

31、(3.7)其中选用交叉熵函数作模型的训练损失函数,目标是最小化训练预测值和实际值之间的交叉熵:

32、

33、其中,y、分别为样本x的实际值和预测值,n为训练样本数,l为损失值;

34、步骤3:按照5折交叉检验步骤对三个基模型进行训练和预测,得到三组新的训练数据和测试数据,将三组新的测试数据进行拼接作为新的测试集new test date;

35、步骤4:为三个基模型各赋予一个可信度即权重,将三组新的训练数据进行加权后合并作为新的训练集输入元学习器svm中,具体步骤为:

36、1)计算第t个基模型的错误率:

37、∈t=p(ft(xi≠yi))

38、2)根据错误率计算权重αt:

39、

40、3)对权重αt进行归一化得到最终的权重wt:

41、

42、4)对三组新的训练数据进行加权后合并作为新的训练集new training date输入元学习器svm中;

43、步骤5:元学习器svm对新的训练集new training date进行训练,并得到最终的分类结果:

44、f(x)=sign(w·x+b)

45、其中,w为权重矩阵,b为偏置项。

46、优选的,步骤2中,将词向量序列x输入到基模型transformer中的方法为:

47、y=softmax(wo·transformer_encoder(x))

48、其中,transformer_encoder(x)表示对输入文本的词向量序列x应用transformer编码器后得到的输出;wo表示输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别;

49、将词向量序列x输入到基模型bitcn模型中的方法为:

50、y=softmax(wo·bitcn(x))

51、其中,bitcn(x)表示对输入文本的词向量序列x应用bitcn后得到的输出;wo表示输出层权重矩阵;softmax()函数将模型输出转换为概率分布,以此选出不可靠信息的类别。

52、优选的,步骤3的具体方法为:

53、1)首先将训练集数据分成5份,每次训练使用4份训练集数据作为训练集进行训练,剩下的1份训练集数据作为测试集进行预测;

54、2)在模型训练完成后,对测试集数据进行预测得到预测结果;

55、3)重复5次即模型进行5次训练后,将训练集上得到的5次预测结果进行拼接得到一组新的特征和训练数据training date,将测试集上的5次预测结果经过算术平均后得到一组新的测试数据test date;

56、4)对三个基模型分别经过上述步骤进行训练,得到三组新的训练数据trainingdate和测试数据test date,将三组新的测试数据进行拼接作为新的测试集new testdate。

57、本发明采用上述结构的基于集成学习的网络不可靠信息早期检测方法,具有如下有益效果:

58、(1)能够充分保留文本的语法和结构特征,以此提升网络不可靠信息检测的效果:

59、本发明提出的bi-att-caps模型将胶囊网络引入不可靠信息检测任务中,胶囊网络中包含丰富的词语的位置方向等信息,且相邻节点之间具有强相关性,保留了原始数据中的底层细节,这些特征与网络平台上的博文及转发评论数据的上下文关系和顺序性十分契合,能够很好地提取其中的多元语法特征、语义特征和结构特征,最大程度保存网络不可靠信息数据文本中捕捉到的特征,以此提升网络不可靠信息检测的效果。

60、(2)仅需使用博文文本和早期少量转发评论即可进行较高准确度的不可靠信息检测,以此实现网络不可靠信息早期检测的需求:

61、本发明结合bi-att-caps模型提出的基于集成学习的网络不可靠信息早期检测方法能够深度挖掘博文内容文本和前期少量转发评论中的深度语义特征,不依赖于传播结构特征以及其余社交上下文特征便能够取得较好的效果,能够在不可靠信息发布早期转发评论数较少时便具有较高的准确率,从而满足实际工作中不可靠信息早期检测的需求。

62、(3)通过使用改进的加权stacking融合策略,综合三个基模型的优势以提升早期检测效果:

63、在经典的stacking融合策略中,没有区分不同基模型在任务中的性能差异性,将三个基模型的预测结果视作同等重要输入到元学习器中,具体到不可靠信息检测任务中来说就是三个基模型对于不同长度的博文检测准确率不同,本发明利用三个基模型对于不同长度博文的检测效果不同的特点,为基模型赋予一个可信度即权重,然后将加权后的新的训练集再输入到元学习器中进行训练,并得到最终的分类结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1