基于主题信息和语义表征的中文网络欺凌检测方法及系统

文档序号:35291060发布日期:2023-09-01 13:24阅读:38来源:国知局
基于主题信息和语义表征的中文网络欺凌检测方法及系统

本发明涉及网络欺凌检测,具体为基于主题信息和语义表征的中文网络欺凌检测方法及系统。


背景技术:

1、网络欺凌是指在互联网或社交媒体平台上发生的欺凌行为。不同于传统欺凌通过语言或肢体的实施方式,网络欺凌是采用手机、互联网等电子通讯方式,针对他人实施的恶意、攻击性或伤害性行为。网络欺凌通常表现为对他人的直接攻击、侮辱、诽谤等,这不仅会导致受害者心理上的伤害,还可能导致受害者在现实生活中遭受更多的压力和困境。

2、中文自然语言的表述具有灵活性和无规律性,很多网络欺凌行为使用的是口语化、俚语化的表述方式,基于传统的人工审查机制表现出较差的时效性。目前网络信息呈爆炸式增长,当下的深度学习的中文网络欺凌检测方法具有一定的局限性:

3、①有些网络欺凌言论虽然没有直接进行攻击,但是隐含着威胁、人身攻击等信息,基于关键词过滤的检测方法不能结合上下文语义信息准确理解中文语言的复杂性,检测性能有待提高。

4、②网络数据数量庞大,具有复杂多样性,绝大部分的研究模型不能快速把握网民在复杂的网络环境的欺凌信息,预知舆情的内容趋势。

5、③目前中文欺凌检测任务仍作为二分类检测任务进行处理,无法判断欺凌文本的攻击性强度。


技术实现思路

1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

2、鉴于上述存在的问题,提出了本发明。

3、本发明实施例的第一方面,提供基于主题信息和语义表征的中文网络欺凌检测方法,包括:获取网络欺凌的文本数据,对所述文本数据进行预处理;基于lda主题模型挖掘所述预处理后的文本数据的主题词嵌入,并结合广义自回归预训练语言模型获取上下文语义表征向量;将所述主题词嵌入和所述上下文语义表征向量进行拼接后传送到bilstm中提取上下文特征信息,并将所述上下文特征信息保存到全连接层;通过softmax函数对所述上下文特征信息进行计算和分类,获取欺凌文本的攻击性。

4、作为本发明所述的基于主题信息和语义表征的中文网络欺凌检测方法的一种优选方案,其中:所述预处理后的文本数据的主题词嵌入的挖掘包括,

5、基于lda主题模型挖掘所述预处理后的文本数据的主题词嵌入作为文本的全局主题信息,对于给定的文本数据,通过计算主题分布获取所述文本数据的最佳主题信息;

6、所述最佳主题信息的计算包括,

7、topic=lda(x)

8、其中,topic表示最佳主题信息,x表示文本数据。

9、作为本发明所述的基于主题信息和语义表征的中文网络欺凌检测方法的一种优选方案,其中:所述上下文语义表征向量的获取包括,

10、利用广义自回归预训练语言模型获取上下文语义表征向量x,表示为:

11、x=xlnet(x)

12、所述广义自回归预训练语言模型通过随机排列机制考虑所有可能的序列顺序,捕捉所述文本数据的语言中的长期依赖关系和上下文信息,对于长度为t的文本数据序列x=[x1,x2,…,xt],通过随机排列机制可以获得t!种排列方式,通过学习排列中的前t个位置元素,采用对数似然获取最优的采样结果,预测目标元素,表示为:

13、

14、其中,z表示其中一种排列顺序,zt表示长度为t的序列的所有可能排列的集合,t表示序列长度,表示对数似然,表示文本数据排列中的前t个位置元素;

15、采用双流自注意力机制分别保存序列的内容信息和位置信息,表示为:

16、

17、

18、

19、

20、其中,表示第m层的内容隐状态信息,e(x)表示词x的词向量表示,表示第m层的位置隐状态信息,表示当前预测词的下文内容,表示当前预测词的上文内容。

21、作为本发明所述的基于主题信息和语义表征的中文网络欺凌检测方法的一种优选方案,其中:将所述主题词嵌入和所述上下文语义表征向量进行拼接的计算包括,

22、c=[topic;x]

23、其中,c表示拼接后的主题词嵌入和上下文语义表征向量。

24、作为本发明所述的基于主题信息和语义表征的中文网络欺凌检测方法的一种优选方案,其中:所述上下文特征信息的提取包括,

25、将所述主题词嵌入和所述上下文语义表征向量进行拼接后传送到bilstm中提取上下文特征信息;

26、所述bilstm连接一个正向lstm层的输出和一个反向lstm层的输出,形成一个向量用于表示当前时间步数的前后上下文信息,表示为:

27、

28、

29、

30、其中,表示正向lstm层的输出,xt表示t时刻的文本数据序列,表示反向lstm层的输出,ht表示形成的向量。

31、作为本发明所述的基于主题信息和语义表征的中文网络欺凌检测方法的一种优选方案,其中:将所述上下文特征信息保存到全连接层包括,

32、将所述上下文特征信息保存到全连接层,所述全连接层以relu作为激励函数进行输出连接,表示为:

33、relu:f(x)=max(0,x)。

34、作为本发明所述的基于主题信息和语义表征的中文网络欺凌检测方法的一种优选方案,其中:所述通过softmax函数进行计算和分类包括,

35、通过softmax函数对所述上下文特征信息进行计算和分类,获取欺凌文本的攻击性,所述softmax函数通过对所有节点进行归一化计算出所述上下文特征信息的分类结果,表示为:

36、

37、其中,xi表示第i个节点的输出值,xj表示第j个节点的输出值。

38、本发明实施例的第二方面,提供基于主题信息和语义表征的中文网络欺凌检测系统,包括:

39、数据获取单元,用于获取网络欺凌的文本数据,对所述文本数据进行预处理;

40、数据处理单元,用于基于lda主题模型挖掘所述预处理后的文本数据的主题词嵌入,并结合广义自回归预训练语言模型获取上下文语义表征向量,将所述主题词嵌入和所述上下文语义表征向量进行拼接后传送到bilstm中提取上下文特征信息,并将所述上下文特征信息保存到全连接层;

41、欺凌检测单元,通过softmax函数对所述上下文特征信息进行计算和分类,获取欺凌文本的攻击性。

42、本发明实施例的第三方面,提供一种设备,所述设备包括,

43、处理器;

44、用于存储处理器可执行指令的存储器;

45、所述处理器被配置为调用所述存储器存储的指令,以执行本发明任一实施例所述的方法。

46、本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,包括:

47、所述计算机程序指令被处理器执行时实现如本发明任一实施例所述的方法。

48、本发明的有益效果:本发明提供基于主题信息和语义表征的中文网络欺凌检测方法及系统,通过结合lda主题模型和广义自回归预训练语言模型充分挖掘文本的语义信息,并且进一步采用bilstm学习上下文信息,实现中文欺凌文本的自动识别和检测,有效提高对中文网络欺凌文本的检测效果,判断网络语言的攻击性强度,从而为网络环境的监管和处罚机制提供可靠的判断依据,避免恶性舆情事件的发生,提高网络环境的文明度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1