一种文本分析方法、装置、及电子设备与流程

文档序号:37343543发布日期:2024-03-18 18:16阅读:20来源:国知局
一种文本分析方法、装置、及电子设备与流程

本技术涉及计算机,尤其涉及一种文本分析方法、装置、及电子设备。


背景技术:

1、随着信息化、数字化时代的到来,海量的文本、音频、视频等多媒体信息传递在互联网中,为社会发展带来诸多便利,同时也存在许多信息安全问题。文本隐写分析技术是保障文本信息安全的一项技术,旨在分析文本是否被篡改而携带一些非法恶意信息。

2、基于深度学习的文本隐写分析方法利用神经网络自学习的特性,训练网络捕捉文本异常的语义特征,达到文本判别的能力。一般选择循环神经网络、长短期记忆网络或预训练的语言模型作为主体网络,使用不同的卷积核或是将各个网络层的特征相融合来提高有效特征的使用率,目前该类方法缺少捕捉长距离单词间的语义特征,且特征交互活动较为刻板,因此文本判别的准确度有待提高。


技术实现思路

1、本技术实施例提供一种文本分析检测方法、装置、电子设备及存储介质,用于提高文本分析的检测效率以及准确率。

2、第一方面,本技术实施例提供一种文本检测方法,包括:

3、将文本中每个句子构建为文本图,并将文本中的词语作为文本图中的节点;

4、采用门控图神经网络确定文本图的初始文本特征,将初始文本特征作为节点的粗粒度特征,粗粒度特征用于表示节点与节点周围节点的关系;

5、对粗粒度特征进行加权运算得到细粒度特征,细粒度特征用于表示节点与异常文本的相关程度;

6、将粗粒度特征与细粒度特征进行特征融合得到最终文本特征;

7、将文本特征输入至预先训练的文本模型中得到概率值,并将概率值与预设的阈值作比较,确定文本是否为异常文本。

8、上述方法中,通过采用门控图神经网络确定文本图的初始文本特征,将初始文本特征作为节点的粗粒度特征的方式,可以灵活获取长距离、短距离节点之间的语义特征,特征更丰富,灵活地获取了文本中更隐蔽的语义特征,减少文本特征丢失的情况。同时,通过对粗粒度特征进行加权运算得到细粒度特征的方式,可以突出不同节点间不同维度特征的权重,增加有效特征在特征值中的相关性、减少无效特征对分类的影响。提高文本检测的准确性。

9、可选的,将文本中每个句子构建为文本图,并将文本中的词语作为文本图中的节点,具体包括:

10、对文本进行分词得到多个词语;

11、采用滑动窗口遍历文本;

12、将出现在同一滑动窗口中的词语之间建立边,建立文本图以及用于表示各节点之间关系的邻接矩阵。

13、上述方法中没通过将文本构建为文本图的方式,可以便于后续采用文本图确定文本的文本特征,提升文本检测的准确性。

14、可选的,门控图神经网络包括多层节点,门控图神经网络满足以下公式:

15、

16、其中,表示第k个节点的粗粒度特征,用于选择遗忘上个时间的状态信息,表示第k个节点在上个网络层的粗粒度特征,表示更新门控制新产生的信息,表示前时间学习到的信息。

17、可选的,满足以下公式:

18、

19、其中,wz表示可训练权重,uz表示可训练权重,表示每层网络中节点间的相互作用关系。

20、可选的,满足以下公式:

21、

22、其中,表示邻接矩阵中第k个节点的出入边,wa表示该层网络的可训练参数。

23、可选的,满足以下公式:

24、

25、其中,满足以下公式:wr表示可训练权重,ur表示可训练权重,表示重置门控制遗忘信息。

26、可选的,采用门控图神经网络确定文本图的初始文本特征,将初始文本特征作为节点的粗粒度特征之前,方法还包括:

27、在多个词向量的维度不相同的情况下,统一各词向量的维度。

28、上述方法中,通过在多个词向量的维度不相同的情况下,统一各词向量的维度的方式,可以更易于后续计算,并且可以获得更准确的结果,便于提升后续文本检测的准确性。

29、可选的,对粗粒度特征进行加权运算得到细粒度特征,具体包括:

30、将粗粒度特征做最大池化和平均池化操作得到特征值;

31、将特征值做卷积运算和归一化处理得到权重参数;

32、将粗粒度特征与权重参数相乘,得到细粒度特征。

33、上述方法中,通过对粗粒度特征进行加权运算得到细粒度特征的方式,可以得到更加与异常文本相关的细粒度特征。在后续基于细粒度特征得到最终文本特征时,使得最终文本特征中与异常文本的相关性更高。便于后续文本检测的准确性。

34、可选的,将粗粒度特征与细粒度特征进行特征融合得到最终文本特征,具体包括:

35、对不同维度的词向量进行自适应平均池化操作,得到自适应平均池化结果;

36、根据自适应平均池化结果计算词向量不同维度之间的相关性系数;

37、将所有词向量的相关性系数相加,得到第一文本特征;

38、跳跃连接粗粒度特征值与细粒度特征值,并与第一文本特征相加得到最终文本特征。

39、上述方法中,由于每个词语由多维度的词向量表示,不同维度代表了单词不同的抽象特征,某些维度的特征更为清晰地表达了文本篡改特征,更有助于分类模块进行分类判断。本技术通过对不同维度的词向量进行自适应平均池化操作,得到自适应平均池化结果的方式,可以不改变原有的词向量通道数,将难以处理的高维特征压缩转化为高效表达的低维特征,使文本特征表达更为集中。同时,使得降低网络中的参数,减少计算量,使网络处理更为高效,利于减少网络训练过程中的过拟合现象,再通过根据自适应平均池化结果计算词向量不同维度之间的相关性系数的方式,可以进一步提升网络的稀疏性,同时减少了不相关信息带来的负相关影响。使得最终文本特征的表示更加精确。

40、可选的,上述预设函数满足以下公式:

41、

42、其中,p表示概率值,w4表示该层网络的可训练参数,fj表示细粒度特征值。

43、可选的,将概率值与预设的阈值作比较,确定文本是否为异常文本,具体包括:

44、在概率值大于等于阈值的情况下,确定文本为异常文本;

45、在概率值小于阈值的情况下,确定文本为正常文本。

46、上述方法中,通过在概率值大于等于阈值的情况下,确定文本为异常文本;在概率值小于阈值的情况下,确定文本为正常文本的方式,可以使得用户及时确定文本是否为异常文本。

47、第二方面,本技术实施例提供一种文本检测装置,包括:

48、处理模块,用于将文本中每个句子构建为文本图,并将文本中的词语作为文本图中的节点;

49、确定模块,用于采用门控图神经网络确定文本图的初始文本特征,将初始文本特征作为节点的粗粒度特征,粗粒度特征用于表示节点与节点周围节点的关系;

50、计算模块,用于对粗粒度特征进行加权运算得到细粒度特征,细粒度特征用于表示节点与异常文本的相关程度;

51、计算模块,还用于将粗粒度特征与细粒度特征进行特征融合得到最终文本特征;

52、处理模块,还用于将文本特征输入至预先训练的文本模型中得到概率值,并将概率值与预设的阈值作比较,确定文本是否为异常文本。

53、第三方面,本技术实施例还提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面中的任一种文本检测方法。

54、第四方面,本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现第一方面的文本检测方法。

55、第五方面,本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行以实现如上述第一方面中任一项的文本检测方法。

56、第二方面至第五方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1