基于图神经网络的建筑事故报告分类系统及其方法与流程

文档序号：31708846发布日期：2022-10-01 13:50阅读：来源：国知局

技术特征：
1.基于图神经网络的建筑事故报告分类系统，其特征在于：包含数据预处理模块(1)、文本编码模块(2)、图构建模块(3)、模型构建模块(4)以及报告分类模块(5)，所述数据预处理模块(1)，对建筑事故报告文本进行清洗、分词和类别标注处理；所述文本编码模块(2)，将分词后的文本中词语转化为计算机直接处理的数据类型和计算单元；所述图构建模块(3)，将序列化结构文本转化为图结构数据；所述模型构建模块(4)，构建处理图结构数据的神经网络模型；所述报告分类模块(5)，将经过模型运算处理后的文本按照预设类别分类。2.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统，其特征在于：所述数据预处理模块(1)包含文本清洗模块(101)、分词模块(102)和类别标注模块(103)，所述文本清洗模块(101)，将原始事故报告中的噪音去除，保留事故经过与事故原因两部分文本，并去除标点符号；所述分词模块(102)，面向清洗后报告文本，采用分词工具，将文本中的词语进行切分，得到词语序列；所述类别标注模块(103)，面向每份事故报告文本，为每份文本标注类别标签。3.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统，其特征在于：所述文本编码模块(2)，将数据预处理模块(1)处理后的词语进行向量化表示，将词语表示映射到高维向量空间中，采用分布式词表示，将文本编码成计算机理解和处理的序列。4.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统，其特征在于：所述图构建模块(3)，将序列化文本转换为图结构数据表示，每份建筑事故报告分别构建为图，其中，图节点表示词语，边表示词语之间共现关系。5.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统，其特征在于：所述模型构建模块(4)，包含信息交互模块(401)和信息聚合模块(402)，所述信息交互模块(401)，在构建的图结构数据基础上，使用长短期记忆网络实现节点间的信息交互；所述信息聚合模块(402)，经过信息交互后，将图中节点表示聚合为整个图结构表示，用于下一步分类。6.根据权利要求1所述的基于图神经网络的建筑事故报告分类系统，其特征在于：所述报告分类模块(5)，将经过模型构建模块(4)的信息交互模块(401)和信息聚合模块(402)后的文本表示输入softmax函数中，进行类别划分。7.基于图神经网络的建筑事故报告分类方法，其特征在于：首先，将建筑事故报告文本进行预处理；其次，将数据预处理之后的事故文本数据进行分布式词表示编码后，生成相应的词语向量；然后，将序列化结构的文本数据转化为图结构数据表示；之后，构建模型，充分利用图结构，提取文本特征信息，获取整个事故报告的文本表示；最后，将文本表示输入分类器中得到事故类别，作为最终输出。8.根据权利要求7所述的基于图神经网络的建筑事故报告分类方法，其特征在于：由数据预处理模块(1)，对建筑事故报告本进行清洗、分词以及类别标注；由文本编码模块(2)，对文本进行分布式词表示编码；由图构建模块(3)，将文本序列结构转换为图结构表示；由模型构建模块(4)，在图基础上进行信息交互和聚合，提取文本特征表示；由报告分类模块
(5)，将提取的文本特征转输入分类器获取事故类别。9.根据权利要求7所述的基于图神经网络的建筑事故报告分类方法，其特征在于：由数据预处理模块(1)的文本清洗模块(101)保留原始事故报告中的事故经过与事故原因两部分文本，并去除标点符号；数据预处理模块(1)的分词模块(102)采用jieba分词工具清洗报告文本，将文本中的词语进行切分，得到词语序列；数据预处理模块(1)的类别标注模块(103)，为每份事故报告文本标注类别标签；由文本编码模块(2)，将文本编码成计算机可处理的向量编码序列；图构建模块(3)，将每份事故报告构建为独立的图g(v,e)，其中，节点v表示事故报告中去除重复后的唯一词语集合，边e是词语之间的共现关系集合，使用文本编码得到的词语向量作为图节点的特征初始化，表示为h∈r
|v|
×
d
，其中d是特征维数，|v|是文档中唯一词语的数量；模型构建模块(4)的信息交互模块(401)，在每个图中使用长短期记忆网络lstm来学习图节点的特征表示，通过图结构实现节点间的信息交互，将邻居节点传递过来的信息x与自身的表示相结合完成特征更新，代入公式(1～7)中；x
t
＝ah
t-1
w
a
ꢀꢀ
(1)f
t
＝σ(w
f
[h
t-1
,x
t
]+b
f
)
ꢀꢀ
(2)i
t
＝σ(w
i
[h
t-1
,x
t
]+b
i
)
ꢀꢀ
(3)(3)(3)h
t
＝o
t
*tanh(c
t
)
ꢀꢀ
(7)其中，a∈r
|v|
×
|v|
是邻接矩阵，σ是sigmoid激活函数，所有的w，u，b均是可训练的权值和偏差，f和i分别为遗忘门和输入门，以确定多少邻居信息被保留并用于更新当前节点嵌入表示，每次更新将自身特征与周围一阶邻域内其它节点特征相结合，更新重复t次，完成高阶邻域节点特征信息交互，即节点获得t跳内所有节点的特征信息；为使词语节点的初始上下文信息被更加充分利用，在每次lstm更新完成后使用式(8)保留部分初始特征信息，通过调整参数λ的大小确定信息的保留程度；h
t+1
＝λh0+(1-λ)ah
t
ꢀꢀ
(8)模型构建模块(4)的信息聚合模块(402)，所有词语节点在充分特征交互之后，将被聚合成文档的特征表示，并用于最终事故类别的预测，将信息交互输出每个词语的文本表示代入式(9)中，其中f1表示多层感知器，n是节点的数量；由于每个词语节点对于整个文档的重要性是不同的，应当被分配不同的权重，因此，使用注意力机制预测每个词语节点对整个文档图表示的贡献，将h
g
与h
v
代入式(10)中计算贡献值α
v
，其中score(a,b)为向量a与b之间相似度计算函数，采用luongattention进行计算；α
v
＝softmax(score(h
g
,h
v
))
ꢀꢀ
(10)
同时，将最大池化函数用于最后的文档图表示，聚合公式表示如式(11)，其中f2表示多层感知器；报告分类模块(5)通过向softmax层传递图级表示来预测标签，并通过交叉熵函数训练将损失值l降至最低；z
g
＝softmax(wh
g
+b)
ꢀꢀ
(12)

技术总结
本发明涉及基于图神经网络的建筑事故报告分类系统及方法，由数据预处理模块，对建筑事故报告文本进行清洗、分词和类别标注处理；由文本编码模块，将分词后的文本中词语转化为计算机直接处理的数据类型和计算单元；由图构建模块，将序列化结构文本转化为图结构数据；模型构建模块，构建可以处理图结构数据的神经网络模型；报告分类模块，将经过模型运算处理后的文本按照预设类别分类。支持归纳学习，将每个文档构建为单个图，每个图均包含单词节点的同构图，使用图神经网络学习基于其局部结构的细粒度单词表示，为新文档中未出现的单词生成嵌入，将单词节点的表示聚合为文档的表示，不需要在检测新的事故报告时每次重新构建图，节省大量时间资源。节省大量时间资源。节省大量时间资源。

技术研发人员：奚雪峰毛文月顾黎明兰志成崔志明
受保护的技术使用者：苏州创元建设工程有限公司
技术研发日：2022.06.28
技术公布日：2022/9/30

完整全部详细技术资料下载

当前第2页1 2