一种基于图神经网络节点特征传播优化的文本分类方法与流程

文档序号:23500350发布日期:2021-01-01 18:04阅读:122来源:国知局
一种基于图神经网络节点特征传播优化的文本分类方法与流程

本发明涉及深度学习及文本分类的技术领域,更具体地,涉及一种基于图神经网络节点特征传播优化的文本分类方法。



背景技术:

文本分类是自然语言处理的一个基础服务,其目的是区分句子的类别。目前,在许多自然语言处理的人工智能应用中,文本分类是所有涉及自然语言处理领域工作必须首选攻克的难题。

因为文本分类是理解句子中的语义信息,通过提取有效的关键词,才能更好应用于其他上层任务。例如智能客服,它必须对用户的回答进行分类,方可作出符合人们期望的应答。目前在文本领域中,深度学习技术在其上面的表现尤其优秀,深度学习技术利用神经网络通过大量的标签数据充分拟合数据分布情况,可以有效提取句子的特征信息,避免花费大量时间在人工提取特征等类似的特征工程上,但是深度学习想要充分拟合数据,则需要大量的标签数据,在现实生活中,如果需要给数据打标签,不但效率低下并且需要浪费许多时间以及金钱,2018年,yaol,maoc,luoy在thethirty-thirdaaaiconferenceonartificialintelligence上发表graphconvolutionalnetworksfortextclassification的文章,首次将整个语料库建模为异构图,并通过图神经网络共同学习单词和文档嵌入,将文本分类问题转换为节点分类问题,该方法相对于普通文本分类模型,可以用较少数量标记的文档实现强大的分类性能,却未考虑在更少标注成本的情况,也未考虑训练占用的资源量和训练速度,无法兼顾文本分类准确度和分类效率。



技术实现要素:

为解决现有文本分类方法不能兼顾分类准确度和分类效率的问题,本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,将文本分类问题转换为节点分类问题,在保持节点分类的准确度下,提高节点特征传播的效率,从而提高文本分类的速度,同时减少文本标注数量,从而减少标注成本。

为了达到上述技术效果,本发明的技术方案如下:

一种基于图神经网络节点特征传播优化的文本分类方法,至少包括:

s1.获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵a;

s2.将邻接矩阵a拆解,构建图神经网络节点特征传播优化模型;

s3.对图神经网络节点特征传播优化模型进行训练;

s4.利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。

优选地,步骤s1还包括:获取文本数据集后,将文本数据集划分为有标签的训练集及无标签的测试集。

优选地,步骤s1所述以文本节点、单词节点为基础的二元异构图的形成过程为:

s11.将文本数据集所有句子中的单词转换为小写字母,并用统一字符替代标点符号;

s12.利用tf-idf算法得到单词节点相对文本节点的重要性权重,作为文本节点-单词节点的关系权重;

s13.利用点互信息算法得到单词节点-单词节点之间的影响力权重,作为单词节点-单词节点的关系权重;

s14.将文本节点-单词节点的关系权重及单词节点-单词节点的关系权重合并,以文本、单词作为节点,以文本节点-单词节点、单词节点-单词节点作为边,形成二元异构图。

优选地,邻接矩阵a的行和列为二元异构图的文本节点、单词节点,邻接矩阵a的行和列对应的元素为节点连接的关系权重,包括文本节点-单词节点的关系权重、单词节点-单词节点的关系权重、同一单词节点自身的关系权重及同一文本节点自身的关系权重,同一单词节点自身的关系权重为1,同一文本节点自身的关系权重为1。

优选地,步骤s2所述的将邻接矩阵a拆解,构建图神经网络节点特征传播优化模型的过程为:

s21.基于二元异构图,将邻接矩阵a分块拆解为文本节点-文本节点邻接矩阵p、文本节点-单词节点邻接矩阵b、单词节点-文本节点邻接矩阵bt及单词节点-单词节点邻接矩阵c;

s22.构建基础图神经网络模型,包括第一卷积层及第二卷积层,第一卷积层与第二卷积层均为axθ(1),基础图神经网络模型总表达式为aaxθ(1)θ(2),其中,θ(1)为第一卷积层的权重参数;θ(2)为第二卷积层的权重参数,x表示二元异构图的节点特征矩阵,为单位矩阵;

s23.将文本节点-文本节点邻接矩阵p、文本节点-单词节点邻接矩阵b及单词节点-单词节点邻接矩阵c输入至图神经网络模型的第一卷积层得到:

其中,z(1)表示第一卷积层表达函数;表示第一卷积层中文本节点对应的权重参数;表示第一卷积层中单词节点对应的权重参数,bt表示文本节点-单词节点邻接矩阵b的转置;

第一卷积层的输出作为第二卷积层的输入,第二卷积层去除以单词节点为传播节点的特征传输,形成的图神经网络节点特征传播优化模型为:

优选地,构建图神经网络节点特征传播优化模型的过程中还包括:对单词-单词邻接矩阵c按行不放回采样,将单词-单词邻接矩阵c分解为m个维度与单词-单词邻接矩阵c相同的稀疏矩阵,形成子矩阵列表。

在此,在文本数据集量比较大时,对应二元异构图形成的邻接矩阵a是很大的,通过矩阵拆解,合并矩阵对称部分,减少大型矩阵所需要的大量内存、显存资源,使其可以加载更多的文本节点及单词节点,提高图神经网络节点特征传播优化模型的训练速度,提升文本数据集分类的效率。

优选地,步骤s3所述对图神经网络节点特征传播优化模型进行训练的过程包括:每一次迭代,随机或顺序地从子矩阵列表中抽取出一个子矩阵,替代单词-单词邻接矩阵c输入到模型。

在此,文本数据集形成二元异构图时,是以“文本节点-单词节点”为基础的,对于任何一个文本,单词的数目是巨大的,因此,在以二元异构图为基础,考虑节点特征传播时,以单词节点作为特征传输点的数量是巨大的,通过对单词-单词邻接矩阵c按行不放回采样,将单词-单词邻接矩阵c分解为m个维度与单词-单词邻接矩阵c相同的稀疏矩阵,形成子矩阵列表,训练过程中交替输入不同的稀疏子矩阵,使得训练速度加快,但不影响节点之间整体的特征传播性能,提升后续文本数据集分类的效率。

优选地,步骤s3所述对图神经网络节点特征传播优化模型进行训练的过程还包括:

s31.从文本数据集中每一类样本中随机抽取t个文本样本,并标注标签,作为训练集,未被标注标签的文本样本作为测试集;

s32.将训练集与测试集输入至图神经网络节点特征传播优化模型,并通过梯度反向传播法更新模型参数,记录第t次迭代输出的每一个文本节点的预测标签与t-1次迭代输出的每一个文本节点的预测标签,确定与t-1次迭代输出的每一个文本节点的预测标签相比,第t次迭代过程中预测标签发生变化的文本节点;

s33.累计每个文本节点的预测标签变化次数,确认预测标签变化次数最多的文本节点,作为图神经网络节点特征传播优化模型中最不稳定的文本节点;

s33.基于输出的文本节点的预测标签,确定每一次迭代的稳定性分数;

s34.判断标注成本是否使用完毕,若是,执行步骤s35;否则,将最不稳定的文本节点标注标签,返回步骤s32;

s35.判断标注成本使用完毕后稳定性分数是否满足标准,若是,执行步骤s36;否则,返回步骤s32;

s36.判断图神经网络节点特征传播优化模型训练的稳定性分数是否满足:在[j,j+k]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[ej-ε,ej+ε],ej是第j轮迭代时的稳定性分数,ε表示阈值参数,k表示从j次迭代开始,至第j+k次迭代依次跨过的迭代次数,为正整数,若是,则说明图神经网络节点特征传播优化模型收敛,训练完成;否则,返回步骤s32。

在此,通过记录模型每次迭代后的输出,能够获得节点的预测标签,记录每个节点在迭代过程中的预测节点的变化次数,待训练稳定后,选择最不稳定的节点进行标记,能够找到最值得标记的节点,从而减少标注成本。

优选地,步骤s33所述的稳定性分数求解过程为:

其中,i表示输出文本节点的预测标签类别i,nt(i)表示在t次迭代时,输出i类别预测标签的数量,n表示总文本样本的数目;

其中,et表示第t次迭代过程中,输出的文本节点的所有预测标签类别下的稳定性分数,m表示文本节点的所有预测标签类别。

优选地,步骤s35所述的标准为:存在迭代轮次j,满足在[j,j+k]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[ej-ε,ej+ε],ej是第j轮迭代时的稳定性分数,ε表示阈值参数,k表示从j次迭代开始,至第j+k次迭代依次跨过的迭代次数,为正整数。

在此,考虑节点在训练迭代过程中的所有节点预测标签变化,即当训练满足在[j,j+k]次迭代过程中每次一迭代的稳定性分数稳定均在区间[0,ε]时,训练稳定,对应着所有节点的预测标签比例维持在一个稳定的范围,针对这一特性,在不增加大量标签的前提下,控制训练的进程,选择合适的时候进行标注,保持文本分类的准确度下,有效提高特征传播的效率。

与现有技术相比,本发明技术方案的有益效果是:

本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,首先将文本数据集构造成以文本节点、单词节点为基础的二元异构图,将文本分类问题转换为节点分类问题,利用二元异构图形成对应的邻接矩阵a,然后将邻接矩阵a拆解,减少大型矩阵所需要的大量内存、显存资源,同时对较为密集的单词-单词矩阵进行采样,形成子矩阵列表,每次训练只用子矩阵列表中的一个稀疏子矩阵,使其可以加载更多的文本节点及单词节点,然后构建图神经网络节点特征传播优化模型,对图神经网络节点特征传播优化模型进行训练,训练过程中记录迭代后的模型预测结果,记录节点预测标签的变化情况,同时利用全局稳定性分数来衡量特征传播是否趋向稳定来提前结束训练或者进行下一轮标注,将文本数据集转换为节点特征传播的训练,提高训练速度,比单纯直接进行文本训练再分类的准确性高,同时也保证了文本数据集分类的效率,降低了数据集标注成本。

附图说明

图1表示本发明实施例中提出的基于图神经网络节点特征传播优化的文本分类方法的流程图。

图2表示本发明实施例中提出的以文本节点、单词节点为基础的二元异构图的示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好地说明本实施例,附图某些部位会有省略、放大或缩小;

对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的基于图神经网络节点特征传播优化的文本分类方法的流程图,参见图1,包括:

s1.获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵a;

s2.将邻接矩阵a拆解,构建图神经网络节点特征传播优化模型;

s3.对图神经网络节点特征传播优化模型进行训练;

s4.利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。

在本实施例中,步骤s1所述以文本节点、单词节点为基础的二元异构图的形成过程为:

s11.将文本数据集所有句子中的单词转换为小写字母,并用统一字符替代标点符号;

s12.利用tf-idf算法得到单词节点相对文本节点的重要性权重,作为文本节点-单词节点的关系权重;

s13.利用点互信息算法得到单词节点-单词节点之间的影响力权重,作为单词节点-单词节点的关系权重;

s14.将文本节点-单词节点的关系权重及单词节点-单词节点的关系权重合并,以文本、单词作为节点,以文本节点-单词节点、单词节点-单词节点作为边,形成二元异构图。

在以上实施时,采用的tf-idf算法及点互信息算法为比较成熟的现有技术,对于一批文本数据集,可能包括“体育”、“娱乐”、“教育”等类别,文本数据集划分为有标签的训练集和无标签的测试集,将这一批文本数据集的所有句子中的单词拆解,对于步骤s1所提的“文本节点”是代表的归类号,这个“文本节点”具体属于的“体育”或者“娱乐”或者“教育”等类别,可能知道(带标签),也可能不知道(不带标签),如图2所示,具体按照上述过程,形成的一种二元异构图,参见图2,可以看到文本节点与单词节点之间是双向箭头,代表的互相的特征传播,而对于一个二元异构图,单词节点的数目是较多的,单词节点与单词节点之间存在互相的特征传播路径,因此通过常规基础神经网络直接训练,不同路径之间的传播既耗时也耗费资源,基于二元异构图的话,节点特征传播优化十分有必要。

在本实施例中,邻接矩阵a的行和列为二元异构图的文本节点、单词节点,邻接矩阵a的行和列对应的元素为节点连接的关系权重,包括文本节点-单词节点的关系权重、单词节点-单词节点的关系权重、同一单词节点自身的关系权重及同一文本节点自身的关系权重,同一单词节点自身的关系权重为1,同一文本节点自身的关系权重为1。

在本实施例中,步骤s2所述的将邻接矩阵a拆解,构建图神经网络节点特征传播优化模型的过程为:

s21.基于二元异构图,将邻接矩阵a分块拆解为文本节点-文本节点邻接矩阵p、文本节点-单词节点邻接矩阵b、单词节点-文本节点邻接矩阵bt及单词节点-单词节点邻接矩阵c;

s22.构建基础图神经网络模型,包括第一卷积层及第二卷积层,第一卷积层与第二卷积层均为axθ(1),基础图神经网络模型总表达式为aaxθ(1)θ(2),其中,θ(1)为第一卷积层的权重参数;θ(2)为第二卷积层的权重参数,x表示二元异构图的节点特征矩阵,为单位矩阵;

s23.将文本节点-文本节点邻接矩阵p、文本节点-单词节点邻接矩阵b及单词节点-单词节点邻接矩阵c输入至图神经网络模型的第一卷积层得到:

其中,z(1)表示第一卷积层表达函数;表示第一卷积层中文本节点对应的权重参数;表示第一卷积层中单词节点对应的权重参数,bt表示文本节点-单词节点邻接矩阵b的转置;

第一卷积层的输出作为第二卷积层的输入,第二卷积层去除以单词节点为传播节点的特征传输,形成的图神经网络节点特征传播优化模型为:

由于单词的数目巨大,在图神经网络节点特征传播优化模型训练之前首先对单词-单词邻接矩阵c按行不放回采样,将单词-单词邻接矩阵c分解为m个维度与单词-单词邻接矩阵c相同的稀疏矩阵,形成子矩阵列表,做一个预处理,在每一次迭代,随机或顺序地从子矩阵列表中抽取出一个子矩阵,替代单词-单词邻接矩阵c输入到模型,通过对单词-单词邻接矩阵c按行不放回采样,将单词-单词邻接矩阵c分解为m个维度与单词-单词邻接矩阵c相同的稀疏矩阵,形成子矩阵列表,训练过程中交替输入不同的稀疏子矩阵,也呼应第二卷积层中后续建立的模型中去除以单词节点为传播节点的特征传输,训练速度加快,但不影响节点之间整体的特征传播性能,提升后续文本数据集分类的效率。

对图神经网络节点特征传播优化模型进行训练的过程还包括:

s31.从文本数据集中每一类样本中随机抽取t个文本样本,并标注标签,作为训练集,未被标注标签的文本样本作为测试集;

s32.将训练集与测试集输入至图神经网络节点特征传播优化模型,并通过梯度反向传播法更新模型参数,记录第t次迭代输出的每一个文本节点的预测标签与t-1次迭代输出的每一个文本节点的预测标签,确定与t-1次迭代输出的每一个文本节点的预测标签相比,第t次迭代过程中预测标签发生变化的文本节点;

s33.累计每个文本节点的预测标签变化次数,确认预测标签变化次数最多的文本节点,作为图神经网络节点特征传播优化模型中最不稳定的文本节点;

s33.基于输出的文本节点的预测标签,确定每一次迭代的稳定性分数;

稳定性分数求解过程为:

其中,i表示输出文本节点的预测标签类别i,nt(i)表示在t次迭代时,输出i类别预测标签的数量,n表示总文本样本的数目;

其中,et表示第t次迭代过程中,输出的文本节点的所有预测标签类别下的稳定性分数,m表示文本节点的所有预测标签类别;

s34.判断标注成本是否使用完毕,若是,执行步骤s35;否则,将最不稳定的文本节点标注标签,返回步骤s32;

s35.判断标注成本使用完毕后稳定性分数是否满足标准,若是,执行步骤s36;否则,返回步骤s32;所述的标准为:存在迭代轮次j,满足在[j,j+k]次迭代过程中每次一迭代的稳定性分数稳定均在区间[0,ε],ε表示阈值参数,k表示从j次迭代开始,至第j+k次迭代依次跨过的迭代次数,为正整数;

s36.判断图神经网络节点特征传播优化模型训练的稳定性分数是否满足:在[j,j+k]次迭代过程中每次一迭代的稳定性分数均稳定均在区间[ej-ε,ej+ε],ej是第j轮迭代时的稳定性分数,ε表示阈值参数,k表示从j次迭代开始,至第j+k次迭代依次跨过的迭代次数,为正整数,若是,则说明图神经网络节点特征传播优化模型收敛,训练完成;否则,返回步骤s32。

在此过程中,模型参数的训练通过反向传播法属于现有技术,记录模型每次迭代后的输出,通过softmax函数获得节点的预测标签,记录每个节点在迭代过程中的预测节点的变化次数,待训练稳定后,选择最不稳定的节点进行标记,能够找到最值得标记的节点,通过训练集标签信息传播到测试集上的方式,从而减少标注成本。

附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1