识别模型训练方法及装置与流程

文档序号:37428625发布日期:2024-03-25 19:18阅读:5来源:国知局
识别模型训练方法及装置与流程

本说明书一个或多个实施例涉及人工智能(artificial intelligence,ai),尤其涉及一种识别模型训练方法及装置。


背景技术:

1、知识图谱是以图的形式描述真实世界中各种对象以及对象之间的关系。知识图谱是一张由节点和节点之间的连接边构成的巨大的语义网络图。其中,节点代表对象,节点之间的连接边代表对象之间的关系。对象代表真实世界中存在的实体或概念。

2、在一些场景下,利用知识图谱训练针对预定类别对象的识别模型。由于知识图谱的数据量非常庞大,且具有该预定类别标签的对象在知识图谱中非常稀疏。因此,将知识图谱输入到识别模型中,会导致很多的计算资源浪费。


技术实现思路

1、本说明书一个或多个实施例描述了一种识别模型训练方法及装置,可以在保障模型训练效率的同时,节省内存资源。

2、第一方面,提供了一种基于关系图的识别模型训练方法,应用于训练装置,所述训练装置通过网络连接存储系统,所述存储系统用于存储关系图的图数据;所述图数据包括,与节点的n个id区段对应的n个数据集合;所述数据集合包括,分别以对应id区段中的多个节点为中心节点的多个子图数据;所述方法包括:获取具有预定类别标签的目标对象在所述关系图中对应节点的目标id,并确定所述目标id在所述n个id区段中所属的第一id区段;在所述第一id区段对应的数据集合中,查询以所述目标对象为中心节点的第一子图数据;将基于所述第一子图数据形成的样本子图输入至基于图神经网络构建的识别模型,以训练所述识别模型识别所述预定类别对象的能力。

3、在一些实施例中,所述数据集合存储为文件块。

4、在一些实施例中,所述存储系统为分布式文件存储系统,其中包括多个存储节点,单个存储节点存储一个或多个所述文件块。

5、在一些实施例中,所述子图数据包括,中心节点的节点属性数据,和所述中心节点的一阶邻居节点的邻居id列表。

6、在一些实施例中,所述方法还包括:确定所述第一子图数据中所述邻居id列表中各个邻居id在所述n个id区段中所属的第二id区段;在所述第二id区段对应的数据集合中,查询以所述邻居id为中心节点的第二子图数据;基于所述第一子图数据和第二子图数据,形成所述样本子图。

7、在一些实施例中,在所述数据集合中,所述多个子图数据按照中心节点的id顺序存储。

8、在一些实施例中,所述目标对象包括多个节点,所述训练装置在所述第一id区段对应的数据集合中查询以所述目标对象为中心节点的子图,包括:所述训练装置以归并查找算法,基于所述多个节点的id,在所述第一id区段对应的数据集合中查询以所述多个节点中每个节点为中心节点的子图。

9、在一些实施例中,所述关系图为交易关系图,图中节点表示账户;所述目标对象为,具有欺诈风险标签的账户。

10、第二方面,提供了一种基于关系图的识别模型训练装置,所述训练装置通过网络连接存储系统,所述存储系统用于存储关系图的图数据;所述图数据包括,与节点的n个id区段对应的n个数据集合;所述数据集合包括,分别以对应id区段中的多个节点为中心节点的多个子图数据;所述训练装置包括:确定模块,用于获取具有预定类别标签的目标对象在所述关系图中对应节点的目标id,并确定所述目标id在所述n个id区段中所属的第一id区段;查询模块,用于在所述第一id区段对应的数据集合中,查询以所述目标对象为中心节点的第一子图数据;输入模块,用于将基于所述第一子图数据形成的样本子图输入至基于图神经网络构建的识别模型,以训练所述识别模型识别所述预定类别对象的能力。

11、第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。

12、第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。

13、通过本说明书实施例提供的识别模型训练方法,全量的关系图的图数据存储在非内存的存储系统中,该方法可以快速从非内存的存储系统中,查询到以目标对象为中心节点的样本子图,并利用该样本子图训练识别模型,保障了识别模型的训练效率。由于,作为训练样本的训练子图由目标对象以及目标对象的邻居节点组成,相比全量的关系图的图数据,样本子图的图数据的数据量大大减少(通常为下降多个数量级),因此,可以节省训练装置的内存资源,以及提高内存资源的占用率。



技术特征:

1.一种基于关系图的识别模型训练方法,应用于训练装置,所述训练装置通过网络连接存储系统,所述存储系统用于存储关系图的图数据;所述图数据包括,与节点的n个id区段对应的n个数据集合;所述数据集合包括,分别以对应id区段中的多个节点为中心节点的多个子图数据;所述方法包括:

2.根据权利要求1所述的方法,其中,所述数据集合存储为文件块。

3.根据权利要求2所述的方法,其中,所述存储系统为分布式文件存储系统,其中包括多个存储节点,单个存储节点存储一个或多个所述文件块。

4.根据权利要求1-3中任一项所述的方法,其中,所述子图数据包括,中心节点的节点属性数据,和所述中心节点的一阶邻居节点的邻居id列表。

5.根据权利要求4所述的方法,还包括:

6.根据权利要求1所述的方法,其中,在所述数据集合中,所述多个子图数据按照中心节点的id顺序存储。

7.根据权利要求6所述的方法,其特征在于,所述目标对象包括多个节点,所述训练装置在所述第一id区段对应的数据集合中查询以所述目标对象为中心节点的子图,包括:所述训练装置以归并查找算法,基于所述多个节点的id,在所述第一id区段对应的数据集合中查询以所述多个节点中每个节点为中心节点的子图。

8.根据权利要求1所述的方法,其中,所述关系图为交易关系图,图中节点表示账户;所述目标对象为,具有欺诈风险标签的账户。

9.一种基于关系图的识别模型训练装置,所述训练装置通过网络连接存储系统,所述存储系统用于存储关系图的图数据;所述图数据包括,与节点的n个id区段对应的n个数据集合;所述数据集合包括,分别以对应id区段中的多个节点为中心节点的多个子图数据;所述训练装置包括:

10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。

11.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。


技术总结
一种识别模型训练方法及装置,可应用于AI技术领域。所述方法包括:获取具有预定类别标签的目标对象在所述关系图中对应节点的目标I D,并确定所述目标I D在所述N个I D区段中所属的第一I D区段;在所述第一I D区段对应的数据集合中,查询以所述目标对象为中心节点的第一子图数据;将基于所述第一子图数据形成的样本子图输入至基于图神经网络构建的识别模型,以训练所述识别模型识别所述预定类别对象的能力。所述方法可以在保障识别模型训练效率的同时,节省内存资源。

技术研发人员:刘志臻
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:
技术公布日:2024/3/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1