数据对标方法、图神经网络模型训练方法和计算机设备与流程

文档序号:29970011发布日期:2022-05-11 11:13阅读:552来源:国知局
数据对标方法、图神经网络模型训练方法和计算机设备与流程

1.本技术涉及深度学习技术领域,特别是涉及一种数据对标方法、图神经网络模型训练方法和计算机设备。


背景技术:

2.数据对标是数据治理的一个重要环节,是将非标准数据项表示对标到符合标准规范的数据项表示。具体地,数据项对标可拆分为数据元(由对象、特性词和表示词三大要素构成)对标和限定词(对象的修饰词)对标两部分。
3.目前的数据对标方式主要分为两类,一是采用人工对标,这种方式比较费时费力;二是采用自动匹配算法方式对标,目前标准数据元与数据项的自动匹配算法主要是利用数据项字面相似度实现对标,这种算法对数据项命名结构规范有较强依赖,且大多业务数据的数据项命名不规范,造成数据对标准确性低的问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种数据对标方法、图神经网络模型训练方法和计算机设备。
5.第一方面,本技术提供了一种数据对标方法。所述方法包括:
6.获取待对标数据表;
7.从所述待对标数据表中提取原始数据信息,所述原始数据信息包括字段来源和字段描述;
8.确定预设的图结构数据;所述图结构数据根据历史字段来源、历史字段描述以及与所述历史字段来源对应的标准数据元构建;
9.根据所述字段来源、所述字段描述和所述预设的图结构数据,得到与所述原始数据信息对应的目标数据元。
10.在其中一个实施例中,通过下述方式确定所述预设的图结构数据:
11.获取历史数据表;
12.从所述历史数据表中提取样本数据信息;所述样本数据信息包括历史字段来源和历史字段描述;
13.获取与所述样本数据信息对应的标准数据元;
14.从与所述样本数据信息对应的标准数据元中获取历史标准字段名称;
15.根据所述历史字段来源、所述历史字段描述、所述历史标准字段名称以及与所述样本数据信息对应的标准数据元间的转移关系,确定所述预设的图结构数据。
16.在其中一个实施例中,所述根据所述历史字段来源、所述历史字段描述、所述历史标准字段名称以及与所述样本数据信息对应的标准数据元间的转移关系,确定所述预设的图结构数据,包括:
17.将所述历史字段来源、所述历史字段描述、所述历史标准字段名称以及与所述样
本数据信息对应的标准数据元间的转移关系转化为初始图结构数据;
18.根据所述初始图结构数据训练图神经网络模型,得到训练后的图神经网络模型;所述训练后的图神经网络模型包括所述预设的图结构数据。
19.在其中一个实施例中,所述将所述历史字段来源、所述历史字段描述、所述历史标准字段名称以及与所述样本数据信息对应的标准数据元间的转移关系转化为初始图结构数据,之后还包括:
20.将所述初始图结构数据输入特征提取模型,得到所述初始图结构数据中各个节点对应的向量;
21.根据所述初始图结构数据中各个节点对应的向量训练图神经网络模型,得到训练后的图神经网络模型;所述训练后的图神经网络模型包括所述预设的图结构数据。
22.在其中一个实施例中,所述历史数据表的数量至少为两个,至少两个所述历史数据表包括第一待训练数据表;
23.所述方法还包括:
24.根据所述第一待训练数据表,确定第一图结构数据;
25.根据所述第一图结构数据训练所述图神经网络模型,得到数据对标第一预测结果;所述数据对标第一预测结果为与所述第一待训练数据表对应的预测数据元;
26.获取与所述第一待训练数据表对应的标准数据元;
27.根据所述数据对标第一预测结果以及与所述一待训练数据表对应的标准数据元获取损失值;
28.根据所述损失值对所述图神经网络模型的参数进行更新,得到更新后的图神经网络模型。
29.在其中一个实施例中,至少两个所述历史数据表还包括第二待训练数据表:
30.所述得到更新后的图神经网络模型,之后包括:
31.根据所述第二待训练数据表,确定第二图结构数据;
32.根据所述第二图结构数据训练所述更新后的图神经网络模型,得到数据对标第二预测结果;所述数据对标第二预测结果为与所述第二待训练数据表对应的预测数据元。
33.在其中一个实施例中,所述待对标数据表中包括多个原始数据信息;
34.所述方法还包括:
35.使用所述预设的图结构数据得到与每个所述原始数据信息对应的目标数据元;
36.获取与每个所述原始数据信息对应的标准数据元;
37.根据每个所述目标数据元中的第一标识信息以及每个所述标准数据元的第二标识信息,确定所述预设的图结构数据预测标准数据元的准确率。
38.在其中一个实施例中,所述根据所述字段来源、所述字段描述和预设的图结构数据,得到与所述原始数据信息对应的目标数据元,包括:
39.根据所述字段来源、所述字段描述和预设的图结构数据,得到与所述原始数据信息对应的多个预测数据元;
40.获取原始数据信息对应的标准数据元;
41.分别将每个所述预测数据元与所述标准数据元进行比较,得到每个所述预测数据元对应的对标准确率;
42.根据每个所述预测数据元对应的对标准确率,得到与所述原始数据信息对应的目标数据元。
43.第二方面,本技术还提供了一种图神经网络模型训练方法。所述方法包括:
44.获取历史数据表;
45.从所述历史数据表中提取样本数据信息;所述样本数据信息包括历史字段来源和历史字段描述;
46.获取与所述样本数据信息对应的标准数据元;
47.从与所述样本数据信息对应的标准数据元中获取历史标准字段名称;
48.将所述历史字段来源、所述历史字段描述、所述历史标准字段名称以及与所述样本数据信息对应的标准数据元间的关系转换为初始图结构数据;
49.根据所述初始图结构数据训练所述图神经网络模型。
50.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
51.获取待对标数据表;
52.从所述待对标数据表中提取原始数据信息,所述原始数据信息包括字段来源和字段描述;
53.确定预设的图结构数据;所述图结构数据根据历史字段来源、历史字段描述以及与所述历史字段来源对应的标准数据元构建;
54.根据所述字段来源、所述字段描述和所述预设的图结构数据,得到与所述原始数据信息对应的目标数据元。
55.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
56.获取待对标数据表;
57.从所述待对标数据表中提取原始数据信息,所述原始数据信息包括字段来源和字段描述;
58.确定预设的图结构数据;所述图结构数据根据历史字段来源、历史字段描述以及与所述历史字段来源对应的标准数据元构建;
59.根据所述字段来源、所述字段描述和所述预设的图结构数据,得到与所述原始数据信息对应的目标数据元。
60.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
61.获取待对标数据表;
62.从所述待对标数据表中提取原始数据信息,所述原始数据信息包括字段来源和字段描述;
63.确定预设的图结构数据;所述图结构数据根据历史字段来源、历史字段描述以及与所述历史字段来源对应的标准数据元构建;
64.根据所述字段来源、所述字段描述和所述预设的图结构数据,得到与所述原始数据信息对应的目标数据元。
65.上述数据对标方法、图神经网络模型训练方法和计算机设备,通过获取待对标数
据表,从所述待对标数据表中提取原始数据信息,所述原始数据信息包括字段来源和字段描述,将所述字段来源和所述字段描述输入预先训练的图神经网络模型,使用所述图神经网络模型中预设的图结构数据得到与所述原始数据信息对应的目标数据元,能够更加准确的得到与原始数据信息对应的目标数据元,其中,所述图结构数据根据历史字段来源、历史字段描述以及与所述历史字段来源对应的标准数据元构建,解决了数据对标准确性低的问题。
附图说明
66.图1为一个实施例中数据对标方法的流程示意图;
67.图2为一个实施例中图结构示意图;
68.图3为另一个实施例中图结构示意图;
69.图4为一个实施例中图神经网络模型训练方法的流程示意图;
70.图5为一个实施例中图神经网络模型训练的场景示意图;
71.图6为另一个实施例中图神经网络模型训练方法的流程示意图;
72.图7为一个实施例中图神经网络模型训练过程示意图;
73.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
74.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
75.在一个实施例中,如图1所示,提供了一种数据对标方法,包括以下步骤:
76.步骤102,获取待对标数据表。
77.步骤104,从待对标数据表中提取原始数据信息,原始数据信息包括字段来源和字段描述。
78.本实施例中,该原始数据信息包括但不限于字段来源和字段描述。
79.其中,待对标的数据表包括但不限于房屋租赁表、快递单登记表、安全阀数据表、人口普查数据表,任何包括字段相关信息的数据表均可以为待对标数据表,字段相关信息包括但不限于字段描述、字段来源和字段名称。
80.举例说明,待对标数据表为房屋租赁表,从待对标数据表中提取原始数据信息,提取结果如表1所示。
81.表1原始数据信息提取结果
82.表名房屋租赁表字段来源贝壳搜索字段描述房东的身份证id
83.步骤106,确定预设的图结构数据;图结构数据根据历史字段来源、历史字段描述以及与历史字段来源对应的标准数据元构建。
84.其中,图2为一个实施例中图结构示意图,图2中的标准字段名称从与历史字段来源对应的标准数据元中获取。
85.步骤108,根据字段来源、字段描述和预设的图结构数据,得到与原始数据信息对应的目标数据元。
86.其中,根据预设的图结构数据中历史字段来源、字段描述以及标准数据元之间转移关系,以及原始数据信息中字段来源、字段描述匹配与原始数据信息对应的目标数据元,该目标数据元就是根据原始数据信息得到的对标数据。
87.需要说明的是,图2仅是图结构数据中的一种,任何在图2基础上进行变形得到的图结构数据均在本实施例的保护范围中,比如,图3所示,图3为另一个实施例中图结构示意图;数据元为数据的基本单元,数据元可以定义为是用一组属性描述其定义、标识、表示和允许值的数据单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。
88.承前举例说明,基于预设的图结构数据得到与字段来源“贝壳搜索”、字段描述“房东的身份证id”对应的目标数据元,通过预先训练的图结构得到与“房东的身份证id”对应的目标数据元,目标数据元包括对象、特性词和限定词,该实施例中,目标数据元中的对象为“人”、特性词为对标的标准“身份证id”、限定词为“房东”。
89.可以理解的,在本实施例中,图结构数据是根据历史字段来源、历史字段描述以及与历史字段来源对应的标准数据元构建的,因此,预设的图结构数据能够准确的表示历史字段描述、历史字段来源与标准数据元的转移关系,进一步的,根据预设的图结构数据和原始数据信息中的字段来源、字段描述,能够更加准确的预测与原始数据信息对应的标准数据元,即能够更加准确的得到与原始数据信息对应的目标数据元,解决了数据对标准确性低的问题。
90.在一个实施例中,步骤108,根据字段来源、字段描述和预设的图结构数据,得到与原始数据信息对应的目标数据元,包括:
91.根据字段来源、字段描述和预设的图结构数据,得到与原始数据信息对应的多个预测数据元;
92.获取原始数据信息对应的标准数据元;
93.分别将每个预测数据元与标准数据元进行比较,得到每个预测数据元对应的对标准确率;
94.根据每个预测数据元对应的对标准确率,得到与原始数据信息对应的目标数据元。
95.在本实施例中,可以根据预测数据元中的字段与标准数据元中的字段的相似度,得到每个预测数据元对应的对标准确率,相似度越高,准确率越高,也可以根据预测数据元中的标识信息和标准数据元中的标识信息的相似度,得到每个预测数据元对应的对标准确率,本实施中不对如何根据预测数据元和标准数据元得到预测数据元对应的对标准确率做具体限定。
96.需要说明的是,数据元标识信息是在数据元目录中为数据元分配的与语言无关的唯一标识,采用字母数字混合码,包含数据标识符和版本标识符两级结构。
97.此外,在本实施例中,不对如何根据每个预测数据元对应的对标准确率得到目标数据元做具体限定,示例的,可以将对标准确率最高的预测数据元作为最终的目标数据元,也可以按照对标准确率由高到低的顺序对预测数据元进行排序,得到排在前n位的预测数
据元,将前n位的预测数据元作为最终的目标数据元。
98.可以理解的,在本实施例中,分别将每个预测数据元与标准数据元进行比较,得到每个预测数据元对应的对标准确率,进一步的,根据每个预测数据元对应的对标准确率,能够更加准确的得到与原始数据信息对应的目标数据元。
99.在一个实施例中,如图4所示,通过下述方法确定预设的图结构数据,包括下述步骤:
100.步骤401,获取历史数据表。
101.步骤402,从历史数据表中提取样本数据信息;样本数据信息包括历史字段来源和历史字段描述。
102.步骤403,获取与样本数据信息对应的标准数据元。
103.步骤404,从与样本数据信息对应的标准数据元中获取历史标准字段名称。
104.步骤405,根据历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的转移关系,确定预设的图结构数据。
105.其中,如图2所示,图结构数据中的节点包括历史字段来源、历史字段描述、历史标准字段名称和与样本数据信息对应的标准数据元,图结构数据中各个节点之间的关系表示历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元之间的转移关系。
106.可以理解的,在本实施例中,根据历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元之间的转移关系,确定预设的图结构数据,从而预设的图结构数据能够准确的表示历史字段描述、历史字段来源与标准数据元的转移关系,因此,根据预设的图结构数据以及原始数据信息中的字段来源、字段描述,能够更加准确的预测与原始数据信息对应的标准数据元,即能够更加准确的得到与原始数据信息对应的目标数据元,解决了数据对标准确性低的问题。
107.在一个实施例中,根据历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的转移关系,确定预设的图结构数据,包括:
108.将历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的转移关系转化为初始图结构数据;
109.根据初始图结构数据训练图神经网络模型,得到训练后的图神经网络模型;训练后的图神经网络模型包括预设的图结构数据。
110.本实施例中,图神经网络模型包括但不限于图卷积网络模型、图注意力网络模型、图自编码器模型、图生成网络模型和图时空网络模型。
111.可以理解的,在本实施例中,将历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元之间的转移关系转换为初始图结构数据,并根据初始图结构数据训练图神经网络模型,从而训练后的图神经网络模型中的图结构数据能够准确的表示历史字段描述、历史字段来源与标准数据元的转移关系,因此,根据预设的图结构数据以及原始数据信息中的字段来源、字段描述,能够更加准确的预测与原始数据信息对应的标准数据元,即能够更加准确的得到与原始数据信息对应的目标数据元,解决了数据对标准确性低的问题。
112.可以理解的,图结构数据中节点的表示,会影响后续预测标准数据元的准确率,本
申请通过下述方式进一步提高预测标准数据元的准确率。
113.在一个实施例中,将历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的转移关系转化为初始图结构数据,之后还包括:
114.将初始图结构数据输入特征提取模型,得到初始图结构数据中各个节点对应的向量;
115.根据初始图结构数据中各个节点对应的向量训练图神经网络模型,得到训练后的图神经网络模型;训练后的图神经网络模型包括预设的图结构数据。
116.在本实施例中,特征提取模型包括但不限于bert模型。
117.可以理解的,在本实施例中,利用特征提取模型对初始图结构数据中的节点进行向量初始化表示,即对初始图结构数据中涉及到的字段来源、字段描述、标准字段名称以及数据元等信息进行向量初始化表示,可以更充分的挖掘初始图结构数据中的节点包含的语义信息,进一步提高了预测标准数据元的准确率。
118.在一个实施例中,历史数据表的数量至少为两个,至少两个历史数据表包括第一待训练数据表;
119.数据对标方法还包括:
120.根据第一待训练数据表,确定第一图结构数据;
121.根据第一图结构数据训练图神经网络模型,得到数据对标第一预测结果;数据对标第一预测结果为与第一待训练数据表对应的预测数据元;
122.获取与第一待训练数据表对应的标准数据元;
123.根据数据对标第一预测结果以及与一待训练数据表对应的标准数据元获取损失值;
124.根据损失值对图神经网络模型的参数进行更新,得到更新后的图神经网络模型。
125.需要说明的是,本实施例通过一个待训练数据表来举例说明可以通过上一批次的待训练数据表对图神经网络模型的参数进行更新,这里的上一批次可以是一个待训练数据表,也可以是多个历史数据表,在此不做限定。
126.可以理解的,在本实施例中,在对图神经网络模型进行训练的过程中,基于第一待训练数据表计算的损失值,更新图神经网络模型参数,即基于上一批次的待训练数据表计算的损失值,更新图神经网络模型参数,为后续预测标准数据元任务提供更好的模型参数初始值,在不修改图结构数据的基础上,通过调整输入的参数,提高了通过图神经网络模型预测标准数据元的准确率。
127.在另一个实施例中,根据上述第一待训练数据表,确定第一图结构数据;
128.将图结构数据输入特征提取模型,得到图结构数据中各个节点对应的向量;
129.根据图结构数据中各个节点对应的向量训练图神经网络模型,得到数据对标第一预测结果;数据对标第一预测结果为与第一待训练数据表对应的预测数据元;
130.获取与第一待训练数据表对应的标准数据元;
131.根据数据对标第一预测结果以及与一待训练数据表对应的标准数据元获取损失值;
132.根据损失值对图神经网络模型的参数以及特征提取模型的参数进行更新,得到更新后的图神经网络模型和更新后的特征提取模型。
133.需要说明的是,本实施例通过一个待训练数据表来举例说明可以通过上一批次的待训练数据表对图神经网络模型的参数进行更新,这里的上一批次可以是一个待训练数据表,也可以是多个历史数据表,在此不做限定。
134.可以理解的,在本实施例中,在对图神经网络模型进行训练的过程中,基于第一待训练数据表计算的损失值,更新图神经网络模型参数和特征提取模型参数,即基于上一批次的待训练数据表计算的损失值,更新图神经网络模型参数和特征提取模型参数,为后续预测标准数据元任务提供更好的模型参数初始值,在不修改图结构数据的基础上,通过调整输入的参数,提高了通过图神经网络模型预测标准数据元的准确率。
135.在一个实施例中,至少两个历史数据表还包括第二待训练数据表:
136.得到更新后的图神经网络模型,之后包括:
137.根据第二待训练数据表,确定第二图结构数据;
138.根据第二图结构数据训练更新后的图神经网络模型,得到数据对标第二预测结果;数据对标第二预测结果为与第二待训练数据表对应的预测数据元。
139.可以理解的,在本实施例中,更新后的图神经网络模型相对于更新前的图神经网络模型提供了更好的模型参数初始值,因此,在不修改图结构数据的基础上,通过调整输入的参数,提高了通过图神经网络模型预测标准数据元的准确率。
140.在一个实施例中,待对标数据表中包括多个原始数据信息;
141.数据对标方法还包括:
142.使用预设的图结构数据得到与每个原始数据信息对应的目标数据元;
143.获取与每个原始数据信息对应的标准数据元;
144.根据每个目标数据元中的第一标识信息以及每个标准数据元的第二标识信息,确定预设的图结构数据预测标准数据元的准确率。
145.其中,根据目标数据元中的第一标识信息和标准数据元中的第二标识信息是否一致,确定预设的图结构数据预测标准数据元的准确率,假设有5个原始数据信息,根据5个原始数据信息得到5个目标数据元,判断每个目标数据元中的第一标识信息与其标准数据元是否一致,如果一致,则说明目标数据元即为标准数据元,如果有3个目标数据元中第一标识信息与其标准数据元一致,有2个目标数据元中第一标识信息与其标准数据元中的第二标识信息不一致,则预设的图结构数据预测标准数据元的准确率为60%。
146.可以理解的,在本实施例中,通过每个目标数据元中的第一标识信息以及每个标准数据元的第二标识信息,能够准确的确定预先训练的图神经网络模型预测标准数据元的准确率。
147.本发明实施例提供一种图神经网络模型训练方法。其中,该模型训练方法可以使用于模型训练装置中。该模型训练装置可以集成在计算机设备中,该计算机设备可以是终端也可以是服务器。其中,终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(pc,personal computer)等设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
148.请参阅图5,为一个实施例中图神经网络模型训练的场景示意图;如图5所示,计算机设备获取到历史数据表后,从历史数据表中提取样本数据信息;样本数据信息包括历史字段来源和历史字段描述,再获取与样本数据信息对应的标准数据元,从与样本数据信息对应的标准数据元中获取历史标准字段名称,然后将历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的关系转换为图结构数据;最后,采用图结构数据训练图神经网络模型,从而实现对图神经网络模型的训练过程。
149.需要说明的是,图5所示的图神经网络模型训练的场景示意图仅仅是一个示例,本技术实施例描述的模型训练场景是为了更加清楚地说明本技术的技术方案,并不构成对于本技术提供的技术方案的限定。本领域普通技术人员可知,随着模型训练的演变和新业务场景的出现,本技术提供的技术方案对于类似的技术问题,同样适用。
150.基于上述实施场景以下分别进行详细说明。
151.本技术实施例将从模型训练装置的角度进行描述,该模型训练装置可以集成在计算机设备中。其中,计算机设备可以是终端或服务器。下述为图神经网络模型训练方法的具体过程:
152.获取历史数据表;
153.从历史数据表中提取样本数据信息;样本数据信息包括历史字段来源和历史字段描述;
154.获取与样本数据信息对应的标准数据元;
155.从与样本数据信息对应的标准数据元中获取历史标准字段名称;
156.将历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的关系转换为初始图结构数据;
157.根据初始图结构数据训练图神经网络模型。
158.其中,请参阅图2,初始图结构数据中的节点包括历史字段来源、历史字段描述、历史标准字段名称和与样本数据信息对应的标准数据元,初始图结构数据中各个节点之间的关系表示历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元之间的转移关系;另外,在本实施例中,将初始图结构数据的节点对应的文字信息转化为向量表示,然后根据将节点转化为向量表示的初始图结构数据训练图神经网络模型,在训练的过程中,根据每个节点的周围的节点向量信息不断的更新每个节点向量,在模型迭代次数达到设置的上限或者损失值收敛时,停止更新每个节点的向量,从而训练后的各个节点向量之间的转移关系能够很好的表示样本数据信息与标准数据元之间的对应关系。
159.此外,图神经网络模型包括但不限于图卷积网络模型、图注意力网络模型、图自编码器模型、图生成网络模型和图时空网络模型。
160.可以理解的,在本实施例中,将历史字段来源、历史字段描述、历史标准字段名称以及与样本数据信息对应的标准数据元间的关系转换为图结构数据,并采用图结构数据训练图神经网络模型,从而训练后的图神经网络模型中的图结构数据能够准确的表示历史字段描述、历史字段来源与标准数据元的转移关系,因此,根据训练后的图结构数据和原始数据信息中的字段来源、字段描述,能够更加准确的预测与原始数据信息对应的标准数据元,即能够更加准确的得到与原始数据信息对应的目标数据元,解决了数据对标准确性低的问
题。
161.在一个实施例中,本实施例提供了另一种图神经网络模型训练方法,如图6所示,该方法包括下述步骤:
162.步骤602,获取待训练的图结构数据。
163.其中,对需要进行对标处理的字段来源、字段描述以及标准数据元间的转移路径进行定义,得到待训练的图结构数据,其次将数据对标问题转化为基于图结构数据中的链接预测任务,需要说明的是,在某些场景中,希望预测给定节点之间是否存在边,这样的任务称作链接预测任务;具体地,从企业源数据的存储系统的元数据中获取待训练数据表的表名、字段来源、字段名称、字段描述等基本信息,根据字段来源、字段描述、标准字段名称、标准数据元之间的转移关系,定义待训练的图结构数据,待训练的图结构数据如图2所示。
164.步骤604,将图结构数据中的节点转化为向量,得到节点向量化的图结构数据。
165.其中,利用深度学习模型对待训练的图结构数据中的节点进行向量初始化表示,即对待训练的图结构数据中涉及到的字段来源、字段描述、标准字段名称以及标准数据元等信息进行向量初始化表示,从而能够更好的对节点的语义信息进行特征提取,使得每个节点的向量表示能够全面准确地刻画文本的整体信息,从而提取后将更好地描述节点信息,深度学习模型具体可使用具有词、句向量生成效果的nlp模型,例如bert模型。
166.步骤606,采用节点向量化的图结构数据训练图神经网络模型。
167.其中,请参阅图7,在图神经网络训练过程中,反向传导同时更新深度学习模型参数以及图神经网络模型的参数,即利用梯度反向传播算法最小化损失函数来优化深度学习模型参数以及图神经网络模型的参数;具体地,在对图神经网络模型进行训练的过程中,基于上一批待训练的图结构数据计算的损失值,更新图神经网络模型参数以及深度学习模型参数,为后续预测标准数据元任务提供更好的模型参数初始值,然后在图神经网络模型训练过程中再次进行节点向量更新,在不修改图结构的基础上,通过调整输入的参数,提高了训练后的图神经网络模型预测标准数据元的准确程度。
168.步骤608,如果图神经网络模型的迭代轮数达到上限或者损失值收敛时,输出训练后的图神经网络模型预测标准数据元的准确率。
169.其中,在达到迭代轮数上限或者损失值收敛时,结束图神经网络模型的训练;通过判断模型预测的数据元中的标识符与标准数据元中的标识符是否一致,提供图神经网络模型评价指标参考;具体地,根据该模型预测的数据元中的标识符和标准数据元中的标识符是否一致,确定训练后的图神经网络模型预测标准数据元的准确率,假设4个预测的数据元,判断每个预测的数据元中的标识符与其标准数据元是否一致,如果一致,则说明预测的数据元即为标准数据元,如果有3个预测的数据元中标识符与其标准数据元中标识符一致,有1个预测的数据元中的标识符与其标准数据元中的标识符不一致,则训练后的图神经网络模型预测标准数据元的准确率为75%。
170.通过上述方式,将数据对标问题转化为基于图结构数据中的链接预测任务,从而根据训练后的图结构数据能够更加准确的预测标准数据元,另外,利用图神经网络模型迭代计算的损失值,实现对深度学习模型、图神经网络模型参数更新,产生更为精确的模型表示,更好地理解文本特征中的语义信息,进一步提高链接预测任务的准确性;此外,在图神经模型训练过程中,每轮迭代均对图结构数据中节点进行向量初始化,基于深度学习模型
提取字段相关数据的特征,为图神经网络模型提供高质量特征输入,在不修改图结构的基础上调整输入,使图神经网络模型更容易训练。
171.应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
172.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
173.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
174.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
175.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
176.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
177.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
178.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,
pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
179.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
180.以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1