本发明涉及数据管理,尤其涉及数据资产目录生成方法、设备及计算机可读存储介质。
背景技术:
1、数据资产目录是对企业中数据资产全景式、结构化的描述。数据资产目录可以打通数据的业务信息和技术信息,便于使用者快速定位公司数据资产并加以利用和管理,一定程度上为企业数据治理、业务变革提供指引。
2、在相关技术中,检索得到系统操作日志、数据库元数据、数据库日志、业务规范文档等,然后通过机器学习、知识表示和知识推理,构建数据资产分类体系,并推断数据库、表和系统功能之间的对应关系,从而生成数据资产目录。
3、然而,上述数据资产目录是基于数据资产的特征和文本信息,分类和聚类得到的全局目录结构,这种全局的目录结构无法满足个别业务的特定需求,即缺乏针对性。
4、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种数据资产目录生成方法、设备及计算机可读存储介质,旨在解决现有的数据资产目录缺乏针对性。
2、为实现上述目的,本发明提供一种数据资产目录生成方法,其特征在于,所述数据资产目录生成方法包括以下步骤:
3、获取全局目录体系框架,以及技术元数据;
4、从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架;
5、将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录。
6、可选地,所述将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录的步骤包括:
7、根据所述目标目录体系框架,构建若干训练任务,以及各所述训练任务之间的关联关系;
8、根据所述关联关系,从所述训练任务中提取底层参数和顶层参数;
9、根据所述底层参数和所述顶层参数,构建各所述训练任务对应的多任务模型;
10、计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录。
11、可选地,所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤之前,包括:
12、根据所述关联关系,确定所述训练任务的概率限制;
13、所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤包括:
14、计算所述技术元数据在各所述多任务模型中的目录概率;
15、若各所述多任务模型对应的目录概率满足所述概率限制,则根据所述目录概率生成数据资产目录;
16、若各所述多任务模型对应的目录概率不满足所述概率限制,则跳转执行所述根据所述关联关系,从所述训练任务中提取底层参数和顶层参数的步骤。
17、可选地,所述从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架的步骤包括:
18、根据所述全局目录体系框架,确定待构建目录层级;
19、若所述待构建目录层级是一级目录,则从所述一级目录中筛选出满足业务需求的目标目录;
20、若所述待构建目录层级不是一级目录,则获取待构建目录层级的上一层级的目标目录,并在所述目标目录中的子目录中筛选出满足业务需求的目标目录;
21、汇总所有目录层级对应的目标目录,构建目标目录体系框架。
22、可选地,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
23、接收用户发送的生成指令,并获取所述生成指令所携带的业务需求;
24、从所有业务元数据中,筛选出满足业务需求的业务元数据;
25、根据所述业务元数据和技术元数据之间的关联关系,从所有技术元数据中筛选出部分技术元数据。
26、可选地,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
27、获取训练全局目录体系框架和训练技术元数据,以及对应的训练目录标签;
28、从所述训练全局目标体系框架中,筛选出满足所述业务需求的目标训练目录体系框架;
29、将所述目标训练目录体系框架和所述训练技术元数据,输入构建好的多任务学习模型,生成各训练任务对应的预测结果;
30、比较所述预测结果和所述训练目录标签,确定各任务的损失函数值;
31、根据各任务的损失函数值,调整所述多任务学习模型的参数,直至达到最小损失函数值。
32、可选地,所述根据各任务的损失函数值,调整所述任务学习模型的参数,直至达到最小损失函数值的步骤包括:
33、根据各任务的损失函数值,以及对应的损失函数权重,计算所述任务学习模型的总损失函数值;
34、根据所述总损失函数值调整所述多任务学习模型的参数,直至达到最小损失函数值。
35、可选地,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
36、从原始数据中筛选出若干数据表以及关联表的备注信息和数据项描述信息;
37、对所述备注信息和所述数据项描述信息进行拼接,并对拼接结果进行过滤和清洗处理,得到技术元数据。
38、此外,为实现上述目的,本发明还提供一种数据资产目录生成设备,所述数据资产目录生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据资产目录生成程序,所述数据资产目录生成程序配置为实现所述的数据资产目录生成方法的步骤。
39、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据资产目录生成程序,所述数据资产目录生成程序被处理器执行时实现所述的数据资产目录生成方法的步骤。
40、在本发明提供的一个技术方案中,从全局目录体系框架中,筛选出满足业务需求的目标目录体系框架,然后将目标目录体系框架和技术元数据,输入训练好的多任务学习模型,生成数据资产目录。本方案选定与业务相关的细致目录体系框架,对其进行多任务学习,得到的结果也是与业务相关的数据资产目录,这种方案可以广泛应用于各种复杂的系统或组织,只需要通过细化框架,就可以专注于特定的业务需求,并更好地理解技术元数据的特征和关系,以进行针对性更强和精确度更高的预测或分析。
1.一种数据资产目录生成方法,其特征在于,所述数据资产目录生成方法包括以下步骤:
2.如权利要求1所述的数据资产目录生成方法,其特征在于,所述将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录的步骤包括:
3.如权利要求2所述的数据资产目录生成方法,其特征在于,所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤之前,包括:
4.如权利要求3所述的数据资产目录生成方法,其特征在于,所述从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架的步骤包括:
5.如权利要求1所述的数据资产目录生成方法,其特征在于,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
6.如权利要求1所述的数据资产目录生成方法,其特征在于,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
7.如权利要求6所述的数据资产目录生成方法,其特征在于,所述根据各任务的损失函数值,调整所述任务学习模型的参数,直至达到最小损失函数值的步骤包括:
8.如权利要求1所述的数据资产目录生成方法,其特征在于,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
9.一种数据资产目录生成设备,其特征在于,所述数据资产目录生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据资产目录生成程序,所述数据资产目录生成程序配置为实现如权利要求1至8中任一项所述的数据资产目录生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据资产目录生成程序,所述数据资产目录生成程序被处理器执行时实现如权利要求1至8任一项所述的数据资产目录生成方法的步骤。