一种基于数据湖的AI融合治理方法与流程

文档序号:33498088发布日期:2023-03-17 21:28阅读:69来源:国知局
一种基于数据湖的AI融合治理方法与流程
一种基于数据湖的ai融合治理方法
技术领域
1.本发明属于数据治理技术领域,具体为一种基于数据湖的ai融合治理方法。


背景技术:

2.在过去,数据治理需要专业的技术和管理人员操作,对实际应用有较高门槛要求,当前,人工智能与数据治理的完美融合开启了智能数据治理的新阶段,通过ai赋能,可以不断提升数据治理工具的可操作性,使得治理数据的参与者可以更为便捷地使用数据治理工具。
3.现有技术中,数据湖是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具,由于数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据可能有很多满足特定内部模型格式的数据结构,因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到非结构化数据,这些数据并非完全都适用于企业的结构化数据模型,从而导致筛选的数据很大程度的受限于企业的结构化数据模型和输入的企业业务数据,针对上述情况,设计一种基于数据湖的ai融合治理方法。


技术实现要素:

4.针对现有技术的不足,本发明提供了一种基于数据湖的ai融合治理方法,具有自适应学习生产的结构化模型的优点。
5.为实现上述目的,本发明提供如下技术方案:一种基于数据湖的ai融合治理方法,该方法的步骤为:s1:将数据湖数据接入,通过将数据湖接入的数据通过ai技术自动进行图像识别、文字识别、语音识别,从而ai数据采集到各种结构化数据和非结构化数据;s2:将采集到的结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据;s3:不符合企业的结构化的数据进行数据整合,并在整合数据内进行元数据采集,然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型;s4:对新的结构化模型进行模型训练和模型评估:评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选;评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃;s5:在s2中筛选出符合企业的结构化的数据经过etl处理得出的主数据和提取的元数据和企业业务化元数据,经过监督学习、深度学习、回归模型、知识图谱这些ai技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,最后将评估的数据入到数据资源地。
6.s6:通过ai学习算法自动识别出数据标准的使用频度、热度并且通过企业业务输
入数据,作为数据质量评估的标准,参与到s5中的数据质量评估,提高对数据标准评估的水平和优化数据的能力。
7.优选的,所述数据湖包括有结构化数据和非结构化数据,所述ai数据采集包括有结构化数据采集和非结构化数据采集。
8.优选的,所述数据整合包括有非结构化数据整合和结构化数据整合,非结构化数据整合和结构化数据整合方法包括有语义模型、分类聚类算法、标签体系的自动化数据目录。
9.优选的,所述新的结构化模型转化生成的技术方法包括有知识图谱和图数据库技术。
10.优选的,所述新的结构化模型学习流程包括有模型训练和模型评估。
11.优选的,所述数据质量评估包括有主数据、提取的元数据和企业业务化元数据质量评估。
12.优选的,所述数据质量评估的标准包括有数据标准的使用频度、热度和企业业务输入数据。
13.与现有技术相比,本发明的有益效果如下:本技术通过数据湖、数据整合等,达到自适应学习生产的结构化模型的目的,将数据湖接入的数据通过ai技术自动进行图像识别、文字识别、语音识别, ai数据采集到各种结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据,不符合企业的结构化的数据进行数据整合,并在整合数据中的元数据通过语义模型、分类聚类算法、标签体系的自动化数据目录进行元数据采集,然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型,新的结构化模型通过模型训练和模型评估,评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选,评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃,综合上述,从而实现自适应学习生产的结构化模型。
附图说明
14.图1为本发明的数据治理流程示意图。
具体实施方式
15.基于本发明中的实施例及附图,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.如图1所示,本发明提供一种技术方案:一种基于数据湖的ai融合治理方法与流程,该方法的步骤为:s1:将数据湖数据接入,通过将数据湖接入的数据通过ai技术自动进行图像识别、文字识别、语音识别,从而ai数据采集到各种结构化数据和非结构化数据;s2:将采集到的结构化数据和非结构化数据与企业的结构化数据模型进行对比,筛选出符合企业的结构化的数据;s3:不符合企业的结构化的数据进行数据整合,并在整合数据内进行元数据采集,
然后进行数据补充和二次筛选并转化,通过知识图谱、图数据库技术,设计生成出符合企业业务的新的结构化模型;s4:对新的结构化模型进行模型训练和模型评估:评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选;评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃;s5:在s2中筛选出符合企业的结构化的数据经过etl处理得出的主数据和提取的元数据和企业业务化元数据,经过监督学习、深度学习、回归模型、知识图谱这些ai技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,最后将评估的数据入到数据资源地。
17.s6:通过ai学习算法自动识别出数据标准的使用频度、热度并且通过企业业务输入数据,作为数据质量评估的标准,参与到s5中的数据质量评估,提高对数据标准评估的水平和优化数据的能力。
18.其中,所述数据湖包括有结构化数据和非结构化数据,所述ai数据采集包括有结构化数据采集和非结构化数据采集;由于数据湖内的数据的多样性,通过ai技术识别企业业务所需关键数据,再从数据湖内进行结构化数据采集和非结构化数据采集,确保ai数据采集的多样性和有效性。
19.其中,所述数据整合包括有非结构化数据整合和结构化数据整合,非结构化数据整合和结构化数据整合方法包括有语义模型、分类聚类算法、标签体系的自动化数据目录;ai数据采集到的非结构化数据整合和结构化数据与企业的结构化数据模型进行对比后,筛选出不符合的非结构化数据整合和结构化数据,对不符合的非结构化数据整合和结构化数据进行数据整合,整合过程中,主要对非结构化数据和结构化数据中的元数据通过语义模型、分类聚类算法、标签体系的自动化数据目录进行整合。
20.其中,所述新的结构化模型转化生成的技术方法包括有知识图谱和图数据库技术;对不符合的非结构化数据整合和结构化数据进行数据整合后,进行数据补充和筛选,将整合的数据通过知识图谱和图数据库技术设计出更加符合现实的企业业务概念模型,并将概念模型转化为数据库可识别并符合企业业务新的结构化模型。
21.其中,所述新的结构化模型学习流程包括有模型训练和模型评估;新的结构化模型通过模型训练和模型评估,评估标准达到企业要求后,将新的结构化模型应用到企业的结构化数据模型,参与对采集到的结构化数据和非结构化数据筛选,评估标准达不到企业要求后,将新的结构化模型和原始数据进行丢弃。
22.其中,所述数据质量评估包括有主数据、提取的元数据和企业业务化元数据质量评估,所述数据质量评估的标准包括有数据标准的使用频度、热度和企业业务输入数据;通过ai学习算法自动识别出数据标准的使用频度、热度并且通过企业业务输入数据,作为数据质量评估的标准,提高对数据标准评估的水平和优化数据的能力,然后符合企业的结构化的数据经过etl处理得出的主数据和提取的元数据和企业业务化元数据,经过监督学习、深度学习、回归模型、知识图谱这些ai技术与数据质量管理的深度融合,实现对数据清洗和数据质量的评估,最后将评估的数据入到数据资源地需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
23.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1