基于探针的应用关系智能化构建方法、元数据获取方法、介质及系统与流程

文档序号:35989909发布日期:2023-11-15 22:01阅读:36来源:国知局
基于探针的应用关系智能化构建方法、元数据获取方法、介质及系统与流程

本发明涉及数据治理,尤其涉及一种基于探针的元数据获取方法,应用该元数据获取方法实现的基于探针的应用关系智能化构建方法、、计算机可读存储介质及数据治理系统。


背景技术:

1、元数据是应用程序和数据之间的桥梁,对应用程序和数据这两者间应用关系的构建至关重要。元数据能够描述数据集的来源、质量、更新频率和格式等信息,应用程序通过元数据来理解数据的结构、特性和可用性等信息。元数据可以帮助应用程序更好地理解和处理数据,以提高应用程序中数据的质量、准确性和可靠性。元数据还可以为数据管理、数据分析和数据挖掘等数据应用程序提供支持,使得这些应用程序能够高效地利用数据。

2、元数据的获取,特别是元数据智能化抓取在应用关系智能化构建中至关重要。目前抓取网页元数据的主要方式是爬虫技术,爬虫技术是指通过网络爬虫程序自动化访问网页并提取信息的技术。网络爬虫程序可以从网页中提取出标题、描述、关键词、标签、url等元数据,并将其存储在数据库中。爬虫技术具有高效、自动化、可扩展性强等特点,但依然存在不少缺点。

3、爬虫技术可以搜集个人信息,可能会侵犯用户的隐私权,引起社会和法律问题;在未经网站或机构许可的情况下,使用爬虫技术搜集信息可能会违反法律法规,造成法律风险;爬虫技术在提取网站数据时,可能对网站造成压力,导致访问量过大,甚至可能导致网站崩溃;爬虫技术获取的数据仅仅是网站上展示的数据,并不一定是真实的或者最新的数据,数据的准确性存在风险;网站会通过一些反爬虫技术,来识别并封锁爬虫程序,爬虫技术可能会失效,无法获取数据。

4、在构建应用程序和数据之间的应用关系时,如何智能化地获取元数据,构建应用程序与元数据之间的应用关系,又无需承担爬虫技术所带来的风险,是当下的技术难点。


技术实现思路

1、本发明所要解决的技术问题是提供一种基于探针的元数据获取方法、基于探针的应用关系智能化构建方法以及存储有被执行时实现上述方法的计算机程序的计算机可读存储介质,该元数据获取方法和基于探针的应用关系智能化构建方法能够规避爬虫程序的使用问题,实现应用与元数据的映射和应用关系的构建。

2、为了解决上述技术问题,第一方面,本发明提供了一种基于探针的元数据获取方法,识别应用程序的元数据的特征信息,调用预存有多个探针程序的探针库,比较探针库中各个探针程序与所获取的元数据的特征信息的匹配程度,从而查找出与应用程序的元数据信息匹配达预设程度的探针程序,将查找出的探针程序关联到应用程序来收集该应用程序的元数据

3、进一步地,所述应用程序的元数据包括性能数据、状态信息和行为指标。

4、进一步地,所述探针程序是通过java探针实现的,在jvm进程内部运行java探针,通过检测和监控jvm的指标和数据来构建分析数据池,包括以下元数据获取步骤:

5、通过jvm agent加载java探针,在启动jvm时添加jvm agent参数-javaagent来加载并启动java探针,使其在jvm生命周期内常驻运行;

6、通过instrumentation api获取jvm信息,调用java的instrumentation api来获取jvm的信息和性能数据,对jvm内部类、方法、对象进行监控和分析;

7、构建监控器和采样器收集数据,调用预设的监控器和采样器来检测和记录jvm的性能数据,jvm的性能数据包括cpu使用率、内存使用情况、线程池状态当中的一种或多种。

8、进一步地,所述探针程序是通过python探针实现的,通过包管理工具或手动方式将python探针安装到python应用程序,包括以下元数据获取步骤:

9、调用python探针的api采集和处理python应用程序的性能数据;

10、调用python内建库和第三方库识别应用状态,python探针通过python内建库和第三方库来获取应用程序的状态数据和性能数据,包括使用psutil库来获取系统资源状态,或使用requests库来收集远程http请求指标;

11、构建采样器和监控器记录性能数据,python探针调用预设的采样器和监控器收集应用程序性能数据,包括调用cpu profiler分析cpu使用情况,或调用内存分析器memoryprofiler分析内存使用情况;

12、调用数据分析引擎填充分析数据池,调用预设的数据分析引擎,通过智能化构建脚本来处理和分析采集的数据,以完成处理和分析的数据填充分析数据池。

13、进一步地,所述探针程序是通过go探针实现的,将go探针以嵌入式代码方式嵌入到go语言的二进制文件中,包括以下元数据获取步骤:

14、调用程序调试工具gdb作为go探针的后端,通过与go程序进行交互,获取go程序的性能数据和调试信息;

15、调用pprof语言性能分析工具,通过预设的api触发数据采集和分析,将采集和分析的数据上传到脚本分析数据池;

16、监控go语言的运行机制,识别运行状态和性能数据,具体地,调用runtime库的函数来获取内存和gc数据。

17、第二方面,本发明提供了一种基于探针的应用关系智能化构建方法,包括以下步骤:

18、数据获取步骤,从预设的分析数据池中获取数据;

19、特征选择步骤,将预处理后的数据进行特征选择,根据用户输入或选择的目标关系选取相关的数据特征;

20、数据标注步骤,标记各个数据及其关联的语义标签和关系类型;

21、机器学习建模步骤,调用预先构建的机器学习模型对数据进行自动学习获取数据关联关系;

22、模型应用,将训练好的机器学习模型应用于关联关系识别,根据识别的关联关系实现应用与元数据的映射,从而自动实现应用关系的构建。

23、进一步地,所述机器学习建模步骤中,机器学习模型包括决策树模型、聚类模型或分类算法模型。

24、进一步地,包括在数据获取步骤之后执行的数据预处理步骤:对收集到的数据进行清洗,去除噪声。

25、第三方面,还提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器运行时能够实现上述基于探针的应用关系智能化构建方法和/或基于探针的元数据获取方法。

26、第四方面,还提供了一种数据治理系统,包括处理器和处理器分别连接的应用服务器、应用程序执行端和数据表存储库,还包括上述计算机可读存储介质,该计算机可读存储介质上的计算机程序可被处理器执行。

27、该基于探针的元数据获取方法,建立与应用程序关联的探针程序来监控运行中的应用程序,收集应用程序的元数据,避免爬虫程序被法律法规,以及反爬虫机制拦截和抵制,可以对网络流量进行全面、准确地捕捉和采集,并可对协议进行深度解析,实现对协议信息的精准捕捉,基于上述探针的元数据获取方法实现的应用关系智能化构建方法,将训练好的关联模型应用于实际场景探针程序应用场景,实现机器自动学习和关系构建,其中输出的关联关系会作为应用数据治理的一部分,实现应用与应用的关联和应用与元数据的映射,从而自动实现应用关系的构建。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1