一种基于轻量级预训练模型的云运维知识图谱构建方法与流程

文档序号：37050430发布日期：2024-02-20 20:47阅读：15来源：国知局

本发明涉及云运维知识图谱，尤其涉及一种基于轻量级预训练模型的云运维知识图谱构建方法。

背景技术：

1、随着数字化和云计算技术的迅速发展，国家电网公司发布的国网云平台逐渐成为电网数字化建设的核心组成部分，然而，在云平台运维方面，尽管依赖于各种指标、日志和请求追踪信息有一定的效果，但这些传统方法仍面临多个挑战，其中包括数据稀疏性问题、缺乏对数据深层语义的解析，以及算法本身的冷启动问题。

2、在这背景下，知识图谱技术受到越来越多的关注，它通过构建实体之间复杂的语义关系，为信息检索和数据挖掘提供了新的解决路径，但在文本实体识别和信息抽取方面，虽然bert模型表现出强大的能力，却因其庞大的参数量和长时间的训练需求，在云运维等专业领域的应用受到限制，相比之下，轻量级的albert模型虽然减少了参数量，但在云运维知识图谱构建方面还未有成熟的应用案例。

3、同时，互联网信息量的爆炸性增长也使得传统的搜索引擎技术逐渐暴露出其局限性，知识图谱技术，尤其是谷歌自2012年以来的相关研究，已经显示出在信息组织和检索方面的巨大潜力。

4、综上所述，面对日益复杂的云平台运维环境和不断增长的信息检索需求，急需一种新的解决方案。

技术实现思路

1、基于上述目的，本发明提供了一种基于轻量级预训练模型的云运维知识图谱构建方法。

2、一种基于轻量级预训练模型的云运维知识图谱构建方法，包括以下步骤：

3、s1：获取云运维报告和云运维日志信息，并利用正则匹配规则对获取的数据进行样本集生成；

4、s2：对样本集进行数据清洗，并采用bio标注策略进行文本标注；

5、s3：使用albert-lstnet-crf模型对标注后的样本集进行实体抽取；

6、s4：根据抽取结果构建出三元组并存入图数据库中，从而完成知识图谱的构建。

7、进一步的，所述获取云运维报告和云运维日志信息具体采用selenium框架的互联网爬虫技术，定向爬取包含关键词“云运维”的公开可访问网站和数据库，从而获得相关的云运维报告和云运维日志信息。

8、进一步的，所述s1中利用正则匹配规则对获取的数据进行样本生成具体步骤为：

9、s11：创建一个预定义的正则表达式规则集，该规则集包括用于匹配关键词和短语的正则表达式；

10、s12：扫描已获取的云运维报告和云运维日志信息，利用s11中预定义的正则表达式规则集进行文本匹配；

11、s13：从扫描结果中筛选出与预定义的正则表达式匹配的文本片段，将该文本片段保存为初步样本；

12、s14：对保存的初步样本进行二次筛选和整合，以生成可用于后续模型训练的最终样本集。

13、进一步的，所述s2具体包括：

14、s21：去除样本集中的特殊字符、空白、标点符号的非关键信息，以得到纯净的文本数据；

15、s22：利用分词算法将纯净的文本数据分解为单词或词组，并为每个单词或词组分配唯一标识符；

16、s23：应用bio标注策略，使用预定义的标签集来对每个单词或词组进行标注，其中，b代表一个实体的开始，i代表实体的内部，而o代表非实体；

17、s24：对已标注的单词或词组进行校验和修正，以确保标注准确性和一致性，从而生成最终用于模型训练的标注样本集。

18、进一步的，所述s3中使用albert-lstnet-crf模型对标注后的样本集进行实体抽取的步骤具体为：

19、s31：输入的原始输入语句首先流经albert层进行特征向量化，获得最终的特征向量t；

20、s32：生成的特征向量t接着通过lstnet层，进行上下文信息的捕获和整合；

21、s33：通过crf层进行序列标注，输出最优的实体标签。

22、进一步的，所述s31具体包括：

23、s311：所述原始输入语句包括监控信息异常告警、系统日志报错、公共组件类故障、分布式服务总线正常、云平台公共组件库无法链接集中式云资源管理系统；

24、s312：输入层获得原始输入语句的收集到的信息语句，经过处理变为字序列为w＝(w1，w2，…，wn)，作为之后albert层的输入；

25、s313：albert层获取到子序列w＝(w1，w2，…，wn)，将字序列变为之后神经网络所需要的向量序列x，x如下所示：

26、

27、式中，h为向量维度；eit为对字序列进行字嵌入编码；eip为对字序列进行位置信息编码；eis为对字序列进行语句信息编码，上述三者映射到高维度相加得到albert层的输入序列，并最终通过计算多层transformer的完整特征来获得最终的特征向量t。

28、进一步的，所述s32具体包括：

29、s321：卷积层获取到特征向量t后，对其进行维度增高的特征处理，输入数据矩阵经过第k个卷积核处理后，得到隐藏层hk为：

30、

31、式中为卷积运算；

32、s322：输入数据经过卷积层后，输出矩阵进入循环层和循环跳过层，循环层和循环跳过层使用relu函数作为隐藏层的激活函数，具体的，在t时刻，循环层中循环单元的隐藏状态为：

33、rt＝σ(xtwxr+ht-1whr+br)

34、ut＝σ(xtwxu+ht-1whu+bu)

35、ct＝relu(xtwxc+rt☉(ht-1whc)+bc)

36、ht＝(1-ut)☉ht-p+ut☉ct

37、式中，⊙表示按元素点乘，σ为sigmoid函数，xt为t时刻的数据输入，rt、ut、ct分别为重置门、更新门、候选隐藏状态在t时刻的值，w、b分别为各模块的权重和偏置；

38、s323：lstnet循环跳过层计算过程如下：

39、rt＝σ(xtwxr+ht-pwhr+br)

40、ut＝σ(xtwxu+ht-pwhu+bu)

41、ct＝relu(xtwxc+rt☉(ht-pwhc)+bc)

42、ht＝(1-ut)☉ht-p+ut☉ct

43、式中，p为隐藏单元的跳过数目，经过循环层与循环跳过层，最终输出的向量序列为hw＝[h1 h2 … hn]。

44、进一步的，所述s33具体包括：

45、s331：信息的向量序列hw＝[h1 h2 … hn]进入到条件随机场crf层进行优化，crf公式具体如下：

46、

47、

48、s332：在输出层最终获得根据相邻关系所得的全局最佳标签序列，即可输出最优实体。

49、进一步的，所述s4包括：

50、s41：从crf层输出的最优实体标签中，解析并识别关键实体，该关键实体包括故障代码、故障类型、云平台组件；

51、s42：利用预定义的关系模板，结合上一步识别的关键实体，构造出有向三元组，每个三元组包括实体、实体和它们之间的关系；

52、s43：在图数据库中创建节点和边来代表三元组中的实体和关系，对于每个新的三元组，检查图数据库中是否已经存在相应的节点和边，若不存在，则添加；

53、s44：应用图数据库的事务管理机制，确保所有新添加的三元组均已持久化存储，从而完成知识图谱的构建。

54、本发明的有益效果：

55、本发明，通过使用基于albert的轻量级预训练模型，本发明能在较少的数据集上达到高准确度，同时大大缩短模型训练时间，这一进步特别适用于国网云平台这种需要高效、准确运维信息获取和处理的复杂环境。

56、本发明，通过构建高质量的知识图谱，提供了一种更为全面和语义丰富的云运维解决方案，这一有益效果不仅提高了云平台运维的准确性，也为实施更为高级的运维策略，如预测性维护、资源优化等，提供了强有力的信息支持，因此，本发明在提高云平台运维效率和准确性方面具有重要的应用价值。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李志宏,王怀宇,来风刚,陈亮,冯志鹏,李妍,时佳伟,孙建刚,韩笑,蔡心怡,龙瀛,白东霞,何云瑞,李然,黄俊桦
技术所有人：国家电网有限公司信息通信分公司
我是此专利的发明人

上一篇：存储器的功耗优化方法及服务器与流程
上一篇：一种疏水型拖曳缆及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。