本发明涉及通信网络领域,尤其是一种对通信网络设备的配置文件进行标注的方法及装置。
背景技术:
1、大语言模型llm(large language model)是一种通过海量语料预训练出的巨大参数量的模型,具备思维链能力和内容生成能力。在大语言模型的基础上,可以通过某个行业的标注语料进一步的进行针对性微调,使大语言模型对某个行业的领域知识更加精通,能够更加适配行业应用的需要。
2、对于通信网络设备,根据不同的业务组合,会在配置文件中配置大量的业务指令。如果要微调出一个针对此类配置文件、可自动按需生成配置指令、对配置文件进行增量编辑的大模型,就必须对配置文件进行详细标注。
3、通信网络设备的配置文件,特点有四:一是配置文件非常长,有可能达到上万行配置;二是专业性高,配置指令相似度高,很多业务组合都是用比较接近的配置指令组合实现,必须有很强的专业性,才能确保配置正确;三是配置间相关度高,一个业务功能会涉及多段配置,配置间有很强的依赖;四是基本没有注释,文件中只有配置指令,没有解释信息。
4、目前针对配置文件进行标注,大部分是依靠网络运维业务专家进行人工标注,标注成本非常高,需要一套自动化的手段进行辅助标注,释放大部分人力。
技术实现思路
1、为解决现有技术存在的上述问题,本发明提供一种对通信网络设备的配置文件进行标注的方法及装置,可以对配置文件中的配置指令进行详细标注,以支撑通信网络设备配置相关大语言模型的微调。
2、为实现上述目的,本发明采用下述技术方案:
3、在本发明一实施例中,提出了一种对通信网络设备的配置文件进行标注的方法,该方法包括:
4、收集各通信网络设备厂商的设备说明文档,并使用langchain框架构建知识库;
5、收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分;
6、使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;
7、逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果。
8、进一步地,使用langchain框架构建知识库,包括:
9、对设备说明文档进行切分,切分后的文档片段进行embedding向量化,将结果存入向量库中;
10、选择一个具备对话能力与思维链能力的基础大语言模型进行部署;
11、开放知识检索接口,支持根据接口请求的内容,在向量库中进行检索匹配;
12、通过提示词工程,对知识检索接口的输出进行约束,将检索匹配结果进行总结;
13、将总结结果作为知识背景,重新向知识库提问;
14、将此轮问答结果,组合成多轮问答的格式,作为知识检索接口的输出。
15、进一步地,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:
16、收集各通信网络设备的配置文件,集中进行存储;
17、针对通信网络设备的厂商,指定该通信网络设备的配置文件的切分规则;
18、根据切分规则,对配置文件涉及的所有指令进行逐一切分。
19、进一步地,使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:
20、将切分后的指令块与指令行进行embedding向量化;
21、对配置文件涉及的所有指令内容,使用tf-idf算法进行相似度分析,获取指令中的关键字;
22、对指令块与指令行进行遍历,将指令中的关键字全部取出;
23、调用知识库的知识检索接口,根据关键字从设备说明文档中获取该配置指令的配置规范、配置背景以及应用场景,并转为多轮问答的格式;
24、将多轮问答结果转为json格式;
25、将上述json内容与指令块、指令行合并在一起,组合成正式标注结果。
26、在本发明一实施例中,还提出了一种对通信网络设备的配置文件进行标注的装置,该装置包括:
27、知识库构建模块,用于收集各通信网络设备厂商的设备说明文档,并使用langchain框架构建知识库;
28、标注语料构建模块,用于收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分;使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果。
29、进一步地,使用langchain框架构建知识库,包括:
30、对设备说明文档进行切分,切分后的文档片段进行embedding向量化,将结果存入向量库中;
31、选择一个具备对话能力与思维链能力的基础大语言模型进行部署;
32、开放知识检索接口,支持根据接口请求的内容,在向量库中进行检索匹配;
33、通过提示词工程,对知识检索接口的输出进行约束,将检索匹配结果进行总结;
34、将总结结果作为知识背景,重新向知识库提问;
35、将此轮问答结果,组合成多轮问答的格式,作为知识检索接口的输出。
36、进一步地,收集各通信网络设备的配置文件,并按照各通信网络设备厂商提供的切分规则进行切分,包括:
37、收集各通信网络设备的配置文件,集中进行存储;
38、针对通信网络设备的厂商,指定该通信网络设备的配置文件的切分规则;
39、根据切分规则,对配置文件涉及的所有指令进行逐一切分。
40、进一步地,使用tf-idf算法,提取配置文件涉及的所有指令中的关键字;逐个解析指令,提取出指令中的关键字,调用知识库的知识检索接口,根据关键字生成多轮问答的格式,构建标注结果,包括:
41、将切分后的指令块与指令行进行embedding向量化;
42、对配置文件涉及的所有指令内容,使用tf-idf算法进行相似度分析,获取指令中的关键字;
43、对指令块与指令行进行遍历,将指令中的关键字全部取出;
44、调用知识库的知识检索接口,根据关键字从设备说明文档中获取该配置指令的配置规范、配置背景以及应用场景,并转为多轮问答的格式;
45、将多轮问答结果转为json格式;
46、将上述json内容与指令块、指令行合并在一起,组合成正式标注结果。
47、在本发明一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述对通信网络设备的配置文件进行标注的方法。
48、在本发明一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介质存储有执行对通信网络设备的配置文件进行标注的方法的计算机程序。
49、有益效果:
50、1、本发明收集通信网络设备的设备说明文档,构建知识库。
51、2、本发明重写知识库的知识检索接口,使用配置指令中的关键字进行知识检索,获取指令的背景信息,自动构建出多个问题,再次向知识库发起检索,获取指令配置的各项重点信息,生成多轮问答的格式。
52、3、本发明遍历通信网络设备上的配置文件,自动识别配置文件中的指令块或指令行,提取指令中的关键字,并自动调用知识检索接口,生成标准格式的标注语料。