一种基于大语言模型的生态修复工程全生命周期追溯方法与流程

文档序号:36311117发布日期:2023-12-07 13:46阅读:40来源:国知局
一种基于大语言模型的生态修复工程全生命周期追溯方法与流程

本发明涉及国土空间生态修复领域,尤其涉及一种基于大语言模型的生态修复工程全生命周期追溯方法。


背景技术:

1、随着生态修复工程领域的不断发展,生态修复知识体量呈现日益增长的趋势。与此同时,数字化进程的加速导致互联网和各类信息系统中产生了海量的与生态修复有关的数据信息。为了更好地组织和利用这些信息,构建生态修复知识图谱成为一种有效的手段。知识图谱是一种以图形化方式呈现的知识库,包含了各种实体、概念及其之间的语义关联。

2、随着知识图谱的不断发展,根据知识的表达范围,知识图谱演化出通用知识图谱、特定领域知识图谱两个大类。通用知识图谱表达存储常识性的百科知识,主要偏向知识的广度,面向普通用户,如搜索引擎构建的知识图谱。与通用知识图谱相比,领域知识图谱可以深度建模领域知识,更紧密地支撑复杂业务。当下知识图谱已在工业领域得到了广泛应用,如搜索领域的google搜索、百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱等。当前大数据环境下的生态修复信息服务,普遍存在“数据海量、信息爆炸、知识难求”现象,生态修复知识图谱的建立能够提供全新的生态修复相关数据组织方式和管理应用手段。而生态修复知识除了具有通用知识的内涵和特点之外,还具有特定的时空特征,因此生态修复知识图谱构建和应用具有一定的专业特殊性,导致当前并未建立完善的国土空间生态修复领域知识图谱。目前没有关于建立国土空间生态修复领域知识图谱的相关专利文献公开。

3、在知识图谱的构建过程中,当前实体对齐领域主流的方法是基于嵌入表示的实体对齐,该方法中的对齐模块需要使用人工标注的等价实体对作为训练集进行训练,依赖于人工操作,若任务知识图谱与预训练知识图谱包含不同的实体和关系,则基于嵌入的方法由于嵌入缺失而无法将有价值的信息传递给下游任务模型,因此对数据稀缺性不具备良好的处理方式。知识图谱的构建需要通过各种大数据平台获取知识,将来自不同数据源的知识进行融合,以构建数据之间的关联。目前知识图谱仍然缺乏有效的知识融合手段,实际应用中语料数据标注多依赖人工/半人工的方式进行实体对齐,存在标注效率低、主观性强等问题,效率和准确性距离大规模应用还有一定距离。

4、国土空间生态修复领域细分业务支线众多,并受自然或人为因素影响,国土空间生态修复数据呈现不定期更新变化状态,基于嵌入表示的方法难以适应数据的变化,从而影响实体对齐的准确性。国土空间生态修复涉及位置、项目、地块、规划、业务等相关信息,每一种信息都包含了大量的内容。现有技术的信息获取方法,一般是由用户对片面化的信息进行人工整理和分析,获取效率低,会因为用户自身的知识储备不足从而遗漏或查询不到自然资源隐含的信息,导致最终获取的信息准确率比较低。

5、此外,基于嵌入表示的方法不具备上下文理解能力,往往只能捕捉到文本的浅层语义信息,而在国土空间生态修复领域中,很多实体和关系可能涉及到较为复杂的语义信息,这会导致基于嵌入表示的方法在处理这些实体和关系时出现偏差,效率低下且易出错。


技术实现思路

1、本发明的目的一是为了解决知识图谱在构建过程中依赖人工标注、缺乏语义理解的问题;还为了解决目前自然资源模型中各实体节点之间关联关系单一,尚未形成国土空间生态修复知识图谱,无法从多个维度实现生态修复全周期管理的技术问题。提供一种基于大语言模型的生态修复工程全生命周期追溯方法,引入大语言模型至知识图谱的实体对齐阶段,针对国土空间生态修复领域的业务专业特性和地理特性,依托大规模的语料库和参数,能更准确地对自然语言进行理解和生成。

2、本发明的上述技术问题主要是通过下述技术方案得以解决的:

3、一种基于大语言模型的生态修复工程全生命周期追溯方法,包括以下步骤:

4、s1:获取包括结构化、半结构化和非结构化存储类型的国土空间生态修复知识数据源;

5、s2:分别从各存储类型的数据源中抽取包括实体、关系和属性的初始三元组集合;

6、s3:利用bert预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据;

7、s4:根据标准化三元组数据,依次进行知识加工和知识存储,完成生态修复知识图谱构建;根据用户的请求,调用生态修复知识图谱进行生态修复工程全生命周期追溯。

8、运用海量语料和机器学习大模型的知识融合能力,大大减少了很多以往依赖人工完成的基础性、模式化工作,能够有效解决多源异构生态修复知识库的实体对齐问题。通过设计并构建本体,运用bert实体对齐模型,形成标准化三元组数据,再将知识提炼加工,最终形成国土空间生态修复知识图谱。依托知识图谱技术,建立国土空间生态修复中各实体节点的多元关联,打破国土空间生态修复各业务条线数据因子之间的数据壁垒,实现对国土空间生态修复工作中各自然资源要素的全生命周期追溯,实时跟踪掌握全空间全时序变化关系、关联全业务全环节信息。

9、作为优选,所述的国土空间生态修复知识数据源包括现状、规划管控、管理以及其他四类数据。包括空间位置、业务表单、文档材料、标准规范、政策资料等。建立基于关系及关系层级延展、衍生的国土空间生态修复项目工程知识链条,将工程项目立项、实施、验收、管护多环节进行了关系链条表达,将抽取与融合得到的国土空间生态修复知识进行了可视化表达。

10、作为优选,对于结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体、属性及关系;

11、对于半结构化数据,建立对应的模板抽取器实现知识抽取;主要抽取的是实体名、标签、基本描述、信息卡、扩展链接、分类等信息;

12、对于非结构化数据,利用抽取器进行文本中的知识抽取。

13、对非结构化和半结构化数据进行实体抽取、关系抽取和属性抽取。实体抽取是从原始文本识别实体,包括基于规则与词典、基于统计机器学习、面向开放的方法。关系抽取通过语义解析联结实体,包括人工构造语义规则、开放域信息抽取框架等。属性抽取从多源异构数据汇集信息并勾勒实体,包括基于规则和启发式算法的方法。

14、作为优选,创建实体、属性、关系的知识模型,具体包括:

15、定义实体集合;

16、定义实体属性集合,为每个实体构造属性值列表;属性具有必选/可选、单值/多值、组合/派生等多种特性;

17、根据已经定义完成的实体集合及实体属性集合定义出实体之间的关系集合,包括业务关系、时间关系和空间关系;其中空间关系,主要利用空间分析获得空间关系,国土空间生态修复项目工程在物理世界存在空间范围,通过gis分析可以得到拓扑、方向、距离等关系。

18、形成完整的实体、属性、关系的知识模型,包括实体-属性-实体属性值、实体-时间关系-实体、实体-空间关系-实体及实体-业务关系-实体的三元组数据结构。

19、作为优选,利用bert预训练语言模型进行实体对齐的过程包括:

20、构建索引,以生态修复标准实体库作为对照实体库,对实体进行形象化描述;

21、获取候选集,对待对齐实体库中每个实体进行对齐并挂载到生态修复标准实体库中;

22、bert语义相似度计算,将候选集,利用bert预训练语言模型计算实体间属性相似度和文本相似度,并进行向量化表示,再利用余弦聚类计算实体的相似度;

23、筛选对齐实体,将计算的实体相似度的值,按由高到低排序,筛选出相似度最高的作为可对齐实体,并根据相似度分布,利用不同的步长来设置一个相似度阈值,选出大于或低于阈值的实体对。

24、通过学习实体语义及属性的特性,将其相似度作为实体对齐的筛选标准,能够有效解决多源异构国土空间生态修复知识库数据融合中依赖人工标注、缺乏语义理解的问题,通过该模型可以将标准的实体对进行对齐,形成标准三元组集合,并将三元组存储于neo4j中。

25、作为优选,形象化描述的表示为:

26、

27、

28、

29、

30、其中,e代表实体;

31、n代表实体名称;

32、id 代表实体库中实体的 id;

33、w代表实体的非结构化文本信息;

34、c代表实体的类别信息;一个实体可以拥有多个类别;

35、pt代表实体的属性三元组;一个实体可以拥有多个属性三元组。

36、属性三元组pt包括实体名称s、属性名p和属性值o;

37、对于两个实体库中的实体,将除了id 以外的所有文本信息作为语料,对其进行分词和去除无用词的处理,获取每一个实体的词向量表示;

38、计算统计两个实体库中所有单词的逆文本频率指数和词向量中每个单词的相对词频,由此获取词向量中每个单词的权重值,并将词向量按照权重值递减的顺序排列。

39、作为优选,遍历两个实体库中的所有实体,得到对应词向量的前缀长度k,以词向量的前k个词分别为索引键,对实体的 id 进行挂载,形成生态修复实体id集合;对应词向量的前缀长度k的计算公式如下:

40、

41、

42、其中,threshold为设置的相似度阈值;

43、为第i个关键词,;

44、n为词向量的最大前缀长度。

45、作为优选,属性相似度的计算过程为:

46、对于对照实体库中的单个实体的各个属性,分别遍历待对齐实体库中对应的实体的属性集合,寻找同名的属性;

47、若没有同名的属性,则利用bert预训练语言模型学习实体属性的向量再计算相似度;

48、单独统计对照实体库中每个实体的属性相似度,将计算出的属性相似度进行归一处理。

49、作为优选,文本相似度的计算过程为:

50、通过bert预训练语言模型获取对照实体库和待对齐实体库中每个实体具有上下文特征的向量表示;

51、计算两向量余弦值相似度,具体公式为:

52、

53、其中,为对照实体库实体的文本向量表示;

54、为待对齐实体库实体的向量表示;

55、为两个实体间相似值。

56、基于实体文本关键词索引结构,在提高实体对齐效率的同时,还提升了实体的准确率及保证了实体的召回率。

57、作为优选,对照实体库中的实体匹配待对齐实体库中的候选实体,根据属性相似度和文本相似度加权计算实体对相似度;根据相似度计算结果寻找大于阈值的实体对集合,并将此作为对照实体库实体的待对齐实体集合。

58、本发明的有益效果是:

59、1. 针对国土空间生态修复领域的业务专业特性和地理特性,bert模型能够将生态修复高质量、高标准的生态修复标准实体库作为训练数据源,通过自注意力机制等技术,能在没有标注的数据上进行无监督或自监督的学习,从而减少人工标注工作量。

60、2. 在bert模型中采用文本向量化和实体文本关键词作索引的方法进行信息检索,将任意长度的文本转换为固定长度的向量表示,利用向量空间中向量之间的关系计算相关性得分,与传统信息检索方式相比能够全面考虑文本中关键词的信息,提高检索效率和质量。

61、3. 运用海量语料和机器学习大模型的知识融合能力,大大减少了很多以往依赖人工完成的基础性、模式化工作,能够有效解决多源异构国土空间生态修复知识库的实体对齐问题。

62、4.通过设计并构建本体,运用bert实体对齐模型,形成标准化三元组数据,再将知识提炼加工,最终形成国土空间生态修复知识图谱。依托知识图谱技术,建立国土空间生态修复中各实体节点的多元关联,打破国土空间生态修复各业务条线数据因子之间的数据壁垒,实现对国土空间生态修复工作中各自然资源要素的全生命周期追溯,实时跟踪掌握全空间全时序变化关系、关联全业务全环节信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1