一种电力碳排放计算公式中的实体关系抽取方法

文档序号:37166202发布日期:2024-03-01 12:06阅读:22来源:国知局
一种电力碳排放计算公式中的实体关系抽取方法

本发明涉及信息抽取,具体为一种电力碳排放计算公式中的实体关系抽取方法。


背景技术:

1、与燃煤、燃油、燃气不同,用电数据的获取更便捷、覆盖范围更广、计量精度更高,通过对用电量的分析计算得到对应的碳排放量、实现“以电看碳”,是目前备受关注的方法。

2、在文本实体关系抽取方面,熊盛武等(融合外部知识的生成式实体关系联合抽取方法 [j],计算机技术与发展,2023)提出了融合外部知识的生成式实体关系联合抽取方法,采用多编码器和知识注意力机制,将结构化信息和句法结构等外部知识融入模型,提升实体关系三元组的准确率。在公式抽取方面,李东方等(<一种基于神经语义解析的金融文本公式抽取方法及装置,专利cn202110571085.9>,2021)针对蕴含金融公式的自然语言描述文本,首先基于融合类别向量的编码器进行特征提取,并利用基于语法树的解码器进行解码,获取各个时间步解码器输出的构造动作。最后基于构造动作列表构造上述金融公式对应的抽象语法树,并对上述抽象语法树进行深度优先搜索,获得形式化金融公式。由于电碳文档的文本和公式中的实体关系包含大量领域知识,表现为文字或符号等不同类型,其中涉及存在关联关系的标注样本较少,进而导致三元组抽取时无法直接识别实体和关系,因此,公知的针对文本和公式的抽取方法并不能有效抽取电碳文档中公式型的实体和关系。

3、在与电要素相关的实体关系抽取方面,束嘉伟等(面向电力知识图谱构建的重叠实体关系联合抽取方法 [j],高电压技术,2023)通过改进的序列标注方案进行联合抽取,构建电力领域专属预训练模型powerroberta,并增加对抗训练,提高模型抽取电力知识的准确度和对陌生信息的预测能力。在与碳要素相关的实体关系抽取方面,王良萸(面向碳交易领域的知识图谱构建方法 [j],计算机与现代化,2018)针对碳交易领域的半结构化和非结构化数据,分别采用自定义的web数据包装器和结合bilstm-crf模型与依存句法分析的方法进行三元组抽取。电要素和碳要素之间的内在关联关系,往往包含于电力相关部门的统计数据及其说明文件、企业年报或政府及官方组织发布的相关指导性文件中。上述技术针对从电数据或碳数据中抽取实体关系,但在电要素和碳要素共存的电碳领域中,数据分布和特征可能存在较大差异,所以上述技术在同时包含电碳要素的电碳数据中难以识别与电力碳排放相关的关键要素,不能有效描述电和碳两类要素之间的内在关系,对于存在于电碳文档公式中、但缺少对应文字描述的实体关系,上述问题尤其突出,因此,公知的与电要素相关或与碳要素相关的实体关系抽取方法并不能直接用于电碳实体与电碳关系的有效抽取。

4、为了从包含电碳计算公式的文档中有效抽取实体和关系,克服上述公知方法的不足,本发明提出一种电力碳排放计算公式中的实体关系抽取方法。

5、将电力碳排放计算公式中的变量统称为电碳变量,针对不同结构类型的电力碳排放计算公式中的“计算”“正相关”、“负相关”和“约束”这4类关系的不同发现方式,设计无虚拟根节点和有虚拟根节点两种不同结构的电碳公式树,增加电碳文档中公式型实体关系抽取的精度和效果。从包含电碳变量的句子内部分词的依存关系出发,基于远程监督的思想,根据少量种子句子的句法结构抽取多数新句子中的变量解释,提高电碳变量解释抽取的效率。对于无虚拟根节点的电碳公式树,结合根节点到叶子节点的路径来抽取电碳变量之间的关系;对于有虚拟根节点的电碳公式树,按照其第三层子树来抽取电碳变量之间的关系。上述针对电力碳排放计算公式的实体关系抽取方法,可有效抽取电碳文档中的公式型实体关系。


技术实现思路

1、针对存在于电碳文档公式中、但缺少对应文字描述的实体关系,本发明提出一种电力碳排放计算公式中的实体关系抽取方法,将句法树、远程监督、逻辑运算等技术结合,实现对电碳文档中电力碳排放计算公式的实体关系抽取,为电力碳排放量核算提供技术支撑。

2、为实现以上目的,本发明通过以下技术方案予以实现:一种电力碳排放计算公式中的实体关系抽取方法,包括以下操作方法:

3、s1、电碳公式树的构建:根据公式的不同结构类型对公式进行划分,将不同类型的电力碳排放计算公式的latex序列构建为不同类型的电碳公式树,得到电碳文档中所有电碳公式树构成的电碳公式森林;

4、s2、电碳变量解释的抽取:对得到的电碳公式树进行广度优先遍历,得到电碳公式树中的所有电碳变量,再基于远程监督的思想对包含电碳变量的句子进行依存分析,并抽取电碳变量对应的解释;

5、s3、电碳变量间关系的抽取:根据电碳公式树中不同的公式类型,通过广度优先遍历和深度优先遍历得到电碳变量和“运算符号”组成的不同路径序列,针对不同类型的计算公式和电碳公式树中的不同路径序列,抽取电碳变量之间的关系。

6、优选的,所述s1具体包括:电碳文档预处理、电力碳排放计算公式结构类型的划分和不同类型电碳公式树的构建。

7、优选的,所述不同类型电碳公式树的构建具体包括:特殊符号判断、上下标处理、两种电碳公式树的构建、第5类电力碳排放计算公式的处理和逻辑条件公式的处理。

8、优选的,所述s2具体包括:电碳变量句子的获取、电碳变量句子的抽取和打分函数中参数的训练。

9、优选的,所述电碳变量句子的抽取具体包括:种子句子的抽取和新句子的抽取。

10、优选的,所述s3具体包括:无虚拟根节点的电碳公式树的处理和有虚拟根节点的电碳公式树的处理。

11、优选的,所述无虚拟根节点的电碳公式树的处理具体包括:电碳公式树的剪枝、获取根变量到叶子变量的路径和抽取电碳变量之间的关系。

12、优选的,所述有虚拟根节点的电碳公式树的处理具体包括:获取第三层子树中的叶子变量和抽取电碳变量之间的关系。

13、本发明提供了一种电力碳排放计算公式中的实体关系抽取方法。具备以下有益效果:

14、1、针对电力碳排放计算公式的特点,本发明提出了一种电碳公式树的构建方法,针对不同的公式类型而设计的无虚拟根节点和有虚拟根节点的两类电碳公式树,增加了对电碳领域中公式型实体关系抽取的精度和效果。

15、2、针对包含电碳变量句子的特点,本发明提出了一种基于远程监督的电碳变量解释抽取方法,通过从句子内部分词的依存关系出发,根据少量种子句子的句法结构对多数新句子进行变量解释抽取,减少大量针对电碳文档中实体关系的人工标注,有效提高了实体关系抽取的效率。

16、3、针对设计的电碳公式树特点,本发明提出了一种针对电碳变量的实体关系抽取方法,通过结合根节点到叶子节点的路径来抽取电碳变量之间的关系,或按照公式树的第三层子树来抽取电碳变量之间的关系,使模型可以抽取存在于电碳文档公式中、但缺少对应文字描述的实体关系,从而实现对电碳领域中公式型实体关系的抽取。



技术特征:

1.一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:包括以下操作方法:

2.根据权利要求1所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述s1具体包括:电碳文档预处理、电力碳排放计算公式结构类型的划分和不同类型电碳公式树的构建。

3. 根据权利要求2所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于: 所述不同类型电碳公式树的构建具体包括:特殊符号判断、上下标处理、两种电碳公式树的构建、第5类电力碳排放计算公式的处理和逻辑条件公式的处理。

4.根据权利要求1所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述s2具体包括:电碳变量句子的获取、电碳变量句子的抽取和打分函数中参数的训练。

5.根据权利要求4所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述电碳变量句子的抽取具体包括:种子句子的抽取和新句子的抽取。

6.根据权利要求1所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述s3具体包括:无虚拟根节点的电碳公式树的处理和有虚拟根节点的电碳公式树的处理。

7.根据权利要求6所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述无虚拟根节点的电碳公式树的处理具体包括:电碳公式树的剪枝、获取根变量到叶子变量的路径和抽取电碳变量之间的关系。

8.根据权利要求6所述的一种电力碳排放计算公式中的实体关系抽取方法,其特征在于:所述有虚拟根节点的电碳公式树的处理具体包括:获取第三层子树中的叶子变量和抽取电碳变量之间的关系。


技术总结
本发明涉及信息抽取技术领域,提供了一种电力碳排放计算公式中的实体关系抽取方法,包括以下操作方法:S1、电碳公式树的构建:根据公式的不同结构类型对公式进行划分,将不同类型的电力碳排放计算公式的LaTeX序列构建为不同类型的电碳公式树,得到电碳文档中所有电碳公式树构成的电碳公式森林。针对电力碳排放计算公式的特点,本发明提出了一种电碳公式树的构建方法,针对不同的公式类型而设计的无虚拟根节点和有虚拟根节点的两类电碳公式树,增加了对电碳领域中公式型实体关系抽取的精度和效果。

技术研发人员:李世垚,王笳辉,岳昆,兰韵诗,李申章,赵志宇,段亮
受保护的技术使用者:云南大学
技术研发日:
技术公布日:2024/2/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1