一种构建工艺知识图谱的半自动化标注方法及装置

文档序号:38036007发布日期:2024-05-17 13:21阅读:11来源:国知局
本发明属于自然语言处理,特别涉及一种构建工艺知识图谱的半自动化标注方法及装置。
背景技术
::1、知识图谱是结构化的语义知识库,一直都是自然语言处理领域的热门研究方向,它可以迅速描述物理世界中的概念及其相互关系,同时可以挖掘隐含的知识信息。2、关系三元组是知识图谱的一种通用表示方式,亦是其基本的存储形式,即“头实体-关系-尾实体”,实体间通过关系相互联结,构成网状的知识结构。因此构建工艺知识图谱离不开大量高质量的关系三元组,目前的关系三元组获取方式主要是关系三元组抽取模型和人工标注。三元组抽取模型使用公开数据集训练关系三元组抽取模型,然后对目标信息源进行三元组抽取,但模型的准确性受到训练数据和模型架构的影响,可能在某些情况下会出现错误的抽取。相较于训练模型抽取而言,人工标注虽然费时费力,但由专业人员进行的人工标注通常更准确,尤其是在涉及领域专业知识或复杂语境的情况下。3、同时,现有的领域三元组数据集数量较少,若采用其他常用的公开数据集预先训练三元组抽取模型,会使得模型抽取的准确率和精度进一步降低,同时某些领域的目标知识数据源存储形式大都为半结构化,即某个主体知识的信息描述可能存储于不同的位置,并无法直接应用于训练模型,所以目前最优选择仍然是人工对知识源进行预处理,然后对三元组进行标注。但其中结构化的知识信息,如若依靠人工进行标注,则会浪费大量人力资源。4、随着自然语言处理技术的发展,可以发现就知识图谱而言,其研究进展一直受限于数据集的数量与质量,大规模且高质量的标注数据对于训练关系抽取、知识推理等深度学习模型至关重要。有时候,获取足够数量和质量的数据可能是困难的,特别是在特定领域或语言中。同时,人工标注数据是一个昂贵和耗时的过程,在一些领域,例如工业或医学,需要专业知识的标注,这进一步提高了标注的成本。技术实现思路1、本发明的目的在于提供一种构建工艺知识图谱的半自动化标注方法及装置,以解决目前知识图谱构建过程中,对半结构化文件进行关系三元组获取时,效率低、准确率低等问题。2、为实现上述目的,本发明采用以下技术方案:3、一种构建工艺知识图谱的半自动化标注方法,包括以下步骤:4、步骤1,分析半结构化文件的知识存储形式,包括:设计知识图谱模式层、定义将其转换为二维表格形式的规则、定义将零散的知识信息整合为完整自然语言的规则、定义自动生成关系三元组的规则、定义人工标注关系三元组的规则;5、步骤2,根据半结构化文件的数据存储类型,以及步骤1中设计的知识图谱模式层和所定义的将半结构化文件转换为二维表格形式的规则,使用python中的tkinter标准图形用户界面工具包为基准,编译设计可视化三元组标注工具的基本界面,该可视化三元组标注工具具备将目标文件正确转换为二维表格并加载显示的功能;6、步骤3,对于步骤2中加载显示的二维表格形式的信息文件,在可视化三元组标注工具中添加以下功能:在表格中自动生成两列,第一列用于存储后续自动生成的自然语言,第二列用于存储该自然语言中标注所得的关系三元组;7、步骤4,根据步骤1中定义的将零散的知识信息整合为完整自然语言的规则,在可视化三元组标注工具中添加自动生成自然语言的功能,然后根据步骤1中定义的自动生成关系三元组的规则,在可视化三元组标注工具中添加自动生成关系三元组的功能,并将自动生成的自然语言和关系三元组填入步骤3中可视化三元组标注工具自动生成的对应列;8、步骤5,对步骤4中自动生成的自然语言添加语句重写功能,使标注工作者能够修改和重写自动生成的自然语言,同时加入统计当前文字数量的功能,以便工作者控制文本字数;9、步骤6,对于步骤5中已经修改重写后自然语句,根据步骤1中定义的人工标注关系三元组的规则为其添加人工标注三元组的功能,包括:添加文本框、下拉列表和按钮,并绑定响应函数,实现选中相应语句,按下快捷键,快速将其标记为头实体或尾实体的功能,然后在下拉列表中选择相应关系,按下按钮,由此标记出一个完整的关系三元组;10、步骤7,经步骤6中的多次标注操作后,即可完成该半结构化文件的关系三元组标注工作,然后为可视化三元组标注工具添加保存功能,实现保存当前文件的功能;同时,如若当前文件只完成了部分标注,亦可进行保存,用于再次加载和标注。11、本发明进一步的改进在于,步骤2中,可视化三元组标注工具的可视化界面使用python中的tkinter标准图形用户界面模块,使用pandas模块读取并加载文件,并结合pandastable模块中的table工具包将文件转换为二维表格的形式显示,同时在界面右侧添加按钮,添加相应的响应函数,实现加载文件、切换文件不同子表的功能。12、本发明进一步的改进在于,步骤3中利用pandas模块的insert()函数,向二维表格形式的信息文件的指定位置添加新列,用于存储后续生成的自然语言文本和标注的关系三元组信息。13、本发明进一步的改进在于,步骤4中在步骤2使用pandas模块的读取并加载文件的基础上,以步骤1中分析所得的规则为前提,自动抽取当前主体知识信息所涉及的位于其他位置或子表的知识信息,依照所定规则,自动化生成相应的自然语言文本,写入步骤3中生成的用于存储自动化生成自然语言文本的列,并利用提取的工艺信息自动生成关系三元组即“头实体-关系-尾实体”,将其转换为python语言中的列表存储,其格式为“[[头实体1,关系1,尾实体1],[头实体2,关系2,尾实体2],…,[头实体3,关系3,尾实体3]]”,并写入步骤3中生成的用于存储标注关系三元组的列。14、本发明进一步的改进在于,步骤5中采用为步骤2中新增列的相应单元格绑定点击函数的形式,实现点击该单元格显示对应弹窗的功能;当点击存储自然语言文本的单元格时,弹窗显示步骤4中自动化生成的文本语言,在弹窗中加入统计当前字数和修改当前文本的按钮,为其绑定相应的响应函数,方便标注人员修改和控制字数;当点击存储关系三元组的单元格时,弹窗显示步骤4中自动化生成的关系三元组,该弹窗分为三部分,第一部分显示当前改写后的自然语言文本,第二部分显示该文本中已经存在的关系三元组,第三部分则是新增和删除关系三元组的功能。15、本发明进一步的改进在于,步骤6中人工标注关系三元组的功能,选中相应文本,按下快捷键实现;其中获取选中文本的功能,通过tkinter中的get(start_index,end_index)获取光标所选文本,并通过insert("insert",selected_text)将选取的文本填入对应的实体框;标注关系的功能,则通过向弹窗的相应位置添加tkinter模块中的combobox组件实现下拉列表,标注者在选中关系后,点击添加按钮,即可将其插入到指定列;自动化生成的关系三元组和人工标注的关系三元组均以python语言中的列表形式存储,通过添加相应的文本框和按钮,实现删除某些标注错误的三元组的功能。16、本发明进一步的改进在于,步骤7中的导出保存标注文件的功能,通过向主界面中添加导出按钮,并绑定相应的响应函数实现,其中导出文件的响应函数采用pandas中的excelwriter()函数实现,如若需要转换为其他文件格式,则在响应函数中定义相应规则,应用python中的json模块将相应的信息转换为其他文件格式。17、一种构建工艺知识图谱的半自动化标注装置,包括:18、文件分析模块,用于分析半结构化文件的知识存储形式,包括:设计知识图谱模式层、定义将其转换为二维表格形式的规则、定义将零散的知识信息整合为完整自然语言的规则、定义自动生成关系三元组的规则、定义人工标注关系三元组的规则;19、文件转换模块,根据半结构化文件的数据存储类型,以及文件分析模块中设计的知识图谱模式层和所定义的将半结构化文件转换为二维表格形式的规则,使用python中的tkinter标准图形用户界面工具包为基准,编译设计可视化三元组标注工具的基本界面,该可视化三元组标注工具具备将目标文件正确转换为二维表格并加载显示的功能;20、第一功能添加模块,用于对文件转换模块中加载显示的二维表格形式的信息文件,在可视化三元组标注工具中添加以下功能:在表格中自动生成两列,第一列用于存储后续自动生成的自然语言,第二列用于存储该自然语言中标注所得的关系三元组;21、第二功能添加模块,用于根据文件分析模块中定义的将零散的知识信息整合为完整自然语言的规则,在可视化三元组标注工具中添加自动生成自然语言的功能,然后根据文件分析模块中定义的自动生成关系三元组的规则,在可视化三元组标注工具中添加自动生成关系三元组的功能,并将自动生成的自然语言和关系三元组填入第一功能添加模块中可视化三元组标注工具自动生成的对应列;22、第三功能添加模块,用于对第二功能添加模块中自动生成的自然语言添加语句重写功能,使标注工作者能够修改和重写自动生成的自然语言,同时加入统计当前文字数量的功能,以便工作者控制文本字数;23、第四功能添加模块,用于对于第三功能添加模块中已经修改重写后自然语句,根据文件分析模块中定义的人工标注关系三元组的规则为其添加人工标注三元组的功能,包括:添加文本框、下拉列表和按钮,并绑定响应函数,实现选中相应语句,按下快捷键,快速将其标记为头实体或尾实体的功能,然后在下拉列表中选择相应关系,按下按钮,由此标记出一个完整的关系三元组;24、文件标注模块,经第四功能添加模块中的多次标注操作后,即可完成该半结构化文件的关系三元组标注工作,然后为可视化三元组标注工具添加保存功能,实现保存当前文件的功能;同时,如若当前文件只完成了部分标注,亦可进行保存,用于再次加载和标注。25、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时实现所述的一种构建工艺知识图谱的半自动化标注方法的步骤。26、与现有技术相比,本发明至少具有以下有益的技术效果:27、本发明提出的基于定义规则的关系三元组半自动化标注方法,通过分析半结构化文件中知识信息存储模式,自动生成涵盖所有知识信息的自然语言,同时自动将相应的结构化信息标注为三元组,这种自动化的标注方法加快了人工标注的效率,减少了人工劳动力的投入;28、本发明采用的半自动化标注方式,一定程度上避免了人工标注中因误操作引起的标注错误,大大提高了三元组数据集的质量,因为人员以往在长期读写和标注三元组时,难免会出现误标或前后标注规则不一致的问题;29、本发明采用光标选中相应文本,按下快捷键即可标注当前实体,不仅加快了标注效率,还进一步减少了人工打字造成的误标,提高了三元组数据集的正确性。30、综上,本发明提出的构建工艺知识图谱的半自动化标注方法及装置,能够推进领域关系三元组数据集的发展,降低了制作领域三元组数据集的成本,有利于促进自然语言处理行业的进一步研究。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1