一种基于知识图谱的标准作业程序生成方法与流程

文档序号:37172002发布日期:2024-03-01 12:19阅读:14来源:国知局
一种基于知识图谱的标准作业程序生成方法与流程

本发明涉及标准数字化,尤其是涉及一种基于知识图谱的标准作业程序生成方法。


背景技术:

1、标准作业程序(standard operating procedure,sop)是描述某一作业的流程、任务、操作等的规范化说明。标准作业程序在制造业中被广泛应用,具体包括作业指导书、生产工艺过程卡、检验指导书等。标准作业程序用于指导和规范日常工作,通过规定作业目的、作业步骤、作业要求等,使同一作业每次都被相同的方式执行,确保工作的一致性、合规性、标准化。标准作业程序通常包括标题、目的、适用范围、责任与角色、流程步骤、相关文件、附录等内容。

2、标准作业程序的关键特征和元素包括:

3、(1)清晰的步骤说明:提供执行任务或操作的步骤说明,包括步骤顺序、步骤描述;应包括执行步骤必要的其他内容,如安全注意事项、异常处理、关键时间点等;

4、(2)责任和角色分配:明确执行任务或操作的各个角色和责任,如各步骤的操作人员、审核者等,分工清晰、合理,确保工作的协调性和责任明确;

5、(3)所需资源清单:列出执行工作所需的所有材料、设备、工具等资源清单,明确设备型号、工具名称等资源的具体要求;

6、(4)变更情况说明:记录标准作业程序的定期审查和更新情况,确保该作业程序的有效性,并始终与最新的工作流程和标准保持一致。

7、标准作业程序通过上述内容及关键要素的规范化,以实现作业流程的标准化、作业程序关键控制点的细化与量化,进而指导和规范日常工作,降低错误的风险、提高效率和安全性。

8、标准作业程序应当采用合适的形式表达,目前在企业中大多以纸质或电子的文档形式为主,供作业人员翻看、查阅后参照使用,关键信息的定位、关联、更新、传递往往依靠从业多年人员的经验,电子文档中的文本、表格、图片所承载的信息无法被自动理解。然而,随着企业数字化进程的不断推进,传统形式的标准作业程序由于依赖人工阅读、内容无法信息化集成、变更迭代繁琐易出错,无疑会面临使用效率低、协同差、应用难等问题,导致无法响应未来工厂的数智化作业需求。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于知识图谱的标准作业程序生成方法,能够将标准作业程序数字化,实现标准作业程序的内容知识化、应用智能化。

2、本发明的目的可以通过以下技术方案来实现:一种基于知识图谱的标准作业程序生成方法,包括以下步骤:

3、s1、对标准作业程序进行知识图谱的本体设计;

4、s2、对不同类型的标准作业程序文档进行知识抽取的模板标注;

5、s3、基于ocr(optical character recognition,光学字符识别)技术,对标准作业程序文档中的信息进行自动知识抽取;

6、s4、将抽取出的知识与本体概念对齐;

7、s5、构建出每个概念下的实体表;

8、s6、构建用于描述实体间关系的关系表;

9、s7、基于实体表和关系表,进行实体对齐处理;

10、s8、通过neo4j构建出用于用户查询的图数据库服务。

11、进一步地,所述步骤s1的具体过程为:

12、根据标准作业程序的内容,结合对应的标准,设计知识图谱本体,所述知识图谱本体定义了一组共享的基本概念和关系,用于描述相应领域内的实体、属性和关系。

13、进一步地,所述步骤s2具体包括以下步骤:

14、s21、上传标准作业程序文档作为待标注模板;

15、s22、通过单元格识别模型,对上传文档中存在的单元格进行识别;

16、s23、根据单元格识别结果,选择出键单元格;

17、s24、关联选择相应的值单元格及其信息类型;

18、s25、完成所有需要抽取的单元格标记;

19、s26、模板保存和复用。

20、进一步地,所述步骤s22的具体过程为:

21、s221、将文档图像转换为灰度图;

22、s222、使用大津法对灰度图进行二值化;

23、s223、使用霍夫变换检测图像中的横线和纵线;

24、s224、补全不完整的线段,对于每一条横线,计算与端点最近的纵线的交点,若交点不在横线上、且与端点的距离在设定阈值内,则用交点替换端点来补全线段;

25、s225、将检测的线段绘制成mask,对mask形态学提取轮廓得到单元格的坐标;

26、s226、剔除重叠的单元格。

27、进一步地,所述步骤s224中设定阈值具体为图像长宽之和的200分之一;

28、所述步骤s226具体是计算两两单元格之间的iou(intersection over union,交并比),若iou>0.5,则将两个单元格中面积大的单元格剔除掉。

29、进一步地,所述步骤s3具体包括以下步骤:

30、s31、从模板库中筛选出与待识别文档相匹配的模板;

31、s32、依次进行表格文本行检测及表格文本行识别;

32、s33、判断是否有表格,若有表格,则进行表格结构识别,之后进行标注框与文本框匹配;否则直接进行标注框与文本框匹配。

33、进一步地,所述步骤s33中进行标注框与文本框匹配的具体过程为:

34、根据模板匹配得到每个信息的标注框,其类型包括键、值、表格和图像,对于键和值,对整个文档图像识别文本得到文本框和文本值,之后根据坐标位置使用iou匹配标注框与文本框,当iou>0.5时认为标注框与文本框是匹配的,记录文本框对应的文本值;

35、对于表格,进行表格结构识别,再使用iou匹配表格单元格与文本框,将匹配的文本内容填到对应单元格的html标签中,记录其html表示;

36、对于图像,将图像区域保存成图片,记录其保存路径;

37、最终将键-值、键-表格、键-图像的结果以json格式输出。

38、进一步地,所述步骤s5的具体过程为:按照概念在关系型数据库中建立相应的表格,为每个概念创建一个数据表,该表格字段包括主键、实体名称和实体属性,实体属性包括对该实体的解释以及其他相关属性,每个属性会对应一个字段,数据表中每一行数据对应一个实体及其属性值。

39、进一步地,所述步骤s6具体是将实体表中的id关联起来,构成三元组:头实体、尾实体、关系名,并将三元组在关系型数据库中记录为关系表,关系表的字段包括头实体,尾实体,关系名,关系属性。

40、进一步地,所述步骤s7具体包括以下步骤:

41、s71、抽取实体名和实体属性嵌入得到特征向量1;

42、s72、抽取相邻实体和关系嵌入得到特征向量2;

43、s73、将特征向量1和2组成特征矩阵;

44、s74、计算两两实体嵌入向量的相似度;

45、s75、根据相似度排序并按阈值筛选,得到同义实体的候选集;

46、s76、从同义实体的候选集中选择出正确的同义实体对、并记录于单独的数据表中,得到同义实体对数据表;

47、s77、根据同义实体对数据表,遍历实体表,保留规范实体、删除同义实体,再遍历关系表,将关系中已被删除的同义实体替换为规范实体。

48、与现有技术相比,本发明具有以下优点:

49、本发明提出一种将纸质或电子文档形式的标准作业程序数字化的方案,基于ocr和知识图谱为主的人工智能技术,通过识别、提取标准作业程序中不同载体(文字、图、表等)的关键要素,并根据现场作业条件和实际作业需求进行关键要素的数字转化、信息关联、知识重构,能够有效实现标准作业程序的内容知识化、应用智能化,从而提升企业作业的数字化水平,降低生产资料的管理成本,减少人工介入的工作量,提升企业的生产效率。

50、本发明根据标准作业程序的内容,结合对应的标准,设计知识图谱本体,该知识图谱本体定义了一组共享的基本概念和关系,用于描述相应领域内的实体、属性和关系,由此利用知识图谱的框架,将不同来源和用途的文档知识通过一套本体设计融合到一起,挖掘了知识之间的关联性,便于关联查询和管理,能够极大提升企业标准作业程序的数字化、知识化利用水平。

51、本发明针对不同类型的标准作业程序文档进行知识抽取的模板标注,克服了现有方法无法识别标准作业程序文档复杂多变的排版结构的缺点,仅需要极少量的模板标注,即可实现低成本高定制的自动ocr识别方案,实现了对复杂多变的排版结构灵活的处理能力,具有成本低廉、适用性广的优点。

52、本发明考虑到人工编纂文档所造成的表述差异化的问题,利用知识图嵌入的相似度计算方法自动筛选出在文本表述和邻近子图结构高度相似的实体,能够低成本进行实体对齐,从而有效提高数据清洗的效率、数据的质量和利用率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1