一种基于YOLOv5的文档图像流程图识别方法、设备及介质与流程

文档序号：31586164发布日期：2022-09-21 01:56阅读：280来源：国知局

一种基于yolo v5的文档图像流程图识别方法、设备及介质
技术领域
1.本发明涉及图像处理技术领域，具体涉及一种基于yolo v5的文档图像流程图识别方法、设备及介质。

背景技术：

2.流程图由多个结构元素以及它们之间的连接关系构成。相比于单一的文字描述，更能直观体现事项的执行过程，因此被广泛应用于办事指南、算法流程等文档中。对文档图像中的流程图进行识别和分析对文档图像识别有着重要意义。其中的难点在于，构成流程图的结构元素较多，虽然结构元素之间只有顺序、循环以及分支三种关系，但能够组合成多种复杂的排版结构，这都给流程图识别带来了一定的难度。
3.现有流程图识别的思路在于分别对结构元素和文字进行处理，结构元素的处理是识别每个结构元素的形状以及连接关系，文字处理则通过成熟的ocr技术识别流程图中的文字。其中结构元素的识别是重点和难点所在，已有的识别方式为连通域分析法和角点检测法。其中，连通域的方式在于首先对结构元素和文字进行分层处理，之后通过连通域分析，结合阈值法对结构元素进行提取和识别。局限之处在于，连通域分析通过像素的连续性判断像素是否为同一类别，因此无法处理由轮廓不连续的情况。另一种角点检测法，将结构元素以及它们之间的连接线段一并作为分类目标。角点定义为直线或曲线相交的交点，因此可以通过分析不同类型角点的组合方式判断对应的结构元素类别。结构元素被划分为直线型和曲线型，分别通过不同的角点检测算法检测角点的类型，再通过角点类型的组合规则判断结构元素的类别。不足之处在于，结构元素的种类较多，以至于组合规则设计复杂，算法实施困难。
4.因此，现有方法在流程图结构元素的识别准确性以及算法效率方面有待提高。

技术实现要素：

5.因此，本发明要解决的技术问题在于克服现有技术中识别不准确、算法效率低的缺陷，从而提供一种基于yolo v5的文档图像流程图识别方法、设备及介质。
6.一种基于yolo v5的文档图像流程图识别方法，包括以下步骤：
7.步骤1：利用yolo v5定位流程图在文档图像中的位置；
8.步骤2：流程图结构元素检测，得到每个结构元素的类别和位置信息；
9.步骤3：文字识别，得到结构元素内文本信息和条件文字信息；
10.步骤4：分析箭头线段位置，得到每个箭头线段的起始位置信息；
11.步骤5：结合结构元素和箭头线段的位置信息分析流程图的关系结构；
12.步骤6：流程图识别结果保存。
13.进一步，所述步骤1具体内容为：
14.1.1：使用带有流程图位置信息的公开文档图像数据集，或使用已有的文档图像，并标记图像中流程图区域的位置作为数据集；
15.1.2：使用所述步骤1.1得到的数据集训练yolo v5模型，保存训练后的模型；
16.1.3：通过训练完成的模型检测图像中的流程图区域，得到流程图的左上角和右下角坐标信息，对文档图像进行切片，保留图像中的流程图区域。
17.进一步，所述步骤2具体内容为：
18.2.1：流程图数据生成，设定流程图结构元素类别，随机生成流程图数据，保留生成的流程图结构与对应的类别和位置信息作为数据集，或使用已有的含流程图文档图像数据，并标记流程图中每一个结构元素的类别和位置信息作为数据集。
19.2.2：使用所述步骤2.1得到的数据集训练yolo v5模型，保存训练后的模型。
20.2.3：通过训练完成的模型对流程图进行结构元素的识别与定位，得到每个结构元素的类别信息与位置信息。
21.进一步，所述流程图结构元素类别为条件文字、矩形、椭圆形、菱形、或平行四边形。
22.进一步，所述步骤3中，文字识别需要通过ocr模型识别结构元素内的文字。
23.进一步，所述步骤3还包括对不位于结构元素框内的条件文字进行检测与识别。
24.进一步，所述步骤4中，箭头线段位置分析采用基于连通域的方法，具体过程如下：
25.4.1：根据所述步骤2得到的结构元素位置信息，去除流程图区域的结构元素，保留结构元素之间的箭头线段；
26.4.2：二值化取反操作，得到二值化的图像，其中箭头线段部分的像素是255，背景部分像素是0；
27.4.3：检测图像中的连通域，每个连通域表示一个箭头线段，得到构成该箭头线段的像素信息；
28.4.4：箭头线段起始位置分析：对每个箭头区域，设定一个较小的区域，遍历以每个像素点为中心的区域；
29.如果该区域存在两个连通域，则该区域作为箭头线段的候选端点区域，并统计该区域内值为255的像素数目，同时不再分析以该区域内其余像素点为中心的区域；
30.若存在三个连通域，则是箭头线中的非端点像素；
31.4.5：候选端点区域中，值为255的像素数目较多的区域为箭头区域，数目较少的是箭尾区域。箭头和箭尾区域对应的中心点坐标作为箭头和箭尾的坐标信息。
32.进一步，所述步骤5中，流程图关系结构分析：每一条箭头线段都表示一条关系，通过箭头和箭尾的位置信息遍历除条件文字以外的结构元素的位置信息，得到与该箭头线的箭头和箭尾相连的结构元素；
33.对于条件文字，查找与它欧氏距离最近的箭头线段，成为箭头线段和结构元素间的条件。
34.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
35.一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。
36.相比于现有技术，本发明通过yolo v5模型能够有效定位文档图像中的流程图所在位置，并且能够检测流程图中的各个结构元素，鲁棒性较强，避免了连通域方法对于轮廓
连续性的严重依赖问题；同时，通过一种端到端的目标检测方式，避免了角点检测法涉及的规则设计复杂问题。
附图说明
37.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1为本发明的流程图；
39.图2为本发明的流程图区域检测结果；
40.图3为本发明的生成的流程图数据；
41.图4为本发明的流程图结构元素识别定位结果；
42.图5为本发明的箭头线段分析结果；
43.图6为本发明的流程图分析识别结果。
具体实施方式
44.下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
46.在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
47.此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
48.请参阅图1，一种基于yolo v5的文档图像流程图识别方法，包括以下步骤：
49.步骤1：利用yolo v5定位流程图在文档图像中的位置；
50.步骤2：流程图结构元素检测，得到每个结构元素的类别和位置信息；
51.步骤3：文字识别，得到结构元素内文本信息和条件文字信息；
52.步骤4：分析箭头线段位置，得到每个箭头线段的起始位置信息；
53.步骤5：结合结构元素和箭头线段的位置信息分析流程图的关系结构；
54.步骤6：流程图识别结果保存。
55.所述步骤1具体内容为：
56.1.1：使用带有流程图位置信息的公开文档图像数据集，或使用已有的文档图像，并标记图像中流程图区域的位置作为数据集；
57.1.2：使用所述步骤1.1得到的数据集训练yolo v5模型，保存训练后的模型；
58.1.3：通过训练完成的模型检测图像中的流程图区域，得到流程图的左上角和右下角坐标信息，对文档图像进行切片，保留图像中的流程图区域，流程图区域检测结果如附图2所示。
59.进一步，所述步骤2具体内容为：
60.2.1：流程图数据生成，设定流程图结构元素类别，随机生成流程图数据，保留生成的流程图结构与对应的类别和位置信息作为数据集，或使用已有的含流程图文档图像数据，并标记流程图中每一个结构元素的类别和位置信息作为数据集，生成的流程图数据如附图3所示。
61.2.2：使用所述步骤2.1得到的数据集训练yolo v5模型，保存训练后的模型。
62.2.3：通过训练完成的模型对流程图进行结构元素的识别与定位，得到每个结构元素的类别信息与位置信息。流程图结构元素识别定位结果如附图4所示。
63.所述流程图结构元素类别为条件文字、矩形、椭圆形、菱形、平行四边形等21种。
64.所述步骤3中，文字识别需要通过ocr模型识别结构元素内的文字。
65.所述步骤3还包括对不位于结构元素框内的条件文字进行检测与识别。
66.所述步骤4中，箭头线段位置分析采用基于连通域的方法，具体过程如下：
67.4.1：根据所述步骤2得到的结构元素位置信息，去除流程图区域的结构元素，保留结构元素之间的箭头线段；
68.4.2：二值化取反操作，得到二值化的图像，其中箭头线段部分的像素是255，背景部分像素是0；
69.4.3：检测图像中的连通域，每个连通域表示一个箭头线段，得到构成该箭头线段的像素信息；
70.4.4：箭头线段起始位置分析：对每个箭头区域，设定一个较小的区域，遍历以每个像素点为中心的区域；
71.如果该区域存在两个连通域，则该区域作为箭头线段的候选端点区域，并统计该区域内值为255的像素数目，同时不再分析以该区域内其余像素点为中心的区域；
72.若存在三个连通域，则是箭头线中的非端点像素；
73.4.5：候选端点区域中，值为255的像素数目较多的区域为箭头区域，数目较少的是箭尾区域。箭头和箭尾区域对应的中心点坐标作为箭头和箭尾的坐标信息；
74.箭头线段分析结果如附图5所示。
75.所述步骤5中，流程图关系结构分析：每一条箭头线段都表示一条关系，通过箭头和箭尾的位置信息遍历除条件文字以外的结构元素的位置信息，得到与该箭头线的箭头和箭尾相连的结构元素；
76.对于条件文字，查找与它欧氏距离最近的箭头线段，成为箭头线段和结构元素间的条件。
77.所述步骤6中，流程图分析识别结果如附图6所示。
78.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器
执行所述计算机程序时实现上述任一项所述方法的步骤。
79.一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现上述任一项所述方法的步骤。
80.显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马红伟王振鑫裴昀贺亮潘维有
技术所有人：吉林省吉林祥云信息技术有限公司
我是此专利的发明人

上一篇：一种镀锌卷切割头的制作方法
上一篇：一种用于手术缝合的缝合器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。