一种图签识别方法

文档序号:6470293阅读:198来源:国知局
专利名称:一种图签识别方法
技术领域
本发明涉及一种图签识别方法,尤其涉及一种基于单元格拓
朴关系的CAD设计图纸上的图签识别方法。
背景技术
随着计算机辅助设计(CAD)的普及,电子图档在设计企业 的生产和管理中发挥的作用也越来越大,受到重视的程度日益提高。许多业主 在接收设计图纸的时候,往往还要求设计企业提供与之对应的电子图档。电子 图档在再利用方面有着纸质图纸无法比拟的优势。如果设计企业对多年来积累 的电子图档能有效管理,能在大量的历史图档中找到和当前工程设计有关的图 档并有效利用,就能够大大节省重新设计的时间,带来可观的效益。但是,海 量的电子图档,也带来了管理上的难题。为了把这些图档进行有效的分类,必 须提取图档中的工程、专业、设计者等有效信息。
图档中的关键信息,往往存在于"图签"(Title Box)中。如图l所示,是 图纸中的图签的示意图。图签10类似于一个表格,记录了设计企业的信息,设 计者的信息,以及工程编号,图名等具体的工程信息,对图档的用途有说明作 用。几乎所有正式打印交付的图档都有图签。因此,图签信息对于检索图档有 着至关重要的作用。目前提取图签信息是一个重复和繁瑣的手工录入过程,面 对海量的图档,工作量非常大,而且容易出现人为的错误。
自动提取图签信息的研究已经有一些成果。这些研究都集中于通过定制模 板来实现图签信息的读取。因为同一设计单位的图签都具有相似的布局,因此 定制模板的方式能解决相当部分图签的读取问题。然而,迄今这些识别方法都 是针对相对固定的图签格式,主要借助图签中的特征文字进行识别,无法解决 在实际应用中出现的图签变化问题。这些问题包括
*图签布局的变化。图签虽然有大致的布局,但往往没有严格统一的规范;同 时由于CAD绘图方式的多样性,设计人员也容易随心所欲的对图签进行一些 修改。比如,因为文字太多,存放文字的单元格被拉长、加宽或移位。这类
布局的变化,会导致识别失败。 *相似的图签引起的重复识别问题。许多图签看似相同,实际上存在变化,特 别是信息的提示文字-关键字发生变化,使得一个模板无法同时适应多种图 签。如果针对每一种变化制定一个模板,又容易出现重复识别的问题,即某 些图,能同时适用于多个模板。特别是图签格式比较多的时候,不同的模板 之间很难完全区分开,这种情况非常容易发生。
*没有关键字指引的单元格的识别与定位。有些单元格没有明显的关键字在附 近,但是又必须准确识别。 发明内容本发明的目的在于克服现有技术的不足,提出一种图签识别 方法,通过对图签共性的提取,制定一套匹配的规则,对图签中的单元格进行 准确定位,读取单元格中的文字,提取出图签信息。
本发明公开的 一种图签识别方法,用计算机程序自动读取电子图档中的图 签信息,包括如下步骤
第一步,读取所述电子图档中的文字和直线,再归并所述文字和直线,然 后排序;
第二步,取出下一个模板;
第三步,根据所述模板的设定,寻找所述电子图档中的一个关键字及其关
键字单元格;再根据所述模板设定的图签搜索范围和不同的关键字单元格之间 的相互关系,寻找所述电子图档中的其它关键字及其关键字单元格;如果成功 完成则表示匹配成功,进入下一步,否则回到第二步;
第四步,根据所述模板定义的关键字单元格与其它值单元格、混合单元格
和组单元格之间的拓朴关系,寻找所述值单元格、混合单元格和组单元格并提 取其中的信息;
第五步,如果所述计算机程序中还有其他模板,则回到第二步,否则合并 处理每一个模板的识别结果,消除其中重复的部分。
所述第一步中归并所述文字和直线的方法包括提取具有不同CAD图元类
型的文字和直线的位置和内容参数,把所有不同类型的文字和直线分别归并为 同一类型的文字和直线;把方向相同、首尾相连或中间部分重复的直线合并为
一条单一的直线;把误差范围内略微倾斜的直线调整成为角度为0。或90°的 直线。
所述第 一 步中排序的方法是^^所有的直线和文字分别按照坐标位置排序。 所述第三步中根据关键字寻找关键字单元格的方法包括,根据关键字所在 的位置任意确定一点P,再按上,下,左,右方向,根据以下规则找到所有直线 L:从所述点P引垂线到 一直线,垂足落在所述直线上即认为获得一个所述直线L; 再轮流选取四个方向上的直线,每个方向上均根据距离由近到远排序,如果是 水平线,寻找垂直方向上相交的两条直线;如果是垂直线,寻找水平方向上相 交的两条直线,直至得到包围该点、且两两相交的两条水平直线和两条垂直直 线,即为所述关键字单元格的四条边。
所述第三步中根据关键字单元格寻找图签内其它单元格的方法,包括反复 根据已知单元格在某个方向寻找与其相邻的单元格,寻找左边相邻的单元格的 方法包括如下步骤寻找相交于所述已知单元格矩形的左边线的所有直线并分 别求出交点,所述交点把所述单元格的左边线分隔成若干个线段A,找到分别相 交于每个所述线段A,的上、下端点的两条水平直线B和C,再寻找位于所述线 段A的左边、并且平行于所述线革殳A、还相交于所述水平直线B和C、同时距离 A最近的直线D,所述线段A、直线B和C、以及直线D组成的单元格就是左边 相邻的单元才各。
所述第四步中寻找所述值单元格信息的方法,包括如下步骤根据所述关 键字单元格,利用所述模板中规定的所述拓朴关系,找到对应的值单元格;或 者在所述全部单元格中,寻找与所述模板定义的所述值单元格的位置最接近的 一个单元格。
所述第四步中寻找所述混合单元格信息的方法,包括如下步骤先搜索包 含混合单元格关键字的单元格,然后在单元格的内容中去除关键字部分。
所述第三步中寻找所述组单元格信息的方法,包括如下步骤首先搜索与
其配对的关键字单元格,然后反复在规定的方向上搜索与其宽度相同的单元格 本发明通过灵活的规则定义,改进了模板匹配的方法,实现对表格中不同 类型的单元格的准确定位,从而避免了图签格式变化对识别带来的影响。 一套 规则能适应布局相近的多种图签,从而解决重复识别的问题。本发明通过对图 签共性的提取,根据各类特征,特别是格子之间的拓朴关系,对图签中的单元 格,包括没有关键字指引的单元格,都能进行识别与定位,从而提取和分析图 档中的图签内容。


图1是图纸中的图签示意图。
图2是图签中不同类型的单元格示意图。
图3是和关键字单元格有拓朴关系、但不相邻的单元格示意图。
图4是多个单元格同时与一个单元格相邻的示意图。
图5是本发明的单元格识别过程的总流程图。
图6是本发明根据一点寻找包含这点的单元格搜索过程流程图。
图7是本发明根据一个单元格,在某个方向寻找与其相邻的单元格流程图。
具体实施方式
下面结合附图和具体实施方式
对本发明做进一步详细说明。
本发明是一个计算机的自动处理过程,用于分析和提取图档中的图签内容。 该过程通过对图签共性的提取,制定一套匹配的规则,其核心是根据各类特征, 特别是格子之间的拓朴关系,对图签中的单元格(即表格中的一个不能再细分 的格子)进行准确定位。找到需要的单元格之后,读取单元格中的文字,提取 成为所需要的图签信息。
该过程需要计算机,所述计算机具有一个中央处理单元,该中央处理单元 在操作上连接到一个存储设备, 一个控制器, 一个输入设备和一个输出设备。 使用存储设备来存储处理过程中用到的直线和文字,以及适用于不同类型的电 子图档的匹配规则。中央处理单元对电子图档进行预处理之后,从存储器获得
可用的匹配规则,逐一尝试,然后对匹配结果进行筛选和处理,得到最终的才是 取结果。
本发明通过灵活的规则定义,改进了模板匹配的方法,实现对表格中不同 类型的单元格的准确定位,从而避免了图签格式变化对识别带来的影响。 一套 规则能适应布局相近的多种图签,从而解决重复识别的问题。
图签表格中的单元格分为四类,如图2所示是图签中不同类型的单元^f各示 意图,具体定义如下
(1) 关键字单元格20 格子内只有特征提示文字或图案,没有其它内容
(2) 值单元格30 格子内只有信息内容,没有提示文字。 值单元格又可分为两类
U)存在与其配对的关键字单元格
(b)不存在与其配对的关键字单元格,如图3所示。
(3) 混合单元格40
格子内既有特征文字,也有信息内容。
(4) 组单元一各50
即明细单元^", 一个特征-提示文字对应多个单元^",如图4所示。 图签表格识别所依据的规则包括
(1) 以某个关键字单元格为基点,定义图签搜索的大致范围。
(2) 定义关键字单元格,以及多个关键字单元格之间的拓朴关系。根据这种拓 朴关系可以判断匹配是否成功。如果图签中存在独一无二的特征关键字, 则可以只定义一个关键字单元格。同 一个域值的关键字可以提供多个备 选,如图号、图纸编号、Drawing No.可以视为同一个关键字。
(3) 对于值单元格,可以选择是否定义与之配对的关键字,以及与对应的关键 字单元格之间的拓朴关系。
(4) 对于混合单元格,定义其中的关键字
(5) 对于组单元格,定义关键字和搜索方向。
如图5所示是本发明的单元格识别过程的总流程图,基于单元格拓朴关系 的识别过程总结如下
(1) 读取电子图档中的文字和直线的内容和准确位置。
(2) 预处理
a) 把所有不同类型的文字和直线分别归并为同一类型的文字和直线。CAD中 关于直线和文字的图元类型很多。如直线就有简单直线、多义线、射线 等。需要把复杂的图元类型分解为最简单的图元,降低后续处理的难度。
b) 把方向相同、首尾相连或中间部分重复的直线合并为一条单一的直线。
c) 把误差范围内略微倾斜的直线调整成为角度为0°或90°的直线。以下 判断直线交点的时候,互相垂直的直线的计算量很小,可以显著提高速 度。
d) 把所有的直线和文字按照坐标位置排序。
(3) 取出下一个模板。
(4) 在电子图档中找到图签的任一关键字,确定包围这个关键字的单元格。根 据一点,寻找包含这点的单元格的算法见过程A。
(5) 以这个关键字单元格为中心,根据模板指引的大致范围,确定其周围的所 有单元格。以第一个获得定位的关键字单元格为起点,分别向上、下、左、 右四个方向寻找相邻的单元格,直至无法再找到新的单元格,或者搜索范
围超出模板定义的范围。记录这些单元格相互之间的拓朴关系。
其中反复用到一个算法根据一个单元格,在某个方向寻找与其相邻的单元格。 见过程B。
(6) 根据模板中不同关键字单元格之间的拓朴关系,可以确定当前图签是否匹 酉己。如果只定义了一个关键字单元格,而该单元格已经找到,则直接认为 匹配成功。如果不是只定义了一个关键字单元格,模板定义的关键字之间 的相对位置关系,和实际图中的一致,则i^为匹配成功。
(7) 搜索当前模板定义的范围内的其它值单元格、混合单元格、组单元格。
a) 值单元格的搜索方法
如果没有定义配对的关键字单元格,则在所有的单元格中,寻找与模板定 义的单元格最接近的一个;
如果定义了配对的关键字单元格,则采用步骤(4),找到这个关键字单元 格,然后根据拓朴关系,找到对应的值单元格。这种方法特别适用于单元格被 拉伸变形的情况。在图签中的某些单元格被拉伸变形的情况下,真正的值单元 格的位置往往与模板中的有所不同,但是如果先找到配对的关键字单元格,再 按照拓朴关系来找,则可以准确定位。特别的,如果这个拓朴关系是跨越了若 干单元格,而不是直接相邻的,则可以解决"没有关键字指引的单元格的识别 与定位,,问题。如图2中的空白单元格,可以描述为与"批准"关键字单元 格右相邻的第二列单元格。拓朴关系描述了相互有关联的两个单元格之间的位 置关系,有效避免了单元格形状变化带来的干扰。实际情况中,和一个单元格 的某个方向相邻的单元格可能不止一个(图3),但这可以用方向+序号来定量 描述。
b) 混合单元格的搜索方法
搜索包含混合单元格关键字的单元格,然后在单元格的内容中去除关键字部分, 剩下的就是需要识别的信息。
c) 组单元格的搜索方法
首先搜索与其配对的关键字单元格,然后应用步骤(4)采用的方法,反复在规 定的方向上搜索与其宽度相同的单元格。所有搜索到的都是合适的组单元格。
(8) 综合所有的识別结果,合并识别区域重复的信息
过程A:根据一点,寻找包含这点的单元格,搜索过程流程图如图6所示。
(1) 按上,下,左,右方向,根据以下规则找到所有直线从该点引垂线到该 直线,垂足落在直线上
(2) 轮流选取四个方向上的直线(每个方向上均根据距离由近到远排序),才艮据
以下规则轮流判断如果是水平线,必须保证该线和垂直方向上的两条直 线相交;如果是垂直线,必须保证该线和水平方向上的两条直线相交
(3) 最后得到包围该点、且两两相交的两条水平直线和两条垂直直线,组成包 围该点的最小单元格
过程B:根据一个单元格,在某个方向(以向左为例)寻找与其相邻的单元 格,其搜索过程的流程图如图7所示。
(1) 寻找和当前单元格矩形的左边线相交的所有直线,求出交点
(2) 根据交点把单元格的左边线分隔成若干线段
(3) 对其中的每个线段A,找到分别和这个线段的上、下端点相交的两条水平 直线B和C
(4) 寻找一条在A的左边、和A平行、和B、 C均相交、距离A最近的直线D。 A、 B、 C、 D组成的单元格就是需要寻找的其中一个单元格。
权利要求
1. 一种图签识别方法,用计算机程序自动读取电子图档中的图签信息,其特征在于,包括如下步骤第一步,读取所述电子图档中的文字和直线,再归并所述文字和直线,然后排序;第二步,取出下一个模板;第三步,根据所述模板的设定,寻找所述电子图档中的一个关键字及其关键字单元格;再根据所述模板设定的图签搜索范围和不同的关键字单元格之间的相互关系,寻找所述电子图档中的其它关键字及其关键字单元格;如果成功完成则表示匹配成功,进入下一步,否则回到第二步;第四步,根据所述模板定义的关键字单元格与其它值单元格、混合单元格和组单元格之间的拓扑关系,寻找所述值单元格、混合单元格和组单元格并提取其中的信息;第五步,如果所述计算机程序中还有其他模板,则回到第二步,否则合并处理每一个模板的识别结果,消除其中重复的部分。
2. 根据权利要求1所述的图签识别方法,其特征在于,所述第一步中归并 所述文字和直线的方法包括换j又具有不同CAD图元类型的文字和直线的位置 和内容参数,把所有不同类型的文字和直线分别归并为同一类型的文字和直线; 把方向相同、首尾相连或中间部分重复的直线合并为一条单一的直线;把误差 范围内略微倾斜的直线调整成为角度为0°或90°的直线。
3. 根据权利要求2所述的图签识别方法,其特征在于,所述第一步中排序 的方法是把所有的直线和文字分别按照坐标位置排序。
4. 根据权利要求1所述的图签识别方法,其特征在于,所述第三步中根据 关键字寻找关键字单元格的方法包括,根据关键字所在的位置任意确定一点P, 再按上,下,左,右方向,根据以下规则找到所有直线L:从所述点P引垂线到 一直线,垂足落在所述直线上即认为获得一个所述直线L;再轮流选取四个方向 上的直线,每个方向上均根据距离由近到远排序,如果是水平线,寻找垂直方向上相交的两条直线;如果是垂直线,寻找水平方向上相交的两条直线,直至 得到包围该点、且两两相交的两条水平直线和两条垂直直线,即为所述关键字 单元格的四条边。
5. 根据权利要求1所述的图签识别方法,其特征在于,所述第三步中根据 关键字单元格寻找图签内其它单元格的方法,包括反复根据已知单元格在某个 方向寻找与其相邻的单元格,寻找左边相邻的单元格的方法包括如下步骤寻找相交于所述已知单元格矩形的左边线的所有直线并分别求出交点,所述交点 把所述单元格的左边线分隔成若干个线段A,找到分别相交于每个所述线段A, 的上、下端点的两条水平直线B和C,再寻找位于所述线段A的左边、并且平行 于所述线段A、还相交于所述水平直线B和C、同时距离A最近的直线D,所述 线—段A、直线B和C、以及直线D组成的单元格就是左边相邻的单元格。
6. 根据权利要求1所述的图签识别方法,其特征在于,所述第四步中寻找 所述值单元格信息的方法,包括如下步骤根据所述关键字单元格,利用所述 才莫板中规定的所述拓朴关系,找到对应的值单元格;或者在所述全部单元格中, 寻找与所述模板定义的所述值单元格的位置最接近的一个单元格。
7. 根据权利要求1所述的图签识别方法,其特征在于,所述第四步中寻找 所述混合单元格信息的方法,包括如下步骤先搜索包含混合单元格关键字的 单元格,然后在单元格的内容中去除关键字部分。
8. 根据权利要求1所述的图签识别方法,其特征在于,所述第三步中寻找 所述组单元格信息的方法,包括如下步骤首先搜索与其配对的关键字单元格, 然后反复在规定的方向上搜索与其宽度相同的单元格。
全文摘要
本发明涉及一种图签的识别方法,包括读取电子图档中的文字和直线,再归并所述文字和直线,然后排序;取出下一个模板;根据所述模板设定的关键字,找出所述电子图档中的关键字和关键字单元格;再根据所述关键字单元格和所述模板设定的图签搜索范围,寻找图签内的全部单元格;根据所述模板定义的关键字单元格与所述全部值单元格、混合单元格和组单元格之间的拓扑关系匹配所述全部单元格,读取值单元格、混合单元格和组单元格信息;如此匹配所有模板,合并处理每一个模板的识别结果,消除其中重复的部分。本发明实现对图签中不同类型的单元格的准确定位,避免了图签格式变化对识别带来的影响。
文档编号G06K9/62GK101388079SQ20081021679
公开日2009年3月18日 申请日期2008年10月17日 优先权日2008年10月17日
发明者黄天祥 申请人:纬衡浩建科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1