一种通用的用于符号识别的特征描述方法

文档序号:6389472阅读:289来源:国知局
专利名称:一种通用的用于符号识别的特征描述方法
技术领域
本发明属于模式识别和人工智能技术领域,具体是一种通用的用于符号识别的特征描述方法,可用于各种图纸和文档中的以及笔输入的符号和字符识别,例如电路图、工程图纸、地图、建筑图纸、乐谱、商标、数学公式、光学字符、笔输入字符等各个领域的符号识别。
背景技术
符号识别是模式识别、图形识别、文档分析与识别领域重要的研究内容之一,在电路图(见参考文献[1][2])、工程图纸(见参考文献[3][4])、地图(见参考文献[5][6])、建筑图(见参考文献[7-9])、乐谱(见参考文献[10][11])、商标(见参考文献[12][13])、数学公式(见参考文献[14][15])、光学字符(见参考文献[16][17])的自动理解和识别方面扮演着重要的角色。本领域目前的研究已取得了一定的成果,但是,对于实用系统的研发而言还是远远不够的。目前面临的难点是能否找到一个在通用性、可扩充性、抗噪声和变形干扰能力、旋转和伸缩不变性等各个方面都表现优异、具有优秀的综合性能的方法。找到一个在某一方面表现突出的方法相对而言并不困难,但要找到在各个方面都表现优异的、综合性能优秀的方法却并不容易,到目前为止,有关研究还在进行之中。
一个符号识别系统的性能很大程度上取决于所采用特征描述方法。根据所采用的描述方法,现有的符号识别方法可以分为两大类结构方法和统计方法。下面将讨论这两类中一些有代表性的方法。
关于结构方法,符号的特征描述大致都具有以下特点首先将符号分解为一些基本的几何元素,这些基本几何元素以及他们之间的相互关系构成一个符号的描述。这类描述方法很自然地会和图模型联系起来,大量的符号识别方法是利用图模型进行特征描述(见参考文献[1][9][16])。属性关系图(ARG)是最经典的一种图模型,在参考文献[16]中,关键点之间的相对位置和连通性作为属性被用于描述印刷体汉字。参考文献[9]中提出了一种叫做区域邻接图(RAG)的新模型,这里,图的节点表示一个多边形,图的弧表示两个多边形之间是否存在公共边界。文献[9]中还报道了基于区域邻接图的建筑符号识别的案例研究。另一类结构方法是基于基本元素之间的几何约束(见参考文献[4][7])。在参考文献[4]中,首先将符号分解为基本几何元素,如直线、弧、环等,然后对给定符号的基本元素之间的几何约束进行一些假设,再对假设进行检验,看其是否满足对应于每个理想符号预先定义的一组规则,从而识别出符号。参考文献[4]给出了关于工程图纸中符号识别的研究结果。其它的结构方法还包括利用基于线段的可变形模板与输入符号进行匹配(见参考文献[8])。以上这些方法的缺点在于系统性能很大程度上取决于图像质量。这些方法的共同之处在于首先要将符号分解为基本几何元素。当噪声和变形出现在图像中时,基本几何元素往往不能被准确地检测出来;同样,也很难准确地获得基本元素之间的关系。这意味着符号特征描述的正确性将无法保证,从而会引起识别正确率的下降。
与结构特征不同,统计特征不需要对直线、弧、环、关键点等基本几何元素进行检测,统计特征基本上是基于点的。对于二值图像,点是最自然不过的基本元素(见参考文献[18]),可直接输入到分类器用于符号识别;但是,这样的分类方法很难保证旋转、伸缩、平移不变性。最经典的具有旋转、伸缩、平移不变性的统计特征是不变矩(见参考文献[19]);但是,不变矩所提供的信息非常有限,系统的可扩充能力无法得到保证,尤其是对大字符集合的识别。环投影是另一种具有旋转不变能力的统计特征(见参考文献[17]),其计算方法如下首先选定一个中心,以此中心向外作同心圆切割字符,组成字符的点落在各个圆上的个数作为对字符形状的描述;此方法的缺点是当字符存在各种变形时,很难找到一个稳定的圆心,因此,此方法不适用于含有变形的手写字符的识别。Shape Context是最近提出的一种形状描述方法(见参考文献[20]),它的计算如下(1)以每个点为中心,作一个直方图,统计其它的点在这点周围如何分布。(2)通过搜索两个形状之间各个点的对应关系来完成形状匹配程度的计算。Shape Context是一种具有很好抗噪声和变形干扰能力的形状描述方法,其旋转不变性是通过如下方法获得的在计算以每一点为中心的直方图时,以这点的切线作为x轴。但是,这样的计算方法不能象所预期的那样可靠地保证旋转不变性,理由如下在噪声干扰下,往往不能得到确切的边界,且边界形状往往会变形,不可能象在理想状况下那样轻易地获得在每个点的稳定的切线。
以上所述的各种方法有各自的优点,也有各自的弱点,到目前为止,还没有一个方法能够具备优秀的综合性能,即在通用性、抗噪声和变形干扰、旋转和伸缩不变性、可扩充性等各个方面都有令人满意的表现。
参考文献[1]Groen,F.,Sanderson,A.,Schlag,F.Symbol recognition in electrical diagrams usingprobabilistic graph matching.Pattern Recognition Letters 3(1985)343-350[2]Okazaki A.,Kondo T.,Mori K.,Tsunekawa S.,and Kawamoto E,An automatic circuitdiagram reader with loop-structure-based symbol recognition,IEEE T-PAMI 10(1988)331-341 Filipski,A. J.,Flandrena,R.Automated conversion of engineering drawings to CAD form.Proceedings of the IEEE 80(1992)1195-1209[4]Luo,Y.,Liu,W.,Y.Engineering drawings recognition using a case-based approach. InInternational Conference on Document Analysis and Recognition 2003,Edinburgh,UK[5]Boatto,L.,Consorti,V.,Del Buono,M.,Di Zenzo,S.,Eramo,V.,Espossito,A.,Melcame,F.,Meucci,M.,Morelli,A.,Mosciatti,M.,Scarci,S.,Tucci,M.An interpretation system for landregister maps.Computer 25(1992)25-33. Samet,H.,Soffer,A.MarcoMap retrieval by content.IEEE T-PAMI 18(1996)783-797[7]Ah-Soon,C.,Tombre,K.Architectural symbol recognition using a network of constraints.Pattern Recognition Letters 22(2001)231-248[8]Valveny E.,Marti E.A model for image generation and symbol recognition through thedeformation of linear shapes. Pattern Recognition Letters 24(2003)2857-2867[9]Llados J.,Marti E.,Villanueva J. J.Symbol recognition by error-tolerant subgraph matchingbetween region adjacency graphs.IEEE T-PAMI 23(2001)1137-1143[10]Yadid-Pecht,O.,Gerner,M.,Dvir,L.,Brutman,E.,Shimony,U.Recognition ofhandwritten musical notes by a modified neocognitron. Machine Vision and Applications 9(1996)65-72[11]Rossant F.A global method for music symbol recognition in typeset music sheets. PatternRecognition Letters 23(2002)1129-1141[12]Chang,M.,Chen,S.Deformed trademark retrieval based on 2D pseudo-hidden Markovmodel.Pattern Recognition 34(2001)953-967[13]Cortelazzo,G.,Mian,G.,Vezzi,G.,Zamperoni,P.Trademark shapes description by stringmatching techniques.Pattern Recognition 27(1994)1005-1018[14]Lee,H. J.,Lee,M. C.Understanding mathematical expression in a printed document.Proceedings of the 2nd International Conference on Document Analysis and Recognition,1993,502-505[15]Chaudhuri,B.B.,Garain,U.An approach for recognition and interpretation ofmathematical expressions in printed document.Pattern analysis and applications 3(2000)120-131[16]Huang X.,Gu J.,Wu Y.A constraint approach to multifont Chinese character recognition.IEEE T-PAMI 15(1993)838-843[17]Yuen P.C.,Feng G.C.,Tang Y.Y.Printed Chinese character similarity measurement usingring projection and distance transformation.International Journal of Pattern Recognition andArtificial Intelligence 12(1998)209-221[18]Schurmann J.Pattern classification,a unified view of statistical and neural approach. JohnWiley & Sons(New York)1996[19]Hu M.K.Visual pattern recognition by moment invariants.IRE Transaction onInformation Theory 8(1962)179-187[20]Belogie S.,Malik J.,Puzicha J.Shape matching and object recognition using shapecontexts.IEEE T-PAMI 24(2002)509-520[21]Chen,K.Z.,Zhang,X.W.,Ou,Z.Y.,Feng,X.A.Recognition of digital curves scannedfrom paper drawings using genetic algorithm,Pattern Recognition 36(2003)123-130[22]Electronic Proceedings of 5th IAPR International Workshop on Graphics Recognition(GREC 2003),2003,Barcelona,Spain[23]www.cvc.uab.es/grec2003。

发明内容
本发明的目的在于克服现有技术的不足之处,提供一种具备优秀综合性能的、通用的、可用于符号识别的特征描述方法(特征向量的构造方法)。
本发明提出的通用的用于符号识别的特征描述方法(特征向量的构造方法),具体步骤如下(a)将符号分割为点,以点和点之间的几何约束作为符号形状描述的基本元素;当点和点之间的几何约束的定义不同时,相应地将得到不同的特征描述;(b)当任何一个点被选作参考点(原点)时,对其它各点两两之间的几何约束进行统计可得到一个相应的直方图;分别以各个点作为参考点,则对应于每个点分别得到一个直方图;(c)将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述(特征向量),当采用不同的计算方法对各直方图进行综合时,可相应地得到不同的特征描述;(d)将两种以上不同的特征描述相组合,可构成一个新的特征描述。
本发明中,所述的点和点之间的几何约束可定义如下以这两点和参考点为顶点形成一个三角形,以三角形的顶点、边长、夹角为自变量的任何形式的函数以及与其数学上等价的量。
本发明中,所述的点和点之间的几何约束的定义,可以是这两个点分别和参考点连接所构成的连线之间的夹角。
本发明中,所述的点和点之间的几何约束的定义,还可以是这两个点分别和参考点连接所得到的连线中较短的直线段和较长的直线段之间的长度比。
本发明中,所述的将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述,其计算方法可以是对各个直方图落在每一个区间内的值进行统计,对应于每个区间可得到一个新的直方图;所有这些新的直方图的值及其任何形式的函数的值构成一个对应的特征描述。
本发明中,所述的将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述,其计算方法也可以是对各个直方图落在每一个区间内的值进行统计,求平均值、N阶中心矩、N阶原点矩、以及上述统计量的任何形式的函数,N为实数;所有区间求得的这些量构成一个特征描述。
本发明中,所述的将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述,其计算方法还可以是对各个直方图落在每一个区间内的值先求N次方后再求和,N为实数,例如,2≤N≤1000;各个区间求得的和的任何形式的函数的值构成一个特征描述。
本发明提出的符号识别特征描述方法具有可扩充、抗噪声和变形干扰、旋转和伸缩不变的特点,可用于各种图纸和文档中的以及笔输入的符号和字符识别。


图1以P0为参考点时其它两点之间几何约束的示意图具体实施方式
一个符号识别系统通常由以下步骤组成预处理、特征提取、分类。这里,预处理采用参考文献[21]中提出的方法对符号进行瘦化;分类器采用最近邻法(一种最简单的分类器);特征提取采用本发明提出的方法,具体实施方式
如下实施例1(1)假设由预处理提取出的符号骨架由N个点组成,记作P0,P1,...,PN-1。分别以P0,P1,...,PN-1作为参考点,求其它各点两两之间的几何约束。这里,两点之间几何约束定义为这两个点分别和参考点连接所构成的连线之间的夹角。例如图1所示,以P0为参考点,Pi和Pj之间的几何约束为∠PiP0Pj,这里,Pi∈{P1,P2,...,PN-1}且Pj∈{P1,P2,...,PN-1}。
(2)以Pk为参考点时,将Pi和Pj之间的几何约束记作Cij(Pk),对{Cij(Pk)|i=0,1,...,N-2;j=i+1,i+2,...,N-1}进行统计,可以得到一个直方图,记作H(Pk),这里,i≠k且j≠k。分别以P0,P1,...,PN-1作为参考点,可得到N个对应的直方图H(P0),H(P1),...,H(PN-1)。
(3)每个直方图可以表示为一个向量,假设每个直方图各有M个区间,直方图H(Pk)的向量形式记作H(Pk)=[H1(Pk),H2(Pk),...,HM(Pk)],k=0,1,...,N-1;这里,Hj(Pk)表示直方图H(Pk)中第j个区间的值;对各直方图的第i个区间的值{Hi(P0),Hi(P1),...,Hi(PN-1)}进行统计,可以得到一个新的直方图,记作F(i);按照上述方式,对应于每个区间可以得到一个新的直方图,共可得到M个直方图{F(i)|i=1,2,...,M};假设直方图F(i)有L个区间,其向量形式记作F(i)=[F1(i),F2(i),...,FL(i)],i=1,2,...,L;这里,Fj(i)表示直方图F(i)第j个区间的值;[Fj(i)|i=1,2,...,M;j=1,2,...,L]即为所求的用于符号描述的特征向量。
实施例2与实施例1相比,除了两点之间几何约束的定义外,其余部分完全相同。这里,两点之间几何约束定义为这两个点分别和参考点连接所得到的连线中较短的直线段和较长的直线段之间的长度比。例如图1所示,以P0为参考点,Pi和Pj之间的几何约束为min{|P0Pi|/|P0Pj|,|P0Pj|/|P0Pi|},这里,|P0Pi|和|P0Pj|分别表示线段P0Pi和P0Pj的长度。
实施例3实施例1和实施例2各生成一个独立的特征向量,分别记作[Fj(i)|i=1,2,...,M;j=1,2,...,L]和[Gj(i)|i=1,2,...,M;j=1,2,...,L),将这两个向量首尾相连排成一个向量即为实施例3所求的特征向量。
基于实施例3的特征描述方法,发明人设计了相应的符号识别程序。经测试,多项测试正确识别率达到100%,只有一项低于90%,为86.4%。所有71项测试中,与其它方法相比,68项性能是最好的,包括所有抗噪声、变形、噪声加变形、旋转的测试,以及部分抗伸缩、伸缩加旋转的测试等。测试方法是输入一幅图像,找到与它最相似的模型(理想图像)。共测试了6850幅图像。详细测试结果见表1~5。平均识别时间为每个符号少于1秒。
表1理想图像的识别率

表2旋转与尺寸伸缩图像的识别率

表3变形图像的识别率

表4含噪声图像的识别率

表5噪声加变形图像的识别率(模型数15;符号数15;图像数75)

权利要求
1.一种通用的用于符号识别的特征描述方法,其特征在于(1)将符号分割为点,以点和点之间的几何约束作为符号形状描述的基本元素;(2)任选一个点作参考点,对其它各点两两之间的几何约束进行统计,得到一个相应的直方图;分别以各个点作为参考点,则对应于每个点分别得到一个直方图;(3)将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述;(4)将两种以上不同的特征描述相组合,得到一个新的特征描述。
2.根据权利要求1所述的方法,其特征在于所述的点和点之间的几何约束定义如下以这两点和参考点为顶点形成一个三角形,以三角形的顶点、边长、夹角为自变量的任何形式的函数以及与其数学上等价的量。
3.根据权利要求1或2所述的方法,其特征在于所述的点和点之间的几何约束的定义如下这两个点分别和参考点连接所构成的连线之间的夹角。
4.根据权利要求1或2所述的方法,其特征在于所述的点和点之间的几何约束的定义如下这两个点分别和参考点连接所得到的连线中较短的直线段和较长的直线段之间的长度比。
5.根据权利要求1所述的方法,其特征在于所述的将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述,其计算方法如下对各个直方图落在每一个区间内的值进行统计,对应于每个区间可得到一个新的直方图;所有这些新的直方图的值及其任何形式的函数的值构成一个对应的特征描述。
6.根据权利要求1所述的方法,其特征在于所述的将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述,其计算方法如下对各个直方图落在每一个区间内的值进行统计,求平均值、N阶中心矩、N阶原点矩、以及上述统计量的任何形式的函数,N为实数;所有区间求得的这些量构成一个特征描述。
7.根据权利要求1所述的方法,其特征在于所述的将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出一个对应的特征描述,其计算方法如下对各个直方图落在每一个区间内的值先求N次方后再求和,N为实数;各个区间求得的和的任何形式的函数的值构成一个特征描述。
全文摘要
本发明是一种通用的符号识别特征描述方法,具有可扩充、抗噪声和变形干扰、旋转和伸缩不变的特点,可用于各种图纸和文档中的以及笔输入的符号和字符识别。其特征在于(1)将符号分割为点,以点和点之间的几何约束作为符号形状描述的基本元素。(2)当任何一个点被选作参考点时,对其它各点两两之间的几何约束进行统计可得到一个相应的直方图;分别以各个点作为参考点,则对应于每个点分别得到一个直方图。(3)将对应于所有点的直方图的每个区间的值进行统计意义或数学意义上的综合以构造出对应的特征描述。本发明方法与其它方法相比,71项性能测试中,68项最好,3项第二,识别率只有1项低于90%。
文档编号G06K9/52GK1560790SQ20041001673
公开日2005年1月5日 申请日期2004年3月4日 优先权日2004年3月4日
发明者杨夙, 杨 夙 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1