一种识别手写表格的方法及装置的制作方法

文档序号:6613966阅读:310来源:国知局
专利名称:一种识别手写表格的方法及装置的制作方法
技术领域
本发明涉及模式识别技术,特别是涉及一种识别手写表格的方法及装置。
背景技术
在模式识别领域,可识别的信息包括图形、图像、各种语言的字符、表格 等多种形式,其中识别手写输入的技术作为模式识别的一个方面,得到了广泛 的应用。手写识别技术是基于对手写输入笔画的识别,把人借助某种设备输入 的信息转换成计算机可识读并能直接处理的形式。
目前,手写识别技术中应用最多的是对文字等字符的识别,字符识别和处
理技术发展较早,现在已经发展到应用阶段,例如手机、PDA等移动终端中手 写输入法的应用等。而手写字符之外的表格、图形、框图等在文档中经常出现 的元素在手写识别技术方面还没有得到充分的发展。其中,表格作为一种常用 的信息表达方式,经常出现在电子文档中,但是4巴表格输入到电子文档的方式 却很单一,是通过各种软件编辑器(如Word、 Excel等)输入。因此,如果能 把表格也通过手写方式输入到电子文档中,用户就能够在应用手写输入时更方 <更;也编辑文档。

发明内容
本发明所要解决的技术问题是提供一种识别手写表格的方法及装置,以解 决目前的手写识别技术在识别手写表格方面不完善的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下 技术方案
一种识别手写表格的方法,包括
采集原始输入作为待分析笔画;
从所述待分析笔画中识别出非文字笔画;
将所述非文字笔画分割为线段;
判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构 成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线
段为内部表格线;
利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。
优选的,在识别非文字笔画的步骤之前还包括对原始输入进行重新采样, 得到以距离均匀的点列信息表示的笔画,作为待分析笔画。
优选的,按照以下步骤识别出非文字笔画计算笔画的长度,将长度大于 长度阈值的笔画判定为非文字笔画。
优选的,按照以下步骤分割非文字笔画为线段计算笔画上每个点处的角 度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线 段。
优选的,按照以下步骤计算笔画上每个点处的角度以该点为圆心、以预 置阈值为半径的圆与笔画相交为两点,交点与圆心相连的半径形成的角度为该 点的角度。
优选的,按照以下步骤判定出水平和竖直方向的线段计算线段的长度、 宽度和高度;将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖 直方向;将线段高度与线段长度的比值小于水平线^a阈值的线段判定为水平方 向。
优选的,在分割笔画为线段的步骤之前还包括笔画分组的步骤计算非文 字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割 笔画时分别对每组笔画进行分割。
优选的,按照以下步骤计算非文字笔画之间的距离以最小矩形包围笔画, 计算两个矩形水平方向间隔和竖直方向间隔之和。 一种识别手写表格的装置,包括 笔画采样单元,用于采集原始输入作为待分析笔画; 图文分割单元,用于从所述待分析笔画中识别出非文字笔画; 分割笔画为线段单元,用于将所述非文字笔画分割为线段; 水平和竖直线段判断单元,用于判定出水平和竖直方向的线段; 表格判断单元,用于判断所述水平和竖直方向的线段是否构成封闭矩形,
并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格
线; . 表格构建单元,用于利用所述表格边界线和内部表格线构建表格结构,并
填充表格内容。
优选的,所述水平和竖直线段判断单元通过计算线段的长度、宽度和高度, 将线段宽度与线段长度的比值小于竖直线段阔值的线段判定为竖直方向,将线 段高度与线段长度的比值d 、于水平线段阈值的线段判定为水平方向。
优选的,所述图文分割单元通过计算笔画的长度,将长度大于长度阈值的 笔画判定为非文字笔画。
优选的,所述笔画采样单元通过对原始输入的笔画进行重新采样,得到以 距离均匀的点列信息表示的笔画,作为待分析笔画。
优选的,所述分割笔画为线段单元通过计算笔画上每个点处的角度,如果 计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线段。
优选的,所述装置还包括笔画成组单元,用于计算非文字笔画之间的距 离,将计算结果小于成组阔值的非文字笔画划分为一组,分割笔画为线段单元 分别对每组笔画进行分割。
优选的,所述笔画成组单元通过计算笔画外围矩形之间的距离来计算非文 字笔画之间的距离,其中所述笔画外围矩形指包围笔画的最小矩形,所述笔画 外围矩形之间的距离表示两个矩形水平方向间隔和竖直方向间隔之和。
根据本发明提供的具体实施例,本发明公开了以下技术效果
提供了一种识别手写表格的方法和装置,通过笔画采样、图文分割、笔画 成组、分割笔画为线l爻、表格分析几个步骤,将原始输入的笔画经过处理转换 成表格结构。这种手写表格识别技术不同于手写字符的识别,首先通过图文分 割步骤将文字与非文字笔画区分开,这些非文字笔画可能包含表格,也可能包 含其他形状的笔画。然后,通过分割笔画为线段步骤将笔画分割为线段,用线 段近似拟和原始输入笔画,为下一步的表格分析做准备。在表格分析过程中, 首先确定水平和竖直方向的线段,然后判断这些线段是否构成一个封闭矩形, 并且矩形内部至少包含一条水平线段或一条竖直线段,如果满足所述条件则构 建结构化表格,将构成封闭矩形的线段作为表格边界线,将封闭矩形内部的水平或竖直线段作为内部表格线;最后再将落在表格范围内的输入笔画作为表格 内容进行填充。 .
优选的,对于原始输入中包含多个表格或者包含多种输入形状的情况,本 发明也能进行识别,通过笔画成组步骤,将可能属于不同表格或不同形状的非 文字笔画分成几组区别开,然后再通过分割笔画为线段、表格分析步骤分别对 每组笔画进行分析识别。
而且,本发明所述识别装置既可以作为计算机的一个应用程序,运行在与 手写输入设备相连的计算机上,或者运行在拥有计算处理能力的手写输入设备 中,也可以作为单独的硬件设备存在。因此,本发明在实际应用中的形式非常 灵活。


图1是本发明实施例所述一种识别手写表格的方法流程图; 图2.1是原始笔画的点列表示示意图,图2. 2是重新采样后的点列表示示 意图3. l是笔画的外围矩形示意图,图3. 2是两个外围矩形之间的距离示意
图4是笔画分割为线段的示意图; 图5是结构化表格示意图6. 1是用线段构建结构化表格的示意图,图6. 2是表格中单元格的边界 示意图,图6. 3是确定单元格内容的方法示意图7本发明实施例所述一种识别手写表格的装置结构框图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明实施例提供了一种识别手写表格的方法,表格识别的目的是把计算 机无法理解的原始输入中包含的表格转换成为计算机可以理解的结构化表格, 并且为表格的每个单元格确定所包含的内容。表格识别依次经过笔画采样、图 文分割、笔画成组、分割笔画为线段、表格分析五个步骤,下面分别详细说明。
8参照图1,是本发明实施例所述一种识别手写表格的方法流程图。其中, 每个步骤的输出作为下一个步骤的输入,第一个步骤的输入是原始输入,最后 一个步骤的输出是结构化表格。
步骤IOI,笔画釆样。
表格识别的原始输入可能包含表格,也可能包含表格之外的其它元素,比 如文字、其他形状的笔画等。笔画采样即通过手写输入设备收集用户输入的原 始笔画信息,采样结果为由一系列点表示一条笔画。原始笔画信息的特点是相 邻的点和点之间的间隔较小,而且由于手写输入的随机干扰造成明显的波动, 通常在采样过程中会对原始笔画进行平滑等处理,减小笔画的波动。
本实施例优选的,为便于后续步骤的计算处理,对原始笔画的点进行重新 采样处理。经过处理的点列信息中,点和点之间的距离相对较大并且比较均匀, 点列的波动相对原始笔画减小。
参照图2. 1,是原始笔画的点列表示示意图;参照图2. 2,是重新采样后 的点列表示示意图。由图可知,经过处理的笔画比原始笔画更平滑,点的个数 也相对减少,点间距也相对均匀。
步骤102,图文分割。
图文分割是指把笔画分成文字笔画和非文字笔画两个大的类别,为了方 便,非文字笔画也称为图。本步骤是从采样结果中识别出可能包含表格的非文 字笔画,识别方法是为每条笔画计算长度,将长度超过"图文分割长度阈值,, 的笔画判定为非文字笔画,否则就是文字笔画。所述识别出的文字笔画将通过 字符识别方法进行识别,不在本文的描述范围之内,下面将继续说明对非文字 笔画的处理。
优选的,在计算笔画长度时,由于经过采样处理的釆样点之间的距离比较 均匀,为了减小计算量,采用笔画所包含的釆样点个数代表对应笔画的长度。
本实施例依据笔画长度来区分文字笔画和非文字笔画,因为通常文字笔画 的长度较表格等非文字笔画的长度短d、,但是本发明并不限定图文分割的方 法,当然也可以参考笔画弯曲度等其他因素。而且,本发明也并不限定必须将 采样笔画进行文字和非文字的划分,本实施例是为便于将单独的表格识别技术 与字符识别相结合来应用,因此如果仅需要实现表格识别,也可以直接把可能构成表格的笔画挑选出来,或者通过其他分类方式挑选。 优选步骤103,笔画成组。
笔画成组的处理主要是针对包含多个表格或者包含多种输入形状的情况, 依据笔画之间的距离将各个表格或将多个输入形状区别开。如果两条笔画之间 的距离小于"非文字笔画成组阈值,,,则认为这两条笔画属于同一个组。而且, 文字笔画和非文字笔画无论距离大小,都不属于同一个组。本步骤是本实施例 的优选步骤,经过笔画成组处理,每一组都构成一个单独的表格或其他形状, 即每一组都是一个单独的形状。
在计算笔画间距离时,本实施例采用的方法是利用笔画的外围矩形计算外
围矩形之间的距离来表示。笔画的外围矩形是指把一条笔画上所有的点都包围
在内的最小矩形,由两条水平边和两条竖直边构成,可参照图3. l所示。外围
矩形之间的距离是指两个矩形的水平方向间隔和竖直方向间隔之和,可参照图
3. 2所示。
如前所述,本发明也不限定计算笔画间距离的方法,也可以通过其他方式 来衡量笔画之间的距离。而且,也不会限定笔画成组的依据,以笔画之间的距 离来划分组是一种比较简单的划分方式,当然也可以参考其他因素进行判断。
步骤104,分割笔画为线段。
分割笔画为线段的目的是用一条折线(由多条线段首尾相连而成的线)近 似地拟和原始非文字笔画,用尽可能少的点来表示一条笔画,为下一步的分析 做准备。分割笔画的基本方法是在笔画方向变化比较大的地方做分割,这些分 割点和笔画的起点、终点一起构成该笔画对应的线段。参照图4所示,是笔画
分割为线段的示意图,图中的小方框代表笔画中线段的端点。
按照上述思想,可以有多种具体实现方式,本实施例采用的方式是计算 笔画上每个点处的角度,如果笔画在某个点形成的角度小于"分割笔画为线段 角度阈值",则保留这个点作为折线的一个点,折线上的两点确定一条线段。
优选的,为了降低干扰,本实施例在计算角度的时候以该点为圓心,以"分 割笔画为线^:半径阈值,,为半径画一个圓,圆和笔画形成两个交点,交点与圆 心相连形成两个半径,这两个半径形成的夹角就认为是笔画在给定的点上形成 的角度。当然,角度的定义也可以有其他方式,在此不作限定。步骤1G5,表格分析。
针对每组已经分割为线段的非文字笔画,表格分析的目的是判断出其中是 否包含表格结构,如果包含就转化为相应的结构化表格(参照图5所示),并 为表格的每个单元格确定所包含的内容。具体包括三个步骤 一,判定是否是 表格结构;二,转化为结构化表格,即能够表达表格行列结构和单元格结构的 描述;三,确定每个单元格的内容。下面分别说明。
第一个步骤,首先收集潜在的表格边界线和内部表格线。本实施例仅以水 平方向和竖直方向的线段能够构成表格边界线和内部表格线,并利用线段的宽 高比和阈值来判断线段是否为水平或者竖直。具体过程如下
针对一组非文字笔画,计算所有线段的长度、宽度和高度,线段长度、宽 度和高度的定义如下
线段的长度/e"g, < a,/ 2 >) = -x2)2 +0!—少2)2 ;
线段的宽度< a , / 2 >)=卜_ jc2 I;
线)殳的高度/2ez'g&(/s < a,/ 2 >) = |力_少21;
其中,pl和p2表示线,爻的两个端点,xi表示点pi的x坐标,yi表示 点pi的y坐标。
把满足条件1的线段判定为竖直方向的线段,把满足条件2的线段判定为 水平方向的线段
条件l,线段宽度 < 线段长度* [竖直线段阈值];
条件2,线段高度 < 线段长度* [水平线段阈值]。
然后,判断这些水平方向和竖直方向的线段是否构成表格。构成表格需要 同时满足两个条件其一,潜在的左右边界和上下边界需要构成一个封闭的形 状(表格为矩形);其二,矩形内部至少包含一条水平线段或者竖直线段。具 体过程如下
将竖直线段从左到右排序,构成潜在的表格列与列之间的分割线和表格的 左右边界;将水平线段从上到下排序,构成潜在的表格行与行之间的分割线和 表格的上下边界。
针对一组线段,是否构成封闭矩形的检测方法是如果满足以下4个条件 中的任意一个条件,则不是表格,继续处理下一组。
ii条件1, h中第一条线段的右端点和V中最后一条线段的上端点的距离 > [重合距离阈值]; .
条件2, v中最后一条线段的下边端点和h中最后一条线段的右端点的距
离 > [重合距离阈值];
条件3, h中最后一条线段的左端点和v中第一条线段的下端点的距离> [重合距离阈值];
条件4, v中第一条线段的上端点和h中第一条线段的左端点的距离> [重合距离阈值];
其中,h中存放水平方向的线段,v中存放竖直方向的线段。
针对一组线段,通过线段个数来检测矩形内部是否至少包含一条水平线段 或者竖直线段,如果满足以下3个条件中的任意一个条件,则不是表格
条件1, v中线段个数< 2 ;
条件2, h中线段个数< 2 ;
条件3, v, h线段个数之和< 5 ;
其中,h中存放水平方向的线段,v中存放竖直方向的线段。 第二个步骤,构建表格结构。如果经过第一个步骤的判断是表格,则经过 排序的线段就界定了表格的行列结构,从而界定了表格的单元格。h中第一条 线段和最后一条线段分别为表格的上下边界,v中第一条和最后一条线段分别 为表格的左右边界,h中的其他线段为表格的行分割线,v中的其他线^殳为表 格的列分割线。由此可以得到表格包含几行几列,即确定了表格包含多少个单 元格。
参照图6.1,是用线段构建结构化表格的示意图,其中单元格(i,j)是由 第i行和第j列交叉形成的单元格。参照图6. 2,是表格中单元格的边界示意 图,其中单元格(2,2)的边界是由第2条和第3条竖直线段、第2条和第3条 水平线段构成。
第三个步骤,填充单元格内容。给定一个单元格,就可以知道该单元格的 位置信息,本实施例在该组所有的笔画中搜索落在单元格之内的笔画作为这个 单元格的内容,单元格的内容可能是字符,也可能是其他形状的笔画。具体判 断方式是如果一条笔画的外围矩形全部包含在单元格的边界范围之内,则将这条笔画作为单元格的内容加入该单元格,可参见图6. 3所示。
需要i^明的是,本发明并不限定表格分析采用其他方式,以上表格分析方 法仅作为其中一种实施例进行说明。而且,上述表格识别方法常常与字符识别 方法结合,共同应用到手写输入识别中。
以上表格识別过程中,涉及到多个阈值的定义及使用,这些阈值的取值通 常是一些经验值,根据这些经验值得到的识别效果较好,但根据不同的应用情 况,可以对这些阈值重新设置。在识别过程中还涉及到多个计算公式和运用不 等式的判断条件,本发明在此也不作限定,即这些公式或不等式是可以变形的。
针对上述手写表格识别方法,本发明还提供了一种识别装置的实施例。参 照图7,是所述识别手写表格的装置结构框图。所述装置依次包括笔画釆样单 元701、图文分割单元702、笔画成组单元703、分割笔画为线段单元704、表 格分析单元705,其中每个单元的输出结果将作为下一个单元的输入,原始输 入将作为笔画采样单元701的输入,结构化的表格将作为表格分析单元705 的输出结果。
笔画采样单元701用于采集原始笔迹输入,采样结果为用点列表示的笔 画。为了减少笔画波动,并便于后续的计算处理,笔画采样单元701对采样点 进行处理得到点间距较大且比较均匀的点列信息。
图文分割单元702用于把笔画分成文字笔画和非文字笔画,即从采样结果 中识别出可能包含表格的非文字笔画,采用的识别方法是依据笔画长度,将长 度超过"图文分割长度阈值"的笔画判定为非文字笔画,否则就是文字笔画。
笔画成组单元703是优选设置,用于对非文字笔画进行分組处理,将包含 多个表格或者包含多种输入形状的笔画区别开,每一组为独立的 一个表格或一 种形状。分组依据是笔画之间的距离,如果两条笔画之间的距离小于"非文字 笔画成组阈值",则认为这两条笔画属于同一个组。而且,文字笔画和非文字 笔画无论距离大小,都不属于同一个组。笔画之间距离的计算采用笔画外围矩 形之间的距离。
分割笔画为线段单元704用于对每组笔画进行处理,将一条笔画分割为多 个首尾相连的线段,即用一条折线近似拟和一条笔画,用尽可能少的点来表示 一条笔画,为下一步的分析做准备。分割方法是计算笔画上每个点处的角度,如果笔画在某个点形成的角度小于"分割笔画为线段角度阈值",则保留这个 点作为折线的一个点,折线上的两点确定一条线段。为了降低干扰,在计算角 度的时候以该点为圆心,以"分割笔画为线段半径阈值"为半径画一个圆,圆 和笔画形成两个交点,交点与圓心相连形成两个半径,这两个半径形成的夹角 就认为是笔画在给定的点上形成的角度。
表格分析单元705用于对每组线段,判断出其中是否包含表格结构,如果
包含就转化为相应的结构化表格,并为表格的每个单元格确定所包含的内容。
表格分析单元705包括三个子单元来完成上述功能,分别是水平和竖直线段判 断子单元、表格判断子单元和表格构建子单元。
本实施例认为水平方向和竖直方向的线段才能构成表格,因此所述水平和 竖直线段判断子单元利用线段的宽高比和阈值来判断线段是否为水平或者竖 直。所述表格判断子单元用于将竖直线段从左到右排序,将水平线段从上到下 排序,判断这些线段是否同时满足两个条件潜在的左右边界和上下边界需要 构成一个封闭的矩形,矩形内部至少包含一条水平线段或者竖直线段。如果同 时满足,则所述表格构建子单元构建表格结构,利用经过排序的线段来界定表 格的行列结构,从而界定表格的单元格;然后,搜索该组所有的笔画中落在单 元格之内的笔画作为这个单元格的内容。
在实际应用中,上述表格识别装置可以有多种应用形式。例如,可以作为 一个单独的软件处理模块,安装到与输入设备相连的计算机中作为应用程序运 行,或者安装到具有计算和处理能力的输入设备中运行;也可以作为单独的硬 件设备存在,与输入设备相连来识别输入设备釆集的原始输入。而且,所述表 格识别系统通常与字符识别系统相结合,应用到通过手写输入的电子文档编辑 方面。
图7所示装置中未详述的部分可以参见图1所示方法的相关部分,为了篇 幅考虑,在此不再详述。
以上对本发明所提供的 一种识别手写表格的方法及装置,进行了详细介
例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变 之处。综上所述,本说明书内容不应理解为对本发明的限制。
1权利要求
1、一种识别手写表格的方法,其特征在于,包括采集原始输入作为待分析笔画;从所述待分析笔画中识别出非文字笔画;将所述非文字笔画分割为线段;判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。
2、 根据权利要求1所述的方法,其特征在于,在识别非文字笔画的步骤 之前还包括对原始输入进行重新采样,得到以距离均匀的点列信息表示的笔 画,作为待分析笔画。
3、 根据权利要求1所述的方法,其特征在于,按照以下步骤识别出非文 字笔画计算笔画的长度,将长度大于长度阔值的笔画判定为非文字笔画。
4、 根据权利要求2所述的方法,其特征在于,按照以下步骤分割非文字 笔画为线段计算笔画上每个点处的角度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线^a。
5、 根据权利要求4所述的方法,其特征在于,按照以下步骤计算笔画上 每个点处的角度以该点为圆心、以预置阈值为半径的圓与笔画相交为两点, 交点与圆心相连的半径形成的角度为该点的角度。
6、 根据权利要求1所述的方法,其特征在于,按照以下步骤判定出水平 和竖直方向的线段计算线段的长度、宽度和高度;将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖直方向; 将线段高度与线段长度的比值小于水平线段阈值的线段判定为水平方向。
7、 根据权利要求1所述的方法,其特征在于,在分割笔画为线段的步骤 之前还包括笔画分组的步骤计算非文字笔画之间的距离,将计算结果小于成 组阈值的非文字笔画划分为一组,分割笔画时分别对每组笔画进行分割。
8、 根据权利要求7所述的方法,其特征在于,按照以下步骤计算非文字 笔画之间的距离以最小矩形包围笔画,计算两个矩形水平方向间隔和.竖直方 向间隔之和。
9、 一种识别手写表格的装置,其特征在于,包括 笔画采样单元,用于釆集原始输入作为待分析笔画; 图文分割单元,用于从所述待分析笔画中识别出非文字笔画; 分割笔画为线段单元,用于将所述非文字笔画分割为线段; 水平和竖直线段判断单元,用于判定出水平和竖直方向的线段; 表格判断单元,用于判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封 闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格 线;表格构建单元,用于利用所述表格边界线和内部表格线构建表格结构,并 填充表格内容。
10、 根据权利要求9所述的系统,其特征在于所述水平和竖直线段判断 单元通过计算线段的长度、宽度和高度,将线段宽度与线段长度的比值小于竖 直线段阈值的线段判定为竖直方向,将线段高度与线段长度的比值小于水平线 段阈值的线段判定为水平方向。
11、 才艮据权利要求9所述的系统,其特征在于所述图文分割单元通过计 算笔画的长度,将长度大于长度阈值的笔画判定为非文字笔画。
12、 根据权利要求9所述的系统,其特征在于所述笔画釆样单元通过对 原始输入的笔画进行重新采样,得到以距离均匀的点列信息表示的笔画,作为 待分析笔画。
13、 根据权利要求12所述的系统,其特征在于所述分割笔画为线段单 元通过计算笔画上每个点处的角度,如果计算结果小于角度阔值,则将该点判 定为折线点,两两折线点构成线段。
14、 根据权利要求9所述的系统,其特征在于,还包括笔画成组单元, 用于计算非文字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割笔画为线段单元分别对每组笔画进行分割。
15、根据权利要求14所述的系统,其特征在于所述笔画成组单元通过 计算笔画外围矩形之间的距离来计算非文字笔画之间的距离,其中所述笔画外 围矩形指包围笔画的最小矩形,所述笔画外围矩形之间的距离表示两个矩形水 平方向间隔和竖直方向间隔之和。
全文摘要
本发明公开了一种识别手写表格的方法及装置,解决目前的手写识别技术在识别手写表格方面不完善的问题。所述方法包括采集原始输入作为待分析笔画;从所述待分析笔画中识别出非文字笔画;将所述非文字笔画分割为线段;判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;利用所述表格边界线和内部表格线构建表格结构,并填充表格内容。本发明通过以上笔画采样、图文分割、笔画成组、分割笔画为线段、表格分析几个步骤,实现了手写输入表格的识别。
文档编号G06K9/00GK101452523SQ20071017896
公开日2009年6月10日 申请日期2007年12月7日 优先权日2007年12月7日
发明者刘迎建, 徐明庆, 王利娟, 王春明 申请人:汉王科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1