信息处理装置和信息处理方法

文档序号:6477915阅读:176来源:国知局
专利名称:信息处理装置和信息处理方法
技术领域
本发明通常涉及信息处理装置和信息处理方法。
背景技术
在用于扫描纸张上的表格并且对于该表格的每一项进行0CR(光学 字符识别)处 理的系统中,需要系统精确地获取前述表格的每个字段的位置信息。因此,通常,用户在显 示单元的屏幕上显示表格的图像,并且指示每个字段的位置,从而将该表格的字段位置信 息注册到前述系统中。然而,这样的操作耗费时间。日本专利No. 3586911和日本专利No. 3001950公开 了通过对于表格的图像使用图像处理来搜索矩形信息的方法。可以基于图像数据实现自 动地提取每个矩形(表格的每个字段)。另一方面,在日本专利No. 3586911和日本专利 No. 3001950中公开的发明中存在问题。例如,由于每个矩形矩形是基于图像数据提取的, 所以存在以下错误将字母误读为结束线,或者反过来将结束线误读为表格中的字母。在表 格的背景中嵌入背景图像数据和浅色色版的情况下,存在将背景图像和浅色背景误读为结 束线的问题。由此,这些问题可能降低矩形提取精度。此外,在使用虚线绘制结束线的情况 下,对于图像处理来说很将虚线识别为单线的线段。由此,图像处理可能不能提取由虚线绘 制的矩形。此外,由于表格是由图像的像素单元成像的,该成像处理是离散的。在由某个离 散的参数创建的离散空间和另一个离散空间之间可能存在差别。即,在对表格进行成像的 条件下和另一个条件下(在以不同的分辨率从扫描、传真等接收的图像中)的矩形矩形的 坐标之间存在差别,并且很难总是正确地读取表格。总的来说,通过使用例如Microsoft Word和Excel,Adobe Acrobat等应用软
件来初始创建表格。关于字母和结束线的位置的信息在表格的电子文件中被保持为矢量信 息。在电子文件中结束线信息和字母信息显著不同。即使在任何处理环境下生成图像,也 可以通过使用离散参数分散矢量信息而不发生错误,以及读取矩形而不发生错误。日本公开专利申请No. 2005-190439公开了从电子文档中包括的矢量信息中提取 线段并且进行区域指示。电子文档中的矢量信息被分解为垂直线段和水平线段,并且通过 在屏幕上使用这些线段来指示区域。在日本公开专利申请No. 2005-190439中,通过提取线段来指示区域或提取矩形。 仅可以处理简单的线段和矩形。由此,对于关于矢量信息的特殊情况,不可能正确地指示区 域或提取矩形。例如,在实际的电子文件中,特殊情况是在屏幕上被看做线段的对象实际上 被描述为矢量信息中的矩形绘制指令的情况,或者反过来,在屏幕上被看做矩形的对象实 际上被描述为线段绘制指令。此外,在特殊情况下被提取的线段信息发生错误,并且可以确 定不存在连接。作为矢量信息的结果可能发生这些问题。为了实现更准确的区域提取,必 须解决上述问题。

发明内容
在本申请的一个方面,提供了信息处理装置和信息处理方法,其通过使用原始电 子文件中包含的矢量信息对于表格提取高精度的矩形区域,并且允许用户恰当地对于表格 的字段指示矩形区域。在本申请的实例性实施例中,提供一种信息处理装置,包括用于输入包含矢量信 息的电子文件的输入单元,该信息处理装置包括读取部,用于读取在该电子文件中包含的 矢量信息;第一线段提取部,用于从由该读取部读取的矢量信息中提取线对象的线段参数 信息;第二线段提取部,用于从由该读取部读取的矢量信息中提取多边形对象的多边形参 数信息并且从所提取的多边形参数信息中提取形成该多边形对象的线段的线段参数信息; 矩形提取部,用于基于由该第一线段提取部和该第二线段提取部提取的线段参数提取矩形 参数信息;最小矩形确定部,用于确定基于由该矩形提取部提取的矩形参数信息形成的矩 形是否是不能容纳其它矩形的最小矩形;以及最小矩形输出部,用于输出由该最小矩形确 定部确定的最小矩形。信息处理装置可以进一步包括梯度获取部,用于获取由该第一线段提取部和该第 二线段提取部提取的线段关于参考线的梯度,其中该矩形提取部基于与该线段相对应的线段 参数信息和梯度来提取由彼此垂直的线段形成的矩形的矩形参数信息,其中该线段参数信息 是由该第一线段提取部和该第二线段提取部提取的,并且梯度是由该梯度获取部获取的。信息处理装置可以包括梯度获取部,用于基于由该第一线段提取部和该第二线段 提取部提取的线段参数信息来获取线段的梯度;以及第三线段提取部,用于基于与该线段 相对应的线段参数信息和梯度,来连接具有相同梯度并彼此重叠的两个线段并且获取被相 互连接的两个线段的线段参数信息,其中,该线段参数信息是由该第一线段提取部和该第 二线段提取部提取的,并且该梯度是由该梯度获取部获取的,其中,该矩形提取部基于排除 了由该第三线段提取部连接的两个线段的线段参数信息的线段参数信息来提取矩形参数 信息,并且,将由该第三线段提取部通过连接两个线段形成的单个线段的线段参数信息加 入到该第一线段提取部和该第二线段提取部提取的线段参数信息中。在信息处理装置中,当两个线段的梯度相同并且两个线段之间的距离小于预定长 度时,该第三线段提取部连接两个线段。在本发明的另一个实例实施例中,提供信息处理装置中的一种信息处理方法,该 信息处理装置包括用于输入包含矢量信息的电子文件的输入单元,该信息处理方法包括 读取步骤,读取在该电子文件中包含的矢量信息;第一线段提取步骤,从在该读取步骤中读 取的该矢量信息中提取线对象的线段参数信息;第二线段提取步骤,从从该电子文件中读 取的该矢量信息中提取多边形对象的多边形参数信息,并且从该提取的多边形参数信息中 提取形成该多边形对象的线段的线段参数信息;矩形提取步骤,基于在该第一线段提取步 骤和该第二线段提取步骤中提取的线段参数来提取矩形参数信息;最小矩形确定步骤,确 定基于在矩形提取步骤中提取的该矩形参数信息形成的矩形是否是不能容纳其它矩形的 最小矩形;以及最小矩形输出步骤,输出在最小矩形确定步骤中确定的该最小矩形。在本发明的另一个实例性实施例中,可以提供方法、装置、系统、计算机程序、计算 机可读记录介质等,其中应用了要素、表示或其组合。


当结合附图读取下面的具体实施方式
时,本发明的其它目的、特征和优势将变得 更加清楚,其中图1是表示表格的图表;图2是表示矢量信息的图表;图3是表示将图形描述为矢量信息的图案的图表;图4是表示信息处理装置的配置的图表;图5是表示信息处理装置的功能配置的框图;图6是表示基于矢量信息中的参数描述的矩形的图表;图7是表示梯度获取的图表;图8是用于说明由矩形搜索部进行的处理的流程图;图9是用于说明连接两个线段的处理的图表;图10是表示对线段进行分类的组的图表;图11是表示具有交叉点的线段的图表;图12是表示一个矩形的图表,该矩形容纳(connote)另一个矩形;图13是表示从确定最小矩形得到的结果的图表;图14是表示表格设置窗口的图表;以及图15是表示关于表格中的线段和矩形的处理的图表。
具体实施例方式在下面的具体实施方式
中将参考附图描述本发明的实施例。矢量信息在本发明中,从电子文件中包括的矢量信息中提取或指示高精度的矩形区域。在矢量信息中,由包括指定类型、最远点的坐标、半径等代码的参数字符串描述类 似于线性多边形状的划线(ruled line)以及例如圆形的几何结构。由例如Microsoft Word和Excel、Adobe Acrobat等通用编辑器创建的每个电子文件(电子表格)包括 文档信息作为矢量信息。电子文件中的矢量信息进一步包括关于结束线和划线的图形信 息,以及描述文档中的字母串的字符信息,并且包括关于文档的背景图像和浅色色版(tint block)的信息。图1是表示由PDF(可移植文档格式)创建的表格的图表。在图1中示出的表格 对应于在PC终端显示表格的电子文件的情况或者在纸上打印出的情况。值得注意的是例 如线段和矩形等图形等可以被表示为PDF格式的电子文件中的矢量格式。图2中将示出在PDF格式的电子文件中包括的矢量信息。图2表示由PDF格式创 建的电子文件中的矢量信息描述图形等的例子。矢量信息包括由BT201表示的文本对象 (字符信息),由矩形202和线段203表示的图形对象,以及用于BT201、矩形202和线段203 的参数。在这个例子中,如果图形对象是PDF格式的数据,图形对象是由例如“re (矩形),, 和“1(线段)”的路径构造运算符(operator)表示的对象的信息。基于PDF格式的电子文 件中包括的矢量信息来描述图1中示出的线段和矩形。下面将描述要由矢量表示的图形特有的问题。在图1中,表格由两个矩形和两个线段可视地形成。另一方面,在矢量信息中,存在各种方法来由矢量表示这些矩形和线段。通过使用图3所示的多边形例子来描述各种方法。图3是图表表示实例,其中通过多种表 示方法来表示相同的多边形30。图3所示的多边形30可以由矢量信息中的A、B、C和D四 种模式的表示方法的任一种来表示。在模式A的表示方法中,由两个矩形组(侧边部分重 叠)表示多边形30。在模式B的表示方法中,仅由线段形成多边形30。此外,在模式C的 表示方法中,被看作线段的部分实际上是由小的细长矩形形成的。当提取形成多边形30的 元素时,在模式A提取两个矩形,在模式B提取六个线段,并且在模式C提取六个矩形。在 模式D的表示方法中,由三个矩形形成多边形30。在模式A、B、C和D中的每个构成被转换 为图像之后,表示方法之间的差异并不是视觉可区别的。当将多边形30处理在电子文档中 保护的矢量信息时必须注意这一点。即,即使多边形30在视觉上是相同的,可以由不同矢 量信息中的不同元素形成多边形30。在本实施例中将通过PDF格式的文件的例子来描述本发明。然而,本发明可以类 似地应用于可以处理矢量信息的任意电子文件格式。信息处理装置下面将参考图4描述根据本发明的信息处理装置401。信息处理装置401是例如 通用PC (个人计算机)等的通用计算机,并且包括CPU (中央处理单元)402、存储器403、存 储单元(HDD) 404、操作单元405、显示单元406、输入单元407、网络适配器408等。信息处 理装置404可以从外部记录介质或通过网络读取电子文件。此外,将识别根据本发明的处 理的程序存储在存储单元404中,并且在将该程序存储到存储器403之后由CPU 402进行 执行。功能描述下面将参考图5描述在信息处理装置401中执行的根据本发明的功能。图5是表 示信息处理装置401中执行的功能的框图。作为根据本发明的功能,信息处理装置401包 括读取部501、线段提取部502、线段转换部503、梯度获取部504、矩形搜索部505、最小矩 形确定部506以及最小矩形输出部507。首先,根据本发明的信息处理装置读取作为主体 的电子文件(PDF文件等),并且提取记录在该电子文件中的矢量信息(例如图2)。随后, 从从电子文件中读取的矢量信息中提取线段信息。信息处理装置401在将多边形转换为线 段之后提取线段信息。如下所述,为了避免矢量信息特有的问题,将多边形分解为线段。然 后,信息处理装置401提取可以通过组合所提取的线段而形成的矩形。然后,信息处理装置 401获取和输出来自提取的矩形的最小矩形。通过处理部501到507来进行这些处理。下面将详细描述读取部501、线段提取部502、线段转换部503、梯度获取部504、矩 形搜索部505、最小矩形确定部506以及最小矩形输出部507。读取部首先,读取部501读取从输入单元407输入的要作为主体的电子文件(PDF文件 等),并且提取在电子文件中记录的矢量信息。上面参考图3描述了矢量信息。线段提取部然后,线段提取部502从由读取部501读取的矢量信息中提取关于来自矢量信息 的线段对象的线段参数信息。将参考附图2描述细节。线段203是关于矢量信息中的一个 线段的信息。关于对象的“运算符”是“1(线段)”。“1(线段)”表示对象是线段。“参数”包括关于线段的信息。线段203包括关于在PDF文件的坐标空间中线段的起始点和结束点的X坐标和Y坐标的信息。从参数中可以指定一个线段是由起始点(10,200)和结束点 (110,200)形成的。线段提取部502提取“运算符”中的“1(线段)”对象的参数(线段参
数信息)。线段转换部线段转换部503从由读取部501提取的矢量信息中提取多边形对象的参数,并且 提取形成多边形的线段的参数信息作为线段参数信息。在由读取部501读取的多边形对象 中,混合了多边形(包括矩形)和曲线的多种图形。由此,将各种图形分解为作为最小单元 的线段,并且从每个线段提取线段参数信息。为了克服矢量信息特有的上述问题,首先,将 多边形分解为线段。下面将参考图3所示的多边形30详细描述该分解处理。图3示例的多边形看起 来由模式D所示的三个矩形形成。考虑如何通过使用矢量信息来表示多边形30,假设多边 形30是由模式B所示的六个线段形成的。即使多边形30看起来是由模式D形成的,但是 实际上,矢量信息并没有将多边形30表示为模式D。即,在这个例子中试图基于矢量信息提 取矩形的情况下,确定在矢量信息中没有矩形,并且不能提取矩形。由此,为了通过使用矢 量信息来提取矩形,需要将矩形分解为线段并且通过线段重新形成矩形。下面将描述分解处理。在图2中,由矩形对象“re”指定矩形202。矩形202的参 数表示值“10”(X坐标)、值“50”(y坐标),值“100”(宽度)以及值“50”(高度)。在图 6中,通过使用参数在坐标系中表示矩形202。从形成矩形202的四个边(顶边、底边、左边 和右边)提取四个线段。作为提取结果,对于四个线段的每一个获取线段参数信息。对于 矩形202的底边,以线参数信息定义运算符“1”,其指示起始点的χ坐标是“10”,起始点的 y坐标是“50”,结束点的χ坐标是“110”,以及结束点的y坐标是“50”。如上所述,线段转 换部503将多边形30转换为线段。梯度获取部梯度获取部504基于由线段提取部502和线段转换部503提取的线段参数信息获 取每个线段关于参考线的梯度。参考线是在PDF文件的坐标系中要成为参考的χ坐标轴等。 梯度获取部504获取线段关于参考线的梯度。参考线不局限于χ坐标轴,其可以是能够被 用作参考以确定线段的梯度的任意线。基于每个线段的线段参数信息,梯度获取部504获 取对应于每个线段的梯度。图7是表示通过使用χ坐标轴作为参考线来获取线段“a”和线 段“b”的梯度的例子的图表。线段“a”是关于χ坐标轴处于45度,并且线段“b”是关于χ 坐标轴处于150度。由此,梯度获取部504对于线段“a”和“b”获取45度的梯度和150度 的梯度。下面将描述获取这些梯度的目的。矩形搜索部下面将描述矩形搜索部。矩形搜索部505基于由线段提取部502和线段转换部 503提取的线段参数信息搜索矩形。通过合并线段,进行矩形搜索处理以形成矩形。下面将 参考图8的流程图来描述矩形搜索处理。首先,在步骤S801中,在搜索矩形之前,将线段分类为平行于χ坐标轴的线段的组 A和平行于y坐标轴的线段的组B。图10表示平行于χ坐标轴的线段的组A,以及平行于y 坐标轴的线段的组B。组A和组B不局限于平行于χ坐标轴和y坐标轴的线段组,并且还可以是具有某个倾斜角的一组线段以及正交于被分类为一组的线段的另一组线段。在这个实 施例中,因为以通常形式表示的图形是通过组合平行于X坐标轴的线和平行于y坐标轴的 线形成的四边形(矩形),所以对于平行于χ坐标轴的线段定义组A以及对平行于y坐标轴 的线段定义组B,从而有效地提取四边形(矩形)。此外,由在顶点上彼此垂直的四个线段 形成矩形。由此,进行矩形提取处理以从彼此正交的线段提取矩形,并且通过消除不必要的 线段组合来有效地进行矩形搜索处理。此外,在步骤S802中,从一个组(组A或组B)中提取(彼此平行的)任意两个线 段。如果这两个线段是重叠的,则通过连接这两个线段来创建新的线段,并且使用新线段来 替换这两个线段。可以减少线段的数量并且有效地进行矩形搜索处理。图9是表示线段的 连接例子的图表。线段“a”是具有起始点(15,20)和结束点(25,20)的线段。线段“a”和 “b”均平行于χ坐标轴,并且被分类为组B,并且在xy坐标系具有重叠部分。由此,可以连 接这些线段“a”和“b”以形成单个线段。通过连接线段“a”和线段“b”来形成线段“C”。 将线段“C”添加到组B并且删除线段“a”和“b”。此外,将说明线段“d”。线段“d”平行于线段“a”,但是与线段“a”不具有重叠的 部分。然而,在这两个线段“a”和“d”之间距离为“1”(该距离是从y坐标轴计算的)。即 使基于矢量信息线段“a”和“d”之间不存在彼此重叠的部分,线段“a”和“d”在显示屏幕 或在打印的纸张上视觉上也彼此重叠。如果距离是“0.5”或“0.01”(例如单位是毫米), 远小于两个线段“a”和“d”,则线段“a”和“d”可以被显著地看作一个线段。即,即使在基 于矢量信息线段不具有重叠部分的情况下,如果两个线段之间的距离短于预定长度,则这 两个线段可以被视觉地看作一个线段(两个线段彼此重叠)。由此,也可以连接这两个线段 以形成单个线段。由此,连接线段“a”和线段“d”以形成线段“C”。在这种情况下的距离是 通过绘制垂直于由线段“C”和线段“e”表示的两个线段的线而测量的最短距离。因为不存 在由线段“f”到线段“C”垂直的线测量的距离,所以不连接线段“f”。如上所述,除了减少 要被处理的线段的数目之外,也通过连接基于矢量信息不具有重叠部分但是实质上(视觉 上)具有重叠部分的线段,可以灵活地搜索对应于表格上的项目字段的矩形。下面开始矩形搜索处理。在步骤S803中,从平行于χ坐标轴的线段的组A和平行 于y坐标轴的线段的组B的每一组提取两个线段,检查四个线段的所有组合。如果在步骤 S804从四个线段形成四个交叉点,获得具有四个交叉点的矩形(作为矩形参数信息),并且 在步骤S805中将该矩形添加到矩形组R中。矩形组R被设置以存储由矩形搜索部505提 取的矩形。图10表示将线段分类到平行于χ坐标轴的线段的组A和平行于y坐标轴的线段的组B中去的例子。从组A和组B的每一个中提取两个线段。如图11所示,如果在坐标系 中形成四个交叉点,获得具有这四个交叉点的矩形(作为矩形参数信息)。在步骤S806,当 处理四个线段的所有组合时,终止矩形搜索处理。为了有效地进行矩形搜索处理,仅提取平行于χ坐标轴或y坐标轴的线段,并且将其分类到组A和组B的各个中。然而,不局限于提取具有平行于χ坐标轴和y坐标轴的线 段的矩形。因为通常形式的图形是四边形(矩形),仅搜索具有平行于χ坐标轴和y坐标轴 的边的矩形。可选地,线段可以被分类到用于角度的组X,并且合并从组X中提取的线段。 在这种情况下,矩形搜索处理不局限于四边形的角。即,不仅可以提取矩形的图形,还可以提取菱形等的图形(四个角不是90度的四边形)。此外,替代获取梯度,可以处理通过组合 线段可能形成的所有类型的四边形。此外,根据应用环境等,恰当地检查η个线段的组合, 并且提取具有η个边的η边形。最小矩形确定部下面将描述最小矩形确定部506。对于矩形组R中存储的要被处理的矩形执行最 小矩形的确定。通过检查该矩形是否能够容纳其它矩形来确定基于矩形搜索部505获取的 矩形参数信息形成的矩形是否是最小矩形。最小矩形是 在该矩形的区域内不能容纳其它矩 形的矩形。如果该矩形不能容纳其它矩形,对于该矩形额外地提供指示最小矩形的信息。否 贝U,对于该矩形额外地提供指示该矩形不是最小矩形的信息。如下执行是否容纳其它矩形的检查。图12表示矩形A容纳矩形B的情况。由(χη, Y11)和(x12,y12)表示的矩形A的两个顶点的坐标分别与由(x21,y21)和(x22,y22)表示的矩 形B的两个顶点的坐标比较。如果X11 < x21, yn < y21, x12 > X22,以及y12 > y22,矩形A容 纳矩形B。因为矩形A容纳矩形B,矩形A不是最小矩形。因为在矩形B中不存在容纳的矩 形,矩形B是最小矩形。在图13中被示出为表格的矩形组R包括项目“χ坐标”、“y坐标”、“宽度”、“高度” 以及“最小矩形标志”,并且存储由从组A和B提取的线段的组合形成的每个矩形的矩形参
数信息。对于被确定为最小矩形的矩形,例如,如图13所示,指示“真”的标志被设置为最 小矩形标志。另一方面,如图13所示,对于不是最小矩形的矩形,指示“假”的标志被设置 为最小矩形标志。最小矩形输出部最小矩形输出部507在显示单元406上输出和显示由最小矩形确定部506确定为 最小矩形的矩形。图14表示“表格设置窗口的显示例子”。因为矩形被设置为最小矩形,所 以显示了关于“四边形1”和“四边形2”的矩形。没有显示其它矩形,因为这些矩形没有被 确定为最小矩形。最小矩形输出部507在表格的图像上添加最小矩形信息,并且在屏幕上为用户显 示以从表格设置字段位置信息。从矩形组R中提取指示“真”的最小矩形标志的矩形参数 信息作为最小矩形信息。由此,用户可以通过使用最小矩形信息而容易地创建表格的设置。可以将在图13中被确定为最小矩形的矩形的矩形参数信息添加到PDF格式的电 子文件的矢量信息中。在图2的矢量信息中,“re”被添加作为“运算符”,并且最小矩形的 矩形参数信息被添加作为“参数”。因为通过该添加至矢量信息而指定了最小矩形,所以不 需要再次进行上述处理。对例外的线段和矩形的处理首先将说明对例外的线段的处理。在矢量信息中的线段参数信息包括指示“线宽” 的参数。例如,如果“线宽”的值是相当大的值,例如“20”,将该线段视觉上考虑成矩形是恰 当的。由此,如果线段的“线宽”大于预定值,该对象被处理为矩形而不是线段。可以在线 段提取部502进行该处理,或者可以在矩形搜索部505中的矩形搜索处理之前进行该处理。 “线宽”的预定值可以是在电子文件中定义的初始线宽的值,合作和可以由用户设定。然后将说明对例外的矩形的处理。例如,如果“高度”值是相当小的值,例如“1”或“0.5”(例如以毫米为单位),将该矩形视觉上考虑为线段是恰当的。由此,如果矩形的“高度”小于预定值,该对象可以被处理为线段而不是矩形。可以在线段转换部503中进行 该处理,或者可以在矩形搜索部505中的矩形搜索处理之前进行该处理。“高度”的预定值 可以是在电子文件中定义的初始高度的值,或者可以由用户设定。图形字符的处理将描述图形字符的处理。图形字符是表示例如“□”、“ ”、“〇”等的图形的字符, 其通常被用作表格中的检验栏。因为图形字符是字符类型的,图形字符被表示为矢量信息 中的文本对象。由此,当处理图形字符时,在“参数”中包括其中“BT”(文本对象)被设置 为“运算符”的矢量信息和图形字符。从矢量信息中获得的图形字符被处理作为最小矩形。 例如,因为图形字符“□”不能容纳其它矩形,图形字符“□”可以被确定为最小矩形。可以 提供图形字符提取部并且用于进行该处理。对于用户可以指示示出图形字符的区域作为矩 形。处理细节在本实施例中,将参考图15描述上述处理细节。在图15(a)中示出了电子文件的 表格50。在表格50中示出图形51、字符52 (不包括图形字符)以及字符串53。如图15(b) 所示,图形51是由一个矩形和三个线段组成。首先,线段提取部502对于三个线段的每一个提取线段信息。线段转换部503将 图形51转化为四个线段。作为结果,如图15(c)所示,获取七个线段。然后,梯度获取部504获取七个线段的梯度。基于获取的梯度,这七个线段被分类 为平行于χ坐标轴(组A)的三个线段和平行于y坐标轴(组B)的四个线段。因为没有彼 此平行和重叠的线段,不连接七个线段的任一个。矩形搜索部505合并四个线段,这四个线段中两个线段是从组A提取的,另两个线 段是从组B提取的。作为搜索结果,如图15(d)所示形成了五个矩形。实际上,矩形具有四 个交叉点。为了表示分离的线段的原因,图15(d)中没有示出交叉点。然后,最小矩形确定部506确定在图15(d)中形成的五个矩形的每一个包括其它 矩形。作为确定结果,不包括其它矩形的矩形el、e2和e3被确定为图15(e)所示的最小矩 形。在图15(f)中示出的其它矩形没有被确定为最小矩形。最小矩形输出部507在图15(g)所示的“表格设置窗口”上输出和显示被确定为 最小矩形的三个矩形。由此,用户指示在“表格设置窗口,,上成像的表格上的区域。根据本发明,通过使用原始电子文件中包括的矢量信息可以对表格提取高精度的 矩形区域,并且用户可以对表格的字段恰当地矩形的区域。本发明不局限于具体公开的实施例,并且可以进行变形和修改而不偏离本发明的 范围。本申请是基于2007年11月9日申请的日本优先权申请No. 2007-292311,其全部 内容结合于此作为参考。
权利要求
一种信息处理装置,所述信息处理装置包括用于输入电子文件的输入单元,所述电子文件包含矢量信息,所述信息处理装置包括读取部,用于读取在所述电子文件中包含的所述矢量信息;第一线段提取部,用于从由所述读取部读取的所述矢量信息中提取线对象的线段参数信息;第二线段提取部,用于从由所述读取部读取的所述矢量信息中提取多边形对象的多边形参数信息,并且从所提取的多边形参数信息中提取形成所述多边形对象的线段的线段参数信息;矩形提取部,用于基于由所述第一线段提取部和所述第二线段提取部提取的线段参数提取矩形参数信息;最小矩形确定部,用于确定基于由所述矩形提取部提取的矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及最小矩形输出部,用于输出由所述最小矩形确定部确定的所述最小矩形。
2.根据权利要求1所述的信息处理装置,进一步包括梯度获取部,用于获取由所述第 一线段提取部和所述第二线段提取部提取的线段关于参考线的梯度,其中,所述矩形提取部基于与所述线段相对应的线段参数信息和所述梯度来提取由彼 此垂直的线段形成的矩形的矩形参数信息,其中所述线段参数信息是由所述第一线段提取 部和所述第二线段提取部提取的,并且所述梯度是由所述梯度获取部获取的。
3.根据权利要求1所述的信息处理装置,还包括梯度获取部,用于基于由所述第一线段提取部和所述第二线段提取部提取的线段参数 信息来获取线段的梯度;以及第三线段提取部,用于基于与所述线段相对应的所述线段参数信息和所述梯度,来连 接具有相同梯度并彼此重叠的两个线段并且获取被相互连接的所述两个线段的线段参数 信息,其中,所述线段参数信息是由所述第一线段提取部和所述第二线段提取部提取的,并 且所述梯度是由所述梯度获取部获取的,其中,所述矩形提取部基于排除了由所述第三线段提取部连接的所述两个线段的线段 参数信息的线段参数信息来提取矩形参数信息,并且,将由所述第三线段提取部通过连接 所述两个线段形成的单个线段的线段参数信息加入到所述第一线段提取部和所述第二线 段提取部提取的线段参数信息中。
4.根据权利要求3所述的信息处理装置,其中当所述两个线段的梯度相同并且所述两 个线段之间的距离小于预定长度时,所述第三线段提取部连接所述两个线段。
5.根据权利要求1所述的信息处理装置,还包括图形字符提取部,用于从由所述读取 部读取的所述矢量信息中提取文本对象的图形字符信息,其中,基于由所述图形字符提取部提取的图形字符信息形成图形字符。
6.根据权利要求5所述的信息处理装置,其中,所述图形字符是“□”、“ ”或“〇”。
7.根据权利要求1所述的信息处理装置,还包括添加部,用于添加由所述最小矩形确 定部确定的所述最小矩形的最小矩形参数信息。
8.一种信息处理装置中的信息处理方法,所述信息处理装置包括用于输入电子文件的 输入单元,所述电子文件包含矢量信息,所述信息处理方法包括读取步骤,读取在所述电子文件中包含的所述矢量信息;第一线段提取步骤,从在所述读取步骤中读取的所述矢量信息中提取线对象的线段参 数信息;第二线段提取步骤,从从所述电子文件中读取的所述矢量信息中提取多边形对象的多 边形参数信息,并且从所提取的多边形参数信息中提取形成所述多边形对象的线段的线段 参数信息;矩形提取步骤,基于在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段 参数来提取矩形参数信息;最小矩形确定步骤,确定基于在矩形提取步骤中提取的所述矩形参数信息形成的矩形 是否是不能容纳其它矩形的最小矩形;以及最小矩形输出步骤,输出在最小矩形确定步骤中确定的所述最小矩形。
9.根据权利要求8所述的信息处理方法,进一步包括梯度获取步骤,获取在所述第一线段提取步骤和所述第二线段提取步骤中提取的所述 线段关于参考线的梯度,其中,基于与所述线段相对应的线段参数信息和所述梯度来提取由彼此垂直的线段形 成的矩形的矩形参数信息,其中所述线段参数信息是在所述第一线段提取步骤和所述第二 线段提取步骤中提取的,并且所述梯度是在所述梯度获取步骤中获取的。
10.根据权利要求8所述的信息处理方法,还包括梯度获取步骤,基于在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段 参数信息来获取线段的梯度;以及第三线段提取步骤,基于与所述线段相对应的所述线段参数信息和所述梯度来连接 具有相同梯度并彼此重叠的两个线段,并且获取被相互连接的所述两个线段的线段参数信 息,其中,所述线段参数信息是在所述第一线段提取步骤和所述第二线段提取步骤中提取 的,并且所述梯度是在所述梯度获取步骤中获取的,其中在矩形提取步骤中,基于排除了在所述第三线段提取步骤中连接的所述两个线段 的线段参数信息的线段参数信息来提取矩形参数信息,并且,将在所述第三线段提取步骤 中通过连接所述两个线段形成的单个线段的线段参数信息添加到在所述第一线段提取步 骤和所述第二线段提取步骤中提取的线段参数信息中。
11.根据权利要求10所述的信息处理方法,其中当所述两个线段的梯度相同并且所述 两个线段之间的距离小于预定长度时,在所述第三线段提取步骤中,所述两个线段被互相 连接。
12.根据权利要求8所述的信息处理方法,还包括图形字符信息提取步骤,从在所述读取步骤中读取的所述矢量信息中提取文本对象的 图形字符信息,其中,基于在所述图形字符信息提取步骤中提取的图形字符信息形成图形字符。
13.根据权利要求12所述的信息处理方法,其中,所述图形字符是“□”、“ ”或“〇”。
14.根据权利要求8所述的信息处理方法,还包括添加步骤,添加在所述最小矩形确定步骤中确定的所述最小矩形的最小矩形参数信肩、ο
15. 一种计算机可读编码介质,所述计算机可读编码介质记录有矩形提取程序,所述矩 形提取程序包括代码以用于进行读取步骤,读取在所述电子文件中包含的所述矢量信息;第一线段提取步骤,从在所述读取步骤中读取的所述矢量信息中提取线对象的线段参 数信息;第二线段提取步骤,从从所述电子文件中读取的所述矢量信息中提取多边形对象的多 边形参数信息,并且从所提取的多边形参数信息中提取形成所述多边形对象的线段的线段 参数信息;矩形提取步骤,基于在所述第一线段提取步骤和所述第二线段提取步骤中提取的线段 参数来提取矩形参数信息;最小矩形确定步骤,确定基于在矩形提取步骤中提取的所述矩形参数信息形成的矩形 是否是不能容纳其它矩形的最小矩形;以及最小矩形输出步骤,输出在最小矩形确定步骤中确定的所述最小矩形。
全文摘要
本发明公开了一种信息处理装置,包括读取部,读取电子文件中包括的矢量信息;第一线段提取部,从矢量信息中提取线对象的线段参数信息;第二线段提取部,从矢量信息中提取多边形对象的多边形参数信息并且从提取的多边形参数信息中提取形成多边形对象的线段的线段参数信息;矩形提取部,基于线段参数提取矩形参数信息;最小矩形确定部,确定基于矩形参数信息形成的矩形是否是不能容纳其它矩形的最小矩形;以及最小矩形输出部,输出该最小矩形。
文档编号G06T7/60GK101821752SQ20088010076
公开日2010年9月1日 申请日期2008年11月5日 优先权日2007年11月9日
发明者冲田邦夫 申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1