信息处理方法及信息处理装置的制造方法_2

文档序号:9616486阅读:来源:国知局
[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0043] 本发明公开一种信息处理方法,用于处理表单中的元素。其中,该表单为数字化图 像,可以为票据的扫描件或者对票据进行拍摄得到的图像,该表单中的元素呈N列分布,N 为大于1的整数。
[0044] 基于本发明公开的信息处理方法,能够获取表单中的元素,并降低获取到的数据 的出错率。
[0045] 参见图1,图1为本发明公开的一种信息处理方法的流程图。该信息处理方法包 括:
[0046] 步骤S11:分别确定表单中各列在表单中的位置区域。
[0047] 实施中,表单中的各列在表单中的位置区域可以采用各列与表单的四个侧边的距 离标定。用户可以人工确定各列在表单中的位置区域后,向运行该方法的设备输入上述数 据。运行该方法的设备也可以利用现有的测距软件进行测量,以确定各列在表单中的位置 区域。
[0048] 步骤S12 :分别确定表单中各列的定位元素在表单中的位置区域。其中,第η列的 定位元素为:第η列所需录入的元素中、处于最上侧的元素,其中η= 1,2,…Ν。
[0049] 实施中,表单中各列的定位元素的位置区域可以采用定位元素所在单元格与列表 的四个侧边的距离标定。这里需要说明的是:定位元素所在的单元格可以是用户可见的,也 可以是用户不可见的(单元格的边框为无色)。用户可以人工确定各列的定位元素在表单 中的位置区域后,向运行该方法的设备输入上述数据。运行该方法的设备也可以利用现有 的测距软件进行测量,以确定各列的定位元素在表单中的位置区域。
[0050] 步骤S13:确定表单中各列包含的元素的数量。
[0051] 步骤S14:利用各列在表单中的位置区域、各列的定位元素在表单中的位置区域、 以及各列包含的元素的数量,分别确定表单中各个元素在表单中的位置区域。
[0052] 以表单中的第η列为例:根据第η列在表单中的位置区域以及第η列的定位元素 在表单中位置区域,就可以确定第η列中全部元素的总高度,另外第η列所包含的元素数量 是已确定的,由此可以确定第η列中每个元素的平均高度。之后,根据第η列的定位元素的 位置,以及第η列中每个元素的平均高度就可以确定第η列中的各个元素在表单中的位置 区域。
[0053] 步骤S15:依据各个元素在表单中的位置区域对表单进行切片处理,得到多个切 片图像,其中每个切片图像包含一个元素,切片处理得到的切片图像的数量与表单包含的 元素的数量一致。
[0054] 在执行步骤S14后,表单的各个元素在该表单中的位置区域已经确定,依据各个 元素在表单中的位置区域进行切片处理,就可以将每个元素均切分为一个切片图像。也就 是说,将获得Μ个切片图像,其中Μ与该表单包含的元素的数量一致,每个切片图像包含一 个元素。
[0055] 步骤S16 :分别对各个切片图像进行光学字符识别(OCR),获得切片图像包含的字 符串。
[0056] 在现有技术中,是利用文本识别工具对表单进行整体智能识别。由于表单中包含 多种数据类型的元素,同时对多种数据类型的元素进行识别,必然会导致识别率较低,相应 的获得的数据容易出错。
[0057] 而本发明中,是对切片图像进行光学字符识别,而且一个切片图像仅包含一个元 素。由于一次光学字符识别操作仅针对一个元素,因此可以基于多种数据类型对切片图像 进行识别,直至识别出切片图像包含的字符串,相对于现有技术中的整体识别,能够降低数 据的出错率。
[0058] 步骤S17 :按照预设规则记录获取到的字符串。
[0059] 实施中,可以将获取到的字符串记录于预设表格的特定位置,该特定位置由包含 该字符串的元素在表单中的位置区域确定。
[0060] 本发明公开的信息处理方法,首先确定表单中各列在该表单中的位置区域,确定 各列的定位元素在表单中的位置区域,确定表单中各列包含的元素的数量,之后根据前述 信息确定各个元素在表单中的位置区域,依据各个元素在表单中的位置区域进行切片处 理,使得每个元素均切分为一个切片图像,之后对各个切片图像分别进行光学字符识别,获 得切片图像包含的字符串并进行记录。基于本发明公开的信息处理方法,将表单中的各个 元素分别划分为一个切片图像,后续针对各个切片图像分别进行光学字符识别,以获取切 片图像包含的字符串,由于一次光学字符识别操作仅针对一个元素,因此可以基于多种数 据类型对切片图像进行识别,直至识别出切片图像包含的字符串,能够降低数据的出错率。
[0061] 实施中,表单中第η列在表单中的位置区域以(第一坐标值、第二坐标值、第三坐 标值、第四坐标值)标定。其中,第一坐标值为第η列的左侧边与表单的左侧边之间的距离, 第二坐标值为第η列的顶端与表单的上侧边之间的距离,第三坐标值为第η列的右侧边与 表单的左侧边之间的距离,第四坐标值为第η列的底端与表单的上侧边之间的距离。
[0062] 第η列的定位元素在表单中的位置区域以(第五坐标值、第六坐标值、第七坐标 值、第八坐标值)标定。其中,第五坐标值为第η列的定位元素所处单元格的左侧边与表单 的左侧边之间的距离,第六坐标值为第η列的定位元素所处单元格的顶端与表单的上侧边 之间的距离,第七坐标值为第η列的定位元素所处单元格的右侧边与表单的左侧边之间的 距离,第八坐标值为第η列的定位元素所处单元格的底端与表单的上侧边之间的距离。 [0063] 当然,上述只是对表单中各列的位置区域以及各列中定位元素的位置区域的一种 标定方式。实施中,第一坐标值至第八坐标值还可以配置为:
[0064] 第一坐标值为第η列的左侧边与表单的左侧边之间的距离,第二坐标值为第η列 的顶端与表单的上侧边之间的距离,第三坐标值为第η列的右侧边与表单的右侧边之间的 距离,第四坐标值为第η列的底端与表单的下侧边之间的距离。
[0065] 第五坐标值为第η列的定位元素所处单元格的左侧边与表单的左侧边之间的距 离,第六坐标值为第η列的定位元素所处单元格的顶端与表单的上侧边之间的距离,第七 坐标值为第η列的定位元素所处单元格的右侧边与表单的右侧边之间的距离,第八坐标值 为第η列的定位元素所处单元格的底端与表单的下侧边之间的距离。
[0066] 下面结合实例对确定表单中位于同一列的各个元素的位置区域的过程进行说 明:
[0067] 假如表单中第一列的位置区域为(16代六,1'(^4,1^81^4,8〇?〇滅),第一列的 定位元素的位置区域为(leftAl,TopAl,RightAl,BottomAl),其中LeftAl等于LeftA, RightAl等于RightA。该列的最大行数为MaxColumn,也就是说第一列包含的元素的数量为 MaxColumn。
[0068] 可以确定,第一列中MaxColumn行元素的高度为BottomA-TopAl,第一列中各元素 的平均高度Height为(BottomA-TopAl)/MaxColumn。之后,根据第一列的定位元素的位置 区域,以及各元素的平均高度就可以确定第一列中MaxColumn行元素的位置区域,具体的:
[0069] 位于第一列第一行的元素A1的位置区域为(LeftA,TopAl,RightA,TopAl+Heig ht);
[0070] 位于第一列第二行的元素A2的位置区域为(LeftA,TopAl+Height,RightA,TopAl +2*Height):
[0071] ......;
[0072] 位于第一列第MaxColumn行的元素Amax的位置区域为(LeftA,TopAl+Height*(Μ axColumn-1),RightA,TopAl+Height*MaxColumn)〇
[0073] 作为优选方案,在确定某一列中各个元素的位置区域之后,利用特定颜色的矩形 框在表单上标注各个元素的位置区域,例如利用红色虚线矩形框在表单上标注各个元素的 位置区域。
[0074] 用户基于标注的矩形框就可以直观的判断计算出的各个元素的位置区域与各个 元素的实际位置区域是否相符。如果计算出的各个元素的位置区域与其实际位置区域存在 偏差,用户可以对表单中各列的位置区域以及各列的定位元素的位置区域进行人工调整。
[0075] 仍以表单中的第一列为例:第一列的位置区域调整为
>,第一列的定位元素的位置区域调 整为
其中,为第一列的 左侧边与表单的左侧边之间的距离的调整值,f为第一列的顶端与表单的上侧边之间的距 离的调整值,i为第一列的右侧边与表单的左侧边之间的距离的调整值,g为第一列的底 端与表单的上侧边之间的距离的调整值,??为第一列的定位元素所在单元格的顶端与表 单的上侧边之间的距离的调整值,?为第一列的定位元素所在单元格的底端与表单的上 侧边之间的距离的调整值。
[0076] 在这种情况下,第一列中MaxColumn行元素的高度为BottomA-TopAl-?Ι, 第一列中各元素的平均高度jj为
。之后,根据 第一列的定位元素的位置区域,以及各元素的平均高度就可以确定第一列中M
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1