一种文档录入方法、系统及电子设备与流程

文档序号:12597333阅读:322来源:国知局
一种文档录入方法、系统及电子设备与流程

本发明涉及电子设备技术领域,更具体地说,涉及一种文档录入方法及系统。



背景技术:

这两年智能手机的硬件比拼进入白热化,手机的拍照能力也成为衡量一款手机性能的重要标准,而最能反应拍照能力的量化标准就是手机的像素。手机摄像头的像素数在这几年的增幅很快:2010年是500万,2011和2012年800万是标配,在去年,许多手机已经提升到了1300万像素。而现在,这个数字增加到1600万,甚至是2000万。

随着像素的不断提升,手机摄像头除了能拍摄更加清晰的照片和录制更加逼真的视频以外,还可以实现更多的功能。现有技术中,二维码识别和条形码识别已经得到了广泛的应用,用户可以通过手机摄像头对二维码和条形码进行扫码,从而实现付款、获取网络地址或获取他人名片信息等功能。但目前为止,手机还无法通过摄像头识别文档并将文档信息录入手机,当需要将文档信息录入手机时,用户只能通过手动逐字逐句的输入,耗时长,效率低,用户体验差。



技术实现要素:

有鉴于此,本发明的目的在于提供一种文档录入方法,能够自动录入文档信息,减少了耗时,提升了用户体验。

为实现上述目的,本发明提供如下技术方案:一种文档录入方法,其特征在于,应用于电子设备,所述方法包括以下步骤:

获取待录入文档的图像信息;

判断所述图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当图像信息中包含能够读取的字块框时,从所述字块框中获取字块信息,所述字块信息为组成所述待录入文档的信息;

将所述字块信息与预设字库中存储的信息进行比较,获得文档信息,所述预设字库中存储的信息包含文字信息、符号信息和数字信息;

基于所述文档信息生成与所述待录入文档相对应的文档。

优选地,所述当图像信息中包含能够读取的字块框时,从所述字块框中获取字块信息包括:

将所述图像信息中的字块框进行字块划分,生成若干个单个字块信息。

优选地,所述当图像信息中包含能够读取的字块框时,从所述字块框中获取字块信息还包括:

提取所述单个字块信息中,所述单个字块在所述字块框中的位置信息。

优选地,所述将所述字块信息与预设字库中存储的信息进行比较,获得文档信息包括:

将所述字块信息与预设字库中存储的信息进行比较,判断所述字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种;

当所述字块信息只符合所述文字信息、符号信息或数字信息中的其中一种时,将所述字块信息与所述文字信息、符号信息或数字信息进行匹配;

在所述文字信息、符号信息或数字信息中,将与所述字块信息相匹配的信息确定为文档信息。

优选地,当所述字块信息符合所述文字信息、符号信息或数字信息中的一种以上时,还包括:

基于字块在所述字块框中的位置信息,获取所述字块前后的N个字块,其中N≥1;

将所述N个字块的信息分别与所述预设字库中存储的文字信息、符号信息和数字信息进行匹配;

分别统计所述N个字块信息中与所述文字信息的第一匹配成功率、与所述符号信息的第二匹配成功率和与所述数字信息的第三匹配成功率;

将所述第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。

一种文档录入系统,应用于电子设备,所述系统包括:

第一获取模块,用于获取待录入文档的图像信息;

判断模块,用于判断所述图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

第二获取模块,用于当图像信息中包含能够读取的字块框时,从所述字块框中获取字块信息,所述字块信息为组成所述待录入文档的信息;

比较模块,用于将所述字块信息与预设字库中存储的信息进行比较,获得文档信息,所述预设字库中存储的信息包含文字信息、符号信息和数字信息;

生成模块,用于基于所述文档信息生成与所述待录入文档相对应的文档。

优选地,所述第二获取模块包括:

划分单元,用于将所述图像信息中的字块框进行字块划分,生成若干个单个字块信息。

优选地,所述第二获取模块还包括:

提取单元,用于提取所述单个字块信息中,所述单个字块在所述字块框中的位置信息。

优选地,所述比较模块包括:

判断单元,用于将所述字块信息与预设字库中存储的信息进行比较,判断所述字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种;

第一匹配单元,用于当所述字块信息只符合所述文字信息、符号信息或数字信息中的其中一种时,将所述字块信息与所述文字信息、符号信息或数字信息进行匹配;

第一确定单元,用于在所述文字信息、符号信息或数字信息中,将与所述字块信息相匹配的信息确定为文档信息。

优选地,所述比较模块还包括:

获取单元,用于当所述字块信息符合所述文字信息、符号信息或数字信息中的一种以上时,基于字块在所述字块框中的位置信息,获取所述字块前后的N个字块,其中N≥1;

第二匹配单元,用于将所述N个字块的信息分别与所述预设字库中存储的文字信息、符号信息和数字信息进行匹配;

统计单元,用于分别统计所述N个字块信息中与所述文字信息的第一匹配成功率、与所述符号信息的第二匹配成功率和与所述数字信息的第三匹配成功率;

第二确定单元,用于将所述第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。

一种电子设备,包括:文档录入系统;其中:

所述文档录入系统包括:第一获取模块,用于获取待录入文档的图像信息;

判断模块,用于判断所述图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

第二获取模块,用于当图像信息中包含能够读取的字块框时,从所述字块框中获取字块信息,所述字块信息为组成所述待录入文档的信息;

比较模块,用于将所述字块信息与预设字库中存储的信息进行比较,获得文档信息,所述预设字库中存储的信息包含文字信息、符号信息和数字信息;

生成模块,用于基于所述文档信息生成与所述待录入文档相对应的文档。

从上述技术方案可以看出,本发明提供的一种文档录入方法,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,然后将字块信息与预设字库中存储的信息进行比较,获得文档信息,最后基于文档信息生成与待录入文档相对应的文档。实现了自动录入文档信息,减少了耗时,提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明公开的一种文档录入方法实施例一的方法流程图;

图2为本发明公开的一种文档录入方法实施例二的方法流程图;

图3为本发明公开的一种文档录入方法实施例三的方法流程图;

图4为本发明公开的一种文档录入系统实施例一的结构示意图;

图5为本发明公开的一种文档录入系统实施例二的结构示意图;

图6为本发明公开的一种文档录入系统实施例三的结构示意图;

图7为本发明公开的一种电子设备实施例一的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示,为本发明公开的一种文档录入方法实施例1的流程图,该方法应用于电子设备,所述电子设备可以为手机、平板电脑等移动终端。所述方法可以包含以下步骤:

S101、获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

S102、判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

S103、当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,所述字块信息为组成待录入文档的信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,从字块框中获取字块信息。其中,字块信息为组成待录入文档的信息。

S104、将字块信息与预设字库中存储的信息进行比较,获得文档信息,所述预设字库中存储的信息包含文字信息、符号信息和数字信息;

进一步将获取到的字块信息与预设字库中存储的信息进行比较,其中,预设字库中存储的信息包含文字信息、符号信息和数字信息。需要说明的是,文字信息包括各国文字,如汉字、英文字母、韩文等。符号信息可以包括各种标点符号及其他特殊符号。数字信息可以包括阿拉伯数字和罗马数字。

S105、基于文档信息生成与待录入文档相对应的文档。

最后基于获取到的文档信息生成与待录入文档对应的文档,实现自动将待录入文档录入至系统中。需要说明的是,在基于文档信息生成与待录入文档相对应的文档后,还可以进一步将录入的文档进行存储,便于后续调用。在生成与待录入文档相对应的文档时,可以根据用户的实际需求选择生成doc、txt或PDF等格式的文件。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,然后将字块信息与预设字库中存储的信息进行比较,获得文档信息,最后基于文档信息生成与待录入文档相对应的文档。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

如图2所示,为本发明公开的一种文档录入方法实施例2的流程图,该方法应用于电子设备,所述电子设备可以为手机、平板电脑等移动终端。所述方法可以包含以下步骤:

S201、获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

S202、判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

S203、当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,将图像信息中的字块框进行字块划分,生成若干个单个字块信息。其中,单个字块信息可以为文字信息、符号信息或数字信息。

在将图像信息中的字块框进行字块划分时,获取到的图像信息的图像背景色为白色,图像信息中的字块框内被认为是字块的线条为黑色,在字块框内寻找不包含或极少包含黑色的贯穿整个字块框的直的带状区域,带状区域宽度可取0.1~1mm,这些带状区域即是字块框内行或列的分界线,可以通过这些分界线将整个字块框分为若干行或若干列。

然后在这些行或列中,按一定的长宽比例范围,如长度为宽度的1~1.5倍,寻找不包含或者极少包含黑色的,垂直于上述行或列的分界线的带状区域,此处带状区域宽度仍可取0.1~1mm,分界线将行或列分割为若干个单个字块,此时每个单个字块内就只包括一个文字、数字或字符。

S204、将字块信息与预设字库中存储的信息进行比较,判断所述字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种;

将划分得到的每个字块信息分别与预设字库中存储的信息进行比较,通过识别判断字块信息是否只为文字信息、符号信息或数字信息中的其中一种。

S205、当所述字块信息只符合所述文字信息、符号信息或数字信息中的其中一种时,将所述字块信息与所述文字信息、符号信息或数字信息进行匹配;

当通过比较确定只为文字信息、符号信息或数字信息中的其中一种时,例如文字“我”因其特征较为明显,不会出现在符号信息或数字信息中,通过比较能够将文字“我”直接确定为文字信息。例如标点符号“?”因其特征较为明显,不会出现在文字信息或数字信息中,通过比较能够将符号“?”直接确定为符号信息。将字块信息与预设字库中的文字信息、符号信息或数字信息进行匹配。例如,当确定字块信息为文字信息时,将字块信息与预设字库中的文字信息进行匹配,在预设字库中的文字信息中找出与字块信息相匹配的文字。

S206、在所述文字信息、符号信息或数字信息中,将与所述字块信息相匹配的信息确定为文档信息。

在将字块信息与预设字库中的文字信息、符号信息或数字信息进行匹配时,将预设字库中与字款信息相匹配的信息确定为文档信息。依照此方法逐一对每个字块信息进行处理,最终生成与待录入文档相对应的文档信息。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息,然后将字块信息与预设字库中存储的信息进行比较,判断字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种,当字块信息只符合文字信息、符号信息或数字信息中的其中一种时,将字块信息与文字信息、符号信息或数字信息进行匹配,最后在文字信息、符号信息或数字信息中,将与字块信息相匹配的信息确定为文档信息。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

如图3所示,为本发明公开的一种文档录入方法实施例3的流程图,该方法应用于电子设备,所述电子设备可以为手机、平板电脑等移动终端。所述方法可以包含以下步骤:

S301、获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

S302、判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

S303、当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,将图像信息中的字块框进行字块划分,生成若干个单个字块信息。其中,单个字块信息可以为文字信息、符号信息或数字信息。

在将图像信息中的字块框进行字块划分时,获取到的图像信息的图像背景色为白色,图像信息中的字块框内被认为是字块的线条为黑色,在字块框内寻找不包含或极少包含黑色的贯穿整个字块框的直的带状区域,带状区域宽度可取0.1~1mm,这些带状区域即是字块框内行或列的分界线,可以通过这些分界线将整个字块框分为若干行或若干列。

然后在这些行或列中,按一定的长宽比例范围,如长度为宽度的1~1.5倍,寻找不包含或者极少包含黑色的,垂直于上述行或列的分界线的带状区域,此处带状区域宽度仍可取0.1~1mm,分界线将行或列分割为若干个单个字块,此时每个单个字块内就只包括一个文字、数字或字符。

S304、提取单个字块信息中,单个字块在所述字块框中的位置信息;

为了便于后续的文档录入,进一步提取出单个字块信息中,单个字块在所述字块框中的位置信息。具体可采用的方法为:给每个单个字块设置坐标属性,X和Y,其中第一行第一列的单个字块X=1,Y=1;第一行第二列的单个字块X=2,Y=1;第二行第一列的单个字块X=1,Y=2,以此类推。这样可以保证文档在录入后还能按照原来的排列顺序生成文档。

S305、将字块信息与预设字库中存储的信息进行比较,判断所述字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种;

将划分得到的每个字块信息分别与预设字库中存储的信息进行比较,通过识别判断字块信息是否只为文字信息、符号信息或数字信息中的其中一种。

S306、当字块信息符合文字信息、符号信息或数字信息中的一种以上时,基于字块在字块框中的位置信息,获取字块前后的N个字块,其中N≥1;

在将字块信息与预设字库中存储的信息进行比较时,某些字块存在特殊性,在进行比较时,容易将字块信息确定为两种或两种以上的信息。例如,字母“Z”,在与预设字库中的信息进行对比的过程中,因“Z”与文字信息中的英文字母“Z”的特征相符,可认为其符合文字信息的特征,但“Z”还可能与数字信息中的数字“2”的特征相符,又可以认为其符合数字信息的特征。发生这种情况的时,无法直接将“Z”分类为文字信息或数字信息。

此时,基于字块在字块框中的位置信息,获取字块前后的N个字块,其中N≥1。例如,假设“Z”为字块框“PIZZA”中第三个从左往右第三个单个字块,此时“Z”位置信息即为X=3,Y=1。此时找到“Z”的前后四个单个字块,则可以找到X=1,Y=1的“P”;X=2,Y=1的“I”;X=4,Y=1的“Z”;X=5,Y=1的“A”。

S307、将N个字块的信息分别与预设字库中存储的文字信息、符号信息和数字信息进行匹配;

在上述例子中,需要被分类的单个字块“Z”的前后四个单个字块中,虽然“I”和另外一个单个字块“Z”仍不能被直接分类为文字字块,但单个字块“P”和单个字块“A”则只符合文字信息的特征,因此可以分类为文字字块。

S308、分别统计N个字块信息中与所述文字信息的第一匹配成功率、与符号信息的第二匹配成功率和与数字信息的第三匹配成功率;

在匹配的过程中,分别统计N个字块信息中与所述文字信息的第一匹配成功率、与符号信息的第二匹配成功率和与数字信息的第三匹配成功率;例如,在上述例子中,需要被分类的单个字块“Z”前后四个单个字块,两个类别不确定,两个为文字字块,与文字信息相匹配的成功率最大,且需要被分类的单个字块“Z”也符合文字信息的特征,所以需要被分类的单个字块“Z”即被确定为文字信息。

需要说明的是,在上述过程中,还可能出现以下几种情况:

(1)前后若干个字块均无法被分类;

(2)前后若干个字块出现了不止一种类型的字块,但每种字块所占比例相同,且需要被分类的单个字块也符合这几种类型的特征;

(3)前后若干个字块出现了一种类型字块,但需要被分类的单个字块不符合这种类型的特征;

在发生上述情况时,则加大查找的前后单个字块的数量,再以上述方法对上述字块进行分类,直到将需要被分类的单个字块分为某一个类型的字块为止。需要说明的是,除上述情况外,还可能出现其他情况,处理这些情况的方法也并不只限于本实施例中所述的方法,在此只是对针对这几种情况的方法进行了详述。

S309、将第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。

将第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。依照此方法逐一对每个字块信息进行处理,最终生成与待录入文档相对应的文档信息。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息,并提取单个字块信息中,单个字块在所述字块框中的位置信息,然后将字块信息与预设字库中存储的信息进行比较,判断字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种,当字块信息符合文字信息、符号信息或数字信息中的一种以上时,基于字块在字块框中的位置信息,获取字块前后的N个字块,将N个字块的信息分别与预设字库中存储的文字信息、符号信息和数字信息进行匹配,分别统计N个字块信息中与所述文字信息的第一匹配成功率、与符号信息的第二匹配成功率和与数字信息的第三匹配成功率,将第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

如图4所示,为本发明公开的一种文档录入系统实施例1的结构示意图,该系统应用于电子设备,所述电子设备可以为手机、平板电脑等移动终端。所述系统可以包含:

第一获取模块401,用于获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

判断模块402,用于判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

第二获取模块403,用于当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,所述字块信息为组成待录入文档的信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,从字块框中获取字块信息。其中,字块信息为组成待录入文档的信息。

比较模块404,用于将字块信息与预设字库中存储的信息进行比较,获得文档信息,所述预设字库中存储的信息包含文字信息、符号信息和数字信息;

进一步将获取到的字块信息与预设字库中存储的信息进行比较,其中,预设字库中存储的信息包含文字信息、符号信息和数字信息。需要说明的是,文字信息包括各国文字,如汉字、英文字母、韩文等。符号信息可以包括各种标点符号及其他特殊符号。数字信息可以包括阿拉伯数字和罗马数字。

生成模块405,用于基于文档信息生成与待录入文档相对应的文档。

最后基于获取到的文档信息生成与待录入文档对应的文档,实现自动将待录入文档录入至系统中。需要说明的是,在基于文档信息生成与待录入文档相对应的文档后,还可以进一步将录入的文档进行存储,便于后续调用。在生成与待录入文档相对应的文档时,可以根据用户的实际需求选择生成doc、txt或PDF等格式的文件。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,然后将字块信息与预设字库中存储的信息进行比较,获得文档信息,最后基于文档信息生成与待录入文档相对应的文档。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

如图5所示,为本发明公开的一种文档录入系统实施例2的结构示意图,该系统应用于电子设备,所述电子设备可以为手机、平板电脑等移动终端。所述系统可以包含:

第一获取模块501,用于获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

判断模块502,用于判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

划分单元503,用于当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,将图像信息中的字块框进行字块划分,生成若干个单个字块信息。其中,单个字块信息可以为文字信息、符号信息或数字信息。

在将图像信息中的字块框进行字块划分时,获取到的图像信息的图像背景色为白色,图像信息中的字块框内被认为是字块的线条为黑色,在字块框内寻找不包含或极少包含黑色的贯穿整个字块框的直的带状区域,带状区域宽度可取0.1~1mm,这些带状区域即是字块框内行或列的分界线,可以通过这些分界线将整个字块框分为若干行或若干列。

然后在这些行或列中,按一定的长宽比例范围,如长度为宽度的1~1.5倍,寻找不包含或者极少包含黑色的,垂直于上述行或列的分界线的带状区域,此处带状区域宽度仍可取0.1~1mm,分界线将行或列分割为若干个单个字块,此时每个单个字块内就只包括一个文字、数字或字符。

判断单元504,用于将字块信息与预设字库中存储的信息进行比较,判断所述字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种;

将划分得到的每个字块信息分别与预设字库中存储的信息进行比较,通过识别判断字块信息是否只为文字信息、符号信息或数字信息中的其中一种。

第一匹配单元505,用于当所述字块信息只符合所述文字信息、符号信息或数字信息中的其中一种时,将所述字块信息与所述文字信息、符号信息或数字信息进行匹配;

当通过比较确定只为文字信息、符号信息或数字信息中的其中一种时,例如文字“我”因其特征较为明显,不会出现在符号信息或数字信息中,通过比较能够将文字“我”直接确定为文字信息。例如标点符号“?”因其特征较为明显,不会出现在文字信息或数字信息中,通过比较能够将符号“?”直接确定为符号信息。将字块信息与预设字库中的文字信息、符号信息或数字信息进行匹配。例如,当确定字块信息为文字信息时,将字块信息与预设字库中的文字信息进行匹配,在预设字库中的文字信息中找出与字块信息相匹配的文字。

第一确定单元506,用于在所述文字信息、符号信息或数字信息中,将与所述字块信息相匹配的信息确定为文档信息。

在将字块信息与预设字库中的文字信息、符号信息或数字信息进行匹配时,将预设字库中与字款信息相匹配的信息确定为文档信息。依照此方法逐一对每个字块信息进行处理,最终生成与待录入文档相对应的文档信息。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息,然后将字块信息与预设字库中存储的信息进行比较,判断字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种,当字块信息只符合文字信息、符号信息或数字信息中的其中一种时,将字块信息与文字信息、符号信息或数字信息进行匹配,最后在文字信息、符号信息或数字信息中,将与字块信息相匹配的信息确定为文档信息。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

如图6所示,为本发明公开的一种文档录入系统实施例3的结构示意图,该系统应用于电子设备,所述电子设备可以为手机、平板电脑等移动终端。所述系统可以包含:

第一获取模块601,用于获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

判断模块602,用于判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

划分单元603,用于当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,将图像信息中的字块框进行字块划分,生成若干个单个字块信息。其中,单个字块信息可以为文字信息、符号信息或数字信息。

在将图像信息中的字块框进行字块划分时,获取到的图像信息的图像背景色为白色,图像信息中的字块框内被认为是字块的线条为黑色,在字块框内寻找不包含或极少包含黑色的贯穿整个字块框的直的带状区域,带状区域宽度可取0.1~1mm,这些带状区域即是字块框内行或列的分界线,可以通过这些分界线将整个字块框分为若干行或若干列。

然后在这些行或列中,按一定的长宽比例范围,如长度为宽度的1~1.5倍,寻找不包含或者极少包含黑色的,垂直于上述行或列的分界线的带状区域,此处带状区域宽度仍可取0.1~1mm,分界线将行或列分割为若干个单个字块,此时每个单个字块内就只包括一个文字、数字或字符。

提取单元604,用于提取单个字块信息中,单个字块在所述字块框中的位置信息;

为了便于后续的文档录入,进一步提取出单个字块信息中,单个字块在所述字块框中的位置信息。具体可采用的方法为:给每个单个字块设置坐标属性,X和Y,其中第一行第一列的单个字块X=1,Y=1;第一行第二列的单个字块X=2,Y=1;第二行第一列的单个字块X=1,Y=2,以此类推。这样可以保证文档在录入后还能按照原来的排列顺序生成文档。

判断单元605,用于将字块信息与预设字库中存储的信息进行比较,判断所述字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种;

将划分得到的每个字块信息分别与预设字库中存储的信息进行比较,通过识别判断字块信息是否只为文字信息、符号信息或数字信息中的其中一种。

获取单元606,用于当字块信息符合文字信息、符号信息或数字信息中的一种以上时,基于字块在字块框中的位置信息,获取字块前后的N个字块,其中N≥1;

在将字块信息与预设字库中存储的信息进行比较时,某些字块存在特殊性,在进行比较时,容易将字块信息确定为两种或两种以上的信息。例如,字母“Z”,在与预设字库中的信息进行对比的过程中,因“Z”与文字信息中的英文字母“Z”的特征相符,可认为其符合文字信息的特征,但“Z”还可能与数字信息中的数字“2”的特征相符,又可以认为其符合数字信息的特征。发生这种情况的时,无法直接将“Z”分类为文字信息或数字信息。

此时,基于字块在字块框中的位置信息,获取字块前后的N个字块,其中N≥1。例如,假设“Z”为字块框“PIZZA”中第三个从左往右第三个单个字块,此时“Z”位置信息即为X=3,Y=1。此时找到“Z”的前后四个单个字块,则可以找到X=1,Y=1的“P”;X=2,Y=1的“I”;X=4,Y=1的“Z”;X=5,Y=1的“A”。

第二匹配单元607,用于将N个字块的信息分别与预设字库中存储的文字信息、符号信息和数字信息进行匹配;

在上述例子中,需要被分类的单个字块“Z”的前后四个单个字块中,虽然“I”和另外一个单个字块“Z”仍不能被直接分类为文字字块,但单个字块“P”和单个字块“A”则只符合文字信息的特征,因此可以分类为文字字块。

统计单元608,用于分别统计N个字块信息中与所述文字信息的第一匹配成功率、与符号信息的第二匹配成功率和与数字信息的第三匹配成功率;

在匹配的过程中,分别统计N个字块信息中与所述文字信息的第一匹配成功率、与符号信息的第二匹配成功率和与数字信息的第三匹配成功率;例如,在上述例子中,需要被分类的单个字块“Z”前后四个单个字块,两个类别不确定,两个为文字字块,与文字信息相匹配的成功率最大,且需要被分类的单个字块“Z”也符合文字信息的特征,所以需要被分类的单个字块“Z”即被确定为文字信息。

需要说明的是,在上述过程中,还可能出现以下几种情况:

(1)前后若干个字块均无法被分类;

(2)前后若干个字块出现了不止一种类型的字块,但每种字块所占比例相同,且需要被分类的单个字块也符合这几种类型的特征;

(3)前后若干个字块出现了一种类型字块,但需要被分类的单个字块不符合这种类型的特征;

在发生上述情况时,则加大查找的前后单个字块的数量,再以上述方法对上述字块进行分类,直到将需要被分类的单个字块分为某一个类型的字块为止。需要说明的是,除上述情况外,还可能出现其他情况,处理这些情况的方法也并不只限于本实施例中所述的方法,在此只是对针对这几种情况的方法进行了详述。

第二确定单元609,用于将第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。

将第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。依照此方法逐一对每个字块信息进行处理,最终生成与待录入文档相对应的文档信息。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,将图像信息中的字块框进行字块划分,生成若干个单个字块信息,并提取单个字块信息中,单个字块在所述字块框中的位置信息,然后将字块信息与预设字库中存储的信息进行比较,判断字块信息是否只符合所述文字信息、符号信息或数字信息中的其中一种,当字块信息符合文字信息、符号信息或数字信息中的一种以上时,基于字块在字块框中的位置信息,获取字块前后的N个字块,将N个字块的信息分别与预设字库中存储的文字信息、符号信息和数字信息进行匹配,分别统计N个字块信息中与所述文字信息的第一匹配成功率、与符号信息的第二匹配成功率和与数字信息的第三匹配成功率,将第一匹配成功率、第二匹配成功率和第三匹配成功率中数值最大的成功率对应的信息确定为所述字块信息的文档信息。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

如图7所示,为本发明公开的一种电子设备实施例1的结构示意图,所述电子设备可以为手机、平板电脑等移动终端。所述电子设备包含文档录入系统71;其中:

文档录入系统71包括:

第一获取模块711,用于获取待录入文档的图像信息;

当电子设备需要对文档进行自动录入操作时,开启电子设备的文档录入功能。在开启电子设备的文档录入功能后,首先获取待录入文档的图像信息。在获取待录入文档的图像信息时,可以通过电子设备自带的摄像头对待录入文档进行拍照或扫描,将拍照或扫描到的信息发送至文档录入系统。需要说明的是,为了获取到更加准确的待录入文档的图像信息,电子设备自带的摄像头在对文档进行拍照或者扫描时,每次可以只对待录入文档的部分文档进行拍照或扫描,以使每次获取到图像更加的清晰,经过多次拍照或扫描后,获得待录入文档的全部图像信息。

判断模块712,用于判断图像信息中是否包含能够读取的字块框,所述字块框为包含所述待录入文档的区域;

当获取到待录入文档的图像信息后,对待录入文档的图像信息进行判断,判断图像信息中是否包含能够读取的字块框,当待录入文档的图像信息中不包含能够读取的字块框时,重新获取待录入文档的图像信息,直至判断图像信息中包含能够读取的字块框。需要说明的是,所述的字块框为包含待录入文档的区域。

第二获取模块713,用于当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,所述字块信息为组成待录入文档的信息;

当图像信息中包含能够读取的字块框时,进一步对字块框进行处理,从字块框中获取字块信息。其中,字块信息为组成待录入文档的信息。

比较模块714,用于将字块信息与预设字库中存储的信息进行比较,获得文档信息,所述预设字库中存储的信息包含文字信息、符号信息和数字信息;

进一步将获取到的字块信息与预设字库中存储的信息进行比较,其中,预设字库中存储的信息包含文字信息、符号信息和数字信息。需要说明的是,文字信息包括各国文字,如汉字、英文字母、韩文等。符号信息可以包括各种标点符号及其他特殊符号。数字信息可以包括阿拉伯数字和罗马数字。

生成模块715,用于基于文档信息生成与待录入文档相对应的文档。

最后基于获取到的文档信息生成与待录入文档对应的文档,实现自动将待录入文档录入至系统中。需要说明的是,在基于文档信息生成与待录入文档相对应的文档后,还可以进一步将录入的文档进行存储,便于后续调用。在生成与待录入文档相对应的文档时,可以根据用户的实际需求选择生成doc、txt或PDF等格式的文件。

综上所述,在上述实施例中,当需要对文档进行录入时,首先获取待录入文档的图像信息,判断图像信息中是否包含能够读取的字块框,当图像信息中包含能够读取的字块框时,从字块框中获取字块信息,然后将字块信息与预设字库中存储的信息进行比较,获得文档信息,最后基于文档信息生成与待录入文档相对应的文档。实现了自动录入文档信息,无需用户对文档进行手动输入,减少了耗时,提升了用户体验。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1