营业执照版面分析方法及装置与流程

文档序号:12597268阅读:225来源:国知局
本申请实施例涉及图像分析技术,尤其涉及一种营业执照版面分析方法及装置。
背景技术
::营业执照是企业或组织合法经营权的凭证,用于证明企业或组织的经济实力、资质及信誉等。一般由企业或组织向工商行政管理机构提出申请,经过一系复杂的手续,由工商行政管理机构颁发。由于营业执照的申请过程复杂,而且申请人必须符合一定的条件,因此,很多不法分子通过伪造营业执照进行非法经营。为防止不法分子伪造营业执照,需要对营业执照进行版面分析,从而对营业执照进行审核。然而,目前市面上的文字识别软件仅针对普通便携式文档格式(PortableDocumentFormat,PDF)或文档进行结构分析,并没有针对营业执照进行版面分析的方法。若采用分析PDF或文档的文字识别软件对营业执照进行分析,则分析准确率低。技术实现要素:本申请实施例提供一种营业执照版面分析方法及装置,通过提取营业执照的连通域,实现对营业执照版面分析的目的。第一方面,本申请实施例提供一种营业执照版面分析方法,包括:确定营业执照中的至少一个连通域;确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;根据所述至少一个字符,对所述营业执照进行版面分析。在一种可行的实现方式中,所述确定营业执照中的至少一个连通域之前,还包括:获取所述营业执照的二值化图像;所述确定营业执照中的至少一个连通域,包括:确定所述二值化图像中的至少一个连通域。在一种可行的实现方式中,所述根据所述至少一个外接矩形,确定预设字符的定位轴之前,还包括:过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。在一种可行的实现方式中,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。在一种可行的实现方式中,所述根据所述至少一个外接矩形,确定预设字符的定位轴,包括:对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;提取所述预设字符的图像特征;从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。在一种可行的实现方式中,所述根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符,包括:根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。第二方面,本申请实施例提供一种营业执照版面分析装置,包括:处理模块,用于确定营业执照中的至少一个连通域;外接矩形确定模块,用于确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;定位轴确定模块,用于根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;分割模块,用于根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;分析模块,用于根据所述至少一个字符,对所述营业执照进行版面分析。在一种可行的实现方式中,所述处理模块,用于获取所述营业执照的二值化图像,确定所述二值化图像中的至少一个连通域。在一种可行的实现方式中,所述外接矩形确定模块,还用于在所述定位轴确定模块根据所述至少一个外接矩形,确定预设字符的定位轴之前,过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。在一种可行的实现方式中,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。在一种可行的实现方式中,所述定位轴确定模块,具体用于对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;提取所述预设字符的图像特征;从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。在一种可行的实现方式中,所述分割模块,具体用于根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。本申请实施例提供的营业执照版面分析方法及装置,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。附图说明图1为本申请营业执照版面分析方法实施例一的流程图;图2为本申请营业执照版面分析方法中预处理过程的流程图;图3为本申请营业执照版面分析方法中二值化图像的示意图;图4为本申请营业执照版面分析方法中连通域的外接矩形的示意图;图5为本申请营业执照版面分析方法中预处理过程的流程图;图6为本申请营业执照版面分析装置的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下内容为结合附图及较佳实施例,对依据本申请的具体实施方式、结构、特征及其功效的详细说明。图1为本申请营业执照版面分析方法实施例一的流程图,包括:101、确定营业执照中的至少一个连通域。营业执照版面上具有国徽、标题、内容、印章、二维码等信息,其中,标题包括注册号、名称、类型、住所、法定代表人、注册资本、成立日期等,相应的,内容包括具体的注册号、具体的名称、具体类型(如合伙制或有限制等)、具体的地址、法定代表人的姓名、注册资本的金额、成立的具体日期等。该些信息中,相互连通的多个点构成一个区域,该区域称之为连通域。例如,名称的“名”构成一个连通域,营业执照四个字分别构成四个连通域。本步骤中,通过软件算法从营业执照版面中确定出连通域。确定连通域的过程中,相邻的特征点被划分到同一个区域从而形成连通域。102、确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形。在确定出营业执照版面上的连通域后,对于每一个连通域,求取该连通域的外接矩形,从而得到每个连通域的外接矩形。103、根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符。本步骤中,预先设置预设字符,将预设字符的图像特征与每个外接矩形的图像特征进行比对,从至少一个外接矩形中确定出与预设字符的图像特征的接近度最高的外接矩形,将该外接矩形作为预设字符的定位轴。104、根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符。在确定出定位轴后,对营业执照中的内容进行一系列的分割,从而将营业执照的内容分割成一个个的字符。105、根据所述至少一个字符,对所述营业执照进行版面分析。在将营业执照版面上的内容分割成一个个的字符后,营业执照版面审核人员根据该些字符,对营业执照的版面进行分析。分析过程中,营业执照版面审核人员根据分割得到的至少一个字符,对营业执照整体内容进行查看,再将内容项目分类(分名称、类型、住所),对每一项进行审核。本申请实施例提供的营业执照版面分析方法,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。本申请实施例中,对营业执照版面分析大致分为三个过程,下面,对该三个过程分别进行详细说明。首先、第一过程:预处理过程。具体的,可参见图2,图2为本申请营业执照版面分析方法中预处理过程的流程图,包括:201、过滤边缘信息。本步骤中,对于一个具体的营业执照,向将营业执照按照原始比例进行归一化,通过图像处理算法将归一化的营业执照的边缘信息过滤掉。其中,图像处理算法例如为纵向投影与横向投影;边缘信息例如为营业执照左右两侧与上下两侧的空白区域等。202、获取营业执照的二值化图像。本步骤中,采用LMM二值化等方法对过滤掉边缘信息的营业执照进行二值化,从而获得营业执照的二值化图像。具体的,可参加图3,图3为本申请营业执照版面分析方法中二值化图像的示意图。请参照图3,左边的图像为原始的营业执照,右边的图像为经过二值化得到的二值化图像。其中,省略了过滤掉边缘信息的营业执照。203、确定二值化图像中的至少一个连通域,确定至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形。本步骤中,求取二值化图像中的连通域,并得出所有连通域的外接矩形。其中,外接矩形包括文字连通域的外接矩形以及非文字连通域的外接矩形。具体的,可参见图4,图4为本申请营业执照版面分析方法中连通域的外接矩形的示意图。请参照图4,二值化图像中的连通域为多个,相应的,连通域的外接矩形为多个。204、过滤至少一个外接矩形,以得到至少一个外接矩形中符合条件的外接矩形。本步骤中,根据大量文本处理经验,将包含的像素点过少的外接矩形、横纵比过大的外接矩形、包含连通域过多以及其他不符合条件的外接矩形过滤掉,只剩余符合条件的外接矩形。其中,像素点过少指外接矩形中的像素点少于第一阈值,第一阈值例如为6个;横纵比过大指外接矩形的长宽比大于第二阈值,第二阈值例如为4;包含的连通域过多指外接矩形内包含的连通域的数量大于第三阈值,第三阈值例如为4个。另外,不符合条件的外接矩形还可以是外接矩形的横纵比小于第四阈值,如0.3的外接矩形等,本申请实施例并不以此为限制。本步骤中,通过连通域得到外接矩形,矩形的角度,即为文字行的角度。其次、第二过程:分割过程。具体的,可参见图5,图5为本申请营业执照版面分析方法中预处理过程的流程图,包括:301、根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符。本步骤中,根据各个连通域的外接矩形,采用knn算法等寻找预设字符的定位轴。通常情况下,预设字符为营业执照中包括的字符。具体的,将营业桌子中包括的若干个字符作为预设字符,对预设字符提取图像特征,如方向梯度直方图(HistogramofOrientedGradient,HOG)特征,对至少一个外接矩形中的每个外接矩形提取图像特征,如HOG特征,以得到图像特征集。然后,将预设字符的图像特征与图像特征集中每个图像特征进行比对,从图像特征集中确定出与预设字符的图像特征的接近度最高的图像特征,将该图像特征对应的外接矩形作为预设字符的定位轴。302、根据定位轴,将营业执照的内容分割成至少一个字符串。本步骤中,根据营业执照中文字间空白间隙,对符合文字要求的外接矩形的宽度、高度等进行统计,并结合定位轴的位置,将营业执照中,标题、内容两大板块分割开来。然后,分别在板块内进行文字间纵向间隙、横向间隙的统计,并结合第一过程中归一化后的营业执照,将板块内的内容分割成以行为单位的字符串。303、将至少一个字符串中的每个字符串映射到营业执照中,以得到映射字符串后的营业执照。本步骤中,将分割得到的字符串映射到归一化之前的营业执照,即原始营业执照中。304、以行为单位从映射字符串后的营业执照中提取至少一个行字符串,对至少一个行字符串中的每个行字符串进行分割,以得到至少一个字符。本步骤中,根据文本字符块的相对位置,将营业执照中各项目标题,内容均成功分割开来。具体的,以行为单位再次进行背景提取,并结合全局文字大小进行横向分割,最终将字符串分割为一个个的汉字。305、对分割得到的汉字进行处理。本步骤中,对分割后的汉字进行处理,以过滤掉不符合先验条件的非文本内容。例如,通常情况下,汉字的横纵比为1:1,数字的横纵比为1:2。经过过滤,将至少一个字符中横纵比不为1:1或1:2的字符过滤掉。其中,横纵比为1:1或1:2即为先验条件。最后、第三过程:版面分析过程。该过程中,根据处理后的汉字等,对营业执照的版面进行分析。分析过程中,营业执照版面审核人员根据分割得到的至少一个字符,对营业执照整体内容进行查看,再将内容项目分类(分名称、类型、住所),对每一项进行审核。该过程中,若需要光学字符识别(OpticalCharacterRecognition,OCR),则可以直接调用分割得到的每个字符。图6为本申请营业执照版面分析装置的结构示意图,包括:处理模块11,用于确定营业执照中的至少一个连通域;外接矩形确定模块12,用于确定所述至少一个连通域中每个连通域的外接矩形,以得到至少一个外接矩形;定位轴确定模块13,用于根据所述至少一个外接矩形,确定预设字符的定位轴,所述营业执照中的字符包括所述预设字符;分割模块14,用于根据所述定位轴,分割所述营业执照的内容,将所述营业执照的内容分割成至少一个字符;分析模块15,用于根据所述至少一个字符,对所述营业执照进行版面分析。本申请实施例提供的营业执照版面分析装置,通过确定营业执照中的至少一个连通域,对于每一个连通域,确定该连通域的外接矩形,从而得到至少一个外接矩形,然后根据至少一个外接矩形,确定预设字符的定位轴,营业执照中的字符包括预设字符,最后根据定位轴对营业执照的内容进行分割,将营业执照的内容分割成至少一个字符,并根据分割得到的至少一个字符,对营业执照进行版面分析。该过程中,通过提取营业执照的连通域,实现对营业执照版面分析的目的。可选的,在本申请一实施例中,所述处理模块11,用于获取所述营业执照的二值化图像,确定所述二值化图像中的至少一个连通域。可选的,在本申请一实施例中,所述外接矩形确定模块12,还用于在所述定位轴确定模块13根据所述至少一个外接矩形,确定预设字符的定位轴之前,过滤所述至少一个外接矩形,以得到所述至少一个外接矩形中符合条件的外接矩形。可选的,在本申请一实施例中,所述符合条件的外接矩形包括:像素数量小于第一阈值的外接矩形、横纵比小于第二阈值的外接矩形、包含的连通域的个数小于第三阈值的外接矩形。可选的,在本申请一实施例中,所述定位轴确定模块13,具体用于对所述至少一个外接矩形中的每个外接矩形提取图像特征,以得到图像特征集;提取所述预设字符的图像特征;从所述图像特征集中确定出与所述预设字符的图像特征最接近的图像特征,将所述最接近的图像对应的外接矩形作为所述预设字符的定位轴。可选的,在本申请一实施例中,所述分割模块14,具体用于根据所述定位轴,将所述营业执照的内容分割成至少一个字符串;将所述至少一个字符串中的每个字符串映射到所述营业执照中,以得到映射字符串后的营业执照;以行为单位从所述映射字符串后的营业执照中提取至少一个行字符串;对所述至少一个行字符串中的每个行字符串进行分割,以得到所述至少一个字符。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1