一种打标数据的收集方法、装置以及证件识别系统与流程

文档序号:12670403阅读:584来源:国知局
一种打标数据的收集方法、装置以及证件识别系统与流程

本申请涉及计算机应用领域,特别是涉及一种打标数据的收集方法、装置以及证件识别系统。



背景技术:

字符识别系统是指用于识别字符信息真假的系统,如身份证字符识别系统、营业执照字符识别系统、护照字符识别系统等。以身份证字符识别系统为例,该系统识别用户身份证图像中的关键信息,如姓名、身份证号码等字符,以验证用户身份证图像的真实性。

字符识别系统主要依赖于字符识别算法来实现身份识别,因此字符识别算法的性能好坏直接影响到该系统的识别性能的高低,在实际操作中,常通过人工打标的方式来收集打标数据,利用打标数据训练得到更加准确的字符识别模型,优化该字符识别算法,使字符识别系统的性能更优。在训练过程中,打标数据越多、越真实,训练得到的字符识别模型的准确性越高、可靠性越高。

目前,这种人工打标的方式,需要投入大量的人工成本和时间成本,打标数据的收集效率较低,从而限制了字符识别系统性能的优化。



技术实现要素:

为了解决上述技术问题,本发明提供了一种打标数据的收集方法和装置,提供了线上、自动收集打标数据的方式,这种自动收集方式,能够节省人力成本和时间成本,能够促进字符识别系统的优化。

另外,本发明还提供了一种证件识别系统,既能够实现对证件的识别,又能够实现打标数据的自动收集。

本发明第一方面提供了一种打标数据的收集方法,所述方法包括:

利用图像字符识别系统识别图片上的文本信息;

验证识别到的所述文本信息是否与可信数据源的信息一致;

如果一致,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;

针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

可选的,所述方法还包括:

如果不一致,则计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;

如果是,则转入执行所述步骤:对所述图片进行切割,得到至少一个包含单个字符的单元图片。

可选的,所述方法还包括:

保存所述打标数据,所述打标数据用作所述图像字符识别系统的机器识别模型的训练样本。

可选的,在保存所述打标数据之前,所述方法还包括:

对所述打标数据进行脱敏处理。

可选的,对所述图片进行切割,得到至少一个包含单个字符的单元图片,包括:

采用文本行定位算法定位所述图片中的文本区域;

采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。

本发明第二方面提供了一种打标数据的收集装置,所述装置包括:

识别单元,用于识别图片上的文本信息;

验证单元,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元;

所述分割单元,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

可选的,所述装置还包括:

计算单元;则所述验证单元在验证结果不一致时,触发所述计算单元;

所述计算单元,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元。

可选的,所述装置还包括:

保存单元,用于保存所述打标数据,所述打标数据用作所述识别单元的机器识别模型的训练样本。

可选的,所述装置还包括:

脱敏单元,用于对所述打标数据进行脱敏处理;

则所述保存单元,具体用于保存所述脱敏单元脱敏处理后的打标数据。

可选的,所述分割单元,包括:

定位子单元,用于采用文本行定位算法定位所述图片中的文本区域;

切割子单元,用于采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。

本发明第三方面提供了一种证件识别系统,所述系统包括:

图像字符识别单元,用于识别待识别图片中的文本信息;

信息验证单元,用于验证所述图像识别单元识别的文本信息与证件数据库中的信息是否一致,若一致,则验证所述待识别图片为真实图片;

分割单元,用于对所述信息验证单元验证的真实图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元,用于针对所述单元图片,利用与该单元图片中包含的字符相对应的文本信息进行标记,得到打标数据,所述打标数据包括所述单元图片及所述单元图片的标记文本信息,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。

本发明提供的技术方案与现有技术相比,其具有如下有益效果:

本发明提供的技术方案,利用图像字符识别系统识别图片上的文本信息;验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,表明图片上的文本信息是真实的,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;这样,图像字符识别系统可以实时的、不间断的为后续打标数据的收集提供可靠的数据基础。然后针对所述单元图片,利用与所述 单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。因此,本发明提供的技术方案基于图像字符识别系统和可信数据源验证图片的真实性,通过对这些真实图片进行切割、标记得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进系统性能的改进和优化。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的一种打标数据的收集方法实施例1的流程图;

图2是本发明提供的打标数据的示意图;

图3是本发明提供的一种打标数据的收集方法实施例2的流程图;

图4是本发明提供的一种打标数据的收集装置实施例1的流程图;

图5是本发明提供的一种打标数据的收集装置实施例2的结构图;

图6是本发明提供的一种证件识别系统的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。

方法实施例

请参阅图1,图1是本发明提供的一种打标数据的收集方法实施例1的流程图,该方法可以由用户机器来执行,例如个人的PC机,也可以由各种类型的网站服务器来执行,例如Web服务器,或者APP服务器。如图1所示该方法包括:

步骤101:利用图像字符识别系统识别图片上的文本信息。

步骤102:验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,执行步骤103-105。

在本发明实施例中,图像字符识别系统是指用于识别图像上文本信息的系统,如身份证字符识别系统、营业执照字符识别系统、护照字符识别系统等。

在本发明实施例中,可信数据源是指存储真实数据信息或已经过校验的数据信息的数据库,例如公安网等官方数据。如公安系网内储存用户身份证信息的数据库,或者,用于储存用户护照信息的数据库,或者,用于储存企业营业执照信息的数据库。

为了便于解释说明,下文仅以身份证字符识别系统为例对本发明实施例进行示例性说明。

举例说明:身份证字符识别系统根据不同的业务需求,可以识别用户身份证图片中不同的文本信息,如可以识别身份证图片上的姓名、身份证号、出生、民族、性别、住址、签发机关、有效期限等文本信息。

一般情况下,身份证字符识别系统接收用户上传的图片,先验证图片种类,如验证图片是否为指定的身份证种类,如验证图片是否为身份证的人脸面;在验证通过之后,身份证字符识别系统基于文字识别算法采用的文字识别模型,提取图片上的文本信息。在得到文本信息之后,验证识别到的所述文本信息是否与可信数据源的信息一致。

例如:验证身份证图片上的姓名、身份证号与公安网的信息是否一致,具体是:验证身份证图片上的姓名、身份证号与公安网的信息的字符个数是否一致且多数字符是否一致,如果是,则认定身份证图片上的文本信息与公安网的信息是一致的,验证结果是一致的,说明身份证图片是真实图片,该图片上的文本信息是真实可靠的;如果否,则认定身份证图片上的文本信息与公安网的信息是不一致的,验证结果是不一致的,说明身份证图片是虚假图片,该图片上的文本信息是不真实、不可信的。

通过图像字符识别系统和可信数据源能够验证出图片上文本信息是否是真实可靠的,这样就会后续打标数据的收集打好数据基础,接下来对真实的图片进行处理。

步骤103:则对所述图片进行切割,得到至少一个包含单个字符的单元图片。

在具体实现时,步骤103可以包括:

采用文本行定位算法定位所述图片中的文本区域;

采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。

下面以身份证字符识别系统识别身份证图片中的姓名、身份证号为例,对步骤103的具体实现过程进行说明。

先采用文本行定位算法定位身份证图片中的姓名、身份证号的文本区域;然后采用切字算法将这些文本区域切割成至少一个包含单个字符的单元图片。

例如,用户上传的身份证图片中姓名是“张三”,则先定位到姓名文本区域,然后将“张三”文本区域切割成“张”和“三”两个包含字符的单元图片。

再例如,用户上传的身份证图片中身份证号是“110123201510100334”则先定位到身份证文本区域,然后将“110123201510100334”文本区域切割成18个包含单个数字的单元图片。

步骤104:针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

以上文示例中的单元图片“张”、“三”为例,对步骤104进行示例性说明。

请参阅图2,图2示出的灰色底的携带“张”的单元图片1和灰色底的携带“三”的单元图片2;单元图片1右侧的文字“张”和单元图片2右侧的文字“三”都是可信数据源中信息;利用文字“张”、“三”分别对单元图片1和单元图片2进行标记,得到打标数据。从上述方法实施例1可以看出,本发明通过图像字符识别系统和可信数据源来识别图片上文本信息的真实性;如果真实,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。则对该图片进行切割得到包含字符的小图片;因此,本发明提供的技术方案基于图像字符识别系统和可信数据源验证 图片的真实性,通过对这些真实图片进行切割、标记以得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进系统性能的改进和优化。

为了进一步提高打标数据的收集效率,本发明还提供了另一种收集方法。下面结合图3对该方法进行解释说明。

请参阅图3,图3是本发明提供的一种打标数据的收集方法实施例2的流程图,该方法包括:

步骤301:利用图像字符识别系统识别图片上的文本信息;

步骤302:验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,执行步骤303和304;如果不一致,执行步骤305。

步骤303:对所述图片进行切割,得到至少一个包含单个字符的单元图片;

步骤304:针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

步骤305:计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,执行步骤303和304。

其中,步骤301-304与上述实施例中步骤101-104相同,可以参照上文描述,此处不再赘述。

其中,在步骤301中,图像字符识别系统可能因为用户上传的图片格式无法识别、图片不清楚等原因,导致识别出的文本信息与可信数据源的信息不一致,但这些图片却很有可能就是真实可靠的。基于此,本发明进一步的利用步骤305来进一步衡量图片的真实性和可信度。

其中,在步骤305中,通过所述文本信息与可信数据源的信息之间的相似度来衡量图片的可靠性;如果,相似度落入了预设的置信度区间,表明该该图片是可信的。那么该图片就可以作为后续打标数据的数据基础,进而通过步骤303和304来收集打标数据。

本发明方法实施例2与方法实施例1相比,其在方法实施例1的基础上,增加了通过相似度进一步衡量验证结果不一致的图片的可信度,将可信度满足需求的图片也作为打标数据的数据基础,这样就扩展了打标数据的数据源, 能够进一步提高打标数据的收集效率和质量。另外,在上述方法实施例1或方法实施例2的基础上,还可以增加如下步骤:

保存所述打标数据,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。

另外,还考虑到图像字符识别系统识别的图片会涉及到用户私密信息,如用户身份证图片携带有用户姓名、身份证号等私密信息等;为了保证这些私密信息在打标数据收集过程中安全性,防止私密信息的泄露。基于此,在上述保存所述打标数据之前,还可以对所述打标数据进行脱敏处理,则保存脱敏处理后的打标数据。脱敏处理可以采取对所述打标数据进行随机命名等方式。

针对“对打标数据进行脱敏处理”步骤,下面给出两种可实现的方式。

一种实现方式是,对所述打标数据中的多个所述单元图片和所述单元图片的标记文本信息进行随机排序。

一般情况下,针对一个图片收集到的打标数据都是按照顺序排序的。例如,针对身份证图片收集到的打标数据是姓名、身份证号中各个字符的单元图片和单元图片的标记文本信息。如姓名“张”、“三”这些打标数据都是顺序排列的。这样,非法份子窃取这些打标数据后,可以直接恢复出特定用户的私密信息,如用户姓名“张三”。为了防止在打标数据收集过程中泄露私密信息。则对打标数据中多个单元图片和单元图片的标记文本信息进行随机排序,尤其是在打标数据量比较大的情况,就很难从这些打标数据中恢复出特定用户的私密信息,从而保证了用户私密信息的安全性。

另一种实现方式是,对打标数据进行加密。

采用这种方式对打标数据进行脱敏处理,最终保存的是打标数据的密文,这样,防止非法份子直接从数据库中窃取用户私密信息,增加了破解难度。当然,在本发明中脱敏处理并不局限于以上两种方式,还可以采用其他脱敏方式进行处理。

装置实施例

与上述一种打标数据的收集方法相对应,本申请实施例还提供了一种打标数据的收集装置。

请参阅图4,图4是本发明提供的一种打标数据的收集装置实施例1的结构图。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。该装置包括:

识别单元401,用于识别图片上的文本信息;

其中识别单元可以是利用图像字符识别系统识别图片上的文本信息。

验证单元402,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元403;

所述分割单元403,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元404,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

另外,本发明还提供了另一种打标数据的收集装置,具体请参阅图5示出的一种打标数据的收集装置实施例2的结构图。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。该装置包括:

识别单元501,用于识别图片上的文本信息;

验证单元502,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元503;如果不一致,触发计算单元505;

所述分割单元503,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元504,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

计算单元505,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元503和标记单元504。

在上述图4或图5所示装置的基础上,所述装置还可以包括:

保存单元,用于保存所述打标数据,所述打标数据用作识别单元501的机器识别模型的训练样本。

更进一步的,在上述图4或图5所示装置的基础上,所述装置还可以包括:

脱敏单元,用于对所述打标数据进行脱敏处理;

则所述保存单元,具体用于保存脱敏处理后的打标数据。

可选的,所述脱敏单元具体用于:对所述打标数据中的多个所述单元图片和所述单元图片的标记文本信息进行随机排序。

在上述图4或图5所示装置中,所述分割单元,可以包括:

定位子单元,用于采用文本行定位算法定位所述图片中的文本区域;

切割子单元,用于采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。

本发明提供的装置,基于图像字符识别系统和可信数据源验证图片的真实性,通过对这些真实图片进行切割、标记以得到打标数据,整个过程不再需要人工参与,能够节省人工成本和时间成本,从而能够促进系统性能的改进和优化。

本发明还提供了一种证件识别系统,下面结合图6对该系统进行解释说明。

请参阅图6,图6是本发明提供的一种证件识别系统的结构图,如图6所示,该系统可以包括:

图像字符识别单元601,用于识别待识别图片中的文本信息;

信息验证单元602,用于验证所述图像识别单元识别的文本信息与证件数据库中的信息是否一致,若一致,则验证所述待识别图片为真实图片;

分割单元603,用于对所述信息验证单元验证的真实图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元604,用于针对所述单元图片,利用与该单元图片中包含的字符相对应的文本信息进行标记,得到打标数据,所述打标数据包括所述单元图片及所述单元图片的标记文本信息,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。

在图6所示系统的基础上,还可以包括:

计算单元,用于计算所述文本信息与可信数据源的信息之间的相似度, 并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元和标记单元。这样,能够进一步地将一些可信度较高的图片作为打标数据的基础,从而提高打标数据的收集效率。

本发明提供的证件识别系统,一方面利用图像字符识别单元和信息验证单元对图片进行验证;另一方面,利用分割单元和标记单元对验证的真实图片进行切割、标记以得到打标数据,该打标数据能够用作图像字符识别单元的机器识别模型的训练样本,以对图像字符识别单元进行进一步优化。因此,该证据识别系统既能够验证图片的真实性,又能够自动收集打标数据,为系统的自优化打好基础。

所述领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述到的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,可以采用软件功能单元的形式实现。

需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的 程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上对本申请所提供的一种打标数据的收集方法、装置以及证件识别系统进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1