一种打标数据的收集方法、装置以及证件识别系统与流程

文档序号:12670403阅读:来源:国知局

技术特征:

1.一种打标数据的收集方法,其特征在于,所述方法包括:

利用图像字符识别系统识别图片上的文本信息;

验证识别到的所述文本信息是否与可信数据源的信息一致;

如果一致,则对所述图片进行切割,得到至少一个包含单个字符的单元图片;

针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

如果不一致,则计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;

如果是,则转入执行所述步骤:对所述图片进行切割,得到至少一个包含单个字符的单元图片。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

保存所述打标数据,所述打标数据用作所述图像字符识别系统的机器识别模型的训练样本。

4.根据权利要求3所述的方法,其特征在于,在保存所述打标数据之前,所述方法还包括:

对所述打标数据进行脱敏处理。

5.根据权利要求1所述的方法,其特征在于,对所述图片进行切割,得到至少一个包含单个字符的单元图片,包括:

采用文本行定位算法定位所述图片中的文本区域;

采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。

6.一种打标数据的收集装置,其特征在于,所述装置包括:

识别单元,用于识别图片上的文本信息;

验证单元,用于验证识别到的所述文本信息是否与可信数据源的信息一致;如果一致,触发分割单元;

所述分割单元,用于对所述图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元,用于针对所述单元图片,利用与所述单元图片中包含的字符相对应的文本信息进行标记,得到所述单元图片的打标数据,所述打标数据包括:所述单元图片和所述单元图片的标记文本信息。

7.根据权利要求6所述的装置,其特征在于,所述装置还包括:

计算单元;则所述验证单元在验证结果不一致时,触发所述计算单元;

所述计算单元,用于计算所述文本信息与可信数据源的信息之间的相似度,并判断相似度是否落入预设的置信度区间;如果是,触发所述分割单元。

8.根据权利要求6所述的装置,其特征在于,所述装置还包括:

保存单元,用于保存所述打标数据,所述打标数据用作所述识别单元的机器识别模型的训练样本。

9.根据权利要求8所述的装置,其特征在于,所述装置还包括:

脱敏单元,用于对所述打标数据进行脱敏处理;

则所述保存单元,具体用于保存所述脱敏单元脱敏处理后的打标数据。

10.根据权利要求6所述的装置,其特征在于,所述分割单元,包括:

定位子单元,用于采用文本行定位算法定位所述图片中的文本区域;

切割子单元,用于采用切字算法将文本区域切割成至少一个包含单个字符的单元图片。

11.一种证件识别系统,其特征在于,所述系统包括:

图像字符识别单元,用于识别待识别图片中的文本信息;

信息验证单元,用于验证所述图像识别单元识别的文本信息与证件数据库中的信息是否一致,若一致,则验证所述待识别图片为真实图片;

分割单元,用于对所述信息验证单元验证的真实图片进行切割,得到至少一个包含单个字符的单元图片;

标记单元,用于针对所述单元图片,利用与该单元图片中包含的字符相对应的文本信息进行标记,得到打标数据,所述打标数据包括所述单元图片及所述单元图片的标记文本信息,所述打标数据用作所述图像字符识别单元的机器识别模型的训练样本。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1