一种文稿图像自适应多黑点检测去除方法与流程

文档序号:35848360发布日期:2023-10-25 18:23阅读:40来源:国知局
一种文稿图像自适应多黑点检测去除方法与流程

本发明涉及计算机领域,具体涉及一种文稿图像自适应多黑点检测去除方法。


背景技术:

1、在ocr领域,针对文稿图像中的文字识别尤为重要,特别是公文图像由于其特殊性,在传输过程中会采取保密手段,比如用大小不一的不规则黑点来覆盖全文,这种情况会降低图像质量,影响后续的ocr识别准确度。因此,在识别前对这种图像去除噪声具有重要实际意义。

2、因此,有必要提供一种新的技术方案。


技术实现思路

1、为解决现有技术中存在的技术问题,本发明公开了一种文稿图像自适应多黑点检测去除方法,具体技术方案如下所述:

2、本发明提供一种文稿图像自适应多黑点检测去除方法,包括如下步骤:

3、s1,对读取的图像进行锐化处理,补偿图像中的文字轮廓,增强文字边缘及灰度跳变部分,使文字变得清晰,再依次进行图像灰度化和二值化处理,将图像转为黑白图;

4、s2,对图像进行八连通域分析,将图像中具有相同像素值且相邻的像素找出来并标记,统计出图像中所有连通域以及它们的外接矩形坐标和像素个数;

5、s3,对所有经连通域分析后的结果进行一个自适应阈值估计,自动估计出一个阈值作为去除黑点的自适应参数,小于此参数的黑点去除,大于此参数的黑点则保留。

6、所述自适应阈值的估计方法为:

7、p1,利用核密度统计方法拟合所有连通域的像素个数,形成核密度模型;

8、p2,利用核密度模型对0-256的区间进行密度估计;

9、p3,求出0-256区间上密度估计所有的极小值,每个极小值之间形成不同的山峰,这些山峰就是不同的区间;

10、p4,求出不同极小值区间的连通域数量,数量最大的区间即为黑点密度区间,将此区间的最大值作为阈值,此阈值即为去除黑点的自适应参数,小于此参数则去除黑点,大于此参数则保留黑点。

11、本发明具有以下有益效果:

12、本发明提供的文稿图像自适应多黑点检测去除方法,首先是替代在没有用深度学习方法的情况下,用该方法做替代,因为深度学习方法需要语料去做训练,但这语料往往不可得。其次是为了提高ocr的识别准确度,特别是提高标点符号的识别准确度,能够快速、方便、精准的去除文稿图形中的黑点,。

13、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。



技术特征:

1.一种文稿图像自适应多黑点检测去除方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的文稿图像自适应多黑点检测去除方法,其特征在于,所述自适应阈值的估计方法为:


技术总结
本发明提供一种文稿图像自适应多黑点检测去除方法,包括如下步骤:S1,对读取的图像进行锐化处理,补偿图像中的文字轮廓,增强文字边缘及灰度跳变部分,使文字变得清晰,再依次进行图像灰度化和二值化处理,将图像转为黑白图;S2,对图像进行八连通域分析,将图像中具有相同像素值且相邻的像素找出来并标记,统计出图像中所有连通域以及它们的外接矩形坐标和像素个数;S3,对所有经连通域分析后的结果进行一个自适应阈值估计,自动估计出一个阈值作为去除黑点的自适应参数,小于此参数的黑点去除,大于此参数的黑点则保留。本发明具有能够快速、方便、精准的去除文稿图像中的黑点等优点。

技术研发人员:石雁,李艳,李迪
受保护的技术使用者:永中软件股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1