本发明涉及计算机领域,具体涉及一种文稿图像自适应多黑点检测去除方法。
背景技术:
1、在ocr领域,针对文稿图像中的文字识别尤为重要,特别是公文图像由于其特殊性,在传输过程中会采取保密手段,比如用大小不一的不规则黑点来覆盖全文,这种情况会降低图像质量,影响后续的ocr识别准确度。因此,在识别前对这种图像去除噪声具有重要实际意义。
2、因此,有必要提供一种新的技术方案。
技术实现思路
1、为解决现有技术中存在的技术问题,本发明公开了一种文稿图像自适应多黑点检测去除方法,具体技术方案如下所述:
2、本发明提供一种文稿图像自适应多黑点检测去除方法,包括如下步骤:
3、s1,对读取的图像进行锐化处理,补偿图像中的文字轮廓,增强文字边缘及灰度跳变部分,使文字变得清晰,再依次进行图像灰度化和二值化处理,将图像转为黑白图;
4、s2,对图像进行八连通域分析,将图像中具有相同像素值且相邻的像素找出来并标记,统计出图像中所有连通域以及它们的外接矩形坐标和像素个数;
5、s3,对所有经连通域分析后的结果进行一个自适应阈值估计,自动估计出一个阈值作为去除黑点的自适应参数,小于此参数的黑点去除,大于此参数的黑点则保留。
6、所述自适应阈值的估计方法为:
7、p1,利用核密度统计方法拟合所有连通域的像素个数,形成核密度模型;
8、p2,利用核密度模型对0-256的区间进行密度估计;
9、p3,求出0-256区间上密度估计所有的极小值,每个极小值之间形成不同的山峰,这些山峰就是不同的区间;
10、p4,求出不同极小值区间的连通域数量,数量最大的区间即为黑点密度区间,将此区间的最大值作为阈值,此阈值即为去除黑点的自适应参数,小于此参数则去除黑点,大于此参数则保留黑点。
11、本发明具有以下有益效果:
12、本发明提供的文稿图像自适应多黑点检测去除方法,首先是替代在没有用深度学习方法的情况下,用该方法做替代,因为深度学习方法需要语料去做训练,但这语料往往不可得。其次是为了提高ocr的识别准确度,特别是提高标点符号的识别准确度,能够快速、方便、精准的去除文稿图形中的黑点,。
13、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种文稿图像自适应多黑点检测去除方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的文稿图像自适应多黑点检测去除方法,其特征在于,所述自适应阈值的估计方法为: