基于结构激光线的文档图像畸变矫正方法

文档序号：9397503阅读：520来源：国知局

基于结构激光线的文档图像畸变矫正方法
【技术领域】
[0001] 本发明实施例涉及数字图像处理和计算机视觉技术领域，尤其是涉及基于结构激光线的文档图像畸变矫正方法。
【背景技术】
[0002] 传统的平板式扫描仪在扫描积厚文档（如书刊）时，由于文档的书脊区域无法完全平展紧贴扫描仪的玻璃平板表面，最终导致得到的文本图像在书脊区域出现显著的图像畸变、非均匀阴影等扫描缺陷。这些扫描缺陷会严重影响后续的文档图像分析工作（如文档图像的版面分割、字符识别等）。因此，作为常用的文档扫描工具，传统的平板式扫描仪通常不适用于非平面文档的高质量扫描工作。
[0003] 为实现书籍等文档的高质量扫描，人们先后提出了一系列技术来试图解决具有弯曲表面形状的文档图像高质量扫描问题。这些技术可大致分为两大类：基于软件的方法和基于硬件辅助的方法。前者通常对获取的畸变图像利用算法首先估计得到图像的畸变函数，然后通过图像变换矫正图像中的畸变失真；而后者则通常在图像采集过程中，借助某种硬件设备来辅助实现文档图像的高质量采集。
[0004] 基于软件的方法关键在于正确的估计文档图像的畸变函数，常用的方法包括基于图像局部形变的技术、基于Shape-from-X的技术、基于页面曲面模型化的技术、基于多视点图像的技术等。基于图像局部形变的技术注意到文档图像中通常存在大量的文本行。而对于无畸变的图像，这些文本行通常都是水平方向、平行排列的。因此，该方法首先分割并提取文档图像中文本行，并估计每条文本行对应的文本行基线，然后将弯曲的文本行基线拉成一条水平直线，并将文本行中的单词逐个旋转并沿矫正的基线重新排列，从而矫正文本行的弯曲。利用这种方法矫正后的图像，文字识别精度能够得到显著提升，然而该方法矫正后的图像视觉质量不高，图像中仍存在大量的畸变，且无法矫正非文本区域的图像畸变。
[0005] 基于shape-from-X的技术利用图像中的某种视觉线索来恢复文档页面的3D形状，从而构造图像的畸变矫正函数。这些视觉线索包括阴影、轮廓、纹理等。在现有技术中，以页面的阴影曲面最为常用。该技术通过分析页面阴影与页面形状之间的约束关系，得到二者所满足的约束方程，求解该方程得到页面的3D曲面。最后利用该曲面完成图像几何畸变的矫正。该技术对页面阴影要求较高，仅适用于光源受控环境下的图像采集。
[0006] 基于页面曲面模型化的技术则假设页面的弯曲形状为某种特定类型的曲面，如柱面或可展曲面，从而利用该假设来约束页面曲面的估计。这其中，柱面假设是最为常用的一种假设。为估计透视变换下的柱面模型的参数，该技术通常进一步限定相机拍摄的视角、距离、姿态等，且还需预先知道文档页面的尺寸等额外物理信息。这些苛刻条件为实际应用造成了很多不便。此外，为准确估计柱面模型的参数，需要精确的分割并提取文档图像中水平文本行，在对尚不成熟的文本行精确提取和拟合技术提出了很高的要求。由于文档版面类型的多样性以及图像获取过程中引入的畸变、噪声等影响，精确的分割并提取水平文本行基线在实际中非常困难，从而严重制约了该方法的实际应用。
[0007] 可展曲面假设是另一种常用的页面形状假设。由于文档页面总可以展开至平面上，因此，与柱面假设相比，该假设更具一般性。注意到可展曲面可由逐条平面片很好逼近，有研究者最新提出采用分片薄板样条曲面来近似可展曲面，用于图像几何畸变的矫正。该技术利用目前成熟的平面透视失真矫正技术，对薄板样条曲面逐片矫正，最后对这些矫正后的结果拼接完成图像的矫正。然而，由于无可避免的估计误差，拼接后的图像中常存在裂缝、重叠等缺陷。这些缺陷大大影响了图像矫正后的视觉效果。此外，由于透视失真与非线性几何形变失真的复合，该技术无法彻底矫正图像中存在的几何畸变，存在矫正残留误差大、算法复杂等缺点。
[0008] 近来，有研究者还提出了基于多视点图像的文档图像畸变矫正技术。该技术通过获取同一文档不同视点下的多幅图像，从中提取图像特征进行配准，进而利用多视几何和极线约束估计页面的3D形状。为了精确估计页面的3D形状，该技术需要对不同视点下拍摄的图像进行精确的特征点配准。然而，由于图像畸变的影响，在畸变严重的地方特征点匹配精度很差，从而导致该区域的形状估计误差大，得到的形变函数无法有效的矫正该区域的图像畸变。
[0009] 与基于软件的方法不同，基于硬件辅助的技术在图像采集阶段就引入特定的硬件装备来辅助书籍文档图像的采集。代表性的技术包括基于3D扫描仪的技术、基于V-bed的书籍扫描技术和基于V-head的书籍扫描技术。基于3D扫描仪的技术利用3D扫描仪直接获取文档页面的3D深度信息，基于这些信息重构页面曲面的3D形状，最后通过一个保角映射和纹理映射将扭曲的图像映射至平面上，来矫正图像的几何扭曲。这类方法通常对图像的几何形变类型不加限制，能够适用于图像中多种类型的几何畸变的矫正。然而，由于额外需要价格昂贵的3D扫描仪辅助图像矫正，这类方法在实际中并不常用。并且，由于深度数据中几何拓扑关系的缺失，3D页面形状的重构还存在计算量大、数值不稳定等缺点，这些进一步限制的这类方法在实际中的应用。
[0010] 基于V-bed的扫描技术设计了一种V形的底座来方便地放置打开的书页。放置在 V形底座上的书页，通过手指轻压或借助于透明的玻璃平板覆压可防止页面出现显著的形变。在采集页面图像时，该技术通常利用两部高分辨率相机分别拍摄书籍的左右页面。该技术能够防止书籍图像采集过程中产生显著畸变，然而为了得到高质量的页面图像，在扫描一本书不同厚度部分时，常需要不断调整V形底座张开的角度。此外，该技术利用按压来防止书籍页面出现变形，这种技术属于接触式扫描方法，不适用于易损古籍的扫描。
[0011] 基于V-head的书籍扫描技术利用专门设计的V形扫描头，并结合V形底座对书籍进行扫描。这种扫描技术专门用于对积厚书籍的图像扫描。扫描的时候，将一本厚书打开向上放置于V形底座上，然后将V形扫描头插入页面并调整高度将书籍页面压紧，防止页面出现弯曲变形。该技术与基于V-bed的扫描技术类似，属于一种接触式的扫描技术，不适用于易损古籍的扫描。此外，基于V-head的扫描技术是专门针对书籍文档的扫描而设计的，不能用于其他文档的扫描，因此，其应用范围在实际中受到很大限制。
[0012] 有鉴于此，特提出本发明。

【发明内容】

[0013] 本发明实施例的主要目的在于提供一种基于结构激光线的文档图像畸变矫正方法，其至少部分地解决了如何矫正非平面文档图像的几何畸变的技术问题。
[0014] 为了实现上述目的，根据本发明的一个方面，提供了以下技术方案：
[0015] -种基于结构激光线的文档图像畸变矫正方法，该方法至少可以包括：
[0016] 对相机内、外参数进行标定，并计算结构激光线所在的平面方程；
[0017] 获取文档图像；
[0018] 提取激光线；
[0019] 根据标定的相机内、外参数、所述结构激光线所在的平面方程以及所述提取的激光线，估计所述文档图像的3D页面准线；
[0020] 根据所述3D页面准线，对可展曲面进行插值；
[0021] 对所述插值的可展曲面进行展开；
[0022] 根据所述展开的可展曲面，对图像畸变进行矫正。
[0023] 进一步地，所述对相机内、外参数进行标定，具体包括：
[0024] 根据棋盘格图案标定块，得到标定块图像，根据相机标定算法计算相机的内参数；
[0025] 在所述标定块图像上建立世界坐标系，根据所述相机标定算法计算相机对应的外参数。
[0026] 进一步地，所述计算结构激光线所在的平面方程，具体包括：
[0027] 根据所述相机外参数和内参数，计算所述激光线上的点在世界坐标系下的3D坐标，利用最小二乘算法对同一激光线上的3D坐标点进行平面拟合。
[0028] 进一步地，所述获取文档图像具体包括：
[0029] 利用两条一字线激光器照射文档，开启和关闭激光器电源，同时利用相机拍摄文档页面图像。
[0030] 进一步地，所述提取激光线，具体包括：
[0031] 提取所述文档图像的红色通道图像，

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟高峰;潘春洪;向世明;王颖;汪凌峰;
技术所有人：中国科学院自动化研究所;
我是此专利的发明人

上一篇：一种基于光照分离模型的数字图像去雾方法
上一篇：实现锥束ct图像重建的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。