一种图片中文字区域的获取方法及装置与流程

文档序号：12541648阅读：187来源：国知局

本发明属于图像处理技术领域，尤其涉及一种图片中文字区域的获取方法及装置。

背景技术：
随着互联网技术和多媒体技术的快速发展，互联网上的图片内容呈现爆炸性增长趋势，这些图片大多含有文字信息，而且这些文字信息一般能比较准确的描述图片的内容。因此，如何有效的识别这些文字信息，对于图片的处理（例如：删除包含非法广告信息的图片等）具有重要的意义。在图片文字的识别过程中，图片文字区域的获取是一个关键的环节，现有技术在通过光学字符识别（OpticalCharacterRecognition，OCR）来识别图片中的文字信息时，对于图片文字区域的获取较复杂，而且准确率低。

技术实现要素：
本发明实施例提供一种图片中文字区域的获取方法，以解决现有技术在获取图片中的文字区域时，复杂度高、准确率低的问题。本发明实施例一方面提供了一种图片中文字区域的获取方法，所述方法包括：对当前图片进行预处理；对预处理后的图片进行角点处理，所述角点处理包括角点获取、角点滤波以及角点聚类；获取角点处理后的连通区域，将所述连通区域作为文字区域输出。本发明实施例另一方面提供了一种图片中文字区域的获取装置，所述装置包括：预处理单元，用于对当前图片进行预处理；角点处理单元，用于在所述预处理单元处理完后进行角点处理，所述角点处理包括角点获取、角点滤波以及角点聚类；输出单元，用于获取角点处理后的连通区域，将所述连通区域作为文字区域输出。从上述技术方案可以看出，本发明实施例通过对预处理后的图片进行角点处理，可以快速、准确的获取图片中的文字区域。而且实现方案简单、高效，实用性强。附图说明为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1是本发明实施例一提供的图片中文字区域的获取方法的实现流程图；图2a、2b是本发明实施例一提供的原图以及角点二值图；图3a、3b是本发明实施例一提供的角点滤波前后的示例图；图4a、4b是本发明实施例一提供的角点聚类前后的示例图；图5是本发明实施例一提供的图片文字区域的示例图；图6是本发明实施例二提供的图片中文字区域的获取方法的实现流程图；图7是本发明实施例三提供的图片中文字区域的获取装置的组成结构。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下对照附图并结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。实施例一：图1示出了本发明实施例一提供的图片中文字区域的获取方法的实现流程，该方法过程详述如下：在步骤S201中，对当前图片进行预处理。在本实施例中，预处理过程包括但不局限于图片二值化以及以下至少一种：噪点去除、明度增强、尺寸归一化、图像马赛克。其中，噪点去除可以采用现有的降噪算法去掉原图片（当前图片）中的杂色和噪点。明度增强是为了对图片中的文字边缘做增强可读效果的处理，包括调整RGB色彩分布、更换明度提取算法、整图/局部锐化处理、增强对比度、整图/局部边缘增强等。为了保证后续处理时参数设置的统一，在进行角点处理之前，可以对原图片的尺寸进行归一化处理，将尺度较大的原图片缩小到一个合理的尺寸，如高度大于400px的图片在保持宽高比的前提下缩小到400px高。而对于小尺寸的图片为了避免图像失真则不做扩大处理。另外，由于有些图片的文字在边缘上比较平滑（如字体边缘采用了色彩过渡，明度过渡等边缘处理手段），如果直接在像素级别上获取角点存在丢失数据的可能。因此，本实施例将原始图片转换成一个一定规则的马赛克图片（例如：将400px的图片转换成2×2像素的马赛克图片，即将原图片中的4个像素点合并为1个像素点），因此转换后的马赛克图片不仅可以在一定程度上降低丢失角点的可能性（合并和，角点尺寸变大），而且可以大大的提升角点获取的速度。在步骤S202中，对预处理后的图片进行角点处理，所述角点处理包括角点获取、角点滤波以及角点聚类。有选的是，以表一的3×3模板为例说明角点获取的过程：表一BA1CAB1表一中A、B、C、A1、B1为图片二值化后的像素点，令：rA=(fA–fC)2+(fA1–fC)2（1）rB=(fB–fC)2+(fB1–fC)2（2）R1=min(rA，rB)（3）其中，f表示像素点的亮度分量，如果R1小于第一阈值T1（例如200），则说明中心像素点C不是角点，如果R1大于或者等于第一阈值T1，则继续令：X1=(fB–fA)×(fA–fC)+(fB1–fA1)×(fA1–fC)（4）X2=(fB–fA1)×(fA1–fC)+(fB1–fA)×(fA–fC)（5）M=rA（6）N=min(X1,X2)（7）Z=rB–rA–2×N（8）R2=M-N2/Z（9）如果N<0且N+Z>0则通过上式重新计算R2，当R2大于或者第二阈值T2（例如700），则判定中心像素点C点为角点，获取所述该中心像素点。如图2a、2b所示，图2a为原图，图2b为采用本实施例角点获取方法获取的角点二值图，其中白色点为角点。需要说明的是，因为图2b为经过马赛克（2×2像素）处理后的图片，因而获得的角点数为原图的1/4，大大的缩小了计算量，提高了角点获取的效率。需要说明的是，当模板为2×2时，相当于只取了3×3模板的一个角，会丢失角点。而超过3×3的模板计算复杂度较高、效率会低很多。在本实施例中，角点滤波具体包括计算角点获取后图片（如图2b）上每一行的角点数，当所述角点数小于第三阈值（例如400px图片下的阈值为8）时，删除该行的所有角点；或者计算预设模板覆盖块内的角点数，当所述角点数小于所述模板覆盖块的阈值（例如模板6×10、6×16、6×50对应的阈值分别为3、4、6）时，删除所述模板覆盖块内的所有角点数。由于文字区域的角点密度较大，通过本实施例的角点滤波法可有效过滤出一些明显不是从文字中获取出来的角点，如图3a、3b所示，图3a为角点滤波前，图3b为角点滤波后。在本实施例中，所述角点聚类具体包括连接角点距离小于或者等于第四阈值的两个角点，如图4a、4b所示，图3a为角点聚类前，图3b为角点聚类后。举例说明如下（但不以该举例为限）：假设P为角点，如果存在角点Q落在以P为左上角且长为10、宽为5的矩形区域内，则以P、Q为对角线形成的矩阵区域作为候选文字区域，该区域内的点都作为角点。在步骤S203中，获取角点处理后的连通区域，将所述连通区域作为文字区域输出。具体为，获取角点聚类后的连通线段，并合并获取后的所有连通线段，获得连通区域，由于获得的多个连通区域之间可能存在相互重叠，因此需要删除所述连通区域中的重叠部分，将删除重叠部分的连通区域作为文字区域（如图5所示）输出。在本实施例中，为了提高获取连通区域的效率，可以通过预设的模板块（例如4×4）来获取连通线段，判断所述模板块中的角点数是否大于预设阈值（例如例如400px图片下的阈值为12）时，若是，则判定所述模板块内的角点属于同一连通线段，提取该连通线段。本发明实施例根据汉字的特征（即汉字含有丰富的角点），通过对预处理后的图片进行角点处理，可以快速、准确的获取图片中的文字区域。而且实现方案简单、高效，实用性强。需要说明的是，本发明实施例的技术方案主要针对邮箱、即时通信、WEB发布平台以及微信等手机通讯软件内的图片进行文字区域获取，经过对实际采样的图片的测试，对所述图片中规则排列（水平或者垂直）的文字区域的召回率接近100%，而且运行速度快（毫秒级处理完单张图片），可以满足实时处理的性能要求，具有极大的实用价值。实施例二：图6示出了本发明实施例二提供的图片中文字区域的获取方法的实现流程，本发明实施例二在实施例一的基础上增加了步骤S604。在步骤S604中，将所述图片划分成多个区域，为每个区域设置不同的权值，并根据所设置的权值，计算所述文字区域的加权和。在实际应用中，如果能够在海量图片中快速、准确的获取图片的文字区域，可方便用户在尽可能短的时间内注意到所述文字区域的信息，有效阻止非法广告等骚扰性或者有害行图片的传播。为了让用户在尽可能短的时间内注意到所述文字区域的信息，文字区域应该尽可能的落在用户的视觉中心范围内，本发明实施例通过将所述图片划分成多个区域（例如通过水平和竖直共四条分割线，将原图片分割成九个区域），为每个区域设置不同的权值（根据常识，图片中心区域的权值最大），并根据所设置的权值，计算所述文字区域的加权和来确定所述文字区域落在视觉中心范围的权重，即所述文字区域的加权和越大，则说明有价值的文字越集中分布在视觉中心范围内。通过本发明实施例可以让用户更方便的了解图片中文字区域的分布。实施例三：图7示出了本发明实施例三提供的图片中文字区域的获取装置的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。该图片中文字区域的获取装置可以是运行于各应用终端（例如手机等）内的软件单元、硬件单元或者软硬件相结合的单元。该图片中文字区域的获取装置7包括预处理单元71、角点处理单元72及输出单元73，其具体功能如下：预处理单元71，用于对当前图片进行预处理；角点处理单元72，用于在所述预处理单元处理完后进行角点处理，所述角点处理包括角点获取、角点滤波以及角点聚类；输出单元73，用于获取角点处理后的连通区域，将所述连通区域作为文字区域输出。进一步的，所述角点处理单元72包括：角点获取模块721，用于根据预设模板，判断公式一的结果值是否小于第一阈值，若否，继续判断公式二的结果值是否小于第二阈值，若否，则判定所述预设模板内的中心点为角点，获取所述中心点，其中所述预设模板为3×3模板：公式一：R1=min(rA，rB)，其中rA=(fA–fC)2+(fA1–fC)2，rB=(fB–fC)2+(fB1–fC)2，A、B、C、A1、B1表示像素点，C表示中心点，f表示像素点的亮度分量；公式二：R2=M-N2/Z，其中M=rA，N=min(X1,X2)，Z=rB-rA-2×N，X1=(fB–fA)×(fA–fC)+(fB1–fA1)×(fA1–fC)，X2=(fB–fA1)×(fA1–fC)+(fB1-fA)×(fA-fC)；角点滤波模块722，用于计算角点获取后图片上每一行的角点数，当所述角点数小于第三阈值时，删除该行的所有角点；或者计算预设模板覆盖块内的角点数，当所述角点数小于所述模板覆盖块的阈值时，删除所述模板覆盖块内的所有角点数；角点聚类模块723，用于连接角点距离小于或者等于第四阈值的两个角点。所述输出单元73包括：获取模块731，用于获取角点聚类后的连通线段，并合并获取后的所有连通线段，获得连通区域；删除模块732，用于删除所述连通区域中的重叠部分；输出模块733，用于将删除重叠部分的连通区域作为文字区域输出。进一步的，所述装置7还包括：权值计算单元74，用于将所述图片划分成多个区域，为每个区域设置不同的权值，并根据所设置的权值，计算所述文字区域的加权和。在本实施例中，所述预处理包括但不局限于二值化处理以及以下至少一种：噪点去除、明度增强、尺寸归一化、图像马赛克。本实施例提供的图片中文字区域的获取装置可以使用在前述对应的图片中文字区域的获取方法，详情参见上述图片中文字区域的获取方法实施例一的相关描述，在此不再赘述。本领域普通技术人员可以理解为实施例二所包括的各个单元、模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。综上所述，本发明实施例根据汉字的特征（即汉字含有丰富的角点），通过对预处理后的图片进行角点处理，可以快速（毫秒级处理完单张图片）、准确（图片中规则排列（水平或者垂直）的文字区域的召回率接近100%）的获取图片中的文字区域。而且实现方案简单、高效，可以满足实时处理的性能要求，实用性强。另外，通过将所述图片划分成多个区域，为每个区域设置不同的权值，并根据所设置的权值，计算所述文字区域的加权和，通过所述加权和来确定所述文字区域落在视觉中心范围的权重，即所述文字区域的加权和越大，则说明有价值的文字越集中分布在视觉中心范围内，方便用户在尽可能短的时间内注意到所述文字区域的信息。本领域普通技术人员还可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，包括ROM/RAM、磁盘、光盘等。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晖;谢晓境
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种肛周一体式冲洗喷雾器的制作方法与工艺
上一篇：一种线缆盘包装机的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。