一种基于多边形检测的漫画图像版面理解系统和方法

文档序号：6381239阅读：353来源：国知局

专利名称：一种基于多边形检测的漫画图像版面理解系统和方法
技术领域：
本发明属于文档处理与计算机视觉领域，涉及一种基于多边形检测的漫画图像版面理解系统和方法。
背景技术：
随着电子书，电子报纸期刊等数字出版物的普及与发展，为当前数字出版相关技术提出了许多应用需求和挑战。漫画是一类特殊的出版物，通常由简单幽默的画面组和少量文字组成，深受不同国界不同年龄段的阅读者喜爱，并且越来越多的读者开始在数字终端上阅读电子漫画文档。目前这类电子漫画文档通常由纸质漫画书籍逐页扫描得到，直接以图像文档格式或者将图像转化为PDF文档格式进行存储和显示。一幅漫画图像可以被分成若干个独立的子图像(每个多边形边框以及包围的部分)。在漫画制作领域，这些独立的子图像常常被称为“分镜”，由两部分组成1)角色的画面展示，对应于子图像中的图像内容部分；2)角色的语言展示即对白，即子图像中的字符块部分。目前漫画书籍在创作时是以普通纸质书籍的页面大小进行排版设计的。这样导致了一个问题，当用户在屏幕较小的终端(例如智能手机)上阅读对应的漫画图像时，无法完整清晰地观看整个漫画图像，需要上下左右来回拖动画面，阅读体验非常差，这一问题严重制约了漫画产业数字化进程。为了克服上述的问题，相关的解决方案在文献“M. Yamada et al. ComicImageDecomposition for Reading Comics on Cellular Phones.1EEE Trans.oninformation and systems, 2004”中第一次被提出，该方案是将漫画图像预先分割成一个个分镜，在显示时按阅读顺序依次显示各个分镜。针对第二种解决方案，一些研究人员对使用计算机自动完成上述任务(下文简称为漫画图像版面理解)进行了尝试，上述文献在提出第二种方案的同时，还提出了一种对手工分割得到的分镜进行分镜阅读顺序检测的算法。然而，该方法局限性在于必须对于漫画版面进行手动的分割然后才能自动辨识分镜的阅读顺序，对于目前大量的漫画书籍和图像文件，手工完成上述工作费时费力。文献“T. Tanaka et al. Layout analysis of tree-structuredscene frames in comic images.1JCAI，2007”首次提出了一种将漫画图像分割成分镜的方法(下文简称为分镜分割方法)。该方法的基本假设是漫画总是能够用水平线和竖直线分割成一个个分镜(斜线可以按照斜率分为水平和竖直两种)，按照分割的次序，漫画可以表示成一个树状的结构，其中根节点就代表整幅漫画，叶子节点就表示各个分镜，中间节点表示分割的方式。该文献同时提出了一种类似霍夫变换的分割线检测方法，并且对T字型分割线进行了特殊的处理。不难看出，这种方法的局限性较大，只能处理特定版式的漫画图像，对于分镜之间存在粘连的复杂情况难以进行处理。文献“C. Ponsard et al. Enhancing the accessibility for allofdigital comic books, www. eminds. hc1-rg. com, 2009” 提出了一种基于分水岭分割算法的分镜分割算法，主要思想是将漫画图像转为灰度图像进行二值化，然后对得到的前景图像进行分水岭分割，对分割得到的区域，去掉较小的，合并重叠较大的，然后得到分镜的分割结果。然而，该方法同样无法处理分镜之间有粘连的复杂漫画图像。可见，目前的漫画版面分析方法大多数方法只能处理较为简单的漫画版面，有些甚至必须依赖手工处理，而没有一种高效、通用的漫画图像版面理解方法。

发明内容
为了实现高效通用的漫画版面分析，本发明提出一种基于多边形检测的漫画图像理解方法，该方法可以自动识别出组成分镜边框的多边形(大多数为四边形)，并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序，从而完成漫画版面理解。本发明可以提供一种高效通用的漫画版面分析方法，可以有效地处理较为复杂的漫画版面。本发明所述的漫画内容主要是由漫画书逐页扫描得到的漫画图像或由漫画出版商提供的图像格式的漫画包。本发明提供的技术方案如下一种基于多边形检测的漫画图像版面理解系统(如图1)，包括直线段检测模块、多边形检测模块；其中，所述直线段检测模块，用于识别漫画图像中的直线段，并且记录这些直线段的位
置信息；所述多边形检测模块，根据直线段检测模块检测的结果，对直线段进行拼接，识别出完整的多边形，并且用识别出的多边形作为对应分镜的位置信息；该模块和直线段检测模块共同完成分镜的识别与提取。所述的漫画图像版面理解系统，其特征是，该系统还包括阅读顺序检测模块，该模块以分镜的识别与提取的结果作为输入，即用被识别分割出的分镜作为输入，根据多边形之间的几何位置关系，将这些多边形代表的分镜进行排序，然后将排序后的分镜连同各分镜的位置信息一同输入到具有版式信息的漫画文件中去，从而实现漫画版面的自动理解。所述的漫画图像版面理解系统，其特征是，所述系统还包括多边形验证模块，如果用户认为漫画版面分割结果不理想，或者需要进行结果的修正，用户使用该模块进行修正。所述的漫画图像版面理解系统，其特征是，所述多边形验证模块，可以通过设定规则筛选识别出的分镜从而实现自动的多边形验证。所述的漫画图像版面理解系统，其特征是，所述多边形验证模块，计算在分镜边框上的被检测直线段长度之和与分镜边框周长的比例，如果大于50%，则通过筛选，否则未通过。本发明同时提供一种基于多边形检测的漫画图像版面理解方法(流程参见图2)，包括如下步骤(I)漫画图像输入用户首先获得图像格式的漫画电子文件(例如jpg、png等格式的文件)，这些文件是由纸质漫画逐页扫描得到或是由漫画出版商提供的图像格式的漫画包(将漫画图像逐页编号并压缩成为.zip，，rar等格式的压缩文件包)，并且用户将这些漫画图像逐页输入系统；(2)直线段检测检测出漫画图像中的直线段，这些直线段的大部分都是组成漫画图像中分镜边框的直线段；(3)多边形检测(直线拼接):在得到组成分镜边框的直线段之后，将这些直线段拼接成为完整的分镜边框；(4)分镜阅读顺序检测根据识别出的多边形直线的几何位置关系对分镜进行排序;(5)返回版面理解结果将版面理解与分析得到的多边形的几何位置以及多边形之间的阅读顺序作为版式信息存储到漫画文件中，并且通过阅读终端展示给用户。所述的漫画图像版面理解方法，其特征是，步骤(3)的实现方法如下a)第一轮直线段聚合去除直线检测阶段得到的冗余直线段，从而减少计算量；b)第二轮直线段聚合将属于同一个分镜边框的直线段聚合，形成分镜的包围框；c)后处理由于有些漫画的分镜布局较为复杂，甚至产生粘连，因此由第二轮直线聚合产生的分镜可能是破碎不完整的，因此，后处理阶段将这些破碎的分镜边框通过一定的规则进行补全。本发明的效果在于实现了一种基于多边形检测的漫画版面理解方法。通过对于用户输入的漫画图像进行自动分析，从而获取漫画版面中的分镜，并且根据识别的分镜之间的几何位置关系判定其阅读顺序，从而使得漫画图像能更好地在移动设备上阅读。该方法能够自动理解漫画版面，解决了目前方法不能处理复杂布局版面的问题，可以提升处理效率和用户体验。

图1为本发明提供的系统结构图；图2为本发明提供的最佳实施例的流程图；图3为具体实施方式
中两条直线段在平行方向有交叠的示意4为后处理过程的示意5为具体实施例的输入漫画图像图6为漫画图像直线检测的结果示意7为两轮直线聚合之后分镜识别的初步结果示意8为分镜识别的最终结果示意9为漫画图像版面理解的最终结果示意图
具体实施例方式下面针对将漫画图像作为漫画版面理解系统的输入的应用场景,介绍漫画版面自动理解的的具体实施流程。这里的漫画图像可以是由漫画书籍进行逐页扫描得到，也可以是漫画出版商提供的漫画图像包(漫画包是将漫画图像逐页编号并压缩成为.zip，. rar等格式的压缩文件包，将该压缩文件解压之后即可获得逐页的漫画图像)。直线段检测模块采用了基于特征值分析的直线段检测方法。用户U的设备(个人电脑、手持设备等)需要先安装实现本发明功能的客户端软件，安装完毕后，本发明的功能模块将会被部署到该客户端软件中去。用户U在获得漫画图像之后，便可以将其作为输入，在本客户端软件中进行漫画图像的版面理解工作。本实施例的总体流程是用户U在获取漫画图像文件之后，将漫画图像依次输入系统，并且发出漫画版面分析的请求。直线检测模块响应该请求，并且识别漫画图像中的直线段，这些直线段主要是组成分镜边框的直线段。然后，直线段识别结果被发送到多边形检测(直线拼接)模块。多边形检测模块将被识别的直线段进行预处理，去除冗余的直线段进行拼接，得到由多边形代表的分镜。用户U若选择启用多边形验证模块，则多边形检测结果会在应用程序界面中展示给用户U。用户U可以查看并且可以对多边形检测的结果进行筛选，并且发送给阅读顺序检测模块。根据分镜之间的相对几何位置进行排序，最后将漫画图像连同分镜的位置以及阅读顺序返回给用户U。若用户U为选择启用多边形验证模块，多边形检测的结果将直接发送给阅读顺序检测模块进行排序，最后将漫画图像连同其版式信息(包括分镜位置以及阅读顺序)返回给用户U。本实施例的具体步骤为(I)直线段检测用户U获取漫画图像文档之后，将其输入已安装好的实现本发明的客户端软件中，该软件会自动检测图像文档中的直线段。具体地，用直线段的左端点坐标(Xl，yi)和右端点坐标(x2，y；i)来表示。坐标空间定义为漫画图像页面左上角点作为坐标原点，X轴方向从左到右增加，Y轴方向从上到下增加。(2)多边形检测(直线段拼接)得到被识别出的直线段之后，多边形检测模块对于这些直线段进行拼接，成为完整的多边形，这些多边形即代表版面中的分镜。多边形检测主要由以下步骤组成首先，由直线检测模块检测出的直线包含大量的冗余的直线段，占所有直线比例非常高，因此需要去除冗余的直线段。去除冗余直线段的方法是使用直线段聚合的方法，即将一些直线段合成为一条直线段。具体实现方法是当两条互相平行的直线段在平行方向有交叠(两条直线I1, I2互相平行，将I1的两个端点垂直投影至I2，如果两个端点至少有一个在I2上，则称这两条直线在平行方向有交叠，如图3所示)，并且之间的距离小于某个阈值时，两条直线段之间的连通性为True ;否则为False。当所有直线段之间的连通性都被定义之后，使用连通分量搜索(即将直线段集合分成若干子集，每个子集中的任意两条直线段都能通过该集合中的O条或多条线段构成一条连通的路径)，从而将所有的直线段进行聚合。具体的做法是设定一个变量η并将其初始值设为1，为直线段标号建立标记数组，并将初始值置为O。遍历直线段集合，若某线段的标记数组值为0，则将此线段的标记值设置为η，并将所有和这条直线段连通性为True的直线段放入到一个容器中去，然后每次从这个容器中取出一条直线段，将其标号值设为n，并且将所有标号值为O且和这条直线段连通性为True的直线段放入该容器中；直到该容器中没有任何的直线段，将η值加I继续寻找标记数组值为O的直线段，直到遍历直线段集合结束。直线段聚合结束之后，每一类都由一条直线段代替，因此通过第一轮直线段的聚合减少了直线段的数目。然后，对于已经去除冗余的直线段进行第二次聚合，这一次聚合的目的是将直线段拼接成为矩形。第二轮聚合同样使用连通分量搜索的方式，但是直线段连通性的定义发生了变化。对于任意两条直线段(ΑΒ，⑶)，他们端点之间的距离(即AC，AD，BC，BD)其中的任意一个小于某个较小阈值，则两条直线段之间的连通性为True ;否则为False。当所有直线段之间的连通性都被定义之后，使用连通分量搜索，将属于同一个分镜包围框的直线段聚合起来。
最后，由于有些漫画图像版面的布局较为复杂，分镜内部的对象(例如声效字，对白框等)会突出包围框，因此经过第二轮聚合之后产生的直线段聚合不是完整的多边形包围框。多边形检测模块根据不完整的多边形包围框推理出完整的多边形包围框，完成多边形识别(即直线拼接)工作，并且将多边形模块识别的结果输出。具体的实现方式是，根据构成多边形的直线段的数量做一定的后处理，完整地识别出的分镜应包含四条直线段，并且每一条直线段的端点都与相邻的直线段的端点连接。若识别的分镜包含四条或五条直线段，但是存在两条直线段端点未与相邻直线段端点相连接的情况，则延长这两条线段直至相交，如图4 (I)所示；对于包含两条或者三条直线段的分镜识别结果，这些分镜识别结果可能属于同一个分镜，因此需要对这些识别结果进行一定的合并。检查每一对由两条或者三条直线段构成的识别结果，用(CA，CB)表示，找到这一对识别结果的最小矩形包围框Bounds,以及它们各自的最小矩形包围框BoundA, Bound13,当以下条件均满足时,这一对识别结果可以合并成为一个分镜(如图4 (2)所示)I) Bounds在X轴以及Y轴的跨度分别小于源漫画图像宽和高的一半；2) Bounds, BoundA重合的面积与BoundA的面积之比大于75% ；3) Bounds, Bound13重合的面积与Bound13的面积之比大于75%。对于剩余的包含三条直线段的识别结果，连接两个未与其他直线段连接的端点，形成一个封闭的矩形包围框，如图4 (3)所示。(3)多边形验证模块为可选模块。默认情况下，该模块不启用，此时多边形验证模块得到的识别结果将直接作为阅读顺序检测模块的输入。本实施例中用户U启用该模块。则在多边形识别结束时，多边形识别结果将在客户端展示给用户U。用户U可以查看识别结果，并且进行筛选。用户U保存修改，并且确认多边形识别结果。若使用计算机自动筛选，具体方法是，因为在后处理阶段会虚拟地连接识别出的直线段的端点，所以在自动筛选的过程中计算在分镜边框上的被检测直线段长度之和与分镜边框周长的比例，如果大于50%，则通过筛选，否则未通过。(4)用户U保存并且确认多边形识别结果之后，将作为阅读顺序检测模块的输入。阅读顺序检测模块根据多边形之间的几何位置关系判断其阅读顺序。分镜阅读顺序的识别将输入的分镜进行排序，排序的核心是如何判定任意两个分镜之间的阅读顺序。具体做法是判定两个分镜横向和纵向的交叠情况1.如果两个分镜在竖直方向没有交叠，贝1J分镜中心点Y值较小的阅读顺序靠前；2.如果两个分镜在竖直方向有交叠水平方向无交叠，对于日系漫画分镜中心点X值较大的阅读顺序靠前，对于欧美以及大陆港澳台漫画则阅读顺序靠后；3.如果两个分镜水平竖直方向均有交叠，则两分镜相邻处必有一对平行的直线，如果这两直线段与X轴夹角小于45°则同情况2，否则同情况I。(5)最终，客户端软件将漫画版面分析结果(包括源图像，识别出的分镜的几何位置以及阅读顺序)返回给用户。具体实施例下面根据上述具体实施方法，针对一幅输入的漫画图像，描述本发明实现的逐步过程。首先将一幅通过扫描得到的漫画图像(如图5所示)作为系统的输入。直线段检测模块检测出漫画图像中的直线段(如图6所示)；经过两轮聚类之后得到了分镜检测的初步结果(如图7所示)；之后对于初步结果进行后处理，形成完整的分镜边框，并且经过自动筛选得到分镜检测即漫画图像分割的最终结果(如图8所示);根据分镜之间的几何位置关系，完成分镜阅读顺序的识别，最终完成漫画图像版面理解，最终结果如图9所示。
权利要求
1.一种基于多边形检测的漫画图像版面理解系统，其特征是，包括直线段检测模块、多边形检测模块；其中，所述直线段检测模块，用于识别漫画图像中的直线段，并且记录这些直线段的位置信息；所述多边形检测模块，根据直线段检测模块检测的结果，对直线段进行拼接，识别出完整的多边形，并且用识别出的多边形作为对应分镜的位置信息；该模块和直线段检测模块共同完成分镜的识别与提取。
2.如权利要求1所述的漫画图像版面理解系统，其特征是，所述系统还包括阅读顺序检测模块，该模块以分镜的识别与提取的结果作为输入，即用被识别分割出的分镜作为输入，根据多边形之间的几何位置关系，将这些多边形代表的分镜进行排序，然后将排序后的分镜连同各分镜的位置信息一同输入到具有版式信息的漫画文件中去，从而实现漫画版面的自动理解。
3.如权利要求1所述的漫画图像版面理解系统，其特征是，所述系统还包括多边形验证模块，如果用户认为漫画版面分割结果不理想，或者需要进行结果的修正，用户使用该模块进行修正。
4.如权利要求3所述的漫画图像版面理解系统，其特征是，所述多边形验证模块，可以通过设定规则筛选识别出的分镜从而实现自动的多边形验证。
5.如权利要求3所述的漫画图像版面理解系统，其特征是，所述多边形验证模块，计算在分镜边框上的被检测直线段长度之和与分镜边框周长的比例，如果大于50%，则通过筛选，否则未通过。
6.一种基于多边形检测的漫画图像版面理解方法，包括如下步骤 (1)漫画图像输入用户将漫画图像逐页输入系统； (2)直线段检测检测出漫画图像中的直线段，这些直线段的大部分都是组成漫画图像中分镜边框的直线段； (3)多边形检测在得到组成分镜边框的直线段之后，将这些直线段拼接成为完整的分镜边框； (4)分镜阅读顺序检测根据识别出的多边形直线的几何位置关系对分镜进行排序； (5)返回版面理解结果将版面理解与分析得到的多边形的几何位置以及多边形之间的阅读顺序作为版式信息存储到漫画文件中，并且通过阅读终端展示给用户。
7.如权利要求6所述的漫画图像版面理解方法，其特征是，步骤(3)的实现方法如下 a)第一轮直线段聚合去除直线检测阶段得到的冗余直线段，从而减少计算量； b)第二轮直线段聚合将属于同一个分镜边框的直线段聚合，形成分镜的包围框； c)后处理由第二轮直线聚合产生的分镜可能是破碎不完整的，后处理阶段将这些破碎的分镜边框进行补全。
8.如权利要求6所述的漫画图像版面理解方法，其特征是，所述漫画图像由纸质漫画逐页扫描得到或是由漫画出版商提供的图像格式的漫画包解压得到。
全文摘要
本发明公布了一种基于多边形检测的漫画图像版面理解系统和方法。该方法可以自动识别出组成分镜边框的多边形，并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序，从而完成漫画版面理解。通过对于用户输入的漫画图像进行自动分析，从而获取漫画版面中的分镜，并且根据识别的分镜之间的几何位置关系判定其阅读顺序，从而使得漫画图像能更好地在移动设备上阅读。该方法能够自动理解漫画版面，解决了目前方法不能处理复杂布局版面的问题，可以提升处理效率和用户体验。
文档编号G06K9/46GK102999758SQ201210456998
公开日2013年3月27日申请日期2012年11月14日优先权日2012年11月14日
发明者李鹿原, 王勇涛, 汤帜申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李鹿原;王勇涛;汤帜
技术所有人：北京大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。