一种漫画图像版面的识别方法和自动识别系统的制作方法

文档序号：9766206阅读：2520来源：国知局

一种漫画图像版面的识别方法和自动识别系统的制作方法
【技术领域】
[0001] 本发明属于图像处理与计算机视觉领域，设及一种基于能量最小化模型的漫画图像版面的识别方法和自动识别系统。
【背景技术】
[0002] 移动漫画是一类特殊的出版物，通常由简单幽默的画面组和少量的文字构成，深受不同国界不同年龄段的阅读者喜爱。近年来电子漫画正版化和漫画移动阅读普及化趋势明显，漫画数字出版行业面临着全新的机遇，同时付费阅读漫画的终端用户也对漫画内容、漫画质量和漫画移动阅读体验提出了全新的要求。当前没有足够多的漫画内容专口为移动阅读体验做出优化，大部分漫画内容提供商仅仅是逐页扫描已有的纸质漫画出版物，并将其存储为图像或者PDF文档，逐页地在移动设备上进行展示。在从纸质内容出版到电子内容出版的过渡期，漫画出版行业需要一个成熟的理解传统纸质漫画版面、并根据理解的内容调整版面W适应漫画移动阅读的系统。
[0003] 在漫画制作领域，独立的子图像常常被称为"分镜"。分镜是一个语义的概念，与电影中的分镜、戏剧的场景接近。它通常由两部分组成：1)角色的画面展示，对应于子图像中的图像内容部分;2)角色的语言展示即对白，即子图像中的字符块部分。目前的漫画书籍在创作时是W普通纸质书籍的页面大小进行版面设计的，一个页面通常包含多个分镜，而且运些分镜是W-定的排版规则进行排列的（如从上往下、从左往右）。运样导致了一个问题是，当用户在屏幕较小的终端例如智能手机上阅读对应的漫画图像时，无法完整地清晰地观看整个漫画图像，需要上下左右来回地拖动画面，阅读体验非常差。运一问题制约了漫画产业向数字化方向的发展。
[0004] 为了克服上述问题，文献"M. Yamada et al .Comic Image Decomposition for Reading Comics on Cellular Phones.IEEE Trans.on information and systems,2004'' 中第一次提出一种解决方案，该方案将漫画图像预先分割成一个个分镜，在显示时按阅读顺序依次显示各个分镜。上述文献还提出了一种对手工分割得到的分镜进行分镜阅读顺序检测的算法。然而，该方法局限性在于必须对于漫画版面进行手动的分割然后才能自动辨识分镜的阅读顺序，对于目前大量的漫画书籍和图像文件，手工完成上述工作费时费力。文南犬(叮.Tanaka et al.Layout analysis of tree-structured scene frames in comic images. IJCAI ,2007"首次提出了一种将漫画图像分割成分镜的方法。该方法的基本假设是漫画总是能够用水平线和竖直线分割成一个个分镜(斜线可W按照斜率分为水平和竖直两种），按照分割的次序，漫画可W表示成一个树状的结构，其中根节点就代表整幅漫画，叶子节点就表示各个分镜，中间节点表示分割的方式。该文献同时提出了一种类似霍夫变换的分割线检测方法，并且对T字型分割线进行了特殊的处理。不难看出，运种方法的局限性较大，只能处理特定版式的漫画图像，对于分镜之间存在粘连的复杂情况难W进行处理。文献 ('C. Ponsard et al . Enhancing the accessibility for all of digital comic books .WWW.eminds.hci-rg.com,2009"提出了一种基于分水岭分割算法的分镜分割算法，主要思想是将漫画图像转为灰度图像进行二值化，然后对得到的前景图像进行分水岭分害d，对分割得到的区域，去掉较小的，合并重叠较大的，然后得到分镜的分割结果。然而，该方法同样无法处理分镜之间有粘连的复杂漫画图像。
[0005] 综上所述，目前现有的大多数漫画版面分析识别只能处理较为简单的漫画版面，有些方法甚至必须依赖手工处理，而没有一种高效、通用的漫画图像版面分析识别方法和自动识别系统。

【发明内容】

[0006] 为了克服上述现有技术的不足，本发明提供一种漫画图像版面的识别方法和自动识别系统，充分利用能量最小化模型及其图切分优化算法，自动识别出组成分镜边框的多边形(大多数为四边形），并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序，从而完成漫画版面理解识别。本发明可W有效地处理较为复杂的漫画版面，提升处理效率并丰富移动设备用户的阅读体验。
[0007] 本发明提供的技术方案是：
[0008] -种漫画图像版面的识别方法，通过利用能量最小化模型和图切分优化方法，自动识别出组成图像分镜边框的多边形，根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序，从而完成漫画版面的识别;包括如下步骤：
[0009] 1)进行前景背景分割过程，将输入图像转换为灰度图像，通过广度优先捜索方法得到背景区域，再将其他所有区域当作前景区域，并将漫画图像二值化为黑白二值图；
[0010] 2)进行轮廓检测过程，检测并提取得到所述黑白二值图的轮廓；
[0011] 3)对所述黑白二值图的轮廓进行多边形拟合：
[0012] 31)得到所述黑白二值图的轮廓之后，使用道格拉斯-普克算法对轮廓进行多边形拟合；
[0013] 32)对于能够拟合出四边形的轮廓，将拟合得到的四边形加入已识别的分镜中，转入执行步骤6);对于不能通过四边形拟合的轮廓，继续进行步骤4)直线段检测过程；
[0014] 进行多边形拟合时，如果一个轮廓能够拟合出四边形，我们认为拟合出四边形的轮廓就是一个分镜，不再执行查找分镜过程；当一个轮廓不能拟合出四边形时，需要执行直线段检测过程和查找分镜过程;查找分镜过程中，构造能量函数时，我们会将已经确认为分镜的四边形(拟合出的四边形)加入所构造的能量函数中，W帮助函数求解。
[0015] 4)直线段检测过程通过直线段检测过程逐个提取轮廓中所包含的直线段:具体可设定一个固定阔值，抛弃长度小于该阔值的分镜边线和从曲线上提取出的直线段，使用直线段的左端点坐标(Xl，yl)和右端点坐标(x2，y2)表示一条直线段，从而得到被识别出的直线段；
[0016] 5)进行查找分镜过程，包括形成多边形过程和构造求解能量函数过程：
[0017] 51)形成多边形过程:对被识别出的直线段进行预处理，去除冗余的直线段进行拼接，成为完整的四边形，所述四边形作为可能的漫画图像分镜；
[0018] 52)构造求解能量函数过程:根据形成多边形过程中得到的可能的漫画图像分镜和已有的分镜构建图模型，连接图像分镜的节点形成图结构;根据形成的图结构，设定能量函数E(y;x，w)如式1:
[0019] E(y;x，w)=I：pEP?W(yP，x;w)+I：(p,q)EN?(2)(yP，yq，x;w)(式 I)
[0020] 其中，E表示总能量;y表示节点的标记值集合;yP表示节点P的标记值;X表示节点的特征集合;W是能量函数的参数;pEp表示P是节点集合P的一个节点；（p,q) EN表示节点P 和q在邻域定义N中相邻；? W(yP，X ;w)表示一元势能，对于未确定为分镜的四边形，其取值为100(l-yP)xP+100yP(l-xP)，对于已确定为分镜的四边形，其取值为（1-yP) ? INFJNF表示无穷大；? w(yP，yq，x;w)表示二元势能;xP表示节点P的特征向量;节点的标记值yP取值为0 或1，0表示该节点相应的四边形不是分镜，1表示该节点相应的四边形是分镜;二元势能中的邻域定义N包含节点互斥和节点相邻两种；
[0021] 53)通过推断算法最小化式1中的能量函数，得到最优标记值集合，为所述能量函数的解；
[0022] 54)将最优标记值集合对应到四边形中，将标记值为1的四边形加入已识别的分镜中；
[0023] 6)将多边形识别结果作为阅读顺序检测过程的输入，所述阅读顺序检测过程根据多边形之间的几何位置关系识别得到分镜阅读顺序，由此完成漫画版面的识别。
[0024] 上述漫画图像版面的识别方法中，进一步地，步骤1)所述通过广度优先捜索得到背景区域，具体是:从左上角的像素点开始进行广度优先捜索，当准备捜索的像素点与当前像素点集合的平均像素值差小于设定值，则将准备捜索的像素点加入当前像素点集合；当准备捜索的像素点与当前像素点集合的平均像素值差不小于设定值，则新建一个像素点集合，将准备捜索的像素点加入新建的像素点集合;重复上述捜索过程，直至漫画图像中所有的像素点都被捜索过;捜索结束后，得到区域的矩形包围框面积最大的像素点集合，作为背景区域。
[0025] 上述漫画图像版面的识别方法中，进一步地，在步骤2)所述进行轮廓检测过程之前，对所述黑白二值图进行预处理，所述预处理包括对所述黑白二值图进行一次形态学腐蚀操作和一次形态学膨胀操作。
[0026] 上述漫画图像版面的识别方法中，进一步地，在步骤2)所述进行轮廓检测过程，具体通过采用文南犬('Suzuki , S . and Abe ,K . , TopoIo邑ical Structural Analysis of Digitized Binary Images by Border !^llowing-CVGIP 301,PP 32-46(1985)"提出的考察二值化图像的边界包围关系的方法，对二值化图像的外轮廓进行追踪，从而得到二值化图像的轮廓。
[0027] 上述漫画图像版面的识别方法中，进一步地，步骤31)所述使用道格拉斯-普克算法对轮廓进行多边形拟合，所述道格拉斯-普克算法的参数epsilon设为7.0。<

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周亚峰;王勇涛;汤帜;
技术所有人：北京大学;
我是此专利的发明人

上一篇：行为数据的路径寻优方法
上一篇：一种基于智能手机gps速度与加速度数据的行为识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。