一种PDF文档逻辑图识别的方法与流程

文档序号:12272249阅读:778来源:国知局
本发明涉及一种PDF文档逻辑图识别方法,属于版式电子文档的版面分析与版面理解范畴。
背景技术
::PDF(PortableDocumentFormat,便携文件格式)是由Adobe公司开发的一种电子文档格式,具有与操作系统平台无关性的特点,已成为电子文档发行和数字化信息传播中广泛使用的理想文档格式。近年来随着移动互联网的迅猛发展,为适应尺寸各异的移动终端和多形态、多渠道、多介质的数字出版需求,需要将属于版式文档的PDF文件碎片化和流式重排。PDF文档的逻辑图是指与文档内容相关、从语义上可视为一个逻辑整体的页面图区。PDF文档的逻辑图从版面排布特点上看可分为栏内图、跨栏图、续栏图、并栏图、内插图等;从元素构成特点上看可分为点阵图、矢量图和混合图。点阵图常由一个或多个点阵图子块构成,矢量图是将图中点、线、面等元素以路径集合的形式给出,混合图则由点阵图、字符、路径等元素共同组成。PDF逻辑图排版的复杂性和构成元素的多样性,使PDF逻辑图识别在版式电子文档的版面分析与理解领域成为公认的难点。描述PDF逻辑图的基本元素包括字符、路径和点阵图,但字符、路径和点阵图并不只用于描述逻辑图。例如用点阵图描述段落内的一个补字,用路径描述一个转曲字、一条表格线、一个公式分式线等。此外PDF文档还可能存在底纹图,即在排版中为了加强版面视觉效果而添加的图片。底纹图通常位于页面底层属于装饰性内容,在底纹图上方可能叠加标题、表格、段落等有效内容。因此,在PDF文档逻辑图识别算法设计中要剔除补字、转曲字、底纹图等内容的干扰。现有的版式文档逻辑图识别的技术和方法(如CN104346615A),采用分层思想,将文档分为文字层和非文字层,分别对两层内容进行版面分析,根据位置关系关联区块从而确定页面图区。本发明则从另一个角度,集中页面所有内容(字符、路径、点阵图)建立生长池,采用区域生长法大胆生长仔细辨别的思想,识别页面逻辑图区。技术实现要素:本发明根据PDF文档逻辑图的排版特点,提出了一种PDF文档逻辑图识别的方法。所述技术方案包括:获取页面字符集、路径集和点阵图集;将字符合并成行,建立行集合;检测行内补字图和转曲字,并入相应行;检测并剔除无效路径、底纹路径和底纹图;从行集合中检测疑似图标题;若存在疑似图标题,则用基于图标题的区域生长法识别逻辑图;无图标的区域生长法识别逻辑图;输出页面逻辑图识别结果。与现有技术相比,本发明的有益效果是:1.文档中具有重要意义的逻辑图通常包含图标题。基于图标题的区域生长法,以疑似图标题为种子,在种子邻域生长能迅速定位逻辑图主体位置。同时,一页中多个种子并行地竞争地生长,能在图文混排的复杂版面中准确估算每个逻辑图的有效区域。2.在区域生长法识别逻辑图前,本方法依次剔除了补字图、转曲字、底纹图和底纹路径等干扰元素,提高了PDF逻辑图识别的正确率。3.本方法不仅能自动识别逻辑图,还同时识别了图标题,并将图标题与对应的逻辑图匹配关联,保持同步。附图说明图1是本发明实施方法流程图;图2是基于图标题的区域生长法示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。如图1所示,为PDF文档逻辑图识别的方法流程,所述方法包括:1.获取页面字符集、路径集和点阵图集字符集合是指该页所有字符信息,包括字符的编码、位置、字体类型等。路径(path)在PDF文件中用来定义形状、区域、边界等,例如,用路径描述直线、曲线,用路径定义形状填充区域,用路径定义边界裁切页面等等。页面中的页眉页脚线、表格线、脚注线、公式分式线、转曲字符、曲线图等都能用路径集描述。一个路径由一组有序的直线和曲线组成,本文主要提取了路径外接矩以及路径内每条直线或曲线的具体位置。点阵图集是指该页所有点阵图资源,本文主要提取了点阵图在页面的具体位置。2.将字符合并成行,建立行集合根据字符流顺序和字符空间排布特点将字符合并成行。由于大部分PDF文档字符流顺序与阅读顺序相同,字符按行整齐排版,按字符流顺序将字符合并成行是个高效的办法。在聚合的过程中要利用字体差异性和字符间的垂直距离与水平间隔等约束,两两字符垂直距离越近,水平间隔越小,相邻的可能性越大,同行的概率越高。根据字符流顺序将字符初步合并成行后,还应进行行与行之间水平合并以处理字符流顺序与阅读顺序不一致的情况。3.检测行内补字图和转曲字,并入相应行PDF文档常用补字图或转曲字的方式记录生僻字,检测行内补字的方法如下:首先在点阵图集中提取与字符大小相似的图(图宽<=1.5倍字宽,图高<=1.5倍字高),视为疑似补字;再比较疑似补字与行集合内每一行的位置关系:若疑似补字与某一行的水平距离小于1倍字宽,同时垂直相交比例>50%,则判定该疑似补字为补字,属于该行;最后将补字并入相应行,即根据补字在行内的位置,插入该行以保持字符间正确的阅读顺序。检测行内转曲字的方法与检测行内补字的方法相似,主要区别是前者在路径集中检测,后者在点阵图集中检测。4.检测并剔除无效路径、底纹路径和底纹图无效路径如裁切路径(clippingpath),并未直接地具体地描述页面某一视觉元素(字符,线,图等),为避免与填充路径(fillingpath)、描边路径(strokingpath)混淆,将其剔除。此外PDF文档可能出现轨迹为零的路径,在页面中不可见,这些路径也被视为无效路径被剔除。根据图内字符的稀疏度和字符排布特征检测底纹图。字符稀疏度是指图内所有字符面积与预估的行间隔面积之和占该图面积的百分比。当字符稀疏度>55%时,表明该图的上层字符内容丰富判定为底纹图;当字符稀疏度<5%时,表明该图的上层字符内容很稀疏判定为非底纹图。当字符稀疏度在5%到55%之间时,采用字符排布特征判断。字符排布特征是指字符聚合为行时,行数、短行比例、行与行的左右对齐性等。当图内行数激增,短行比例大,对齐属性不明显时,判断该图为底纹图。底纹路径的判断方法与底纹图类似,此处不再累述。5.从行集合中检测疑似图标题检测疑似图标题运用了关键字匹配法。从行集合中检测行首带有“图”、“Fig”、“Figure”等关键词,同时关键词后紧跟图标号如:阿拉伯数字(1、2、3...)或大写中文数字(一、二、三...),将包含上述特征的行判定为疑似图标题。有些文档的图标题同时包含中、英文多语种,需要将同一个图的多语种图标题合并。6.若存在疑似图标题,则用基于图标题的区域生长法识别逻辑图基于图标题的区域生长法,将疑似图标题视为种子作为生长的初始位置,以行集合、路径集和点阵图集为生长元素,采用多个种子(多个疑似图区)垂直并行生长模式,能准确定位逻辑图的有效区域,轻松解决矢量图、混合图并存一页的图文混排的复杂页面。如图2所示,基于图标题的区域生长法分为以下几步:(1)将页内所有疑似图标题设置为种子作为初始生长点;(2)确定各种子水平方向最大生长范围,建立生长池:结合页面分栏特点,利用种子在页内位置、所属栏(跨栏、独占一栏)等信息估算种子水平方向的最大生长范围。生长池包含种子、生长元素和抑制元素。种子是疑似图标题;生长元素包括行集合、路径集和点阵图集;在基于图标题的区域生长法中,每个种子代表一个疑似图区,种子与种子相互约束、互为抑制元素。建立生长池时要分别计算种子与生长元素、抑制元素之间的空间位置关系,如垂直距离、水平相交比例等。(3)垂直并行生长:由于绝大多数图标题位于图主体的下方,生长方向可定为垂直向上生长。并行生长过程如下:While(true){①生长池中是否为空?是——>结束,跳出;否——>进入②;②从池中取出垂直距离最小的种子和对应元素,判断该元素是否为生长元素?是——>进入③;否——>进入④;③判断该生长元素是否能并入种子所在生长区?是——>更新生长区,进入⑤;否——>进入④;④判断种子是否停止生长?是——>设置停止生长标记,进入⑤;否——>进入⑤;⑤更新生长池;}垂直并行生长过程不是一个种子停止生长后下一个种子开始生长的串行生长过程,而是页内所有种子共用一个生长池,并行、竞争地生长。(4)判断生长区是否为图区:当生长区内含点阵图时,则该生长区为图区;当生长区内无点阵图有路径时,进一步检测生长区内路径的分布情况,判断是否为矢量图;当生长区内既无点阵图也无路径,则该生长区为非图区。(5)确定图区边界:若图区内没有行集合,则用图区内所有点阵图和路径确定图区边界;若图区内有行集合,则先用点阵图集和路径集估算图区的大致边界,再利用大致边界对行集合内每个元素逐一判断,去除不属于图区的行元素,最终确定图区边界。7.无图标的区域生长法识别逻辑图无图标的区域生长法虽然也是一种区域生长法,但缺少疑似图标题提示,需要从点阵图集和路径集中挑选合适的元素作为种子,作为初始生长点。该法分为以下几步:(1)挑选种子:当点阵图宽和高大于该页主体字体宽和高的2.5倍时,选为种子;当路径外接矩的宽和高满足要求(与点阵图类似),且路径的轨迹系数也满足要求时,选为种子。路径的轨迹系数是一种用来描述路径轨迹的参数,这个参数基于如下假设提出:一个路径的轨迹越长,描述的内容越丰富,越有可能是有意义的内容。路径的轨迹系数定义为其中,tri为路径第i个轨迹的长度,w和h分别为路径外接矩的宽和高。选为种子的路径的轨迹系数下限值为2.5。(2)结合页面分栏特点,利用种子在页内位置、所属栏(跨栏、独占一栏)等信息估算种子水平方向的最大生长范围。(3)垂直并行生长:以种子为起始点,在邻域垂直向上或向下生长。生长过程中,行集合、点阵图集、路径集、抑制集(基于图标题的区域生长法识别的逻辑图)放入同一生长池中,相互作用。此处,种子与种子间没有互相抑制关系,可以互相合并。(4)判断生长区是否为图区和确定图区边界的方式与基于图标题的区域生长法类似,此处不再累述。8.输出页面逻辑图识别结果输出的逻辑图识别结果包括该页所有图标题及对应的逻辑图的主体区域。虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属
技术领域
:内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1