一种PDF文档逻辑图识别的方法与流程

文档序号:12272249阅读:来源:国知局

技术特征:

1.一种PDF文档逻辑图识别的方法,其特征在于,所述方法包括:获取页面字符集、路径集和点阵图集;将字符合并成行,建立行集合;检测行内补字图和转曲字,并入相应行;检测并剔除无效路径、底纹路径和底纹图;从行集合中检测疑似图标题;若存在疑似图标题,则用基于图标题的区域生长法识别逻辑图;无图标的区域生长法识别逻辑图;输出页面逻辑图识别结果。

2.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,采用字符的稀疏度和字符排布特征来检测底纹路径和底纹图。

3.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,在用区域生长法识别逻辑图前,依次剔除了补字图、转曲字、底纹图和底纹路径等干扰元素。

4.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,所述从行集合中检测疑似图标题包括,检测行首带有“图”、“Fig”、“Figure”等关键词,同时关键词后紧跟图标号如:阿拉伯数字(1、2、3...)或大写中文数字(一、二、三...),将包含上述特征的行判定为疑似图标题,并将相邻的属于一个逻辑图的多语种疑似图标题合并。

5.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,所述区域生长法集中页面字符、路径、点阵图共同建立一个统一的生长池,生长池包括三种抽象元素:种子、生长元素和抑制元素。

6.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,所述区域生长法包括两种,分别是基于图标题的区域生长法和无图标的区域生长法。

7.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,基于图标题的区域生长法以疑似图标题为种子,以种子为起始位置并行生长,种子与种子互为抑制元素。在识别逻辑图的同时识别了图标题,并将图标题与逻辑图匹配关联,保持同步。

8.如权利要求1所述的PDF文档逻辑图识别的方法,其特征在于,无图标的区域生长法在生长池中挑选合适的生长元素为种子,以种子为起始位置并行生长,种子与种子互为生长元素,以基于图标题的区域生长法识别的逻辑图为抑制元素。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1