一种PDF文档逻辑图识别的方法与流程

文档序号:12272249阅读:来源:国知局
技术总结
本发明公开了一种PDF文档逻辑图识别的方法,包括:获取页面字符集、路径集和点阵图集;将字符合并成行,建立行集合;检测行内补字图和转曲字,并入相应行;检测并剔除无效路径、底纹路径和底纹图;从行集合中检测疑似图标题;若存在疑似图标题,则用基于图标题的区域生长法识别逻辑图;无图标的区域生长法识别逻辑图;输出页面逻辑图识别结果。本发明集中页面所有元素(字符、路径、点阵图)建立生长池,采用区域并行生长的思想,能在图文混排的复杂版面中准确定位图标题及其对应的逻辑图。

技术研发人员:邹季英;袁仁慧;梁洵
受保护的技术使用者:同方知网(北京)技术有限公司
文档号码:201610887631
技术研发日:2016.10.11
技术公布日:2017.02.22

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1