一种PDF文档逻辑图识别的方法与流程

文档序号：12272249阅读：来源：国知局

技术总结
本发明公开了一种PDF文档逻辑图识别的方法，包括：获取页面字符集、路径集和点阵图集；将字符合并成行，建立行集合；检测行内补字图和转曲字，并入相应行；检测并剔除无效路径、底纹路径和底纹图；从行集合中检测疑似图标题；若存在疑似图标题，则用基于图标题的区域生长法识别逻辑图；无图标的区域生长法识别逻辑图；输出页面逻辑图识别结果。本发明集中页面所有元素(字符、路径、点阵图)建立生长池，采用区域并行生长的思想，能在图文混排的复杂版面中准确定位图标题及其对应的逻辑图。

技术研发人员：邹季英;袁仁慧;梁洵
受保护的技术使用者：同方知网（北京）技术有限公司
文档号码：201610887631
技术研发日：2016.10.11
技术公布日：2017.02.22