一种PDF文档逻辑图识别的方法与流程

文档序号：12272249阅读：来源：国知局

技术特征：

1.一种PDF文档逻辑图识别的方法，其特征在于，所述方法包括：获取页面字符集、路径集和点阵图集；将字符合并成行，建立行集合；检测行内补字图和转曲字，并入相应行；检测并剔除无效路径、底纹路径和底纹图；从行集合中检测疑似图标题；若存在疑似图标题，则用基于图标题的区域生长法识别逻辑图；无图标的区域生长法识别逻辑图；输出页面逻辑图识别结果。

2.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，采用字符的稀疏度和字符排布特征来检测底纹路径和底纹图。

3.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，在用区域生长法识别逻辑图前，依次剔除了补字图、转曲字、底纹图和底纹路径等干扰元素。

4.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，所述从行集合中检测疑似图标题包括，检测行首带有“图”、“Fig”、“Figure”等关键词,同时关键词后紧跟图标号如：阿拉伯数字(1、2、3...)或大写中文数字(一、二、三...)，将包含上述特征的行判定为疑似图标题，并将相邻的属于一个逻辑图的多语种疑似图标题合并。

5.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，所述区域生长法集中页面字符、路径、点阵图共同建立一个统一的生长池，生长池包括三种抽象元素：种子、生长元素和抑制元素。

6.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，所述区域生长法包括两种，分别是基于图标题的区域生长法和无图标的区域生长法。

7.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，基于图标题的区域生长法以疑似图标题为种子，以种子为起始位置并行生长，种子与种子互为抑制元素。在识别逻辑图的同时识别了图标题，并将图标题与逻辑图匹配关联，保持同步。

8.如权利要求1所述的PDF文档逻辑图识别的方法，其特征在于，无图标的区域生长法在生长池中挑选合适的生长元素为种子，以种子为起始位置并行生长，种子与种子互为生长元素，以基于图标题的区域生长法识别的逻辑图为抑制元素。

完整全部详细技术资料下载

当前第2页1 2 3