一种版式文档段落识别方法与流程

文档序号:12601260阅读:来源:国知局

技术特征:

1.一种版式文档段落识别方法,其特征在于,包括下列步骤:

1)对版式文档的页面进行文字行识别;

2)用扫描线扫描所述页面,根据扫描线是否与文字行相交识别出页面中的各个空白分隔区,依据所述空白分隔区将所述页面切割成多个文字块;

3)分别将各个文字块切分成段。

2.根据权利要求1所述的版式文档段落识别方法,其特征在于,所述步骤2)中,所述用扫描线扫描所述页面包括用竖直扫描线横向扫描所述页面以及用水平扫描线纵向扫描所述页面,所述空白分隔区包括竖直空白分隔区和水平空白分隔区。

3.根据权利要求2所述的版式文档段落识别方法,其特征在于,所述步骤2)中,用所述空白分隔区将所述页面切割成多个文字块的方法如下:利用各个所述空白分隔区多次切割所述页面,其中优先使用分隔距离宽的所述空白分隔区进行切割。

4.根据权利要求2所述的版式文档段落识别方法,其特征在于,所述步骤2)包括下列子步骤:

21)用竖直扫描线对当前页面进行横向扫描,获得横向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为竖直空白分隔区,所述有效扫描线是与任何文字行都不相交的扫描线;找出具有最大横向长度MaxHLine的最大竖直空白分隔区;

22)用水平扫描线对所述当前页面进行纵向扫描,获得纵向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为水平空白分隔区;找出具有最大纵向长度MaxVLine的最大竖直空白分隔区;

23)比较竖直空白分隔区的最大横向长度MaxHLine和水平空白分隔区的最大纵向长度MaxVLine的大小:

如果MaxHLine>MaxVLine且MaxHLine>0,则用对应于最大横向长度MaxHLine的竖直空白分隔区对当前页面做纵向切割,得到两个子页面;

如果MaxHLine<MaxVLine且MaxVLine>0,则用对应于最大纵向长度MaxVLine的水平空白分隔区对当前页面做横向切割,得到两个子页面;

如果MaxHLine=0且MaxVLine=0,则表明当前页面不能再做切割,此时对当前页面的处理结束;

步骤24)对步骤23)切割得到的子页面进行排序,然后依次将各子页面作为新的当前页面,返回步骤21)进行处理;这样不断重复递归,直到所有的子页面都不能再切割为止,此时就直接得到了排序后的文字块。

5.根据权利要求4所述的版式文档段落识别方法,其特征在于,所述步骤24)中,在每次切割时,根据切割得到的两个子页面的左右位置或上下位置对这两个子页面进行排序。

6.根据权利要求5所述的版式文档段落识别方法,其特征在于,所述步骤24)中,根据每次切割时得到的两个子页面的排序,得到整个所述页面的所有文字块的排序。

7.根据权利要求1所述的版式文档段落识别方法,其特征在于,所述步骤1)包括:提取版式文档页面中的所有文字及该文字的位置信息,根据各个文字的位置信息,基于行识别算法将各个文字合并,得到相应的文字行。

8.根据权利要求7所述的版式文档段落识别方法,其特征在于,所述步骤1)中,行识别算法包括下列子步骤:

步骤11)对于当前待识别页面的对象集合,根据其中各个文字的位置,计算文字之间的距离,找出距离最接近的两个文字;其中,对象集合中的对象包括文字和文字行;

步骤12)将所找出的两个文字合并成为文字行LA,将已合并的文字从当前待识别页面的对象集合中删去,并在该对象集合中加入文字行LA,然后根据两个文字的位置关系,得到该文字行LA的方向信息,并进一步生成该文字行LA的基础对象数据,所述基础对象数据包括文字行的字号和轮廓;

步骤13)在当前待识别页面的对象集合中遍历所有文字,找到与文字行LA位置最接近的一个文字WB;

步骤14)根据字号、文字方向和轮廓,判别文字行LA与文字WB合并是否合理,如果不合理,返回步骤11);否则,将文字行LA与文字WB合并成新行LC,然后继续执行步骤15);

步骤15)用新行LC作为新的当前文字行LA,返回步骤13)开始下一轮的处理;

上述步骤11)~15)不断循环,直至待识别页面的对象集合中的所有文字均合并成文字行。

9.根据权利要求8所述的版式文档段落识别方法,其特征在于,所述步骤14)包括下列子步骤:

步骤141)比较文字行LA中的文字和查找到的文字WB的字号,如果字号差别超过预设的阈值,返回步骤11);否则,继续执行步骤142);

步骤142)将文字行LA和查找到的文字WB合并成为新行LC,比较新行LC和原文字行LA是否具有相同的方向,如果新行LC中具有方向不同的文字,或者新行LC的方向和原文字行LA的方向不相同,释放新行LC,同时返回步骤11);否则,继续执行步骤143);

步骤143)基于轮廓判断新行LC是否和别的对象发生交叠,如果发生交叠,则新行LC的合并无效,释放新行LC,同时返回步骤11);如果不发生交叠,则进入步骤15)。

10.根据权利要求6所述的版式文档段落识别方法,其特征在于,所述步骤3)包括:对于每个文字块,根据行间距、行的起始或结束处是否存在文字缩进来识别各个段落;将各个有序文字块内部的段落按照顺序合并在一起,生成一个有序的段落序列;将每组相邻的有序文字块之间的相邻的两个段落进行检测,在这两个段落具有相同的字体且这两个段落均不是完整的段落时,将这两个相邻的段落合并。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1