一种版式文档正文碎片化的方法与流程

文档序号:12550648阅读:来源:国知局

技术特征:

1.一种版式文档正文碎片化的方法,其特征在于,所述方法包括:版面预处理;识别正文基本元素;提取正文阅读顺序;正文层次分析;正文后处理;输出正文碎片化结果。

2.如权利要求1所述的版式文档正文碎片化的方法,其特征在于,版面预处理中采用了统计行集合和垂直投影相结合的方法分栏,提出了栏支架的概念和检测方法。

上述栏支架是指一组相邻行构成的行集合,是栏稳定可靠的支撑,可有效地限制表格和逻辑图的生长区域,提高表格和逻辑图识别的正确率。检测栏支架使用了如下限制条件:行两端是否对齐、行间隔是否为主体行间隔、行字体是否为主体字体、行宽与栏宽比值是否>=90%、满足上述条件行数是否>=3。

3.如权利要求1所述的版式文档正文碎片化的方法,其特征在于,在正文层次分析中同时使用了字数限制、关键词、字体特征、顺序特征、包含特征和跨度特征。

上述字数限制是指,提取疑似正文标题时,要求待检测段落行数<=3且字数<50。

上述关键词是指,出现在段首的形如“一、”“(一)”“1”“1.1”“1.2.1”等一类关键词。

上述字体特征是指,判断疑似正文标题是否为同一级标题时,采用了同一级标题字体相似的限制条件。

上述顺序特征是指,标题关键词应按正文阅读顺序从小到大排列。

上述包含特征是指,判断正文标题层级关系时,所有同级标题囊括的正文范围内包含其他级别标题的个数越多,其为高级标题的可能性越大;同理,所有同级标题囊括的正文范围内包含其他级别标题的个数越少,其为低级标题的可能性越大。

上述跨度特征是指,所有疑似标题囊括的正文范围占正文全长的比值。若比值>50%,说明该疑似标题集合跨越了正文大部分内容,满足跨度特征。

4.如权利要求1所述的版式文档正文碎片化的方法,其特征在于,正文后处理包括跨栏、跨页的段落衔接和段落字符规范化。

上述跨栏、跨页的段落衔接是指,自动衔接分布在多栏或多页的同属于一段的内容。

上述段落字符规范化包括:角标字符检测、规范全/半角字符和英文行的连接处理。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1