一种版式文件中识别科学公式的方法

文档序号:8431177阅读:403来源:国知局
一种版式文件中识别科学公式的方法
【技术领域】
[0001] 本发明涉及文件处理技术领域,尤其涉及一种基于组合特征动态加权的版式文件 中识别科学公式的方法。
【背景技术】
[0002] 伴随着科学技术的飞速发展,版式文件在各个学科及各种生活、生产领域总均有 广泛应用,且数量巨大。科学公式作为一种特殊的信息载体,亦广泛存在于版式文件中。
[0003] 在电子版式文件中,公式的存储格式主要分为文字型公式、图片型公式和文字图 片混合型公式三类。其中,文字型公式是指以字符格式存储和显示的公式;图片型公式是 指以图像格式存储和显示的公式;文字图片混合型公式是指公式的一部分以图像格式存 储,另一部分以字符格式存储的公式。在本次统计分析选取的679种电子版自然科学期刊 中,每种期刊选取一本样张进行统计分析的情况下,按期刊所含公式情况进行统计,其中 含有文字型公式的期刊所占比例为60. 8%,仅含有图片型公式的期刊所占比例为1%,仅 含有文字图片混合型公式的期刊所占比例为〇. 1%,既有文字型公式又有图片型公式的期 刊所占比例为11%,三类公式都有的期刊所占比例为0. 4%,而不含有公式的期刊比例为 26. 5%。因此,本领域的技术人员需要发展一种对版式文件中的科学公式进行识别的方法。
[0004] 对所选取的样本进行统计,同样可以发现,期刊中文字型的公式最少由一个到最 多含有1467个,平均每本所选期刊样本中含有的文字型公式的数量为128个。而含有图片 型公式的期刊中,公式含有数目为1到247个,平均每本所选期刊样本中含有的文字型公式 的数量为46个;混合型公式,在平均每本所选期刊样本中平均含量仅为1个。可见,文字型 公式相对于其他两种形式的公式,在版式文件中的含有量比例最高,分布最多。因此,对版 式文件中的文字型公式的研宄的重要性可见一斑。
[0005] 目前针对公式识别,主要集中在印刷体数学公式识别及手写数学公式识别。针对 版式文件的研宄,主要集中在版式文件中表格识别以及空格识别的方法,并没有版式文件 中公式识别的相关方法。

【发明内容】

[0006] 为解决上述技术问题,本发明的目的是提供一种版式文件中识别科学公式的方 法。
[0007] 本发明的目的通过以下的技术方案来实现:
[0008] -种版式文件中识别科学公式的方法,包括:
[0009] 遍历版式文件提取的字符流信息,对提取的字符流信息进行预处理;
[0010] 对预处理后的字符流通过版面分析算法生成文件版面;
[0011] 提取版面空间布局特征及内容特征作为组合特征;
[0012] 根据空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学 公式定位和提取;
[0013] 对多行公式进行合并后处理。
[0014] 与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
[0015] 能够从多种版面的版式文件中提取并识别科学公式,为版面文件中科学公式的提 取与识别奠定了基础。
【附图说明】
[0016] 图1是版式文件中识别科学公式的方法流程图;
[0017] 图2是按期刊中含有科学公式情况进行统计的比例饼图。
【具体实施方式】
[0018] 为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发 明作进一步详细的描述。
[0019] 如图1所示,是版式文件中识别科学公式的方法流程,包括:
[0020] 步骤101遍历版式文件提取的字符流信息,对字符流进行基于内容的预处理。
[0021] 对提取的字符流信息进行预处理,包括冗余的空格及对分栏等版面分析合并造成 影响的多余字符。在这里,使用基于内容的方法,去除冗余字符;并设计结构树,用来存储每 个字符的编码信息,坐标信息,以及字号信息。
[0022] 步骤102对处理后的字符流通过版面分析算法生成文件版面。
[0023] 版面分析算法使用了两次垂直投影算法,以进行简单分栏及复杂版面分栏;然后 对当前版面中字符进行行合并;最后使用过分行合并的行分割算法,进行行调整。
[0024] 具体的,合并算法如下:
[0025] 采用基于字符位置信息的方法,遍历页面中所有字符,对满足条件的两个字符进 行合并。
[0026] 具体的,过分行合并的行分割算法:
[0027] 设LS为该页面的左起始位置,Is代表当前行的起始位置,H代表该页面平均行高, h代表当前行的高度,FontEv代表当前页面的标准字号,T代表当前行的最小纵坐标,B代 表当前行的最大纵坐标:
[0028] 第一步,若h>?H,ls> =LS,ls〈 =LS+0FontEv,其中《,0代表阈值,则进入第 二步,否则取下一行;
[0029] 第二步,设置标志数组flage,大小为B-T+1,采用水平方向字投影算法,若存在 对flage存在:
[0030]
【主权项】
1. 一种版式文件中识别科学公式的方法,其特征在于,所述方法包括: 遍历版式文件提取的字符流信息,对提取的字符流信息进行预处理; 对预处理后的字符流通过版面分析算法生成文件版面; 提取版面空间布局特征及内容特征作为组合特征; 根据空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学公式 定位和提取; 对多行公式进行合并后处理。
2. 如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,所述对提取的 字符流信息进行预处理是采用基于内容的方法滤除对分栏及版面分析合并造成影响的多 余字符。
3. 如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,所述版面分析 算法使用两次垂直投影算法,以进行简单分栏及复杂版面分栏。
4. 如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,所述多行公式 采用基于字符位置信息的方法进行合并,然后通过使用分行合并的行分割算法,进行调整。
5. 如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,所述生成文件 版面的内容特征之前,还包括:查找统计科学公式中关系操作符合运算操作符种类和个数, 建立操作符匹配表。
6. 如权利要求1所述的版式文件中识别科学公式的方法,其特征在于, 所述版面空间布局特征为:字符密度、字号方差、行基准线方差、当前行与平均行高的 比例、当前行中心、当前行与页面左空白、当前行与页面右空白、页面中心及当前行所占页 面中行位置; 所述内容特征为:含有二目操作符合关系操作符的比例、中文字符比例和英文字符比 例。
【专利摘要】本发明公开了一种版式文件中识别科学公式的方法,所述方法包括:遍历版式文件提取的字符流信息,对提取的字符流信息进行预处理;对预处理后的字符流通过版面分析算法生成文件版面;提取版面空间布局特征及内容特征作为组合特征;根据空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学公式定位和提取;对多行公式进行合并后处理。本发明能够快速精确的识别版式文件中的科学公式。
【IPC分类】G06K9-00, G06K9-20
【公开号】CN104751148
【申请号】CN201510181354
【发明人】薛蓓, 邹季英, 袁仁慧
【申请人】同方知网数字出版技术股份有限公司, 同方知网(北京)技术有限公司
【公开日】2015年7月1日
【申请日】2015年4月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1