基于公式库的公式识别方法及装置的制造方法_4

文档序号:9687938阅读:来源:国知局
f (g自)/S(G Ω )。例如, 待识别公式图像经过处理后得到部件子图ImageA和部件子图ImageB,分别将运两个部件子 图的特征与部件特征集进行对比,根据相似度的较大的结果,得到部件子图ImageA的多候 选识别结果CAi,CA2……CAn,同理,得到部件子图ImageB的多候选识别结果CBi,CB2,…… CBm,其中,n,m为多候选的个数。此时,分别取两个部件子图的最优识别结果的组合作为公 式的识别结果通常不是该公式的最优结果,因此,需要进一步采用动态规划的方法,结合上 述语言模型对两个部件子图的多候选识别结果进行分别组合,查找语言模型中对应的组合 概率值,依据该概率值进行打分,最终,结合单个部件的识别得分和多个部件子图的语言模 型得分确定公式的最优识别结果。通常,将上述两种得分进行加权获得加权得分。选择加权 得分最高的结果作为公式识别结果。
[0083] 下面结合图2说明根据本发明的一优选实施例的公式识别装置的具体构造。
[0084] 本发明的公式识别装置包括构建部件模块、建立部件集模块、构建部件编码集和 部件特征集的模块、获取部件子图模块、w及公式识别模块。下面具体对每个部件进行说 明。
[0085] 构建部件模块,利用构建部件模块获取所述公式库中每个公式的部件,首先获取 公式的起始符号知,然后获取W起始符号為为基准符号,结构关系为水平关系的符号Λ, W此类推,分别获取从4.1为基准符号,结构关系为水平关系的符号卽,从而完成对第一 等级符号端^,鸟…驾的获取;接下来分别获取^如,句,知,,:··…为基准 的次等级符号。若公式中W某一第一等级符号为基准,不存在次等级符号,则定义该第一等 级符号即为部件;否则,若存在次等级符号,则获取W第一等级符号为基准所衍生出的子公 式,并将子公式作为部件。通过W上的步骤,完成对公式库中每个公式的部件采集。
[0086] 建立部件集模块,其根据构建的所述每个公式的部件,建立公式的部件集。
[0087] 构成部件编码集和部件特征集模块,其用于对所述部件集中的每个部件进行去重 操作,并将去重后的部件集中每个部件设置编码形成部件编码集,提取所述部件编码集中 每个编码对应的部件的特征,进而构建与所述部件编码集相对应的部件特征集。
[0088] 获取部件子图模块,该模块具体包括水平方向投影切分模块,、连通域分割模块、 单字符识别模块、W及动态规划模块,用于分别对待识别公式图像进行水平方向投影切分、 连通域分割、单字符识别和动态规划,最终获得所述待识别公式图像的部件子图,其中,每 个所述部件子图包含一个部件。
[0089] 其中,水平方向投影切分模块,其用于对待识别的公式图像进行水平方向投影切 分。
[0090] 首先对待识别的公式图像进行二值化处理,然后统计每一列非零像素值的个数并 用数组Col[w]存储,最后对数组Col[w]进行遍历,其中数组Col[w]的零值与非零值的交界 处即为切分点。
[0091] 通过上述切分点的确定,获得了该公式图像的一级子图序列細苗 ,由于该水平方向投影切分的结果受切分精度、图像清晰度等因素的影响,导致该一级子图 序列中的每个子图待存在Ξ种可能性:①冉是某一个部件的完整图;②兩是某一个部件的 一部分;③帘是两个或者多个部件组合成的。
[0092] 由于存在不是期望获得的部件子图的可能性②和③的待,因此需要连通域分割模 块进一步处理,W获得期望的部件子图。
[0093] 此外,对获取的一级子图序列f聲,韓,::喝,.…进行计算。计算相邻的一 级子图旬-1的右边界与一级子图而的左边界的距离遍(Λ > 0 ),对计算得到的爲进行 平均值计算,获得的平均值
将暮定义为第一参考值。
[0094] 然后,获取一级子图序列中的所有一级子图i;自1,;巧,的宽度分别 为站妨,::4α,.斯封端:,计算所有一级子图的宽度的平均值兩,使得
,将定义为第二参考值。
[0095] 连通域分割模块,其用于对一级子图序列{s日,;句;,,货*.;.-一'知,'S·.走中的每一个子 图进行连通域分割,使每一个一级子图S:·被分割为m个二级子图序列 I巧。,%,,;:心,:.-.,--,?)。由于通过连通域分割而得到的二级子图比较零碎,因此,需要根 据二级子图%之间的空间位置关系进行合并处理。具体合并过程如下: 首先,计算二级子图序列'量没南Γ,…用Μ来中每一个二级子图'-荀:(〇y如)的 矩形框Rect( %); 然后,对计算得到的m个矩形框进行遍历,若任意两个矩形框之间同时存在水平和垂直 方向的重叠,则将运两个二级子图进行合并,作为一个新的Ξ级子图。
[0096] 重复上述过程,直到没有二级子图能够进行合并为止,最终得到k(k^m)个连通域 分割Ξ级子图序列瑞,瑞,:禹,,…
[0097] 单字符识别模块,其用于对Ξ级子图序列中的每个Ξ级子图和连通域分割未获成 功的一级子图进行单字符识别。
[0098] 对连通域分割成功的S级子图序列指。;,:4,:品,:"…'瑞I中的每个;级子 图和进行连通域分割后未获成功的一级子图进行单字符识别,然后获取每个Ξ级子图苗 和每个进行连通域分割后未获成功的一级子图的识别结果及其对应的识别可信度。
[0099] 具体地,对所述Ξ级子图序列中的每个Ξ级子图分别进行单字符识别获得所述每 个Ξ级子图的识别结果及相应的识别可信度;根据单字符识别判断所述识别结果中存在的 第一等级符号的类型及相应的识别可信度并结合第一参考值和第二参考值确定部件子图。 通过上述方式,可W确定W下两种类型的部件子图: ①若该Ξ级子图序列中存在识别结果为分式且识别可信度高于第一预设值的Ξ级子 图皆,^级子图皆的宽度接近其对应的一级子图巧的宽度,且Ξ级子图的宽度大于 第一参考值和第二参考值,即,4的宽度与高度比值很大,则认为所述一级子图巧为 分式类型的部件子图,不需要做进一步的处理。即,特别的,第一预设值为80%-100%之间的 任一数值。
[0100] ②若该Ξ级子图序列中存在识别结果为根式且识别可信度高于所述第一预设值 的Ξ级子图奋,Ξ级子图苗的高度接近与其对应的一级子图巧的高度,且Ξ级子图的 高度大于第一参考值:之和第二参考值5;,4的宽度与高度比值很小,则认为所述一级子 圓Si为根式类型的部件子图,不需要做进一步的处理。
[0101] 对连通域分割后未获成功的一级子图进行单字符识别,根据识别结果及其对应的 识别可信度,并结合第一参考值确定部件子图,具体为: 针对进行连通域分割后未获成功的一级子图A进行单字符识别,若识别结果为公式 符号且识别可信度高于所述第一预设值,同时该一级子图馬与水平方向的相邻一级子图的 距离接近第一参考值,则认为所述一级子團Si为公式符号类型的部件子图,不需要做进一 步的处理。
[0102] 动态规划模块,其用于对不能确定为部件子图的Ξ级子图和一级子图进行动态规 划。
[0103] 根据对所述Ξ级子图序列中每个Ξ级子图和进行连通域分割后未获成功的一级 子图进行单字符识别后无法确定部件子图时,将所有不能确定为部件子图的Ξ级子图和一 级子图作为基本单位,进行动态规划,具体步骤如下。
[0104] 将所有上述不能确定为部件子图的子图按照在待识别图像中的位置进行从左到 右,从上到下的排序,重新标记为新的子图序列f荒,::蟲,為,.….-.Λ}。动态规划采用通 过局部最优解推算全局最优解的方法,得到新的子图序列f盡,.鼓,友丸的最优 组合。具体过程如下:计算子图序列中第0到第k个子图的最优组合情况,则分别计算第0到 第i个子图的最优组合和第i个子图到第k个子图的最优组合,其中i的范围为[l,k-l]。而第 0到第i的子图的最优组合则为第0到第j个子图的最优组合和第j到第i个子图的最优组合, 其中j的范围为[l,i-l],W此类推,由局部最优解推算出全局最优解。
[0105] 在最优解的求解过程中,评定规则为:通过几何得分和识别可信度得分的加权,获 得最终得分,即score=ru*Gem+ ri2*Reg( score为最终得分,Gem为几何得分,Reg为识别可信 度得分,ηι、Π 2分别表示几何得分和识别可信度得分的权值),此处得分越高表示结果越好, 因此最后选取得分最高的结果作为最优解。例如,若要求解Si和sw两个子图合并的情况, score表示i与i-1组合的最终得分。通过将也1、旬两个子图进行合并,将合并后的子图进 行部件识别,其中,所述部件识别是参照单字符识别方法,W新的部件集为识别对象的一种 统计模式的识别方法。
[0106] 部件识别具体方法为:将合并后的子图进行非线性放缩,即曲线拟合归一化,提取 子图的纹理特征和边缘特征,形成子图的部件特征,并与部件特征集进行比对,最终获取识 别结果Code和识别可信度得分Reg。提取将上述两个子图进行合并之后的空间位置特征,与 编码为Code的部件的空间位置特征进行匹配,得到相似度得分Gem。根据获得的Gem和Reg 值,即可计算该组合的最终得分。
[0107] 通过上述过程求解出新的子图序列:f流,;Λ,為…況的得分最高的组合, 该得分最高的组合即为最优组合子图序列,最优组合子图序列中每个子图即为部件子图。
[0108] 通过上述模块处理,完成对待识别公式图像的所有部件子图的采集,且每个所述 部件子图包含一个部件。
[0109] 公式识别模块,利用公式识别模块对每个子图Si进行纹理特征和边缘特征提取, 形成每个子图的部件特征。利用构成部件编码集和部件特征集模块,提取单个部件子图的 部件特征,并计算单个子图Si的部件特征与部件
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1