基于公式库的公式识别方法及装置的制造方法_5

文档序号:9687938阅读:来源:国知局
特征集中各特征之间的相似度。将相似度 度量按照从大到小的顺序排序,选取前Μ个相似度对应的Μ个部件特征,并将所述Μ个部件特 征对应的部件编码作为所述单个部件子图的多候选识别结果。
[0110] 若所述待识别公式图像只包括一个部件子图,在所述多候选识别结果中选取相似 度最大的部件特征对应的部件编码作为公式识别结果; 若所述待识别公式图像包括多个部件子图,将所述待识别公式图像的每个部件子图的 多候选识别结果作为基本单位,采用动态规划的方法,结合概率统计语言模型对每个候选 的公式识别结果进行评分、排序,将得分最高的部件特征对应的部件编码作为公式识别结 果。
[0111] W上对本发明提出的一种基于公式库的公式识别方法和装置进行了描述。与传统 的公式识别方法相比,本发明所述识别方法类似于文本行识别。W预先建立的公式库为基 础,该识别方法可W充分利用公式库来校准和优化识别结果,同时,该识别方法将复杂类型 的子公式转换成一个新的字符,一个公式就被当成一个或者多个复杂类型子公式和单个传 统字符的水平方向组合。通过本发明所述的公式识别方法及装置,不需要进行字符之间的 结构分析,简化了公式识别的步骤,节省公式识别的时间,提高了公式识别的准确率。
[0112] W上所述仅为本申请的实施例而已,并不用于限制本发明,对于本领域的技术人 员来说,本发明可W有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、 等同替换、改进等,均应包含在本发明的权利要求范围之内。
【主权项】
1. 一种基于公式库的公式识别方法,其特征在于,所述公式识别方法包括: 构建公式库中每个公式的部件;其中,所述部件包括第一等级符号和子公式,所述第一 等级符号为所述每个公式的起始符号和与该起始符号在结构关系上为水平关系的同等级 符号,所述子公式为以第一等级符号为基准衍生的所有等级低于所述第一等级符号的次等 级符号和所述第一等级符号组成的公式; 根据构建的所述每个公式的部件,建立公式库的部件集; 为所述部件集中的每个部件设置编码形成部件编码集,提取所述部件编码集中每个编 码对应的部件特征,进而构建与所述部件编码集相对应的部件特征集; 获取待识别公式图像的部件子图,其中,每个所述部件子图包含一个部件; 获取所述待识别公式图像中每个所述部件子图的部件特征,将每个所述部件子图的部 件特征与所述部件特征集进行比对,获得每个所述部件子图的多候选识别结果,进而获得 所述待识别公式图像的公式识别结果。2. 如权利要求1所述的方法,其特征在于,所述起始符号为公式最左侧等级最高且基准 符号为符号本身的符号,所述基准符号为公式中每个符号的结构基准。3. 如权利要求1或2所述的方法,其特征在于,所述构建公式库中每个公式的部件包括: 获取公式库中每个公式的所有第一等级符号…為;其中,以所述起始符 号為为基准符号逐一递进式获取与所述起始符号结构关系为水平关系的右侧符号,将所述 起始符号与所述右侧符号作为第一等级符号…:…A ; 分别以每个公式的所述第一等级符号……Λ为基准符号获取次等级符号, 将无次等级符号的第一等级符号作为部件,将存在次等级符号的第一等级符号与该第一等 级符号的次等级符号组成的子公式作为部件。4. 如权利要求1所述的方法,其特征在于,所述为所述部件集中的每个部件设置编码形 成部件编码集,包括:对所述部件集中的部件进行去重操作,为去重后的所述部件集中的每 个部件设置编码形成部件编码集。5. 如权利要求1所述的方法,其特征在于,所述部件特征包括部件纹理特征和边缘特 征。6. 如权利要求1所述的方法,其特征在于,所述获取待识别公式图像的部件子图,包括: 对所述待识别公式图像进行水平方向投影切分,获得所述待识别公式图像的一级子图 序列; 获取所述一级子图序列中相邻一级子图的相邻边界的平均距离作为第一参考值,获取 所述一级子图序列中所有一级子图宽度的平均值作为第二参考值; 对所述一级子图序列中的各个一级子图进行连通域分割,分割成功后获得所述待识别 公式图像的二级子图序列,并根据所述二级子图序列中的相邻二级子图之间的空间位置关 系进行合并获得所述待识别公式图像的三级子图序列; 对所述三级子图序列中的每个三级子图和进行连通域分割后未获成功的一级子图分 别进行单字符识别,结合所述第一参考值和第二参考值,确定部件子图。7. 如权利要求6所述的方法,其特征在于,所述对所述三级子图序列中的每个三级子图 进行单字符识别,确定部件子图包括: 对所述三级子图序列中的每个三级子图分别进行单字符识别获得所述每个三级子图 的识别结果及相应的识别可信度; 根据所述单字符识别判断所述识别结果中存在的第一等级符号的类型及相应的识别 可信度并根据该判断结果确定部件子图。8. 如权利要求7所述的方法,其特征在于,所述根据所述单字符识别判断所述识别结果 中存在的第一等级符号的类型及相应的识别可信度并根据该判断结果确定部件子图包括: 若所述三级子图序列中存在识别结果为分式且识别可信度高于第一预设值的三级子 图,且所述三级子图的宽度接近所述三级子图对应的一级子图的宽度,所述三级子图的宽 度大于所述第一参考值和第二参考值,则将所述三级子图对应的一级子图作为分式类型的 部件子图; 若所述三级子图序列中存在识别结果为根式且识别可信度高于所述第一预设值的三 级子图,且所述三级子图的高度接近所述三级子图对应的一级子图的高度,所述三级子图 的高度大于所述第一参考值和第二参考值,则将所述三级子图对应的一级子图作为根式类 型的部件子图。9. 如权利要求6所述的方法,其特征在于,所述对所述进行连通域分割后未获成功的一 级子图进行单字符识别,确定部件子图包括: 对所述进行连通域分割后未获成功的一级子图进行单字符识别后的识别结果及识别 可信度进行判断,若该识别结果为公式符号且识别可信度高于所述第一预设值,且所述一 级子图与水平方向的相邻一级子图的距离接近所述第一参考值,则将所述一级子图作为公 式符号类型的部件子图。10. 根据权利要求8或9所述的方法,其特征在于,该方法还包括,根据对所述三级子图 序列中的每个三级子图和进行连通域分割后未获成功的一级子图进行单字符识别后无法 确定部件子图时,将所有不能确定为部件子图的三级子图和一级子图重新标记为新的子图 序列,通过动态规划获得所述重新标记的新的子图序列的最优组合子图序列,将所述最优 组合子图序列中的每个子图作为部件子图。11. 如权利要求1所述的方法,其特征在于,所述获取所述待识别公式图像中每个所述 部件子图的部件特征,将每个所述部件子图的部件特征与所述部件特征集进行比对,获得 每个所述部件子图的多候选识别结果包括: 对所述待识别公式图像中的每个部件子图进行归一化处理; 提取进行归一化处理后的每个所述部件子图的纹理特征和边缘特征,形成每个所述部 件子图的部件特征; 将单个部件子图的部件特征与所述部件特征集中的部件特征进行比对,获得所述单个 部件子图的部件特征与所述部件特征集中各特征之间的相似度; 将所述相似度从大到小进行排序,选取前Μ个相似度对应的Μ个部件特征,并将所述Μ个 部件特征对应的部件编码作为所述单个部件子图的多候选识别结果。12. 如权利要求11所述的方法,其特征在于,所述获得所述待识别公式图像的公式识别 结果包括: 若所述待识别公式图像只包括一个部件子图,在所述多候选识别结果中选取相似度最 大的部件特征对应的部件编码作为公式识别结果; 若所述待识别公式图像包括多个部件子图,将所述待识别公式图像的每个部件子图的 多候选识别结果作为基本单位,采用动态规划的方法,结合概率统计语言模型对每个候选 的公式识别结果进行评分、排序,将得分最高的部件特征对应的部件编码作为公式识别结 果。13. -种基于公式库的公式识别装置,其特征在于,所述公式识别装置包括: 构建部件模块,其用于构建所述公式库中每个公式的部件,其中,所述部件包括第一等 级符号和子公式,所述第一等级符号为所述每个公式的起始符号和与该起始符号在结构关 系上为水平关系的同等级符号,所述子公式为以第一等级符号为基准衍生的所有等级低于 所述第一等级符号的次等级符号和所述第一等级符号组成的公式; 建立部件集模块,其根据构建的所述每个公式的部件,建立公式的部件集; 构建部件编码集和部件特征集模块,其用于对所述部件集中的每个部件设置编码形成 部件编码集,提取所述部件编码集中每个编码对应的部件的特征,进而构建与所述部件编 码集相对应的部件特征集; 获取部件子图模块,其用于对待识别公式图像进行处理,获得所述待识别公式图像的 部件子图,其中,每个所述部件子图包含一个部件; 公式识别模块,其用于获取所述待识别公式图像中每个所述部件子图的部件特征,将 每个所述部件子图的部件特征与所述部件特征集进行比对,获得每个所述部件子图的较优 识别结果,进而获得所述待识别公式图像的公式识别结果。
【专利摘要】本发明提供一种基于公式库的公式识别方法及装置,该公式识别方法包括:基于公式库,构建公式库中每个公式的部件;进而构建部件集;为所述部件集中的每个部件设置编码形成部件编码集,提取所述部件编码集中每个编码对应的部件特征,进而构建与所述部件编码集相对应的部件特征集;对待识别公式图像进行处理,获得部件子图;对部件子图提取部件特征,通过将单个部件子图的部件特征和部件特征集进行比对,获得单个部件子图的多候选识别结果,进而获得所述待识别公式图像的公式识别结果。
【IPC分类】G06F17/27, G06K9/00
【公开号】CN105447477
【申请号】CN201510985871
【发明人】韦秋华
【申请人】北京汉王数字科技有限公司
【公开日】2016年3月30日
【申请日】2015年12月25日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1