基于公式库的公式识别方法及装置的制造方法

文档序号:9687938阅读:299来源:国知局
基于公式库的公式识别方法及装置的制造方法
【技术领域】
[0001] 本发明设及一种公式识别方法及装置,特别设及一种基于公式库的公式识别方法 及装置,可W用于例如在线教育领域。
【背景技术】
[0002] 随着在线教育技术的发展,提供简捷快速的答疑解惑服务成为该技术发展的一项 重要业务,目前主流的市场应用为拍照题目捜索,即基于对题目拍照后形成的图像中的文 字、公式的识别结果进行捜索。在当前的教学科目中,数学是中小学的重要课程,公式是数 学题目中最主要的一种表达形式,因此,公式识别是决定题目捜索性能的一项最主要的核 屯、技术。
[0003] 传统的公式识别技术主要应用于对图像或手写体公式的解析识别,该公式识别方 法的主要原理是先从图像中分割出单个字符,再对单个字符进行识别,最后对字符与字符 之间的结构关系进行分析,最终完成对公式的识别理解。因此,运种传统的公式识别技术受 图像质量和手写体书写习惯的影响较大,而且,需要对构成公式的各个字符之间进行结构 分析,识别过程较为繁琐,识别时间较长,识别效率也低,无法很好地应用到拍照题目捜索。

【发明内容】

[0004] 拍照题目捜索的前提是必须有一个数量庞大、不断更新的题目、答案和解析数据 库,因此,相当于在拍照题目捜索情况下进行的公式识别预先建立了一个特定的公式库。本 发明提供了一种基于上述特定的公式库的公式识别方法及装置,该公式识别方法基于特定 的公式库来构建每个公式的部件,建立公式库的部件集,将公式作为部件集中的部件按照 先后顺序进行水平方向组合而成。
[000引根据本发明的一方面,本发明实施例提供一种基于公式库的公式识别方法,所述 公式识别方法包括: 构建公式库中每个公式的部件;其中,所述部件包括第一等级符号和子公式,所述第一 等级符号为所述每个公式的起始符号和与该起始符号在结构关系上为水平关系的同等级 符号,所述子公式为W第一等级符号为基准衍生的所有等级低于所述第一等级符号的次等 级符号和所述第一等级符号组成的公式; 根据构建的所述每个公式的部件,建立公式库的部件集; 为所述部件集中的每个部件设置编码形成部件编码集,提取所述部件编码集中每个编 码对应的部件特征,进而构建与所述部件编码集相对应的部件特征集; 获取待识别公式图像的部件子图,其中,每个所述部件子图包含一个部件; 获取所述待识别公式图像中每个所述部件子图的部件特征,将每个所述部件子图的部 件特征与所述部件特征集进行比对,获得每个所述部件子图的多候选识别结果,进而获得 所述待识别公式图像的公式识别结果。
[0006]所述起始符号为公式最左侧等级最高且基准符号为符号本身的符号,所述基准符 号为公式中每个符号的结构基准。
[0007] 所述构建公式库中每个公式的部件包括: 获取公式库中每个公式的所有第一等级符号to, tl,t2,……tn;其中,W所述起始符号 to为基准符号逐一递进式获取与所述起始符号结构关系为水平关系的右侧符号,将所述起 始符号与所述右侧符号作为第一等级符号to,tl,t2,……tn ; 分别W每个公式的所述第一等级符号to,tl,t2,……tn为基准符号获取次等级符号,将 无次等级符号的第一等级符号作为部件,将存在次等级符号的第一等级符号与该第一等级 符号的次等级符号组成的子公式作为部件。
[0008] 所述为所述部件集中的每个部件设置编码形成部件编码集,包括:对所述部件集 中的部件进行去重操作,为去重后的所述部件集中的每个部件设置编码形成部件编码集。
[0009] 所述部件特征包括部件纹理特征和边缘特征。
[0010] 所述获取待识别公式图像的部件子图,包括: 对所述待识别公式图像进行水平方向投影切分,获得所述待识别公式图像的一级子图 序列; 获取所述一级子图序列中相邻一级子图的相邻边界的平均距离作为第一参考值,获取 所述一级子图序列中所有一级子图宽度的平均值作为第二参考值; 对所述一级子图序列中的各个一级子图进行连通域分割,分割成功后获得所述待识别 公式图像的二级子图序列,并根据所述二级子图序列中的相邻二级子图之间的空间位置关 系进行合并获得所述待识别公式图像的Ξ级子图序列; 对所述Ξ级子图序列中的每个Ξ级子图和进行连通域分割后未获成功的一级子图分 别进行单字符识别,结合所述第一参考值和第二参考值,确定部件子图。
[0011] 所述对所述Ξ级子图序列每个Ξ级子图进行单字符识别,确定部件子图包括: 对所述Ξ级子图序列中的每个Ξ级子图分别进行单字符识别获得所述每个Ξ级子图 的识别结果及相应的识别可信度; 根据所述单字符识别判断所述识别结果中存在的第一等级符号的类型及相应的识别 可信度并根据该判断结果确定部件子图。
[0012] 所述根据所述单字符识别判断所述识别结果中存在的第一等级符号的类型及相 应的识别可信度并根据该判断结果确定部件子图包括: 若所述Ξ级子图序列中存在识别结果为分式且识别可信度高于第一预设值的Ξ级子 图,且所述Ξ级子图的宽度接近所述Ξ级子图对应的一级子图的宽度,所述Ξ级子图的宽 度大于所述第一参考值和第二参考值,则将所述Ξ级子图对应的一级子图作为分式类型的 部件子图; 若所述Ξ级子图序列中存在识别结果为根式且识别可信度高于所述第一预设值的Ξ 级子图,且所述Ξ级子图的高度接近所述Ξ级子图对应的一级子图的高度,所述Ξ级子图 的高度大于所述第一参考值和第二参考值,则将所述Ξ级子图对应的一级子图作为根式类 型的部件子图。
[0013] 所述对所述进行连通域分割后未获成功的一级子图进行单字符识别,确定部件子 图包括: 对所述进行连通域分割后未获成功的一级子图进行单字符识别后的识别结果及识别 可信度进行判断,若该识别结果为公式符号且识别可信度高于所述第一预设值,且所述一 级子图与水平方向的相邻一级子图的距离接近所述第一参考值,则将所述一级子图作为公 式符号类型的部件子图。
[0014] 该方法还包括,根据对所述Ξ级子图序列中每个Ξ级子图和进行连通域分割后未 获成功的一级子图进行单字符识别后无法确定部件子图时,将所有不能确定为部件子图的 Ξ级子图和一级子图重新标记为新的子图序列,通过动态规划获得所述重新标记的新的子 图序列的最优组合子图序列,将所述最优组合子图序列中的每个子图作为部件子图。
[0015] 所述获取所述待识别公式图像中每个所述部件子图的部件特征,将每个所述部件 子图的部件特征与所述部件特征集进行比对,获得每个所述部件子图的多候选识别结果包 括: 对所述待识别公式图像中的每个部件子图进行归一化处理; 提取进行归一化处理后的每个所述部件子图的纹理特征和边缘特征,形成每个所述部 件子图的部件特征; 将单个部件子图的部件特征与所述部件特征集中的部件特征进行比对,获得所述单个 部件子图的部件特征与所述部件特征集中各特征之间的相似度; 将所述相似度从大到小进行排序,选取前Μ个相似度对应的Μ个部件特征,并将所述Μ个 部件特征对应的部件编码作为所述单个部件子图的多候选识别结果。
[0016] 所述获得所述待识别公式图像的公式识别结果包括: 若所述待识别公式图像只包括一个部件子图,在所述多候选识别结果中选取相似度最 大的部件特征对应的部件编码作为公式识别结果; 若所述待识别公式图像包括多个部件子图,将所述待识别公式图像的每个部件子图的 多候选识别结果作为基本单位,采用动态规划的方法,结合概率统计语言模型对每个候选 的公式识别结果进行评分、排序,将得分最高的部件特征对应的部件编码作为公式识别结 果。
[0017] 所述公式识别装置包括: 构建部件模块,其用于构建所述公式库中每个公式的部件,其中,所述部件包括第一等 级符号和子公式,所述第一等级符号为所述每个公式的起始符号和与该起始符号在结构关 系上为水平关系的同等级符号,所述子公式为W第一等级符号为基准衍生的所有等级低于 所述第一等级符号的次等级符号和所述第一等级符号组成的公式; 建立部件集模块,其根据构建的所述每个公式的部件,建立公式的部件集; 构建部件编码集和部件特征集模块,其用于对所述部件集中的每个部件设置编码形成 部件编码集,提取所述部件编码集中每个编码对应的部件的特征,进而构建与所述部件编 码集相对应的部件特征集; 获取部件子图模块,其用于对待识别公式图像进行处理,获得所述待识别公式图像的 部件子图,其中,每个所述部件子图包含一个部件; 公式识别模块,其用于获取所述待识别公式图像中每个所述部件子图的部件特征,将 每个所述部件子图的部件特征与所述部件特征集进行比对,获得每个所述部件子图的较优 识别结果,进而获得所述待识别公式图像的公式识别结果。
[0018] 与传统的公式识别方法相比,本发明所述识别方法W预先建立的公式库为基础, 该识别方法可w充分利用公式库来校准和优化识别结果,同时,该识别方法将复杂类型的 子公式转换成一个新的字符,一个公式就被当成一个或者多个复杂类型子公式和单个传统 字符的水平方向组合。通过本发明所述的公式识别方法及装置,不需要进行字符之间的结 构分析,简化了公式识别的步骤,节省公式识别的时间,提高了公式识别的准确率。
[0019] W下结合本发明的附图及优选实施方式对本发明的技术方案做进一步详细地描 述,本发明的有益效果将进一步明确。
【附图说明】
[0020] 此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,但其 说明仅用于解释本发明,并不构成对本发明的不当限定。
[0021 ]图1是根据本发明一优选实施例的公式识别方法的流程图; 图2是根据本发明一优选实施例的获取待识别公式图像的部件子图的流程图。
[0022] 图3是根据本发明一优选实施例的公式识别
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1