基于公式库的公式识别方法及装置的制造方法_2

文档序号:9687938阅读:来源:国知局
装置的框图。
[0023]
【具体实施方式】
[0024] 下面将结合本发明的具体实施例及相应的附图对本发明技术方案进行清楚、完整 地描述。显然,所描述的实施例仅是本发明一部分优选实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0025] 此处首先定义本发明设及的公式中的起始符号、基准符号、第一等级符号、次等级 符号及子公式等的含义。公式是由传统的字符集中的字符组成的,公式中的每个公式字符 都有一个基准符号,该基准符号是每个公式字符的结构基准。
[0026] 公式中每个公式字符与其对应的基准符号之间的结构关系包括水平关系、分式上 下标关系、根号根指数关系、根号根号内关系、矩阵关系、上下角标关系等。其中水平关系是 只考虑水平右侧关系,即若存在两个水平关系的符号,则认为左侧的符号为右侧符号的基 准符号。如果公式字符与基准符号之间的结构关系为水平关系,则认为公式字符与基准符 号为同一等级的符号,而对于其它结构关系,可W认为该公式字符比基准符号的等级低一 级,即定义为次等级符号。
[0027] 每一个公式都有且仅有一个起始符号,起始符号是公式最左侧的等级最高的符 号,起始符号的基准符号就是其本身。公式中所有与起始符号结构关系为水平关系的符号 为第一等级符号。某个公式字符的基准符号和结构关系共同决定该字符在公式中的唯一顺 序和结构特征。W某第一等级符号为基准衍生出的所有低于其等级的次等级符号与某第一 等级符号组成的公式,称为W某第一等级符号为基准符号的子公式。
[0028] 例如,公式中公式字符V'、V、V的基准符号分别为"根式(:/')"、 V'、"b",结构关系分别为根号根号内关系、水平关系、水平关系。最左侧的等级最高的符号 为根式,因此起始符号为根式。
[0029] 再如,对于公式
,首先找到起始符号,起始符号是最左侧的等 级最高的符号,在该公式I中最左侧是一个分式结构的复杂类型公式,因此其最高等级的符 号为"分式一",因此"分式一"也就是该公式的起始符号。紧接着分式的水平右侧符号为 的水平右侧符号为"a","a"的水平右侧符号为的水平右侧符号为"分 式一",所W,上述"分式一"、V'、V'、V'、"分式一"为公式I的第一等级符号。并且,该公式 I包含两个子公式
是由第一个"分式一"为基 准符号衍生出的子公式,"是由第二个"分式一"为基准符号衍生出的子公式。
[0030] 再分析公式I中的两个子公式' '和"1"的结构关系。在子公式" ;2:
中,W "基准符号-结构关系-公式字符"的方式来描述该子公式中各个公式字符 之间的结构关系,具体如下:分式-分式上标-b,b-水平-+,+-水平-根式,根式-根式根号 内-b,b-右上角标-2,b-水平-4,4-水平-a,分式-分式下标-2,2-水平-a。例如上文中"分式-分式上标-b"的含义为基准符号为"分式",公式字符为"b",两者之间关系为"分式上标",其 余表示方法与此同理。公式"?"与前述公式同理。本发明下文对部件的定义基于上述对公 2 式中字符的定义。
[0031] 下面结合图1说明根据本发明的一优选实施例的公式识别方法的具体步骤。
[0032] 图1是根据本发明的一优选实施例的公式识别方法的流程图。如图1所示,根据本 发明的优选实施例的公式识别方法的具体步骤如下。
[0033] 步骤S1:构建公式库中每个公式的部件。
[0034] 每个公式的部件包括第一等级符号和子公式。第一等级符号为每个公式的起始符 号和与该起始符号在结构关系上为水平关系的同等级符号。子公式为W第一等级符号为基 准衍生的所有等级低于该第一等级符号的次等级符号和该第一等级符号组成的公式。
[0035] 步骤S2:根据构建的所述每个公式的部件,建立公式库的部件集。
[0036] 对公式库中的每个公式通过步骤S1所述的方法,构建每个公式的部件,从而建立 公式库的部件集。
[0037] 步骤S3 :为部件集中的每个部件设置编码形成部件编码集,提取所述部件编码集 中每个编码对应的部件特征,进而构建与所述部件编码集相对应的部件特征集。
[0038] 该步骤中,对部件集中的部件进行去重操作,为去重后的部件集中的每个部件设 置编码形成部件编码集。部件特征包括部件纹理特征和边缘特征。提取部件编码集中每个 编码对应的纹理特征和边缘特征后构建与部件编码集相对应的部件特征集。
[0039] 步骤S4:获取待识别公式图像的部件子图,其中,每个所述部件子图包含一个部 件。
[0040] 该步骤中,需要对待识别公式图像进行水平方向投影切分,获得所述待识别公式 图像的一级子图序列。获取所述一级子图序列中相邻一级子图的相邻边界的平均距离作为 第一参考值,获取所述一级子图序列中所有一级子图宽度的平均值作为第二参考值。对所 述一级子图序列进行连通域分割,分割成功后获得所述待识别公式图像的二级子图序列, 并根据所述二级子图序列中的相邻二级子图之间的空间位置关系进行合并获得所述待识 别公式图像的Ξ级子图序列。对所述Ξ级子图序列和进行连通域分割后未获成功的一级子 图序列分别进行单字符识别,结合所述第一参考值和第二参考值,确定部件子图。
[0041] 步骤S5:获取每个部件子图的部件特征,通过与部件特征集比对,实现公式识别。
[0042] 该步骤中,获取所述待识别公式图像中每个所述部件子图的部件特征,将每个所 述部件子图的部件特征与所述部件特征集进行比对,获得每个所述部件子图的多候选识别 结果,进而获得所述待识别公式图像的公式识别结果。
[0043] W下详述上述步骤的实现方法。
[0044] 对于步骤S1:构建公式库中每个公式的部件。首先,获取公式库中的每个公式的第 一等级符号。该过程中首先要获取公式的起始符号to,起始符号to的获取规则为,获取公式 最左侧等级最高且基准符号为符号本身的符号。然后,W起始符号to为基准符号,获取与其 结构关系为水平关系的右侧符号ti,W此类推,分别获取Wtn-l为基准符号,结构关系为水 平关系的右侧符号tn,从而,完成对公式中所有第一等级符号to, tl,t2,……tn的采集。
[004引获取第一等级的符号后,分别W每个公式的第一等级符号to, tl,t2,……tn为基准 符号获取次等级符号。
[0046] 若公式中W某一第一等级符号为基准,没有次等级符号,则定义该第一等级符号 即为部件;若W某一第一等级符号为基准,存在次等级符号,则W某一第一等级符号和其次 等级符号组成的公式为子公式,该子公式为部件。至此,完成对公式库中每个公式的部件采 集。
[0047] W前述的公式
为示例。首先获取起始符号"一(分号)"(in ), 然后W起始符号为基准符号,获取与其结构关系为水平关系的右侧符号"+"( ),依次类 推,获取WV'( ^3 )为基准符号,结构关系为水平关系的右侧符号"一(分号)"(^ ),从而, 获取该公式中所有的第一等级符号"一(分号)"()、"+"( ^ )、"曰"(屯)、"+"( ?;)和"一 (分号)"(邸)。最后,分别W in和:与为基准符号,获取所有次等级符号,从而,得到4和 為的子公式'
两个子 公式和V'( )、V'(堪)、V'(為)Ξ个第一等级符号,作为该公式的五个部件。对于公式 库中的其它公式,通过上述步骤构建每个公式的部件。
[0048] 对于步骤S3中设置部件编码集。首先,对部件集中的所有部件做去重操作;然后, 将部件集中的所有部件设置编码,使得部件与编码一一对应,从而形成部件编码集。例如, 将公iS
中的五个部件首先做去重操作,去掉一个重复的V',从而得 至Γ
四个部件,然后,对运四个部件分别编码为〇、1、2、3,则编 码为0的部件即为
,编码为1的部件即为"+",编码为2的部件为"a",编码为3的 部件为"-运样,公式I就转换为01213的编码形式。
[0049] 接着,对部件编码集中每个部件进行部件特征提取,获得每个部件对应的部件纹 理特征和边缘特征,构成与部件编码集相对应的部件特征集,将其用于在稍后描述的识别 过程中,W识别图像中的公式。
[0050] 对于部件纹理特征的提取,一幅图像的纹理是在图像计算中经过量化的图像特 征。图像纹理描述图像或其中小块区域的空间颜色分布和光强分布。本实施例采用如下步 骤提取纹理特征。
[0051 ] ①首先将图像划分为16X16的小区域(cell),对每个cell的一个像素,将其环形 邻域内的8个邻点进行顺时针或逆时针的比较,如果中屯、像素值比该邻点大,则将邻点赋值 为1,否则赋值为0,运样每个点都会获得一个8位二进制数(通常转换为十进制数)。
[0052] ②然后计算每个cell的直方图,即每个数字(假定是十进制数)出现的频率(即,对 每一个像素点是否比邻域内点大的一个二进制序列进行统计),然后对该直方图进行归一 化处理。
[0053] ③最后将得到的每个cell的统计直方图进行连接,从而得到整幅图的纹理特征。
[0054] 对于部件边缘特征的提取。本实施例采用canny边缘检测算法提取部件边缘特征。 具体过程为:对原始图像进行高斯平滑去噪;求梯度值;梯度幅度值判定;初步确定图像边 缘点;精确定位边缘位置;最后输出一二值化图像。进行边缘检测的目的是为了找到图像中 亮度变化剧烈的像素点构成的集合,该集合所表现出来的往往是轮廓。理想情况下,对所给
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1