一种数学公式识别方法、装置

文档序号:34897024发布日期:2023-07-26 01:42阅读:30来源:国知局

本发明涉及识别,具体为一种数学公式识别方法、装置。


背景技术:

1、数学公式用于表征自然界不同事物之数量之间的或等或不等的联系,常用于教材、科技论文等文档中。与一维结构的文本行不同,数学公式中通常存在上下、左右、包围等二维结构,在科研教育领域,很多科研文献中的印刷体数学公式以图片的形式存在。

2、现有方法在进行文本解析时,一般不单独对数学公式进行识别,而是直接将公式字符作为普通字符进行处理,由于数学公式复杂的结构极大地增加了计算机识别的难度,且手写文本图像的非精确性、书写笔体和速度、数学符号的二义性、结构的多变性等都给数学公式的识别和编辑进一步增加了难度,经常会出现对字符的识别错误,并且会将对字符的错识问题叠加到对整个数学公式的分析中,从而影响最终的数学公式识别结果,导致识别数学公式不准确。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种数学公式识别方法、装置,解决了传统方法直接将公式字符作为普通字符进行处理,由于数学公式复杂的结构,经常会出现对字符的识别错误,并且将对字符的识别错误叠加到对整个数学公式的分析中,从而影响最终的数学公式识别结果,导致识别数学公式不准确的问题。

3、(二)技术方案

4、为实现以上目的,本发明通过以下技术方案予以实现:一种数学公式识别方法,具体包括以下步骤:

5、s1.公式编存

6、将已知公式进行汇总,并构建公式组合模型进行存储定义;

7、s2.获取图像信息

8、接收待识别文本图像,包括外接载入和实时获取;

9、s3.图像处理

10、使用双线性卷积神经网络模型对图像进行高层语义特征获取,通过迭代训练网络模型中的卷积参数,过滤图像中不相关的背景信息,根据不同的卷积参数采用不同的频数系数分类处理;

11、s4.非盲去模糊

12、获取多组同区域聚焦文本图像,收集同种目标物并去除孤立且明亮的像素点,随后进行目标区域的扩大并进行最大值滤波,通过增强放大目标的能量强度以及尺寸,同时去除图像中大部分盲元;

13、s5.目标提取

14、根据s2-s4步骤后确定获取的图像像素大小,并对图像进行图像文本提取,对所采集到的图像文本中的目标物进行确定,将提取点分别聚焦于各个目标物上,生成多张聚焦图像,采用增强差分演化方法,求取每张多聚焦图像的最佳分块大小,并将每张多聚焦图像中目标物部分进行标记提取;

15、s6.糅合对齐与归类

16、将s5中完成文本图像特征提取的文本进行按序排列组合,并对非公式字符进行隐藏处理,利用数据库存储的公式特征数据与即时提取的文本图像特征数据进行特征匹配,筛选出对应的公式组合,并将筛选出的公式组合与即时提取的文本图像特征数据通过图像特征进行图像对齐;

17、s7.识别归类

18、通过基于孪生网络的图像相似度比较判别一致性,未对齐的文本字符直接视作检测不一致区域,标记为超阈区域,其余视作一致文本行图像,标记处的超阈区域基于图像结构化相似度检测比较一致性,像素有区别的图像生成后依次进行二值化、去噪和轮廓检测,通过最小外接矩形标出不一致区域;

19、s8.结果判定

20、对文本图像完全对齐的公式文本进行独立呈现,并对单一字符存在超阈区域的进行罗列呈现,其余公式文本自动忽略,完成最终对比判定。

21、优选的,所述s1中的公式组合模型包括数学公式的运算数据、运算符号和运算规则。

22、优选的,所述s2中的外接载入包括u盘、蓝牙、无线传输和网端连载,所述实时获取通过视觉设备机器进行获取,具体包括:数字图像传感器、cmos或ccd摄像机。

23、优选的,所述s3中的双线性卷积神经网络模型中双线性模型m由一个四元组组成:m=(fa;fb;p;c),其中fa;fb代表特征提取函数,p是一个池化函数,c是分类函数,在进行分类的过程中通过网络a和网络b互补处理,其中网络a对图像中的物体进行定位,网络b完成对网络a定位到的物体位置进行特征提取。

24、优选的,所述s7中的基于孪生网络的图像相似度比较对位系统包括可深度学习且不断迭代的系统。

25、优选的,所述s6中的特征匹配包括多源数据分类、多模态语义计算、跨模态样本匹配、跨模态检索、跨模态样本生成以及多模态信息融合。

26、优选的,包括一种数学公式识别方法的使用装置:具体包括有处理器和存储器,所述存储器上存储有用于在处理器上执行的计算机程序,其中计算机程序包括该种识别方法。

27、优选的,所述一种数学公式识别方法的使用装置还包括有模型构建模块、接收模块、特征提取模块、识别模块和即时获取单元。

28、(三)有益效果

29、本发明提供了一种数学公式识别方法、装置。具备以下有益效果:

30、1、本发明提供了一种数学公式识别方法、装置,通过接收输入的数学公式信息的图像数据,并确定与数学公式信息匹配每个关系信息对应的特征区域,识别特征区域而得到公式元素,最后结合运算关系类型,将公式元素组织成与数学公式信息对应的数学公式,从而实现对文本图像数学公式的准确识别,并且在识别过程中充分利用了数学公式的结构性质,降低了字符识别的难度,优化了整个识别过程的效果和流程,提升了对文本图像数学公式识别的精确性和识别速度,为用户提供更加精准、简便、快捷的数学公式输入体验。

31、2、本发明提供了一种数学公式识别方法、装置,通过图像对齐、文本行对齐后再进行文本区域图像比对,以便适用于文本识别和图像相似度对比共存的检测方案,由基于孪生网络的相似度比较方式且可训练文本图像不断迭代进行对位比对,能有效提高文本区域检测精度,对于文本行未对齐部分直接标注,减少检测时间,利用提取的文本图像特征描述了当前字符前后括号的匹配情况,从而可以有效地避免字符的歧义及前后括号不匹配的情况,且识别过程考虑了字符间的时序性,提升了歧义字符的识别准确度。



技术特征:

1.一种数学公式识别方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种数学公式识别方法,其特征在于:所述s1中的公式组合模型包括数学公式的运算数据、运算符号和运算规则。

3.根据权利要求1所述的一种数学公式识别方法,其特征在于:所述s2中的外接载入包括u盘、蓝牙、无线传输和网端连载,所述实时获取通过视觉设备机器进行获取,具体包括:数字图像传感器、cmos或ccd摄像机。

4.根据权利要求1所述的一种数学公式识别方法,其特征在于:所述s3中的双线性卷积神经网络模型中双线性模型m由一个四元组组成:m=(fa;fb;p;c),其中fa;fb代表特征提取函数,p是一个池化函数,c是分类函数,在进行分类的过程中通过网络a和网络b互补处理,其中网络a对图像中的物体进行定位,网络b完成对网络a定位到的物体位置进行特征提取。

5.根据权利要求1所述的一种数学公式识别方法,其特征在于:所述s7中的基于孪生网络的图像相似度比较对位系统包括可深度学习且不断迭代的系统。

6.根据权利要求1所述的一种数学公式识别方法,其特征在于:所述s6中的特征匹配包括多源数据分类、多模态语义计算、跨模态样本匹配、跨模态检索、跨模态样本生成以及多模态信息融合。

7.根据权利要求1所述的一种数学公式识别方法,其特征在于,包括一种数学公式识别方法的使用装置:具体包括有处理器和存储器,所述存储器上存储有用于在处理器上执行的计算机程序,其中计算机程序包括该种识别方法。

8.根据权利要求6所述的一种数学公式识别方法,其特征在于:所述一种数学公式识别方法的使用装置还包括有模型构建模块、接收模块、特征提取模块、识别模块和即时获取单元。


技术总结
本发明提供一种数学公式识别方法、装置,涉及识别技术领域。该数学公式识别方法,具体包括以下步骤:S1.公式编存,将已知公式进行汇总,并构建公式组合模型进行存储定义;S2.获取图像信息,接收待识别文本图像,包括外接载入和实时获取。通过在识别过程中充分利用了数学公式的结构性质,降低了字符识别的难度,优化了整个识别过程的效果和流程,提升了对文本图像数学公式识别的精确性和识别速度,为用户提供更加精准、简便、快捷的数学公式输入体验,同时利用提取的文本图像特征描述了当前字符前后括号的匹配情况,从而可以有效地避免字符的歧义及前后括号不匹配的情况,且识别过程考虑了字符间的时序性,提升了歧义字符的识别准确度。

技术研发人员:谢卫军,李博,刘瑾
受保护的技术使用者:湖南民族职业学院
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1