一种手写公式识别系统及方法

文档序号:35193483发布日期:2023-08-21 11:25阅读:115来源:国知局
一种手写公式识别系统及方法

本发明涉及图像识别,尤其涉及一种手写公式识别方法、装置及计算机系统。


背景技术:

1、数学公式一种工具或知识载体,几乎在任何一门科学技术及一切社会领域中都被运用。而手写作为一种自然流畅的记录方式,受到大众的喜爱。因此,手写数学公式识别成为了模式识别中的一项重要任务,它在智能教育、学术论文辅助工具、办公自动化等领域中发挥着重要的作用。

2、在手写数学公式中,许多字符外形十分相似,有时候连人都难以辨别清楚。比如“2”很容易被误识别成“z”,“r”很容易误识别成“γ”,“x”由于和其小写“x”在外形上一致,很容易被误认为是“x”,类似的字母还有“c/c”和“k/k”等。另外,和普通的一维文本相比,数学公式具有复杂的二维结构。从结构简单的四则运算到复杂的微积分,符号之间的组合和排列都要符合一定的文法规则。因此,繁琐的语义信息使得手写数学公式识别更加困难。

3、目前编码器-解码器体系结构在最近的手写数学公式识别方法中被广泛使用,这些方法将手写数学公式识别表述为图像到序列的转换问题。给定一个手写公式,这类方法预测其对应的标记序列。为了提升手写数学公式识别的性能,大多数方法对模型结构进行了改进。也有一些引入其他与手写数学公式识别相关的任务,研究了这些任务和手写数学公式识别之间的关系。例如,bohan等人将符号计数任务引入手写数学公式识别,他们设计的系统可以预测每个符号在公式中的数量,同时生成公式的latex序列。thanh-nghia等人提出任务:预测所有符号是否在公式中出现,他们的实验表明该任务可以提高手写数学公式识别的性能。然而,他们的研究只针对单个任务对手写数学公式识别的影响,还没有人研究当引入多个任务时,手写数学公式识别的性能会如何变化。虽然一些数学符号的外形相似,但是属于不同的粗粒度类别,例如2属于数字,z小写字母;c属于大写字母,c属于小写字母。

4、因此,如何区分具有相似外观的符号,提高手写数学公式识别的性能,成为需要本领域技术人员解决的技术问题。


技术实现思路

1、本发明提供一种手写公式识别系统及方法,用以解决现有技术中无法区分具有相似外观的符号,导致手写数学公式识别的性能差的问题。

2、一方面为了实现上述目的,本发明提供一种手写公式识别系统,包括:图位置编码器、第一解码器、第二解码器、辅助任务模块,

3、其中,图位置编码器,用于对手写公式的图片进行特征提取;

4、第一解码器,基于提取到的特征进行细粒度识别,生成latex序列;

5、第二解码器,基于提取到的特征进行粗粒度识别,生成粗粒度类别序列;

6、第一解码器与所述第二解码器的结构相同。

7、优选地,本系统还包括:

8、辅助任务模块,用于完成与手写公式识别的相关任务,相关任务包括:预测所有符号的在公式中数量、预测所有符号是否在公式中出现。

9、优选地,所述第二编码器包括:

10、粗粒度划分模块,用于将数据集中的数学符号分成若干组粗粒度类别;其中,外形相似的符号属于不同的粗粒度类别;用法相同的符号属于同一个粗粒度类别。

11、优选地,所述第一解码器、所述第二编码器采用双向训练策略,每个时间步输出两个预测结果。

12、为了实现上述目的,本发明还公开了一种手写公式识别方法,包括:对手写公式的图片进行特征提取;

13、基于提取到的特征进行细粒度识别,生成latex序列;

14、基于提取到的特征进行生成粗粒度识别,生成粗粒度类别序列。

15、优选地,生成粗粒度类别序列之前包括:

16、将数据集中的数学符号分成若干组粗粒度类别;其中,外形相似的符号属于不同的粗粒度类别;用法相同的符号属于同一个粗粒度类别。

17、优选地,在训练过程中,其他与手写数学公式识别相关的任务通过影响共享编码器的参数来影响手写数学公式识别。

18、优选地,训练过程中使用的损失函数l为细粒度识别任务、粗粒度识别任务的交叉熵损失之和:

19、l=lhmer+λ1lgcrt

20、其中,lhmer为细粒度的识别任务的损失函数,lgcrt为粗粒度识别任务的损失函数。

21、优选地,本方法还包括:使用counting-aware network来预测每个符号类的数量。

22、优选地,所述counting-aware network包括依次连接的全连接层、dropout层、全连接层,其中,第二个全连接层的节点数等于符号类的数目。

23、与现有技术相比,本发明提供的手写公式识别系统及方法具有以下有益效果:使用本方法可以区分手写公式中具有相似外观的符号,提高了手写数学公式识别的性能。



技术特征:

1.一种手写公式识别系统,其特征在于,包括:图位置编码器、第一解码器、第二解码器、辅助任务模块,

2.根据权利要求1所述的手写公式识别系统,其特征在于,还包括:

3.根据权利要求1所述的手写公式识别系统,其特征在于,所述第二解码器包括:

4.根据权利要求1所述的手写公式识别系统,其特征在于,所述第一解码器、所述第二解码器采用双向训练策略,每个时间步输出两个预测结果。

5.一种手写公式识别方法,其特征在于,包括:

6.根据权利要求5所述的手写公式识别方法,其特征在于,生成粗粒度类别序列之前包括:

7.根据权利要求5所述的手写公式识别方法,其特征在于,

8.根据权利要求5所述的手写公式识别方法,其特征在于,

9.根据权利要求8所述的手写公式识别方法,其特征在于,还包括:使用counting-aware network来预测每个符号类的数量。

10.根据权利要求9所述的手写公式识别方法,其特征在于,


技术总结
本发明公开了一种手写公式识别系统及方法,涉及图像识别技术领域,解决了现有技术中无法区分具有相似外观的符号,导致手写数学公式识别的性能差的问题,其技术方案要点是使用图位置编码器对手写公式的图片进行特征提取;使用第一解码器对提取到的特征进行细粒度识别,生成LaTeX序列;使用第二解码器对提取到的特征进行粗粒度识别,生成粗粒度类别序列。

技术研发人员:冯桂焕,张欣宇,应瀚,陶冶
受保护的技术使用者:南京大学
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1