一种基于旋转不变性的手写化学有机环符号识别方法与流程

文档序号:20688745发布日期:2020-05-08 19:05阅读:270来源:国知局
一种基于旋转不变性的手写化学有机环符号识别方法与流程

本发明属于模式识别技术领域,更具体地,涉及一种基于旋转不变性的手写化学有机环符号识别方法。



背景技术:

化学符号能够直观、方便地表示和传播化学知识,因此在化学教育和学术交流中有着广泛的应用。随着信息社会的发展,越来越多的化学领域的工作需要借助电子设备来完成。与此同时,如何将化学方程式稳定快捷的输入到计算机仍然是一个亟待发展的技术。目前,将化学符号语言输入电子设备的常用方法主要是通过点击或者拖动相关模块的人机交互方式,例如chemdraw,chembl,pubchem和drugbank等。但是,这些以键盘和鼠标为接口的输入系统缺乏便利性和有效性。如今,随着触摸屏设备的迅猛发展,基于手写的输入方法已大大影响了人机交互。为了减少传统的化学符号语言输入系统的复杂的操作,人们转向了更为直接的手写交互方式。因此,像我们在纸上书写一样,能够采用触屏设备手动输入化学式引起了研究人员的兴趣。

已有的手写化学符号识别方法分为两类:基于传统机器学习的方法和基于深度学习的方法。其中基于传统机器学习的方法首先手动提取一个多维的特征向量,进而使用隐马尔可夫模型(hmm)或支持向量机(svm)等模型对提取的特征进行识别分类。基于深度学习的方法采用深度卷积神经网络(如vggnet)自动从输入样本中学习到一个鲁棒的特征表示,避免了基于传统机器学习的方法中手动设计特征的问题。

但是,基于传统机器学习的方法需要人工设计特征,同时,这类特征的表征能力和泛化能力都不强。基于深度学习的方法将典型的卷积神经网络,例如vggnet,用来识别手写化学有机环结构符号,能够自动地学习到一个特征表示。但是,典型的卷积神经网络所学习到的特征表示具有平移不变性,而不具有旋转不变性。因此,现有的典型的卷积神经网络所学习到的特征表示不能对化学有机环结构符号的旋转不变特征进行有效表征。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供一种基于旋转不变性的手写化学有机环符号识别方法,对化学有机环结构符号的旋转不变特征进行有效表征。

为实现上述目的,本发明提供一种基于旋转不变性的手写化学有机环符号识别方法,包括如下步骤:

s1:书写不同的化学有机环结构符号,采集得到的手写化学有机环结构符号作为输入样本并将其作为输入层输入到卷积神经网络模型;

s2:在所述输入层后插入循环切片层,得到不同的角度的所述旋转副本;

s3:通过传统卷积神经网络逐个处理不同的角度的所述旋转副本,生成不同角度的特征图;

s4:插入循环池化层,使用与排列顺序无关的池化函数对不同角度的所述特征图进行合并处理;

s5:将循环池化后的所述特征图送入全连接层,并输出识别结果。

进一步地,每个输入样本的所述旋转副本为不同角度的化学有机环结构符号。

进一步地,所述旋转副本最多为12个。

进一步地,步骤s2中,令x代表输入,r表示顺时针旋转30°,所述循环切片的操作表示为:s(x)=[x,rx,r2x,r3x,…,r11x]t,其中使用每个列向量来表示不同旋转角度下所对应的副本。

进一步地,所述循环切片层之后的传统卷积神经网络逐个处理每一个输入数据的所述旋转副本。

进一步地,步骤s3中,所述传统卷积神经网络为多个传统的卷积层和池化层。

进一步地,步骤s4中,假设x=[x0,x1,x2,x3,…,x11]t,所述池化函数表示为:p(x)=p(x0,x1,x2,…,x11),其中p指与排列顺序无关的池化函数。

进一步地,所述与排列顺序无关的池化函数包括均值函数或者最大值函数。

进一步地,在所述传统卷积神经网络输入端插入所述循环切片层,输出端插入所述循环池化层。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

(1)本发明的基于旋转不变性的手写化学有机环符号识别方法,通过在现有的卷积神经网络的中插入循环切片层和循环池化层,将改进的具有旋转不变特性的卷积神经网络应用于化学有机环结构符号识别,对化学有机环结构符号的旋转不变特征进行有效表征。

(2)本发明的基于旋转不变性的手写化学有机环符号识别方法,根据化学有机环结构符号的旋转不变性特征,设计一种适用于化学有机环结构符号识别的卷积神经网络,使其能够有效地学习到化学有机环结构符号的旋转不变性特征,从而提高符号识别的准确率。

(3)本发明的基于旋转不变性的手写化学有机环符号识别方法,提出了一种适用于化学有机环结构符号识别的卷积神经网络,可以构建一个能够对有机环结构符号的旋转不变性进行识别并在不同方向实现权值共享的框架。

附图说明

图1为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的化学有机环结构符号示意图;

图2为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的循环切片层示意图;

图3为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的循环池化层示意图;

图4为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的具有旋转不变性的卷积神经网络框架示意图;

图5为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的手写化学有机环结构符号示意图;

图6为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了自动地学习化学有机环结构符号的旋转不变特征表示,本发明提供一种基于旋转不变性的手写化学有机环符号识别方法,基于分析化学中有机环结构符号的旋转不变性,设计一种适用于化学有机环结构符号识别的卷积神经网络、将改进的卷积神经网络应用于化学有机环结构符号识别等技术问题,包括如下步骤:

s1:书写不同的化学有机环结构符号,采集得到的手写化学有机环结构符号作为输入样本并将其作为输入层输入到卷积神经网络模型;

s2:在所述输入层后插入循环切片层,通过将所述输入样本堆叠到单个minibatch中,得到不同的角度的所述旋转副本;

s3:通过传统卷积神经网络逐个处理不同的角度的所述旋转副本,生成不同角度的特征图;传统卷积神经网络为多个传统的卷积层和池化层;

s4:插入循环池化层,使用与排列顺序无关的池化函数对不同角度的所述特征图进行合并处理;

s5:将循环池化后的所述特征图送入全连接层,并输出识别结果。

进一步地,图1为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的化学有机环结构符号示意图,如图1所示,对化学有机环结构符号的旋转对称性进行分析,图1中共计有36个化学有机环符号,由于苯环结构的对称性,图1中第一行为5个标准结构符号,其余31个化学有机环符号实际由5个标准结构符号衍生而来。将第一行的5个标准结构符号分别用数字1、2、3、4、5命名,其余31个对称结构符号用数字和英文字母命名。对每个标准结构符号以30°为间隔进行旋转操作,可衍生出新的表示形式(最多具有12种表示形式,如符号2和3),因此,对于这12种不同结构形式,其具有旋转不变性。因此,步骤s2中,每个输入样本的旋转副本最多为12个。

通过上述对化学有机环结构符号的旋转对称性的分析,本发明提出了一种适用于化学有机环结构符号识别方法,通过在现有的卷积神经网络中插入新层,能够针对化学有机环结构符号的旋转对称特性进行建模。引入了两种在神经网络中可以转换为层的操作,将这些操作插入到原有的卷积神经网络中,可以构建一个能够对有机环结构符号的旋转不变性进行识别并在不同方向实现权值共享的框架。两种操作或层分别为循环切片和循环池化,这些操作可能会改变小批量训练集的大小或者特征图的数量,但不会对其他网络层造成影响。

图2为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的循环切片层示意图。如图2所示,步骤s2中,循环切片层将一组输入样本的旋转副本堆叠到单个minibatch中,使minibatch的大小扩大了12倍。为了对其进行形式上的描述,令x代表输入,r表示顺时针旋转30°。那么,循环切片操作可以表示为:s(x)=[x,rx,r2x,r3x,…,r11x]t,其中我们使用每个列向量来表示不同旋转角度下所对应的副本。切片层之后的所有层将逐个处理每一个输入数据的不同旋转副本(最多12个)。

图3为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的循环池化层示意图。如图3所示,步骤s4中,循环池化层使用与排列顺序无关的池化函数(例如求平均、求最大值等)对一个输入样本的不同旋转副本的预测进行合并,从而在此过程中将minibatch的大小减少了12倍。假设x=[x0,x1,x2,x3,…,x11]t,那么该池化操作可以表示为:p(x)=p(x0,x1,x2,…,x11),其中p指示与排列顺序无关的池化函数,例如均值函数和最大值函数。

图4为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的具有旋转不变性的卷积神经网络框架示意图。如图4所示,通过在传统卷积神经网络结构输入端插入一个循环切片层,输出端插入一个循环池化层,可以使现有的网络结构具有旋转不变性。

实施例

图5为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法涉及的手写化学有机环结构符号示意图;图6为本发明实施例一种基于旋转不变性的手写化学有机环符号识别方法过程图。为了验证方法的有效性,首先要进行数据采集。

如图5所示,多名实验者受邀书写不同的化学有机环结构符号。采集得到的手写化学有机环结构符号样本被输入到改进的卷积神经网络模型,经过多步前向计算,最后输出识别结果。基于旋转不变卷积神经网络的手写化学有机环结构符号识别过程如图6所示。在输入层之后插入循环切片层,当输入具有旋转不变性特征的手写化学有机环结构符号样本时,可以得到12个不同方向的旋转副本。之后的多个卷积层和池化层将逐个处理每一个输入样本的12个旋转副本,生成12幅不同角度特征图。接下来,插入的循环池化层使用与排列顺序无关的池化函数(例如求平均、求最大值等)对一个输入样本的不同旋转副本的特征图进行合并。最后将循环池化后的特征送入全连接层,输出识别结果。

本发明提出了一种基于旋转不变性的的手写化学有机环结构符号识别方法,解决了分析化学有机环结构符号的旋转不变性、设计出一种适用于化学有机环结构符号识别的卷积神经网络、将改进的卷积神经网络应用于化学有机环结构符号识别等技术问题。

本发明的基于旋转不变性的手写化学有机环符号识别方法,通过在现有的卷积神经网络的中插入循环切片层和循环池化层,将改进的具有旋转不变特性的卷积神经网络应用于化学有机环结构符号识别,对化学有机环结构符号的旋转不变特征进行有效表征。

本发明的基于旋转不变性的手写化学有机环符号识别方法,根据化学有机环结构符号的旋转不变性特征,设计一种适用于化学有机环结构符号识别的卷积神经网络,使其能够有效地学习到化学有机环结构符号的旋转不变性特征,从而提高符号识别的准确率。

本发明的基于旋转不变性的手写化学有机环符号识别方法,提出了一种适用于化学有机环结构符号识别的卷积神经网络,可以构建一个能够对有机环结构符号的旋转不变性进行识别并在不同方向实现权值共享的框架。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1