便于模式识别的系统和方法

文档序号:6449912阅读:186来源:国知局
专利名称:便于模式识别的系统和方法
技术领域
本发明一般涉及模式识别,尤其涉及一种使用了一种便于模式识别的卷积神经网络的系统和方法。
背景技术
模式识别可以是例如以从一个笔/图形输入板输入设备捕获的键击或扫描的文件为基础的。但是许多常规的模式识别系统要求有目标语言的知识。在许多实例中,使用神经网络的模式识别系统的参数是用于一个特定的目标语言例如,英文和/或日文)的手工调整。同样地,这些模式识别系统是不容易适应利用别的用于这样的手工调整系统的语言的。而另一些常规的模式识别系统要求有暂时的输入按键的知识,因此,可以是计算复杂的。
发明简述为了使能够对本发明的一些方面有一个基本的理解,下面介绍的是本发明的一个简单概述。此概述不是对本发明的广泛的看法。它不限定本发明的识别键/关键元素或者不限定描绘本发明的范围。它唯一的目的是以一个简单形式介绍一些本发明的概念来作为后面的更多详细描述的序言。
本发明提供一个模式识别系统,它可以被利用来执行手写模式识别和/或来自扫描文件的字符识别。此模式识别系统是基于一个卷积神经网络(CNN)结构,例如,包括特征抽取层和利用交叉熵极小化的分类层训练。
与本发明一个方面相一致,模式识别系统接收一位图输入模式(例如,二维的)和提供若干概率输出。模式识别系统向输入训练数据学习而不需要语言特定的知识,临时笔划输入,笔方向的信息和/或笔划顺序。模式识别系统提供用于位像模式(类)估计的输出概率。此输出的概率可以被,例如,语言分类器,语言模式和/或分割模式利用。
该模式识别系统可以被训练利用交叉熵误差最小化。例如,此模式识别系统可以被训练用随机梯度下降极小化交叉熵误差。
特征抽取层包括特征映射的卷积层,在这里,一个特征映射充分使用相同组的系数和权重以修改所接收的输入;然而不同的特征映射利用不同组的系数,因此,特征映射可以从所接收的输入中抽取不同特征。特征抽取层的输出被连接到分类层。
分类层包括隐藏单元的完全连接层。隐藏单元的数量可以依赖,例如,对于将被学习的任务的复杂性上,训练的数量和/或质量。最后分类层提供输出概率。
本发明的另一个方面提供一个模式识别系统,该模式识别系统具有卷积层和完全连接层。此模式识别系统接收一位图输入模式(例如,二维的)和提供若干输出概率。此模式识别系统可以被训练利用交叉熵误差极小化(例如,使用随机梯度下降极小化交叉熵误差)。
卷积层包括若干特征映射,在这里一个特征映射使用相同组的可训练的参数(例如,系数或权重)来修改所接收的输入;然而,不同的特征映射使用不同组的可训练的参数(例如,系数或权)。特征映射接收至少输入模式的一部分。因此,特征映射可以从所接收的输入中抽取不同特征。卷积层的输出被连接到完全连接层。
完全连接层接收卷积层的输出和将被卷积层抽取的特征进行分类。完全连接层提供若干输出概率,输出概率包括与一个类别相联系的概率。完全连接层由若干隐藏单元组成。完全连接层可以具有自己本身组的可训练参数。
该模式识别系统可以利用交叉熵误差极小化被训练,至少部分的基于下列等式E=-ΣnΣk=1c{tnkln(ykn)+(1-tnk)ln(1-ynk),]]>在这里E是被减小的能量,n是索引模式,t是目标值,ynk是模式识别系统在单元k上对于模式n的输出,用于模式n,和k索引类(例如,用于手写数字,有10类,c=10)。这个误差等式有时被参考在文章如Kullback-Leibler发散(或者KL距离)。在一个例子里,这个交叉熵误差(E)与一个第一常量相乘。在另一个例子中,第二个常量被加到E上。更进一步的,模式识别系统可以使用随机梯度下降被训练。
该模式识别系统可以被训练以识别一字符表或一字母表的子集。例如,如果输入从图形输入板发生,该模式识别系统可以被充分利用于由一支笔的一个或两个笔划所产生的所有字符。在中文或日文字符的情况下,这对应于全部字母的少于500类的一个子集。
而本发明的另一个方面提供一个模式识别系统,该模式识别系统具有一个第一卷积层,一个第二卷积层,一个第一完全连接层和一个第二完全连接层。可选地,该模式识别系统可以包括一个处理部件。
该第一卷积层和第二卷积层抽取位像输入模式(例如,二维的)的特征。该第一完全连接层和第二完全连接层作为一个分类器工作。
该第一卷积层包括若干第一特征映射,该特征映射接收输入模式的至少一部分。该第一特征映射包括第一可训练参数以及提供与第一特征相联系的输出。该第一特征映射由可训练参数(例如,系数或权重)的小核心(例如,5×5)组成,该可训练参数乘或求和输入并得到的用于不同位置的结果。有效的,该卷积可以被看作一个可训练过滤器,该过滤器从它的输入图像中抽取一个“特征”图像。对于在输入图像中的不同空间位置(例如,当从一个位置转移到另一个位置),用于一个第一特征映射的第一可训练参数可以是相等的。
该第二卷积层接收该第一特征映射的输出。该第二卷积层包括若干具有第二特征映射的第二特征特征映射,该第二特征映射接收第一特征映射的至少一部分输出。该第二特征映射包括第二可训练参数以及提供与第二特征相联系的输出。类似地,该第二特征映射由可训练参数(例如,系数或权重)的小核心(例如,5×5)组成,该可训练参数乘以及求和输入并且得到的用于不同位置的结果。再一次,有效的,该卷积可以被看作一个可训练过滤器,该过滤器从它的输入图像中抽取一个“特征”图像。这个特征可以是底层采样,例如,该过滤器可以估计所有其它的位置。这个次采样不仅可以减少计算,而且可以减少被学习的自由参数的数目,该自由参数导致一个较小的内存面积和比较好的概括。
第一完全连接层和第二完全连接层是完全连接并且实现一个用于被第一卷积层和第二卷积层所计算的特征的分类器。该第一完全连接层可以具有可训练参数。第一完全连接层和第二完全连接层由若干隐藏单元组成。在两个完全连接层之间的隐藏单元的数目控制模式识别系统的能力。
第二完全连接层提供输出概率和可以具有可训练参数。该输出概率可以是一个与一个分类(例如,被模式识别系统识别的目标模式)相联系的概率。该模式识别系统可以利用交叉熵误差极小化被训练。例如,模式识别系统可以使用随机梯度下降极小化交叉熵误差测量被训练,以教会网络为一个类输出一个概率。
本发明的另一个方面提供一个用于模式识别系统的训练系统,具有一个模式识别系统,一个交叉熵误差计算器,一个反相传播梯度下降部件和一个可训练参数更新部件。该模式识别系统接收一个模式输入(例如,训练的模式)和提供若干类概率输出。该模式识别系统可以利用一个卷积神经网络结构。
该交叉熵误差计算器从模式识别系统和训练类信息(例如,目标类)中接收若干类概率输出。该交叉熵误差计算器计算一个至少部分根据若干类概率输出和训练类信息(例如,对象类)上的交叉熵误差。该交叉熵误差计算器因此能计算一个在该训练类信息(例如,目标类)和模式识别系统的若干类概率输出之间的差异。
反相传播梯度下降部件可以利用一个随机梯度下降运算算法(例如,即时更新)使用一个噪声或平均梯度的近似译文,以更新该训练的参数。例如,该反相传播梯度下降部件可以利用下面的等式来更新训练的参数Wt=Wt-1-ϵ∂E(W)∂W]]>这里W是一组可训练参数以及ε是一个表量常数。
可训练参数更新部件更新模式识别系统至少一部分基于关于更新训练参数的信息的训练参数,这些训练参数从反相传播梯度下降部件接收。
通过利用一组具有类分布(例如,X变换,Y变换,旋转,缩放,平行曲线变换,对角曲线变换,和/或浓化)的训练数据,训练系统可以增加模式识别系统的模式恒定性。
本发明的其它方面提供了一种用于训练模式识别系统的方法,一个具有计算机可执行部分的计算机可读介质,所述的计算机可执行部分用于便于一个模式识别训练的一个系统,和一个适合在两个或更多计算机处理之间进行传输的数据包,所述计算机处理由一个包含一组可训练参数的数据段组成,所述可训练参数用于一个至少一部分基于卷积神经网络的模式识别系统,所述一组可训练参数基于一个梯度下降算法,所述梯度下降算法利用一个所计算的熵误差。
为了实现前面所述以及相关的目的,本发明的某些例证性的方面在这里连同下面的描述和附图将被描述。然而,这些方面仅仅是指示出利用本发明原理的多种方式中的几种和本发明意旨包括所有这样的方面以及它们的等价物。本发明别的优点以及新颖性特征将由于下面的联系附图的对本发明的细节描述而变得清楚。
附图简述

图1是依照本发明一个方面的模式识别系统的结构图。
图2是依照本发明一个方面的模式识别系统的结构图。
图3是依照本发明一个方面的模式识别系统的结构图。
图4是依照本发明一个方面的可仿效的卷积和子采样的权重共享性质的装置的结构图。
图5是依照本发明一个方面的特征映射的可仿效装置的结构图。
图6是依照本发明一个方面的模式识别系统的结构图。
图7是依照本发明一个方面的使用可训练参数的模式识别系统的结构图。
图8是依照本发明一个方面的反相传播学习系统的结构图。
图9是依照本发明一个方面的用于模式识别系统的训练系统的结构图。
图10是依照本发明一个方面的说明用于训练一个模式识别系统的方法的流程图。
图11是说明依照本发明一个方面的操作环境的例子。
发明详述现在,将参考附图来对本发明进行描述,在所有的附图里相同的标记表示相同的元件。在下面的描述里,说明和提出明确的细节的目的是提供一个使对于本发明有一个充分的理解。但是,明显的,没有这些明确的细节,本发明也可以被实践。在其它的实施例中,为了便于描述本发明,公知的结构和设备以一个结构图的形式表示出来。
用在本申请的术语“计算机部件”是指一计算机相关实体,或者硬件,一硬件和软件的结合体,软件,或者执行的软件。例如,一个计算机部件可以是,但不限于一个在处理器中运行的进程,一个处理器,一个对象,一个执行线程,一个程序,和/或一个计算机。作为说明,运行在服务器上的应用程序和一个服务器都可以是一个计算机部分。一个或更多的计算机部件可以驻留在一个过程和/或执行线程以及一部分可以驻留在一个计算机和/或分布在两个或多个计算机之间。
参看图1,示出了依照本发明一个方面的一个模式识别系统100。所述模式识别系统100包括特征抽取层110和分类层120。所述模式识别系统100接收一位图输入模式130(例如,两维的)以及提供一个第一输出概率1401经由第M输出概率140M,M是一个大于或等于1的整数。所述第一输出概率1401经由第M输出概率140M可以被参考共同作为输出概率140。“位图输入模式”提出S维的,非时间输入模式。
模式识别系统100可以被利用来执行手写模式的识别和/或字符识别。例如,模式可以来自扫描文件和/或可以是二维的一笔的位图投影或一个鼠标轨线。所述模式识别系统100是基于一个卷积神经网络(CNN)结构,例如,包含特征抽取层110和分类层120。所述模式识别系统100从输入训练数据学习而不需要语言特定的知识,临时笔划输入,笔划方向的信息和/或笔划顺序。所述模式识别系统100接收位像输入模式130(例如,下降空间的29×29像素图像)。所述模式识别系统100提供输出概率140用于位像模式(类)(例如,二维)估计。所述输出概率140可以被利用,例如,被语言分类器,语言模型和/或分割模型。
所述模式识别系统100可以利用交叉熵误差极小化被训练。例如,模式识别系统100可以使用随机梯度下降极小化交叉熵误差被训练。
所述特征抽取层110可以有特征映射的卷积层组成。“卷积层”在领域里是众所周知的以及一般在神经网络部分提到,在神经网络中一组(例如,特征映射)在不同的位置充分使用相同集合的系数或权重,来修改所接收到的输入;然而不同组(例如,特征映射)使用不同集合的系数。因此,说述的组(例如,特征映射)可以从所接收的输入中抽取不同的特征。所述的特征抽取器110的输出是与分类器120相连接的。
所述分类器120可以由隐藏单元的完全连接层组成。例如,隐藏单元的数量可以依赖被学习的任务的复杂性,训练实例的数量和/或质量。这样的神经网络在本领域里是众所周知的;因此,为了简略,省略完整的描述。所述的分类层120提供输出概率140(例如,在0.0-1.0的范围里)。
例如,对于一个符号集由10个数字(0-9)组成,所述分类层120可以在0.0到1.0的范围内提供10个输出概率140。在另一个例子里,强制输出概率140的和等于1.0是可能的,但不是必要地所希望的。在另一个例子里,述出概率140的和不等于1.0-每个输出单元独立地计算相应类的概率。在这些例子中,这样做的好处是对于所有类的所有的概率是很小的,这显示输入不是一个有效的字符,或者置信度是非常低的。因此,强制和等于1.0改变梯度的计算。
当图1是说明用于模式识别系统100的部分的结构图时,它可以被理解为特征抽取器110和/或分类器120可以作为一个或多个计算机部件被执行,如所定义的术语。因而,它可以被理解为计算机可执行部件可操作的执行模式识别系统100,所述的特征抽取器110和/或分类器120可以被存储在计算机可读介质上,但依照本发明不限于此,根据本发明可以是一个ASIC(应用程序专用集成电路),CD(光盘),DVD(数字视频光盘),ROM(只读存储器),软盘,硬盘,EEPROM(电可擦编程只读存储器)和存储棒。
转到图2,依照本发明一个方面的一个模式识别系统200。所述的模式识别系统200包括卷积层210和完全连接层220。所述模式识别系统200接收位图输入模式230(例如,两维的)以及提供一个第一输出概率2401经由一个第N个输出概率240N,N是大于或等于1的整数。所述的第一输出概率2401经由所述的第N个输出概率240N可以被参考共同作为输出概率240。模式识别系统200可以使用交叉熵误差极小化被训练(例如,使用随机梯度下降极小化交叉熵误差)。
卷积层210包括若干特征映射250。“卷积层”在本领域里是众所周知的且一般指神经网络的部件,在这里所述特征映射250使用相同集的可训练参数(例如,系数或权重)以修改所接收的输入;然而不同的特征映射250使用不同集的可训练参数(例如,系数或权重)。所述的特征映射250接收输入模式的至少一部分。因此不同的特征映射250可以从所接收的输入中抽取不同的特征。卷积层210的输出与完全连接层220相连接。
完全连接层220接收卷积层210的输出以及将被卷积层210抽取的特征进行分类。完全连接层220提供若干输出概率240,所述输出概率由与类相联系的概率组成。完全连接层220包括多个隐藏单元。完全连接层210可以具有自己本身的可训练参数集。
在一个例子中,模式识别系统200利用交叉熵误差极小化被训练,至少部分的基于在下列等式E=-ΣnΣk=1c{tnkln(ykn)+(1-tnk)ln(1-ynk)---(1)]]>这里E是被极小化的能量,n是索引模式,t是目标值,ynk是模式识别系统在单元k上的输出,用于模式n,和k索引类(例如,用于手写数字,有10类,c=10)。这个误差等式有时在本领域里被指为Kullback-Leibler发散(或KL距离)。在一个例子中,这个交叉熵误差(E)与一个第一常量相乘。在另一个例子中,第二个常量与E相加。更进一步的,模式识别系统200可以被训练使用随机梯度下降。
模式识别系统200可以被训练以识别一个字符字母表或一个字母表子集。例如,如果输入从图形输入板发生,模式识别系统可以被充分利用于由一支笔的一个或两个笔划所产生的所有字符。在中文或日文字符的情况下,这相应于全部字母的不多于500类的一个子集。
所述卷积层210和/或完全连接层220可以做为一个或更多的计算机部件而被实现,如所定义的术语。
下面参考图3,依照本发明一个方面的一个模式识别系统300。所述的模式识别系统300包括一个第一卷积层310,一个第二卷积层320,一个第一完全连接层330和一个第二完全连接层340。
依照本发明的理解,模式识别系统300可以使用一个,两个或更多的卷积层和/或一个,两个或更多的完全连接层。
暂时转到图4,示出的是依照本发明的一个方面的卷积和子采样的权重共享性的可仿效的装置400。所述装置400包括输入410,一个在一第一层420上的特征映射,以及在一第二层430上的特征映射。为了说明的目的,所述装置400进一步限定问题到一维。在一个层内,每一个相连的相同数字可以具有相同值。权重不被交叉层共享。一个子采样2在所述的第一卷积层420上被图解。可以看到的是只有位置的一半被计算,且其他所有单元不被计算。换一句话说,在每一个位置计算卷积同样是可能的,卷积之后跟一平均层,平均层的作用是降低分辨率。降低分辨率的目的是使得第二层能够在一比较大的区域上结合特征。其他的优点是减少计算,减少存储面积,一个短的学习时间,和提高通用性。子采样可以在X和Y两个方向上执行。子采样也是造成表面上不可思议的由在图3中的模式识别系统300中矫正边界产生的数字29,13和4的原因。
下面参考图5,示出了依照本发明的一个方面的一个特征映射的可仿效装置500。一个第一卷积层520有5个特征。然而,尽管为了解释的目的,在第二层530上只示出了两个特征,但是第二层530可以具有很多特征。为了清楚起见,即使只描述了一个这样的连接,但第一层520的每一个模快与第二层530的每一个模块是相连的。在这样的模块连接之间没有权重共享。每一个模块连接是在图4中所描述类型的一个卷积。
如图6所示,可选地,模式识别系统300可以包括一预处理部件370。所述预处理部件370无须是可训练的。例如,所述预处理部件370可以简单的由一下降采样单元组成。换一句话说,所述预处理部件370可以是非常复杂的,例如,它可以转换笔/鼠标的输入为一个二维的适合模式识别系统300的位图。
转回到图3,模式识别系统300用于执行手写模式识别(例如,语言独立)和/或来自扫描文件的字符识别。所述模式识别系统300可以被训练识别一个字符子母表或一个子母表子集。例如,如果输入从图形输入板发生,模式识别系统可以被充分利用于由笔输入的一个或两个笔划所产生的所有字符。在中文或日文字符的情况下,这对应于全部字母的不多于500类的一个子集。
所述模式识别系统300是基于CNN结构以及模式识别系统向输入练习数据学习而不需要语言特定的知识,时间笔划输入,笔方向的信息和/或笔划顺序。模式识别系统300接收一位像输入模式350(例如,二维的,非时间的)。在一个例子中,位像输入模式350由一个从一232×232输入模式中通过任选的预处理部件370下采样的29×29位像素的图像组成。所述的位像输入模式350可以基于一个下采样图像输入板输入(例如,钢笔及输入笔轨迹)二维二元图像(例如,128×128)。所述图像可以通过使用微软GDI+图形库子程序接收,它设置二元像素从位置(X1,X2)到位置(X2,Y2),作为给定浓度的线。当所述图像被下采样时,它变为一个灰度级图像。
模式识别系统300经由一个第P输出概率360p提供一个第一输出概率3601,P是一个大于或等于1的整数。所述的第一输出概率3601经由所述的第P个输出概率360p可以被参考共同作为输出概率360。所述输出概率360可以是一个与类(例如,被模式识别系统300是别的目标模式)相联系的概率。所述输出概率360可以被例如语言分类器,语言模型及分割模型所利用。
所述第一卷积层310和第二卷积层320抽取位像输入模式350的特征。所述第一完全连接层330和第二完全连接层作为一个分类器工作。
所述第一卷积层310由若干接收输入模式的至少一部分的第一特征映射组成。所述第一特征映射包括第一可训练参数和提供与第一特征相联系的输出。第一特征映射由可训练参数(例如,系数或权重)的小核心(例如,5×5)组成,该可训练参数相乘和求和所述输入和得到的用于不同位置的结果。有效的,卷积可以被看作是一个从它的输入图像中抽取特征的可训练过滤器。对于在输入图像(例如,对于每一个位置,作为一个整体映射被转换)里的不同的空间位置,所述用于第一特征映射的第一可训练参数可以是完全相等的。
在一个例子里,所述第一卷积层310计算5个每隔一个位置跳跃输入的卷积。这样的子采样能减少所述的空间分辨率,且因此不仅减少了计算而且强制网络学习一些空间恒定性。被第一卷积层310抽取的特征主要是边缘和线交叉检测器和具有在X和Y两个方向上半数的分辨率,作为输入(例如,见图4和图5相关的描述)。在另一个例子里,所述的第一卷积层310由5个特征映射(例如,接收156个输入的第一特征映射)组成。
所述的第二卷积层320接收第一卷积层的输出。所述第二卷积320由若干具有接收第一特征映射的至少一部分的第二特征映射的第二特征映射组成。所述第二特征映射包括第二可训练参数以及提供与第二特征相联系的输出。类似地,所述的第二特征映射由可训练参数(例如,系数或权重)的小核心(例如,5×5)组成,该可训练参数相乘和求和所述输入和得到的用于不同位置的结果。再一次,有效的,卷积可以被看作是一个从它的输入图像中抽取“特征”的可训练过滤器。
在一个例子里,所述第二卷积层320除了50个从第一层卷积层310的结果所抽取的特征外与第一卷积层310相同。再次的子采样强制网络学习位置恒定性和减少计算。例如,第二卷积层320可以抽取像曲率,环,笔划终点和/或笔划交点这样的特征。在另一个例子里,所述第二卷积层320由50个第二特征映射(例如接收25个输入的第二特征映射)组成。
所述第一完全连接层330和第二完全连接层340是完全连接和实现一个分类器用于被第一卷积层310和第二卷积层320所计算的特征。所述第一完全连接层330可以具有可训练参数。
所述第一完全连接层330和第二完全连接层340由若干隐藏单元组成。在两个完全连接层之间的隐藏单元的数目控制模式识别系统300的能力。
在一个例子里,模式识别系统300用来识别英文数字(0-9)和所述第一完全连接层330包括大约100个隐藏单元。在另一个例子里,所述模式识别系统300用来识别一个或两个笔划的日文字符和所述第一完全连接层330包括大约200个隐藏单元。
所述第二完全连接层提供输出概率360。所述输出概率360可以是一个与类(例如,被模式识别系统识别的对象模式)相联系的概率。所述第二完全连接层340可以具有可训练参数。
在一个例子里,模式识别系统300用来识别英文数字,和第二完全连接层340提供10个输出概率360。在另一个例子里,模式识别系统300用来识别一个和两个笔划的日文字符以及第二完全连接层340提供大约250个输出概率360。
所述模式识别系统300可以利用交叉熵误差极小化被训练。所述交叉熵误差极小化至少一部分基于前述等式(1)(例如,Kullback-Lerbler发散)。在一个例子里,所述交叉熵误差(E)与一个第一常量相乘。在另一个例子里,一个第二常量与E相加。
例如,模式识别系统300可以被训练使用随机梯度下降极小交叉熵误差测量来教网络输出一个用于类的概率。
在一个例子里,一个模式识别系统300具有一个第一卷积层310计算5个每隔一个位置跳跃的二维位像输入模式350的卷积(见图4和图5相关的描述)。因此,所述第一卷积层310抽取5个13×13的特征。类似地,所述第二卷积层320从所述第一卷积层310的结果中抽取50个5×5的特征。所述第一完全连接层330和第二完全连接层340由100个隐藏单元组成,和实现一个用于用于被第一卷积层310和第二卷积层320所计算的特征的分类器。
这样例子中的模式识别系统300已被训练使用随机梯度下降极小化交叉熵误差测量来教网络输出用于手写数字(0-9)的类的概率。这样例子中的模式识别系统300是利用MNIST标准手写数字数据库的基准。所述的MNIST数据库由60000个用于训练的手写数字以及10000个用于检验的手写数字组成。这样例子中的模式识别系统的结果与现有系统对比,在误差的百分比上,如下面所示线性分类器12.0%K-近邻 5.0%2层(300HU) 4.7%
2层(1000HU) 4.5%2层+失真(300HU) 3.6%2层+交叉熵(800HU) 1.5%目标距离 1.1%单卷积(lenet4)1.1%大卷积+失真 0.85%SVM 0.80%提高(带有失真) 0.7%依照本发明一个方面的模式识别系统 0.65%从而,这样例子中的模式识别系统300在这个标准数据库上达到了最好的性能。
另外,所述模式识别系统300不依赖图形板暂时信息和/或笔划顺序。输入键被投影到一位图上,这样然后作为一个二维的图像位像输入模式350反馈到模式识别系统300。进一步的,模式识别系统300基于学习数据以及不依靠像在许多卷积系统中的语言中(手工)特别的知识。所述模式识别系统300可以用来识别一笔划的亚洲的字符,两笔划的亚洲字符,一笔划的日文字符,两笔划的日文字符及若干ASCII字符。
暂时转到图7,示出的是依照本发明的一个方面的使用可训练参数的模式识别系统700。所述模式识别系统700接收一个输入模式以及提供一个类概率作为至少一部分基于所述模式和可训练参数。
下面,参考图8,示出的是依照本发明的一个方面的一个反相传播学习系统800。所述的方相传播学习系统800包括一个方相传播学习部件810,它接收训练数据820(例如,基于在类概率和训练类信息之间的交叉熵误差)和提供修改的可训练的830(例如,对于一个模式识别系统)。
下面参考图9,示出的是依照本发明一个方面的一个用于模式识别系统的训练系统900。说述训练系统900包括一个模式识别系统910,一个交叉熵误差计算器920,一个反相传播梯度下降部件930和一个可训练参数更新部件940。
所述模式识别系统910接收一个模式输入(例如,训练模式)以及提供若干类概率输出。所述模式识别系统910可以利用前面所述的CNN结构。
所述交叉熵误差计算器920接收若干来自模式识别系统910的类概率输出以及训练类信息(例如,目标类)。所述所述交叉熵误差计算器920计算一个至少一部分基于若干类概率输出以及训练类信息(例如,目标类)的交叉熵误差。例如,所述交叉熵误差计算器920可以利用前面所述的等式(1)计算交叉熵误差(Kullback-Lerbler发散)。在一个例子里,所计算的交叉熵误差被第一常量相乘。在另一个例子里,一个第二常量与所计算的交叉熵误差相加。所述交叉熵误差计算器920因此可以计算一个在所述训练类信息(例如,对象类)和模式识别系统910的若干类概率输出之间的差异。
所述的反相传播梯度下降部件930可以利用一个随机梯度下降算法(例如,即时更新)来使用一个干扰或平均梯度的近似模型更新所述训练参数。例如,所述的反相传播梯度下降部件930可以利用下述等式来更新训练参数Wt=Wt-1-ϵ∂E(W)∂W---(2)]]>在这里,W是一组可训练参数以及ε是一个表量常量。
所述训练参数更新部件940更新模式识别系统910的可训练参数,该模式识别系统910至少一部分基于关于所更新的从反相传播梯度下降部件930接收到的训练参数的信息。
通过利用一组具有类训练数据具有类分布(例如,X变换,Y变换,旋转,缩放,平行曲线变换,对角曲线变换,和/或浓化)的训练数据,所述训练系统900可以增加模式识别系统910的模式恒定性。
所述的模式识别系统910,所述的交叉熵误差计算器920,所述的反相传播梯度下降部件930和/或训练参数更新部件940可以作为一个或多个计算机部件被实现,如所定义的术语。
由于前面的可仿效系统的展示和描述,参考图10的流程图,一个依照本发明的实现方法将得到一个很好的理解。然而,为了解释简易的目的,所述方法以一系列块来展示和描述,但可以理解的是本发明并不限制块的顺序,因为依照本发明,一些块可以不同顺序的发生和/或与别的块同时发生(从所展示的和这里描述的)。而且,不是所有的示出的块要求完成依照本发明的方法。
本发明可以以计算机可执行指令的一般范围下来描述,像被一个或多个部件执行的程序模型。一般的,程序模型包括例行程序、程序、对象,数据结构等执行特定任务或实现特定抽象数据类型。典型的,所述的程序模型的功能可以被结合或分配在不同具体装置中。
转到图10,示出的是依照本发明的一个方面的一个用于训练模式识别系统的方法1000。在1010,在一个训练模式上执行模式识别,此训练模式利用至少一部分基于一个具有一组可训练参数的卷积神经网络。在1020,提供若干基于一训练模式的输出概率。在1030,计算出一个由模式识别和与训练参数相联系的信息生成的输出概率的交叉熵误差。在1040,被模式识别系统利用的一组可训练参数至少一部分基于一利用所计算的交叉熵误差的梯度下降算法被更新。
可以理解的是本发明的系统和/或方法可以利用在模式识别系统里。进一步的,熟悉本领域的的技术人员将认识到本发明的系统和/或方法可以在模式识别应用的一个大量的阵列中使用,包括但不限制到手写识别系统,文件扫描仪,可选字符识别系统,个人数字助理(PDA)及图像板个人部件系统。
为了提供本发明的其他方面的附加内容,图11和随后的讨论是想提供一个简短,一般的对于一个合适的操作环境1110的描述,在这个操作环境中本发明的各个方面可以被完成。然而,本发明是在计算机可执行指令的一般范围下被描述的,例如,程序模型,该程序模型可被一个或多个计算机或其他设备所执行,熟悉本领域的技术人员将认识到本发明也可以在其它的程序模型的组合中和/或软硬件的组合中执行。然而,一般的,程序模型包括例行程序、程序、对象、部件、数据结构等执行特定任务或实现特定抽象数据类型。所述的操作环境1110仅仅是一个适合操作环境的例子而不是想提出任何限制作为本发明的功能或使用的范围。其它的公知计算机系统,环境和/或结构可以适用本发明的包括但不限制于个人电脑,手持或膝上型设备,多处理器系统,基于微处理器系统,可编程电子消费装置,网络PC,小型计算机,大型计算机,包括上述系统或设备的分布式处理环境,和相似物。
参考图11,一个用于完成本发明各个方面的可仿效环境1110包括一个计算机1112。所述计算机1112包括一个处理单元1114,一个系统内存1116,和一个系统总线1118。所述系统总线1118连接包括但不限制于所述的系统内存1116和所述处理单元1114的系统部件。所述的处理单元1114可以是任何一个各种可用的处理器。双微处理器和其他的多处理器体系结构也可以作为所述处理单元1114使用。
所述的系统总线118可以是总线结构几种类型的任何一个,包括内存总线或内存控制器,一个外部总线或内部总线,和/或一个使用可用总线体系结构的任何种类的局域总线,此总线体系结构包括但不限制于11位总线,工业标准结构(ISA),微信道结构(MSA),扩展ISA(EISA),智能电子设备(IDE),VESA局域总线(VLB),外部设备互连总线(PCI),通用串行总线(USB),高级图形接口(AGP),个人计算机存储卡国际协会总线(PCMCIA),和小型计算机系统接口(SCSI)。
所述的系统内存1116包括易失性内存1120和非易失性内存1122。基本输出/输入系统(BIOS),此系统包括基本的例行程序在计算机1112中部件之间传送信息,正如在启动期间,被存储在非易失性内存1122中。顺便说明的是,但不限于此非易失性内存1122可以包括只读存储器(ROM),可编程ROM(PROM),可擦编程ROM(EPROM),电可擦ROM(EEPROM),或闪存。易失性内存1120包括随机存取存储器(RAM),它可以作为内部缓冲存储器。顺便说明的是,但不限于此,RAM在许多形式上是可用的,如,同步RAM(SRAM),动态RAM(DRAM),同步DRAM(SDRAM),双数据速率SDRAM(DDR SDRAM),增强SDRAM(ESDRAM),同步连接DRAM(SLDRAM),和直接bus(DRRAM)。
计算机1112也包括可换/不可换,易失/非易失计算机存储介质。图11示出,例如一个磁存储器1124。磁存储器1124包括但不限制于像磁盘驱动器,软盘驱动器,磁带驱动器,Jaz驱动器,Zip驱动器,LS-100驱动器,闪存卡,或者存储棒。另外,磁盘存储1124可以单独包括存储介质也可以组合其他存储介质,包括但不限制于一个光盘驱动器,如一个压缩盘ROM设备(CD-ROM),CD可记录驱动器(CD-R Drive),CD可改写驱动器(CD-RW Drive)或一个数字化视频光盘ROM驱动器(DVD-ROM)。为了便于磁存储设备1124连接到所述系统总线1118上,典型的使用了一个可换/不可换接口如接口1126。
可以理解的是图11所描述的软件作为了在用户和在适合的操作环境1110中的基本计算机资源之间的一个中介。这样的软件包括一个操作系统1128。所述操作系统1128可以存储在盘存储器1124上,控制和分配所述计算机系统1112的资源。系统应用软件1130通过操作系统1128经由程序模型1132和存在系统存储器1116或存在盘存储器1124上的程序数据1134利用资源的管理。可以理解的是本发明可以同各种操作系统或操作系统的组合来执行。
一个用户通过输入设备1136输入命令或信息到计算机1112。输入设备1136包括但不限制于一个指示设备,如一个鼠标,轨迹球,输入笔,触摸板,麦克风,游戏杆,游戏板,卫星碟,扫描器,TV调谐卡,数码相机,数字视频相机,网络照相机及类似物。这些或其他的输入设备经由接口1138通过所述系统总线1118连接到处理单元1114。接口1138包括例如一个串行端口,一个并行端口,一个游戏端口,和一个通用串行总线(USB)。输出设备1140使用同输入设备1136相同类型的端口。因此,例如一个USB端口可以用来为计算机1112提供输入,和从计算机1112输出信息到输出设备1140。提供输出适配器1142是为了说明存在一些像监视器,扬声器和打印机在其他输出设备1140之中需要特定的适配器这类的输出设备1140。顺便说明的是所述输出适配器1142包括但不限制于在输出设备1140和所述系统总线1118之间提供了连接装置的显卡和声卡。值得注意的是,其他的设备及设备的系统都提供输入和输出性能,如远程计算机1144。
计算机1112可以在一个网络环境中操作,此网络环境使用逻辑连接到一个或多个远程计算机,如远程计算机1144。所述的远程计算机1144可以是一个个人计算机,一个服务器,一个路由器,一个网络PC,一个工作站,一个基于微处理器设备,一个对等设备或其他的一般网络节点和类似物,典型的包括一些或所有与所述计算机1112相关的元素。为了简短的目的,示出的只有一个记忆存储设备1146同远程计算机1144。远程计算机1144经一个网络接口1148逻辑连接到计算机1112且然后经通信连接1150物理连接。网络接口1148包括通信网络如局域网(LAN)和广域网(WAN)。LAN技术包括光纤分布式数据接口(FDDI),同轴电缆分布式数据接口(CDDI),以太网/IEEE1102.3,令牌环/IEEE1102.5及类似物。WAN技术包括但不限制于点对点连接,电路交换网络如综合业务数字网(ISDN)和在其上的变化出的信息包转换网络和数字用户线路(DSL)。
通信连接1150涉及连接网络接口1148到总线1118的硬件/软件。为了清楚说明,虽然通信连接1150示出在计算机1112的内部,但它也可以在计算机的外部。对于必要连接网络接口1148的硬件/软件包括内部和外部的技术,例如,包括常规电话等级调制解调器,电缆调制解调器和DSL调制解调器,ISDN适配器及以太网卡。
包括本发明的实施例已经在前面描述了,虽然不可能描述用于本发明的目的的每一个可能的部件或方法的组合,但是一个本领域普通技术人员可以认识到进一步组合和改变本发明是可能的。因此本发明意欲包含所有这样的变更,修改和落入所附加的权利要求的精神和范围的变化。此外,对于术语“包括”用在细节描述中或者权利要求中,这样的术语意欲包含在一个同在权利要求中作为一个过渡字使用时作为“包含”解释的术语“包含”相类似的方式中。
权利要求
1.一个模式识别系统,包括至少一个接收非时间输入模式的卷积层,所述卷基层由若干特征映射组成,所述特征映射接收至少一部分所述非时间输入模式,所述特征映射包括可训练参数,所述至少一个卷积层提供与从所述非时间输入模式中抽取的特征相关的输出;和,至少一个接收所述至少一个卷积层的输出的完全连接层,所述至少一个完全连接层把从所述至少一个卷积层中抽取的特征分类,所述至少一个完全连接层提供若干输出,此输出由一个与一个类相关的概率,所述模式识别系统利用交叉熵误差极小化被训练。
2.根据权利要求1所述的模式识别系统,用于特征映射的可训练参数是相等的。
3.根据权利要求1所述的模式识别系统,交叉熵误差极小化至少一部分基于下列等式E=-ΣnΣk=1c{tnkln(ykn)+(1-tnk)ln(1-ynk)}]]>这里E是被极小化的能量,n是索引模式,t是目标值,ynk是模式识别系统在单元k上的输出,用于模式n,和k索引类。
4.根据权利要求1所述的模式识别系统,被训练使用一个随机梯度下降算法。
5.根据权利要求1所述的模式识别系统,被训练识别一个笔划亚洲字符。
6.根据权利要求1所述的模式识别系统,被训练识别二个笔划亚洲字符。
7.根据权利要求1所述的模式识别系统,被训练识别一个笔划日文字符。
8.根据权利要求1所述的模式识别系统,被训练识别二个笔划日文字符。
9.根据权利要求1所述的模式识别系统,被训练识别若干ASCII字符。
10.一个模式识别系统,包括一个接收位图输入模式的第一卷积层,所述第一卷积层由若干第一特征映射组成,所述第一特征映射接收至少一部分所述位图输入模式,说述第一特征映射包括第一可训练参数,所述第一特征映射提供与从所述位图输入模式中抽取的第一特征相关的输出;一个接收所述第一特征映射输出的第二卷积层,所述第二卷积层由若干第二特征映射组成,所述第二特征映射接收至少一部分第一特征映射的输出,所述第二特征映射包括第二可训练参数,所述第二特征映射提供一个与第二特征相关的输出;一个把第二特征映射的输出分类的第一完全连接层,所述第一完全连接层提供输出;一个把第一完全连接层的输出分类的第二完全连接层,所述第二完全连接层提供若干输出,所述输出由若干与一个类相关的概率组成,模式识别系统利用交叉熵误差极小化被训练。
11.根据权利要求10所述的模式识别系统,所述第一卷积层由5个第一特征映射组成。
12.根据权利要求11所述的模式识别系统,所述第一特征映射接收156个输入。
13.根据权利要求10所述的模式识别系统,所述第二卷积层由50个第二特征映射组成。
14.根据权利要求13所述的模式识别系统,所述第二特征映射接收25个输入。
15.根据权利要求10所述的模式识别系统,所述第一完全连接层由100个隐藏单元组成。
16.根据权利要求10所述的模式识别系统,所述用于第一特征映射的第一可训练参数是相等的。
17.根据权利要求10所述的模式识别系统,交叉熵误差极小化至少一部分基于下列等式E=-ΣnΣk=1c{tnkln(ykn)+(1-tnk)ln(1-ynk)}]]>这里E是被极小化的能量,n是索引模式,t是目标值,ynk是模式识别系统在单元k上的输出,用于模式n,和k索引类。
18.根据权利要求10所述的模式识别系统,被训练使用一个随机梯度下降算法。
19.根据权利要求10所述的模式识别系统,被训练识别一个笔划亚洲字符。
20.根据权利要求10所述的模式识别系统,被训练识别二个笔划亚洲字符。
21.根据权利要求10所述的模式识别系统,被训练识别一个笔划日文字符。
22.根据权利要求10所述的模式识别系统,被训练识别二个笔划日文字符。
23.根据权利要求10所述的模式识别系统,被训练识别若干ASCII字符。
24.一个使用根据权利要求10所述的模式识别系统的文件扫描仪。
25.一个使用根据权利要求10所述的模式识别系统的光字符识别系统。
26.一个使用根据权利要求10所述的模式识别系统的个人数字助理。
27.一个使用根据权利要求10所述的模式识别系统的输入板个人计算机。
28.一个用于训练一个模式识别系统的系统,包括一个由一个卷积神经网络组成的模式识别系统,接收一个非时间输入模式和提供若干类概率输出;一个计算一个交叉熵误差的交叉熵误差计算器,此交叉熵误差至少一部分基于若干类概率输出和训练类信息;一个利用随机梯度下降算法以更新所述模式识别系统的参数的反相传播梯度下降部件,此模式识别系统至少一部分基于所述交叉熵误差;和一个更新所述模式识别系统的可训练参数的可训练参数更新部件。
29.根据权利要求28的系统,所述反相传播梯度下降部件利用下列等式来更新可训练参数Wt=Wt-1-ϵ∂E(W)∂W]]>在这里,W是一组可训练参数和ε是一个表量常量。
30.一种用于训练一个模式识别系统的方法,包括利用一个至少一部分基于一个具有可训练参数组的卷积神经网络的模式识别系统来在一个训练模式上执行模式识别;提供若干基于所述训练模式的类概率输出;计算一个至少一部分基于若干输出概率和与所述训练模式相关的信息的交叉熵误差;和,更新一组至少一部分基于一个利用所计算的熵误差的梯度下降算法的可训练参数。
31.在两个或多个便于训练一个模式识别系统的计算机部件之间传输的数据包,所述数据包包括一个数据段,包括一组用于一个至少一部分基于一个卷积神经网络的模式识别系统的可训练参数,该组可训练参数至少一部分基于一个利用一个所计算的熵误差的梯度下降算法被更新。
32.一种计算机可读介质,存储一个便于模式识别训练的系统的计算机可执行部件,包括一个模式识别部件,包括一个卷积神经网络,该卷积神经网络接收一个非时间输入模式和提供若干类概率输出;一个交叉熵误差计算器部件,该部件计算一个交叉熵误差,该交叉熵误差至少一部分基于若干类概率输出和训练类信息;一个反相传播梯度下降部件,该部件利用一个随机梯度下降算法来更新所述模式识别系统的可训练参数,该模式识别系统至少一部分基于所述交叉熵误差;和一个可训练参数更新部件,该部件更新所述模式识别系统的可训练参数。
33.一个用于模式识别系统的训练系统,包括用于输入一个非时间模式的装置;用于执行模式识别的装置,该模式识别利用一个卷积神经网络,所述卷积神经网络接收一个非时间输入模式和提供若干类概率输出;用于计算一个交叉熵误差的装置,该交叉熵误差至少一部分基于若干类概率输出和训练类信息;和用于更新所述用于执行模式识别的装置的可训练参数的装置,所述用于更新的装置利用一个随机梯度下降算法来更新所述模式识别系统的可训练参数,该模式识别系统至少一部分基于所述交叉熵误差。
全文摘要
本发明提供了一种便于模式识别的系统和方法。本发明包括一个模式识别系统,该系统具有一个使用特征抽取层和分类层的卷积神经网络。所述特征抽取层由卷积层组成以及所述分类层由完全连接层组成。所述模式识别系统可以以利用一个所计算的交叉熵误差被训练。所计算的交叉熵误差用来更新所述模式识别系统的可训练参数。
文档编号G06K9/66GK1445715SQ03120090
公开日2003年10月1日 申请日期2003年2月15日 优先权日2002年3月15日
发明者P·Y·斯马德, J·C·普拉特, D·W·斯坦克劳斯 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1