信息处理方法和设备的制作方法

文档序号：2819700阅读：191来源：国知局

专利名称：信息处理方法和设备的制作方法
技术领域：
本发明涉及与分类方法有关的信息处理方法和设备，该分类方法用于把图象、声音和字符之类的模式分成类别。
本发明还涉及适合于识别图象、声音和字符信息的信息处理方法和设备。
在模式识别的先有技术方法中，已知一种使用神经网络的识别方法。神经网络的一大特点在于可提供一种以错误反向传播算法为代表的高效学习算法。由于这一特点，已在广泛的模式识别领域采用神经网络。
模式识别的另一方法是，用分类树逐步把模式分成类别的方法。例如，在JP-B-6-52537中公开的模式识别系统中，特征轴被编号，并按照号码分类这些轴。
还知道一种根据特征变量的主耦合的分类方法。一般说来，使用特征变量主耦合提供的结果，要好于逐一使用特征轴的结果。
然而，上述先有工艺技术有下列缺点。
1.可对其使用神经网络的特征变量的范围在10阶以内，并且当输入变量包括较高阶的变量时，需要某种类别预分离或字符抽取。此外，当进行象类别预分离或字符抽取之类的预处理时，就可能在预处理期间带入错误，并且即使以高精度建造神经网络，最终识别率也不高。
2.可对其使用分类树的特征变量的范围亦在10阶以内，并且当较高阶的特征变量要被处理时，实际上不可能建立分类树。
3.在实际的模式识别中，未处理数据的特征变量的阶在100与1000之间。这样，不可能使用现有的神经网络和分类树，它们实际上只允许将10阶用于实际的模式识别。
本发明包括一个分级预处理步骤，用于分级地预处理输入学习模式；和一个分类树建立阶段，用于建立一个基于在分级预处理步骤中处理的学习模式之上的分类树。其结果是，即使输入变量有高阶特征，也可高效率地获得高识别系数。
通过在分级预处理步骤中逐步退化学习模式的特征变量，本发明获得了高效分类。
本发明包括一个发展变量判别步骤，用于在分类树建立步骤中根据较高分级结构与较低分级结构之间的关系来选择变量；并且根据发展变量判别步骤的结果向较低分级结构而发展退化变量，以获得高效分类。
本发明用建立的分类树去识别输入模式，以便高效地获得高识别系数。
本发明根据建立的分类树来建立一个识别模板，并用该模板识别输入模式，以便高效地获得高识别率。
本发明通过输入手写字符模式作为输入模式，允许以高识别系数高效地识别手写字符。
本发明通过输入光读字符模式作为输入模式，允许以高识别系数高效地识别光读字符模式。
本发明通过输入声音模式作为输入模式，允许以高识别系数高效地识别声音。

图1表示在本发明的一个实施例中用于建立一本模式识别字典的方法。
图2表示该实施例的信息处理设备结构的方块图。
图3表示本实施例所用的神经网络的结构。
图4表示该实施例的模式识别字典建立过程中流的流程图。
图5表示一种学习模式。
图6表示一种分级学习模式。
图7表示该实施例的一种分类树建立过程。
图8表示该实施例的一种分类树，和图9表示一种先有技术神经网络的应用。
参照附图，解释本发明的优选实施例。
实施例1图2表示一个应用了本发明模式识别方法的信息处理设备的结构。
一个模式识别设备包括一个模式输入装置201，一个显示装置202，一个中央处理机(CPU)203，和一个存储器204。
模式输入装置201包括一个用于联机字符识别的数字化转换器，在该转换器上用指示笔输入的字符或图形的坐标数据被传送到CPU203。模式输入装置不限于数字化转换器和指示笔的组合，而可以用一个扫描器(用于输入二进制模式数据)或一个麦克风(用于输入声音模式)来代替指示笔，只要它能够输入一个要被识别的模式即可。显示装置202可显示由模式输入装置201输入的未处理的模式数据以及由CPU203识别的结果。CPU203可识别输入模式，并且根据存储器204中所存储的控制程序执行一个示于流程图中的过程，这将在下面来描述，以及控制全部装置。存储器204存储一个识别程序和一个由CPU203使用的字典，还存储由识别程序使用的变量参数和在识别过程中产生的数据。
图1表示本实施例中一种模式识别字典的建立方法和一种模式识别方法。号码101表示一种未处理的学习模式；号码102表示一种分级预处理，用于把未处理的学习模式传送到神经网络；号码103表示一种由该神经网络处理的分级学习模式；号码104表示分类树的建立，以建立一个基于分级学习模式的分类树；号码105表示发展变量判别，它在分类树建立期间被分类树的建立所使用的；以及号码106表示一个最终分类树。
在本实施例中，输入是未处理学习模式，输出是分类树。
参照图3至7，解释本发明的操作。
将绘于一个16×16网格上的10个不同的数字‘0’至‘9’假定为输入模式的类别。图5示出了一个‘0’输入模式。假设为建立字典而输入的学习模式包括‘0’至‘9’，每个类别包括100个模式。即，为每一个类别建立100个模板。从这些学习模式建立的模板由LTi，j代表(在学习模板i，j中，i是表示一个类别的一个后缀，且0≤i≤9；和j是表示一个模板号码的一个后缀，且1≤j≤100)。
根据上述假设，可构成一个如图3所示的四分级结构的神经网络。图3中的四分级结构分别包含2×2，4×4，8×8和16×16个神经细胞。
如图4的流程图所示，本实施例的模式识别字典建立过程是通过两个步骤来执行的，即，一个神经网络发展阶段和一个分类树建立阶段。各阶段逐一解释如下。
(1)神经网络发展阶段按照图3的最下层16×16个神经细胞来输入学习模板。假设在输入模式(LTi，j)的白色部分，神经细胞是断开的；而在黑色部分，神经细胞是接通的。(在下面的描述中，黑色和神经细胞接通，以及白色和神经细胞断开，都可互换使用。)神经网络的结构是很简单的。即，如果在下层中的一个2×2神经细胞组上至少有一个接通的神经细胞，则向上层以常规方式处理输入模式，在最接近的上层中相应的神经细胞被接通。在神经网络发展过程中处理图5所示的一个学习模板，以建立一个包含第一层至第四层的神经网络，如图6所示。
输入模式的特征空间形成一个256阶的超立方体网格(2256)。它在第三层被退化成264，在第二层退化成216，和在第一层退化成24。
神经网络的结构/规则不限于上述情况。
(2)分类树建立阶段全部学习模板(LTi，j)(10个类别，每个类别有100个模式)，在神经网络发展阶段(1)中被发展成图3所示的神经网络。建立分类树是从上(第一)层到下(第四)层进行的，与发展神经网络相反。
一个根节点是从图3的最高层(第一层2×2)上面的虚拟神经细胞开始的。
象发展学习模板(LTi，j)一样，在图3的最高阶层(2×2)中的至少一个神经细胞是接通的。(除了当全部白色的学习模板出现时，在最高阶层(2×2)中的神经细胞不是都被断开)。因此，对全部学习模板(LTi，j)来说，虚拟最高阶神经细胞的活动是接通的。
因为最高阶层(2×2)有24＝16个状态(更准确地说，有15个状态，因为没有全部断开的状态，如上述解释)，故从该根节点扩展出16个分支(见图7)。
对每个分支中出现的学习模板(LTi，j)数进行计数。随后根据结果处理分支。
(1)不出现学习模板(LTi，j)删除该分支。
(2)在学习模板(LTi，j)中只出现某个类别(例如‘1’)的模板如果分支被确定，则类别将被唯一地确定，且该分支被确定为一个叶子，并被赋与一个类别号码(例如‘1’)。
(3)不出现上述的(1)和(2)情况，即，混合地出现多个类别的模板该分支被确定为一个节点，以继续建立分类树。
图7表示上述处理的一个结果。通过表示图3的最高阶层(第一层)的神经细胞的触发状态来表示分支状态。(黑色代表接通，白色代表断开)。
现有类别类型用X表示的分支相当于情况(1)，即“不出现学习模板(LTi，j)”，且被删除。(严格说来，因为已知不存在全白色模式，故最左边的分支不从根扩展。)在从左端起第8个分支中，只出现类别‘1’的学习模板。这相当于情况(2)，即“在学习模板(LTi，j)中只出现某个类别(例如‘1’)的模板”，并且它成为一个叶子。
在从左端起第12个分支中，出现类别‘2’、‘4’、‘5’和‘6’的学习模板。这相当于情况(3)，即“不出现上述的(1)和(2)情况，即，混合地出现多个类别的模板”，并且它成为一个节点。
现在描述一种从节点建立分支的方法。
在从节点建立分支中，希望建立一个最有效的分支。最有效意味着，当发展分支时可得到关于类别的最多的信息。
假设从节点发展的分支限于从节点中接通状态神经细胞向较低层发展的那些分支。例如，对图7中从左端起第12分支来说，自图3第一层中左顶部和右底部的三个神经细胞选出一个神经细胞，并且为那些神经细胞下面的神经细胞的状态，即图3第二层的较低4个神经细胞，发展分支。
结果是，可大大减少发展分支所需的计算时间。这样的约束根本不损害分类树的分类功能。
现在解释在发展神经细胞时，用于从节点内接通状态神经细胞中选择最有效神经细胞的一种方法。
假设在一个节点内出现的学习模板(LTi，j)中具有类别号码i的学习模板数用Ni表示，且在该节点内出现的学习模板总数用N表示，则在该节点内出现各个类别的几率Pi用Pi＝Ni/N表示，其中N=Σi=09Ni]]>因此，在获得节点信息时的一个熵被表达成可选择该节点中的一个接通状态的节点，并可计算从其中发展分支时熵值的降低。
如上所述，在向较低层发展一个神经细胞时的分支数是16。学习模板(LTi，j)分配给16个分支的方式可用发展的分支中出现的学习模板(LTi，j)数Ni，b来表示，其中i表示类别号码，b表示分支号码。在获得各分支信息时的熵被下式给出其中Nb=Σi=09Ni,b]]>表示诸分支中出现的学习模板(LTi，j)的总数。
进入各个分支的几率被下式给出NbN]]>因为N与式(1)中N相同，故当发展分支时平均熵值由下式给出这样，熵值的平均减小由下式给出式(4)除以分支数的商数，即可表示当分支被发展时的分类效率。
一个具有式(5)最大值的神经细胞被选择，且分支被发展。
不是只发展一个神经细胞，而是分支可为一群神经细胞而发展。
在这种情况下，式(5)中分支数等于神经细胞数×16。(严格说来，分支数等于神经细胞数×15，因为在较低层中的神经细胞不可能都被断开。)在本实施例中，由式(5)表示的值被用作在发展分支时表示分类效率的值，而除了式(5)以外的其他值可用作一种函数，以表示在参考文献“分类和回归树”中所述“Gini标准”的分支发展效率。
当确定了要发展的一个神经细胞或一组神经细胞时，诸分支被发展，且叶子和节点被建立。当全部最终成为叶子时，分类树的建立即被完成。
图8表示实际建立的分类树的内容。
图8表示图7详情，删除了略去的分支。图8中有圆圈的分支表示它们是叶子。
因为除了叶子以外的全部分支都变成节点，故这些分支被进一步深入发展。在图8中，只对从右端起第三个节点说明分支进一步发展的结果。在从右端起第三个节点中，三个类别‘1’、‘7’和‘9’共存，故需要发展分支。假设在从右端起第三节点中，要发展的第一层中的神经细胞在发展变量判别步骤中被确定成第一层内的右顶神经细胞。然后，对右顶神经细胞状态按照图7中那样来发展24＝16个分支，并且按照上述条件(1)至(3)，使一些分支被删除，一些分支成为叶子，和一些分支成为节点。
那些成为节点的叶子应当进一步发展分支，并且全部分支端最终成为叶子。
在图8中，为简化通过重写第一层和第二层，来表示从右端起第三个节点的发展结果。实际上，这些状态相当于图3所示神经网络的第一层中的四个神经细胞和第二层中的四个右顶神经细胞。
实际识别处理，可以沿按上述方式建立的分类树进行，也可以使分类树建立的叶子转变成模板形式来进行。
实施例2在实施例1的神经网络发展阶段(1)中，神经结构/规则被设置如下如果较低层2×2神经细胞的2个或多个神经细胞被接通，则上层的一个神经细胞被接通，而其它神经细胞被断开。
在这种情况下，下述事情并非永远正确只有接通状态的神经细胞信息才按照实施例1中那样来退化。因此，在分类树建立阶段(2)中，应当选择要发展的一个神经细胞或一组神经细胞，包括断开状态的神经细胞。它是可以用与实施例1相同的方式实现的。
这样，对神经网络结构/规则的限制基本上为零，并且只需要保证一定的连续性。
例如，对于图7的分支状态，实施例1中的规则是较低的四个神经细胞的最左边神经细胞被断开，而其它的则被接通；本实施例的规则是从左端起直至第五个神经细胞被断开，而其它的则被接通。
在图7的状态阵列中可以任意设置断和通的边界，因为规则/映象的连续性是有保证的。
权利要求
1.一种包括下列步骤的信息处理方法分级地预处理一种输入学习模式；和根据所述分级预处理步骤中处理的学习模式，建立一个分类树。
2.根据权利要求1所述的信息处理方法，其中所述的分级预处理步骤可逐步地退化学习模式的特征变量。
3.根据权利要求2所述的信息处理方法，其中所述的建立步骤包括根据上分级结构层与下分级结构层之间的关系选择一个变量，并且根据该选择的结果向下分级结构层发展被退化的变量。
4.根据权利要求1所述的信息处理方法，其中输入模式是通过使用建立的分类树识别的。
5.根据权利要求1所述的信息处理方法，其中一个识别模板是根据建立的分类树建立的，并且输入模式是通过使用该模板识别的。
6.根据权利要求4所述的信息处理方法，其中输入模式是手写字符模式。
7.根据权利要求5所述的信息处理方法，其中输入模式是一种手写字符模式。
8.根据权利要求4所述的信息处理方法，其中输入模式是一种光读字符模式。
9.根据权利要求5所述的信息处理方法，其中输入模式是一种光读字符模式。
10.根据权利要求4所述的信息处理方法，其中输入模式是一种声音模式。
11.根据权利要求5所述的信息处理方法，其中输入模式是一种声音模式。
12.根据权利要求4所述的信息处理方法，其中识别结果是在一个显示装置上显示的。
13.根据权利要求5所述的信息处理方法，其中识别结果是在一个显示装置上显示的。
14.根据权利要求4所述的信息处理方法，其中要识别的模式是由一个图形输入板输入的。
15.根据权利要求5所述的信息处理方法，其中要识别的模式是由一个图形输入板输入的。
16.根据权利要求4所述的信息处理方法，其中要识别的模式是由一个扫描器输入的。
17.根据权利要求5所述的信息处理方法，其中要识别的模式是由一个扫描器输入的。
18.根据权利要求4所述的信息处理方法，其中要识别的模式是由一个麦克风输入的。
19.根据权利要求5所述的信息处理方法，其中要识别的模式是由一个麦克风输入的。
20.一个信息处理设备，包括分级预处理装置，用于分级地预处理一个输入学习模式；和分类树建立装置，用于根据所述分级预处理装置处理的学习模式建立一个分类树。
21.根据权利要求20所述的信息处理设备，其中所述的分级预处理装置包括用于逐步退化学习模式特征变量的装置。
22.根据权利要求21所述的信息处理设备，其中所述的分类树建立装置包括用于根据上分级结构层与下分级结构层之间的关系选择一个变量的装置，并且根据所述选择装置的结果向下分级结构层发展被退化的变量。
23.根据权利要求20所述的信息处理设备，还包括识别装置，用于通过使用建立的分类树来识别输入模式。
24.根据权利要求20所述的信息处理设备，还包括识别装置，用于根据建立的分类树建立识别模板，和通过使用该模板来识别输入模式。
25.根据权利要求23所述的信息处理设备，其中输入模式是一种手写字符模式。
26.根据权利要求24所述的信息处理设备，其中输入模式是一种手写字符模式。
27.根据权利要求23所述的信息处理设备，其中输入模式是一种光读字符模式。
28.根据权利要求24所述的信息处理设备，其中输入模式是一种光读字符模式。
29.根据权利要求23所述的信息处理设备，其中输入模式是一种声音模式。
30.根据权利要求24所述的信息处理设备，其中输入模式是一种声音模式。
31.根据权利要求23所述的信息处理设备，其中识别结果显示于一个显示装置上。
32.根据权利要求24所述的信息处理设备，其中识别结果显示于一个显示装置上。
33.根据权利要求23所述的信息处理设备，其中要识别的模式是由一个图形输入板输入的。
34.根据权利要求24所述的信息处理设备，其中要识别的模式是由一个图形输入板输入的。
35.根据权利要求23所述的信息处理设备，其中要识别的模式是由一个扫描器输入的。
36.根据权利要求24所述的信息处理设备，其中要识别的模式是由一个扫描器输入的。
37.根据权利要求23所述的信息处理设备，其中要识别的模式是由一个麦克风输入的。
38.根据权利要求24所述的信息处理设备，其中要识别的模式是由一个麦克风输入的。
全文摘要
建立一棵分类树，它允许直接识别输入模式，例如图像或声音，无需附加处理，例如对有高阶特征变量的未处理模式数据进行的预处理；信息处理方法和设备可进行分级预处理，以分级预处理某种学习模式，可根据分级预处理所处理的学习模式，建立一棵分类树，并可用该分类树进行识别。
文档编号G10L15/08GK1122928SQ95102599
公开日1996年5月22日申请日期1995年10月27日优先权日1994年10月28日
发明者吉井裕人申请人:佳能株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吉井裕人
技术所有人：佳能株式会社
我是此专利的发明人