数据分类方法及装置的制作方法

文档序号：6283104阅读：237来源：国知局

专利名称：数据分类方法及装置的制作方法
技术领域：
本发明涉及一种以应用于异常检查及异常诊断系统为目的的数据分类方法及装置。

背景技术：
在现有的数据分类方法中有在专利文献1中记载的自适应共鸣理论(Adaptive Resonance TheoryART)。ART是由G.A.Carpenter和S.Grossberg在1987年提出的无教师学习网络的一种，具有将输入数据分类成多个范畴(category)的功能。
专利文献1的技术是对人的模式识别算法进行模拟的算法，具有以下特征 (1)在模式生成单元(F1)和范畴选择单元(F2)之间交换输入模式，并反复进行范畴的候补选定和候补的合理性判断来确定范畴。
(2)在合理性的判定中，利用对范畴的区域的大小进行确定的参数(vigilance parameter)来判断是否脱离了输入模式所选择的范畴的区域。
(3)若对于输入模式判断为全部的范畴不合理，则制作新的范畴。
根据这些特征，就构成可应用于各种类型的模式识别的构造。
此外，G.A.Carpenter等将ART扩展到教师辅导学习型的数据分类技术，提到了专利文献2中记载的所谓ART MAP的构造。在该技术中，通过反复进行以下步骤1～4，将输入数据分类成所赋予的范畴。
步骤1采用无教师的数据分类技术即ART分类输入数据。
步骤2将分类后的范畴(范畴A)转换成所要分类的范畴(范畴B)。
步骤3将转换后的范畴B与作为教师而赋予的范畴B进行比较。
步骤4在比较后的结果，范畴为不一致时，调整ART的参数，并选择新的范畴A。
这样，现有的数据分类技术成为可对应于各种各样的数据分类、模式识别的灵活的算法。
[专利文献1]特表昭63-501455号公报 [专利文献2]USP5214715公报然而，当将上述算法应用于检查异常或诊断异常时，存在以下所述的两个问题。第1个问题，检查或诊断的精确度将下降。其原因在于，确定范畴的区域大小的参数(vigilance parameter)相同而与范畴无关。
图2表示利用ART技术将数据进行分类后的概念图。虚线是示意地表示范畴的区域，数据被分类成3个范畴。范畴1将数据均匀地分散于范畴的区域中，而范畴2、范畴3中数据偏于区域的中心。这是因为确定范畴的区域大小的参数取相同值而与范畴无关。
在检查异常或诊断异常中，例如有位于范畴2的区域的分界附近的数据与已存在的数据相脱离而为另外的事物的情况。此时，ART的判断精确度将下降。
图3表示利用ART MAP的技术将数据进行分类后的概念图。白球作为正常情况的数据，黑球作为异常情况的数据。根据用ART将输入数据进行分类后的范畴A与作为教师而赋予的范畴B(例如“正常”、“异常”)的对应关系，来学习输入数据与范畴B的关系。在图3的例中，范畴Al～A6对应于“正常”，范畴A7～A9对应于“异常”。在该例中，虽然属于范畴A2～A5的数据成为一块，但是由于各范畴的区域都定义得小，所以由范畴A2～A5包围的区域成为不属于任何范畴的区域。这是由于为了使范畴A7与范畴A5、A6分离而将范畴A7的区域缩小，其结果，其他范畴的区域也变小的缘故。
在检查异常或诊断异常中，这种区域是无法判断其正常或异常的区域。若这种区域变多，则判断的精确度下降。
第2个问题，由于对人的模式识别的算法进行模拟，所以处理步骤数变多，受所装配硬件的限制，当要求简化处理时，将发生难以组装的情况。

发明内容
本发明的目的是鉴于所述的现有技术的问题，提供一种在应用于检查异常或诊断异常时不降低判断的精确度、且易于组装的数据分类方法及装置。
为了达到上述目的，本发明是利用计算机将自然界的多个输入数据分类成多个范畴的数据分类方法，其特征在于，预先存放范畴的原型和对范畴的区域的大小进行规定的区域确定参数；对所输入的输入数据进行标准化；选择最接近于标准化后的输入数据的范畴的原型；和根据该选择的原型与输入数据之间的距离对该原型是否合理进行评估，在判断该原型为合理时，对区域确定参数和原型中的至少一方进行校正，在判断该原型为不合理时，追加新的原型。
所述原型的评估是以输入数据与原型的距离来判断的。
此外，本发明是通过计算机将自然界的多个输入数据分类成已预先设定的多个范畴B的数据分类方法，其特征在于，存放与所述范畴B相关联的范畴A的原型、规定范畴A的区域的大小的区域确定参数和用于将范畴A转换成范畴B的范畴对应矩阵；对所输入的输入数据进行标准化；选择最接近于标准化后的输入数据的范畴A的原型；根据该选择的原型与输入数据之间的距离对该原型是否合理进行评估，在判断为该原型为不合理时，追加新的原型，反复所述原型的选择，在判断该原型为合理时，对所述区域确定参数、所述原型以及所述范畴对应矩阵进行校正；利用校正后的范畴对应矩阵，将所述选择的范畴A转换成范畴B。
在校正后的范畴对应矩阵中追加所选择的范畴A与已预先设定的范畴B的关系时，在所选择的范畴A已经与其他的范畴B相对应的情况下，拒绝对应关系的追加，且校正所述范畴A的原型以使远离所述输入数据，并对所述区域确定参数进行校正以使该区域确定参数与该范畴A的原型和该输入数据之间的距离相等。
本发明是应用了所述数据分类方法中的任意一个的数据分类装置。
本发明，其特征在于，在输入设备的运行数据后进行设备的诊断的设备诊断装置中，采用所述数据分类装置，将所述设备的运行数据输入到所述数据分类装置中，根据被分类后的范畴对设备的状态进行诊断。
或者，将所述设备的状态作为教师模式进行赋予，通过所述数据分类装置对所述设备的状态与所述设备的运行数据的关系进行学习，将未学习的运行数据输入到学习后的所述数据分类装置中，通过所述数据分类装置所输出的范畴B对机器的状态进行诊断。
根据本发明，即使在应用于检查异常或诊断异常时，由于范畴区域的大小可按每个范畴进行设定，所以使更合理的数据分类成为可能，并且不使判断的精确度降低。此外，由于处理步骤少，所以易于组装。

图1是表示本发明的实施例1的数据分类装置的结构的框图。
图2是表示现有技术的分类结果的示例的概念图。
图3是表示其他现有技术中分类结果的示例的概念图。
图4是表示实施例1的学习动作的处理流程图。
图5是表示实施例1的分类结果的概念图。
图6是表示本发明的实施例2的数据分类装置的结构的框图。
图7是表示范畴对应矩阵的示例的说明图。
图8是表示实施例2中的学习动作的处理流程图。
图9是表示实施例2中的分类结果的概念图。
图10是表示本发明的实施例3的设备诊断装置的概要的结构图。
图11是表示运行数据的一个示例的说明图图12是表示维护数据的一个示例的说明图。
图13是表示输入到实施例3的数据分类装置的输入数据的一个示例的说明图。
图14是表示实施例3的数据控制装置的数据转换的处理流程图。
图15是表示判定模式的处理顺序的图。
图中1-数据分类装置，2-数据接收装置，3-运行数据库，4-维护数据库，5-数据控制装置，6-操作终端，7-互联网，8-发电设备，9-输入数据标准化装置，10-数据读取装置，11-内部数据初始化单元，12-内部数据存放部，13-原型选择单元，14-原型评估单元，15-原型追加单元，16-内部数据校正单元，17-处理流程控制单元，18-内部数据及矩阵校正单元，19-范畴B读取单元，20-范畴转换单元，21-范畴对应矩阵存放部。

具体实施例方式 在本发明中提出将自然界中的多个输入数据分类成多个范畴的第1发明。此外，在本发明中提出将自然界中的多个输入数据分类成预先设定好的多个范畴B的第2发明。另外，在本发明中，提出利用将多个输入数据分类成多个范畴的第1发明对设备进行诊断的第3发明。而且，还提出利用将多个输入数据分类成预先设定好的多个范畴B的第2发明对设备进行诊断的第4发明。
第1发明的数据分类装置的实施方式是将从设备等接受到的多个输入数据分类成多个范畴的数据分类装置。具有内部数据存放部12，其存放对范畴的原型和范畴的区域的大小进行规定的区域确定参数；原型选择单元13，其对最接近于所读取到的输入数据的范畴的原型进行选择；和原型评估单元14，其根据原型与输入数据的相似度的距离对所选择的原型是否合理进行评估。此外，还具有原型追加单元15，其重新制作新原型；和内部数据校正单元16，其可以对区域确定参数和原型中的至少一方进行校正。
在原型评估单元14中，其特征为，若判断原型为合理，则通过内部数据校正单元16对区域确定参数和原型中的至少一方进行校正，若判断原型为不合理，则通过原型追加单元15制作新的原型。
第2发明的数据分类装置的实施方式是一种数据分类装置，其将从设备等接受到的多个输入数据分类成预先设定好的多个范畴B。具有内部存放部12，其存放与该范畴相关联的范畴A的原型和对范畴A的区域的大小进行规定的区域确定参数；和范畴对应矩阵存放部21，其存放用于将范畴A转换成范畴B的范畴对应矩阵。此外，还具有原型选择单元13，其对最接近于所读取到的输入数据的范畴A的原型进行选择；和原型评估单元14，其根据原型与输入数据的相似度对选择的原型是否合理进行评估。而且，还具有原型追加单元15，其重新制作范畴A的新原型；内部数据及矩阵校正单元18，其可以对区域确定参数和原型中的至少一方、及范畴对应矩阵进行校正；和范畴转换单元20，其利用范畴对应矩阵将该选择的范畴A转换成范畴B。
内部数据及矩阵校正单元18，其特征在于，当对由范畴对应矩阵所选择的范畴A与预先设定好的范畴B的关系进行追加时，若所选择的范畴A已经对应了其他的范畴B，则拒绝对应关系的追加。当拒绝了追加时，将对范畴A的原型进行校正，以使远离所述输入数据，并对该区域确定参数进行校正，以使该区域确定参数为该范畴A的原型与该输入数据的距离相等。
第3发明的设备诊断装置的实施方式，其特征在于，在设备的诊断系统中具有第1发明的数据分类装置，且将该设备的运行数据输入到所述数据分类装置，并根据分类后的范畴对设备的状态进行诊断。
第4发明的设备诊断装置的实施方式，其特征在于，具有第2发明的数据分类装置，且将设备的状态作为教师模式来进行赋予，并通过所述数据分类装置对设备的状态与该设备的运行数据的关系进行学习。接着将未学习的运行数据输入到学习后的所述数据分类装置中，通过该数据分类装置所输出的范畴B对机器的状态进行诊断。
[实施例1] 图1是表示实施例1的数据分类装置的结构的框图。该实施例是将输入数据分类成几个范畴的数据分类装置。其并未将预先所要分类的范畴作为教师数据来进行赋予，是无教师分类。
该数据分类装置构成为，具有输入数据标准化单元9；数据读取单元10；内部数据初始化单元11；数据存放部12；原型选择单元13；区域合理性评估单元14；原型追加单元15；内部数据校正单元16；和处理流程控制单元17。
在输入数据标准化单元9中，将输入数据进行标准化。由于输入数据一般为温度、流量、电压、信号的强度等物理量，所以，所要分类的输入数据的种类会根据特性在值的大小和变化量上产生偏差。在输入数据标准化单元9中，为了校正这些偏差，利用分类的输入数据的最大值和最小值将数据进行标准化。
数据读取单元10，根据处理流程控制单元的指令，对标准化后的输入数据进行读取。内部数据初始化单元11，将仅在数据分类处理的初期被执行的、存放在内部数据存放部12的数据，根据输入数据进行初始化。
在内数据存放部12中，存放各范畴的原型和对各范畴的区域进行确定的参数(区域确定参数)。原型是各范畴的代表例，并与范畴1对1地对应。当输入数据为N维数据时原型也成为N维数据。区域确定参数是对各范畴的区域进行规定的参数，并按每一个范畴进行定义。
原型选择单元13，其功能在于，将输入数据与内部数据存放部12中所存放的原型进行比较，并对最接近于输入数据的原型进行选择。哪一个原型接近于输入数据，将通过输入数据与原型的距离来进行判断。即将存放在数据存放部12的原型与输入数据的距离进行计算，并选择距离最近的原型。
在原型评估单元14中，对由原型选择单元13所选择的原型是否合理进行评估。所选择的原型在存放于内部数据存放部12中的数据之中，不一定就是最接近输入数据或足够接近的原型。在原型评估单元13中，将输入数据与所选择的原型j的距离rmj、与区域确定参数Rj进行比较，当满足(1)式时，判断所选择的原型j为合理，确定将输入数据进行分类的范畴。此外，同时实施内部数据校正单元16的处理。
rmj≦Rj...(1) 当不满足(1)式时，实施原型追加单元15的处理。当原型追加单元15通过原型评估单元14判断出所选择的原型为不合理时，追加原型。由于原型必须是代表输入数据的，所以如所述那样，将追加输入数据附近的数据作为新的原型。并且，也可追加与输入数据完全相同的数据来作为原型。
内部数据校正单元16，是在所选择的原型为合理时通过对原型和区域确定参数进行校正，使数据的分类特性变得更为合理的单元。由此，内部数据校正单元16，由区域确定参数校正单元161和原型校正单元162构成。在区域确定参数校正单元161中，将范畴领域中所包括的数据的分布状态与区域确定参数进行比较，当对于数据的分布而言，区域确定参数偏大时，将减小区域确定参数。在原型校正单元162中，将原型接近输入数据。接近程度可通过参数进行调整。原型是多个输入数据的代表例，输入数据是逐次被输入的。通过进行将原型接近输入数据的处理，可以更合理地设定原型。
在处理流程控制单元17中，对数据分类装置中的处理流程进行控制。主要功能是在最初读取到输入数据时，执行内部数据初始化单元11；和根据自原型评估单元14输出的范畴的变化，来判断反复处理的终止。
接着对实施例1的处理流程进行详细说明。在该实施例中，输入数据是2维数据，但即使为3维以上的数据也是同样的处理。
图4表示实施例1的数据分类装置的动作流程。在此，将输入数据(X，Y)及教师范畴设为M组。此外，该数据分类方法是通过将M组的数据进行反复并多次赋予来合理地分类数据的方法。在该实施例中，将反复次数设为K次。以下对处理流程进行说明。
Step(步骤)0将输入数据(X，Y)进行标准化。例如，数据X为温度、数据Y为流量，并设定分别变化到了500℃～560℃、2.5t/h～3.5t/h。在Step0中，X、Y都是以最小值为0.1、最大值为0.9的方式进行标准化的。
Step 1将作为内部数据的原型和区域确定参数进行初始化。所谓原型的初始化处理是制作新的原型。在该实施例中，制作了原型(Xj，Yj)(j＝1～5)。由于初期的原型最好尽量分散，所以利用随机数将x、y分别制成了0.1～0.9的范围内的x、y的组合。原型，例如为(0.45，0.28)、 (0.78，0.31)、(0.15，0.17)、(0.54，0.39)、(0.78，0.12)。
区域确定参数Rj由(2)式制成。
K_R是常数，N是输入数据的维数。其表示在N维空间中将各坐标以从0到1所围起的超立方体的最长的长度进行1/(2×K_R)分割的分辨率。在该实施例中，由于K_R＝0.1、N＝2，所以R的初始值为0.1414。
Step 2在反复次数第1次时，读取输入数据编号m＝1的数据。
Step 3将读取到的输入数据(x，y)与原型(Xj，Yj)的距离Rmj用式(3)进行计算。
rmj＝√((x—Xj)2+(y—Yj)2) ...(3) 距离rmj选择最小的j作为原型的候补。
Step4对原型的合理性进行评估。具体而言，将rmj与成为基准的区域确定参数Rj进行比较，若rmj比Rj小则评估为所选择的原型为合理，并执行Step 6的处理。若原型为不合理则执行Step 5的处理。
Step 5在此重新追加一个原型。所追加的原型由式(4)、(5)来确定。
X’j＝kp×xm (4) Y’j＝kp×ym (5) 在此kp取参数1附近的值。kp＝1时，原型与输入数据xm，ym相等。
Step 6通过在Step 4中将原型评估为合理时的处理，按照输入数据校正原型。具体而言，由式(6)、(7)进行校正。
X’j＝Xj+kw×(xm—Xj) ...(6) Y’j＝Yj+kw×(ym—Yj) ...(7) 在此，kw为参数，并取0～1范围的值，通过kw的值来确定以怎样的程度按照输入数据进行校正。当kw＝1时，是指将原型校正到与输入数据完全一致为止。此外，当kw＝0时，是指不进行校正。
kw的值设为按照数据分类处理的进行而分阶段地进行变化。具体而言，在处理的初期过程中增大kw值，以按照输入数据使原型进行变化的方式，当处理进行到某一程度时减小kw的值，以使原型不再变化。
Step 7根据包含于所选择的范畴的区域中的数据，对区域确定参数Rj是否合理进行判断。在此，求出所选择的范畴的原型与该范畴内所包含的输入数据的距离rmj的最大值rmj_max，将与Rj的比率F_r由式(8)进行计算。
F_r＝rmj_max/Rj ...(8) 预先设定好的阈值F_r_th与由式(8)所求出的F_r进行比较，若(9)式成立，则将区域确定参数Rj判断为合理，进入Step 9。若(9)式不成立，则将区域确定参数Rj判断为不合理，进入Step 8。
F_r≧F_r_th ...(9) Step 8将区域确定参数Rj按照(10)式进行变更。
Rj＝rmj_max/F_r_th ...(10) Step 9判断是否将输入数据M组全部进行了处理，若存在未处理的输入数据，则将下一个数据在Step 3中进行处理。若对所有的输入数据进行了处理，则进入Step 10。
Step 10当反复次数已实施到所设定的K次，或数据分类处理为收敛时，将结束处理。数据分类的收敛判断是通过对输入数据进行分类后的范畴是否前一次(第k-1次)与本次(第k次)相同来进行判断。若所分类的范畴至少一个以上发生了改变，则判断为处理未收敛；若所分类的范畴全部相同，则判断为处理收敛。
在实施例1中，虽从k＝1实施了如图4所示的处理，但也可以为在k达到某一值之前，不实施Step 7～Step 8的处理，而从k超过某一值开始，实施Step 7～Step 8的处理流程。
图5是表示实施例1的分类结果的概念图。输入数据与图2相同，数据被分类成3个范畴。但是，表示范畴2及范畴3的分界的虚线与图2相比，被设定于接近数据之处。这是因为在图4的Step 7中对范畴的区域的大小进行规定的Rj的合理性进行判断后的结果，判断Rj为过大，在Step8中将Rj的值减小来进行了校正的缘故。
如此，在本实施例中，表示范畴的分界的虚线由于是根据数据的分布状态一齐被设定的，所以不会如图2那样，数据偏于区域的中心。即，针对所赋予的输入数据如实地对范畴的区域进行确定。
其结果，通过该分类方法，可以更准确地捕获数据趋势的不同。例如，图5的点A，虽与所分类的数据相比趋势不同，但利用现有的分类方法(图2)，由于被分类成至此所发生的范畴2，所以并未能捕获到其趋势的变化。另一方面，点A，由于范畴的分界设定得更合理，所以被分类成新的范畴(范畴4)，从而可以捕获数据的趋势的变化。
因此，当将该实施例的分类方法应用于检查异常或诊断异常时，可提高判断的精确度。此外，由于该实施例的处理与现有的方法相比进行了简化，所以即便受所装配硬件的限制而要求简化处理时，组装也变得容易。
[实施例2] 接着，对本发明的实施例2进行说明。该实施例是使输入数据所对应的范畴预先进行学习的数据分类方法。在此，作为实施例1的分类结果的范畴与使预先学习的范畴并非必须1对1地对应。在此，将作为实施例1的分类结果的范畴定义为范畴A、预先学习的范畴定义为范畴B来进行说明。
图6是表示实施例2的数据分类装置的结构的框图。由于实施例2的结构要素有许多与实施例1相同，所以，在此以与实施例1的不同点为重点进行说明。在实施例2中新追加的结构要素为范畴B读取单元19；范畴转换单元20；以及范畴对应矩阵12。此外，实施例1的内部数据校正单元16由内部数据及矩阵校正单元18所替代。
范畴B读取单元19是对预先要学习的数据(教师数据)的范畴B进行读取的单元。与输入数据读取单元10相同，通过处理流程控制单元17对数据的读取时刻进行控制。
范畴转换单元20是将范畴A转换成范畴B的单元。在此，范畴A与在实施例1中将数据进行了分类的范畴相同，其将几个类似数据分类成一个组。在范畴A中虽赋予了范畴编号，但其编号本身并无意义。另一方面，范畴B指的是人。当将该数据分类方法应用于诊断异常时，范畴B，例如分配为“正常”、“异常1”、“异常2”等状况。
为了将范畴A转换成范畴B，而利用表示了范畴A与范畴B的对应关系的范畴对应矩阵。在范畴对应矩阵存放部21中存放范畴对应矩阵。
图7中表示范畴对应矩阵的示例。在该例中，范畴B为“正常”、“异常1”、“异常2”三种。范畴A为范畴1～10十种。多个范畴A对应于一个范畴B。此外，各范畴一定对应于1个范畴B，而不会对应于2个以上的范畴。通过利用该范畴对应矩阵，若赋予范畴A则可转换成范畴B。
内部数据及矩阵校正单元18，对存放于内部数据存放部12的内部数据和存放于范畴对应矩阵存放部21的范畴对应矩阵进行校正。
所校正的内部数据是原型和区域确定参数，与实施例1的内部数据校正单元16相同。但是校正方法与内部数据校正单元16不同。在内部数据及矩阵校正单元18中，如图7所示，若对应于范畴A则对内部数据进行校正，以使范畴B不会成为2个以上。具体的校正算法将在后述中说明。
范畴对应矩阵的校正是以范畴A与范畴B的关系总与最新的输入数据的分类结果相一致的方式进行校正的。由于对应于各输入数据的范畴B是作为教师数据而被赋予的，所以不会改变。但是，当原型或区域确定参数变化时，即便输入数据相同，范畴A也有变化的可能性。因此，当范畴A改变时，将逐次地校正与范畴B的对应关系。
接着，对实施例2的动作进行说明。在实施例2中具有学习模式和判断模式两种模式。学习模式是指赋予输入数据和范畴B(教师数据)，并以将输入数据分类成范畴B的方式进行学习的动作模式。判断模式是只赋予输入数据，并对将输入数据进行分类的范畴B进行判断的动作模式。并且，输入数据与实施例1同样，为2维数据(x，y)。
图8中表示学习模式的处理流程。用图中的虚线所包围的部分是与实施例1的处理流程不相同的部分。以不同的部分为中心来说明处理流程。
Step 0～5将输入数据进行标准化，且将原型等的内部数据进行初始化，并确定对输入数据进行分类的范畴A的原型。
Step 6-1将输入数据进行分类的范畴A与作为教师数据而被赋予的范畴B的关系追加到范畴对应矩阵中。但是，在所追加的范畴A与范畴B的组合中，当所选择的范畴A已经记录有与其他的范畴B的对应关系时，拒绝追加。此外，当范畴A与范畴B的对应关系已经被记录在矩阵中时，不进行修正。
Step 6-2原型的校正将根据是否由Step 6-1拒绝了追加而处理将不同。当Step 6-1未拒绝追加时，由式(6)、(7)对原型进行修正。当拒绝追加时，意味着将输入数据进行分类的范畴A不合适。因此，有必要对原型进行校正，以使对象的输入数据不会被分类成所分类后的范畴A。具体而言，由式(11)、(12)对原型进行校正。
X’j＝Xj—kw×(xm—Xj) ...(11) Y’j＝Yj—kw×(ym—Yj) ...(12) 在(11)、(12)式中，kw>0时，原型将向远离输入数据的方向进行校正。kw的值越大，该程度越大。并且，kw＝0时，原型将不变。
Step 7Rj的合理性判断将根据(9)式的成立的与否以及是否拒绝追加而不同。当(9)式成立、且不存在拒绝追加时，判断为合理，进入Step9。当(9)式不成立、或存在拒绝追加时，将判断为不合理，进入Step 8。
Step 8在存在拒绝追加时，意味着将输入数据进行分类的范畴A不合适。因此，有必要对区域确定参数进行校正，以使对象的输入数据不会被分类成所分类后的范畴A。具体而言，由式(13)进行校正。
Rj＝rmj ...(13) 此外，当不满足(9)式时，由(10)式校正Rj。
Step 9～10对是否反复处理进行判断，若不需要反复，则进入Step11。当Step 10为止的处理全部结束时，M个全部的输入数据被分类成某一范畴A，各范畴A与范畴B的对应关系将被记录到范畴对应矩阵中。
Step 11利用范畴对应矩阵将范畴A转换成范畴B。转换数据是M个输入数据。当作为矩阵利用了图7的示例时，若将某一输入数据的范畴A设为范畴3则所对应的范畴B为异常1，范畴3将转换成异常1。
通过以上处理，可将M个的输入数据分类成作为教师数据而赋予的范畴B。
并且，在Step 6-1～Step 8的处理中，若除去与范畴对应矩阵相关联的处理，则与实施例1的Step 6-1～Step 8的处理相同。在实施例2中，虽从k＝1实施了如图8所示的处理，但也可以为在k达到某一值之前，不实施与范畴对应矩阵相关联的处理，只进行实施例1的Step 6～Step 8的处理，而从k超过某一值开始，追加与范畴对应矩阵相关联的处理的处理流程。
接着，参照图15对判断模式进行说明。对判断1个输入数据的情况进行说明。
Step 21将内部数据设为学习模式结束的状态。
Step 22读取输入数据。
Step 23用与学习模式的Step 3相同的算法选择范畴。
Step 24用与学习模式的Step 4相同的算法判断范畴的合理性。
若为合理，则判断输入数据的范畴A为具有所选择的范畴的范畴A并进入Step 25。若为不合理，则判断输入数据的范畴A为新的范畴并进入Step 25。
Step 25用与学习模式的Step 11相同的算法将范畴A转换成范畴B。但是，当输入数据的范畴A为新的范畴时，由于范畴对应矩阵中未记录对应关系，所以范畴B成为不确定。
对实施例2的效果进行说明。图9中表示以学习模式将数据进行分类后的结果。图9的输入数据及教师数据与图3的示例相同。在图3的输入数据中被分类成范畴A2～A5的四个范畴A，但是在图9的输入数据中被分类成范畴A2的一个范畴A。
在现有的方法中，由于确定范畴的区域大小的区域确定参数是全部范畴中所共通的，所以，若将某个范畴的区域确定参数减小则全部的区域确定参数变小，而将范畴不必要地分类得过细。若以判断模式进行新的数据诊断时的数据处于由图3的范畴A2～A4所包围的区域，则在现有的技术中无法判断是异常还是正常(不确定)，而成为使判断精确度降低的主要原因。
但是，由于在实施例2中，区域确定参数按每一个范畴进行定义，在Step 7、Step 8中，按每一个范畴进行校正，所以，不存在将范畴不必要地分类得过细的问题。其结果，在实施例2中，如图9所示，由于数据在合理的区域中被分类，所以，不存在判断结果不确定的问题，而提高判断的精确度。此外，由于范畴的数量减少，从而也有在组装时能将所需要的存储器容量减少的效果。因此，即便在对所装配的硬件的存储器容量存在限制时，组装也容易进行。
[实施例3] 接着，对本发明的实施例3进行说明。实施例3是利用了本发明的实施例2的数据分类装置的发电设备的远程诊断系统。
图10中表示实施例3的结构。该实施例由发电设备8a～8n和监视中心所构成，发电设备8a～8n和监视中心通过互联网7连接。
发电设备8a～8n分别由汽涡轮发电机81、控制装置82以及数据发送装置83所构成。汽涡轮发电机由压缩机、燃烧器、涡轮以及发电机构成。将压缩机的压缩空气送入燃烧器，并与燃料混合，在燃烧器中进行燃烧。通过燃烧所产生的高压气体使涡轮旋转来进行发电。
在控制装置82中，根据电力要求，对汽涡轮发电机的输出进行控制。此外，利用设置在汽涡轮发电机81中的传感器对汽涡轮发电机81的运行数据进行测量。在该实施例中，以一秒间隔对作为运行数据的吸气温度、燃料投入量、涡轮排气温度、涡轮旋转数、发电机发电量等的状态量进行了测量。在数据发送装置83中，将由控制装置82所测量到的运行数据经由互联网7发送到监视中心。
在监视中心接收经由互联网7所接收到的发电设备8a～8n的运行数据，并对发电设备8a～8n的状态进行监视。监视中心由数据接收装置2、运行数据库3、维护数据库4、数据控制装置5、数据分类装置1a～1n以及操作终端6构成。
数据接收装置2，将所接收到的数据传送到各数据库及数据控制装置5。自发电设备8a～8n发送的运行数据，传送到数据控制装置5的同时传送到运行数据库3。维护信息传送到维护数据库4。此外，维护人员从便携式终端所输入的维护信息也传送到维护数据库4。
运行数据库3，将自数据接收装置传送到的运行数据按每一个发电装备8a～8n进行存放。图11是表示运行数据库中存放的数据的一个示例的说明图。测定项目是吸气温度、燃料投入量、涡轮排气温度、涡轮旋转数、发电机发电量等的状态量，并以1秒间隔进行记录。此外，记录有这些测定数据的其它运行模式。运行模式是以对应于“启动运行”、“额定运行”等的数值进行记录的，在图11的示例中，记入有对应于“额定运行”的“0”。而且，除了从发电设备传送的数据以外还存储有数据分类装置1a～1n的分类结果。分类结果有两种。一个记录有数据分类装置内部的范畴A的编号。另一个是如“正常”、“异常A”等那样的机器的状态(范畴B)，同样记录有对应于状态的编号。
维护数据库4存放从数据接收装置2传送到的维护信息。在维护数据库4中记录有维护人员所进行的维护信息。在图12中表示维护数据库中所存储的维护信息的一个示例。在图12的示例中，实际的维护作业如下在9:50由监视发出警报、并确认异常。在10:30维护人员到达现场、并开始维护作业。在10:45交换部件之后实施汽涡轮发电机的试运行。在11:30确认对异常进行修复、并结束维护作业。
在数据控制装置5中，将运行数据及维护数据用尺寸、运行模式进行分类，并加工成可输入到数据分类装置1a～1n的形式。图13中表示所加工后的数据的示例。关于该数据的分类/加工方法的详述将在后面说明。此外，在数据分类装置中具有推定模式、学习模式以及准备模式。在数据控制装置5中，进行适合于模式的输入数据的控制。
在操作终端6中输入数据控制装置5的模式切换指令。此外，可将记录在运行数据库3或维护数据库4中的信息、或由数据分类装置1a～1n所分类的结果输出到监视器画面上。
数据分类装置1a～1n，在推定模式下、根据从数据接收装置20传送到的运行数据对发电设备8a～8n的状态进行诊断。诊断结果被传送到运行数据库3。在学习模式中利用存放于运行数据库3及维护数据库中的信息，对运行数据与发电设备的状态的关系进行学习。此外，准备模式既不进行学习也不进行推定。该模式是在设置新的地点(site、サイト)时学习所需要的数据不存在时的模式。这些模式可按每一个诊断装置1a～1n进行分别设定。在操作终端6中进行模式的设定。
接着，对监视中心的动作进行说明。由于数据分类装置1a～1n，实际上的动作模式为学习模式及推动模式两种，所以按学习模式、推动模式的顺序进行说明。如上所述，学习模式、推动模式虽可按每一个地点个别地进行设定，但在此，以多个地点全部是学习模式的情况或全部是推定模式的情况为例进行说明。
在学习模式中，利用存放于运行数据库3及维护数据库中的信息，对运行数据与发电设备的状态的关系进行学习。但是，无法将这两数据库中所存放的信息原样地输入到数据分类装置1a～1n中。在此，在数据控制装置5中，将运行数据及维护信息转换成输入到数据分类装置1a～1n中的数据形式。
图14中表示转换成数据分类装置的输入形式的处理流程。并且，在以下的说明中，测量项目仅作为图11中所示的5个项目(DATA1～DATA5)。
在步骤111中，将全运行数据采用地点和运行模式进行分组，并确定各组的数据的取样间隔。数据的分组，例如，若设“地点1”～“地点3”的三个地点、运行模式为“启动模式”、“额定模式”、“停止模式”的三个模式，则运行数据可合计分组为9个组。数据取样间隔根据运行模式而不同。在该实施例中，将运行数据的变化少的“额定模式”设为1分钟间隔，此外的模式设为1秒间隔。
在步骤112中，从步骤111中所分类的组中选择一个组。
在步骤113中，在步骤112中所选择的组中使用该数据并按每一个DATA1～DATA5的测量项目来计算最大值及最小值。例如，若设“地点1”的“额定运行”模式的数据为100时间段，则各项目的数据个数为6000个。由最大值、最小值为6000个的数据进行计算。并且，步骤113中所计算出的最大及最小值是按每一个地点存储到数据控制装置5内。
在步骤114中，利用由步骤113所求出的最大值及最小值标准化数据。关于该方法以DATA1为例进行说明。DATA1的数据个数为M个，并将第m个的测量值设为data1(m)。此外，将M个数据中的最大值及最小值分别设为Max_1、Min_1时，标准化后的数据Ndata_1(m)由式(14)来进行计算。
Ndata_1(m)＝α+(1—α)×(data_1(m)—Min_1)/(Max_1—Min_1) ...(14) 式中，α为(0≤α<0.5)的常数，由式1数据在[α，1-α]的范围内被标准化。在该实施例中设α＝0.2。
在步骤114中，所制成的Ndata_1(m)～Ndata_5(m)的5个项目的数据成为输入数据a，并被输入到数据分类装置1a～1n中。
在步骤115中将机器状态数据进行转换后制作范畴B的数据。在维护数据库4中记录有机器的状态。例如若作为状态设有“正常”、“异常A”、“异常B”的三种，则分别转换成如“1”、“2”、“3”那样的编号数据。但是，并非为在维护数据库4中以所确定的间隔记录有设备的状态。因此，按照输入数据a的时间间隔加工数据。通过这样对时间的间隔进行修正，就可以获得同一时刻的运行数据与此时的设备状态相对应的数据。
在步骤116中，针对在步骤111中所分类的全部的组进行判断是否执行步骤113～步骤115的处理。若存在剩余的组，则对这些组所对应的数据执行步骤113～步骤115。当结束了对全部的组的处理时则结束。
通过以上的处理，仅将在步骤111中所分类的个数的输入数据与此时的范畴B组成对。它们将分别输入到不同的数据分类装置1a～1n中。
接着，对数据分类装置1a～1n的动作进行说明。在数据分类装置1a～1n中，对输入数据和范畴B的关系进行学习。输入数据、范畴B都为M个。在该实施例中，将M组的数据顺序地输入到数据分类装置1a～1n中。因为关于学习M组的输入数据与范畴B的关系的算法在实施例2中已进行了详细说明，所以在该实施例中省略说明。一旦学习结束，则在数据分类装置1a～1n内的存储区域中保存获得学习结果的原型。
接着，对推动模式的动作进行说明。在推定模式中，根据自数据接收装置2以每分钟进行传送的运行数据对发电设备8a～8n的状态进行诊断。自数据接收装置2所传送到的数据通过数据控制装置5进行加工，并传送到数据分类装置1a～1n中。
在数据控制装置5中，存储有用于按每一个地点对数据进行标准化的最大值及最小值。因此，自数据接收装置2所传送到的数据通过学习模式的步骤114的处理被瞬间地数据转换，并输入到数据分类装置1a～1n中。由于在数据分类装置1a～1n中存储学习模式下所获得的原型，因而以实施例2的推定模式中所说明的执行顺序对范畴A及发电设备的状态(范畴B)进行推定。所推定出的范畴A及发电设备的状态被输出到操作终端6的监视器画面上。此外，也可保存到运行数据库3中。
而且，在实施例3中，利用了实施例2的数据分类装置，但也可利用实施方式1的数据分类装置。
权利要求
1.一种数据分类方法，通过计算机将自然界的多个输入数据分类成多个范畴，其特征在于，
预先存放范畴的原型和对范畴的区域的大小进行规定的区域确定参数；
对所输入的输入数据进行标准化；
选择最接近于标准化后的输入数据的范畴的原型；和
根据该选择的原型与输入数据之间的距离对该原型是否合理进行评估，在判断该原型为合理时，对区域确定参数和原型中的至少一方进行校正，在判断该原型为不合理时，追加新的原型。
2.根据权利要求1所述的数据分类方法，其特征在于，
所述原型的评估是以输入数据与原型的距离来判断的。
3.一种数据分类方法，通过计算机将自然界的多个输入数据分类成已预先设定的多个范畴B，其特征在于，
存放与所述范畴B相关联的范畴A的原型、规定范畴A的区域的大小的区域确定参数和用于将范畴A转换成范畴B的范畴对应矩阵；
对所输入的输入数据进行标准化；
选择最接近于标准化后的输入数据的范畴A的原型；
根据该选择的原型与输入数据之间的距离对该原型是否合理进行评估，在判断该原型为不合理时，追加新的原型，反复所述原型的选择，在判断该原型为合理时，对所述区域确定参数和/或所述原型、以及所述范畴对应矩阵进行校正；
利用校正后的范畴对应矩阵，将所述选择的范畴A转换成范畴B。
4.根据权利要求3所述的数据分类方法，其特征在于，
在校正后的范畴对应矩阵中追加所选择的范畴A与已预先设定的范畴B的关系时，在所选择的范畴A已经与其他的范畴B相对应的情况下，拒绝对应关系的追加，且校正所述范畴A的原型以使远离所述输入数据，并对所述区域确定参数进行校正以使该区域确定参数与该范畴A的原型和该输入数据之间的距离相等。
5.一种数据分类装置，将多个输入数据分类成多个范畴，其特征在于，具有
内部数据存放部，其存放范畴的原型和对范畴的区域的大小进行规定的区域确定参数；
原型选择单元，其选择最接近于读取到的输入数据的范畴的原型；
原型评估单元，其根据所述原型与输入数据的距离来评估该原型是否合理；
原型追加单元，其重新制作原型；和
内部数据校正单元，其能对所述区域确定参数和所述原型进行校正，
所述原型评估单元，在判断原型为合理时，通过所述内部数据校正单元对该区域确定参数和该原型中的至少一方进行校正，在判断原型为不合理时，通过所述原型追加单元制作新的原型。
6.一种数据分类装置，将多个输入数据分类成预先设定的多个范畴B，具有
内部数据存放部，其存放与所述范畴B相关联的范畴A的原型和对范畴A的区域的大小进行规定的区域确定参数；
范畴对应矩阵存放部，其存放用于将范畴A转换成范畴B的范畴对应矩阵；
原型选择单元，其选择最接近于读取到的输入数据的范畴A的原型；
原型评估单元，其根据所述原型与所述输入数据的距离来评估该原型是否合理；
原型追加单元，其重新制作范畴A的原型；
内部数据及矩阵校正单元，其校正所述区域确定参数、所述原型以及所述范畴对应矩阵；和
范畴转换单元，其利用所述范畴对应矩阵，将所述选择的范畴A转换成范畴B，
在所述内部数据及矩阵校正单元中，当对所述范畴对应矩阵追加所选择的范畴A与已预先设定的范畴B的关系时，在所选择的范畴A已经与其他的范畴B相对应时，拒绝对应关系的追加，且对所述范畴A的原型进行校正以使远离所述输入数据，并对该区域确定参数进行校正以使所述区域确定参数与所述范畴A的原型和该输入数据的距离相等。
7.一种设备诊断装置，输入设备的运行数据后进行设备的诊断，其特征在于，
具备权利要求5所述的数据分类装置，
将所述设备的运行数据输入到所述数据分类装置，根据被分类后的范畴来诊断设备的状态。
8.根据权利要求7所述的设备诊断装置，其特征在于，
所述设备的运行数据按每一个测量项目计算最大值及最小值，并利用所求出的最大值及最小值对数据进行标准化。
9.一种设备诊断装置，输入设备的运行数据后进行设备的诊断，其特征在于，
具备权利要求6所述的数据分类装置；
将所述设备的状态作为教师模式进行赋予，通过所述数据分类装置对所述设备的状态与所述设备的运行数据之间的关系进行学习，将未学习的运行数据输入到学习后的所述数据分类装置中，通过所述数据分类装置所输出的范畴B来诊断机器的状态。
10.根据权利要求9所述的设备诊断装置，其特征在于，
所述设备的运行数据按每一个测量项目计算最大值及最小值，并利用所求出的最大值及最小值对数据进行标准化。
全文摘要
本发明提供一种数据分类方法及装置，为将多个输入数据分类成多个范畴的数据分类装置。具有原型选择单元(13)，其选择与读取到的输入数据最接近的范畴的原型；和原型评估单元(14)，其对所选择的原型是否合理进行评估。在所选择的原型为不合理时，具有追加原型的原型追加单元(15)。而在所选择的原型为合理时，具有内部数据校正单元(16)，其可按照每个范畴将对其范畴的区域的大小进行规定的区域确定参数和原型中的至少一方进行校正。由于范畴的区域的大小可以按每个范畴进行设定，所以使合理的数据分类成为可能，并当应用于检查异常及诊断异常时可以提高判断的精确度。从而提供一种在应用于检查异常及诊断异常时不会降低判断的精确度、且易于组装的数据分类装置。
文档编号G05B23/02GK101364269SQ20081012980
公开日2009年2月11日申请日期2008年8月7日优先权日2007年8月8日
发明者堀嘉成, 山田昭彦, 吉田卓弥, 后藤仁一郎申请人:株式会社日立制作所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：堀嘉成;山田昭彦;吉田卓弥;后藤仁一郎
技术所有人：株式会社日立制作所
我是此专利的发明人

上一篇：基于模型的传感器故障检测和隔离的系统和方法
上一篇：参考电压电路的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。