一种设备安全等级分类方法与流程

文档序号:11520409阅读:753来源:国知局
一种设备安全等级分类方法与流程

本发明涉及电厂设备安全等级评测分类领域,具体涉及一种设备安全等级分类方法。



背景技术:

火电厂设备的运行状态,对火电厂的安全运行具有至关重要的作用。实时地实现火电厂设备安全等级分类,可以判断设备当前安全状态、辅助预测电厂设备中存在的潜在风险,以及判断可能导致的危险,从而实施合理可行的安全对策措施,指导事故预防。可见,实现对设备的状态进行客观的安全等级分类,是完善设备故障诊断体系的前提,是辅助检修的重要手段,也是实现设备状态检测的重要组成部分。因此,形成一套科学的火电厂设备安全等级评价方法,对火电厂设备状态进行安全等级分类,具有重要的现实意义。

安全分类属于安全评价的范畴,常用的安全评价的方法主要有三种:

1、定性评价

定性评价方法,对系统中各种危险因素的严重程度进行“定性”、“量化”,实现对系统的危险性进行全面分析。其中量化值表示系统危险的严重程度,常用的量化方法例如:逐项赋值评分法,简称评分法。评分法根据评价对象,确定安全评价的项目以及各个项的危险重要程度,逐项分析,最终确定总分。

该方法依赖专家的知识和经验来确定各项的重要程度,在实际应用中具有很大的局限性,一方面各项的权重很难确认,且权重系统很难得到公众的认可;另一方面各项权重的确认需要大量人力、物力的投入。

2、定量评价

定量评价方法用精确的数学方法求得系统的事故概率,将事故概率与一定的安全指标进行比较评价系统的安全水平。其中一种技术为计算事故概率,典型案例:1972年麻省理工学院拉斯姆教授组织70位专家花费一年时间,耗资300万美元,对核电站进行安全评价。另一种技术为层次分析法(analytichierarchyprocess,ahp),将复杂决策问题分解成层次结构,通过分析各影响、组成因素的重要程度来进行评价。

通过计算事故概率的技术实现系统定量评价,缺陷显而易见:投入巨大且广泛应用性弱。对于使用ahp方法实现系统的定量评价,《关于ahp中判断矩阵矫正方法的研究》(系统工程理论与时间,1997年第17卷第6期)中提出,在实际应用时该方法依赖经验和技巧进行修正,缺乏相应的科学理论和方法。

3、模糊评价

模糊评价方法基本思想属于定性评价,仍要依靠人脑处理模糊概念的能力,依靠专家群体的知识和经验。采用模糊数学方法,利用模糊矩阵等方式实现对子系统和多因素的综合评价。

模糊评价方法仍需依靠专家的知识和经验,在实际应用中具有很大的局限性。

我国电力行业的安全评价工作目前尚处于起步阶段。1995年,我国结合电力企业安全管理的经验,引入安全评价体系制定了针对火电厂的安全检测表及安全评价标准,《中国华北电力集团公司监察部》(火力发电厂安全性评价,中国电力出版社,1995)。该评价标准现已广泛应用于火电厂安全评价中,但是此标准体系只针对电厂的大修情况,而对于火电厂实时的评价,目前国内外尚处于起步阶段,造成了无法实时实现设备的安全等级分类。

针对以上现象,亟需发明一种新的方法,实时地实现设备的安全等级评价,从而辅助发现设备的潜在风险,预测设备的危险程度,为提前维修提供基础保障。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种智能可靠的设备状态安全等级分类技术。本发明在smote算法的基础上,通过多次抽样技术,改善样本分布,解决了分类样本的不平衡问题、降低样本的不平衡率。本发明基于svm分类器,建立多维指标的特征与设备安全等级的复杂非线性关系,建立设备的安全等级分类模型。由于svm在数据不平衡的情况下效果不理想,本发明在数据处理层面进行改进,降低数据的不平衡率,发挥了支持向量机模型的优势。

本发明提供了一种设备安全等级分类方法,依次包括如下步骤:

1)训练安全分类模型,包括如下步骤;

步骤1.1:综合处理设备在不同时间下已有的专家评价结果,得到设备不同工况下的安全等级,从而建立设备安全等级库;

步骤1.2:选取训练数据,提取安全特征;

步骤1.3:对提取完安全特征的训练数据进行样本smote抽样;

步骤1.4:对抽样处理后的样本进行预处理;

步骤1.5:采用非线性支持向量机分类模型在预处理后的训练数据的基础上建立设备的安全等级分类模型;

2)实时预测设备安全等级,包括如下步骤:

步骤2.1:检测设备运行,实时获取设备的实时运行数据;

步骤2.2:提取实时运行数据的安全特征向量y=(y1,y2,...ym),其由m维数指标构成,维数与训练数据一致;

步骤2.3:对提取的实时运行数据采用与步骤1)中的步骤4一致的数据预处理方式进行预处理,得到预处理后的实时运行数据;

步骤2.4:基于预处理后的实时运行数据,使用训练好的安全等级多分类器,预测实时数据安全等级分类。

进一步地,步骤1.1具体步骤为:

(1)设定设备安全等级:

每个设备的安全等级分为3个类别,安全类别分别为:a类,b类,c类,其中安全级别大小关系为:

a<b<c

a类代表该设备不安全,b类代表该设备处于基本安全状态,c类代表该设备非常安全;

(2)获取设备的安全等级:

获取设备在各个时刻下由n个专家评定的安全等级,假设时刻t下,设备的安全等级评价结果如下式所示,为安全等级评价向量,其中li代表第i个专家对该设备的评价结果;

l=(l1,l2,...li...ln)(li∈(a,b,c)

将评价结果转化为数值形式,建立安全等级和数值间的一一映射关系,即

((a->1),(b->2),(c->3))

(3)标记设备的安全类型:

通过如下公式对安全等级评价向量进行计算,将n个专家的评价结果进行平均化并取整,得到时刻t下设备的安全类型数值s',并根据安全等级和数值间的映射关系式得到安全等级标记,然后标记设备在t时刻的安全类型:

其中round函数为对变量进行四舍五入取整;

通过上述步骤(1)-(3)标记各个设备在不同时刻下的安全等级,建立设备的安全等级库。

进一步地,步骤1.2具体步骤为:

(1)选取训练数据

查询设备安全等级库,选取有安全标记的设备作为研究对象,并获取相关的历史数据作为训练数据;

(2)提取设备安全特征

提取训练数据的安全特征,构建设备安全特征向量;选取与设备安全运行相关的关键参数,通过专家法计算指标,构建表征设备安全的特征空间,其中t时刻下设备的特征向量为:x=(x1,x2,...xm),其代表m维数指标构成的安全特征。

进一步地,步骤1.3具体步骤为:

(1)计算两类样本的不平衡率:

计算少数类和多数类样本的比例,得到样本的不平衡率imbalancerate,用来衡量样本的不平衡情况,imbalancerate计算公式如下,num1为少数类样本数目,num2为多数类样本数目:

(2)判断不平衡率是否超过阈值:

设定不平衡率的阈值θ1,判定样本是否不平衡,若不平衡率大于阈值,说明样本平衡不需抽样;否则说明样本不平衡,需进行抽样,进行步骤(3);

(3)对样本中的少数类样本进行smote抽样:

选定少数类样本中的目标样本,假定某目标为样本s,搜索其m近邻样本,在近邻中随机选择k个样本n1,n2,...nk,在样本s与k个样本间进行随机插值,构造如下所示的样本,作为少数类样本的新样本,假设随机选择的样本为ni,则新的样本yi为:

其中为0与1之间的随机数;

(4)抽样结束判断。

进一步地,步骤1.4具体步骤为:

对抽样处理后的样本进行预处理为数据集归一化处理,对于数据集的各个维数数据,采用如下公式进行归一化处理后将数据统一归一到[0,1]之间的数据范围内,消除不同维数数据的数量级差别,避免因数据数量级差别较大而产生的误差:

其中,x代表原始样本的某维度,xmin代表该维度数据的最小值,xmax代表该维度数据的最大值,x'为样本归一化处理后的数据。

进一步地,步骤1.5中所述建立设备的安全等级分类模型通过一对多方式构建分类器svm1,一对一的方式构建svm2,设备的安全状态为a、b以及c类型,步骤如下:

(1)构建svm1

通过一对多方式构建分类器svm1区分a与非a类,即将a类样本作为一类,而b类和c类当做另外一类,构建分类器svm1;

(2)构建svm2

为了区分b类和c类,需要建立b类、c类的二分类器,则直接通过一对一的方式构建svm2;

对于任意给定的设备特征向量,首先使用分类器svm1,判断是属于a类还是非a类,若是a类,则得到样本的预测结果a;否则,则继续使用分类器svm2,判断是b类还是c类。

进一步地,步骤2.4的具体步骤为将归一化后的实时数据代入训练好的两个svm分类器,若分类器svm1预测y为a类,则预测y的安全等级结果a,否则,将其带入svm2进一步分类,若分类器svm2预测y为b类,则得到y的安全等级结果为b类,否则,则得到y的安全等级结果为c类。

本发明的设备安全等级分类方法,可以实现:

1.本发明能实时评估、预测设备的安全状态,方便追踪设备的健康运行状况,实时掌握、知晓设备是否存在危险以及危险程度,辅助设备安全运行、提高设备的可靠性。

2.本发明通过smote方法抽样避免了样本不平衡问题带来的分类器模型性能差、甚至无用的问题,克服了传统的机械复制样本带来的过拟合问题,提高了分类器模型的准确率和实用性。

3.本发明建立的安全等级模型为基于多参数的非线性模型,挖掘了设备指标对设备安全性的影响作用,揭示指标与设备安全之间隐含的复杂因果关系和条件关系,从而实现设备的安全等级分类。

4.本发明降低了人工参与力度,人工只集中在前期建立设备安全等级库,改变了人工跟踪设备状态进行评价以实现安全等级分类的方式,一旦完成建模,便,可实时、自动实现设备安全等级评估。

5.本发明采用多次循环抽样的方法进行样本抽样,在数据处理层面进行改进样本数目,循环方式抽样相比单次抽样,能产生更多新的样本,且更好地平衡样本之间的不平衡率。

6.本发明构建的安全分类模型为基于支持向量算法建立的非线性模分类模型的,相比神经网络算法,准确率、泛华能力以及运算速度等方面具有优势。

附图说明

图1为训练安全分类模型的步骤流程图

图2为基于smote的抽样算法流程图

图3为建立多分类器的结构示意图

图4为实时预测设备安全等级的流程图

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明是一种实时评估、预测设备安全等级分类的方法,它基于设备历史数据,结合了smote和svm,建立设备安全等级库,构建表征设备安全的特征,使用smote循环抽样的方法改进样本的不平衡情况,采用svm分类算法建立特征向量与安全等级之间的关系,实现设备的安全分类。该方法主要包括训练安全分类模型和实时预测设备安全等级两个过程。

图1为本发明训练安全分类模型的流程图,整个训练过程主要包括以下步骤:

步骤1:建立设备安全等级库。

综合处理设备在不同时间下已有的专家评价结果,得到设备不同工况下的安全等级,从而建立设备安全等级库。

(1)设定设备安全等级

每个设备的安全等级分为3个类别,安全类别分别为:a类,b类,c类。其中安全级别大小关系为:

a<b<c(1)

a类代表该设备不安全,b类代表该设备处于基本安全状态,c类代表该设备非常安全。

(2)获取设备的安全等级

获取设备在各个时刻下由n个专家评定的安全等级。假设时刻t下,设备的安全等级评价结果如式(2)所示,为安全等级评价向量,其中li代表第i个专家对该设备的评价结果。

l=(l1,l2,...li...ln)(li∈(a,b,c)(2)

为了便于计算,将评价结果转化为数值形式,建立安全等级和数值间的一一映射关系,即

((a->1),(b->2),(c->3))(3)

(3)标记设备的安全类型

通过如下公式(4)对安全等级评价向量进行计算,将n个专家的评价结果进行平均化并取整,得到时刻t下设备的安全类型数值s',并根据安全等级和数值间的映射关系式(3)得到安全等级标记,然后标记设备在t时刻的安全类型。

其中round函数为对变量进行四舍五入取整。

通过以上过程,标记各个设备在不同时刻下的安全等级,建立设备的安全等级库。

优选地,设备安全等级分类的方法,采用对专家评价结果平均化的思路,消除不同专家评价结果不一致的现象。

步骤2:选取训练数据、提取安全特征。

(1)选取训练数据

查询设备安全等级库,选取有安全标记的设备作为研究对象,并获取相关的历史数据作为训练数据。

(2)提取设备安全特征

提取训练数据的安全特征,构建设备安全特征向量。选取与设备安全运行相关的关键参数,通过专家法计算指标,构建表征设备安全的特征空间。t时刻下设备的特征向量为:x=(x1,x2,...xm),其代表m维数指标构成的安全特征。

步骤3:样本smote。

对提取完特征的训练数据进行样本smote抽样。smote算法的优点是:增加新的不存在的样本,而非随机复制样本,在一定程度上避免分类器过度拟合。对少数类样本在邻居样本中进行线性插值产生新的少数样本,降低样本在数量上的不平衡。

图2为本发明基于smote的抽样算法流程图,具体步骤如下:

(1)计算两类样本的不平衡率。

计算少数类和多数类样本的比例,得到样本的不平衡率imbalancerate,用来衡量样本的不平衡情况。imbalancerate计算公式如下,num1为少数类样本数目,num2为多数类样本数目。

(2)判断不平衡率是否超过阈值。

设定不平衡率的阈值θ1,判定样本是否不平衡。若不平衡率大于阈值,说明样本平衡不需抽样;否则说明样本不平衡,需进行抽样,进行步骤(3)。

优选地,本发明根据设定的样本不平衡率阈值自动判断是否进行抽样,有利于降低人工成本。

(3)对少数类抽样。

对样本中的少数类样本进行smote抽样。具体方法为:选定少数类样本中的目标样本,假定某目标为样本s,搜索其m近邻样本,在近邻中随机选择k个样本n1,n2,...nk,在样本s与k个样本间进行随机插值,构造如下所示的样本,作为少数类样本的新样本。例如随机选择的样本为ni,则新的样本yi为:

其中为0与1之间的随机数。

(4)抽样结束判断。

对新的样本集合采用步骤(1)、步骤(2),计算新样本集合的不平衡率,并判断新样本集合不平衡率是否超阈值。统计抽样的循环次数,并判断抽样次数是否超过阈值θ2。即抽样结束的条件为:不平衡率超过阈值,且循环次数超过阈值。若满足以上条件则结束抽样,否则转入步骤(3)进行抽样并不断循环判断是否结束抽样。

优选地,本发明设置了循环进行smote抽样的设置,根据上一次抽样的结果,判定是否进行下一次抽样,使用多次抽样,有利于产生更多的新样本,有利于平衡样本,有利于避免分类器过拟合的风险。

优选地,本发明在对少数类样本中选择近邻与其进行插值时,只搜索与少数类样本标记相同的样本作为邻居样本,而非搜索所有样本,目的是避免异类样本插值带来的噪声样本、“歧义样本”。

优选地,若第一次抽样,将少数类中的所有样本都作为目标样本,然后进行smote抽样;非第一次抽样时,采用无放回抽样的方式得到目标样本,有效避免产生重复样本,且有效避免过多的产生少数类样本。

步骤4:数据预处理。

对抽样处理后的样本进行预处理,本发明中主要的预处理工作为数据集归一化处理。对于数据集的各个维数数据,归一化后将数据统一归一到同一数据范围内,例如采用如公式(7)所示的方式将数据归一到[0,1]之间的数。消除不同维数数据的数量级差别,避免因数据数量级差别较大而产生的误差。

其中,x代表原始样本的某维度,xmin代表该维度数据的最小值,xmax代表该维度数据的最大值,x'为样本归一化处理后的数据。

通过归一化工作,将训练数据抽样后的样本数据各个维度归一化到同一数据范围,便于建立分类模型。

步骤5:训练安全等级多分类器。

在处理后的训练数据上建立设备的安全等级分类模型,用来区分设备的安全状态为a、b以及c类型。由此可见设备的安全等级分类问题属于多分类问题,因此要建立多分类模型。

支持向量机算法是最基础的机器学习算法,能有效处理小样本、非线性等问题,相比神经网路算法,在速度、稳定性以及泛化能力等方面具有优越性。设备安全等级涉及设备的多个指标,指标间关系复杂,由于支持向量机在解复杂问题等方面的一系列的优势,因此采用支持向量机分类算法来构建分类面,最终实现设备的安全等级分类。

本发明中采用非线性支持向量机分类模型,使用的核函数为高斯核,具体的模型求解和构建过程在本发明中不再详述。

传统的svm多分类器构建方法通常有两种方法:一对多svm分类(one-against-therest),一对一svm分类(one-against-one)。

一对多svm分类方法中:对p类多分类问题,将其中的一类作为一类,其余的p-1类皆看作另外一类,则将p分类问题转化为二分类问题。

本方法的优点为:训练的分类器数目少,与类别数目成正比,一般为p个。缺点为:在训练每个分类器过程中,所有的样本都要参与分类器的训练,训练时间长;除此之外本方法易出现样本不平衡的情况。

一对一svm分类方法:对p类多分类问题,两两组合构建二分类器。该方法的优点为:每个分类器训练过程中,只有两类样本参与,单个分类器的训练时间短。缺点为:分类器数目多,一般为个,导致多分类器总体训练时间长。

由此可见两种svm解决多分类的方法都存在一定的缺陷,因此为了提高模型的运行效率,本发明中改变了使用传统的一对多svm分类方法或是一对一svm分类方法的方式,本发明使用两种方式相互结合的方式,只需要构建两个分类器,便实现模型训练功能。本发明中通过一对多方式构建分类器svm1,一对一的方式构建svm2,步骤如下:

(1)构建svm1

由于a类样本表征与b、c类样本表征有明显不同,因此首先构建一个分类器用来区分a类与非a类,通过一对多方式构建分类器svm1区分a与非a类,即将a类样本作为一类,而b类和c类当做另外一类,构建分类器svm1。

(2)构建svm2

为了区分b类和c类,需要建立b类、c类的二分类器,则直接通过一对一的方式构建svm2。

对于任意给定的设备特征向量,首先使用分类器svm1,判断是属于a类还是非a类,若是a类,则得到样本的预测结果a;否则,则继续使用分类器svm2,判断是b类还是c类。

优选地,本发明中采用以上结合一对多、一对一方式的方法实现svm多分类器,既能减少分类器数目,又能降低模型的训练时间。

传统的数据处理步骤是先进行数据预处理工作,再进行样本抽样。

优选到,本发明先进行数据预处理工作,再进行样本抽样。若采用公式(7)对样本数据预处理,将样本归一化到[0,1]范围后,对样本进行抽样,有可能新样本数据会超出[0,1],需要在新样本集合上再次进行归一化,导致了重复工作,因此本发明中先对样本进行预处理,再进行样本抽样工作。

图4为本发明实时预测设备安全等级的流程图,实时运行过程包括以下步骤:

步骤1:获取实时运行数据,提取安全特征。

检测设备运行,实时获取设备的实时运行数据。提取实时数据的安全特征向量,y=(y1,y2,...ym),其由m维数指标构成,维数与训练数据一致。

步骤2:数据预处理。

同训练数据一样,对提取完特征的实时运行数据进行相同的归一化处理工作,采用公式(7)将实时运行数据各个维度的数值进行归一化。需要特别注意的是,为了保持实时运行数据和训练数据数值范围的一致性,各个维度的最大值、最小值统一采用训练数据归一化后各个维度的最大值、最小值。

步骤3:使用训练好的安全等级多分类器,预测实时数据安全等级分类。

将归一化后的实时数据代入训练好的两个svm分类器,若分类器svm1预测y为a类,则预测y的安全等级结果a,否则,将其带入svm2进一步分类,若分类器svm2预测y为b类,则得到y的安全等级结果为b类,否则,则得到y的安全等级结果为c类。

实施例

本实施例以某火力发电厂7#机组的再热蒸汽温度控制为检测对象。再热蒸汽温度控制的安全与否对保证机组安全、有效运行具有重要作用,其相关结构复杂,相关影响因素多,符合本发明所针对的多元非线性、复杂的特点。通过本实施例的详细阐述,进一步说明本发明的实施过程。

本发明实施例对某电厂再热蒸汽温度控制的安全等级分类的步骤如下:

训练再热蒸汽温度控制分类模型的过程:

步骤1:建立再热蒸汽温度控制安全等级库。

综合处理再热蒸汽温度控制已有的专家评价结果,对专家评价结果平均化得到再热蒸汽温度控制不同工况下的安全等级标记,共计样本共4380条,建立再热蒸汽温度控制的安全等级库。

步骤2:选取训练数据、提取安全特征。

从再热蒸汽温度控制安全等级库中,选取有安全标记的部分样本作为训练样本,随机选取总样本的2/3共计22920条作为训练样本。与该电厂的再热蒸汽温度安全性相关的关键参数有60个,例如高温再热器出口温度,过热器测烟气挡板输出,空预期入口烟气氧量等测点。通过专家知识将测点数据进行加工计算指标得到25维的向量,形成设备的安全特征。

步骤3:对训练样本采用smote算法。

对提取特征后的训练数据进行smote抽样。其中k=5,m=3,其他阈值参数θ1=0.5,θ2=5。

对于svm1二分类器,用于区分a类和b、c类,a类作为一类,b和c类作为另外一类。对原始样本集合tsmote抽样时,要将b类和c类作为一类来处理,抽样后得到样本集合t1。

对于svm2二分类器,主要区分b类和c类,对b类和c类样本上进行smote抽样。需要注意对b类和c类的原始样本t抽样,而非在t1的基础上进行抽样,本发明之所以采取此种设计,目的是减轻、避免抽样带来的样本噪声问题。

由于a类和b、c类有明显的不同,因此我们重点描述b、c类分类所涉及的工作,样本抽样工作亦以b、c类样本的抽样工作为主进行描述。b、c类样本抽样的具体步骤如下:

(1)分析原始样本的b、c类样本,通过使用公式(5)计算得到b、c类样本的不平衡率imbalancerate=0.11,其中c类样本为少数类样本。

(2)判断样本是否平衡。imbalancerate小于θ1,则表明样本存在不平衡,需进行抽样。

(3)对c类样本进行抽样。采用smote算法对c类样本进行抽样,计算c类样本目标样本的m近邻,并从m近邻中选择符合条件的邻居进行插值,得到新样本集合,并计算样本集合的不平衡率。

其中首次抽样后的到新样本集合的不平衡率为imbalancerate=0.33。

(4)抽样结束判断。判断样本的不平衡率以及抽样次数均是否符合条件阈值,若不符合则继续进行循环抽样。

通过循环抽样,最终得到新样本集合t2,计算其平衡率为imbalancerate=0.61,可见其满足样本平衡的条件。

步骤4:对训练数据进行数据预处理工作。

对抽样后的训练数据按照公式(7)进行归一化,将各参数值全部映射到[01]的区间内。

步骤5:训练安全等级多分类器。

具体的安全等级多分类器的构建参见图3所示的分类器构建流程图。建立区分再热蒸汽温度安全的分类模型svm1和svm2,其中svm1和svm2分类模型采用高斯核作为核函数。

再热气温控制a类作为一类,b和c类作为一类,对抽样后样本t1构建分类器svm1;将b、c类分别作为不同的类,对抽样后样本t2构建分类器svm2。

通过以上安全分类器构建,则涵盖了安全特征与安全分类的复杂关系,可实时地实现预测、评估再热气温控制的安全类型。具体的实时运行过程见实时运行过程的流程图4。

本发明中为了有效验证、展示本发明的有效性,从安全等级库中选择再热气温控制有安全标记样本的进行测试。

测试再热蒸汽温度控制模型的过程:

测试过程可参照运行过程的流程图4,测试过程与实时运行最大的不同是,测试样本具有真实的安全类型标记,可根据模型的预测结果与真实结果对比,统计分类模型的分类准确率。具体过程如下:

步骤1:选取测试数据,提取安全特征。

训练再热气温控制安全分类模型时使用了有标记样本的2/3,则使用剩余的1/3样本共计11460条可作为测试样本。

对测试样本采用与训练样本相同的处理方式,提取测试样本的安全特征。样本的安全特征维数同训练样本相同,皆为25维。

步骤2:数据预处理。

对特征提取后的测试样本进行归一化处理将数值范围皆归一化到[0,1]。

步骤3:预测样本安全类型。

使用训练好的再热气温控制安全分类模型,svm1和svm2评估、预测样本的安全类型。

步骤4:计算分类器的准确率。

通过对比测试样本的预测安全类标记和真实标记,通过分类器的准确率,包括某一类的分类准确率以及总体测试样本的分类准确率。分类准确率越高,表明分类器的性能越好。

以下表格展示、对比了不进行抽样构建分类器的测试结果,以及采用本发明方法的测试结果,结果如表所示。若不进行抽样,a类和b类样本的预测准确率均为0%,由此可见所有的测试样本均被预测为c,这主要是由样本严重不平衡造成的分类器不准确。

本发明中测试得到的a类、b类和c类的准确率分别为97%,92.3%以及94.6%,统计总体样本的准确率为94.46%,准确率符合业内认可和行业要求。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1