一种基于支持向量机的专家系统知识获取方法

文档序号:6574978阅读:586来源:国知局
专利名称:一种基于支持向量机的专家系统知识获取方法
技术领域
本发明属于信息处理技术领域,特别是一种基于支持向量机的专家系统知识获取方法。
背景技术
目前,基于数据挖掘的知识获取主要是通过机器学习或数理统计方面的一些算法从已有的一些数据中获取知识。其中关联分析法、人工神经元网络、粗糙集和决策树等在数据挖掘中的应用很广泛。如果能把这些算法和目前的实际应用相结合,就能够从实际的数据中自动获取知识规则,有效地突破了知识获取的瓶颈问题。将大大提升专家系统的智能化水平和知识获取能力。近年来,支持向量机作为数据挖掘中的一种新兴的分类技术,完善的泛化性理论指导和核函数强大的非线性映射能力使支持向量机和神经网络一样,具有逼近任意连续有界非线性函数的能力,并且它还具有神经网络所不具有的许多优点,如泛化能力强,学习问题不存在局部极小,可以自动确定学习机的结构,不存在维数灾难问题,以及处理小样本能力强等。由于这些优点,基于支持向量机的数据挖掘技术已受到数据挖掘界的重视,对它的研究不断深入。而且,迄今发表的SVM规则提取算法不仅简单而且具有广泛的适用性。目前已有的从SVM中提取知识的方法有二,一是首先利用K-means聚类算法得到训练样本集中每一类样本的聚类中心,然后在得到的聚类中心和支持向量的基础上构建椭圆型的规贝U,最后将椭圆型规则映射到样本空间坐标轴上,得到if-then规则。但是由该方法得到的椭圆型规则之间重叠的比较严重,而且由于K-means聚类效果过分依赖于聚类中心初始值,因此这种规则提取方法很难控制得到规则的数目以及规则的质量;另一是基于SVM的超矩形规则提取算法,首先将训练样本映射到高维特征空间中,以得到样本的支持向量和最优分类超平面,然后在得到的支持向量和聚类中心的基础上构建超矩形,最后将超矩形映射到样本空间坐标轴上,得到超矩形规则。但是这种方法得到的超矩形规则由于用到了样本的所有特征,这样得到的知识规则复杂、可理解性低。

发明内容
本发明针对上述问题,提出了一种基于支持向量机的专家系统知识获取方法,目的就在于解决上述现有技术的局限性,有效地获取专家系统知识规则,突破专家系统知识动态获取瓶颈。为达成上述目的,本发明的技术方案是一种基于支持向量机的专家系统知识获取方法,包括数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;具体描述如下步骤A,对不平衡样本数据进行预处理;判断各类样本的数目是否平衡,若不平衡,则采用SMOTE过抽样算法对少数类样本进行重采样,以使得各类样本数目平衡;其过程如下
步骤A-1,对少数类中的每一个样本X,计算X到少数类样本集中每个样本的欧几里德距离,获得其k个最近邻;步骤A-2,样本数据集中多数类与少数类样本数目的比值为不平衡比率U,根据U设置采样倍率;对每一个少数类样本X,从其k个最近邻中随机选择合适的一个样本为 ,在X与 之间进行随机线性插值;步骤A-3,构造新的少数类样本Xnew Xmw = x+ra//6/(0,l)x(;v- . )其中,rand(0,I)表示O到I之间的一个随机数;步骤A-4,把人工合成的新样本与原始训练样本集并为一个新的训练集;步骤B,利用遗传算法对特征维数大的样本,进行特征选取,其步骤为步骤B-1,二进制编码,二进制码中的每一位对应一个特征,对于二进制码中每一位的值,“O”表示特征未被选中;“1”表示特征被选中;步骤B-2,生成初始群体,随机产生S个初始串构成初始种群,S表示种群数,S为自然数;步骤B-3,计算个体适应度值,选取基于最近邻分类法的适应度函数,利用其分类识别率作为特征评价函数,其步骤为步骤B-3-1,将样本随机分为训练样本和测试样本集;步骤B-3-2,对每一个特征组合初始串,去掉训练样本和测试样本中未被选中的特征,从而得到新的训练样本和测试样本集,运用最近邻法对测试样本进行识别,得到识别率R;步骤B-3-3,考虑所选择的特征数目M,则构造适应度函数为J =及(1+們由于O彡R彡1,因此,特征数M越小、识别率越大,则适应度函数J值越大,η为平衡特征数目和识别率权重的参数,通常,O ^ n ^ I ;步骤Β-4,在S个初始串中选择适应度最大的个体,即种群中最好的个体无条件地复制到下一代新种群中,然后对对父代种群进行选择、交叉和变异等遗传算子运算,从而繁殖出下一代新种群其它S-1个基因串;交叉和变异是产生新个体的遗传算子,交叉率取值范围为[O, I],变异率取值范围为[O, I];步骤Β-5,如果达到设定的繁衍代数,返回最好的基因串,所述基因串中,I表示特征被选中,O表示特征未被选中,从而得到特征组合,并将其作为特征选取的依据,算法结束;否则,回到步骤Β-4继续下一代的繁衍;步骤C,利用支持向量机聚类算法得到特征选取后样本的聚类分配矩阵,根据所述聚类分配矩阵构建超矩形规则;步骤C-1,支持向量聚类,其步骤如下步骤C-1-1,特征空间中的一个样本点到其最小包含超球球心的距离为D(Xi)
权利要求
1.一种基于支持向量机的专家系统知识获取方法,其特征在于,所述方法包括数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;具体描述如下 步骤A,对不平衡样本进行数据预处理;判断各类样本的数目是否平衡,若不平衡,则采用SMOTE过抽样算法对少数类样本进行重采样,以使得各类样本数目平衡;其过程如下步骤A-1,对少数类中的每一个样本X,计算X到少数类样本集中每个样本的欧几里德距离,获得其k个最近邻,k为自然数; 步骤A-2,样本数据集中多数类与少数类样本数目的比值为不平衡比率U,根据U设置采样倍率;对每一个少数类样本X,从其k个最近邻中随机选择合适的一个样本为 ,在X与 之间进行随机线性插值; 步骤A-3,构造新的少数类样本Xmw
全文摘要
本发明提出了一种基于支持向量机的专家系统知识获取方法,基于支持向量机的规则提取过程包括数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程;所述方法经过特征提取与规则简化之后,提取的规则更加简洁,易于解释;在计算聚类分配矩阵时,仅对支持向量进行聚类标识,大大降低了计算量;规则提取方法先进,诊断识别率更高;支持向量机是数据挖掘中的一种新兴的分类技术,具有坚实的理论基础和优良的泛化性能;本发明能有效地获取专家系统知识规则,突破专家系统知识动态获取的瓶颈。
文档编号G06K9/62GK103034691SQ20121050524
公开日2013年4月10日 申请日期2012年11月30日 优先权日2012年11月30日
发明者李爱, 陈果, 王洪伟, 郝腾飞, 于明月, 程小勇 申请人:南京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1