基于自适应优选模糊核聚类的石脑油属性聚类方法

文档序号:6596001阅读:246来源:国知局
专利名称:基于自适应优选模糊核聚类的石脑油属性聚类方法
技术领域
本发明涉及乙烯裂解工业生产过程中处理石脑油属性数据的模糊核聚类方法,具体涉及一种基于高斯核化有效性指标的自适应优选石脑油属性聚类数的模糊核聚类方法。
背景技术
石脑油是由C4-C12烷烃、环烷烃、芳烃、烯烃组成的混合物,是目前世界上利用较多的乙烯裂解原料。石脑油裂解制乙烯的裂解性能主要受以下三方面影响:原料属性,裂解条件,裂解炉的型式与结构。而原料属性是影响乙烯裂解性能的最重要的内部因素。研究中通常将石脑油属性数据进行聚类,提取出每一类的聚类中心,每一类数据内部的油品裂解特性相似,可用相同的裂解 产物收率预测模型表征,这对后续乙烯裂解炉裂解深度控制、裂解深度实时优化和主要产物收率预测都具有重要的实际意义。模糊聚类方法作为一种应用最广泛的聚类分析方法,在数据挖掘、模式识别等方面有很多应用,在识别数据的内在结构方面也具有极其重要的作用。故常被用来对石脑油数据进行聚类。但是,在最近的几十年里,随着数据库技术的成熟和数据应用的普及,生产过程积累的石脑油数据量急剧增大,而且数据类型越来越复杂、结构越来越多样。对于复杂程度较高的具有非线性特征的石脑油数据,会导致模糊聚类准确度下降、错误划分等情况出现。将核方法引入到模糊聚类中,可以有效处理复杂非线性特征的石脑油数据。核聚类方法通过核函数将原空间中的非线性聚类问题转化为高维特征空间中的线性或近似线性聚类问题,凸现了样本间的特征差异,从而取得很好的聚类性能。但是,传统的模糊核聚类方法需要熟悉工艺机理的操作人员事先给出石脑油属性数据的聚类数目,并且对初始值敏感、聚类精度低,这些都极大限制了模糊核聚类方法在实际过程中的应用。为了得到更一般意义上适用于对石脑油属性数据进行聚类的模糊核聚类分析方法,许多改进方法被提出,并形成了丰硕的研究成果,主要有以下几个方面:利用动态加权方法对初始聚类中心选取方法进行改进,采用粒子群、蚁群和遗传方法等智能优化方法对模糊核聚类的参数进行优选,将模糊划分思想引入到聚类的评价指标中等。

发明内容
为了解决上述现有模型的不足,本发明提出了一种基于高斯核化有效性指标的自适应优选石脑油属性聚类数的模糊核聚类方法,采用基于密度和距离的方法选取初始聚类中心,利用高斯核化有效性指标评价聚类效果,并自动确定最佳聚类数目。本发明由两部分内容构成:模糊核聚类方法的初始聚类中心的选取——采用基于密度和距离的方法;利用高斯核化的有效性指标评价聚类效果,并自动确定石脑油属性数据的最佳聚类数目。对于采集到的石脑油属性数据进行数据预处理后,定义一个密度度量:对于给定的数据对象集,设对象Xi为中心,Minpts是一正整数,ε为Xi的邻域半径。即以Xi为中心,ε为半径,至少包含Minpts个数据对象的邻域实际所包含的数据对象的个数叫作Xi的密度度量,记作λ。λ越小,表示此区域的数据密度越小;反之,λ越大,表示此区域的数据密度越大。通过计算每个数据对象的密度度量λ,就可以从给定的石脑油数据中找到处于高密度区域的点,从而得到一个高密度点集合D。在选取高密度区域的对象作为初始聚类中心得到集合D的过程中,同时设置一个二维数组d[Xi,\]存储对象之间的距离。首先计算出各个数据对象之间的欧式距离,然后把这些距离数据存储在d[Xi,Xj]里,这样既可以为初始聚类中心选取提供密度大小的衡量标准,又可以为下一步的模糊核聚类直接提供距离值,避免了重复计算距离,大大加快了运行速度。得到石脑油数据聚类后,考虑到每个类的大小对聚类有效性指标的影响,使用Bensaid.AM提出的有效性指标对聚类结果进行评价。然后针对不同样本的特征差异,将高斯核函数引入到有效性指标中,构造出基于高斯核化的有效性指标¥彳通过高斯核函数将具有非线性特征的样本点映射到高维特征空间,突出了不同样本间的特征差异,使得原始石脑油属性数据的特征更完整地显现出来;而核化后的有效性指标对各个类的大小不再敏感。使用该指标来评价聚类效果,并自动确定出石脑油属性数据的最佳聚类数目,而不用事先给出聚类数目。该技术方案为:一种基于自 适应优选模糊核聚类的石脑油属性聚类方法,基于数据对象的密度和相互距离实现初始聚类中心的选取,通过高斯核化有效性指标,评价聚类效果,确定最佳聚类数目。进一步,所述基于数据对象的密度,是通过预设一密度度量对数据对象进行区分。进一步,所述基于数据对象的相互距离,是通过设置二维数组存储数据对象之间的距离实现。进一步,所述高斯核化有效性指标为
权利要求
1.一种基于自适应优选模糊核聚类的石脑油属性聚类方法,其特征在于,基于数据对象的密度和相互距离实现初始聚类中心的选取,通过高斯核化有效性指标,评价聚类效果,确定最佳聚类数目。
2.根据权利要求1所述的模糊核聚类方法,其特征在于,所述基于数据对象的密度,是通过预设一密度度量对数据对象进行区分。
3.根据权利要求1所述的模糊核聚类方法,其特征在于,所述基于数据对象的相互距离,是通过设置二维数组存储数据对象之间的距离实现。
4.根据权利要求1所述的模糊核聚类方法,其特征在于,所述高斯核化有效性指标 为,
5.根据权利要求1所述的模糊核聚类方法,其特征在于,所述聚类方法,还包括更新各数据对象的隶属度值及更新各聚类中心。
6.根据权利要求1所述的模糊核聚类方法,其特征在于,设定一允许误差或迭代次数作为确定最佳聚类数目的判别条件。
7.根据权利要求6所述的模糊核聚类方法,其特征在于,允许误差为0.00001,最大迭代次数为1000。
8.根据权利要求1所述的模糊核聚类方法,其特征在于,所述有效性指标中引进了高斯核函数,通过高斯核函数对有效性指标进行核化,将指标推广到核Hilbert空间,突出了不同样本间的特征差异,使得原始数据的特征更完整地显现出来,提高了指标的计算准确度,因此能更加客观精确地评价聚类效果,确定最佳聚类数。
9.根据权利要求1所述的模糊核聚类方法,其特征在于,所述有效性指标评价为通过高斯核化有效性指标的值是否为极小值作为确定最佳聚类数目的判别条件。
10.根据权利要求8所述的模糊核聚类方法,其特征在于,所述有效性指标通过进一步判断初始聚类数目是否出于一预设范围作为确定最佳聚类数目的判别条件。
11.根据权利要求8所述的高斯核化有效性指标,其特征在于,所述预设范围为2 170。
全文摘要
本发明涉及一种基于高斯核化有效性指标的自适应优选石脑油属性聚类数的模糊核聚类方法,该方法基于密度和距离的初始聚类中心选取方法成功处理以下两方面的问题一个是模糊核聚类方法对初始值的敏感,另一个是运行速度慢,执行时间长,该方法采用定义一个密度度量的方法选取具有高密度的数据对象作为初始聚类中心,有效克服了方法对初始值的敏感;同时,设置了一个二维数组存储石脑油属性数据之间的距离,大大缩短了计算时间,提高了聚类效率。
文档编号G06F19/00GK103235894SQ20131016837
公开日2013年8月7日 申请日期2013年5月8日 优先权日2013年5月8日
发明者钱锋, 王振雷, 梅华, 赵亮 申请人:华东理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1