一种油品质量群落分析系统的制作方法

文档序号:18871129发布日期:2019-10-14 19:35阅读:126来源:国知局
一种油品质量群落分析系统的制作方法

本发明涉及油品质量数据检验分析技术,尤其涉及一种油品质量群落分析系统。



背景技术:

当前,油品质量主要是通过实验室信息管理系统(laboratoryinformationmanagementsystem,以下简称lims)来进行管理,世界上最早的lims(1982年术语提出)应用起源于20世纪60年代末美国的一些高等学校、研究所和化学公司。历经了研究、发展、商品化三个阶段。之后随着计算机技术、网络通讯技术、数据库和仪器仪表的飞速发展,lims技术的应用进入了一个崭新的时代,世界上著名的艾克森美孚(exxon-mobil)石油公司,壳牌(shell)石油公司等早已推广应用了lims技术。

lims主要面向实验室工作人员和质量管理技术人员。lims的广泛应用,无疑为实验室管理人员带来了很大的方便。近年,在油品质量处理方面出现了以谱库为基础的专业方法,以及图象分析系统、专家系统等,但是对质量结果的深层次挖掘应用却比较薄弱。尤其随着大数据技术的发展,越发显得lims数据的分析应用需要加强。

如何依托于现有的lims系统,以炼厂用于品油、外采供应商成品油以及区域性市场成品油质量数据库中的历史沉淀数据以及当前质量数据为基础,使用数据驱动的方式对现有产品质检数据进行深入的分析与挖掘,结合业内先进的大数据处理、整合、分析与展现技术,为中国石化全面提升成品油在采购、供应商、质量追溯、质检系统等方面的质量管控水平,为科学决策提供量化的信息辅助支持显得尤为迫切。



技术实现要素:

针对上述问题,本发明提出了一种油品质量群落分析系统。该系统主要包括:

数据获取模块,其用于获取用来建立油品分类模型的油品样本数据;

特征筛选模块,其用于对获取的油品样本数据进行分析,确定用来建立油品分类模型的油品属性特征;

分类划分模块,其用于根据油品分类模型将油品样本数据划分成若干类别;

无监督聚类模块,其用于根据油品间的相似性,利用无监督聚类模型将经过分类划分的油品样本数据的每一类细分成若干群落;

群落分析模块,其用于对划分后的各个油品群落进行特征归纳和油品画像,并对各个群落间的油品差异进行分析。

根据本发明的实施例,上述油品质量群落分析系统中,所述数据获取模块主要包括:

数据获取单元,其用于获取由lims系统提供的油品检测数据;

数据清洗单元,其用于对所述油品检测数据进行清洗,所述清洗包括删除异常值;

数据变换单元,其用于对经过清洗的油品检测数据进行变换,使之成为能够用于建立油品分类模型的油品样本数据,所述变换包括统一量纲和/或数据结构变换。

根据本发明的实施例,上述油品质量群落分析系统中,所述特征筛选模块,优选地根据油品样本数据的缺失情况、业务重要性及模型特点,筛选出用来建立油品分类模型的油品属性特征。

根据本发明的实施例,上述油品质量群落分析系统中,所述分类划分模块主要包括:

业务划分单元,其用于根据油品来源对油品样本数据进行初步划分;

分类监督划分单元,其用于基于筛选出的油品属性特征建立油品分类模型,利用所述油品分类模型对经过业务划分的油品样本数据进行进一步划分。

根据本发明的实施例,上述业务划分单元,优选地根据油品来源将油品样本数据初步划分为配置油和外采油两种类型;上述分类监督划分单元建立决策树分类模型作为油品分类模型,利用所述决策树分类模型将划分为配置油和外采油的油品样本数据进一步划分为四种类型:典型外采油、典型配置油、类配置外采油和类外采配置油。

又或者,根据本发明的另一个实施例,上述分类划分模块仅包括业务划分单元,其用于根据油品来源将油品样本数据划分为配置油和外采油两种类型。

根据本发明的实施例,上述油品质量群落分析系统中,所述无监督聚类模块主要包括:

指标选择单元,其用于根据待聚类的油品样本数据的缺失情况、业务重要性及模型特点确定进行聚类分析的油品检测指标;

数据填补单元,其用于基于中位数填补法对所述油品检测指标的油品样本数据中的缺失值进行插补填充;

聚类处理单元,其用于利用k-means无监督聚类模型将经过填补的油品样本数据细分成若干个群落。

对于前述所述分类划分模块包括业务划分单元和分类监督划分单元的情况,所述无监督聚类模块对分成典型外采油、典型配置油、类配置外采油和类外采配置油四种类型的油品样本数据的每一类进行聚类处理。

对于前述所述分类划分模块仅仅包括业务划分单元的情况,所述无监督聚类模块对分成配置油和外采油两种类型的油品样本数据的每一类进行聚类处理。

根据本发明的实施例,上述油品质量群落分析系统还可以包括:

业务分析模块,其用于根据各个群落的油品特点和/或各个群落的油品差异分析各个群落中油品供应商分布情况和各个油品供应商的群落分布情况,从而获得各个油品供应商的油品特点和不同油品供应商之间的油品差异。

根据本发明的实施例,上述油品质量群落分析系统还可以包括:

新油品检测模块,其用于通过判断新进油品样本数据所落入的群落来判断所述新进油品的特点。

根据本发明的实施例,上述油品质量群落分析系统还可以包括:

群落分级模块,其用于根据群落的油品特点确定各项检测指标的分值和权重,计算群落得分,然后根据群落得分情况对群落进行评级;

质量预警模块,其用于对落入不合格级别的群落的新进油品给予警示。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

1、本发明提供的油品质量群落分析系统能够对油品特征进行识别与分析,通过油品检测数据建立油品特征模型,寻找油品检测指标之间的相关性,并优选地通过业务划分、分类监督划分和无监督聚类的划分方法,将所有入检的油品划分成各个群落,详细刻画出各群落油品特点,从而能够发现典型的油品类型差异,例如不同批次的油品差异、不同厂家的油品差异等。

2、本发明提供的油品质量群落分析系统能够从群落的供应商分布和供应商的群落分布两个角度进一步刻画出供应商的油品特点和不同供应商之间的油品差异,将不同油品群落的关键指标和对应的业务含义标签化。

3、本发明提供的油品质量群落分析系统能够对于新检测的油品,根据其落入的群落,辅助性地判断其油品特征,对落入得分低群落的油品进行预警,提前发现易出现问题油品,优化卡边油品,大幅度地提高了中国石化油品质量的风险管控能力。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明提供的油品质量群落分析系统的工作原理图;

图2是本发明实施例一提供的油品质量群落分析系统的组成结构示意图;

图3是图2所示的油品质量群落分析系统的工作流程图;

图4是图2所示的油品质量群落分析系统对于92号汽油指标通过决策树分类分析获得的重要性的排布图;

图5是图2所示的油品质量群落分析系统对于92号汽油指标获得的决策树分类结果的统计表;

图6示出的是本发明实施例一所获得的四类油品的各个指标的中位数;

图7示出的是本发明实施例一所获得的四类油品的特点;

图8示出的是本发明实施例一所获得的典型配置油群落细分结果;

图9示出的是本发明实施例一所获得的典型外采油群落细分结果;

图10示出的是本发明实施例一所获得的外采油生产型供应商油品群落细分结果;

图11是本发明实施例三提供的油品质量群落分析系统的质量预警模块的工作原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明作进一步地详细说明。

图1是本发明提供的油品质量群落分析系统的工作原理图。由图1可知,该系统对油品特征的识别和分析主要是基于对油品质量的群落划分,其中优选地综合业务划分、分类监督划分和无监督聚类的划分方法,从总体上将所有入检的油品划分成各个群落,然后基于群落划分结果展开群落特征刻画、群落分级、异常群落发现等一系列应用。

实施例一

基于上述原理,本发明的第一个实施例提出了一种油品质量群落分析系统,其组成结构示意图以及相应的工作流程图分别如图2和图3所示。

如图2和图3所示,该系统主要包括:

数据获取模块10,其主要用于获取用来建立油品分类模型的油品样本数据;

特征筛选模块20,其主要用于对获取的油品样本数据进行分析,确定用来建立油品分类模型的油品属性特征;

分类划分模块30,其主要用于根据油品分类模型将油品样本数据划分成若干类别;

无监督聚类模块40,其主要用于根据油品间的相似性,利用无监督聚类模型将经过分类划分的油品样本数据的每一类进一步细分成若干个群落;

群落分析模块50,其主要用于对划分后的各个油品群落进行特征归纳和油品画像,并对各个群落间的油品差异进行分析。

下面以92号汽油为例,描述上述系统对油品特征进行识别和分析的详细过程,并对系统各个功能模块的组成进行进一步的说明。

(一)关于数据采集

在本实施例中,数据获取模块10主要包括以下单元:

数据获取单元11,其主要用于获取由lims系统提供的油品检测数据;

数据清洗单元12,其主要用于对接收的油品检测数据进行清洗,所述清洗包括删除异常值;

数据变换单元13,其主要用于对经过清洗的数据进行变换,使之成为能够用于建立油品分类模型的油品样本数据,所述变换包括统一量纲和/或数据结构变换。

在本实施例中,大数据探索使用的数据为lims系统中采集的历史油品检测数据。随着lims系统的建立和使用,已经整合了油品检验的整个流程的各个环节,积累了大量的油品检验数据。为了实现油品特征识别与分析所需要的油品样本数据、检验标准和方法信息以及供应商历史信息等基本都可以在lims系统中取得。因此在本实施例中,大数据探索的数据理解与采集主要基于lims系统数据,识别样本信息记录的完整性和一致性,发现油品指标间的关联,探索油品数据上的类别,以形成初步的油品特征和供应商质量分析。以92号汽油为例,入库的92号油样本,样本量为56992,占入库样本比为35.92%;入库的95号油样本,样本量为30782,占入库样本比为19.46%。

此外,数据获取单元11优选地以导出文本文件的方式从源系统采集历史数据,并将数据导入数据分析与理解工具,为后续的数据理解工作做准备。

由于高质量数据是数据分析的前提和分析结论可靠性的保障,在进行数据分析前,因此在本实施例中,数据清洗单元12还需要对上述入库原始数据进行数据质量检查和数据清洗,以保证模型结果的可靠性。

数据质量检查是针对如数据是否完整、数据是否存在错误、数据中是否有缺失值等问题的检查。其中对92号/95号汽油的主要检测指标的字段进行检查,包括最小值、最大值、均值、标准差及有效数据量等,为了尽可能地保留原始数据信息,在后续建模过程中应当尽量选择数据缺失比例较小的指标。

数据清洗主要包括以下几个方面:

①选择分析样本

在分析汽油时,需要抽取汽油的检测数据作为研究对象。例如,有些样品名称虽然含有“汽油”字样,但是并不属于研究对象,如“车用汽油清洁剂”,有少部分产品名称虽含“汽油”字样,但却为非汽油产品。

②异常值处理

在统一量纲之后仍然有个别值偏离正常水平,称之为异常值,这些异常值不利于分析,应当删除这部分数据。例如:铁含量、锰含量、20℃密度等指标出现了负值,不符合实际,需要对这部分数据做异常值处理。

数据变换单元13主要用于将经过清洗的数据变换成能够用于系统建立油品分类模型的油品样本数据。数据变换主要包括以下几个方面:

①统一量纲

部分检测指标值存在量纲不一致的情况,对指标的量纲进行统一。例如:指标20℃密度的量纲情况如下:对于20℃密度量纲不统一的情况,需要将量纲为g/cm3的样本统一转化为以kg/m3为量纲的数值,类似的处理还有硫含量、氯含量、锰含量等指标。

②指标名称与单位匹配

在原始样本数据中,检测指标名称与单位存在不一致的情况,例如“乙醇含量v”的单位为“%(质量分数)”,“乙醇含量”的单位为“%(体积分数)”,需要将指标名称与单位相匹配。

③数据结构变换

从lims系统抽取的原始数据表的数据结构为每个样本的每个检测指标为一条记录,因此需要对数据结构进行变换,关联样本与各检测指标,以及供应商等其他属性,作为一条记录,转换成所需的数据结构形式。

(二)关于特征筛选

在决策树建模前,需要对建模特征进行筛选,特征筛选需要综合考虑检测指标数量与指标相关性情况。在本实施例中,经过对配置油和外采油的数据进行质量检查和分析,特征筛选模块20优选数据缺失比例较小并且对业务有重要意义的油品属性特征作为用于建立分类模型的特征指标。其中,除了原始指标,还选择了t90-t10、t90-t50两个衡量油品质量的两个重要衍生指标,即馏差。具体地,在本实施例中确定用于决策树建模的指标有:10%蒸发温度、50%蒸发温度、90%蒸发温度、终馏点、t9010馏差、t9050馏差、20℃密度、研究法辛烷值、氧含量、烯烃含量、硫含量、未洗胶质、残留量、溶剂洗胶质。其中:“t9010馏差”的计算方法为:90%蒸发温度-10%蒸发温度;“t9050馏差”的计算方法为:90%蒸发温度-50%蒸发温度。

(三)关于分类划分

在本实施例中,分类划分模块30主要包括以下单元:

业务划分单元31,其主要用于根据油品来源对油品样本数据进行初步划分;

分类监督划分单元32,其主要用于基于筛选出的油品属性特征建立油品分类模型,利用所述油品分类模型对经过业务划分的油品样本数据进行进一步划分。

由于目前配置油和外采油是数据中两类业务含义明确的油品,并且在数据中有明确的标签,因此在本实施例中,业务划分单元31优选地根据油品来源从业务上将油品初步划分为配置油和外采油两种类型。

进一步地,分类监督划分单元32根据配置油和外采油的特征,采用分类监督划分,基于前述筛选出的油品属性特征建立决策树分类模型,对配置油和外采油进行进一步的分类。

决策树模型会根据配置油和外采油的特征,拟合样本数据,形成区分配置油和外采油的分类规则,根据分类规则可以得知预测变量在分类中的重要性。在区分配置油和外采油上,92号汽油指标的重要性如图4所示,从上至下重要性依次降低,其中在区分配置油、外采油上,指标的重要性为馏程类指标、20℃密度,其次为元素含量和杂质。

图5示出的是本实施例的决策树分类结果。由图5可知:在实际为外采油的油品中,有74.79%的样本被判别为外采油,有近四分之一的外采油被判别为配置油,对于被判别为配置油的外采油,说明该部分油品虽然是外采油,但是特征上与配置油相似;在实际为配置油的油品中93.05%的样本被判别为配置油,6.95%的样本被判别为外采油,对被判定为外采油的配置油,说明该部分油品虽然是配置油,但是特征上与外采油相似。从两类油品的模型分类的比例来看,配置油品质稳定,但还是存在模糊群落,而外采油品质分散。

因此根据模型分类结果对油品进行划分,分类监督划分单元32把油品进一步地分为以下四类:

①典型外采油:实际为外采油,并且模型判别为外采油

②典型配置油:实际为配置油,并且模型判别为配置油

③类配置外采油;实际为外采油,而模型判别为配置油

④类外采配置油:实际为配置油,而模型判别为外采油

然后,对得到的四类油品样本进行特征分析。对此,可以取各类样品中各指标中位数,作为该类油品该指标的代表值(如图6所示)。

图7是本实施例中上述四类油品的指标特点。

在此,应当指出的是,上述方案仅仅是本发明在具体实施时的一个特例。实际上,根据业务需求,油品分类划分的方式以及相应模块单元的组成也可以不限于此。例如,在本发明的另一个实施例中,分类划分模块30仅仅包括业务划分单元31,其根据油品来源将油品样本数据仅仅划分为配置油和外采油两种类型。在此情况下,可以将油品分类模型理解成一种简单的二分类模型。

(五)关于无监督聚类

在本实施例中,无监督聚类模块40主要包括以下单元:

指标选择单元41,其主要用于根据待聚类的油品样本数据的缺失情况、业务重要性及模型特点确定进行聚类分析的油品检测指标(简称聚类指标);

数据填补单元42,其主要用于基于中位数填补法对所述油品检测指标的油品样本数据中的缺失值进行插补填充;

聚类处理单元43,其主要用于利用k-means聚类模型将经过填补的油品样本数据进一步细分成若干个群落

无监督聚类模块40在没有任何先验知识的情况下,探索各油品样本之间的联系,根据油品特征对分类划分得到的油品(典型配置油、类外采配置油、典型外采油和类配置外采油;又或者配置油和外采油)作进一步群落细分,使用无监督聚类模型,根据油品间的相似性,将相似程度高的油品聚为一类。

应用k-means聚类算法对油品群落划分时存在的主要问题是数据缺失问题,由于每个批次的油品检测的指标项不尽相同,因此为了尽可能的保留原始数据信息,指标选择单元41在选择聚类指标时尽量选择数据缺失比例较小的指标,而对于有重要业务意义但缺失情况又较严重的指标,则由数据填补单元42对其缺失值进行插补填充。在本实施例中,优选中位数填补法,即分别计算出各供应商各指标的中位数,插补到各个样本中原缺失数据的相应位置上,然后由聚类处理单元43对填充后的数据应用聚类分析方法。

此外,由于k-means聚类算法使用空间距离作为相似性度量,各个特征量纲不同,数据数量级存在较大差异,因此在聚类之前还需要对数据集进行标准化处理,处理为期望为0,标准差为1的特征数据,减小量纲差异对聚类效果的影响。

结合前述油品的分类划分情况,对于前述分类划分模块30包括业务划分单元31和分类监督划分单元32的情况,聚类处理单元43对分成典型外采油、典型配置油、类配置外采油和类外采配置油四种类型的经过填补的油品样本数据的每一类进行聚类处理;对于前述分类划分模块30仅仅包括业务划分单元31的情况,聚类处理单元43对分成配置油和外采油两种类型的经过填补的油品样本数据的每一类进行聚类处理。当然,后者的聚类效果不如前者的聚类效果好。

(六)关于群落分析

群落分析模块50通过对划分后的各个油品群落进行特征归纳和油品画像,并对各个群落间的油品差异进行分析,从而确定特征差异明显、业务含义明确的群体。例如,发现不同批次的油品差异、不同厂家的油品差异等。

以下是本实施例获得的不同类别的油品的群落细分结果。

ⅰ典型配置油群落细分

1.聚类指标

根据检测指标缺失情况,用于92号汽油典型配置油的聚类指标为:“10%蒸发温度”、“50%蒸发温度”、“90%蒸发温度”、“终馏点”、“20℃密度”、“硫含量”、“未洗胶质”、“溶剂洗胶质”、“残留量”。

2.聚类结果

对标准化之后的数据,建立k-means聚类模型,将典型配置油聚为10类,聚类后的组间距离平方和与总距离平和之比为47.0%,聚类效果良好,说明典型配置易于分类,可以划分为界限相对清晰的10个群落。

从聚类结果来看,造成典型配置油群落差异的主要指标有馏程类指标、20℃密度、硫含量等。

3.群落特征

如图8所示,类别4、类别7的样本量都在5000以上,为典型配置油的主体群落,其中类别4的各项指标适中,类别7的90%蒸发温度、终馏点高,其余指标适中;

类别9的馏程较短,20℃密度大;

类别1的硫含量高;

类别3的馏程长,10%蒸发温度低;

类别5的10%蒸发温度低,20℃密度小;

类别6的馏程类指标低,馏程短,20℃密度小,硫含量低。

类外采配置油的聚类特征与聚类过程与典型配置油相同

ⅱ典型外采油群落细分

1.聚类指标

根据检测指标缺失情况,用于92号典型外采油的聚类指标如下:"10%蒸发温度";"50%蒸发温度";"90%蒸发温度";"终馏点、20℃密度";"研究法辛烷值、硫含量、烯烃含量";"芳烃含量、苯含量、蒸发指数di值、蒸气压、诱导期"。

2.聚类结果

使用无监督聚类模型,对典型外采油应用k-means聚类模型,发现典型外采油间的内在相似性关系。将典型外采油聚为10类,组间距离平方和与总距离平方和的比为41.1%,聚类效果与配置油相比稍弱。造成典型外采油群落差异的指标主要有馏程、20℃密度、研究法辛烷值、蒸发指数di值等。

3.群落特征

如图9所示,主体群落为类别5,其各项指标适中;

类别1的10%蒸发温度高,蒸发指数di值高,研究法辛烷值低;

类别2的馏程短,苯含量低;

类别7的终馏点低,诱导期短,研究法辛烷值高;

类别3的馏程长;

类别8的20℃密度高,芳烃含量高。

类配置外采油选择的聚类特征与聚类过程与典型外采油相同。

ⅲ外采油生产型供应商油品群落细分

1.聚类指标

对外采油生产型供应商的样本单独聚类,聚类指标与典型外采油相同:“10%蒸发温度”、“50%蒸发温度”、“90%蒸发温度”、“终馏点”、“20℃密度”、“研究法辛烷值”、“硫含量”、“烯烃含量”、“芳烃含量”、“苯含量”、“蒸发指数di值”、“蒸气压”、“诱导期”、“未洗胶质”、“溶剂洗胶质”、“残留量”。

2.聚类结果

外采油生产型供应商的油品聚为5类,进行无监督聚类细分结果如下,组间距离平方和与总距离平方和的比为24.4%。

3.群落特征

如图10所示,主体群落为类别2,馏程短,20℃密度小,芳烃、烯烃含量低。

类别4的10%、90%蒸发温度、终馏点低,硫含量低,蒸发指数di值低。

类别3的馏程长,烯烃含量高,蒸气压高,诱导期长;硫含量低。

类别1的馏程类指标高,20℃密度、芳烃含量、蒸发指数di值高;研究法辛烷值、蒸气压低。

类别5的硫、苯含量、研究法辛烷值、杂质含量高,诱导期短。

上述5类分别有对应的占比最大的供应商,体现出各个油品供应商的油品特点。

综上所述,本实施例提供的油品质量群落分析系统能够对油品特征进行识别与分析,通过油品检测数据建立油品特征模型,寻找油品检测指标之间的相关性,并优选地通过业务划分、分类监督划分和无监督聚类的划分方法,将所有入检的油品划分成各个群落,详细刻画出各群落油品特点,从而能够发现典型的油品类型差异,例如不同批次的油品差异、不同厂家的油品差异等。

实施例二

此外,根据本发明的第二个实施例,本发明提供的油品质量群落分析系统可以进一步包括:

业务分析模块60,其主要用于根据群落分析模块50获得的各个群落的油品特点和/或各个群落的油品差异,分析各个群落中油品供应商分布情况和各个油品供应商的群落分布情况,从而获得各个油品供应商的油品特点和不同油品供应商之间的油品差异。由此,相关研究人员能够进一步判断不同类型的生产性供应商的生产工艺的差异是否能够反映为成品油检测项上的差异。

实施例三

此外,根据本发明的第三个实施例,本发明提供的油品质量群落分析系统可以进一步包括:

群落分级模块80,其用于根据群落的油品特点确定各项检测指标的分值和权重,计算群落得分,然后根据群落得分情况对群落评级;

质量预警模块90,其用于对落入不合格等级的群落的新进油品给予警示。

具体地,对于群落等级的划分,需要根据群落的检测指标特点来进行评判。首先,群落分级模块80从单指标角度对各个指标从业务角度进行评级,对92、95号汽油各项检测指标的取值范围合理划分区间,并结合业务经验给出各区间相应的分值,然后,根据群落各检测指标的特点,结合指标权重,算得群落得分,最后,根据群落得分情况划分群落等级。

如图11所示,系统在结合群落分析主题的结果,对新进油品进行判别,给出初步的群落判别结果后,还可以进一步结合油品群落评级情况,辅助性地判断其油品特征,对落入得分低群落的油品进行预警,提前发现易出现问题油品,优化卡边油品,大幅度地提高了中国石化油品质量的风险管控能力。

应当说明的是,虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1