一种用于预估mocvd工艺结果的数据挖掘方法

文档序号:6508595阅读:340来源:国知局
一种用于预估mocvd工艺结果的数据挖掘方法
【专利摘要】本发明公开了一种用于预估MOCVD工艺结果的数据挖掘方法,该方法将MOCVD工艺中写入到日志记录表中的多条操作记录合并、统计,挖掘出其中较为频繁的操作记录集,然后推导出这些记录之间的关联规则,最后根据MOCVD工艺结果的好坏,评估、分析这些操作对工艺结果所造成的影响,如果工艺结果理想,那么这些记录集可以作为下次工艺的参考;如果不理想,那么可以提醒工艺人员在进行下一次工艺时,尽量避免进行同样的一系列操作。
【专利说明】—种用于预估MOCVD工艺结果的数据挖掘方法
【技术领域】
[0001]本发明涉及MOCVD工艺结果数据挖掘领域,特别是一种用于预估MOCVD工艺结果的数据挖掘方法。
【背景技术】
[0002]随着计算机硬件技术的提高,计算机对数据的处理能力也在日渐提升,加上当前互联网络的发展以及普及,数据信息量在不断上涨,人们已经进入了一个信息爆炸的时代。人们除了利用现有的关系数据库标准查询语句得到一般的直观的信息以外,很多时候因为业务的需求不得不挖掘其内含的、未知的却又实际存在的数据关系,而这些数据关系往往是对业务存在极大价值,也是人们迫切想要知道的信息。这就对个人,尤其是对企业而言,如何从这些海量的数据当中挖掘出潜在的,有用的信息提出了不小的挑战。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息的过程。
[0003]一项MOCVD工艺包含了质量流量计、压力控制计、温度、转速等多个设备的实时数据。一项工艺一般要进行数个小时,从工艺开始到结束,会产生大量的实时数据以及操作记录。除了在工艺运行前预备的工艺运行方案以外,现场工艺运行中的一些实时操作也会对工艺结果造成影响,甚至有可能直接关系到工艺结果的好坏。因此,一项工艺运行当中的操作记录,即使在工艺运行过程当中没有出现意外或者报警,在一定程度上也存在可参考的价值。所以从这些实时的现场记录当中,挖掘出其中潜在的关联关系也对下次工艺的运行具有一定的参考意义。

【发明内容】

[0004]本发明所要解决的技术问题是,针对现有技术不足,提供一种用于预估MOCVD工艺结果的数据挖掘方法,预估计现场工艺运行中的实时操作对工艺结果的影响程度,并根据工艺结果的好坏,估计每一项操作的可行性,为下一次工艺操作提供指导。
[0005]为解决上述技术问题,本发明所采用的技术方案是:一种用于预估MOCVD工艺结果的数据挖掘方法,该方法为:
[0006]I)将MOCVD工艺数据以字符串格式存储在原始数据库中;
[0007]2)统计所述原始数据库中各MOCVD操作事件出现的次数,保留出现次数不小于最小支持度S的MOCVD操作事件,并记为I维元素,利用所述I维元素生成I维元素集L1 ;其中,最小支持度S取值范围为2?6 ;
[0008]3)将I维元素集L1中的I维元素两两合并,生成2维候选项目集C2 ;
[0009]4)计算2维候选项目集C2中的2维元素在原始数据库中的支持度,即统计C2中组成每个2维元素的I维元素在原始数据库各条操作记录中同时出现的次数,删除2维候选项目集C2中支持度小于最小支持度的2维元素,并将2维候选项目集C2中支持度不小于最小支持度的2维元素记录在2维元素项目集L2中;[0010]5)统计2维元素项目集L2中I维元素的频度,即统计2维元素项目集L2中所有I维元素出现的次数,并删除L2中包含有出现次数小于2的I维元素的2维元素,并用剩余的2维元素组成新的2维元素项目集L21 ;
[0011]6)利用新的2维元素项目集L21,根据步骤3)~步骤5)类推,直到生成k维候选项目集ck,并且利用Ck不能再生成下一维项目集;
[0012]7)计算Ck的支持度S(Ck),即计算Ck中组成每个k维元素的I维元素在原始数据库各条操作记录中同时出现的次数;设Ca为Ck的子集,设Ca中的元素为m维元素,计算Ca的支持度S (Ca),S (Ca)的支持度即Ck中组成每个m维元素的I维元素在原始数据库各条操作记录中同时出现的次数;其中,m < k ;
[0013]8)如果S (Ck) /S (Ca)≥最小置信度C,那么就存在如下规则Ca—〉Cs (a),其中Cs (a)为Ca在Ck中的补集,Ca—〉Cs (a)表示“由于执行了 Ca中元素的操作,可能发生Cs(a)中元素的操作”,最小置信度C的取值范围为0.4~I。
[0014]所述步骤I)中,原始数据库为日志记录表,所述日记记录表中包括若干条操作记录,每条操作记录均包括登记编号和操作事件。
[0015]所述步骤2)中,最小支持度S取值为3或4。
[0016]所述步骤8)中,最小置信度C取值为0.6或0.7。
[0017]MOCVD工艺数据一般为以下几种类型:质量流量计数据包括H2、N2、NH3三种载气流量,SiH4(硅烷)流量以及MO源(三甲基铝、三甲基镓、三乙基镓、二茂镁、三甲基铟)的流量;压力控制计数据包括反应室压力、三种载气压力和MO源压力;石墨盘的温度和转速。工艺操作主要就是对上述对象进行设置、更改。
[0018]与现有技术相比,本发明所具有的有益效果为:本发明将MOCVD工艺中写入到日志记录表中的多条操作记录合并、统计,挖掘出其中较为频繁的操作记录集,然后推导出这些记录之间的关联规则,最后根据MOCVD工艺结果的好坏,评估、分析这些操作对工艺结果所造成的影响,如果工艺结果理想,那么这些记录集可以作为下次工艺的参考;如果不理想,那么可以提醒工艺人员在进行下一次工艺时,尽量避免进行同样的一系列操作;本发明可靠性高,对MOCVD工艺的运行具有重要的参考意义。
【专利附图】

【附图说明】
[0019]图1为本发明一实施例挖掘最大频繁项目集的示意图。
【具体实施方式】
[0020]本发明的数据挖掘步骤如下:
[0021]步骤1:统计所有I维元素出现的次数,保留次数不小于最小支持度的I维元素,生成I维频繁项目集U。
[0022]步骤2:通过合并L1中所有I维频繁项,生成2维候选项集,以此类推。通过第(k-Ι)维频繁项集Llri,合并生成k维候选项集Ck。因为最大项目集的子集必为最大项目集。所以在计算Ck中元素支持度时,先删除Ck中所有(k-Ι)维子集不在Llrl中的项目集。
[0023]步骤3:扫描原始数据库,计算Ck中每个元素在原始数据库中的支持度。然后将统计后的支持度同最小支持度比较,删除那些支持度小于最小支持度的项目,生成k维频繁项集Lk。
[0024]步骤4:统计Lk中每个1维元素的个数,若它的计数小于k-1的话,说明该元素不是组成Lk+1项目集的元素。因为对一个1维元素而言,要成为k维项目集中的元素的话,该元素在k-1阶频繁项目集中的计数必须大于或等于k-1个,否则不可能生成k维项目集。
[0025]步骤5:重复步骤2的内容,直到不能再生成下一维项目集。
[0026]原始数据集是存储MOCVD工艺数据的一个数据集合,包含了数十张数据表,日志记录表是其中之一,表中每条日志记录包含了登记编号、登记日期、工艺编号、日志类型以及操作事件这5列内容。每条记录的内容都是以字符串的格式存储在数据表中。
[0027]本发明的数据挖掘方法是以日志表中的操作事件为对象,对每条操作事件进行编号,然后按两两组合的方式合并每条记录,生成高一维的数据记录集,然后统计这些数据记录集个数,挖掘出最大频繁项集。记录集的维数就是集合中每个元素包含的操作事件的个数,其中元素相当于前面的操作事件的内容,是一个字符串数据。
[0028]本发明的核心思想是利用频繁项集的任何非空子集必定是频繁的,非频繁项集的任何超集必定是非频繁的这一定论,以递归的方式,每次对数据库进行扫描来计算每一维的候选项集的支持度,发现所有的最大频繁项集后,进一步生成关联规则。
[0029]由于工艺数据量庞大,所以不可避免会出现影响算法效率的问题,主要是每一步产生候选项目集时循环产生的组合过多。考虑到上述问题,本发明采用了候选集元素计数的方法来减少产生候选集的组合,提高发明效率。
[0030]本发明中,最小支持度范围为[2,6],定义太小可能会得到很多无意义的结果。一般,数值越大得到的结果就越精确。但是定义过大又可能得不到任何结果,所以一般设置其为3或4。同理,最小置信度范围为[0.4,I],一般取值为0.6或0.7较为适中。
[0031]图1中,假定最小支持度support=3,最小置信度confidence=。.7, T1, T2....Tn表示每一事务的编号。I1,I2....In表示工艺中每一次操作记录,属于字符串格式,如下表1所示:
[0032]表1图1中I维元素代表的操作
[0033]
【权利要求】
1.一种用于预估MOCVD工艺结果的数据挖掘方法,其特征在于,该方法为: 1)将MOCVD工艺数据及对所述MOCVD工艺数据的工艺操作以字符串格式存储在原始数据库中; 2)统计所述原始数据库中各MOCVD操作事件出现的次数,保留出现次数不小于最小支持度S的MOCVD操作事件,并记为I维元素,利用所述I维元素生成I维元素集L1 ;其中,最小支持度S取值范围为2~6 ; 3)将I维元素集L1中的I维元素两两合并,生成2维候选项目集C2; 4)计算2维候选项目集C2中的2维元素在原始数据库中的支持度,即统计C2中组成每个2维元素的I维元素在原始数据库各条操作记录中同时出现的次数,删除2维候选项目集C2中支持度小于最小支持度的2维元素,并将2维候选项目集C2中支持度不小于最小支持度的2维元素记录在2维元素项目集L2中; 5)统计2维元素项目集L2中I维元素的频度,即统计2维元素项目集L2中所有I维元素出现的次数,并删除L2中包含有出现次数小于2的I维元素的2维元素,并用剩余的2维元素组成新的2维元素项目集L21 ; 6)利用新的2维元素项目集L21,根据步骤3)~步骤5)类推,直到生成k维候选项目集Ck,并且利用Ck不能再生成下一维项目集; 7)计算Ck的支持度S(Ck),即计算Ck中组成每个k维元素的I维元素在原始数据库各条操作记录中同时出现的次数;设Ca为Ck的子集,设Ca中的元素为m维元素,计算Ca的支持度S (Ca),S (Ca)的支持度即Ck中组成每个m维元素的I维元素在原始数据库各条操作记录中同时出现的次数;其中,m < k ; 8)如果S(Ck)/S (Ca)≥最小置信度C,那么就存在如下规则Ca—〉Cs (a),其中Cs (a)为(;在(;中的补集,C->Cs(a)表示“由于执行了 Ca中元素的操作,可能发生Cs (a)中元素的操作”,最小置信度C的取值范围为0.4~I。
2.根据权利要求1所述的用于预估MOCVD工艺结果的数据挖掘方法,其特征在于,所述步骤I)中,原始数据库为日志记录表,所述日记记录表中包括若干条操作记录,每条操作记录均包括登记编号和操作事件。
3.根据权利要求1所述的用于预估MOCVD工艺结果的数据挖掘方法,其特征在于,所述步骤2)中,最小支持度S取值为3或4。
4.根据权利要求1所述的用于预估MOCVD工艺结果的数据挖掘方法,其特征在于,所述步骤8)中,最小置信度C取值为0.6或0.7。
5.根据权利要求1所述的用于预估MOCVD工艺结果的数据挖掘方法,其特征在于,所述MOCVD工艺数据包括H2、N2, NH3> SiH4, MO源的流量,反应室压力,H2、N2, NH3> MO源压力,以及石墨盘的温度和转速;其中所述MO源为三甲基铝、三甲基镓、三乙基镓、二茂镁、三甲基铟中的一种或多种;所述工艺操作是指对所述MOCVD工艺数据进行设置、更改操作。
【文档编号】G06F17/30GK103605649SQ201310369410
【公开日】2014年2月26日 申请日期:2013年8月22日 优先权日:2013年8月22日
【发明者】陈立宁, 林伯奇, 肖慧, 何华云, 罗宏洋, 魏唯 申请人:中国电子科技集团公司第四十八研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1