专利名称:一种高通量组合实验中的空间填补最优设计方法
技术领域:
本发明涉及一种最优设计方法,具体地说是一种适用于高通量组合实验 系统,也可用于低通量组合实验中系统数据的分析的空间填补最优设计方法。
背景技术:
近年来,高通量组合实验在材料科学中,尤其是新材料的发展中,应用 日趋广泛。针对采样数据的准备及特特征,尽管实验设备和技术做了很大改 进(有代表性的改进之一就是高端的自动化操作),但对于实验设计和实验结 果的分析关注仍然较少。许多用于传统实验设计和数据分析的方法仍然只是 简单地移植用于高通量组合实验中。然而,值得注意的是,高通量组合实验 方法特征往往与传统实验设计方法有一些显著不同
(1) 相比于传统实验设计,高通量组合实验往往涉及多因素,即因素空 间维数大,而且每个考虑的因素变化范围也很宽。
(2) 传统实验设计中,往往会考虑以最少的实验次数来获得所须信息。 然而,在高通量组合实验设计中,保持实验次数最低并不是最重要的原则。 对参数组合间进行上百次或上千次的实验循环是很正常。例如, 一种多重高 通量生物学和化学试验装置,采用重复性探针阵列的组分,其表面含有多个 测定区来测定实验数据。
(3) 高通量技术往往自动化程度高。因而, 一般来说(至少相比于手动 操作方法),这也说明可获得更高的可重复性、更低的不可控变化以及更小的 实验误差。
在高通量组合实验,为了进一步探究参数空间,传统的方法通常是开展 一系列新的实验测试,并重复这一过程。但是, 一个明显的问题是如何有效 地选取下一批实验测试点。人们通常自然地会想到"完全探测"出参数空间, 基于这种尽可能多地利用实验数据来进行"训练"的方法已经有了不少研究, 比如批量迭代法、神经网络法、遗传算法。但是,这些方法由于都不是通 过参数空间严格数学推导建立的,所以都不是严格意义可靠的优化设计方法, 并且这些设计方法中设计参数依赖比较严重。例如,神经网络系统网络初始 权值对于学习是否达到局部最小、是否能够收敛以及训练时间的长短的关系 很大;另外,若网络中间隐层的节点过少,则网络难以处理复杂的问题,但
3若中间隐层的节点过多,则将使网络学习时间急剧增加,而且还可能导致网 络学习过度,使网络抗干扰能力下降。目前,还没有完善的理论来指导中间 隐层节点数的选择而只是结合实际情况进行试探性选择再逐步优化。在遗传 算法中,算法对初始种群的选择对有一定的依赖性。另外,这些设计方法对 于新增数据情况下,不能在充分利用原有优化设计结构,只能对整套数据进 行重新学习或训练。因此,有必要建立一种科学可靠的优化设计方法来分析 高通量组合实验。
本发明的目的在于克服上述不足之处,从而提供一种新的高通量组合实 验空间填补最优设计方法,充分利用了新增实验前的优化设计结构,降低设 计处理的重复性,提高设计的科学性、可靠性。
按照本发明提供的技术方案, 一种高通量组合实验中的空间填补最优设 计方法包括如下步骤
(1) 根据高通量组合实验数据,确定实验数据空间维数;所述实验数据
空间维数,即实验因素的数目。
(2) 计算最优指标均方逼近误差s来衡量空间填补设计的效果,以获得 基本元胞的最优设计结构。均方逼近误差s的计算方法如下
令^(;c)-x,;^2, /,j、l,2,L ,"用以衡量实验元胞£内实际数据单位最大值,
^)为元胞E上^.0c)的线性插值;定义均方逼近误差为
其中,度量因子(2&)"说明了元胞£的"容积","("+ l)/2表示累和中项的总数。
(3) 基本元胞的扩展即把上述结果扩展到整个实验元胞五以便覆盖
na]范围的实验数据。
(4) 计算所需最少实验点数
其中,iV"是第;个点中所含O的个数,M"是第/个点中所含1的个数, ;^" + l是n维设计中, 一个基本元胞设计的点数,^是数据空间覆盖范围最
发明内容
"("+ l)(2/ )'
d为奇数时,所需最少实验点数A^^p小整数。
(5)根据上述最优设计在数据空间所需最少实验点数计算公式对基本元 胞进行精制化设计,进一步优化设计效果,以得到明显的实验改进结果。
所述均方逼近误差s的意义是基于采样点《线性插值二次逼近能力的一 种度量。
本发明首先采集实验数据,再对所测量的数据综合评估,确定数据空间 维数、数据范围,然后通过一系列的数据分析、指标计算、优化实验元胞结 构的设计,并进一步地实施新实验数据的采集,在前一次优化设计基础上进 行精制化设计。
本发明与已有技术相比具有以下优点实现了一种基于自适应空间填补 最优设计的高可靠性,并达到利用高通量组合实验中尽可能少的试验点来获 得需要的信息,适用于高、低维数据空间优化设计,弥补了现有技术如神经 网络法、遗传算法学习训练时对初始值过于依赖的缺点,充分利用原有优化 设计结构从而大大提高了优化设计效率,是高通量组合实验设计中的重要环 节。相比于用规则的立方格子来设计所需实验点数A^W (w表示维数,d表
示基本元胞数),本发明设计方法所需实验点数A^(I)"(" + 1)有着显著优点。
图1是本发明总体流程图。
图2是三维空间中所有2种最佳元胞设计结构示意图。
图3是四维空间中一种最佳元胞设计结构示意图。
图4是三维空间第x,维方向复制基本元胞效果示意图。
图5是应用实例中基本元胞区域示意图。
图6是几种低维数据空间"=3,4,5,6,7的最优设计结构组合矩阵示意图。 图7是本发明所述高通量组合实验优化设计总流程图。
具体实施例方式
为了更好地理解本发明的技术方案,以下结合附图作进一步的详细描述, 并在最后给出一个应用实例。
本发明所要解决的是如何设计一种科学性、数学严密性、可靠性及少 随机依赖性的最优方法用于高通量组合实验。
如图l所示,本发明的技术方案是根据测量的实验数据先确定实验数据 空间维数,计算均方逼近误差,再通过所得均方逼近误差最小的基本元胞的确定其组合矩阵,然后将该基本元胞设计扩展到整个实验数据空间中,评估 整个实验元胞优化设计效果如果满足预期目标,则结束设计;如果不满足,
则在均方逼近误差较大的位置增加新的测量数据点,进一步精制化设计。
先给出几个概念词说明如下
自适应最优空间填补根据某一误差指标,通过优化设计能确定数据空 间中误差指标大的位置,从而在该位置应填补或增加新的实验数据点。
实验元胞(结构)在一个w维的实验数据空间中,每一维数据范围都包
含在[-/a] ">o)中,则立体空间结构[-;a]"即为实验元胞。
基本元胞单元立体空间结构[-U]"。
最佳元胞设计结构使得某一评估指标达到最优时的基本元胞。 精制化设计通过基本元胞的设计、扩展,计算实验点数,再进一步对 某些误差指标不够理想的基本元胞进行优化设计。
高通量组合实验如图7所示,其优化设计总流程为
采集实验数据;
测试数据的综合;
评估数据特征;
数据分析、建模、优化;
新实验数据采集;如此循环。
本发明具体实施方式
如下
第一步确定实验数据空间维数(即实验因素的数目),再计算最优指标
(均方逼近误差f)以得到整个基本元胞的最优设计。
本发明提出了一种基于自适应空间填补最优设计的方法,主要是基于一 种最优指标(均方逼近误差s)来评估设计优劣,并针对实验或采样点来"填
充"实验数据空间。其基本原理如下 考虑"维实验数据空间中,定义
a、 £ = [-/^]"为一个数据范围包含在[-/^],/|>0内的实验元胞;
b、 ^,L,^(,、l,L," + l)第/组测量实验点数据组,比如说第l维(温度) 属性第/次测量的实验点数据为&,第2维(浓度)属性的第/次测 量实验点数据为&,依次类推;
C、f=0;n,L,;;, ), / = 1,L ," + l为第/组测量实验数据向量,尸为("+ l)x"的
矩阵,其中^=々"=1山,"+ l,y' = l,L ,"; d、向量:c,0vL ,、+1)/,即矩阵P的第/列向量,其中"l,L,";e、优化设计矩阵为2=[1( +1><1尸],其中,1( +1><1表示所有元素为1的("+ l)" 向量。在优化试验中发现,当Z为非奇异矩阵(或等价于P的秩为" 时,才有可能获得最优设计结构。
于是,对任意一组测量实验数据^^OvL,^)eE,它在实验元胞中针对
以某一实际目标函数值(如/ = >^^)的二次线性插值可以计算如下
先选取w + l个基本元胞的顶点测量实验数据(即y,仅为-A或A的情况), 组成矩阵P,从而得到优化设计矩阵2=[^+1><1尸];再分别计算这"+ l次测量所
对应的实际目标函数值y;( i,L ,"+i),得到,—y;,/2,L ,/ ,/ +1f;接着求出基
本元胞二次线性插值函数矩阵^-["。,",,L,^:r-z-'F;最后求出任意测量数据
外在基本元胞内的二次线性插值"=(1,賴.」。上述几个向量和矩阵维数如下 尸("+ l)XW,Z: (W + 1)X(W + 1) ,F:(" + l)xl,丄("+ l)xl。
现给出最优指标(均方逼近误差S)的定义。令^.(X^X,JC/A2 (相当于上
述的y;), /,_/=1,2山,"用以衡量实验元胞£内实际数据单位最大值;(相
当于上述的身)为元胞E上^(;c)的线性插值。定义均方逼近误差为
s =-^-1 f 0)—沐))2血,
其中,度量因子(2/z)"说明了元胞E的"容积","("+ l)/2表示累和中项的 总数。f的意义可以看成是基于采样点f线性插值二次逼近能力的一种度量。 基于这一评估属性来衡量空间填补设计的效果,提炼最优设计结构,并针对 进一步的实验数据精炼优化结构以满足实际需要。
以三维和四维数据空间为例,基本元胞最优设计如下 三维空间由于任意范围的实验数据都可以通过标准化转换到[-1,1]内, 所以假定一个基本元胞的范围是[-U]。显然, 一个维数等于3(" = 3)的元胞有 2"=8个实验点供选择,因此,从中选择4个测试共有《=70组合,计算出这
70个组合情况的最优指标属性进行比较,得到2种等效最佳元胞设计结构 (A,A),其均方逼近误差值均为^ = 2.933 。它们的基本元胞设计结构如图2
所示,设计点组合矩阵如下,其中纵向表示维数,横向表示实验点。<formula>formula see original document page 8</formula>四维空间类似于三维空间分析, 一个维数等于4(" = 4)的元胞有2"=16 实验点供选择。因此,从中选择5个测试共有C二4368组合,计算出这4368 个组合情况的最优指标属性进行比较,得到8种等效最佳元胞设计结构,其 均方逼近误差值均为s = 5.689 。图3所示为8种最佳元胞设计结构中的一种最 佳元胞设计结构图,图3 (a)中第四维坐标为-1,图3 (b)中第四维坐标为 1。该元胞设计点组合矩阵如下<formula>formula see original document page 8</formula>
第二步基本元胞的扩展,即把上述结果扩展到整个实验元胞£以便覆
盖范围[-;a]的实验数据。例如,如果在三维空间中,可以把在[-u]范围内的
元胞扩展以覆盖[-1,5]范围内的实验数据,图4所示为该元胞结构在第;c,维方 向进行扩展后的设计效果示意图。
第三步计算所需最少实验点数,对基本元胞进行精制化设计在引入 附加实验点的情况下,结合已得到的最优设计结构,进一步优化设计效果, 以得到明显的实验改进结果。对于最少所需实验点数的计算,通过对实验数 据空间分析、总结,提出精制化设计前所需最少实验点数计算公式如下 符号说明
iVf:第Z个点中所含O的个数, Af :第/个点中所含1的个数,
;^n + l: n维设计中, 一个基本元胞设计结构的点数, 么-数据空间覆盖范围最小整数,
情况I:"为奇数时,所需实验点数^,<formula>formula see original document page 8</formula>情况II:
"为偶数时,所需实验点数W<formula>formula see original document page 8</formula>对于一个给定的实验元胞,如果基本元胞数为奇数时,所需最少实验数
是一个固定不变的数,因为它不依赖于ivT (第/个点中所含o的个数)和M" (第i个点中所含i的个数),而当基本元胞数为偶数时,所需最少实验数则
可能变化,因为一个基本元胞设计和它的等效设计会有不同的0-1组合。
下面给出一个应用实例环氧及其他热固(性)聚合物特性中固化剂混合 物的效果组合实验。在这一实验中,由于变量是四维实验设计并且对每一维 变量都有约束,&卩()《、+ & + &《4,()《14《4。从而整个基本元胞结构是一个超 四面体。对于0^14-4范围内的任一^4,基本元胞区域示意于图5中粗线围成 的超四面体区域。设计步骤如下
第l步任选一个四维空间中最优基本元胞设计结构-
肌
1111 一l 一l -1 1 -11 1-1 1-11-1 1 1-1 一l
第2步根据^,利用列的逆变换操作计算所有等效情况(通过计算只 有15种情况)。
第3步利用这15种等效设计,通过元胞扩展操作覆盖范围
。
第4步对于每一种情况,找出那些被包含或部分被包含在区域
0《x4 S 4, 0 2 x, + x2 + x3 S 4
内的元胞。
第5步对于这些元胞中含有少于5个实验点在区域内的情况,通过综
合分析添加新的有效实验点。
第6步对15种情况分别计算出最优指标(均方逼近误差"值,最后
选定那些所需实验点数最少的设计。
通过上面的流程,我们得到下面这一最优设计模式
权利要求
1、一种高通量组合实验中的空间填补最优设计方法,其特征是所述方法包括如下步骤(1)根据高通量组合实验数据,确定实验数据空间维数;所述实验数据空间维数,即实验因素的数目;(2)计算最优指标均方逼近误差ε来衡量空间填补设计的效果,以获得基本元胞的最优设计结构;均方逼近误差ε的计算方法如下令qij(x)=xixj/h2,i,j=1,2,L,n用以衡量实验元胞E内实际数据单位最大值,qij%(x)为元胞E上qij(x)的线性插值;定义均方逼近误差为<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><mi>ϵ</mi><mo>=</mo><mfrac> <mn>2</mn> <mrow><mi>n</mi><mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo></mrow><msup> <mrow><mo>(</mo><mn>2</mn><mi>h</mi><mo>)</mo> </mrow> <mi>n</mi></msup> </mrow></mfrac><munderover> <munder><mi>Σ</mi><mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn></mrow> </munder> <mrow><mi>i</mi><mo>≤</mo><mi>j</mi> </mrow> <mi>n</mi></munderover><msub> <mo>∫</mo> <msup><mrow> <mo>[</mo> <mo>-</mo> <mi>h</mi> <mo>,</mo> <mi>h</mi> <mo>]</mo></mrow><mi>n</mi> </msup></msub><msup> <mrow><mo>(</mo><msub> <mi>q</mi> <mi>ij</mi></msub><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><msubsup> <mi>q</mi> <mi>ij</mi> <mo>%</mo></msubsup><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>)</mo> </mrow> <mn>2</mn></msup><mi>dx</mi><mo>,</mo> </mrow>]]></math></maths>其中,度量因子(2h)n说明了元胞E的“容积”,n(n+1)/2表示累和中项的总数;(3)基本元胞的扩展即把上述得到的基本元胞设计结果扩展到整个实验元胞以便覆盖[-h,h]范围的实验数据;(4)计算所需最少实验点数d为奇数时,所需最少实验点数<maths id="math0002" num="0002" ><math><![CDATA[ <mrow><msub> <mi>N</mi> <mrow><mi>p</mi><mn>1</mn> </mrow></msub><mo>=</mo><mi>p</mi><msup> <mrow><mo>(</mo><mfrac> <mrow><mi>d</mi><mo>+</mo><mn>1</mn> </mrow> <mn>2</mn></mfrac><mo>)</mo> </mrow> <mi>n</mi></msup><mo>=</mo><mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo></mrow><msup> <mrow><mo>(</mo><mfrac> <mrow><mi>d</mi><mo>+</mo><mn>1</mn> </mrow> <mn>2</mn></mfrac><mo>)</mo> </mrow> <mi>n</mi></msup><mo>,</mo> </mrow>]]></math> id="icf0002" file="A2009100262240002C3.tif" wi="59" he="10" top= "150" left = "105" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>d为偶数时,所需实验点数<maths id="math0003" num="0003" ><math><![CDATA[ <mrow><msub> <mi>N</mi> <mrow><mi>p</mi><mn>2</mn> </mrow></msub><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>p</mi></munderover><msup> <mrow><mo>(</mo><mfrac> <mi>d</mi> <mn>2</mn></mfrac><mo>+</mo><mn>1</mn><mo>)</mo> </mrow> <msubsup><mi>N</mi><mi>i</mi><mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo></mrow> </msubsup></msup><msup> <mrow><mo>(</mo><mfrac> <mi>d</mi> <mn>2</mn></mfrac><mo>)</mo> </mrow> <msubsup><mi>N</mi><mi>i</mi><mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo></mrow> </msubsup></msup><mo>,</mo> </mrow>]]></math> id="icf0003" file="A2009100262240002C4.tif" wi="49" he="11" top= "164" left = "94" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>其中,Ni(0)是第i个点中所含0的个数,Ni(1)是第i个点中所含1的个数,p=n+1是n维设计中,一个基本元胞设计的点数,d是数据空间覆盖范围最小整数;(5)根据上述最优设计在数据空间所需最少实验点数计算公式对基本元胞进行精制化设计,进一步优化设计效果,以得到明显的实验改进结果。
2、根据权利要求1所述的高通量组合实验中的空间填补最优设计方法, 其特征在于所述均方逼近误差s的意义是基于采样点《线性插值二次逼近能力的一种度量。
全文摘要
本发明提出了一种高通量组合实验的空间填补最优设计方法,可有效解决现有技术对高通量组合实验优化设计时对初始值过于依赖的问题。首先确定实验数据空间维数(即实验因素的数目),建立优化指标模型,求解最优指标(均方逼近误差)以得到实验元胞最优设计结构。然后对基本元胞进行扩展,把设计结果扩展到多个实验设计结构单元以便覆盖所需范围的实验数据。最后对基本元胞进行自适应精制设计,以得到明显的实验改进结果。本发明提供了一种高通量组合实验中数据空间的优化方法,降低了设计处理的重复性,提高了设计的科学性、可靠性,适用于高、低维数据空间优化设计,具有实质性特点,是材料科学和工程领域等高通量组合实验设计的重要环节。
文档编号G06F17/50GK101526968SQ20091002622
公开日2009年9月9日 申请日期2009年3月17日 优先权日2009年3月17日
发明者崔宝同, 楼旭阳 申请人:江南大学