用于基因芯片原位合成的虚拟掩模的生成方法

文档序号:6336720阅读:474来源:国知局
专利名称:用于基因芯片原位合成的虚拟掩模的生成方法
技术领域
本发明属于基因芯片原位合成领域,涉及一种用于基因芯片原位合成的虚拟掩模 的生成方法。
背景技术
经过十多年发展,基因芯片技术已日臻完善,其应用前景非常广阔。基因芯片的制 备方法根据是否事先合成寡核苷酸,大体可以分为点样技术和原位合成技术。美国Fodor 等人提出的光脱保护法是当今原位制备高密度基因芯片最为成功的方法之一。随后威斯康 辛大学的Singh-Gasson等人利用计算机设计的虚拟掩模光导向法来制备基因芯片。掩模 法的缺点在于一张芯片的合成需要的掩模量比较大,且定位要求严格,比较适合于中低密 度芯片的合成。每合成一个碱基需要一张掩模,掩模加工成本很高。虚拟掩模法则可以大 大简化芯片合成的工序,减少人工操作以及因此而带来的失误。同一芯片上如果合成的探 针序列相近或一致,则需要的掩模或虚拟掩模可以通过简单的手动排列方法获得。然而,一 张芯片上如果需要合成大量的不同的探针序列(比如100条探针以上的芯片),通过简单的 手动排序方法,计算工作量非常大,且很难满足设计需求。1、光脱保护法合成基因芯片简介使用光脱保护法合成基因芯片的步骤如

图1所示。承载羟基的玻璃基底被光敏保 护基团(例如黎芦基,NV0C)所遮盖;光线通过掩模照射到特定区域从而导致这些区域发生 光脱保护,基底上曝光部分的羟基便被激活;加入被光敏保护基团保护的第一种化学结构 单元(例如NVOC保护的腺嘌呤,NV0C-A)并使之与羟基反应;再使用另一张掩模对另一区 域进行光脱保护;加入第二种化学结构单元(例如NVOC保护的鸟嘌呤,NV0C-G)与新暴露 出的羟基反应;继续循环来得到期望的芯片探针阵列;最终用均一的光照射整个表面来去 除所有的光敏保护基团。2、公共超序列的算法每一张掩模对应一个反应循环,而每增加一个反应循环都会增加芯片的合成成本 并降低芯片合成的正确率。最简单的合成方案是周期性地加入A,C,G和T四种碱基进行 反应,一层一层地伸长探针的长度直到合成整个芯片。使用这种方法合成探针长度为K的 一张基因芯片大致需要进行4K个循环。Hubbell等人[2]提出每一步合成的碱基并不需要 处在同一层中,也就是说,在合成基因芯片时并不需要一层一层地增长探针,或者说在每一 个化学循环完成之后各个探针不一定长度一致(如图1所示,在合成位置2处和4处第一 层的两个鸟嘌呤时位置1处第二层的鸟嘌呤也同时被合成)。Kasif等人[3]发现对给定 探针阵列进行合成方案的优化等同于找出一组序列的最短公共超序列(shortest common supersequence,SCS)的问题。这个问题就是众所周知的NP-hard问题(non-deterministic polynomial),也就是说对于基因芯片上成千上万条探针来说,在有限的时间内很难用计算 机找到最短公共超序列。正因如此,许多研究者提出了试探性的寻找尽可能短的公共超序 列的方法。
2. 1贪婪算法Kasif等人[3]提出了两种基于给定长度为K的探针阵列的贪婪算法。在进行了若 干个循环的合成之后,阵列上每个位置的探针都被部分合成。将每条探针已合成的碱基数 定义为它的高度,此时已完成的工作可以用以下两种方式衡量(1)最短的部分合成的探 针的高度——“最小高度”;(2)所有已部分合成探针高度的总和——“总高度”。例如,在 图2d中阵列的最小高度为1而总高度为8(1+2+3+2)。“最小高度”算法(MH)选择能使最 短探针的长度增加的碱基作为下一个循环反应添加的碱基。用一个由A,C,G和T构成的 序列S来表示合成一个探针阵列所使用的方案,其中S[j]表示在第j个循环添加的碱基。 运用MH算法合成基因芯片的示例图如图2所示,合成的目的是在1,2,3,4四个位置分别合 成出CGAT,TACA,TATT和TTAT四条探针,实线上表示已经合成好的碱基,虚线上方表示待 合成的碱基。初始状态为图2a,表示基底上尚未合成任何碱基;合成的第一个碱基为胸腺 嘧啶(T),如图2b所示,在2,3,4三个位置分别合成一个T,虚线上方的相应位置的待合成 碱基分别减少一个;合成的第二个碱基为胞嘧啶(C),如图2c所示,在1的位置合成一个C, 虚线上方的相应位置的待合成碱基减少一个;合成的第三个碱基为腺嘌呤(A),如图2d所 示,在2,3的位置分别合成一个A,虚线上方的相应位置的待合成碱基分别减少一个;合成 的第四个碱基为胸腺嘧啶(T),如图2e所示,在3,4的位置分别合成一个T,虚线上方的相 应位置的待合成碱基分别减少一个;合成的第五个碱基为鸟嘌呤(G),如图2f所示,在1的 位置合成一个G,虚线上方的相应位置的待合成碱基减少一个;合成的第六个碱基为腺嘌 呤(A),如图2g所示,在1,4的位置分别合成一个A,虚线上方的相应位置的待合成碱基各 减少一个;合成的第七个碱基为胞嘧啶(C),如图2h所示,在2的位置合成一个C,虚线上方 的相应位置的待合成碱基减少一个;合成的第八个碱基为胸腺嘧啶(T),如图2i所示,在1, 3,4的位置分别合成一个T,虚线上方的相应位置的待合成碱基各减少一个;合成的第九个 碱基为腺嘌呤(A),如图2 j所示,在2的位置合成一个A,虚线上方的相应位置的待合成碱 基减少一个。至此,四条探针合成完毕,合成的顺序为S = [TCATGACTA],也就是说这个由四 条长度为四的探针组成的简单的基因芯片可以按‘TCATGACTA’的顺序通过9个循环合成。 “总高度”算法(SH)选择能够使探针阵列总高度增加最多的碱基作为下一个循环反应添加 的碱基。对图2j所示的探针阵列运用SH算法得到S = [TACTATGAT]。用SH算法得到的方 案与MH算法的方案需要同样数目的循环,不过合成顺序有所不同。2. 2展望算法展望算法是对贪婪算法的一个延伸,这种算法先向前展望几个步骤再决定添加哪 一种碱基。定义两个整数1和k,其中1 <k。基于SH算法的展望算法运行方式如下(i) 分析使用各种不同的方案(方案数目为4k)进行k次合成后各条探针的状态;(ii)计算不 同的方案对探针阵列“总高度”的增加量;(iii)选择可使“总高度”增加最多的方案的前1 个碱基作为后续1步依次添加的碱基;(iv)重复操作直到所有探针合成完毕。这种展望算 法简称为(k,D-LA-SH.可以理解增加k的值可能得到更好的方案,但同时会大幅度地增 加计算机的运算量。经过一些实验发现(3,1)-LA-SH在运算量不太大的情况下可以得到比 较好的结果。可以看出,(1,1)-LA-SH算法就是SH算法。同样,基于MH的展望算法为(k, D-LA-MH.对于图2j所示的探针阵列来说,使用(2,1)-LA-SH算法得到长度为8的序列S =[TACTAGAT],而使用(3,1)-LA-SH算法得到长度为7的序列S = [TACGTAT]。
4
2. 3后处理算法Ning等人M提出了一种基于已知超序列和其对应生成算法的缩短超序列的后处 理算法。这种算法的执行步骤如下所示输入已知探针阵列的一条超序列S = S[1]S[2]· · · S[m]以及生成这条超序列的 算法A(可以是以上提到的任何一种算法,也可以是其它算法)。程序流程(1)对于从1开始的每一个i (1≤i≤m)(a)对于每一条序列 ρ = ρ[1]ρ[2]···ρ[Κ],定义 pi = P[jp]p[jp+l]· · · P[K] 为超序列的右半部分SHght = S[i+l]S[i+2]...S[m]所对应的最长的子序列,其中jp = K-Ip' +1 ;(b)对由p2 = p[l]p[2].. . p[jp_l]组成的阵列运用算法A得到超序列S’ .(c)如果 S,比 Sleft = S[1]S[2]· · · S[i]短,执行(2).(2)将 S = SleftSright 替换为 S = S’ Sright.将 i 置 1,继续执行(1),直到 i = m。对于图2j所示的探针阵列来说,使用算法A为SH的后处理方法得到长度为7的 序歹Ij S = [TACTGAT]。上述这些方法的目的都是在于找到一个尽可能短的超序列。但是,不同方法对同 一探针阵列的运算结果也不同,没有哪一种方法能体现特别的优势,因此有必要找到一套 更为合理的方案,使反应循环次数尽可能降低。参考文献[l]Fodor S P A. DNA sequencing :massively parallel genomics[J]. Science, 1997,277(5324) 393 395.[2]Hubbell E A,Morris M S,Winkler J L. Computer-aided engineering system for design ofsequence arrays and lithographic masks :US,5856101[P]. 1999.[3]Kasif S, Weng Z,Derti A,Beigel R,Delisi C.A computational framework for optimal maskingin the synthesis of oligonucleotide microarrays[J]. Nucleic Acids Research,2002, 30(20), el06.[4]Ning K, Choikp, Leong Hff, Zhang L. A post-processing method for optimizing synthesisstrategy for oligonucleotide microarrays[J]. Nucleic Acids Research,2005,33(17),el44.

发明内容
本发明的目的是提出一种用于基因芯片原位合成的虚拟掩模的生成方法,本发明 的用于基因芯片原位合成的虚拟掩模的生成方法生成虚拟掩模的效率高、节省芯片制备成 本。本发明的技术解决方案如下一种用于基因芯片原位合成的虚拟掩模的生成方法,包括以下步骤步骤1 读入表征探针阵列的数据;步骤2 寻找探针阵列的公共超序列;对探针阵列进行翻转前和翻转后两次超序列运算,将最短的一个超序列作为公共超序列;步骤3 根据公共超序列确定曝光点分布;步骤4:输出掩膜图。步骤3中,确定曝光点分布的方法采用常规方法按照基因芯片原位合成的顺序 以每张掩模图包含曝光点数最多为原则确定曝光点分布。步骤3中,确定曝光点分布的方法采用均勻化方法对每张掩模图曝光点数目的 均勻化是基于每一条探针与超序列的对应关系的改变实现的,具体方法为先将各个探针 与超序列靠左对应,然后引入变量N和R来引导探针排布向右扩散匹配;其中N为每次增加 的从超序列右端开始搜索的碱基个数,R为探针上某个碱基与超序列匹配搜索区域,就是从 超序列上倒数第m个碱基开始,到上次所匹配的超序列碱基位置前结束,m是N与该探针中 某个碱基排列倒数序号的乘积;探针上的碱基所匹配的超序列位置为R内最靠左端的匹配 碱基,当探针阵列中每一条探针都以相同的方法与超序列匹配完成后,计算超序列前半部 分与后半部分所对应的碱基总数,逐步调节N的值,直至超序列前、后两部分所对应的探针 碱基数的差值达到最小,便得到最好的均勻化结果。掩模图采用bmp格式,探针阵列存放在excel文件中,掩膜图尺寸为1024*768像
ο在进行翻转操作时得到的超序列是翻转后的探针阵列的超序列,我们需要的是原 来探针阵列的超序列。所以在步骤2中用翻转操作得到超序列的时候随即就把这条超序列 翻转过来了,成为真正的超序列。特此说明。关于翻转的技术思路本发明的翻转操作是可以针对以上任何一种算法或其它已知算法的,也可以用翻 转操作对多种算法进行操作,选出最优结果。翻转操作的出发点是我们发现一个探针阵列 在翻转前后用同一种算法进行运算可以得到长度不同的超序列;这样两条不同的超序列中 必然有一条较短的;这条短的超序列可能是翻转前的,也可能是翻转后的。并不是说翻转后 了就一定会缩短,在40%左右的情况中是翻转前超序列短,另外40%左右的情况下是翻转 后超序列短,还有20%左右的情况下是前后长度一样。我们的翻转操作的价值体现在针对 某一个探针阵列,不管采用什么方法进行运算,加入翻转的这个步骤后,大概有40%左右的 可能性会得到一个更好的结果。本发明的技术解决方案由五个模块组成,程序流程图如图3所示。1、读入数据“读入数据”模块可将需合成基因芯片的探针阵列读入系统以进行下一步操作。在 默认情况下,系统读取后缀名为“.xls”的Excel文件。选择文件后,计算机读取所选Excel 文件中Sheetl中的探针阵列。该模块也可扩展为读入其他格式文件的探针阵列。2、寻找公共超序列在技术背景中所述的几种算法中,超序列的生成过程与合成基因芯片的过程顺序 一致(从底部到顶部)。我们观察到如果按照与芯片合成相反的方向运行各种算法,可能 得到一条长度不同的超序列。换句话说,将一个阵列中每条探针反向放置后运用某一算 法计算出的超序列与用同种算法对原探针阵列进行运算的结果会有所不同。例如,对于图 2j中所示的四条探针CGAT,TACA,TATT和TTAT,使用MH算法得到长度为9的超序列S =[TCATGACTA];而对于四条与原探针反向的探针TAGC,ACAT, TTAT和TATT运用MH算法得到 长度为8的超序列S,= [TATCAGTC],具体步骤如图4所示,除首先要对所有探针实行翻转 操作外,其它步骤同图2。S’是翻转后的四条探针的超序列,最后对S’进行翻转得到的序 列S” = [CTGACTAT]就是原来的四条探针CGAT,TACA, TATT和TTAT的一条超序列。这样, S和S”都是四条探针的超序列,但他们的序列长度有所不同。在运用各种算法进行超序列 的运算的同时对翻转后的探针阵列进行运算,会得到两组不同的数据,选择这两组数据中 超序列长度较短的一组,便可得到更好的结果。该运算过程的流程图如图5所示。3、确定掩模图曝光点的分布情况本发明提供两种确定曝光点的分布操作方法,每一个曝光点对应一个碱基的合成 位点。第一种为常规方法,也就是按照基因芯片原位合成的顺序以每张掩模图包含曝光点 数最多为原则确定曝光点分布,第二种为均勻算法,就是按照各张掩模图包含曝光点数目 均勻的原则确定曝光点分布。第一种操作类似于SH算法的反向操作。例如,对于图2j所示的由四条探针组成 的探针阵列,已经找到最短超序列S= [TACGTAT],即需生成7张掩模图。从超序列的第一 个碱基开始,将各条探针与超序列碱基一致的碱基并入对应的掩模图。如图6所示,实线上 碱基的位置表示相应掩模图上曝光点的位置,虚线上方表示除去已合成碱基后还需要合成 的碱基。超序列第一个碱基为胸腺嘧啶(T),所以第一张掩模图曝光点位置为2,3,4,合成 碱基数为3,如图6a所示;超序列第二个碱基为腺嘌呤(A),所以第二张掩模图曝光点位置 为2,3,合成碱基数为2,如图6b所示;超序列第三个碱基为胞嘧啶(C),所以第三张掩模图 曝光点位置为1,2,合成碱基数为2,如图6c所示;超序列第四个碱基为鸟嘌呤(G),所以第 四张掩模图曝光点位置为1,合成碱基数为1,如图6d所示;超序列第五个碱基为胸腺嘧啶 (T),所以第五张掩模图曝光点位置为3,4,合成碱基数为2,如图6e所示;超序列第六个碱 基为腺嘌呤(A),所以第六张掩模图曝光点位置为1,2,4,合成碱基数为3,如图6f所示;超 序列第七个碱基为胸腺嘧啶(T),所以第七张掩模图曝光点位置为2,3,4,合成碱基数为3, 如图6a所示;超序列第一个碱基为胸腺嘧啶(T),所以第一张掩模图曝光点位置为1,3,4, 如图6g所示;至此,四条探针合成完毕,七张掩模图也同时生成。第二种操作,或者说是均勻化算法,对每张掩模图曝光点数目的均勻化是基 于每一条探针与超序列的对应关系的改变实现的。假设某个探针阵列的超序列为 ACGTACGTACGTACGT,阵列中某个探针的序列为ACGT,如果按照第一种算法,探针的各个碱基
会与超序列的前四个碱基对应
ACGTACGTACGTACGT ACGT这就导致了各个探针的碱基优先在超序列的左端堆积。在均勻化算法中,先将各个阵列探针按照简单算法与超序列靠左对应,然后引入 变量N和R来引导探针排布向右扩散匹配。其中N为每次增加的从超序列右端开始搜索的 碱基个数,表示将探针向右扩散的强度,N的值越小,探针向右扩散得越明显。R为探针上某 个碱基与超序列匹配搜索区域,就是从超序列上倒数第m个碱基开始(m是N与该探针中某 个碱基排列倒数序号的乘积),到上次所匹配的超序列碱基位置前结束。探针上的碱基所匹配的超序列位置为R内最靠左端的匹配碱基,当探针阵列中每一条探针都以相同的方法与超序列匹配完成后,计算超序列前半部分与后半部分所对应的碱基总数,逐步调节N的值 (开始值为1),直至超序列前、后两部分所对应的探针碱基数的差值达到最小,便得到最好 的均勻化结果。操作流程图如图7所示。以超序列ACGTACGTACGTACGT和探针ACGT为例。比如, 当N的值为3时,程序对超序列和探针ACGT执行以下操作(1)针对探针最后一个碱基T,确定搜索区域R为超序列倒数N个碱基,即14 16 个碱基。在此区域中对T进行匹配,结果如下,探针的T与超序列第16位的T匹配
权利要求
1.一种用于基因芯片原位合成的虚拟掩模的生成方法,其特征在于,包括以下步骤步骤1 读入表征探针阵列的数据;步骤2 寻找探针阵列的公共超序列;对探针阵列进行翻转前和翻转后两次超序列运算,将最短的一个超序列作为公共超序列;步骤3 根据公共超序列确定曝光点分布;步骤4:输出掩膜图。
2.根据权利要求1所述的一种用于基因芯片原位合成的虚拟掩模的生成方法,其特征 在于,步骤3中,确定曝光点分布的方法采用常规方法按照基因芯片原位合成的顺序以每 张掩模图包含曝光点数最多为原则确定曝光点分布。
3.根据权利要求1或2所述的一种用于基因芯片原位合成的虚拟掩模的生成方法,其 特征在于,步骤3中,确定曝光点分布的方法采用均勻化方法对每张掩模图曝光点数目的 均勻化是基于每一条探针与超序列的对应关系的改变实现的,具体方法为先将各个探针 与超序列靠左对应,然后引入变量N和R来引导探针排布向右扩散匹配;其中N为每次增加 的从超序列右端开始搜索的碱基个数,R为探针上某个碱基与超序列匹配搜索区域,就是从 超序列上倒数第m个碱基开始,到上次所匹配的超序列碱基位置前结束,m是N与该探针中 某个碱基排列倒数序号的乘积;探针上的碱基所匹配的超序列位置为R内最靠左端的匹配 碱基,当探针阵列中每一条探针都以相同的方法与超序列匹配完成后,计算超序列前半部 分与后半部分所对应的碱基总数,逐步调节N的值,直至超序列前、后两部分所对应的探针 碱基数的差值达到最小,便得到最好的均勻化结果。
4.根据权利要求3所述的用于基因芯片原位合成的虚拟掩模的生成方法,其特征在 于,掩模图采用bmp格式,探针阵列存放在excel文件中,掩膜图尺寸为1024*768像素。
全文摘要
本发明公开了一种用于基因芯片原位合成的虚拟掩模的生成方法,其步骤包括步骤1读入表征探针阵列的数据;步骤2寻找探针阵列的公共超序列;对探针阵列进行翻转前和翻转后两次超序列运算,将最短的一个超序列作为公共超序列;步骤3根据公共超序列确定曝光点分布;步骤4输出掩膜图。本发明的用于基因芯片原位合成的虚拟掩模的生成方法生成虚拟掩模的效率高、节省芯片制备成本。
文档编号G06F17/50GK102004833SQ201010558170
公开日2011年4月6日 申请日期2010年11月25日 优先权日2010年11月25日
发明者刘正春, 杨飞鹏, 邬燕琪 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1