用于基因沉默的siRNA的设计方法

文档序号：6503917阅读：1850来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

专利名称：用于基因沉默的siRNA的设计方法
根据35U.S.C.§119(e)的规定，本申请要求2004年5月17日提交的美国临时申请第60/572,314号和2003年10月27日提交的美国临时申请第60/515,180号的优先权，本文将该每一申请全部引入作为参考。
1.发明领域本发明涉及鉴定转录本中siRNA靶基序(motif)的方法。本发明还涉及鉴定siRNA靶外基因的方法。本发明还涉及设计具有较高沉默效率和特异性的siRNA的方法。本发明还涉及包含具有高沉默效率和特异性的siRNA的siRNA文库。
2.发明背景RNA干扰是抑制哺乳动物细胞中基因表达的有效方法，并在科学界产生了强烈的反响(Couzin，2002，Science 2982296-2297；McManus等人，2002，Nat.Rev.Genet.3，737-747；Hannon，G.J.，2002，Nature 418，；Paddison等人，2002，Cancer Cell 17-23)。RNA干扰在从线虫到人的整个进化过程中是保守的，并确信具有保护细胞免受RNA病毒入侵的作用。当细胞受到dsRNA病毒感染时，该dsRNA被识别并靶定，被称为Dicer的RNaseIII-型酶裂解。该Dicer酶将RNA“dices”成21nt的短双链，称为siRNA或短干扰RNA，包括19nt完全配对的核苷酸和两个在各链的3′端不配对的核苷酸。这些短的双链与称为RISC的多蛋白复合体结合，并利用与该siRNA的序列相似性而将该复合体引导到转录本。于是，该RISC复合体中存在的核酶将所述的mRNA转录本裂解，由此破坏该基因产物的表达。在病毒感染的情况下，此机制会使病毒转录本遭到破坏，从而防止病毒合成。因为所述siRNA是双链，因此每一条链均具有与RISC结合并利用序列相似性来引导转录本沉默的潜力。
特异性基因沉默在利用人类基因组数据来解释基因功能、鉴定药物靶、以及开发更特异性的治疗方面具有前景。许多这方面的应用认为siRNA对其目标靶具有高度的特异性。用与siRNA序列具有部分同一性的转录本进行交叉杂交可产生除该靶基因之外的非目标转录本的沉默表型。这可能使隐含在表型中的基因的鉴定发生混乱。众多的文献报道均旨在siRNA的异常特异性上，说明需要与所述siRNA序列具有接近完全的同一性(Elbashir等人，2001.EMBO J.206877-6888；Tuschl等人，1999，Genes Dev.133191-3197；Hutvagner等人，Sciencexpress 2972056-2060)。一篇最近的报道表明，裂解siRNA靶定的转录本需要序列完全互补，而部分互补将会以微小RNA(microsRNA)的方式使翻译得到抑制而不是使转录本降解(Hutvagner等人，Sciencexpress 2972056-2060)。
包括siRNA和miRNA的小调节RNA的生物学功能还不十分清楚。已经明确与这两类调节RNA的不同沉默途径的机制有关的关键问题。miRNA是由基因组表达的调节RNA，并从前体茎环结构加工而产生与靶mRNA的3’UTR中的序列结合的单链核酸(Lee等人，1993，Cell 75843-854；Reinhart等人，2000，Nature 403901-906；Lee等人，2001，Science 294862-864；Lau等人，2001，Science 294858-862；Hutvagner等人，2001，Science 293834-838)。miRNA通过仅部分的互补与转录本序列结合(Zeng等人，2002，Molec.Cell 91327-1333)，并抑制翻译而不影响稳定态的RNA水平(Lee等人，1993，Cell 75843-854；Wightman等人，1993，Cell 75855-862)。miRNA和siRNA均由Dicer来加工并与诱导RNA沉默复合体的组分结合(Hutvagner等人，2001，Science 293834-838；Grishok等人，2001，Cell 10623-34；Ketting等人，2001，Genes Dev.152654-2659；Williams等人，2002，Proc.Natl.Acad. Sci.USA 996889-6894；Hammond等人，2001，Science 2931146-1150；Mourlatos等人，2002，Genes Dev.16720-728)。最近的报道(Hutvagner等人，2002，Sciencexpress2972056-2060)假设通过miRNA途径与siRNA途径的基因调节的确定仅依赖于与靶转录本的互补程度。据推测，与所述mRNA靶仅具有部分同一性的siRNA将会在翻译抑制中发挥类似于miRNA的作用，而不是引发RNA降解。
已表明，siRNA和shRNA可用于在体内沉默基因。利用siRNA和shRNA在体内进行基因沉默的能力使得选择和开发用于治疗目的的siRNA成为可能。最近的报道突出了siRNA的潜在治疗性应用。在大量肝脏疾病中都涉及到Fas介导性凋亡，其中可通过抑制肝细胞的凋亡来保存肝脏。Song(Song等人2003，Nat.Medicine 9，347-351)将靶定到Fas受体的siRNA静脉注射给小鼠。在小鼠肝细胞中，该Fas基因在转录和翻译水平被沉默，从而预防了凋亡，并防止了该鼠发生肝炎诱导性肝损伤。因此，沉默Fas表达具有通过保护肝细胞免受细胞毒作用而防止肝脏损伤的治疗前景。另一例子是将以TNF-a为靶的siRNA腹膜内注射给小鼠。脂多糖诱导的基因表达得到抑制，并且预防了这些小鼠患脓血症。综上所述，这些结果表明，siRNA可在体内发挥作用，并具有作为治疗药物的潜力(Sorensen等人，2003，J.Mol.Biol.327，761-766)。
Martinez等人报道，RNA干扰可用于选择性靶向原癌基因突变(Martinez等人，2002，Proc.Natl.Acad.Sci.USA 9914849-14854)。在此报道中，表明以含有所述突变的p53的R248W突变体区域为靶的siRNA，沉默了p53突变体的表达，而不沉默野生型p53的表达。
Wilda等人报道，以M-BCR/ABL融合体mRNA为靶的siRNA可用于去除白血病细胞中的M-BCR/ABL和M-BRC/ABL原癌蛋白(Wilda等人，2002，Oncogene 215716-5724)。然而，该报道还显示，对白血病细胞组合应用该siRNA与Imatinib，一种小分子ABL激酶胰酪蛋白抑制剂，没有进一步增加对凋亡的诱导。
美国专利第6,506,559号公开了用于抑制细胞中靶基因表达的RNA干扰方法。该方法包括引入部分或全部双链RNA到细胞内或细胞外环境中，该部分或全部双链RNA在双链区域中具有与靶基因序列相同的序列。还发现相对于靶序列，具有插入、缺失、和单点突变的RNA序列也对表达抑制有效。
美国专利申请公开第US 2002/0086356号揭露了利用21-23个核苷酸(nt)长度的RNA片断在果蝇的体外系统中的RNA干扰。该专利申请公开教导了当这些21-23nt片断被纯化并加回到该果蝇提取物中时，在没有长的dsRNA存在的情况下，它们介导了序列特异RNA干扰。该专利申请公开还教导了具有相同或相似性质的化学合成寡核苷酸也可用于靶向特异的mRNA以使其在哺乳动物细胞中降解。
PCT公开第WO 02/44321号公开了19-23nt长度的双链RNA(dsRNA)在果蝇的体外系统中诱导了序列特异转录后基因沉默。该PCT公开教导了短的干扰RNA(siRNA)在裂解产物中介导有效的靶RNA裂解，并且该裂解位点位于该引导siRNA所跨越的区域的中心，其中，该短的干扰RNA是由dsRNA通过RNaseIII样加工反应产生，或是化学合成的具有3′末端悬臂的siRNA双链。该PCT公开还提供了证据证明dsRNA加工的方向确定有义和反义相同靶RNA是否可被产生的siRNP复合体裂解。
美国专利申请公布号第US 2002/016216号公开了减弱培养细胞中的靶基因表达的方法，该方法包括向该细胞中引入足量双链RNA(dsRNA)以减弱该靶基因的表达，该双链RNA包括在严格的杂交条件下与靶基因的核苷酸序列杂交的核苷酸序列。
PCT公开第WO 03/006477号公开了工程化的RNA前体，其在细胞中表达时，由该细胞加工产生靶向小干扰RNA(siRNA)，该siRNA利用细胞自身的RNA干扰(RNAi)途径选择性地使靶基因沉默(通过裂解特异mRNA)。该PCT公开教导了通过将编码这些工程化的RNA前体的核酸分子导入到体内含有适当调节序列的细胞中，可在时间和空间上，即在特定的时间和/或在特定的组织、器官或细胞中，对该工程化的RNA前体的表达进行控制。
Elbashir等人公开了用于RNAi的siRNA的长度、二级结构、糖骨架和序列特异性的系统分析(Elbashir等人，2001.EMBO J.206877-6888)。基于该分析，Elbashir提出了设计siRNA的规则。
Aza-Blanc等人报道了沉默效率与所述19bp靶序列5′和3′区的GC含量之间的相关性(Aza-Blanc等人，2003，Mol.Cell 12627-637)。发现5′富含而3′贫含GC的siRNA靶序列的功能最佳。
对本文所引用文献的讨论或引证，并不能认为这些参考文献构成了本发明的现有技术。
3.发明概述一方面，本发明提供了从多种不同的siRNA中选择一种或多种用于在有机体中沉默靶基因的siRNA的方法，所述的多种不同siRNA中的每一种靶向所述靶基因转录本中的不同靶序列，所述方法包括，(a)根据所述转录本中相应的靶序列基序的位置碱基组成，排列所述多种不同的siRNA，其中每一种靶序列基序包括所述相应siRNA的靶序列的至少一部分和/或所述靶序列的侧翼序列区中的第二序列；及(b)从所排列的siRNA中选择一种或多种siRNA。在优选的实施方式中，每一种所述的序列基序包括所述靶向siRNA的靶序列。在另一实施方式中，所述的排列步骤如下进行(a1)确定每一种不同siRNA的记分，其中所述记分是利用位置特异性记分矩阵计算的；及(a2)根据所述记分排列所述多种不同的siRNA。
在一实施方式中，每一种序列基序为L个核苷酸的核苷酸序列，L为整数，所述位置特异性记分矩阵为{log(eij/pij)}，其中，eij为位置j处的核苷酸i的权重，pij为随机序列中位置j处的核苷酸i的权重，且i＝G、C、A、U(T)，j＝1，...L。在另一实施方式中，每一序列基序为L个核苷酸的核苷酸序列，L为整数，所述位置特异性记分矩阵为{log(eij/pij)}，其中，且eij为位置j处的核苷酸i的权重，pij为随机序列中位置j处的核苷酸i的权重，且i＝G或C、A、U(T)，j＝1，...L。
在一实施方式中，每一种所述siRNA的所述记分根据以下等式来计算，其中，et和pt分别为根据所述位置特异性记分矩阵确定的所述序列基序中和随机序列中位置t处的核苷酸的权重。
在另一实施方式中，每一种序列基序包括所述靶向siRNA的靶序列和至少一种侧翼序列。优选地，每一种序列基序包括所述靶向siRNA的靶序列和5′侧翼序列和3′侧翼序列。在一实施方式中，所述5′侧翼序列和所述3′侧翼序列每种均为D个核苷酸的序列，D为整数。在一特定的实施方式中，每一靶序列为19个核苷酸的序列，且每一所述的5′侧翼序列和3′侧翼序列为10个核苷酸的序列。在另一特定实施实施中，每一靶序列为19个核苷酸的序列，且每一5′侧翼序列和3′侧翼序列为50个核苷酸序列。
优选地，所述一种和多种siRNA由至少3种siRNA组成。在另一实施方式中，所述的方法还包括去重叠的步骤，该步骤包括在所述的至少3种siRNA中选择多种siRNA，从而使所述多种中的siRNA在序列多样性检测中完全不同。在一实施方式中，所述多样性检测为定量检测，且在所述去重叠步骤中的所述选择包括以高于指定的阈值在不同的所选siRNA间进行所述序列多样性检测，选择在该检测中具有差异的siRNA。在一实施方式中，所述的序列多样性检测为所述siRNA的总GC含量检测。在一实施方式中，其中所指定的阈值为5％。在另一实施方式中，所述的序列多样性检测为沿所述转录本序列的长度检测siRNA间的距离。在一实施方式中，所述的阈值为100个核苷酸。在另一实施方式中，所述的序列多样性检测为所述siRNA的引导二聚体的同一性检测，其中所述16种可能引导二聚体中的每一种被分别设为1-16的记分。在一实施方式中，所述的阈值为0.5。
在另一实施方式中，所述方法还包括基于沉默特异性选择一种或多种siRNA的步骤，所述基于沉默特异性的选择步骤包括(i)对于所述多种siRNA的每一种，从多种基因中预测所述siRNA的靶外基因，其中所述靶外基因是与所述靶基因不同的基因，且由所述siRNA直接沉默；(ii)根据靶外基因的数量排列所述多种siRNA；及(iii)选择其靶外基因的数量低于指定阈值的一种或多种siRNA。
在一实施方式中，所述预测包括(i1)基于预定的siRNA序列匹配模式，评价所述多种基因的每一种的序列；及(i2)如果所述基因包括基于所述序列匹配模式与所述siRNA匹配的序列，那么就预测该基因为靶外基因。在一实施方式中，所述的评价步骤包括通过低严谨性的FastA比对确定所述siRNA与基因中的序列的排列。
在一实施方式中，每一种所述siRNA在其双链区具有L个核苷酸，且其中所述序列匹配模式用位置匹配位置特异性记分矩阵(pmPSSM)表示，所述位置匹配位置特异性记分矩阵由siRNA中的不同位置的权重{Pj}组成，该不同位置与靶外转录本中的转录本序列位置匹配，其中j＝1，...L，Pj在位置j处匹配的权重。
在另一实施方式中，所述的步骤(i1)包括根据以下等式计算位置匹配记分，
pmScore=Σi=1Lln(Ei/0.25)]]>其中如果位置i匹配，则Ei＝Pi，且如果i不匹配，则Ei＝(1-Pi)/3；及所述步骤(i2)包括如果所述位置匹配记分高于指定的阈值，则预测所述基因为靶外基因。
在优选的实施方式中，所述L为19，且其中所述pmPSSM通过表I来指定。
优选地，所述的多种基因包括所述有机体的所有已知的独特基因，而不是所述靶基因。
在一实施方式中，所述的位置特异性记分矩阵(PSSM)通过包括以下步骤的方法来确定(aa)鉴定由具有19个核苷酸的双链区和高于指定阈值的沉默效率的siRNA组成的N种siRNA；(bb)鉴定每一种siRNA的功能性序列基序，所述功能性序列基序包括所述siRNA的19个核苷酸的靶序列，及10个核苷酸的5′侧翼序列和10个核苷酸的3′侧翼序列；(cc)基于所述siRNA功能性序列基序，根据以下等式计算频率矩阵{fij}，fij=Σk=1Nδik(j)]]>其中其中i＝G、C、A、U(T)，j＝1，2，...L，且其中fij是在位置j处的核苷酸i的频率，及(dd)根据以下等式计算eij来确定所述PSSMeij＝fij/N。
在另一实施方式中，所述位置特异性记分矩阵(PSSM)通过包括以下步骤的方法获得(aa)利用随机权重初始化所述的PSSM；(bb)随机选择在(aa)中获得的权重wij；(cc)改变所选择的权重值来产生检验psPSSM，其包括所选择的具有所述改变值的权重；(dd)利用所述检验psPSSM，根据以下等式计算多种siRNA功能性序列基序的每一种的记分其中所述wk和pk分别为所述功能性序列基序和随机序列中位置k处的核苷酸的权重；(ee)计算所述记分与多种siRNA功能性序列基序中的siRNA的特征值(metric)之间的相关性；(ff)重复步骤(cc)-(ee)以获得在指定范围内的所选择权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(gg)重复步骤(bb)-(ff)预定次数；由此确定所述的PSSM。
在一实施方式中，所述方法还包括通过包括以下步骤的方法来选择所述多种siRNA功能性序列基序(i)鉴定由具有不同特征值的siRNA组成的多种siRNA；(ii)鉴定多种siRNA功能性序列基序，其每一种对应所述多种siRNA中的siRNA。在优选的实施方式中，所述特征为沉默效率。
在一实施方式中，所述N种siRNA靶向细胞中具有不同转录丰度的多种不同基因。
在一实施方式中，步骤(b)通过选择一种或多种具有最高记分的siRNA来进行。在另一实施方式中，步骤(b)通过选择具有最接近预定值的记分的siRNA来进行，其中所述预定值为记分值，对应于多种siRNA序列基序的最大沉默效率中值。在优选的实施方式中，所述多种siRNA序列基序为转录本中的序列基序，该转录本的丰度水平小于约3-5拷贝每细胞。
在另一实施方式中，步骤(b)通过选择具有预定范围内记分的一种或多种siRNA来进行，其中所述预定范围为记分范围，对应于具有给定沉默效率水平的多种siRNA序列基序。在一实施方式中，所述的沉默效率为在siRNA的量为约100nM时高于50％、75％或90％。
在优选的实施方式中，所述的多种siRNA序列基序为转录本中的序列基序，该转录本的丰度水平小于约3-5拷贝每细胞。
在另一优选实施方式中，所述N种siRNA包括至少10、50、100、200或500种不同的siRNA。
在另一实施方式中，所述的位置特异性记分矩阵(PSSM)包括wk，k＝1，...L，wk为第一型siRNA和第二型siRNA在序列位置k处发现核苷酸G或C的概率差异，且其中每一条链的记分根据以下等式计算在一实施方式中，所述第一型siRNA由沉默效率不低于第一阈值的一种或多种siRNA组成，和所述第二型siRNA由沉默效率不低于第二阈值的一种或多种siRNA组成。
在一实施方式中，所述的概率差异由高斯曲线的总和来描述，每一所述的高斯曲线代表在不同序列位置上发现G和C的概率差异。
在一实施方式中，在siRNA的量为100nM时，所述的第一和第二阈值均为75％。
在另一方面，本发明提供了从多种不同的siRNA中选择一种或多种用于在有机体中沉默靶基因的siRNA的方法，所述多种不同的siRNA中的每一种靶向所述靶基因转录本中的不同靶序列，所述方法包括(a)根据所述siRNA有义链的反向互补序列的位置碱基组成，排列所述多种不同的siRNA；及(b)从所排列的siRNA中选择一种或多种siRNA。
在一实施方式中，所述的排列步骤通过以下步骤进行(a1)确定每一不同siRNA的记分，其中所述记分是利用位置特异性记分矩阵计算的；及(a2)根据所述记分排列所述多种不同的siRNA。
在一实施方式中，所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵包括wk，k＝1，...L，wk为第一型siRNA有义链的反向互补链和第二型siRNA有义链的反向互补链在序列位置k处发现核苷酸G或C的概率差异，且其中每一个反向互补的记分根据以下等式计算在一实施方式中，所述第一型siRNA由沉默效率不低于第一阈值的一种或多种siRNA组成，及所述第二型siRNA由沉默效率不低于第二阈值的一种或多种siRNA组成。
在另一实施方式中，所述的概率差异由高斯曲线(Gaussian curves)的总和来描述，每一所述的高斯曲线代表在不同序列位置上发现G和C的概率差异。
在一实施方式中，在siRNA的量为100nM时，所述的第一和第二阈值均为75％。
在另一方面，本发明提供了从多种不同的siRNA中选择一种或多种用于在有机体中沉默靶基因的siRNA的方法，所述多种不同的siRNA中的每一种靶向所述靶基因转录本中的不同靶序列，所述方法包括(i)对于所述多种不同的siRNA中的每一种，从多种基因中预测该siRNA的靶外基因，所述靶外基因是与所述靶基因不同的基因，且由所述siRNA直接沉默；(ii)根据靶外基因的数量排列所述多种不同的siRNA；及(iii)选择其靶外基因的数量低于指定阈值的一种或多种siRNA。
在一实施方式中，所述预测包括(i1)基于预定的siRNA序列匹配模式，评价所述多种基因的每一种的序列；及(i2)如果所述基因包括基于所述序列匹配模式与所述siRNA匹配的序列，那么就预测该基因为靶外基因。
在一实施方式中，每一种siRNA在其双链区具有L个核苷酸，且所述序列匹配模式用位置匹配位置特异性记分矩阵(pmPSSM)表示，所述位置匹配位置特异性记分矩阵由siRNA中的不同位置的权重{pj}组成，该不同位置与靶外转录本中的转录本序列位置匹配，其中j＝1，...L，Pj为在位置j处匹配的权重。
在另一实施方式中，所述的步骤(i1)包括根据以下等式计算位置匹配记分pmScore，pmScore=Σi=1Lln(Ei/0.25)]]>其中如果位置i匹配，则Ei＝Pi，且如果i不匹配，则Ei＝(1-Pi)/3；及所述步骤(i2)包括如果所述位置匹配记分高于指定的阈值，则预测所述基因为靶外基因。
在优选的实施方式中，L为19，且其中所述pmPSSM通过表I来指定。
优选地，所述的多种基因包括所述有机体的所有已知的独特基因，而不是所述靶基因。
在另一方面，本发明提供siRNA文库，该文库包括有机体的多种不同基因的每一种的多种siRNA，其中每一种siRNA使其靶基因至少75％、至少80％或至少90％沉默。在一实施方式中，所述多种siRNA由至少3、至少5或至少10种siRNA组成。在另一实施方式中，所述多种不同的基因由至少10、至少100、至少500、至少1,000、至少10,000或至少30,000种不同的基因组成。
在另一方面，本发明提供确定碱基组成位置特异性记分矩阵(bsPSSM){log(eij/pij)}的方法，该矩阵表示转录本中L个核苷酸的siRNA功能性序列基序的碱基组成模式，其中i＝G、C、A、U(T)，且j＝1，2，...L，而且其中每一种所述siRNA功能性序列基序包括相应靶向siRNA的靶序列的至少一部分和/或所述靶序列的侧翼序列区中的序列，所述方法包括(a)鉴定由沉默效率高于选定阈值的siRNA组成的N种不同的siRNA；(b)鉴定N种相应的siRNA功能性序列基序，一种对应每种不同的siRNA；(c)基于所述N种siRNA功能性序列基序，根据以下等式计算频率矩阵{fij}，fij=Σk=1Nδik(j)]]>
其中其中i＝G、C、A、U(T)，j＝1，2，....L，且其中fij是在位置j处的核苷酸i的频率，及(d)根据以下等式计算eij来确定所述psPSSMeij＝fij/N。
在一实施方式中，每一种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列和一种或两种所述靶序列的侧翼序列。
在一实施方式中，每一种siRNA在其双链区具有M个核苷酸，而且每一种siRNA功能性序列基序由M个核苷酸的siRNA靶序列，D1个核苷酸的5′侧翼序列以及D2个核苷酸的3′侧翼序列组成。
在特定实施实施中，每一种siRNA在其双链区具有19个核苷酸，而且每一种siRNA功能性序列基序由19个核苷酸的siRNA靶序列，10个核苷酸的5′侧翼序列和10个核苷酸的3′侧翼序列组成。在另一特定实施实施中，每一种siRNA在其双链区具有19个核苷酸，而且每种siRNA功能性序列基序由19个核苷酸的siRNA靶序列，50个核苷酸的5′侧翼序列和50个核苷酸的3′侧翼序列组成。
在一实施方式中，所述N种siRNA的每一种靶向细胞中具有指定范围的转录本丰度的基因。在一实施方式中，该范围为至少约5、10或100个转录本每细胞。在另一实施方式中，该范围为低于约3-5个转录本每细胞。
在另一实施方式中，在siRNA剂量为约100nM时所述沉默阈值为50％、75％或90％。在另一实施方式中，所述N种siRNA包括10、50、100、200或500种不同的siRNA。
在另一方面，本发明提供了确定碱基组成位置特异性记分矩阵(bsPSSM){wij}的方法，该矩阵表示代表多种不同的L个核苷酸的siRNA功能性序列基序的碱基组成方式，其中i＝G、C、A、U(T)，j＝1，2，...L，且每一种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列的至少一部分和/或所述siRNA靶序列的侧翼序列区的序列，所述方法包括(a)利用随机权重初始化所述的bsPSSM；(b)随机选择在(a)中获得的权重wij；(c)改变所选择的权重值来产生检验psPSSM，其包括所选择的具有所述改变值的权重；(d)利用所述检验psPSSM，根据以下等式计算多种siRNA功能性序列基序的每一种的记分其中所述wk和pk分别为所述功能性序列基序和随机序列中位置k处的核苷酸的权重；(e)计算所述记分与多种siRNA功能性序列基序中的siRNA的特征值(metric)之间的相关性；(f)重复步骤(c)-(e)以获得在指定范围内的所选择权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(g)重复步骤(b)-(f)预定次数；由此确定所述的PSSM。
本发明还提供了确定碱基组成位置特异性记分矩阵(bsPSSM){wij}的方法，该矩阵表示代表多种不同的L个核苷酸的siRNA功能性序列基序的碱基组成方式，其中i＝G/C、A、U(T)，j＝1，2，...L，且每一种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列的至少一部分和/或所述siRNA靶序列的侧翼序列区的序列，所述方法包括(a)利用随机权重初始化所述的bsPSSM；(b)随机选择在(a)中获得的权重wij；(c)改变所选择的权重值来产生检验psPSSM，其包括所选择的具有所述改变值的权重；(d)利用所述检验psPSSM，根据以下等式计算多种siRNA功能性序列基序的每一种的记分其中所述wk和pk分别为所述功能性序列基序和随机序列中位置k处的核苷酸的权重；(e)计算所述记分与多种siRNA功能性序列基序中的siRNA的特征值(metric)之间的相关性；(f)重复步骤(c)-(e)以获得在指定范围内的所选择权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(g)重复步骤(b)-(f)预定次数；由此确定所述的PSSM。
在一实施方式中，每种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列和一种或多种所述靶序列的侧翼序列。
在另一实施方式中，所述的方法还包括通过包括以下步骤的方法选择所述多种siRNA功能性序列基序(i)鉴定由具有不同特征值的siRNA组成的多种siRNA；(ii)鉴定多种siRNA功能性序列基序，其每一种对应所述多种siRNA中的siRNA。
在一实施方式中，每种siRNA在其双链区具有M个核苷酸，而且每种siRNA功能性序列基序由M个核苷酸的siRNA靶序列，D1个核苷酸的5′侧翼序列以及D2个核苷酸的3′侧翼序列组成。
在特定实施实施中，每一种siRNA在其双链区具有19个核苷酸，而且每种siRNA功能性序列基序由19个核苷酸的siRNA靶序列，10个核苷酸的5′侧翼序列和10个核苷酸的3′侧翼序列组成。在另一特定实施实施中，每一种siRNA在其双链区具有19个核苷酸，而且每种siRNA功能性序列基序由19个核苷酸的siRNA靶序列，50个核苷酸的5′侧翼序列和50个核苷酸的3′侧翼序列组成。
在一实施方式中，所述特征为沉默效率。
在一实施方式中，所述N种siRNA的每一种靶向在细胞中具有指定范围的转录本丰度的基因。在一实施方式中，该范围为至少约5、10或100个转录本每细胞。在另一实施方式中，该范围为小于约3-5个转录本每细胞。在另一实施方式中，在siRNA的量为约100nM时所述沉默阈值为50％、75％或90％。
在另一实施方式中，所述方法还包括利用psPSSM的敏感性相对于psPSSM曲线的非特异性的ROC(接收者操作特性，receiver operatingcharacteristic)曲线来评价所述psPSSM，所述PSSM的敏感性为用psPSSM检测到的真阳性的比例，以全部真阳性的分数表示，而PSSM的非特异性为用psPSSM检测的假阳性的比例，以全部假阳性的分数表示。
在一实施方式中，所述多种siRNA功能性序列基序由至少50，至少100或至少200种不同的siRNA功能性序列基序组成。
在另一实施方式中，所述方法还包括用另外的多种siRNA功能性序列基序来检验psPSSM。
本发明还提供了确定位置匹配特异记分矩阵(pmPSSM){Ei}，用于表示L个核苷酸的siRNA与其转录本中的靶序列的位置匹配模式的方法，其中Ei为在位置i处的匹配记分，i＝1，2，...，L，所述方法包括(a)鉴定N种siRNA的靶外序列，其中每一种靶外序列为所述siRNA对其有沉默活性的序列；(b)基于N种siRNA的靶外序列，根据以下等式计算位置匹配权重矩阵{Pi}，其中i＝1，2，...，L，Pi=1NΣk=1Nδk(j),]]>其中如果k匹配，则δk(j)为1；如果k不匹配，则δk(j)为0；及(c)通过计算Ei确定所述的psPSSM，如果i匹配，则Ei＝pi，且如果i不匹配，则Ei＝(1-Pi)/3。
在优选的实施方式中，L＝19。在另一优选实施方式中，所述的位置匹配权重矩阵通过表I来指定。
本发明还提供了评价siRNA的两条链在靶外基因沉默中的相对活性的方法，该方法包括比较所述siRNA的有义链的位置特异碱基组成与所述siRNA的反义链或所述siRNA的有义链的反向互补链的位置特异碱基组成，其中所述反义链为靶向目标靶序列的引导链。
在一实施方式中，所述比较通过包括以下步骤的方法来进行(a)确定所述siRNA有义链的记分，其中所述记分利用位置特异性记分矩阵来计算；(b)利用位置特异性记分矩阵确定所述siRNA的反义链或所述siRNA的有义链的反向互补链的记分；及(c)比较所述siRNA的有义链的记分与所述siRNA的反义链或所述siRNA的有义链的反向互补链的记分，由此评估所述siRNA的链表现。
在一实施方式中，所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵为{wij}，其中wij为位置j处的核苷酸i的权重，i＝G、C、A、U(T)，j＝1，...L。
在另一实施方式中，所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵为{wij}，其中wij为位置j处的核苷酸i的权重，i＝G或C、A、U(T)，j＝1，...L。
在另一实施方式中，所述位置特异性记分矩阵通过包括以下步骤的方法获得(a)利用随机权重初始化所述的位置特异性记分矩阵；(b)随机选择在(a)中获得的权重wij；(c)改变所选择的权重值来产生检验位置特异性记分矩阵，其包括所选择的具有所述改变值的权重；(d)利用所述的检验位置特异性记分矩阵，根据以下等式计算多种siRNA的每一种的记分，其中所述wj和pj分别为所述siRNA和随机序列中位置j处的核苷酸的权重；(e)计算所述记分与所述多种siRNA中的siRNA的特征值之间的相关性；(f)重复步骤(c)-(e)以获得在指定范围内的所选权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(g)重复步骤(b)-(f)预定次数；由此确定所述位置特异性记分矩阵。
在一实施方式中，所述特征为siRNA沉默效率。
在一实施方式中，所述siRNA在其双链区具有19个核苷酸。
在另一实施方式中，所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵包括wk，k＝1，...L，wk为第一型siRNA和第二型siRNA在序列位置k处发现核苷酸G或C的概率差异，且其中每一条互补链的记分根据以下等式计算
在一实施方式中，所述第一型siRNA由沉默效率不低于第一阈值的一种或多种siRNA组成，及所述的第二型siRNA由沉默效率不低于第二阈值的一种或多种siRNA组成，而且如果步骤(a)中确定的记分高于步骤(b)中确定的记分，那么就确定siRNA为具有反义特征，或者如果步骤(b)中确定的记分高于步骤(a)中确定的记分，那么就确定siRNA为具有有义特征。
在另一实施方式中，所述的概率差异由高斯曲线(Gaussian curves)的总和来描述，每一所述高斯曲线代表在不同序列位置上发现G和C的概率差异。
在一实施方式中，在siRNA的量为约100nM时，所述的第一和第二阈值均为75％。
在另一方面，本发明提供包括处理器和内存的计算机系统，该内存与所述处理器连接并编码一种或多种程序，其中所述的一种和多种程序引起该处理器执行本发明的任一方法。
在另一方面，本发明提供了与计算机结合的计算机程序产品，该计算机具有处理器和与该处理器连接的内存，该计算机程序产品包括在其上编码有计算机程序机制的计算机可读存储介质，其中该计算机程序机制可加载到所述计算机的内存中，并使该计算机执行本发明的任一方法。
4.附图的简要说明

图1A-1C显示，siRNA靶序列中和附近的碱基组成影响所述siRNA的沉默效率。通过Taqman分析总计检测了377种siRNA在转染入HeLa细胞24小时之后沉默其靶序列的能力。靶沉默的中值为约75％。此数据组可分成两个亚组，一组具有小于中值、一组具有等于或高于中值的沉默能力(分别称为“坏”和“好”siRNA)。如图所示为在靶序列上的不同相对位置，在好与坏siRNA之间GC含量(图1A)、A含量(图1B)和U含量(图1C)的5窗口(即平均总共5个碱基)的平均差异。
图2A-2C所示(A)为好与坏siRNA的GC含量；(B)为好与坏siRNA的A含量；(C)为好与坏siRNA的U含量。该图显示了每一碱基的平均组成。例如，y轴上的0.5对应50％的平均碱基含量。
图3所示为用于本发明siRNA设计方法的实际siRNA碱基组成模式的表现。将siRNA效率数据进一步分成两对训练组和检验组。在每一训练组中将不同的PSSM优化，并在检验组中验证。随着从PSSM记分排列表中选择的siRNA的数量的增加，每种的表现通过其区分好siRNA(真阳性)和坏siRNA(假阳性)的能力来评价。图中所示为接收者操作特性(ROC)曲线，显示两种不同PSSM分别对其训练组和检验组的表现(分别为深黑和点灰线)。显示出PSSM对随机数据的预期表现用于比较(即，在选择能力上没有改善，45°线)。
图4显示了PSSM对独立试验数据组的预测能力。根据Elbashir等人，2001，Nature 411494-8所述的标准方法，设计了用于5种基因的新siRNA，并加入了此申请中公开的特异性预测方法，以及本发明的基于PSSM的效率和特异性预测方法。选择每种基因的排列前三的siRNA用于每种方法，并从Dharmacon购买这些siRNA。然后检测5种基因中每一种的所有6种siRNA沉默其靶序列的能力。图中所示为在特异剂量下，沉默其相对的靶基因的siRNA的数量的柱状图。实线为本发明设计的siRNA引起的沉默；虚线为标准方法设计的siRNA引起的沉默；点灰线为377种siRNA数据组引起的沉默。
图5A-5C所示为分别在组1和组2用siRNA训练和检测的碱基组成PSSM的两个集合的GC，A或U的平均权重。图5A为GC的平均权重，图5B为A的平均权重，图5C为U的平均权重。组1和组2的siRNA如表II所示。
图6所示为靶外基因转录本与siRNA寡序列核心19mer进行比对的例子。通过选择与寡核苷酸的直接作用一致的转录本丰度的动态模式，从人25k v2.2.1微阵列中选择靶外基因。左手边的柱列出了转录本序列标识符。通过FASTA进行排列并手工编辑。黑色盒和灰色区显示在排列的3’半部分中具有较高水平的序列相似性。
图7显示为位置匹配位置特异性记分矩阵，用于预测靶外作用。如图所示为与矩阵中的每一位置相关的权重，该矩阵代表siRNA寡核苷酸和靶外转录本间的排列。所述权重表示在siRNA寡核苷酸和所观察到的靶外转录本中沿着排列在位置i处观察到匹配的概率。
图8所示为用与预测siRNA的靶外作用的阈值记分的优化值。该R2值得自高于所述阈值的排列记分的数量与观察到的靶外作用的数量的相关性。
图9所示为选择用于沉默基因的siRNA的方法的示例性实施方式的流程图。
图10显示了可用于区分好和坏siRNA的序列区。在从siRNA 19mer的上游50碱基至下游50碱基的长度上，用多个序列10+碱基训练PSSM，并在独立的检验组中检验。将用感兴趣的多个序列碱基进行训练的模式的表现与用随机序列进行训练的模式进行比较。位置1对应于21ntsiRNA的双链区的第一5′碱基。
图11A-11B所示为PSSM的曲线模式。11APSSM的曲线模式的示例组。11B为训练组和检验组的模式的表现。
图12显示了用于实施本发明方法的计算机系统的示例性实施方式。
图13所示为利用本发明方法设计的30种siRNA(实心圆)与利用标准方法设计的siRNA(空心圆)的siRNA沉默效率分布比较。x轴1.KIF14，2.PLK，3.IGF1P，4.MAPK14，5.KIF11。y轴RNA水平。利用标准方法所设计的siRNA对5种基因表现出广泛分布的沉默能力，而用本发明方法设计的siRNA在每一种基因中以及基因之间表现出更加一致的沉默能力。较窄的分布对于含有siRNA的功能性基因组是非常重要的。
图14A-14B显示了siRNA及其反向互补序列的GC含量与坏siRNAGC含量之间的比较。该结果显示，坏siRNA具有与好siRNA类似的有义链，而好siRNA具有与坏siRNA类似的有义链。RC该siRNA靶序列的反向互补序列。
图15显示，较少的优选siRNA具有活性有义链。用3′偏好的方法产生表达图谱和比较siRNA与其反向互补序列的GC PSSM记分，来预测61种siRNA的链表现。用siRNA沉默效率来表示链表现预测。
图16显示，沉默效率与转录本表达水平有关。通过bDNA或Taqman分析总计检测222种siRNA(每种基因3种siRNA，计74种基因)在转染入HeLa细胞24小时后沉默其靶基因的能力。将百分比沉默(y轴)作为转录本丰度(x轴)的函数作图，转录本丰度在微阵列上检测为强度。如图所示为观察到的每种基因的3种siRNA的靶向沉默中值，该基因通过前述的siRNA设计算法选择。以2种微阵列类型的强度的平均值表示，显示了74种基因的沉默与基因表达水平的相关性。8种基因用TaqMan分析。余下的66种基因如bDNA数据所示。
图17显示siRNA沉默效率与其碱基的组成有关。通过bDNA分析，检测了低表达基因的siRNA沉默其靶序列的能力。将数据分成小于75％沉默和等于或高于75％沉默(分别为坏和好siRNA)的亚组。如图所示为在siRNA有义链(x轴)的每一位点上，好与坏siRNA(y轴)之间的GC含量的差异。该数据组包括57种siRNA的低表达和高表达基因，通过Tuschl法则或随机选择挑选为33种低和41种高表达基因。该siRNA序列在表IV中列出。低表达基因的好siRNA的GC谱(灰点线)显示出与高表达基因的好siRNA(黑线)具有某些相似的组成偏好，但也有些不同。
图18显示了新设计的siRNA的效率。通过标准方法和新算法为18种低表达基因设计出siRNA。标准线选择最大pssm记分；长靶外匹配的最小化的最大过滤器。改善线在有义19mer碱基2-7、不对称碱基1&19、-300＜pssm记分＜+200中选择1-3G+C，以及在该19mer的每一侧低于16、200碱基的blast匹配不是重复序列或是低复杂性序列。为每种方法挑选每种基因中排列前三的siRNA。随后检测5种基因的每一种的所有6种siRNA沉默其靶序列的能力。如图所示为在特定含量下siRNA沉默其靶基因的数量的柱状图。点状线，通过新算法设计的siRNA进行的沉默；实线，通过标准方法设计的siRNA进行的沉默。沉默改善的中值从60％(标准算法)至80％(新算法)。
图19所示为有效siRNA的设计特征。对与siRNA沉默效率相关的设计标准进行研究揭露了预测效率的许多特征。这些包括在两末端用于引导反义(引导)链进入RISC的碱基不对称性，用于有效裂解转录本的位置10处的U，在引导链的中心和3′末端用于增强裂解的低GC张度，和参与转录本结合的反义链的5′末端“种子”区。在双链区上的灰线显示了序列偏好，在所述双链区下的浅灰线显示功能属性。
图20显示371种siRNA的表达与沉默中值。这些为来自377种siRNA的原始训练组的siRNA。该分析没有包括6种siRNA，因为得不到其靶基因的表达水平。
5.发明的详细描述本发明提供了利用位置特异性记分矩阵方法来鉴定转录本中的siRNA靶向基序的方法。本发明还提供了利用位置特异性记分矩阵方法来鉴定siRNA的靶外基因的方法，和预测siRNA的特异性的方法。本发明还提供了设计具有较高的沉默效率和特异性的siRNA的方法。本发明还提供了含有高沉默效率和特异性的siRNA的siRNA文库。
在本申请中，siRNA常用于靶定基因。应理解，当作出这种陈述时，其意思是指设计该siRNA来靶定基因并引起该基因的转录本降解。这种基因也称为siRNA的靶基因，而该siRNA作用的转录本的序列称为靶序列。例如，转录本中有某个19个核苷酸的序列与siRNA双链区的有义链中的19个核苷酸的序列相同，那么该19个核苷酸的序列即为siRNA的靶序列。siRNA的反义链，即作用在所述靶序列上的链，也称为引导链。在上述例子中，该siRNA双链区的19个核苷酸的序列的反义链为所述的引导链。在本申请中，siRNA的特征通常参考其序列，例如位置碱基组成来指明。应理解，除非另有指明，通常参考所述siRNA的有义链序列。在本申请中，siRNA中的核苷酸或核苷酸序列通常参考该siRNA的5′或3′末端来描述。应理解，当使用这种描述时，其是指该siRNA有义链的5′或3′末端。还应理解，当参考该siRNA的3′末端时，其是指该siRNA的3′双链区，即3′悬垂的2个核苷酸并不包含在该核苷酸的数目之中。在本申请中，siRNA也称为寡核苷酸。
在此公开中，参考沉默有义链靶，即相应所述siRNA的有义链的转录本靶序列，来讨论siRNA的设计。本领域的所属技术人员应理解，本发明的方法也可用来设计沉默反义靶的siRNA(参见例如，Martinez等人，2002，Cell 110563-574)。
5.1.通过小干扰RNA鉴定靶基因中的序列基序的方法本发明提供了鉴定转录本中的序列基序的方法，该序列基序可被siRNA靶定，从而降解该转录本，例如，可能是高效siRNA靶位点的序列基序。这样的序列基序也称为siRNA敏感基序。该方法还可用于鉴定转录本中的序列基序，该序列基序可以是非理想的siRNA靶，例如，可能是低效siRNA靶位点的序列基序。这样的序列基序也称为siRNA抗性基序。
在一实施方式中，鉴定了功能性序列基序，例如siRNA敏感性序列基序的序列特征，并利用诸如沉默效率已得到确定的siRNA文库建立了该功能性基序的图谱。
在一实施方式中，扫描感兴趣的序列区以鉴定与所述功能性基序图谱匹配的序列。
5.1.1.序列图谱和靶沉默效率在优选的实施方式中，利用位置特异性记分矩阵(PSSM)来表示所述功能性序列基序的图谱。PSSM的一般性讨论可参见例如，“生物序列分析(Biological Sequence Analysis)”，R.Durbin，S.Eddy，A.Krogh与G.Mitchison著，剑桥大学出版，1998；以及Henikoff等人，1994，J Mol Biol.243574-8。PSSM为序列基序描述符，其捕获功能性序列基序的特征。在本公开中，PSSM用于描述本发明的序列基序，例如，敏感和抗性基序。siRNA敏感(抗性)基序的PSSM也称为敏感(抗性)PSSM。本领域所属技术人员公知，位置特异性记分矩阵也称为位置特异计分矩阵，位置权重矩阵(PWM)，或图谱。
在本发明中，功能性基序可包括siRNA靶序列中的一种或多种序列。例如，siRNA靶序列中的该一种或多种序列可以是该靶序列的5′端序列，该靶序列的3′端序列。在siRNA靶序列中的该一种或多种序列也可以是两段序列，一段在该靶序列的5′端，另一段在该靶序列的3′端。功能性基序也可包括该siRNA靶序列的侧翼序列区中的一种或多种序列。这样的一种或多种序列可直接邻近该siRNA靶序列。此一种或多种序列可通过插入序列而与该siRNA靶序列分隔开。图10显示了功能性基序的一些例子。
在一实施方式中，功能性序列基序，如敏感性或抗性序列基序，包括siRNA靶序列的至少一部分。在一实施方式中，所述功能性基序包括所述靶序列的至少7核苷酸的连续段。在优选的实施方式中，所述连续段位于所述靶序列的3′区中，例如起始于3′末端的3个碱基内。在另一实施方式中，该连续段位于所述靶序列的5′区中。在另一实施方式中，所述功能性基序包括在所述靶序列的3′区中的至少3、4、5、6或7个核苷酸的连续段，并包括在所述靶序列的5′区中的至少3、4、5、6或7个核苷酸的连续段。在另一实施方式中，所述功能性基序包括在所述靶序列的中心区中的至少11个核苷酸的连续段。序列基序包括少于全长siRNA靶序列的序列，其可用于评价与siRNA仅有部分序列同一性的siRNA靶向转录本(Jackson等人于2004年5月17日提交的国际申请PCT/US2004/015439，本文将其全部引用作为参考)。在优选的实施方式中，所述功能性基序包括全长siRNA靶序列。
所述功能性基序还可包括侧翼序列。发明人还发现，这种侧翼区序列在确定所述沉默效率中具有作用。在一实施方式中，功能性序列基序，如敏感性或抗性序列基序，包括siRNA靶序列的至少一部分，和一个和两个侧翼区中的一种或多种序列。因此，序列基序可包括M个核苷酸的siRNA靶序列，该siRNA靶序列一侧的D1个核苷酸的侧翼序列和该siRNA靶序列另一侧的D2个核苷酸的侧翼序列，其中M、D1和D2是合适的整数。在一实施方式中，D1＝D2＝D。在一实施方式中，M＝19。一些优选的实说方式中，D1、D2或D至少为5、10、20、30、50个核苷酸长度。在特定实施实施中，敏感性或抗性序列基序由19个核苷酸的siRNA靶序列和该siRNA靶序列每一侧的10核苷酸的侧翼序列组成。在另一特定实施实施中，敏感性或抗性序列基序由19个核苷酸的siRNA靶序列和该siRNA靶序列每一侧的50核苷酸的侧翼序列组成。
在另一实施方式中，序列基序可以包括M个核苷酸的siRNA靶序列，以及以下的一种或多种与该靶序列5′端侧翼连接的D1个核苷酸的连续段，与该靶序列3′端侧翼连接的D2个核苷酸的连续段，在所述靶序列5′端上游约35核苷酸处起始的D3个核苷酸的连续段，在所述靶序列3′端下游约25核苷酸处起始的D4个核苷酸的连续段，及在所述靶序列3′端下游约60核苷酸处起始的D5个核苷酸的连续段，其中D1、D2、D3、D4和D5为合适的整数。在一实施方式中，D1＝D2＝D。在一些优选的实说方式中，D1、D2、D3、D4和D5的每一个为至少5、10或20个核苷酸长度。所述功能性基序的长度为L＝M+D1+D2+D3+D4+D5。在特定实施实施中，所述序列基序包括19个核苷酸的siRNA靶序列，与所述靶序列5′端侧翼连接的约10个核苷酸的连续段，与所述靶序列3′端侧翼连接的约10个核苷酸的连续段，在所述靶序列5′端上游约35核苷酸处起始的约10个核苷酸的连续段，在所述靶序列3′端下游约25核苷酸处起始的约10个核苷酸的连续段，及在所述靶序列3′端下游约60核苷酸处起始的约10个核苷酸的连续段(参见图10)。
在其它实施方式中，功能性序列基序，如敏感性或抗性序列基序，包括在siRNA靶序列的一侧或两侧的侧翼连接区中的一种或多种序列，但不包括任何siRNA靶序列。在一实施方式中，所述功能性基序包括与所述靶序列5′端侧翼连接的约10个核苷酸的连续段。在另一实施方式中，所述功能性基序包括与所述靶序列3′端侧翼连接的约10个核苷酸的连续段。在优选的实施方式中，所述功能性基序包括与所述靶序列5′端侧翼连接的约10个核苷酸的连续段，以及与所述靶序列3′端侧翼连接的约10个核苷酸的连续段。在一实施方式中，所述功能性基序包括在所述靶序列5′端上游约35核苷酸处起始的约10个核苷酸的连续段。在另一实施方式中，所述功能性基序包括在所述靶序列3′端下游约25核苷酸处起始的约10个核苷酸的连续段。在另一实施方式中，所述功能性基序包括在所述靶序列3′端下游约60核苷酸处起始的约10个核苷酸的连续段。在优选的实施方式中，所述功能性基序包括与所述靶序列5′端侧翼连接的约10个核苷酸的连续段，与所述靶序列3′端侧翼连接的约10个核苷酸的连续段，在所述靶序列5′端上游约35核苷酸处起始的约10个核苷酸的连续段，在所述靶序列3′端下游约25核苷酸处起始的约10个核苷酸的连续段，及在所述靶序列3′端下游约60核苷酸处起始的约10个核苷酸的连续段。因此，序列基序可包括与所述靶序列5′端侧翼连接的D1个核苷酸的连续段，与所述靶序列3′端侧翼连接的D2个核苷酸的连续段，在所述靶序列5′端上游约35核苷酸处起始的D3个核苷酸的连续段，在所述靶序列3′端下游约25核苷酸处起始的D4个核苷酸的连续段，及在所述靶序列3′端下游约60核苷酸处起始的D5个核苷酸的连续段，其中D1、D2、D3、D4和D5为合适的整数。在一些优选的实说方式中，D1、D2、D3、D4和D5的每一个为至少5、10或20个核苷酸长度。所述功能性基序的长度为L＝D1+D2+D3+D4+D5。
在一实施方式中，功能性序列基序的特征用沿所述序列基序的每一位置观察到的G、C、A、U(或T)的频率来表征。在本公开中，U(或T)有时简写为U(T)，用于说明核苷酸U或T。一组频率形成频率矩阵，其中每一元件显示在指定位置观察到指定核苷酸的次数。表示L长度的序列基序的频率矩阵为4·L矩阵{fij}，其中i＝G、C、A、U(T)；j＝1，2，...，L；其中fij是在位置j处的核苷酸i的频率。可由一组N siRNA靶序列获得或建立序列基序频率矩阵，该靶序列表现出需要的性质，例如对siRNA沉默具有敏感性或抗性。
fij=Σk=1Nδik(j)...(1)]]>
其中在一实施方式中，功能性序列基序由M个核苷酸的siRNA靶序列，该siRNA靶序列一侧的D1个核苷酸的侧翼序列和该siRNA靶序列另一侧的D2个核苷酸的侧翼序列组成，L＝M+D1+D2。在一实施方式中，所述的功能性序列基序由M个核苷酸的siRNA靶序列，与该靶序列5′端侧翼连接的D1个核苷酸的连续段，与该靶序列3′端侧翼连接的D2个核苷酸的连续段，在该靶序列5′端上游约35核苷酸处起始的D3个核苷酸的连续段，在该靶序列3′端下游约25核苷酸处起始的D4个核苷酸的连续段，及在该靶序列3′端下游约60核苷酸处起始的D5个核苷酸的连续段组成，L＝M+D1+D2+D3+D4+D5。
在另一实施方式中，功能性序列基序的特征由一组权重来表征，每一核苷酸的每一权重均产生于该基序的某一位置。在这种实施方式中，可用权重矩阵{eij}来表示L长度的功能性序列基序，其中i＝G、C、U(T)，j＝1，2，...L，权重eij为在功能性序列基序的位置j处发现核苷酸i的权重。在一实施方式中，所述权重eij是在功能性序列基序的位置j处发现核苷酸i的概率。当该概率用于权重时，该矩阵也称为概率矩阵。根据以下等式可从频率矩阵中可获得序列基序的概率矩阵，eij=fijN...(3)]]>在优选的实施方式中，用位置特异性记分矩阵来表征功能性序列基序。可用log可能性值log(eij/pij)来构建所述PSSM，其中eij为在位置j处发现核苷酸i的权重，pij为在随机序列的位置j处发现核苷酸i的权重。在一些实施方式中，用在所述功能性序列基序的位置j处发现核苷酸i的概率作为eij，用在随机序列位置j处发现核苷酸i的概率作为pij。所述权重或概率pij为“优先”权重或概率。在一些实施方式中，对于位置j处的每一种可能的核苷酸i∈{G、C、A、U(T)}，pi＝0.25。因此，对于指定长度为L的序列，可用在所有位置的log可能性比值的和作为记分来评估相对于与随机序列的匹配，该指定序列是否更可能或更不可能与功能性基序匹配其中ej和pj分别为所述功能性序列基序和随机序列中位置j处的核苷酸的权重。例如，如果这一记分为0，那么该序列与序列基序匹配的概率与随机序列匹配的概率相同。如果比值大于0，则该序列更倾向于与所述序列基序匹配。
在另一实施方式中，当不能区分出两种或多种不同的核苷酸时，可使用具有减少维数的PSSM。例如，如果不能区分出序列基序中的G和C的相对碱基组成，那么PSSM可以是3·L矩阵{log(eij/pij)}，其中i＝G、C、A、U(T)，j＝1，2，...L；其中Eij为权重，例如，在位置j处发现核苷酸i的概率，pij为权重，例如在随机序列的位置j处发现的核苷酸i的概率。因此，在这种情况下，PSSM具有3组权重GC特异性、A特异性和U特异性，例如，如果在某一位置处的碱基为G或C，则用GC权重比值的自然对数和在该位置发现G或C的无偏概率作为该位置的GC特异性权重；以及用所述位置特异性A和T权重的自然对数除以各碱基的无偏概率作为该位置的A和T特异性权重。由等式(5)表示所述对数可能性比值记分其中Ei为分配给位置j处的碱基-A、U或G/C的权重，以及对于A或U，pi＝0.25，而对于G/C，pi＝0.5。
在另一实施方式中，当不能区分出序列基序中的G和C的相对碱基组成时，而且也能不区分出该序列基序中的A和T的相对碱基组成时，PSSM可以是1·L矩阵{log(log(Eij/pij)}，其中i＝G/C；j＝1，2，...L；其中Eij为权重，例如，在位置j处发现核苷酸i的概率，pij为权重，例如在随机序列的位置j处发现核苷酸i的概率。因此，在这种情况下，PSSM具有1组GC特异性权重如果在某一位置上的碱基为G或C，则用GC权重比值的自然对数和在该位置发现G或C的无偏概率作为该位置的GC特异性权重。由等式(5)表示所述Log可能性比值记分，除了Ej为分配给位置j处的碱基-G/C的权重，pj＝0.5。
5.1.2.确定图谱的方法本发明提供了基于多种siRNA确定功能性序列基序的PSSM，从而确定该siRNA的量或定量特征的方法。例如，可将沉默效率已得到确定的siRNA用于确定siRNA敏感性或抗性序列基序的PSSM。在本公开中，出于简化的原因，效率通常用作siRNA分类的方法。在不存在沉默该靶基因的其它siRNA的情况下测量siRNA的效率。本领域所属技术人员能够明白，本发明的方法可等同应用于依据另一方法进行siRNA分类的情况。此多种siRNA也称为siRNA文库。当感兴趣的功能性序列基序在一侧或两侧侧翼区包含一种或多种序列时，多种siRNA功能性基序，即包括转录本中的所述siRNA靶序列和侧翼区序列的序列，可用于确定该功能性基序的PSSM。在优选的实施方式中，该siRNA功能性序列基序由19个核苷酸的siRNA靶序列和在该siRNA靶序列的任一侧的10个核苷酸的侧翼序列组成。出于简化的原因，在本公开中，除非特别指明，术语“siRNA文库”通常是指siRNA文库和siRNA功能性基序文库。应当理解，在后一种情况下，当指siRNA的效率时，其指靶向所述基序的siRNA的效率。优选地，多种siRNA或一种siRNA的靶基序包括至少10、50、100、200、500、1000或10,000种不同的siRNA或siRNA靶基序。
在所述多种siRNA或siRNA功能性基序或其文库中的每一种不同的siRNA可具有不同水平的效率。在一实施方式中，该多种siRNA或其文库由具有指定效率水平的siRNA组成。在另一实施方式中，所述多种siRNA或其文库包括具有不同效率水平的siRNA。在此实施方式中，可将siRNA分为亚组，每一亚组由具有指定效率水平的siRNA组成。
在一实施方式中，利用多种具有给定效率的siRNA来确定siRNA功能性基序的PSSM。在一实施方式中，用沉默效率高于选定阈值的siRNA所组成的N种siRNA来确定siRNA敏感性基序的PSSM。该PSSM是基于在某一位置出现某一核苷酸的频率来确定的(参加5.1.1节)。所选定的阈值可以是50％、75％、80％或90％。在另一实施方式中，用沉默效率低于所选定阈值的siRNA所组成的N种siRNA来确定siRNA敏感性基序的PSSM。所选定的阈值可以为5％、10％、20％、50％、5％或90％。在优选的实施方式中，该PSSM使用G/C权重的维数减少。
在优选的实施方式中，利用分类方法用N种序列来获得或构建敏感性或抗性基序的PSSM。在此实施方式中，使用的siRNA文库包括具有不同效率水平的siRNA。在一实施方式中，在该文库中的siRNA可随机地分为亚组，每一亚组由具有不同效率水平的siRNA组成，一组用作用于确定PSSM的训练组，而另一组用作用于验证该PSSM的检验组。可用不同的标准来将存在的siRNA文库划分成训练和检验组。如果siRNA文库中的大部分siRNA寡核苷酸是用标准方法设计的，并要求在该寡核苷酸前具有即刻的AA二聚体，则使用多个部分，并将多个训练的PSSM(而不是单个PSSM)组合来为所述检验寡核苷酸分配记分。示例性的siRNA文库和将该文库的划分为训练组和检验组如表II1所示。
在优选的实施方式中，所述序列基序由转录本序列中的39个碱基组成，从该19mer siRNA靶序列的上游的10个碱基起始，并终止于所述19mer siRNA下游的10个碱基。表征这种序列基序的PSSM如5.1.1节中所述。
在优选的实施方式中，通过迭代(iterative)方法确定所述的PSSM。利用在指定搜索范围内所有位置的所有碱基的随机权重{eij}或{Eij}来初始化PSSM。在另一优选实施方式中，PSSM初始化为训练组中的好与坏siRNA间的平滑平均碱基组成差异。例如，描述39个核苷酸的序列基序的PSSM可具有117个元件。在另一实施方式中，所述权重通过比较针对目标量，例如沉默效率，所产生的记分的相关性，并选择其记分最佳对应该量的PSSM来优化。通过比较任一位置权重变化前后的相关性值来记分PSSM表现方面的改善。在一实施方式中，对相关性的变化没有最低要求。将集合改善计算为最后相关性与初始相关性之间的差异。在一实施方式中，对于表征39mer序列基序的PSSM，在终止优化的117个循环后，所述的集合改善阈值的差异为0.01。
在一实施方式中，在允许的权重值范围内优化所述权重来反应好siRNA和坏siRNA之间的碱基组成差异，好siRNA即具有至少中值效率的siRNA，而坏siRNA即具有低于中值效率的siRNA。如果用频率矩阵来初始化所述PSSM，那么允许值的范围对应频率阵列元件的+/-0.05。如果用无偏检索，权重的允许值范围对于G/C为0.45-0.55，对于A或U为0.2-0.3。在一实施方式中，权重允许从初始值以±0.5变化。如果使用无偏检索，可将所述PSSM设置成在上述检索范围内的随机初始值。
在一实施方式中，通过随机爬山突变优化程序来确定所述的PSSM。在该方法的每一步中，随机选择一个位置上的一个碱基以用于优化。例如，对于描述39个核苷酸的序列基序的PSSM，所述39个碱基成为117个权重的载体39个G/C权重，39个A权重和39个U权重。选择这些117个权重中的一个用于每一步中的优化，并在该步骤中运行所述检索范围内的所有值。对于所述检索范围中的每一个值，计算用于siRNA训练组的记分。随后计算这些记分与所述siRNA的沉默效率间的相关性。将在记分和沉默效率间产生最佳相关性的位置的权重保留作为该位置的新权重。
在一实施方式中，用于测量所述训练和检验有效性的特征是基于所述ROC曲线的总假检测率(FDR)，并计算为前33％寡核苷酸的平均FDR记分，该寡核苷酸通过由所述训练PSSM指定的记分来分类。在计算该FDR记分时，这些具有低于中值沉默水平的寡核苷酸被认为是假的，而沉默水平高于该中值水平的那些被认为是真的。该“假测定率”为所选的假阳性的数量除以真阳性的总数，在列表的每一排列位置被测量。假的测定率可以是所有所选siRNA的分数的函数。在一实施方式中，将在所选列表的33％处的曲线下面的面积作为表示表现的单一数目。在一实施方式中，所有至少为中值的siRNA被称为“阳性”，而所有低于中值的siRNA被称为“阴性”。因此，一半数据为阳性，而另一半为“假阳性”。在理想的排列中，所选列表的33％处的或甚至50％处的曲线下面的面积应为0。相反，随机排列应该会产生相等数量的真阳性与假阳性以供选择。这对应于所选列表的33％处的0.17曲线下面的面积，或所选列表的50％处的0.25曲线下面的面积。
根据本领域公知的方法来计算沉默％与PSSM记分间的相关性(参见例如，Applied Multivariate Statistical Analysis(实用多变量统计学分析，第4版，R.A.Johnson & E.W.Wichern，Prentice-hall，1998)。
连续进行该处理，直到对多种反复的总改善降到阈值以下。
在优选的实施方式中，利用siRNA训练组获得了功能性序列基序的多种PSSM。在本公开中，多种PSSM也成为“全体”PSSM。每一轮优化可以在不同于全部优化的局部优化处停止。实现的具体局部优化依赖于随机位置被选择用于优化的历史。较高的改善阈值可能使优化的PSSM不能用于接近全部优化的局部优化中。因此，进行多轮优化比一轮较长的优化更有效。发现附加的轮次(例如，最高达200)能够提高表现。进行多于200轮的优化似乎不能进一步提高表现。根据经验，通过平均的多轮次来记分siRNA不如在每一轮产生的PSSM上来记分候选siRNA，然后将这些记分加和有效。因此，在一实施方式中，单独使用或加和多种PSSM来对每一序列匹配产生组分记分。可以单独检测所述的多种矩阵或将其作为具有已知沉默效率的独立组siRNA靶基序来评价用于鉴定序列基序和siRNA设计中的用途。在优选的实施方式中，多种PSSM由至少2、10、50、100、200或500种PSSM组成。
在优选的实施方式中，用一种或多种不同的siRNA训练组来获得一种或多种全体PSSM。这些不同的PSSM全体可一起用于确定序列基序的记分。
本领域已将序列权重方法用于在多种序列比对和检索应用中来减少冗余和强调多样性。这些方法中的每一种都是基于序列与祖先序列或一般化序列间的距离概念(notion of distance)。本发明提供了不同的方法，其中提供了在比对中在每一位置观察到的多样性的碱基权重和碱基组成与所观察到的效率间的相关性，而不是序列距离测量。
在另一实施方式中，通过假设任一位置的碱基组成依赖于其相邻位置的，称为“曲线模式”的方法来产生PSSM。
在一实施方式中，曲线模式产生为常态曲线的和(即高斯曲线)。对于本领域所属技术人员来说很明显，也可以使用其它适合的曲线函数，例如多项式。每一曲线表示在具体区域发现具体碱基的概率。在总和的常态曲线中，每一位置的值为该曲线代表的碱基位置的权重。然后加和在每一siRNA和其侧翼序列的每一位置上存在的每一碱基的权重，以产生siRNA的记分，即所述记分为∑wi。可将该记分计算描述为所述序列的碱基含量与该曲线模式中的权重的点积。因此，它是表示感兴趣序列与该模式之间的相关性的一种方式。
可将曲线模式初始化以使其对应于在好与坏siRNA的所述平滑碱基组成差异中存在的主要峰和主要谷，例如，如图1A-1C和图5A-5C所示。在一实施方式中，获得了G/C、A和U的曲线模式。在一实施方式中，初始模式可设置成如下的3峰G/C曲线模式峰1平均值1.5标准差2幅度0.0455峰1的平均值、标准差和幅度被设置成对应于在好与坏siRNA间的GC含量平均差异中的峰，该差异发生在组1的训练组与检验组中所述的siRNA靶位点的碱基2-5内。
峰2平均值11标准差0.5幅度0.0337峰2的平均值、标准差和幅度被设置成对应于在好与坏siRNA间的GC含量平均差异中的峰，该差异发生在组1的训练组与检验组中所述的siRNA靶位点的碱基10-12内。
峰3平均值18.5标准差4幅度-0.0548峰3的平均值、标准差和幅度被设置成对应于在好与坏siRNA间的GC含量平均差异中的峰，该差异发生在组1的训练与检验组中所述siRNA靶位点的碱基12-25内。
可调节曲线模式中的峰高度(幅度)，峰的序列中心位置(平均值)和宽度(标准差)。通过相对于预设值栅格调节每一峰的幅度、平均值和标准差来优化曲线模式。在一实施方式中，在一些训练组中优化曲线模式，并在一些检验组中进行检验，例如，如表II所述的训练组与检验组。分别优化每一碱基-G/C、A和U(或T)，并对优化模式的组合进行筛查以获得最佳表现。
优选地，曲线模式的优化标准为(1)在前10％、15％、20％和33％记分中的好寡核苷酸的分数，(2)在所选siRNA的33％和50％处的假检测率，及(3)siRNA沉默与用作同分决赛(tiebreaker)的siRNA记分之间的相关系数。
当训练所述模式时，探测每一峰的幅度、平均值和标准差的概率值栅格。针对上述标准，选择具有靠前值或在靠前列值范围内的模式并用于进一步检查。
在优选的实施方式中，利用3个或4个峰来优化G/C模式，利用3个峰来优化A模式，利用5个峰来优化U模式。用于优化曲线模式的参数示例性范围如下文的实施例3所示。
优选地，评价获得的PSSM的表现。在一实施方式中，利用ROC(接收者操作特性)曲线来评价该PSSM。ROC曲线是诊断性检验的敏感性作为非特异性的函数的作图。ROC曲线显示检验的诊断性表现的内在特性并可用于比较竞争程序的相对优点(relative merit)。在一实施方式中，将PSSM的敏感性计算为以总真阳性分数测定的真阳性的比例，而该PSSM的非特异性计算为以总假阳性分数测定的假阳性的比例(参见例如，G.Chambell，1994，Statistics in Medicine 13499-508；Metz，1986，Investigative Radiology 21720-733；Gribskov等人，1996，ComputersChem.2025-33).图3显示了选择用于本发明的目前最佳实施的两种PSSM的ROC曲线。
在另一实施方式中，通过比较用PSSM鉴定的多种序列基序与多种参考序列基序来评价PSSM的表现。该PSSM用于获取多种序列基序，例如，通过扫描一种或多种转录本并鉴定与该PSSM匹配的序列基序，例如具有高于阈值的记分的基序来获取。优选地，所述多种包括至少3、5、10、20或50种不同的序列基序。所述参考序列基序可从任何适合的来源获得。在一实施方式中，利用标准的方法来获取多种参考序列基序(例如，Elbashir等人，2001，Nature.411494-8)。随后可用任何本领域公知的标准方法来对这两类多种基序进行比较以确定其是否相同。
在优选的实施方式中，利用Wilcoxon秩和检验来比较这两类多种基序。Wilcoxon秩和检验检验分析的两类多种基序是否相同(参见例如，Snedecor与Cochran，Statistical Methods，第八版，1989，Iowa StateUniversity Press，pp.142-144；McClave与Sinchich 2002，Statistics，第九版，Prentice Hall，第14章)。该Wilcoxon秩和检验可认为是非配对t检验的非参数等价物。它用于检验两个独立样本来自同一群体的假设。因该检验是非参数的，所以它仅对数据的分布作出有限的估计。其假定在所述的两组中，分布的形式是相似的。如果该检验被用作证据证明所述的组间的中值显著不同，其是特别适当的。
该检验将来自两组的所有数据进行排列。将最小值赋予秩1，将第二最小值赋予秩2，并依此类推。如果值持平，则赋予其评价秩。将每一组的秩加在一起(因此称为秩和检验)。将秩的和与列表的临界值比较产生p值。在Wilkoxon秩和检验中，p为X、Y和α的函数，是在零假设是真时，观察到结果等于或偏离使用所述数据(X与Y)的一个假设的概率。p值显示用于检验零假设的显著性，该假设为产生两个独立样本的所述群体，即X与Y，是相同的。X与Y为载体，但可以具有不同的长度，即所述样本可具有不同数量的元件。可替代的假设是X群的中值可从Y群的中值到非零量变化。α为指定水平的显著性，并在0与1之间分级。在某个实施方式中，α的默认值设为0.05。如果p接近0，就可否决零假设。
在一实施方式中，将本发明所述的PSSM方法与标准方法(例如，Elbashir等人，2001，Nature 411494-8)就其在鉴定具有高效率的siRNA中的表现进行比较。用由每一种方法选择的3种siRNA所获得的结果如图3所示。用PSSM的方法所选择的siRNA显示更好的中值效率(与标准方法siRNA获得的78％比较，其为88％)，并且其表现更加均一。最小中值效率得到极大改善(与标准方法获得的12％比较，其为75％)。对于相同的基因，利用基于PSSM运算法则设计的siRNA的沉默效率分布显著好于利用标准方法设计的siRNA的效率(p＝0.004，Wilcoxon秩和检验)。
5.1.3.评价siRNA沉默效率的替代方法位置特异性记分矩阵方法是代表siRNA功能性基序，例如siRNA敏感性和抗性基序，的优选方法。然而，PSSM所表示的信息还可由另外的方法来表示，该方法也提供在具体位置的碱基组成的权重。本节提供评价siRNA功能性基序的这种方法。
5.1.3.1.基于序列窗口的方法获得序列位置的碱基组成的权重的常用方法是计数序列位置的″窗口″中的具体碱基或碱基组的数量。可选择地，该计数由百分比来表示。这种记分的数值称为窗口记分，其依赖于该窗口的大小。例如，对于G/C含量，大小为5的记分窗口可给出0、1、2、3、4或5的值；或0％、20％、40％、60％、80％或100％的值。
对窗口进行记分的可选择方法是计算该窗口中碱基的双链变性温度或ΔG。这些热动力学量反应了该窗口中所有碱基的组成以及其具体的顺序。对于本领域所属技术人员来说很明显，这些热动力学量直接依赖于每个窗口的碱基组成，并由该窗口的G/C含量所主导，同时显示了该碱基顺序的一些变化。
在一实施方式中，碱基组成差异所代表的信息，如在图1A、1B和1C中，由碱基组成的窗口来表示，该碱基组成的窗口对应于增加或减少的具体碱基组成的峰的位置。用增加或减少的碱基组成(该碱基组成对应于或多或少对siRNA靶向有功能或抗性的序列)可对这些窗口进行记分以确定该具体碱基的含量。例如，相对于siRNA 19mer双链从碱基-1至碱基3G/C含量增加的5个碱基的窗口，以及相对于siRNA 19mer双链从碱基14至碱基29G/C含量减少的16个碱基的窗口，可用于表示图1A中反映的一些siRNA功能性基序。
这些记分可直接用作分类器在5个碱基的窗口的例子中，自动提供5部分分类器。可将记分与计算或经验来源的阈值进行比较，从而将该窗口作为2部分分类器使用。也可组合使用窗口。可用或不用标准化或权重来对各个序列的多个窗口的记分进行求和。在一实施方式中，通过减去一组记分中的平均记分，然后除以该组记分的标准差来标准化每一窗口的记分。在另一实施方式中，利用Pearson相关系数对记分求权，该系数是通过将窗口记分与siRNA组的检测效率进行比较获得。在另一实施方式中，在求和之前，记分被标准化，并随后进行求权。
作为使用代表siRNA功能性基序的窗口的例子，列出以下要考虑的参数以预测siRNA的效率1.直接向前参数。
ATG_Dist距起始密码子的距离。
STOP_Dist距终止密码子末端的距离。
Coding_Percent(编码百分比)作为编码区长度的百分比的ATG_Dist。
End_Dist距转录本末端的距离Tolal_Percent(总百分比)作为转录本序列长度的百分比的起始位置。
2.基于窗口的参数。
考虑转录本序列中的119个碱基(19mer加上50个下游碱基和50个上游碱基)。在该119个碱基的段的起始至终止的每一位置检测大小为3-10的窗口。对于每一窗口位置计数以下项目a.碱基数目A、C、G、或U。
b.碱基对数目M(A或C)、R(A或G)、W(A或U)、S(C或G)、Y(C或U)以及K(G或U)。
c.不同排序的二聚体数目AC、AT、AG、MM、RY、KM、SW等等。
d.上述一个碱基或二个碱基单位的最长段。
3.基于基序的参数。
这些参数也基于上述119mer段。字母包括碱基(A、C、G、U)和碱基对(M、R、W、S、Y、K)。
(1).位置特异性单碱基(one-mer)、二聚体或三聚体。
(2).在四个较大区域的1mer到7mer的数目上游50个碱基，特有的19mer，下游50个碱基，以及全部区域119mer。
4.结构性参数。
所述的结构性参数依据以下区域。
19mer特有寡核苷酸(前缀特有)该寡核苷酸的即刻上游20mer(前缀up20)该寡核苷酸的即刻下游40mer该寡核苷酸的即刻上游60mer该寡核苷酸的即刻下游(前缀down20)该寡核苷酸的即刻下游40mer该寡核苷酸的即刻下游60mer检验由RNAStructure(RNA结构)预测的碱基配对并计算以下参数突出环数(参数突出)
该突出环中的总碱基数内部环数(内在)该内部环中的总碱基数发夹数(发夹)该发夹中的总碱基(发夹_b)其它基序区数(其它)在该其它基序区中的总碱基数(其它_b)总配对碱基(总对_b)总的非配对碱基(总非对_b)配对碱基的最长段非配对碱基的最长段因此，对于每一siRNA，对于二级结构基序总计计算12×7＝84种参数。
5.靶外预测参数利用5.2节讨论的求权FASTA记分来计算10种不同的参数，用不同的条件，在5.4节讨论最小化的最大记分和预测的双链ΔG。
通过检测的siRNA的记分与沉默效率的Pearson相关系数来对参数进行标准化和求权。采用不同的方法来选择对siRNA效率具有最大预测能力的参数；该不同的方法具有同样的1750种选择参数。其中的1190种为基于窗口的碱基组成参数，559种为基于基序的碱基组成参数，以及仅选择1种结构参数。没有选择其它的参数。
5.1.3.2.序列家族的记分方法可利用序列一致模式、隐藏的Markov模式以及神经网络来表示作为PSSM选项的siRNA功能性基序，例如siRNA敏感性或抗性基序。
首先，siRNA功能性基序，例如siRNA敏感性或抗性基序可理解为距离相关性序列家族，例如功能性siRNA靶位点家族，的松散一致性序列。对家族一致性的相似性序列进行记分是本领域公知的(Gribskov，M.，McLachlan，A.D.，与Esienberg，D.1987.Profile analysisdetection ofdistantly related proteins PNAS 844355-4358；Gribskov，M.，Luthy，R.，D.1990.Profile analysis.Meth.Enzymol.183146-159)。这种记分方法通常称为“图谱”，但也可称为“模板”或“柔韧模式”，或类似的术语。利用特定碱基或氨基酸以及该序列中的插入或缺失的位置特异性记分，此方法可或多或少地对多种序列比对的一致性进行统计学描述。权重可获自每一位置的保守程度。当在本文中作为术语使用时，一致性图谱与PSSM间的差异在于一致性图谱中的间隔可以改变通过允许的插入或缺失并根据碱基记分，在彼此可变的距离上可以发现siRNA功能性基序，例如siRNA敏感性或抗性基序的不连续部分。
图谱隐藏的Markov模式为统计学模式，其也表示序列家族的一致性。采用语音识别的研究技术(Rabiner，L.R.1989.A tutorial on hiddenMarkov models和selected applications to speech recognition.Proc.IEEE77257-286)，Krogh及其同事(Krogh，A.，Brown，M.，Mian，I.S.，Sjolander，K.和Haussler，D.1994.Hidden Markov models in computational biologyApplications to protein modeling.J.Mol Biol.2351501-1531)应用HMM技术来模建序列图谱。使用隐藏的Markov模式来分析生物学序列目前是本领域公知的，且用于计算隐藏的Markov模式的应用软件也较容易获得，例如HMMER程序(http://hmmer.wustl.edu)。
图谱隐藏的Markov模式与上述的一致性图谱不同，其中图谱隐藏的Markov模式具有为每一位置的每一碱基、插入、缺失设置权重的形式概率偏好(formal probabilistic basis)。隐藏的Markov模式也可用于未知序列的比对以发现基序，和确定所述基序的位置特异性权重，而一致性图谱通常获自之前比对过的序列。
一致性图谱和图谱隐藏的Markov模式可假设在具体位置的碱基组成独立于所有其它位置的碱基组成。这与本发明的随机爬山PSSM(random-hill-climbing PSSM)相似，但与所述的窗口和曲线模式PSSM不同。
为获得具体位置的碱基组成对相邻位置的组成的依赖性，Markov模式可用作顺序固定的Markov链(fixed-order Markov chain)和内插的Markov模式(Interpolated Markov model)。Salzberg及其同事应用内插的Markov模式作为顺序固定的Markov链的改进来发现微生物基因组中的基因(Salzberg S.L.，Delcher，A.L.，Kasif，S.，和White，1998.Nucl.AcidsRes.26544-548)。顺序固定的Markov链将序列的每一碱基预测为该位置之前的固定碱基数的函数。用于预测之后碱基的之前的碱基数称为Markov链的顺序。内插的Markov模式利用可变数量的前碱基来预测特定位置的碱基组成。这允许在较小的序列组中进行训练。对于一个训练组中的n-mer不同长度，可以获得充足的预测数据，从而可以进行后续碱基的预测，同时对于任何固定长度的所有寡核苷酸不能获得充足的数据。因此，当长寡聚体在该训练组中有足够的频率时，内插的Markov模式能够更加自由地利用比顺序固定的Markov链更长的优选寡核苷酸来进行预测。内插的Markov模式利用多种寡聚体长度的概率的求权组合来分类每一碱基。
根据具体位置的碱基组成对之前位置的组成的依赖性，顺序固定的Markov链和内插的Markov模式可表示siRNA功能性基序，例如siRNA敏感性或抗性基序。内插的Markov模式构建方法会发现最能预测siRNA功能性或非功能性基序的寡核苷酸。
神经网络也用于对家族序列的相似性序列进行记分。神经网络是一种统计学分析工具，用于通过反复的学习步骤来建立模式。依赖所需的结果和与该结果最初相关的训练输入，训练网络随后可实施分类任务。一般地，对神经网络程序或计算机设备提供序列的训练组并设置代表这些序列的状态。随后检验该神经网络对检验序列组的表现。神经网络可用来预测和模建siRNA功能性基序，例如siRNA敏感性和抗性基序。神经网络的缺点是通过检验训练网络的状态很难或不可能确定基序的实际序列特征。
5.1.4.鉴定siRNA靶基因中的序列基序的方法本发明提供了鉴定转录本中的一种或多种序列基序的方法，该序列基序是siRNA敏感性或抗性基序。因此，通过该方法还可提供相应的功能或非功能性siRNA。在一实施方式中，检索感兴趣的序列区以鉴定与功能性基序图谱相匹配的序列。在一实施方式中，多种可能的siRNA序列基序包含平铺跨过预定碱基间隔的siRNA序列基序，对其进行评价以鉴定与所述图谱相匹配的基序。在优选的实施方式中，采用1、5、10、15、或19碱基的间隔。在优选的实施方式中，检索整个转录本。如5.1.1-5.1.3节所述利用PSSM计算每一种不同序列基序的记分。根据记分随后进行所述系列的排列。并从排列表中选择一种或多种序列。在一实施方式中，选择具有最高记分的siRNA序列基序为siRNA敏感性基序。在另一实施方式中，选择具有最低记分的siRNA序列基序为siRNA抗性基序。
本发明人发现沉默效率与siRNA功能性基序的碱基组成图谱的相关性可能依赖于一种或多种因素，例如该靶转录本的量。例如，本发明人发现，为了沉默表达贫乏的基因，例如，其转录本水平低于约5个拷贝每细胞的基因，在该靶序列的两末端不对称地具有高GC含量并在该靶序列侧翼序列区中具有高GC含量的siRNA功能性基序，相比于在该靶序列的两末端不对称地具有中度GC含量并在侧翼序列区中具有低GC含量的siRNA功能性基序，其沉默效率较低。靶转录本风度对沉默效率的作用如实施例6所示。
不受任何理论限制，本发明人推论具体siRNA功能性基序的沉默效率是一些过程相互影响的结果，这些过程包括RISC形成和siRNA双链解链、RISC和靶mRNA的扩散、RISC/靶复合体反应(其可包括RISC沿靶mRNA扩散)、裂解反应、以及产物分解等等。因此，所述转录本丰度、siRNA碱基组成图谱、靶序列和侧翼序列碱基组成图谱、以及细胞中siRNA和RISC的浓度均可影响沉默效率。不同的过程可能与siRNA或siRNA序列基序的不同序列区有关，即siRNA或siRNA序列基序的不同序列区可在转录本识别、裂解和产物释放中具有不同的功能，可以基于考虑这些一种或多种特性的标准来设计siRNA。例如，邻近引导链5′端的碱基参与转录本结合(靶上与靶外转录本均是)，并已表明其对靶RNA结合能是足够的。反义链5′端的较弱碱基对(该双链的3′端)促进所述反义链与RISC优先作用，例如，利用RISC的5′-3′解旋酶组分促进所述siRNA双链解链。在siRNA有义链的位置10处的U偏好与改进的RISC的裂解效率有关，因为其大多数的处于核酸内切酶中。所述裂解位点侧翼的低GC含量序列可促进RISC/核酸酶复合体裂解或释放该裂解的转录本，这与最近的研究一致，即siRNA引导链中心和3′区形成的碱基对提供了催化所需的螺旋几何构型。因此，本发明提供了通过获取siRNA来鉴定siRNA序列基序(及由此的siRNA)的方法，该siRNA在一种或多种序列区具有优化的序列组成，从而使得这些siRBA在一种或多种所述siRNA功能过程中是最优的。在一实施方式中，所述方法包括鉴定siRNA序列基序，其全部序列和/或不同序列区具有所需的组成图谱。该方法可用来来鉴定siRNA基序，其在特定的区域具有所需的序列组成，因此对一种功能过程是最优的。该方法还可以用来鉴定在一些区域具有所需序列组成的siRNA，因此对于一些功能过程是最优的。
在优选的实施方式中，获得单一的siRNA功能性图谱，如由一组PSSM所表示的图谱，例如，通过5.1.2或5.1.3节所述的方法用多种siRNA的沉默效率数据进行训练来获得，该siRNA靶向具有不同转录本丰度的基因。该图谱用来评价具有所有范围转录本丰度的基因转录本中的siRNA序列基序。在一实施方式中，基于其序列碱基组成图谱与该组PSSM所代表的一种或多种表达图谱的相似性程度，评价具有任何范围转录本丰度的基因转录本中的siRNA序列基序。在一实施方式中，对于感兴趣基因的所述siRNA功能性基序的PSSM记分通过5.1.1节所述的方法来获得。基于靶向具有不同范围表达水平的基因的siRNA来确定PSSM记分值的预定参考范围或参考范围。下文描述了确定参考值或参考值范围的方法。随后根据其记分与预定参考值或处于参考值范围内的接近程度来排列特定基因的siRNA功能性基序。随后选择其记分最接近所述预定值或在参考值范围内的一种或多种siRNA。在另一实施方式中，PSSM记分的预定参考值或PSSM记分的参考范围用于具有在指定范围表达水平的基因。所述的参考值或参考范围基于靶向具有该范围表达水平的siRNA来确定。随后基于其记分与所述预定值或在参考值范围内的接近程度来排列特定基因中的siRNA功能性基序。随后选择其记分最接近所述预定值或在参考值范围内的一种或多种siRNA。
能够以不同的方式来确定所述参考值或参考范围。在优选的实施方式中，评价了具有一种或多种特征(例如在siRNA功能性过程中具有一种或多种特定效率)的多种siRNA的PSSM记分与沉默效率的相关性。在优选的实施方式中，所述特征是该多种siRNA靶向低表达的基因。将对应于最大沉默中值的记分值用作参考值。在特定实施实施中，所述参考值为0。选择其PSSM记分最接近于参考值的一种或多种siRNA。
在另一实施方式中，与具有指定沉默效率水平(例如高于75％的效率)的siRNA相对应的记分范围用作参考值范围。在一实施方式中，发现只要控制碱基2-7处的GC含量，有效的siRNA的记分为-300至+200。在特定实施实施中，使用-300至+200的参考值。选择PSSM记分处于此范围内的一种或多种siRNA。
在另一优选实施方式中，在具有一种或多种特征(例如在siRNA功能性过程中具有一种或多种特定效率)的多种siRNA的PSSM记分的范围内的特定记分范围用作参考值。在优选的实施方式中，所述的特性为该多种siRNA靶向低表达的基因。在一实施方式中，将PSSM记分范围中的某个百分比用作参考值范围，例如90％、80％、70％、或60％。在特定实施实施中，在训练组中的所述联合PSSM记分范围的最大值为200，其中97％的记分为0或更低，且60％的记分低于-300。
在另一实施方式中，将多组PSSM记分的和(参见5.1.2节)用作参考记分。在特定实施实施中，所述多组由前述的两组PSSM组成。该两组PSSM在siRNA优选的碱基组成方面不同，特别是19mer和侧翼序列的GC含量。联合记分为0时，该PSSM组在其对siRNA的表现方面是平衡的。
在另一优选实施方式中，除PSSM记分外，根据与相应siRNA的位置2-7处对应的GC含量排列siRNA序列基序，并选择GC含量约为0.15至0.5(对应于1-3G或C)的一种或多种siRNA序列基序。
在另一优选实施方式中，选择在与相应siRNA的位置1对应的位置上具有G或C，并在与相应siRNA的位置19对应的位置上具有A或T的siRNA序列基序。在另一优选的实施方式中，选择siRNA基序，其中，所述19mer靶区的两侧的200个碱基不重复或是低复杂序列。
在特定实施实施中，基于以下方式选择siRNA序列基序(1)它们根据与相应siRNA的位置2-7对应的GC含量进行了第一次排列，并选择具有约0.15至0.5GC含量(对应于1-3处的G或C)的一种或多种siRNA序列基序；(2)随后，选择与相应siRNA的位置1对应的位置上具有G或C，以及与相应siRNA的位置19对应的位置上具有A或T的siRNA序列基序；(3)然后选择具有在-300至200范围内的或最接近0的PSSM记分的siRNA；(4)随后选择靶外BLAST匹配数量低于16；和(5)选择其靶区每一侧的200个碱基不重复或是低复杂序列的siRNA基序。
在另一实施方式中，确定多种不同丰度范围的每一种的参考值或参考范围。通过利用丰度范围(其中感兴趣的基因处于此范围)的适当参考值或参考范围来选择感兴趣基因中的siRNA功能性基序。在一实施方式中，所述多种不同丰度范围由2个范围组成低于约3-5个拷贝每细胞，对应于低表达基因；及高于5个拷贝每细胞，对应于高表达基因。利用上述方法中的一种可确定每一丰度范围的所述参考值或参考范围。
在另一实施方式中，确定多种不同转录本丰度范围的多种siRNA功能性基序图谱。使用上文5.1.2和5.1.3节所述方法，基于靶向具有指定范围表达水平的基因(即该基因的转录本丰度落入指定的范围)的siRNA的沉默效率数据来确定每一种这样的图谱。在一实施方式中，根据5.1.2节所述，利用靶向具有指定范围表达水平的基因的siRNA来训练具有该指定范围表达水平的基因的一组一种或多种PSSM。随后利用该PSSM鉴定表达水平在此范围内的靶基因的siRNA功能性基序，例如利用5.1.1节所述的方法所获得的PSSM记分来进行排列。在优选的实施方式中，所述转录本丰度范围分为2个范围低于约3-5个拷贝每细胞，其对应于低表达基因；及高于5个拷贝每细胞，其对应高表达基因。获得两组PSSM，每一组对应于每一种丰度范围。利用一组PSSM可鉴定感兴趣基因的siRNA功能性基序，该PSSM对于该感兴趣基因的风度来说是合适的。
本发明还提供了在不同的siRNA浓度下评价siRNA序列基序的沉默效率方法。例如，通过用浓度参数替代丰度参数，如上所述的用于评价具有不同丰度的转录本中的siRNA序列基序的沉默效率的方法可用于此目的。在一实施方式中，确定多种不同siRNA浓度范围的多种siRNA功能性基序图谱。基于不同浓度的siRNA的沉默效率数据来确定每一种这样的图谱，该siRNA靶向具有不同表达水平或具有不同范围表达水平的基因。在一实施方式中，确定转录本的图谱，该转录本具有指定的丰度或具有一定范围的丰度。基于不同浓度的siRNA的沉默效率数据来确定每一种这样的图谱，该siRNA靶向具有所述表达水平或具有所述范围表达水平的基因。在一实施方式中，基于具有所述浓度范围的siRNA的沉默效率数据来训练指定siRNA浓度范围的一种或多种PSSM。随后该PSSM可用于选择浓度落入此浓度范围内的具有高效率的siRNA。在优选的实施方式中，选择的转录本丰度低于5个拷贝每细胞。在另一实施方式中，该转录本丰度范围为高于5个拷贝每细胞。因此，本发明提供了选择指定浓度的siRNA靶向的一种或多种siRNA功能性基序的方法。
所述方法可用于鉴定一种或多种siRNA功能性基序，该基序由指定浓度的具有理想沉默效率的siRNA靶定。该指定的浓度优选低于纳摩尔至亚纳摩尔的范围，更优选在皮摩尔的范围。在具体的实施方式中，该指定的浓度为50nmol、20nmol、10nmol、5nmol、1nmol、0.5nmol、0.1nmol、0.05nmol或0.01nmol。所需沉默效率为在指定浓度下至少50％、75％、90％或99％。这种方法特别地用于设计治疗性siRNA。对于治疗性用途，常希望鉴定的siRNA能够以亚纳摩尔至皮摩尔的浓度高效率地沉默靶基因。本发明由此也提供了用于设计治疗性siRNA的方法。
本发明还提供了确定基因是否适于被治疗性siRNA靶定的方法。在一实施方式中，首先确定所需的siRNA浓度和所需的沉默效率。随后利用本发明的方法来评价该基因的转录本中的多种可能的siRNA序列基序。鉴定表现出最高效率的一种或多种siRNA序列基序，例如，具有满足高于所述标准的PSSM记分。如果一种或多种siRNA序列基序能够被相应的siRNA以高于或等于所需效率的沉默效率靶定，那么就确定该基因适于被治疗性siRNA靶定。在一实施方式中，所述多种可能的siRNA序列基序包括以预定的碱基间隔跨越或平铺(tile)部分或整个转录本的siRNA序列基序，例如以1、5、10、15或19的碱基间隔。在优选的实施方式中，连续重叠的siRNA序列基序平铺整个转录本序列。在另一优选实施方式中，连续重叠的siRNA序列基序以1个碱基的间隔平铺整个转录本序列的区域。
5.2.鉴定siRNA的靶外基因的方法本发明也提供了鉴定siRNA的靶外基因的方法。在本发明中，“靶外基因”是由设计来靶向另一基因的siRNA直接沉默的基因。(参见Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439，其在此全文引为参考)。siRNA的有义链或反义链均可沉默靶外基因。
5.2.1序列匹配图谱和靶外沉默微阵列试验表明，通过siRNA与靶外转录本的直接相互作用，大多数siRNA寡核苷酸发生靶外基因下调。当dsRNA与转录本的序列相似性在确定何种靶外基因受到影响中发挥作用时，序列相似性检索，甚至与杂交的热动力学模式结合，不足以准确预测靶外作用。然而，将靶外转录本与干扰性siRNA(offending siRNA)序列进行比对显示，在二者之间的一些碱基配对的相互作用似乎比其它更重要(图6)。
本发明提供了利用PSSM鉴定潜在的siRNA靶外基因的方法，该PSSM描述了siRNA和靶外基因的序列的序列匹配模式(pmPSSM)。在一实施方式中，所述序列匹配模式由在siRNA中与靶外转录本的相应靶位置匹配的不同位置的权重来表示{Pi}，其中Pi为在位置i处配的权重，i＝1，2，...L；其中L为siRNA的长度。基于频率可确定这种匹配模式，利用该频率可发现siRNA中与受影响的靶外转录本匹配的的每一位置，利用表达图谱的动力学分析通过目标靶的同时下调鉴定该转录本为siRNA直接靶(参见Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439)。pmPSSM可以为{Ei}，其中如果比对中位置i匹配，则Ei＝Pi，而如果位置i不匹配，则Ei＝(1-Pi)/3。19mer siRNA的示例性{Pi}绘入图7并列入表I中。
表I具有19mer双链区的21nt siRNA的示例性pmPSSM权重1 0.252 0.323 0.324 0.465 0.396 0.387 0.368 0.459 0.6110 0.4711 0.7612 0.9613 0.9414 0.81
15 0.9216 0.9417 0.8918 0.7819 0.58在一实施方式中，用靶外转录本的序列匹配模式获得pmPSSM。用Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439(其全文引入本文作为参考)所公开的方法来鉴定siRNA的靶外基因。例如，基于沉默动力学来鉴定siRNA的靶外基因(参见例如Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439)。可利用在每一位置发现的匹配频率随后产生pmPSSM。在一实施方式中，将图6所示的比对和其它siRNA的相似性数据结合来产生示例性的位置特异性记分矩阵以用于预测靶外作用。
根据以下等式利用pmPSSM记分可评价siRNA和转录本中序列的匹配程度(也称为位置匹配记分)，其中L为比对的长度，例如19。pmScore高于指定阈值，该序列鉴定为潜在的靶外序列。
本发明人发现，对指定的siRNA，记分高于阈值的比对数量是观察到的靶外作用数量的预测子。通过最大化预测性与观察到的靶外作用间的相关性可优化记分阈值(图8)。该优化的阈值有利于选择具有相对较少数量的预测性靶外作用的siRNA。
5.2.2鉴定siRNA的靶外基因的方法通过首先鉴定与siRNA比对的靶外转录本序列，可鉴定指定siRNA的靶外基因。可采用配对比对的任何合适方法，例如但不限于BLAST和FASTA。随后利用位置特异性记分矩阵计算这些比对的位置匹配记分。在优选的实施方式中，利用低严格性的FASTA检索来进行比对并根据式6计算每一比对的记分。如果记分高于指定阈值，则将包括该序列的转录本鉴定为潜在的靶外基因。
因此，本发明提供了评价siRNA的沉默效率的方法。在一实施方式中，鉴定siRNA的潜在靶外基因。在该基因组或基因组部分中，这种靶外基因的总数随后用于siRNA的沉默特异性检测。
5.3.预测siRNA的链表现的方法本发明提供了基于siRNA位置特异性碱基组成来预测siRNA的双链表现和/或效率和特异性的方法。本发明人发现，碱基组成PSSM记分(参见5.1节)高于其反向互补序列的碱基组成PSSM(G/C PSSM)记分的siRNA被预测为具有比其有义链更具有活性的反义链。相反，碱基组成PSSM记分低于其反向互补序列的碱基组成PSSM(G/C PSSM)记分的siRNA被预测为具有比其反义链更具有活性的有义链。
已表明，在沉默相同有义靶基因中使用的siRNA的增加效率对应于较高的反义链活性和较低的有义链活性。本发明人已发现，可采用碱基组成PSSM来区分具有较强有义链的siRNA(为坏siRNA)和具有较弱有义链的siRNA(为好siRNA)。坏siRNA的反向互补序列与好siRNA相比看起来与该坏siRNA本身的差异更大。平均地，坏siRNA的反向互补序列与好siRNA比较，在5′端有较高的G/C含量，并在3′端与好siRNA有相似的G/C含量。相反，好siRNA的反向互补序列与坏siRNA相比看起来基本上更相似于坏siRNA。平均地，好siRNA的反向互补序列在5′端的G/C含量几乎与坏siRNA没有不同，而且在3′端的G/C含量仅略少于坏siRNA的含量。这些结果表明，G/C PSSM区分具有强有义链的siRNA(为坏siRNA)和具有弱有义链的siRNA(为好siRNA)。
图14A显示在所述siRNA双链区，坏siRNA的反向互补序列的平均G/C含量与坏siRNA本身的平均G/C含量的差异。显示了好与坏siRNA平均G/C含量的差异间的比较。针对窗口5(或窗口5的部分，在序列的末端)平滑该曲线。
图14B显示在所述siRNA双链区，好siRNA的反向互补序列的平均G/C含量与坏siRNA的平均G/C含量的差异。显示了好与坏siRNA平均G/C含量的差异间的比较。针对窗口5(或窗口5的部分，在序列的末端)平滑该曲线。
在图15中，用测定的沉默效率来表示siRNA，并比较3′偏好(biased)方法和G/C PSSM方法使用的有义活性频率。尽管这些技术式基于不同的分析，但一致性相当好。均显示低沉默siRNA与高沉默siRNA的较高比例能预测有义活性。对于图15所示的一组61种siRNA，(siRNA G/CPSSM记分-反向互补序列G/C PSSM记分)的相关系数比log10(有义相同记分)为0.59。
因此，在一实施方式中，本发明提供了基于siRNA的位置特异性碱基组成预测链表现的方法，即该siRNA两条链中的哪条链更具活性。在一实施方式中，所述方法包括通过比较该siRNA有义链与反义链的碱基组成来评价siRNA在基因沉默中的链表现。在另一实施方式中，所述方法包括通过通过比较siRNA靶序列的有义链和反向互补序列的碱基组成来评价siRNA在基因沉默中的链表现。
在一实施方式中，利用PSSM方法(参见5.1节)将所述siRNA的反义链的序列或转录本中的所述siRNA的靶序列的反向互补序列与靶序列进行比较。利用PSSM对siRNA和其反向互补序列进行记分，该PSSM作为权重矩阵基于双链区内好和坏siRNA间的平滑G/C含量差异。在一实施方式中，如图14A所示的碱基组成的权重矩阵用作权重矩阵。在优选的实施方式中，每一种链的PSSM记分可用G/C含量的差异矩阵(作为曲线模式PSSM的记分计算方法)计算为siRNA链G/C含量的点积(dotproduct)。在一实施方式中，如果反向互补序列PSSM记分超出其自身的PSSM记分，则该siRNA就鉴定为有义活性。
在另一实施方式中，所述3′偏好方法如Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439中所述，其整体引入本文作为参考。将该方法与所述的PSSM记分联合用于确定siRNA的链表现。在这样的实施方式中，如果反向互补序列的PSSM记分超出其自身的PSSM记分，通过确定链表现的3′偏好方法鉴定该siRNA为有义活性。
上述方法是基于siRNA与其反向互补序列的G/C PSSM的比较来预测链表现，通过将该方法与3′偏好方法得出的siRNA表达图谱的链表现的估计值进行比较来进行检验。
本发明还提供了鉴定具有良好沉默效率的siRNA的方法。所述方法包括鉴定具有优势反义链活性的siRNA(″反义活性″siRNA)为具有良好沉默效率和特异性的siRNA(用于沉默相同有义靶)。在一实施方式中，用5.1节所述的方法来鉴定具有好有义链的siRNA(即鉴定对相同反义靶具有良好沉默效率的siRNA)。随后将这种siRNA从沉默相同有义靶的用途中去除。所述方法还可用于去除具有优势有义链活性的siRNA(″有义活性″siRNA)为对沉默相同有义靶具有较低效率和特异性的siRNA。在一实施方式中，用Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439中所述方法来确定siRNA的链表现，其整体引入本文作为参考。
坏siRNA的反向互补序列在平均水平表现出具有与坏siRNA不同的GC含量图谱。同样，好siRNA的GC含量图谱不同于坏siRNA的GC含量图谱。然而，相比于好siRNA，坏siRNA与siRNA反向互补序列间表现出的差异更大。
此观察结果与siRNA表达图谱中证明许多坏siRNA具有活性有义链的证据一致。
因此，数据和分析共同表明，对于有效的siRNA，坏siRNA的反向互补序列比好siRNA更能成为一种替代、或者更有利的模式。因此，本发明还提供了用于选择siRNA的方法，其基于siRNA有义链的反向互补序列的序列碱基组成。在一实施方式中，设计用于在有机体中在靶基因转录本的不同靶序列处沉默该靶基因的多种不同的siRNA根据其有义链的反向互补序的位置碱基组成来排列。可随后选择一种或多种siRNA，其反向互补序列序列的位置碱基组成与所需的siRNA的位置碱基组成匹配。优选地，利用位置特异性记分矩阵，通过首先确定每一种不同siRNA的记分来进行siRNA的排列。随后根据该记分来排列siRNA。上文5.1节所述的方法均可用来记分反向互补序列。在一实施方式中，对于在双链区具有L(L为整数)个核苷酸的核苷酸序列的siRNA，所述位置特异性记分矩阵包括第一型siRNA反向互补序列与第二型反向互补序列在序列位置k处发现核苷酸G或C的概率差异，设定为wk，k＝1，...L。根据如下公式来计算每一种反向互补序列的记分所述第一型siRNA可由一种或多种沉默效率不低于第一阈值(例如在诸如100nM的合适剂量时的75％、80％或90％)的siRNA组成，及第二型siRNA可由一种或多种沉默效率不低于第二阈值(例如在诸如100nM的合适剂量时的75％、80％或90％)的siRNA组成。在优选的实施方式中，通过高斯曲线的总和来描述所述的概率差异，所述高斯曲线的每一种代表在不同序列位置处发现G或C的概率差异。
本发明的此方法还可通过训练位置特异性记分矩阵来区分坏siRNA和其反向互补序列(参见例如5.1节)，以用来研发siRNA功能性基序的模式，如PSSM。这种分析的限制为坏siRNA的反向互补序列没有指定靶。因此，在一实施方式中，训练19mer siRNA双链序列的位置特异性记分矩阵来区分坏siRNA和其反向互补序列。
在区分坏siRNA和其反向互补序列情况下和在区分任何两组siRNA时，侧翼序列训练可在靶外基因上进行。换句话说，可假设siRNA的靶外活性与靶上活性有相同的侧翼序列要求，因为认为相同的RNA-蛋白复合物参与了这两个过程。
因此，如果采用靶外应用方法来鉴定由siRNA直接下调的基因(即通过下调动力学分析来鉴定具有相同半衰期的一组目标靶下调基因)，与该siRNA的排列侧翼连接的区域和直接受调节的靶外基因可用于侧翼序列需求的训练和检验模式。通过本发明的方法可开发这些模式随机爬山PSSM(random hill-climbing PSSMs)、曲线模式PSSM、好-坏差异频率矩阵，好组成频率矩阵和/或坏组成频率矩阵等等。
5.4.设计沉默基因的siRNA的方法本发明提供了设计沉默基因的siRNA的方法。该方法可用来设计与其各自的靶基因中的靶序列具有全序列同源性的siRNA。所述方法可用来设计与其靶基因仅具有部分同源性的siRNA。Jackson等人于2004年5月17日提交的国际申请号PCT/US2004/015439中公开了利用与其靶基因中的靶序列仅具有部分同源性的siRNA来沉默靶基因的方法和组合物，其在此全文引为参考。例如，含有11-18个核苷酸的有义链连续核苷酸序列并与靶基因的转录本序列相同，但与该转录本中的任何序列不具有全序列同源性的siRNA可用来沉默该转录本。这种连续核苷酸序列优选位于所述siRNA分子的中心区。siRNA分子的中心区的连续核苷酸序列可以是任何连续的siRNA核苷酸序列段，其不从3’端开始。例如11个核苷酸的连续核苷酸序列可以是核苷酸序列2-12、3-13、4-14、5-15、6-16、7-17、8-18或9-19。在优选的实施方式中，所述连续的核苷酸序列为11-16、11-15、14-15、11、12或13个核苷酸长度。可选择地，可采用含有9-18个核苷酸的3′有义链连续核苷酸序列并与靶基因的转录本序列相同，但与该转录本中的任何连续序列不具有全序列一致性的siRNA来沉默该转录本。3′9-18个核苷酸序列为连续的核苷酸段，其起始于第一对碱基，即其不包括3′悬垂的两个碱基。在优选的实施方式中，所述连续核苷酸序列为9-16、9-15、9-12、11、10或9个核苷酸长度。
在优选的实施方式中，用5.1节中所述的方法来从多种siRNA中鉴定一种或多种具有高沉默效率的siRNA。在一实施方式中，通过碱基组成PSSM来评价所述多种siRNA中的每一种siRNA的沉默效率。在一实施方式中，此步骤包括计算每一种siRNA的一种或多种PSSM记分。随后基于该记分来排列所述多种siRNA，以及利用5.1.4节所述的方法来选择一种或多种siRNA。
在另外的优选实施方式中，用5.2节中所述的方法来从多种siRNA中鉴定一种或多种具有高沉默特异性的siRNA。在一实施方式中，用pmPSSM方法(参见5.2节)来鉴定和评价具有各种非靶转录本序列的各种siRNA的排列。计算每一种排列的pmScore。如果pmScore高于指定阈值，就鉴定该序列为潜在的靶外序列。这种pmScore也称为排列记分。例如当用FASTA进行比对时，pmScore可以是求权的FASTA排列记分。将包括潜在靶外序列的转录本鉴定为潜在的靶外转录本。基因组或部分基因组中这种靶外转录本的总数用作siRNA沉默特异性分析。随后可选择具有较少靶外转录本的一种或多种siRNA。
可进一步评价对转录本有所需效率和特异性水平的siRNA的序列多样性。在本公开中，序列多样性也称为“序列可变性”或简称“多样性”或“可变性”。“序列多样性”可基于一些序列特征来表示或测量。可选择这样的siRNA，从而使得靶向基因的多种siRNA包括在一种或多种这样的多样性特征方面表现出充分差异的siRNA。
优选地，用于本发明方法中的所述序列多样性特征是可定量的。例如，可基于GC含量、沿靶转录本的siRNA靶序列的位置，或者双链上游的两个碱基(即引导二聚体，有16种不同可能的引导二聚体)来检测序列多样性。两种siRNA的差异可检测为序列多样性分析值间的差异。可用该多种中的不同siRNA之间的序列多样性分析值方面的最小差异或间隔来定量表示多种siRNA的多样性或可变性。
在本发明的siRNA设计方法中，选择siRNA的多样性或可变性的步骤也称为“去重叠”步骤。在优选的实施方式中，对于可定量的序列多样性分析，该去重叠步骤选择在两种siRNA中，序列多样性分析值差异高于阈值的siRNA。例如，位置的去重叠建立了沿转录本序列长度所选择寡核苷酸间的最小距离。在一实施方式中，选择在转录本中有至少100个碱基间隔的siRNA。由GC含量的去重叠建立了GC含量的最小差异。在一实施方式中，GC含量的最小差异为1％、2％或5％。引导二聚体的去重叠在所选择的siRNA中建立了所有或部分的16种可能引导二聚体的概率。在一实施方式中，将16种可能二聚体的每一种赋予1-16的记分，用0.5来选择有相等概率的所有可能的引导二聚体。
在一些实施方式中，所述候选者优选在GC含量上去重叠，使用的最小间隔为5％，每一GC％值重复的最大数目为100，和选择至少200个候选者；更优选，它们以GC含量的最小间隔为5％，每一GC％值重复的最大数目为80和选择至少200候选者来去重叠；以及更优选地，它们以GC含量的最小间隔为5％最，每一GC％值重复的最大数目为60和选择至少200候选者来去重叠。
基于附加的选择标准来进一步选择siRNA。
在一实施方式中，去除靶向在所有现有拼接形式中不常见的序列的siRNA。
在另一实施方式中，去除靶向与简单或散点重复单元重叠的序列的siRNA。
在另一实施方式中，选择靶向位于翻译起始密码子的下游至少75个碱基的序列的siRNA。
在另一实施方式中，去除靶向与终止密码子重叠或处于其下游的序列的siRNA。这避免了靶向在无记录的可择多聚腺苷酸形式中不存在的序列。
在另一实施方式中，选择GC含量接近50％的siRNA。在一实施方式中，去除具有GC％＜20％且＞70％的siRNA。在另一实施方式中，保留10％＜GC％＜90％、20％＜GC％＜80％、25％＜GC％＜75％、30％＜GC％＜70％的siRNA。
在另一实施方式中，去除靶向含有4连续的鸟嘌呤、胞嘧啶、腺嘌呤、或尿嘧啶的序列的siRNA。在另一实施方式中，选择靶向在双链区5’端第一位置具有尿嘌呤或胞嘧啶残基的序列的siRNA。这种siRNA靶序列由RNA多聚酶III转录。
在另一实施方式中，去除靶向含有一种或多种指定限制性内切酶识别位点，例如XhoI或EcoRI限制性内切酶识别位点的序列的siRNA。这些实施方式可用于选择siRNA序列，用于构建所述shRNA载体。
在另一实施方式中，评价siRNA的结合能。参见WO 01/05935确定21mer结合能的示例性方法。在优选的实施方式中，通过计算最近相邻的21mer ΔG来计算结合能。
在另一实施方式中，评价siRNA的结合特异性。参见WO 01/05935确定21mer结合特异性的示例性方法。在优选的实施方式中，通过针对有机体基因所代表的的一组独有序列计算21mer最小化最大记分来评价所述结合特异性，例如，人Unigene build 161每一集簇所代表的一组独有序列(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi？db＝unigene)。
在另一实施方式中，用于预测siRNA的链表现和/或效率和特异性的方法是基于如5.3节所述的siRNA位置特异碱基组成，该方法可用于评价siRNA候选者。
所述用于选择siRNA方法的示例实施方式的流程图如图9所示。
在步骤101中，选择靶向转录本的siRNA序列。在一实施方式中，考虑所述转录本的19mer亚序列。还获取并考虑每一siRNA序列的适合侧翼序列。针对以下过滤器来评价siRNA(1)去除靶向在所有现有拼接形式中不常见的序列的siRNA；(2)去除靶向与简单或散点重复单元重叠的序列的siRNA；(3)去除靶向位于翻译起始密码子下游的75个碱基内的序列的siRNA；和(4)去除靶向与终止密码子重叠或处于其下游的序列的siRNA。
对于shRNA选择，考虑以下步骤(5)去除靶向含有4连续的鸟嘌呤、胞嘧啶、腺嘌呤、或尿嘧啶的序列的siRNA；(6)保留靶向在双链区5’端第一位置具有尿嘌呤或胞嘧啶残基的序列的siRNA；和(7)如果siRNA序列用于构建shRNA载体，去除靶向含有一种或多种指定限制性内切酶识别位点，例如XhoI或EcoRI限制性内切酶识别位点的序列的siRNA。
在步骤102中，通过碱基组成PSSM来评价siRNA的沉默效率。在一实施方式中，步骤102包括计算siRNA的第一PSSM记分，即所述PSSM-1记分，及第二PSSM记分，即PSSM-2记分。合计两种记分来计算siRNA的组合记分。在一实施方式中，所用的PSSM为其表现在图2中示出的那些特性。如果组合记分高于指定的阈值，则保留siRNA。
通过计算最近相邻的21mer ΔG来评价siRNA结合能。随后通过针对有机体基因所代表的一组独有序列计算21mer最小化最大记分来评价所述siRNA结合特异性，例如，人Unigene build 161每一集簇所代表的一组独有序列。参见WO 01/05935关于计算ΔG和最小化最大记分的方法。在一实施方式中，用BLAST比对来计算最小化最大记分，BLAST比对和基于该BLAST比对的最近邻近δ-G计算的参数如下-p blastn-e100-F F-W 11-b 200-v 10000-S3；和δ-G；温度66℃；盐1M；浓度1pM；核酸类型，RNA。在一实施方式中，如果(21merΔG-21mer最小化最大值)≤0.5，就去除该siRNA。
在步骤103中，筛查siRNA的总GC含量。在一实施方式中，去除GC含量显著偏离的siRNA，例如，GC％＜20％和＞70％。
在步骤104中，筛查siRNA的多样性和可变性。位置简单地是指转录本序列中的寡核苷酸的位置，并通过鉴定盖寡核苷酸而自动提供。在所述方法的一种或多种的“去重叠”步骤中可变性得到强化。简而言之，去重叠用一些计算参数在所选寡核苷酸之间选择高于阈值的间隔。为了去重叠，首先根据一些参数来排列寡核苷酸，该参数被认为能够区分较好与较差表现，并随后根据一些其它参数来选择寡核苷酸间的间隔。开始时，选择排列靠前的寡核苷酸。随后检测排列表，并选择具有与所选寡核苷酸具有至少最小所需间隔的下一最佳寡核苷酸。随后，选择具有与所述两个选择的寡核苷酸具有至少最小所需间隔的下一最佳寡核苷酸。持续此过程，直到选择出所需数量的寡核苷酸。在一实施方式中，如果参数很少赋值，那么多种寡核苷酸可具有相同的值，且具有相同值的核苷酸数量受一组阈值的限制。在一实施方式中，如果在第一轮去重叠中选择出的寡核苷酸数量不够，可放松间隔要求，直到选择出所需的数量，或者选择出一组全保留的可用寡核苷酸。
例如，位置的去重叠建立了所选择寡核苷酸沿转录本序列长度的最小距离。在一实施方式中，通过PSSM记分来排列siRNA，并选择在所述转录本中具有至少100个碱基间隔的排列siRNA。GC含量的去重叠建立了GC含量的最小差异。在一实施方式中，GC含量的最小差异为1％、2％或5％。对于较少赋值的参数，例如19mer的GC％，重复是允许的，例如引导二聚体的去重叠在所选siRNA中建立了全部或部分的16种可能引导二聚体的概率。在一实施方式中，将16可能二聚体的每一种赋予1-16的记分，用0.5来选择有相等概率的所有可能引导二聚体。即将候选siRNA在所有可能的引导二聚体中分布。
可组合不同参数的去重叠。
在步骤105中，根据5.2节描述的方法来评价siRNA的靶外活性。利用等式(6)所计算出得pmScore，用pmPSSM鉴定和评价具有各种非靶转录本序列的各种siRNA的排列。如果pmScore高于指定阈值，则鉴定该序列为潜在的靶外序列。将包括潜在靶外序列的转录本鉴定为潜在的靶外转录本。基因组或部分基因组中这种靶外转录本的总数用作siRNA沉默特异性分析。随后可选择具有较少靶外转录本的一种或多种siRNA。
在一实施方式中，利用FASTA，用以下参数检索基因的转录本KTUP 6-r 3/-7-g-6-f-6-d 14000-b 14000 -E 7000。如部分5.2所述确定每一排列的pmScore。FASTA求权记分用于(1)定量候选siRNA的最亲密序列匹配；和(2)计数具有高于阈值权重记分的候选siRNA的总匹配数。基因组或部分基因组中的这种靶外转录本的总数用作siRNA沉默特异性分析。
在优选的实施方式中，将所选择的siRNA进行第二轮可变性选择(步骤106)，并利用其碱基组成PSSM记分再次排列(步骤107)。从最终排列的前面保留所需数量的siRNA(步骤108)。
本发明还提供了为多种不同基因的每一种选择多种siRNA的方法，每一种siRNA实现至少75％、至少80％或至少90％的靶基因沉默。上述方法用于为多种不同基因的每一种选择多种siRNA。优选地，所述多种siNRA由至少3、5或10种siRNA组成。优选地，所述多种不同基因由至少100、500、1000、5000、10000或30000种不同的基因组成。
本发明还提供siRNA文库，其包括多种不同基因的每一种的多种siRNA，每一种siRNA实现至少75％、至少80％或至少90％的靶基因沉默。标准的条件是siRNA为100nM，转染24小时后用TaqMan分析沉默。优选地，所述多种siNRA由至少3、5或10种siRNA组成。优选地，所述多种不同基因由至少100、500、1000、5000、10000或30000种不同的基因组成。
5.5.用于RNA干扰和细胞分析的方法和组合任何基因沉默的常规方法可与本发明联合使用以实现，例如利用本发明的方法所设计的siRNA实现基因沉默(参见例如，Guo等人，1995，Cell 81611-620；Fire等人，1998，Nature 391806-811；Grant，1999，Cell96303-306；Tabara等人，1999，Cell 99123-132；Zamore等人，2000，Cell10125-33；Bass，2000，Cell 101235-238；Petcherski等人，2000，Nature405364-368；Elbashir等人，Nature 411494-498；Paddison等人，Proc.Natl.Acad.Sci.USA 991443-1448)。在一实施方式中，基因沉默通过将所述siRNA呈递给细胞，模拟Dicer裂解产物来诱导(参见例如，Elbashir等人，2001，Nature 411，494-498 Elbashir等人，2001，Genes Dev.15，188-200，其所有在此全文引为参考)。合成的siRNA双链保持与RISC结合并直接沉默转录本的能力。siRNA可化学合成，或者用重组Dicer裂解双链RNA来获得。利用本领域公知的常规方法可将所述的siRNA转染细胞。
在一实施方式中，如下进行siRNA转染转染前1天，选择100μl细胞，例如子宫癌HeLa细胞(ATCC，Cat.No.CCL-2)，在DMEM/10％胎牛血清(Invitrogen，Carlsbad，CA)中培养，当约90％发生融合时以1500细胞/孔接种入96孔组织培养板中(Coming，NY)。对于每一次转染，将85μl的OptiMEM(Invitrogen)与5μl的用20μmol储存液系列稀释的siRNA(Dharma on，Denver)混合。对于每一次转染，将5μl OptiMEM与5μlOligofectamine试剂(Invitrogen)混合并在室温下孵育5分钟。将该10μlOptiMEM/siRNA混合物分配到每一管中，混合并在室温下孵育15-20分钟。将10μl转染混合物分份加入96孔板的每一孔中并在37℃和5％CO2下孵育4小时。
在一实施方式中，利用siRNA池实施RNA干扰。在优选的实施方式中，siRNA池含有靶向靶基因的不同序列区的至少k(k＝2、3、4、5、6或10)种不同的siRNA，将其用于转染细胞。在另一优选实施方式中，siRNA池含有靶向两种或多种不同靶基因的至少k(k＝2、3、4、5、6或10)种不同的siRNA，将其用于超转染细胞。在优选的实施方式中，所述池的总siRNA浓度大约与单独使用时单一的siRNA浓度相同，例如100nM。优选地，siRNA池的总浓度为沉默目标靶基因的最佳浓度。最佳浓度为进一步增加该浓度基本上不增加沉默水平。在一实施方式中，最佳的浓度为进一步增加该浓度沉默水平的增加不超过5％、10％或20％。在优选的实施方式中，选择所述池的组成，包括在所述池中不同siRNA的数量和每一种不同siRNA浓度，从而使所述siRNA池能够引起低于30％、20％、10％或0.1％或0.01％的任何靶外基因沉默。在另一优选实施方式中，不同siRNA的所述池中的每一种不同siRNA的浓度大约是相同的。在另一优选的实施方式中，所述池中不同siRNA的各自浓度的差异低于5％、10％、20％或50％。在另一优选的实施方式中，不同siRNA的所述池中至少一种siRNA构成总siRNA的90％、80％、70％、50％或20％以上。在另一优选实施方式中，不同siRNA的所述池中没有一种siRNA构成总siRNA的90％、80％、70％、50％或20％以上。在另外的实施方式中，所述池中的每一种siRNA当单独使用时，具有低于最佳浓度的浓度。在优选的实施方式中，所述池中的每一种siRNA在没有其它siRNA或其它设计用于沉默该基因的siRNA存在的情况下，具有低于有效实现至少30％、50％、75％、80％、85％、90％或95％沉默基因的siRNA浓度的浓度。在另一优选实施方式中，所述池中的每一种siRNA在没有其它siRNA或其它设计用于沉默该基因的siRNA存在的情况下，具有引起低于30％、20％、或5％沉默基因的浓度。在优选的实施方式中，所述池中的每一种siRNA当单独使用时，具有引起低于30％、20％或5％所述靶基因沉默的浓度，同时该多种siRNA引起至少80％或90％的靶基因沉默。
基因沉默另一种方法是将shRNA(短发夹RNA)导入到细胞中(参见例如，Paddison等人，2002，Genes Dev.16，；Brummelkamp等人，2002，Science 296550-553；Sui，G.等人2002，Proc.Natl.Acad.Sci.USA 995515-5520，其全部全文引入本文作为参考)，该shRNA在细胞中可被加工成siRNA。在此方法中，所需的siRNA序列从质粒(或病毒)中作为插入重复与干扰环序列一同表达，从而形成发夹结构。所产生的含有发夹的RNA转录本基本上由Dicer加工产生，以用于siRNA沉默。基于质粒的shRNA可在细胞中稳定表达，从而可以在细胞中以体内体外的方式长期沉默基因，例如在动物中(参见，McCaffrey等人2002，Nature418，38-39；Xia等人，2002，Nat.Biotech.20，1006-1010；Lewis等人，2002，Nat.Genetics 32，107-108；Rubinson等人，2003，Nat.Genetics 33，401-406；等人，2003，Proc.Natl.Acad.Sci.USA 100，1844-1848，其全部全文引入本文作为参考)。因此，在一实施方式中，采用基于质粒的shRNA。
在优选的实施方式中，shRNA从瞬时或稳定整合入基因组的重组载体中表达(参见例如，Paddison等人，2002，Genes Dev 16948-958；Sui等人，2002，Proc Natl Acad Sci USA 995515-5520；Yu等人，2002，Proc NatlAcad Sci USA 996047-6052；Miyagishi等人，2002，Nat Biotechnol 20497-500；Paul等人，2002，Nat Biotechnol 20505-508；Kwak等人，2003，JPharmacol Sci 93214-217；Brummelkamp等人，2002，Science 296550-553；Boden等人，2003，Nucleic Acids Res 315033-5038；Kawasaki等人，2003，Nucleic Acids Res 31700-707)。利用编码shRNA的任何合适载体来表达(通过shRNA)破坏靶基因的siRNA。所述载体也可编码用于选择克隆的标记，其中所述载体或其足够部分可整合入宿主基因组中以表达shRNA。本领域公知的任何常规方法都可用于传递该载体进入细胞。在一实施方式中，通过用含该载体的质粒转染合适的细胞来产生表达所述shRNA的细胞。随后利用所述合适的标记来选择细胞，挑取克隆并用于敲除(knockdown)检验。在优选的实施方式中，可向基因组中引入多种重组载体，使得siRNA表达水平可以高于指定值。这种实施方式特别适用于沉默其转录本水平在细胞中较低的基因。
在优选的实施方式中，所述shRNA的表达在诱导启动子的控制下，从而使靶基因的沉默在需要时可开启。siRNA的可诱导性表达特别适用于靶向必需基因。在一实施方式中，shRNA的表达在可调节性启动子的控制下，该启动子可以调节该靶基因的沉默水平。这就可以筛选其中的靶基因被部分敲除的细胞。在本说明书中，所使用的“启动子”指指在合适的诱导剂存在的情况下可被活化的启动子。“诱导剂”可以是能够通过活化所述可调节性启动子而活化转录的任何分子。诱导剂可以是但不限于肽或多肽、激素或有机小分子。也可使用诱导剂的类似物，即作为诱导剂使用来活化可调节性启动子的分子。由不同类似物诱导的可调节性启动子的活化水平可以不同，因此在调控可调节性启动子的活性水平中允许更加的灵活性。在载体中的可调节性启动子可以是本领域公知的任何哺乳动物转录调节系统(参见例如，Gossen等人，1995，Science 2681766-1769；Lucas等人，1992，Annu.Rev.Biochem.611131；Li等人，1996，Cell 85319-329；Saez等人，2000，Proc.Natl.Acad.Sci.USA 9714512-14517；和Pollock等人，2000，Proc.Natl.Acad.Sci.USA9713221-13226)。在优选的实施方式中，以剂量和/或类似物依赖方式调节所述的可调节性启动子。在一实施方式中，通过将诱导剂的浓度调节至可调节性启动子有反应的浓度的方法，将可调节性启动子的活化水平调整为所需的水平。可以基于所需沉默靶基因的水平来确定可调节性启动子的理想活化水平，该水平可通过应用特异浓度的诱导剂来获得。
在一实施方式中，采用四环素调节的基因表达系统(参见例如，Gossen等人，1995，Science 2681766-1769；美国专利6,004,941号)。Tet调节系统使用原核细胞的tet阻遏/操作/诱导系统的组分来调节真核细胞的基因表达。因此，本发明提供了利用tet调节系统来调节与一种或多种tet操作序列连接的shRNA的表达的方法。所述方法包括将编码活化转录的融合蛋白的载体导入细胞。所述融合蛋白包括与第二多肽操作性地连接的第一多肽，该第一多肽在四环素或四环素类似物存在的情况下与tet操作序列连接，该第二多肽在细胞中活化转录。通过调节四环素或四环素类似物的浓度来调节与tet操作子连接的shRNA的表达。
在其他的实施方式中，也可以使用脱皮素(ecdyson)调节的基因表达系统(参见例如，Saez等人，2000，Proc.Natl.Acad.Sci.USA 9714512-14517)或者MMTV糖皮质激素反应元件基因表达系统(参见例如，Lucas等人，1992，Annu.Rev.Biochem.611131)来调节所述shRNA的表达。
在一实施方式中，采用pRERRO-SUPER(pRS)载体，其编码嘌呤霉素抗性标记并从H1(RNA Pol III)启动子驱动shRNA表达。可通过本领域任何公知的常规方法来产生所述的pRS-shRNA质粒。在一实施方式中，利用所选基因的文库质粒池转化细菌并寻找仅含感兴趣质粒的克隆，从而从该池中解旋所述的pRS-shRNA。优选地，将19mer siRNA序列与合适的正向和反向引物一同用于序列特异性PCR。通过序列特异性PCR鉴定质粒，并通过测序来验证。通过用pRS-shRNA质粒转染适合的细胞来产生表达shRNA的细胞。通过适合的诸如嘌呤霉素的标记来选择细胞并维持细胞直到产生明显克隆。随后挑取克隆并检验敲除。在另一实施方式中，shRNA由例如pRS-shRNA的质粒来表达。通过所述pRS-shRNA质粒的敲除可用Lipofectamine 2000(Invitrogen)转染细胞来实现。
在另一方法中，可将siRNA体内传递至诸如人的动物的器官或组织中(参见例如，Song等人2003，Nat.Medicine 9，347-351；Sorensen等人，2003，J.Mol.Biol.327，761-766；Lewis等人，2002，Nat.Genetics32，107-108，其全部引入本文作为参考)。在该方法中，将siRNA溶液静脉注入所述的动物体内。该siRNA可随后到达目标器官或组织并有效减少该动物器官或组织中靶基因的表达。
利用基因治疗方法也可将siRNA运输至器官或组织中。本领域公知的任何基因治疗方法都可用于运输所述的siRNA。基因治疗方法的一般性综述参见Goldspiel等人，1993，Clinical Pharmacy 12488-505；Wu和Wu，1991，Biotherapy 387-95；Tolstoshev，1993，Ann.Rev.Pharmacol.Toxicol.32573-596；Mulligan，1993，Science 260926-932；和Morgan和Anderson，1993，Ann.Rev.Biochem.62191-217；May，1993，TIBTECH 11(5)155-215)。在优选的实施方式中，所述的治疗包括作为表达载体一部分的编码所述siRNA的核酸。具体地，这种核酸具有可操作性地与siRNA编码区连接的启动子，其中所述启动子是诱导型或组成型的，且任选地，是组织特异型的。在另一具体的实施方式中，采用核酸分子，其中所述siRNA编码序列由启动基因组所需位点的同源重组的区域侧翼连接(参见例如，Koller和Smithies，1989，Proc.Natl.Acad.Sci.U.S.A.86；Zijlstra等人，1989，Nature 342435-438)。
在特定实施实施中，直接体内给予所述的核酸。这可通过任何本领域公知的许多方法来实现，例如通过将其构建为合适的核酸表达载体的部分并将其给药，从而使其成为细胞内的；例如利用缺陷或减毒反转录病毒或其它病毒载体感染(参见美国专利4,980,286)或直接注射裸DNA或利用微粒炸弹轰击(例如，基因枪；Biolistic，Dupont)；或者用脂质或细胞表面受体或转染试剂包被；在脂质体、微粒或微囊中包封；或者通过将与已知能够进入细胞核的肽连接并给药；通过将其与配体连接并给药，该配体能够进行受体介导的内吞作用(参见例如，Wu和Wu，1987，J.Biol.Chem.2624429-4432)(其可用于靶向特异性表达该受体的细胞类型)等等。在另一实施方式中，可形成核酸-配体复合物，其中所述配体包括融合基因病毒肽以破坏内涵体，从而使所述核酸避免被溶菌酶降解。在另一实施方式中，通过靶定特异性受体，所述核酸可在体内被靶定而引起细胞的特异性摄取和表达(参见例如，1992年4月16日的PCT公开WO92/06180(Wu等人)；1992年12月23日公开的WO 92/22635(Wilson等人)；1992年11月26日公开的WO 92/20316(Findeis等人)；1993年7月22日公开的WO 93/14188(Clarke等人)，1993年10月14日公开的WO93/20221(Young))。可选择地，通过同源重组，所述核酸可导入到细胞内并整合进宿主细胞的DNA中进行表达(Koller和Smithies，1989，Proc.Natl.Acad.Sci.U.S.A.868932-8935；Zijlstra等人，1989，Nature 342435-438)。
在特定实施方式中，采用含有编码所述核酸的病毒载体。例如可使用反转录病毒载体(参见Miller等人，1993，Meth.Enzymol.217581-599)。这些反转录病毒载体已被修饰而去除了包装所述病毒基因组和整合进入宿主细胞DNA所不必需的反转录病毒序列。将要在基因治疗中使用的编码核酸的siRNA克隆至所述载体中，这便于将所述基因释放给患者。关于反转录病毒载体的更详细的描述参见Boesen等人，1994，Biotherapy 6291-302，其描述了将反转录病毒载体用于运输mdr1基因到造血干细胞中，从而使该干细胞对化疗更具有抗性。显示反转录病毒在基因治疗中的用途的其他参考文献有Clowes等人，1994，J.Clin.Invest.93；Kiem等人，1994，Blood 831467-1473；Salmons和Gunzberg，1993，Human Gene Therapy 4129-141；和Grossman和Wilson，1993，Curr.Opin.Genet.and Devel.3110-114。
腺病毒是可以用作基因治疗中的另一种病毒载体。腺病毒是运输基因至呼吸上皮的特别有吸引力的载体。腺病毒天然感染呼吸道上皮，在其中其引起轻度病症。基于腺病毒运输系统的其他靶标为肝脏、中枢神经系统、内皮细胞和肌肉。腺病毒具有能感染非分裂细胞的优点。Kozarsky与Wilson(1993，Current Opinion in Genetics and Development 3499-503)发表了基于腺病毒基因治疗的综述。Bout等人(1994，HumanGene Therapy 53-10)证明了腺病毒载体将基因转移至恒河猴呼吸道上皮的用途。利用腺病毒进行基因治疗的其他例子可参见Rosenfeld等人，1991，Science 252431-434；Rosenfeld等人，1992，Cell 68143-155；和Mastrangeli等人，1993，J.Clin.Invest.91225-234。腺相关病毒(AAV)也可用于基因治疗(Walsh等人，1993，Proc.Soc.Exp.Biol.Med.204289-300)。
利用本领域公知的任何常规的RNA或蛋白定量方法可确定沉默的程度。例如，可利用实时PCR来进行RNA定量，例如利用AP BiosystemsTaqMan预开发的分析试剂(#4319442)。利用本领域公知的任何常规方法可设计适合基因的引物探针，例如利用引物表达软件。相对actin(肌动蛋白)的RNA(#4326315)可将RNA值标准化。用适当的抗体或和标记的第二抗体进行着色后，可通过流式细胞仪来定量蛋白水平。通过用单克隆抗体对细胞裂解物进行western印记，然后用化学发光免疫印记Kodak成像分析，也可对蛋白水平进行定量。也可相对actin水平来标准化蛋白水平。
基因沉默对细胞的作用可利用任何已知的分析来评价。例如，利用本领域公知的任何适合的增殖或生长抑制分析来分析细胞的生长。在优选的实施方式中，采用MTT增殖分析(参见例如，van de Loosdrechet，等人，1994，J.Immunol.Methods 174311-320；Ohno等人，1991，J.Immunol.Methods 145199-203；Ferrari等人，1990，J.Immunol.Methods131165-172；Alley等人，1988，Cancer Res.48589-601；Carmichael等人，1987，Cancer Res.47936-942；Gerlier等人，1986，J.Immunol.Methods6555-63；Mosmann，1983，J.Immunological Methods 6555-63)来分析一种或多种试剂在抑制细胞生长中的作用。用所选浓度的一种或多种候选试剂处理细胞一段预选时间，例如4-72小时。随后用合适含量的5-二甲基噻唑-2-基)-2，5-联苯四唑溴化物(MTT)与细胞孵育所预定的一段时间，例如1-8小时，从而使存活的细胞将MTT转化为细胞内沉积的可溶性formazan(甲)。去除上清中过量的MTT之后，将适合的MTT溶剂，例如DMSO溶液加入到溶解的formazan中。然后通过测定光密度，例如在570nm处的光密度来测量与存活细胞数量成比例的MTT浓度。可分析候选试剂的多种不同的浓度来确定引起50％抑制的候选试剂和试剂浓度。
在另一优选实施方式中，细胞的增殖分析可用于筛选一种或多种用于抑制细胞生长的候选试剂(参见例如，Page等人，1993，Int.J.Oncol.3473-476)。AlamarBlueTM分析检测细胞的呼吸并利用其作为活细胞数量检测。增殖细胞的内部环境比非增殖细胞更具有还原性。例如，NADPH/NADP，FADH/FAD，FMNH/FMN和NADH/NAF比值在细胞增殖时增加。AlamarBlue可被这些代谢中间产物还原，因此可用于监测细胞的增殖。用alamarBlue检测的处理样品的细胞数量可表示为相对未处理的对照样品的百分比。也可通过吸光度或荧光分光光度来分析alamarBlue的还原。在一实施方式中，通过吸光度确定所述alamarBlue的还原并利用以下等式计算还原的百分比其中λ1＝570nm；λ2＝600nm；(εredλ1)＝155,677(还原的alamarBlue在570nm处的摩尔消光系数)；(εredλ2)＝14,652(还原的alamarBlue在600nm处的摩尔消光系数)；(εoxλ1)＝80,586(氧化的alamarBlue在570nm的摩尔消光系数)；(εoxλ2)＝117,216(氧化的alamarBlue在600nm处的摩尔消光系数)；
(Aλ1)＝检验孔在570nm处的吸光度；(Aλ2)＝检验孔在600nm处的吸光度；(A’λ1)＝阴性对照孔在570nm处的吸光度，其含有培养基加alamarBlue但其中不加入细胞；(A’λ2)＝阴性对照孔在600nm处的吸光度，其含有培养基加alamarBlue但其中不加入细胞。优选地，含有样品孔的还原％减去不含细胞孔的还原％来确定高于本底的还原％。
可用本领域公知的方法来实施细胞周期的分析。在一实施方式中，将胰蛋白酶化细胞与每一孔的上清混合。随后以适合的速度离心该混合物。然后将该细胞用例如冰冷的70％的乙醇固定一段，例如30分钟。可用PBS洗涤该细胞一次并重新悬浮，例如，在0.5ml含碘化丙啶(10μg/ml)和RNase A(1mg/ml)的PBS中，并在适合的温度例如37℃孵育一段，例如30min。用流式细胞仪进行流式细胞分析。在一实施方式中，将亚G1细胞群用来分析细胞的死亡。例如，如果用试剂处理的样品的亚G1细胞群大于未用该试剂处理的样品的细胞群，那么就认为该细胞对该试剂敏感。
5.6.实施系统和方法本发明的分析方法可优选利用计算机系统，例如本节所描述的计算机系统，根据以下程序和方法来实施。这种计算机系统可存储和处理不同试验获得的分析信号从而可利用该计算机系统能够实施本发明的分析方法。据此，这种计算机系统也认为是本发明的一部分。
适合实施本发明分析方法的示例性计算机系统如图12所示。此处显示的计算机系统1201包括内部元件和与其连接的外部部件。此计算机系统的内部部件包括一个或多个处理元件1202，其与主内存1203相互连接。例如，计算机系统1201可以是2GHZ或更高的时钟速率的基于Intel奔腾IV的处理器，并有256MB或更高的主内存。在优选的实施方式中，计算机系统1201是多种计算机的集簇，包括头“节点”和八个兄妹“节点”，每一节点具有中央处理器(CPU)。此外，所述集簇还包括在头节点中的至少128MB的随机存储内存(″RAM″)和在八个兄妹节点中的至少256MB的RAM。因此，本发明的计算机系统不限于由单一的内存或单一的处理器组成。
外部部件包括块存储器1204。该块存储器可以是一种或多种硬盘，其通常与处理器和内存一同安装。这种硬盘通常未10GB或更高的存储容量，更优选具有至少40GB的存储容量。例如在优选的实施方式中，如上所述，其中本发明的计算机系统包括一些节点，每一节点可具有其自己的硬驱动器。所述的头节点具有至少10GB存储容量的硬驱动器，而每一兄妹节点优选具有40GB存储容量的硬驱动器。本发明的计算机系统还可包括其它的块存储单元，包括例如一种或多种软驱，一种或多种CD-ROM驱动器，一种或多种DVD驱动器或一种或多种DAT驱动器。
其他的外部部件通常包括使用者界面设备1205，其最通常为监视器和键盘以及图像输入设备1206，例如“鼠标”。所述计算机系统还通常与网络连接1207连接，该网络连接可以是，例如与其它局域计算机系统连接的局域网(″LAN″)部分和/或万维网部分(″WAN″)，例如Internet网，其与其它的远程计算机系统连接。例如，在优选的实施方式中，如上所述，其中所述的计算机系统包括多种节点，每一节点优选与网络连接，优选与NFS网连接，从而使所述计算机系统的节点互相之间能够通信，并任选地通过网络与其他计算机系统通讯，由此相互共享数据并处理任务。
在这种计算机系统的操作过程中加载至内存的是一些软件部件，其也如图12的流程所示。该软件部件包括本领域的标准软件部件和本发明的特有部件。这些软件部件通常存储在诸如硬驱动器1204的块存储器中，并可存储在其它计算机可读介质中，包括例如一种或多种软盘、一种或多种CD-ROM、一种或多种DVD或一种或多种一种或多种DAT。软件部件1210表示负责管理计算机系统和其网络间连接的操作系统。这种操作系统可以是例如，微软家族的操作系统，例如Windows 95、Window98、Windows NT、Windows 2000或Windows XP。可选择地，所述操作软件可以是Macintosh操作系统、UNIX操作系统或LINUX操作系统。软件部件1211包括通用语言和功能，其优选存在于所述系统中以辅助程序实施本发明所指出的方法。可用于编制本发明分析方法的程序的语言包括例如C和C++、FORTRAN、PERL、HTML、JAVA、和任选的UNIX或LINUX shell命令语言，例如C shell script语言。本发明的方法也可以被编程或模建在数学软件包中，该软件包可以符号输入处理的等式和高水平规范，包括要使用的特殊运算法则，因此使得使用者不再需要处理性地编制单独的等式和运算法则。这种软件包包括例如Mathworks的Matlab(Natick，MA)，Wolfram Research的Mathematica(Champaign，IL)或者MathSoft的S-Plus(Seattle，WA)。
软件部件1212包括任何本发明前述的分析方法，优选地编制入处理语言或符号软件包中。例如，软件部件1212优选地包括程序，该程序能使所述处理器来实施接受多种分析信号并存储这些分析信号到内存的步骤。例如，该计算机系统可接受由使用者人工输入的分析信号(例如通过使用者界面)。然而，更优选地，这些程序可使所述计算机系统从数据库中检索到分析信号。这种数据库存储在块存储器中(例如硬驱动器)或其它计算机可读介质中并加载入计算机的内存中，或者通过网络1207，通过所述计算机系统访问该结构。
除此处描述的示例性程序结构和计算机系统之外，其它替代程序结构和计算机系统对本领域所属技术人员来讲是显而易见的。因此，这种不偏离上述计算机系统和程序结构的精神和范围的替代系统，包括在所附权利要求之中。
6.实施例以下实施例以本发明的示例性方式给出的，并不倾向于对本发明进行任何限制。
6.1实施例1设计高沉默效率的siRNA构建靶向超过700种基因的siRNA文库。基于科学文献提供的有限设计原则(Elbashir等人，Nature 411494-8)和如5.2节所述的通过序列相似性记分预测靶外作用的方法，利用“标准”方法来设计所述文库中的siRNA。通过Taqman分析检验一组377种siRNA沉默各自靶基因的能力。这组377种siRNA列入表II。表II列出了所述377种siRNA的以下信息siRNA的ID号、靶基因的登记号、靶序列起始位置、靶序列、沉默％、在组1中其属于的组(即训练组或检验组)、在组2中其属于的组、以及SEQ ID NO。此检验的结果表明，大多数siRNA成功地沉默了其靶基因(沉默中值，约75％)，但个别siRNA仍显示出广泛的沉默特性。好(或差)沉默能力并不总与在任意位置上的任意特异性碱基、总GC含量、在靶转录本中的siRNA序列位置、或者与靶转录本的交替拼接相关。
利用分类器(classifier)方法研究了靶基因沉默与碱基组成、所述siRNA热动力学与其二级结构以及靶序列之间的潜在关系。将siRNA分为含有低于沉默中值能力的siRNA的组(″坏″siRNA)和具有中值或高于沉默中值能力的siRNA的组(″好″siRNA)。评价了一些矩阵区分好和坏siRNA的能力，包括所述19mer siRNA双链序列和侧翼连接靶区的窗口的碱基组成，通过不同程序预测的二级结构和热动力学特性。这些检验表明，siRNA效率与siRNA及靶基因的碱基组成有较好的相关性，但与预测的二级结构和热动力学特性相关性较差。具体地，好siRNA的GC含量以位置特异性方式完全不同于坏siRNA的GC含量(图1-3)。例如，没有观察到好siRNA双链区与任何特定序列相关，但倾向于在5’端GC含量高并在3’端GC含量低。这些数据显示，好siRNA双链通过3’端的低GC含量促进与反义链的优先相互作用，并通过5’端的高GC含量阻碍与有义链的相互作用。数据进一步表明，位置特异性序列偏好使siRNA靶序列边界延伸进邻近的序列(多种)之中。这表明，位置特异性碱基组成偏好影响RNA沉默中的步骤而不影响siRNA双链的解旋。
好和坏siRNA间GC含量的差异如图1和2所示，此差异用来研发选择好siRNA的方法。利用位置特异性记分矩阵(PSSM)方法获得了最佳的结果。该PSSM提供了在靶基因有义链中从siRNA双链起始上游10个碱基至末端下游10个碱基的每一位置的GC、A或U的权重。将siRNA效率数据分成两组，一组用于训练，及另一组用于独立的检验。利用随机突变爬山检索运算法则来同时优化PSSM的每一位置的每一碱基的权重。优化的标准为siRNA的沉默靶和其PSSM记分的相关系数。将训练数据的多轮优化平均化来完成每一轮PSSM。随后在siRNA独立(检验)组中检验每一PSSM。在其训练和检验数据组中的两PSSM表现如图2所示。
基于位置特异性记分矩阵(PSSM)研发siRNA设计方法，利用记分方案来预测siRNA寡核苷酸的效率。这种记分为39个碱基(19mer上游10个碱基，siRNA固有的19个碱基，和下游10个碱基)的权重的和，计算如下其中，Pj为任意碱基的随机概率，即0.25，以及Ei为分配给位置i处的碱基A、U、G或C的权重。因此，需要被赋予和优化总计117个权重(39个位置乘以3种碱基形式-G或C、A、U)。
基于训练的寡核苷酸组和产生的用于检验组的图谱，采用随机突变爬山(RMHC)检索运算法则，利用敲除(KD)水平的寡核苷酸与计算的PSSM记分间的相关系数作为优化标准来优化所述的权重。用于分析所述训练和检验有效性的矩阵为基于ROC曲线的总假检测率(FDR)，并计算为前33％寡核苷酸的平均FDR记分，其由训练预测器(predictor)指定的记分来分类。在计算FDR记分中，这些低于中值沉默水平的寡核苷酸被认为是假的，而高于中值沉默水平的那些寡核苷酸被认为是真的。
利用不同的标准来将现有的siRNA表现数据分成训练组和检测组。理想分割的最大障碍是绝大多数siRNA寡核苷酸是利用标准方法设计的，其要求在所述寡核苷酸之前具有即刻的AA二聚体。发现这种限制后来是有害的而不是有助于设计步骤并因此被去除。为了限制其对训练过程的影响，利用一些分割，并联合多种的训练预测器，即PSSM(而不是单一的预测器)来为检验的寡核苷酸分配记分。
最后，构建现有(state-of-the-art)siRNA寡核苷酸的设计程序(也称为“流水线”)。其将靶外预测程序与不同数据组中训练和检验的全部siRNA寡核苷酸效率预测器结合起来。选择并检验总计30种siRNA寡核苷酸(对于5个基因的每一种有6种寡核苷酸)。该结果显著地好于任何以往存在的流水线。
最初的训练与检验结果表明，PSSM在预测siRNA寡核苷酸的靶上效率方面非常有效。用于训练的总FDR记分为0.02至0.08，用于检验的记分为0.05至0.10。作为参考，随机预测的平均总FDR为0.17。标准差为0.02(用10,000个随机产生的预测来计算的数据)。图3显示了典型的ROC曲线，其由约200个随机优化预测器产生。可见，训练组的表现好于检验组的表现，这并不奇怪。两种曲线均好于随机曲线。
图5显示了在几种不同寡核苷酸组中训练和检验产生的序列图谱。这种图谱显示G或C碱基非常优选地处于序列的起始，即5’端，且很少处于终止端，即3’端。为了验证此观察，计算了由G/C或A/U起始或终止的寡核苷酸的平均敲除水平，而且以G/C起始并以A/U终止的那些寡核苷酸具有最佳的表现，远远超另外三类。通过比较不同位置的权重来简化具有序列GCGTTAATGTGATAATATA(SEQ ID NO1)的寡核苷酸，以及与此序列最相似的寡核苷酸被鉴定为具有高沉默效率的siRNA。
结合两种PSSM的设计方法如图3所示，因与使用任一单独的PSSM比较，此结合带来了更好的表现。该改进的siRNA设计方法基于以下4项原则选择寡核苷酸碱基组成、靶外一致性、转录本中碱基位置以及序列可变性。去除具有未翻译区、重复或相同多聚体等特征的序列中含有的某些寡核苷酸。利用PSSM记分来排列剩余的寡核苷酸。对于GC含量、起始位置以及siRNA双链上游两个碱基中的变化，选择靠前排列的寡核苷酸。将预测的靶外活性计算为位置求权的FASTA比对记分，然后针对该活性过滤所选择的寡核苷酸。通过PSSM记分排列剩余寡核苷酸，经过针对可变性进行第二轮选择并用其PSSM记分进行最终的再次排列。最终排列靠前保留了所需数量的siRNA。
通过对每一所选择的新siRNA的进行逐侧检验，将所述改进的方法与标准的方法进行比较。每一种方法所选择的三种siRNA获得的结果如图3所示。由改进的运算法则设计的siRNA显示更好的中值效率(88％，与标准方法siRNA的78％比较)，并且其表现更加均一。改进的运算法则的siRNA沉默效率的分布显著高于对相同基因的标准方法siRNA的效率分布(p＝0.004，Wilcoxon秩和检验)。
经证实，使用新流水线成功地检验了30种试验性寡核苷酸。表III列出了这30种siRNA。过去，用标准方法设计的siRNA具有75％的中值沉默水平。在这30种试验性寡核苷酸中，28具有等于或高于75％的沉默效率，26种高于或等于80％，并且37％高于90％，而采用标准方法仅有10％高于90％。有两种靶基因(KIF14和IGF1R)很难被siRNA沉默，以往的寡核苷酸仅实现40％至70％且不高于80％的沉默水平。靶向这些基因的12种新的寡核苷酸均到达至少80％且有6种到达90％的沉默水平。这30种寡核苷酸中的两种寡核苷酸具有低于75％的沉默水平，其对靶向的外显子关闭，该外显子对一种靶转录本序列是唯一的，但不存在该相同基因的其它交替拼接形式。因此，这两种寡核苷酸的失败是由于不适当的插入序列而不是由于PSSM方法引起的。因此，当给出适当的插入序列时，该流水线表现出能够挑选出可以敲掉100％的靶基因的至少75％的寡核苷酸。
表II 377种siRNA的文库
表III 采用此实施例的方法设计的30种siRNA
6.2.实施例2选择沉默特异性siRNA已证明了siRNA和shRNA序列的靶外作用的重要性。微阵列试验表明，通过dsRNA与靶外转录本的直接相互作用，大多数siRNA寡核苷酸导致靶外基因下调。当dsRNA与转录本间的序列相似性在确定哪一种靶外基因会受到影响中发挥作用时，序列相似性检索，即使与杂交的热动力学模式结合，对准确预测靶外作用是不够的。然而，将靶外转录本与干扰性siRNA序列进行比对显示，两者之间的一些碱基配对的相互作用似乎比其它碱基配对更重要(图6)。
图6显示靶外基因转录本与siRNA寡核苷酸序列的19mer核心比对的例子。通过选择与寡核苷酸直接作用一致的转录本丰度的动力学模式，从人25k v2.2.1微阵列中选择靶外基因。利用FASTA进行比对并手工编辑。黑盒和灰色区显示在比对的3’半区中具有较高水平的序列相似性。
将图6所显示的比对和其它siRNA的相似性数据结合来产生位置特异性记分矩阵以用于预测靶外作用。该矩阵反映了在该寡核苷酸的每一位置处发现与作用的靶外转录本匹配的频率，如图7所示。
用所述位置特异性记分矩阵来计算候选序列与靶外转录本序列比对的记分。利用低严格性FASTA检索来建立感兴趣的比对，并用等式6来计算每一比对的记分其中n为比对的长度(通常为19)；在图7中，如果比对中位置i匹配，则Ei＝Pi，而如果位置i不匹配，则Ei＝(1-Pi)/3。观察到，记分高于阈值的指定siRNA的比对的数量是观察到的靶外作用数量的预测子。优化所述记分的阈值以最大化预测到的作用数量与观察到的作用数量间的相关性(图8)。所选择的流水线利用优化的阈值，这有利于具有相对较少预测的靶外作用数量的序列。
6.3实施例3PSSM的曲线模式通过假设任一位置的碱基组成依赖于其相邻位置的方法来产生PSSM，称为“曲线模式”。
以常态曲线的和来产生曲线模式。每一曲线代表在具体区域发现具体碱基的概率。在求和的常态曲线中，每一位置的值为该曲线所代表的预定碱基的位置的权重。随后对每一siRNA和其侧翼序列的每一位置处存在的每一碱基的权重求和，以产生siRNA的记分，即所述记分为∑wi。所述记分计算可以描述为所述序列的碱基含量与该曲线模式中权重的点积(dot product)。因而，它是代表感兴趣序列与该模式之间的相关性的一种方式。
可将曲线模式初始化以对应在好与坏siRNA的所述的平滑碱基组成差异中存在的主要峰和谷，例如，如图1A-1C和图5A-5C所示。初始模式可设置成如下的3-峰G/C曲线模式峰1平均值1.5标准差2幅度0.0455峰1的平均值、标准差和幅度被设置成对应于在好与坏siRNA间的GC含量平均差异中的峰，该差异发生在组1的训练组与检验组中所述的siRNA靶位点的碱基2-5内。
峰2
平均值11标准差0.5幅度0.0337峰2的平均值、标准差和幅度被设置成对应于在好与坏siRNA间的GC含量平均差异中的峰，该差异发生在组1的训练组与检验组中所述的siRNA靶位点的碱基10-12内。
峰3平均值18.5标准差4幅度-0.0548峰2的平均值、标准差和幅度被设置成对应于在好与坏siRNA间的GC含量平均差异中的峰，该差异发生在组1的训练组与检验组中所述的siRNA靶位点的碱基12-15内。
可调节曲线模式中的峰高度(幅度)，峰的序列中心位置(平均值)和宽度(标准差)。通过相对于预设值栅格调节每一峰的幅度、平均值和标准差来优化曲线模式。在一些训练组中优化曲线模式，并在一些检验组中进行检验，例如，如表II所述的训练组与检验组。分别优化每一碱基-G/C、A和U(或T)，并对优化模式的组合进行筛查以获得最佳表现。
曲线模式的优化标准为(1)在前10％、15％、20％和33％记分中的好寡核苷酸的分数，(2)在所选siRNA的33％和50％处的假检测率，及(3)siRNA沉默与用作同分决赛(tiebreaker)的siRNA记分之间的相关系数。
当训练所述模式时，探测每一峰的幅度、平均值和标准差的概率值栅格。针对上述标准，选择具有靠前值或在靠前列值范围内的模式并用于进一步检查。
利用3个或4个峰来优化G/C模式，利用3个峰来优化A模式，利用5个峰来优化U模式。
模式的示例性优化范围如下所示3峰G/C模式峰1幅度gc1＝0-0.091平均值gc1＝-2.5-1.5标准差gc1＝2.5-4峰2幅度gc1＝0337-0.1011平均值gc2＝11-11.5标准差gc2＝0.5-0.9峰3幅度gc3＝-0.1644--0.0822平均值gc3＝18.75-20.75标准差gc3＝2.5-3.54峰G/C模式峰0幅度gc0＝0-0.091
平均值gc0＝-5.5--3.5标准差gc0＝1-2.5峰1幅度gc10-0.091平均值gc1＝-2.5-1.5标准差gc1＝2.5-4峰2幅度gc2＝0.0337-0.1011平均值gc2＝11-11.5标准差gc2＝0.5-0.9峰3幅度gc3＝-0.1644--0.0822平均值gc3＝18.75-20.75标准差gc3＝2.5-3.55峰U模式U峰1幅度u1＝-0.2-0.0平均值u1＝1-2标准差u1＝.75-1.5U峰2幅度u2＝0.0-0.16平均值u2＝5-6
标准差.75-1.5U峰3幅度u3＝0.0-0.1平均值u3＝10-11标准差u3＝1-2U峰4幅度u4＝0.0-0.16平均值u4＝13-14标准差u4＝.75-1.5U峰5幅度u5＝0.0-0.16平均值u5＝17-18标准差u5＝1-33峰A模式A峰1幅度a1＝0.0442-0.2210平均值a1＝5.5-6.5标准差a1＝1-2A峰2幅度a2＝-.05-0平均值a2＝10-12.5标准差a2＝2.5-4.5
A峰3幅度a3＝0.0442-0.2210平均值a3＝18-20标准差a3＝4-6PSSM示例性的一组曲线模式如图11A所示。图11B显示了训练组与检验组中的模式的表现。
6.4.实施例4用于预测siRNA双链表现的碱基组成模式好和坏siRNA间的G/C含量的平均差异为G/C PSSM提供了模式，其可用于分类siRNA功能性和抗性基序。因已知siRNA的两条链均有活性(参见例如，Elbashir等人，Genes Dev.15188-200)，因此探究siRNA的有义链和反义链怎样的G/C含量适合siRNA功能性靶基序G/C含量模式是有利的，该功能靶基序G/C含量衍生自好和坏siRNA间G/C含量的平均差异。为实现此目的，检测了好和坏siRNA的反向互补序列。这些反向互补序列对应于假设与siRNA双链的有义链完美匹配的靶位点。将该反向互补序列与实际的好和坏siRNA比较，用该siRNA双链的反义链的实际完全匹配靶位点来表示。
图14A显示在所述siRNA双链区，坏siRNA反向互补序列的平均G/C含量与坏siRNA本身的平均G/C含量之间的差异。显示了好和坏siRNA平均G/C含量之间差异以用于比较。针对窗口来平滑该曲线(或者部分窗口5，在序列的边缘)。
图14B显示在所述siRNA双链区，好siRNA反向互补序列的平均G/C含量与坏siRNA的平均G/C含量之间的差异。显示了好和坏siRNA平均G/C含量之间差异以用于比较。针对窗口来平滑该曲线(或者部分窗口5，在序列的边缘)。
与好siRNA比较，发现坏siRNA反向互补序列更不同于该坏siRNA本身。在平均水平，坏siRNA的反向互补序列比好siRNA在其5’端具有更高的G/C含量，并且在其3’端具有与好siRNA类似的G/C含量。相反，与好siRNA比较，好siRNA的反向互补序列基本上与坏siRNA相似。在平均水平，好siRNA的反向互补序列在5’端的G/C含量很难与坏siRNA的G/C含量区分开，并且在3’端具有略少于坏siRNA的G/C含量。相反，与好siRNA比较，好siRNA的反向互补序列基本上与坏siRNA相似。
这些结果表明，G/C PSSM将具有强有义链的siRNA视为坏siRNA，而将具有弱有义链的siRNA视为好siRNA。siRNA的G/C PSSM记分高于其反向互补序列的记分时，就预测该siRNA具有高于其有义链活性的反义链。相反，siRNA的G/C PSSM记分低于其反向互补序列的记分时，就预测该siRNA具有比其反义链更有活性的有义链。
已证明，增加的效率对应于较高的反义链活性和较低的有义链活性。因此，本发明的G/C PSSM将具有较高效率好siRNA(其具有优势反义链活性)(″反义活性″siRNA)与具有优势有义链活性的siRNA(″有义活性″siRNA)区分开。
通过比较3′偏好方法获得的siRNA表达图谱的链表现估计值，检验用于预测链表现的siRNA与其反向互补序列的G/C PSSM的比较相关性。
如图14A所示，利用好和坏siRNA 19mer内的平滑G/C含量的差异作为权重矩阵来对siRNA和其反向互补序列记分。根据曲线模式PSSM的记分计算方法，每一条链的G/C PSSM记分是所述siRNA链G/C含量与该G/C含量差异矩阵的点积(dot product)。
如果相同反义记分超过该相同有义记分，那么表达图谱分析的3’偏好方法将此siRNA称为有义活性。如果其反向互补序列G/C PSSM记分超过其自身的G/C PSSM记分，那么G/C PSSM方法就将此siRNA称为有义活性。
在图15中，siRNA用检测的沉默效率来表示，并比较了通过表达图谱与G/C PSSM方法获得的有义活性。尽管这些技术基于不同的分析方法，但一致性相当好。二者均显示，低沉默siRNA与高沉默siRNA的较高比例被预测为有义活性。图15中表示的一组61种siRNA的(siRNA G/CPSSM记分-反向互补序列G/C PSSM记分)与log10(相同有义记分/相同反义记分)的相关系数为0.59。
6.5.实施例5设计沉默具有低转录本水平基因的siRNA在上述实施例中，描述了改进的siRNA设计运算法则，其允许选择具有较高和更均一的沉默能力的siRNA。尽管有显著的改善，但一些基因仍然很难高效沉默。观察到通常对低表达基因(微阵列中低于-0.5强度；＜5拷贝每细胞；图16)倾向较差的沉默。本实施例描述了鉴定影响siRNA对低表达基因的沉默效率的参数。
选择24种低表达基因用于详细分析影响siRNA沉默效率的参数。评价了用于区分好和坏siRNA的一些标准，包括siRNA双链序列和侧翼连接靶区的碱基组成。此外，也考虑了靶转录本中GC含量的贡献。这些检验表明，siRNA效率与siRNA和靶基因的碱基组成有很大关系。特别是，好siRNA的GC含量以区域特异性方式基本不同于坏siRNA的含量(图17)。用于产生图17的siRNA序列被列入表IV中。好siRNA双链倾向于在有义链5’端的位置2-7处GC含量低，并在3’端(位置18-19)处含量低。此外，siRNA效率与侧翼连接siRNA结合位点的转录本序列中的低GC含量相关。作为siRNA效率的决定性因素的低GC含量要求可解释不易沉默低表达转录本的原因，因为这些转录本倾向于全面富含GC。siRNA双链的碱基组成也影响低表达基因的沉默。具体地，好siRNA的GC含量以区域特异性方式基本不同于坏siRNA的含量(图17)。好siRNA双链倾向于在有义链5’端的第一位置处富含GC，在位置2-7处GC含量低，并在3’端(位置18-19)处含量低。在所检测的标准中，有义链位置2-7处的低GC含量(图17，虚线)产生了最大的沉默效率改进。这与参与转录本沉默催化步骤的siRNA区域一致。此区域的低GC含量可提供可接近性和最佳螺旋几何构型以增强裂解。在siRNA的该区域所需的低GC含量也可选择含有与结合位点侧翼连接的低GC含量的靶位点，其也与沉默效率有关。
低表达基因的好siRNA的碱基组成在某种程度上不同于良好表达基因的好siRNA的前述衍生碱基组成标准(图17，实线)。好siRNA对两种类型的基因均显示出在位置1处高GC、在3’端低GC的偏好。然而，良好表达基因的siRNA在两个末端之间显示出GC含量的极端不对称性，而低表达基因的siRNA偏向于较温和的不对称性。我们先前的设计运算法则是根据在良好表达基因的好siRNA中所观察到的结果寻求最大化的不对称性。我们目前的结果表明，siRNA的多个区域的碱基组成影响效率。siRNA的不同区域对不同靶的沉默可能是更关键的，这可能依赖于诸如表达水平或总GC含量等靶转录本特征。与此观点一致，不同的商业提供的设计运算法则对基因的不同亚组工作良好(数据未显示)。
基于低表达基因来源的GC组成开发新的siRNA设计运算法则。该新的运算法则包括以下对先前运算法则的调整(1)在有义19mer碱基2-7中选择1-3G+C，(2)有义19mer碱基1&19的布对称性(位置1，G或C；位置19，A或T)，(3)-300＜pssm score＜+200，(4)最高的靶外BLAST匹配不超过16，和(5)19mer每一侧的200个碱基不重复或是低复杂性序列。
通过对每一次所选择的新siRNA进行逐侧检验，将新的运算法则与先前实施例描述的运算法则进行比较。每一种方法所选择的三种siRNA的结果如图18所示。本实施例新运算法则所设计的siRNA显示出更好的沉默效率中值(80％，与标准方法siRNA获得的60％比较)以及更均一的表现。对于相同的基因，新运算法则获得的siRNA沉默效率分布显著好于先前运算法则所获得的分布(p＝105，Wilcoxon秩和检验)。对12种高表达基因进行检测，利用新运算法则设计的siRNA也对高表达转录本有效。
新的设计标准通常可捕获对siRNA功能很重要的特征(图19)，并强调siRNA的不同区域在转录本识别、裂解和产物释放方面具有不同的功能。靠近引导链5’端的碱基参与转录本(包括靶上与靶外转录本)的结合，而且，最近已经表明其对靶RNA结合能是足够的。此设计标准也与现有的关于siRNA与RISC、与介导RNA沉默的蛋白-RNA复合体的相互作用数据一致。这些研究表明，在反义链的5’端(双链3’端)的弱碱基配对促进该反义链与RISC的优先作用，这可能是由于RISC的5′-3′解螺酶组分促进了siRNA双链的解旋。如同先前的设计，我们新的设计保持了促进反义链优先相互作用的碱基组成不对称性。这表明，先前沉默低表达转录本的无效并不是因为与RISC结合的无效，而更似乎是RISC复合物对靶转录本的靶向无效，或者是该靶转录本的裂解和释放无效。本实施例描述的设计包括在有义链位置10处的U偏好，其与RISC引起的改进的裂解效率有关，因为它在大多数情况下是以内切酶的形式存在。所观察到的侧翼连接裂解位点的低GC含量偏好也可增强RISC/核酸酶复合物的可接近性，以裂解转录本或释放该转录本，这与最近的研究一致，证明了由siRNA引导链的中心和3′区形成的碱基配对提供了催化所需的螺旋构型。新的设计标准可增加该siRNA途径中这些以及其它步骤的有效性，由此在不同的表达水平提供转录本的有效沉默。
表IV 图17的siRNA
7.引用的参考文献本发明所引用的所有参考文献在此均全文引为参考，并出于所有目的，其范围等同于各出版物、专利或专利申请被单独特别地全文引为参考一样。
在不偏离本发明的精神和范围下可对本发明作出多种改变或变化，这对本领域所属技术人员来讲是显而易见的。本发明所描述的实施方式仅以示例的形式提供，本发明仅由所附权利要求书以及该权利要求书的等同范围所限定。
权利要求
1.从多种不同的siRNA中选择一种或多种用于在有机体中沉默靶基因的siRNA的方法，所述多种不同的siRNA的每一种靶向所述靶基因转录本中的不同靶序列，所述方法包括(a)根据所述转录本中相应靶序列基序的位置碱基组成，排列所述多种不同的siRNA，其中每一种靶序列基序包括所述相应siRNA的靶序列的至少一部分和/或所述靶序列的侧翼序列区中的第二序列；及(b)从所排列的siRNA中选择一种或多种siRNA。
2.如权利要求1所述的方法，其中每一种所述的序列基序包括所述靶向siRNA的所述靶序列。
3.如权利要求2所述的方法，其中所述的排列步骤如下进行(a1)确定每一种不同siRNA的记分，其中所述记分是利用位置特异性记分矩阵计算的；及(a2)根据所述记分排列所述多种不同的siRNA。
4.如权利要求3所述的方法，其中每一种所述的序列基序为L个核苷酸的核苷酸序列，L为整数，且其中所述的位置特异性记分矩阵为{log(eij/pij)}，其中，eij为位置j处的核苷酸i的权重，pij为随机序列中位置j处的核苷酸i的权重，且i＝G、C、A、U(T)，j＝1，...L。
5.如权利要求3所述的方法，其中每一所述的序列基序L个核苷酸的核苷酸序列，L为整数，且其中所述的位置特异性记分矩阵为{log(eij/pij)}，其中，eij为位置j处的核苷酸i的权重，pij为随机序列中位置j处的核苷酸i的权重，且i＝G或C、A、U(T)，j＝1，...L。
6.如权利要求5所述的方法，其中每一种所述siRNA的所述记分根据以下等式来计算，其中所述et和pt分别为根据所述位置特异性记分矩阵确定的所述序列基序中和随机序列中位置t处的核苷酸的权重。
7.如权利要求6所述的方法，其中每一种所述的序列基序包括所述靶向siRNA的靶序列和至少一种侧翼序列。
8.如权利要求7所述的方法，其中每一种所述的序列基序包括所述靶向siRNA的靶序列和5′侧翼序列和3′侧翼序列。
9.如权利要求8所述的方法，其中所述的5′侧翼序列和所述的3′侧翼序列每种均为D个核苷酸的序列，D为整数。
10.如权利要求9所述的方法，其中每一种所述的靶序列为19个核苷酸的序列，且每一种所述的5′侧翼序列和3′侧翼序列为10个核苷酸的序列。
11.如权利要求8所述的方法，其中每一种所述的靶序列为19个核苷酸的序列，且每一种所述的5′侧翼序列和3′侧翼序列为50个核苷酸序列。
12.如权利要求10所述的方法，其中所述的一种和多种siRNA由至少3种siRNA组成。
13.如权利要求12所述的方法，该方法还包括去重叠步骤，该去重叠的步骤包括在所述的至少3种siRNA中选择多种siRNA，从而使所述多种中的siRNA在序列多样性检测中完全不同。
14.如权利要求13所述的方法，其中所述的多样性检测为定量检测，且在所述去重叠步骤中的所述选择包括以高于指定的阈值在不同的所选siRNA间进行所述序列多样性检测，选择在该检测中具有差异的siRNA。
15.如权利要求14所述的方法，其中所述的序列多样性检测为所述siRNA的总GC含量检测。
16.如权利要求15所述的方法，其中所述指定的阈值为5％。
17.如权利要求14所述的方法，其中所述的序列多样性检测为沿所述转录本序列的长度检测siRNA间的距离。
18.如权利要求17所述的方法，其中所述的阈值为100个核苷酸。
19.如权利要求14所述的方法，其中所述的序列多样性检测为所述siRNA的引导二聚体的同一性检测，其中16种可能引导二聚体中的每一种被分别设为1-16的记分。
20.如权利要求19所述的方法，其中所述的阈值为0.5。
21.如权利要求1所述的方法，该方法还包括基于沉默特异性选择一种或多种siRNA的步骤，所述基于沉默特异性的选择步骤包括(i)对于所述多种siRNA的每一种，从多种基因中预测所述siRNA的靶外基因，其中所述靶外基因是与所述靶基因不同的基因，且由所述siRNA直接沉默；(ii)根据靶外基因的数量排列所述多种siRNA；及(iii)选择其靶外基因的数量低于指定阈值的一种或多种siRNA。
22.如权利要求21所述的方法，其中所述的预测包括(i1)基于预定的siRNA序列匹配模式，评价所述多种基因的每一种的序列；及(i2)如果所述基因包括基于所述序列匹配模式与所述siRNA匹配的序列，那么就预测该基因为靶外基因。
23.如权利要求22所述的方法，其中所述的评价步骤包括通过低严谨性FastA比对确定所述siRNA与基因中的序列的排列。
24.如权利要求23所述的方法，其中每一种所述的siRNA在其双链区具有L个核苷酸，且其中所述序列匹配模式用位置匹配位置特异性记分矩阵(pmPSSM)表示，所述位置匹配位置特异性记分矩阵由siRNA中的不同位置的权重{Pj}组成，该不同位置与靶外转录本中的转录本序列位置匹配，其中j＝1，...L，Pj为在位置j处匹配的权重。
25.如权利要求24所述的方法，其中所述的步骤(i1)包括根据以下等式计算位置匹配记分pmScorepmScore=Σi=1Lln(Ei/0.25)]]>其中如果位置i匹配，则Ei＝Pi，且如果i不匹配，则Ei＝(1-Pi)/3；及所述步骤(i2)包括如果所述位置匹配记分高于指定的阈值，则预测所述基因为靶外基因。
26.如权利要求25所述的方法，其中所述L为19，且其中所述pmPSSM通过表I来指定。
27.如权利要求26所述的方法，其中所述的多种基因包括所述有机体的所有已知的独特基因，而不是所述靶基因。
28.如权利要求10所述的方法，其中所述的位置特异性记分矩阵(PSSM)通过包括以下步骤的方法获得(aa)鉴定由具有19个核苷酸的双链区和高于指定阈值的沉默效率的siRNA组成的N种siRNA；(bb)鉴定每一种所述siRNA的功能性序列基序，所述功能性序列基序包括所述siRNA的19个核苷酸的靶序列，及10个核苷酸的5′侧翼序列和10个核苷酸的3′侧翼序列；(cc)基于所述siRNA功能性序列基序，根据以下等式计算频率矩阵{fij}，fij=Σk=1Nδik(j)]]>其中其中i＝G、C、A、U(T)，j＝1，2，...L，且其中fij是在位置j处的核苷酸i的频率；及(dd)根据以下等式计算eij来确定所述PSSMeij＝fij/N。
29.如权利要求28所述的方法，其中所述的N种siRNA靶向细胞中具有不同转录本丰度的多种不同基因。
30.如权利要求29所述的方法，其中所述的步骤(b)通过选择一种或多种具有最高记分的siRNA来进行。
31.如权利要求29所述的方法，其中所述的步骤(b)通过选择一种或多种记分最接近于预定值的siRNA来进行，其中所述预定值是记分值，对应于多种siRNA序列基序的最大沉默效率中值。
32.如权利要求31所述的方法，其中所述多种siRNA序列基序是转录本中的序列基序，该转录本的丰度水平低于约3-5个拷贝每细胞。
33.如权利要求29所述的方法，其中所述的步骤(b)通过选择一种或多种具有预定范围内记分的siRNA来进行，其中所述预定范围为记分范围，对应于具有指定沉默效率水平的多种siRNA序列基序。
34.如权利要求33所述的方法，其中所述的沉默效率在siRNA的量为约100nM时高于50％、75％或90％。
35.如权利要求34所述的方法，其中所述的多种siRNA序列基序是转录本中的序列基序，该转录本的丰度水平低于约3-5个拷贝每细胞。
36.如权利要求28-35中任一项所述的方法，其中所述N种siRNA包括至少10、50、100、200或500不同的siRNA。
37.如权利要求5-11中任一项所述的方法，其中所述的位置特异性记分矩阵(PSSM)通过包括以下步骤的方法获得(aa)利用随机权重初始化所述的PSSM；(bb)随机选择在(aa)中获得的权重wij；(cc)改变所选择的权重值来产生检验psPSSM，该检验psPSSM包括所选择的具有所述改变值的权重；(dd)利用所述检验psPSSM，根据以下等式计算多种siRNA功能性序列基序的每一种的记分其中所述wk和pk分别为所述功能性序列基序和随机序列中位置k处的核苷酸的权重；(ee)计算所述记分与多种siRNA功能性序列基序中的siRNA的特征值之间的相关性；(ff)重复步骤(cc)-(ee)以获得在指定范围内的所选择权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(gg)重复步骤(bb)-(ff)预定次数；由此确定所述的PSSM。
38.如权利要求37所述的方法，该方法还包括通过包括以下步骤的方法来选择所述多种siRNA功能性序列基序(i)鉴定由具有不同特征值的siRNA组成的多种siRNA；(ii)鉴定多种siRNA功能性序列基序，其每一种对应所述多种siRNA中的某种siRNA。
39.如权利要求38所述的方法，其中所述的特征为沉默效率。
40.如权利要求39所述的方法，其中所述的N种siRNA靶向细胞中具有不同转录丰度的多种不同基因。
41.如权利要求40所述的方法，其中所述的步骤(b)通过选择一种或多种具有最高记分的siRNA来进行。
42.如权利要求40所述的方法，其中所述的步骤(b)通过选择一种或多种记分最接近于预定值的siRNA来进行，其中所述预定值是记分值，对应于多种siRNA序列基序的最大沉默效率中值。
43.如权利要求42所述的方法，其中所述的多种siRNA序列基序为转录本中的序列基序，该转录本的丰度水平低于约3-5拷贝每细胞。
44.如权利要求40所述的方法，其中所述步骤(b)通过选择一种或多种具有预定范围内记分的siRNA来进行，其中所述预定范围为记分范围，对应于具有指定沉默效率水平的多种siRNA序列基序。
45.如权利要求44所述的方法，其中所述的沉默效率在siRNA的量为约100nM时高于50％、75％或90％。
46.如权利要求45所述的方法，其中所述的多种siRNA序列基序为转录本中的序列基序，该转录本的丰度低于约3-5个拷贝每细胞。
47.如权利要求39-46中任一项所述的方法，其中所述的N种siRNA包括至少10、50、100、200或500不同的siRNA。
48.如权利要求37所述的方法，其中所述的位置特异性记分矩阵(PSSM)包括wk，k＝1，...L，wk为第一型siRNA和第二型siRNA在序列位置k处发现核苷酸G或C的概率差异，且其中每一条链的记分根据以下等式计算，
49.如权利要求48所述的方法，其中所述第一型siRNA由沉默效率不低于第一阈值的一种或多种siRNA组成，以及所述第二型siRNA由沉默效率不低于第二阈值的一种或多种siRNA组成。
50.如权利要求49所述的方法，其中所述的概率差异由高斯曲线的总和来描述，每一所述的高斯曲线代表在不同序列位置上发现G和C的概率差异。
51.如权利要求50所述的方法，其中在siRNA的量为100nM时，所述的第一和第二阈值均为75％。
52.从多种不同的siRNA中选择一种或多种用于在有机体中沉默靶基因的siRNA的方法，所述多种不同的siRNA中的每一种靶向所述靶基因转录本中的不同靶序列，所述方法包括(a)根据所述siRNA有义链的反向互补序列的位置碱基组成，排列所述多种不同的siRNA；及(b)从所排列的siRNA中选择一种或多种siRNA。
53.如权利要求52所述的方法，其中所述的排列步骤通过以下步骤进行(a1)确定每一不同siRNA的记分，其中所述记分是利用位置特异性记分矩阵计算的；及(a2)根据所述记分排列所述多种不同的siRNA。
54.如权利要求53所述的方法，其中所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵包括wk，k＝1，...L，wk为第一型siRNA有义链的反向互补链和第二型siRNA有义链的反向互补链在序列位置k处发现核苷酸G或C的概率差异，且其中每一个反向互补的记分根据以下等式计算，
55.如权利要求54所述的方法，其中所述第一型siRNA由沉默效率不低于第一阈值的一种或多种siRNA组成，及所述第二型siRNA由沉默效率不低于第二阈值的一种或多种siRNA组成。
56.如权利要求55所述的方法，其中所述的差异由高斯曲线的总和来描述，每一所述的高斯曲线代表在不同序列位置上发现G和C的概率差异。
57.如权利要求56所述的方法，其中所述的第一和第二阈值在siRNA的量为100nM时均为75％。
58.从多种不同的siRNA中选择一种或多种用于在有机体中沉默靶基因的siRNA的方法，所述多种不同的siRNA中的每一种靶向所述靶基因的转录本中的不同靶序列，所述方法包括(i)对于所述多种不同的siRNA中的每一种，从多种基因中预测该siRNA的靶外基因，所述靶外基因是与所述靶基因不同的基因，且由所述siRNA直接沉默；(ii)根据靶外基因的数量排列所述多种不同的siRNA；及(iii)选择其靶外基因的数量低于指定阈值的一种或多种siRNA。
59.如权利要求58所述的方法，其中所述的预测包括(i1)基于预定的siRNA序列匹配模式，评价所述多种基因的每一种的序列；及(i2)如果所述基因包括基于所述序列匹配模式与所述siRNA匹配的序列，那么就预测该基因为靶外基因。
60.如权利要求59所述的方法，其中每一种siRNA在其双链区具有L个核苷酸，且所述序列匹配模式用位置匹配位置特异性记分矩阵(pmPSSM)表示，所述位置匹配位置特异性记分矩阵由siRNA中的不同位置的权重{Pj}组成，该不同位置与靶外转录本中的转录本序列位置匹配，其中j＝1，...L，Pj为在位置j处匹配的权重。
61.如权利要求60所述的方法，其中所述的步骤(i1)包括根据以下等式计算位置匹配记分pmScore=Σi=1Lln(Ei/0.25)]]>其中如果位置i匹配，则Ei＝Pi，且如果i不匹配，则Ei＝(1-Pi)/3；及所述步骤(i2)包括如果所述位置匹配记分高于指定的阈值，则预测所述基因为靶外基因。
62.如权利要求61所述的方法，其中所述L为19，且其中所述pmPSSM通过表I来指定。
63.如权利要求62所述的方法，其中所述的多种基因包括所述有机体的所有已知的独特基因，而不是所述靶基因。
64.siRNA文库，所述文库包括有机体的多种不同基因的每一种的多种siRNA，其中每一种siRNA使其靶基因至少75％、至少80％或至少90％沉默。
65.如权利要求64所述的文库，其中所述的多种siRNA由至少3、至少5或至少10种siRNA组成。
66.如权利要求65所述的文库，其中所述多种不同的基因由至少10、至少100、至少500、至少1,000、至少10,000或至少30,000种不同的基因组成。
67.确定碱基组成位置特异性记分矩阵(bsPSSM){log(eij/pij)}的方法，该矩阵表示转录本中L个核苷酸的siRNA功能性序列基序的碱基组成模式，其中i＝G、C、A、U(T)，且j＝1，2，...L，且其中每一种所述siRNA功能性序列基序包括相应靶向siRNA的靶序列的至少一部分和/或所述靶序列的侧翼序列区中的序列，所述方法包括(a)鉴定由沉默效率高于选定阈值的siRNA组成的N种不同的siRNA；(b)鉴定N种相应的siRNA功能性序列基序，一种对应每种不同的siRNA；(c)基于所述N种siRNA功能性序列基序，根据以下等式计算频率矩阵{fij}，fij=Σk=1Nδik(j)]]>其中其中i＝G、C、A、U(T)，j＝1，2，...L，且其中fij是在位置j处的核苷酸i的频率；及(d)根据以下等式计算eij来确定所述psPSSMeij＝fij/N。
68.如权利要求67所述的方法，其中每一种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列和一种或两种所述靶序列的侧翼序列。
69.如权利要求68所述的方法，其中每一种所述的siRNA在其双链区具有M个核苷酸，而且每一种所述的siRNA功能性序列基序由M个核苷酸的siRNA靶序列，D1个核苷酸的5′侧翼序列以及D2个核苷酸的3′侧翼序列组成。
70.如权利要求69所述的方法，其中每一种所述的siRNA在其双链区具有19个核苷酸，而且每一种所述的siRNA功能性序列基序由19个核苷酸的siRNA靶序列，10个核苷酸的5′侧翼序列和10个核苷酸的3′侧翼序列组成。
71.如权利要求69所述的方法，其中每一种所述的siRNA在其双链区具有19个核苷酸，且其中每一种所述的siRNA功能性序列基序由19个核苷酸的siRNA靶序列，50个核苷酸的5′侧翼序列和50个核苷酸的3′侧翼序列组成。
72.如权利要求67所述的方法，其中所述N种siRNA的每一种靶向细胞中具有指定范围的转录本丰度的基因。
73.如权利要求72所述的方法，其中所述的范围为至少约5、10或100个转录本每细胞。
74.如权利要求所述的方法72，其中所述的范围为低于约3-5个转录本每细胞。
75.如权利要求67-74中任一项所述的方法，其中所述沉默阈值在siRNA剂量为约100nM时为50％、75％或90％。
76.如权利要求67-74中任一项所述的方法，其中所述N种siRNA包括10、50、100、200或500种不同的siRNA。
77.确定碱基组成位置特异性记分矩阵(bsPSSM){wij}的方法，该矩阵表示代表多种不同的L个核苷酸的siRNA功能性序列基序的碱基组成方式，其中i＝G、C、A、U(T)，j＝1，2，...L，且每一种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列的至少一部分和/或所述siRNA靶序列的侧翼序列区的序列，所述方法包括(a)利用随机权重初始化所述的bsPSSM；(b)随机选择在(a)中获得的权重wij；(c)改变所选择的权重值来产生检验psPSSM，该检验psPSSM包括所选择的具有所述改变值的权重；(d)利用所述检验psPSSM，根据以下等式计算多种siRNA功能性序列基序的每一种的记分其中所述wk和pk分别为所述功能性序列基序和随机序列中位置k处的核苷酸的权重；(e)计算所述记分与多种siRNA功能性序列基序中的siRNA的特征值之间的相关性；(f)重复步骤(c)-(e)以获得在指定范围内的所选择权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(g)重复步骤(b)-(f)预定次数；由此确定所述的PSSM。
78.确定碱基组成位置特异性记分矩阵(bsPSSM){wij}的方法，该矩阵表示代表多种不同的L个核苷酸的siRNA功能性序列基序的碱基组成方式，其中i＝G/C、A、U(T)，j＝1，2，...L，且每一种siRNA功能性序列基序包括所述相应靶向siRNA的靶序列的至少一部分和/或所述siRNA靶序列的侧翼序列区的序列，所述方法包括(a)利用随机权重初始化所述的bsPSSM；(b)随机选择在(a)中获得的权重wij；(c)改变所选择的权重值来产生检验psPSSM，该检验psPSSM包括所选择的具有所述改变值的权重；(d)利用所述检验psPSSM，根据以下等式计算多种siRNA功能性序列基序的每一种的记分其中所述wk和pk分别为所述功能性序列基序和随机序列中位置k处的核苷酸的权重；(e)计算所述记分与多种siRNA功能性序列基序中的siRNA的特征值(metric)之间的相关性；(f)重复步骤(c)-(e)以获得在指定范围内的所选择权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(g)重复步骤(b)-(f)预定次数；由此确定所述的PSSM。
79.如权利要求77或78所述的方法，其中每一种的所述siRNA功能性序列基序包括所述相应靶向siRNA的靶序列和一种或多种所述靶序列的侧翼序列。
80.如权利要求79所述的方法，该方法还包括通过包括以下步骤的方法选择所述多种siRNA功能性序列基序(i)鉴定由具有不同特征值的siRNA组成的多种siRNA；(ii)鉴定多种siRNA功能性序列基序，其每一种对应所述多种siRNA中的某种siRNA。
81.如权利要求79所述的方法，其中每一种所述的siRNA在其双链区具有M个核苷酸，而且其中所述的siRNA功能性序列基序由M个核苷酸的siRNA靶序列，D1个核苷酸的上游侧翼序列以及D1个核苷酸的下游侧翼序列组成。
82.如权利要求81所述的方法，其中每一种所述的siRNA在其双链区具有19个核苷酸，而且其中所述的siRNA功能性序列基序由19个核苷酸的siRNA靶序列，10个核苷酸的上游翼序列和10个核苷酸的下游翼序列组成。
83.如权利要求82所述的方法，其中每一种所述siRNA在其双链区具有19个核苷酸，而且其中所述的siRNA功能性序列基序由19核苷酸的siRNA靶序列，50个核苷酸的上游侧翼序列和50个核苷酸的下游侧翼序列组成。
84.如权利要求82所述的方法，其中所述特征为沉默效率。
85.如权利要求84所述的方法，其中所述的多种siRNA包括靶向细胞中具有指定范围的转录本丰度的基因的siRNA。
86.如权利要求85所述的方法，其中所述范围为至少约5、10或100个转录本每细胞。
87.如权利要求85所述的方法，其中所述范围低于约3-5个转录本每细胞。
88.如权利要求77-78中任一项所述的方法，其中所述沉默阈值在siRNA的量为约100nM时为50％、75％或90％。。
89.如权利要求84所述的方法，该方法还包括利用psPSSM的敏感性相对于psPSSM曲线的非特异性的ROC(receiver operatingcharacteristic)曲线来评价所述psPSSM，所述PSSM的敏感性为用psPSSM检测到的真阳性的比例，以全部真阳性的分数表示，而PSSM的非特异性为用psPSSM检测的假阳性的比例，以全部假阳性的分数表示。
90.如权利要求84所述的方法，其中所述的多种siRNA功能性序列基序由至少50，至少100或至少200种不同的siRNA功能性序列基序组成。
91.如权利要求84所述的方法，该方法还包括利用另外的多种siRNA功能性序列基序来检验psPSSM。
92.确定位置匹配特异记分矩阵(pmPSSM){Ei}，用于表示L个核苷酸的siRNA与其转录本中的靶序列的位置匹配模式的方法，其中Ei为在位置i处的匹配记分，i＝1，2，...，L，所述方法包括(a)鉴定N种siRNA的靶外序列，其中每一种靶外序列为所述siRNA对其有沉默活性的序列；(b)基于N种siRNA的靶外序列，根据以下等式计算位置匹配权重矩阵{Pi}，其中i＝1，2，...，L，P1=1NΣk=1Nδk(j),]]>其中如果k匹配，则δk(j)为1；如果k不匹配，则δk(j)为0；及(c)通过计算Ei确定所述的psPSSM，如果i匹配，则Ei＝Pi，且如果i不匹配，则Ei＝(1-Pi)/3。
93.如权利要求92所述的方法，其中L＝19。
94.如权利要求所述的方法93，其中所述位置匹配权重矩阵通过表I来指定。
95.评价siRNA的两条链在靶外基因沉默中的相对活性的方法，该方法包括比较所述siRNA的有义链的位置特异碱基组成与所述siRNA的反义链或所述siRNA的有义链的反向互补链的位置特异碱基组成，其中所述反义链为靶向目标靶序列的引导链。
96.如权利要求95所述的方法，其中所述比较包括通过包括以下步骤的方法来进行(a)确定所述siRNA有义链的记分，其中所述记分利用位置特异性记分矩阵来计算；(b)利用位置特异性记分矩阵确定所述siRNA的反义链或所述siRNA的有义链的反向互补链的记分；及(c)比较所述siRNA的有义链的记分与所述siRNA的反义链或所述siRNA的有义链的反向互补链的记分，由此评估所述siRNA的链表现。
97.如权利要求96所述的方法，其中所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵为{wij}，其中wij为位置j处的核苷酸i的权重，i＝G、C、A、U(T)，j＝1，...L。
98.如权利要求96所述的方法，其中所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵为{wij}，其中wij为位置j处的核苷酸i的权重，i＝G或C、A、U(T)，j＝1，...L。
99.如权利要求97或98所述的方法，其中所述位置特异性记分矩阵通过包括以下步骤的方法获得(a)利用随机权重初始化所述的位置特异性记分矩阵；(b)随机选择在(a)中获得的权重wij；(c)改变所选择的权重值来产生检验位置特异性记分矩阵，其包括所选择的具有所述改变值的权重；(d)利用所述的检验位置特异性记分矩阵，根据以下等式计算多种siRNA的每一种的记分，其中所述wj和pj分别为所述siRNA和随机序列中位置j处的核苷酸的权重；(e)计算所述记分与所述多种siRNA中的siRNA的特征值之间的相关性；(f)重复步骤(c)-(e)以获得在指定范围内的所选权重的多种不同值，并保留对应所选择权重最佳相关性的值；及(g)重复步骤(b)-(f)预定次数；由此确定所述位置特异性记分矩阵。
100.如权利要求99所述的方法，其中所述的特征为siRNA沉默效率。
101.如权利要求100所述的方法，其中所述的siRNA在其双链区具有19个核苷酸。
102.如权利要求96所述的方法，其中所述siRNA在其双链区具有L个核苷酸的核苷酸序列，L为整数，其中所述位置特异性记分矩阵包括wk，k＝1，...L，wk为第一型siRNA和第二型siRNA在序列位置k处发现核苷酸G或C的概率差异，且其中每一条互补链的记分根据以下等式计算
103.如权利要求102所述的方法，其中所述第一型siRNA由沉默效率不低于第一阈值的一种或多种siRNA组成，及所述的第二型siRNA由沉默效率不低于第二阈值的一种或多种siRNA组成，而且如果步骤(a)中确定的记分高于步骤(b)中确定的记分，那么就确定siRNA为具有反义特征，或者如果步骤(b)中确定的记分高于步骤(a)中确定的记分，那么就确定siRNA为具有有义特征。
104.如权利要求103所述的方法，其中所述的概率差异由高斯曲线的和来描述，每一所述高斯曲线代表在不同序列位置上发现G和C的概率差异。
105.如权利要求104所述的方法，其中所述的第一和第二阈值在siRNA的量为约100nM时均为75％。
106.计算机系统，该系统包括处理器；和与所述处理器连接并编码一种或多种程序的内存，其中所述的一种和多种程序引起该处理器执行如权利要求1-20、28、48-50、52-56、67-71、77-98和104中任一项所述的方法。
107.计算机系统，该系统包括处理器；和与所述处理器连接并编码一种或多种程序的内存，其中所述的一种和多种程序引起该处理器执行如权利要求26所述的方法。
108.计算机系统，该系统包括处理器；和与所述处理器连接并编码一种或多种程序的内存，其中所述的一种和多种程序引起该处理器执行如权利要求27所述的方法。
109.计算机系统，该系统包括处理器；和与所述处理器连接并编码一种或多种程序的内存，其中所述的一种和多种程序引起该处理器执行如权利要求37所述的方法。
110.用于与计算机结合的计算机程序产品，该计算机具有处理器和与该处理器连接的内存，所述的计算机程序产品包括在其上编码有计算机程序机制的计算机可读存储介质，其中该计算机程序机制可加载到所述计算机的内存中，并使该计算机执行如权利要求1-20、28、48-50、52-56、67-71、77-98和104中任一项所述的方法。
111.用于与计算机结合的计算机程序产品，该计算机具有处理器和与该处理器连接的内存，所述的计算机程序产品包括在其上编码有计算机程序机制的计算机可读存储介质，其中该计算机程序机制可加载到所述计算机的内存中，并使该计算机执行如权利要求26所述的方法。
112.用于与计算机结合的计算机程序产品，该计算机具有处理器和与该处理器连接的内存，所述的计算机程序产品包括在其上编码有计算机程序机制的计算机可读存储介质，其中该计算机程序机制可加载到所述计算机的内存中，并使该计算机执行如权利要求27所述的方法。
113.用于与计算机结合的计算机程序产品，该计算机具有处理器和与该处理器连接的内存，所述的计算机程序产品包括在其上编码有计算机程序机制的计算机可读存储介质，其中该计算机程序机制可加载到所述计算机的内存中，并使该计算机执行如权利要求37所述的方法。
全文摘要
本发明提供了利用位置特异性记分矩阵方法来鉴定转录本中的siRNA靶基序的方法。本发明还涉及利用位置特异性记分矩阵方法来鉴定siRNA靶外基因的方法。本发明还涉及设计具有较高沉默效率和特异性的siRNA的方法。本发明还涉及包括具有高沉默效率和特异性的siRNA的siRNA文库。
文档编号G06F19/22GK1926551SQ200480039226
公开日2007年3月7日申请日期2004年10月27日优先权日2003年10月27日
发明者艾米·L·杰克逊, 史蒂文·R·巴兹, 朵加·伯查德, 皮特·S·林斯利, 伟·格, 盖伊·L·卡维特申请人:罗斯塔生化科技有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：艾米.Ｌ.杰克逊;史蒂文.Ｒ.巴兹;朵加.伯查德;皮特.Ｓ.林斯利;伟.格;盖伊.Ｌ.卡维特
技术所有人：罗斯塔生化科技有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。

相关技术

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

基因沉默的方法相关技术

病毒诱导的基因沉默相关技术

病毒介导的基因沉默相关技术

rna介导的基因沉默相关技术

基因沉默相关技术

基因沉默技术相关技术

基因沉默和基因敲除相关技术

基因沉默和基因过表达相关技术