CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置与流程

文档序号：12669623阅读：来源：国知局

技术特征：

1.CRISPR-Cas9系统sgRNA作用靶点的筛选方法，其特征在于，包括以下步骤：

(1)利用已公布物种的全基因组序列及基因注释信息，获取基因组中具有5’-Nx-NGG-3’序列的区段，作为CRISPR-Cas9系统sgRNA的候选靶点；其中，x为19～22之间的整数，N代表碱基A、T、G或C；

(2)将基因组打断成22～25bp的片段并筛选以NGG结尾的，且在基因组上无重复的序列；

(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对，根据错配信息及评选公式对相应的优选序列进行筛选及排序，获取最优的全基因组sgRNA作用靶点集合。

2.根据权利要求1所述的方法，其特征在于，步骤(1)中筛选符合条件的候选靶点序列的要求是：①靶点必须落在基因的CDS区内，即起始密码子之后；②尽可能靠近基因的5’端；③优选地，每个基因提取两个外显子，具体步骤为：以转录本为单位从基因组注释文件中获取转录本、基因ID，CDS、外显子区的起始和终止位置以及染色体号相关信息，以每个转录本的起始密码子所在位置为标准，提取其后两个外显子的始末位置，若起始密码子后只有一个外显子，则只取一个，得到候选外显子的始末位置后，利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息，保留作为外显子NGG候选靶点序列。

3.根据权利要求1所述的方法，其特征在于，步骤(2)中筛选中符合条件的序列的具体步骤为：首先用jellyfish软件将基因组打断成22～25bp的片段，考虑到正负链不同，分别筛选正链以NGG结尾和负链以CCN开头的序列，保留作为基因组NGG候选靶点序列；由于利用jellyfish软件将基因组打断成22～25bp的片段后没有位置信息，因此需利用bowtie软件比对找回上述22～25bp片段所在基因组中的位置。

4.根据权利要求1所述的方法，其特征在于，步骤(3)中比对的具体步骤为：

①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对，将所有自比结果过滤掉；

②筛选步骤①过滤后的比对结果中，外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列，这些外显子NGG靶点在基因组中是唯一的，将这些靶点序列作为最佳候选靶点序列优先被提取出来，标注为unique reads；

③筛选步骤①过滤后的比对结果中，外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列，若出现错配0个碱基或错配1个碱基，表明这些序列在基因组中有重复序列存在，将这些靶点序列全部删除；

④筛选步骤①过滤后的比对结果中，外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列，若出现错配2个碱基或错配3个碱基，将这些靶点序列标注为candidate reads，这些reads的所有比对结果通过公式进行打分，打分公式如下：

$<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>×</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>M</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <mrow> <mo>(</mo> <mi>S</mi> <mo>(</mo> <mrow> <mi>a</mi> <mi>b</mi> </mrow> <mo>)</mo> <mo>×</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>a</mi> <mi>b</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>S</mi> <mo>(</mo> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mo>)</mo> <mo>×</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>}</mo> <mo>×</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mi>o</mi> <mi>r</mi> <mi> </mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>3</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>$

其中，MS代表错配罚分，a、b、c分别代表发生错配的碱基位置，S(ab)代表a与b的代数和，S(bc)代表b与c的代数和，S(ac)代表a与c的代数和，D(ab)代表两个错配碱基a与b的相对位置之差，D(bc)代表两个错配碱基b与c的相对位置之差，D(ac)代表两个错配碱基a与c的相对位置之差；

当n＝3时，若S(ab)×D(ab)<S(bc)×D(bc)，公式则变为：

若S(ab)×D(ab)>S(bc)×D(bc)，公式则变为：

所有reads按照打分从低到高排序，将分数低的前10万条reads作为候选序列，即打分通过的candidate reads；

⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。

5.根据权利要求1-4任一项所述的方法，其特征在于，包括以下步骤：

(1)利用已公布物种的全基因组序列及基因注释信息，获取基因组中具有5’-Nx-NGG-3’序列的区段，作为CRISPR-Cas9系统sgRNA的候选靶点；其中，x为20，N代表碱基A、T、G或C；

(2)将基因组打断成20bp的片段并筛选以NGG结尾的，且在基因组上无重复的序列；

(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对，根据错配信息及评选公式对相应的优选序列进行筛选及排序，获取最优的全基因组sgRNA作用靶点集合；

其中，步骤(1)中筛选符合条件的候选靶点序列的要求是：i.靶点必须落在基因的CDS区内，即起始密码子之后；ii.尽可能靠近基因的5’端；iii.优选地，每个基因提取两个外显子，具体步骤为：以转录本为单位，从基因组注释文件中获取转录本、基因ID，CDS、外显子区的起始和终止位置以及染色体号相关信息，以每个转录本的起始密码子所在位置为标准，提取其后两个外显子的始末位置，若起始密码子后只有一个外显子，则只取一个，得到候选外显子的始末位置后，利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息，保留作为外显子NGG候选靶点序列；

步骤(2)中筛选中符合条件的序列的具体步骤为：首先用jellyfish 软件将基因组打断成20bp的片段，考虑到正负链不同，分别筛选正链以NGG结尾和负链以CCN开头的序列，保留作为基因组NGG候选靶点序列；由于利用jellyfish软件将基因组打断成20bp的片段后没有位置信息，因此需利用bowtie软件比对找回上述20bp片段所在基因组中的位置；

步骤(3)中比对的具体步骤为：

iv.将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对，将自比的结果过滤掉；

v.筛选在步骤①过滤后的比对结果中，外显子NGG候选靶点在基因组中没有比对结果的序列，这些外显子NGG靶点在基因组中是唯一的，这些靶点序列作为最佳候选靶点序列优先被提取出来，标注为unique reads；

vi.筛选在步骤①过滤后的比对结果中，外显子NGG候选靶点在基因组中有比对结果的序列，若出现错配0个碱基或错配1个碱基，表明这些序列在基因组中有重复序列存在，将这些靶点序列全部删除；

vii.筛选在步骤①过滤后的比对结果中，外显子NGG候选靶点在基因组中有比对结果的序列，若出现错配2个碱基或错配3个碱基，将这些靶点序列标注为candidate reads，这些reads的所有比对结果通过公式进行打分，打分公式如下：

当n＝3时，若S(ab)×D(ab)<S(bc)×D(bc)，公式则变为：

若S(ab)×D(ab)>S(bc)×D(bc)，公式则变为：

所有reads按照打分从低到高排序，将分数低的前10万条reads作为候选序列，即打分通过的candidate reads；

viii.步骤v.的unique reads和步骤vii.打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。

6.根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点在构建基因敲除突变体文库或基因敲除动物模型中的应用。

7.一种基因芯片，其特征在于，所述芯片含有根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。

8.筛选CRISPR-Cas9系统sgRNA作用靶点的装置，其特征在于，包括以下模块：

A.全基因组外显子序列提取模块：用于权利要求1-5任一项所述方法步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段；

B.外显子NGG序列优选模块：用于权利要求1-5任一项所述方法步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查；

C.基因组序列打断比对模块：用于权利要求1-5任一项所述方法步骤(2)中将全基因组序列打断成相应大小的片段，并比对进行位置锚定；

D.外显子NGG候选序列与基因组NGG候选序列比对模块：用于权利要求1-5任一项所述方法步骤(3)中外显子NGG候选序列与基因组NGG候选序列之间的比对；

E.候选sgRNA靶点序列打分模块：用于权利要求1-5任一项所述方法步骤(3)中所有候选序列的评估排序。

完整全部详细技术资料下载

当前第2页1 2 3