CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置与流程

文档序号:12669623阅读:来源:国知局

技术特征:

1.CRISPR-Cas9系统sgRNA作用靶点的筛选方法,其特征在于,包括以下步骤:

(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;

(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;

(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。

2.根据权利要求1所述的方法,其特征在于,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端;③优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列。

3.根据权利要求1所述的方法,其特征在于,步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位 置。

4.根据权利要求1所述的方法,其特征在于,步骤(3)中比对的具体步骤为:

①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;

②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;

③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;

④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:

<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>M</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <mrow> <mo>(</mo> <mi>S</mi> <mo>(</mo> <mrow> <mi>a</mi> <mi>b</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>a</mi> <mi>b</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>S</mi> <mo>(</mo> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>}</mo> <mo>&times;</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mi>o</mi> <mi>r</mi> <mi> </mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>3</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;

当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:

<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mo>&lsqb;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow>

若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:

<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mo>&lsqb;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow>

所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;

⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。

5.根据权利要求1-4任一项所述的方法,其特征在于,包括以下步骤:

(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为20,N代表碱基A、T、G或C;

(2)将基因组打断成20bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;

(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合;

其中,步骤(1)中筛选符合条件的候选靶点序列的要求是:i.靶点必须落在基因的CDS区内,即起始密码子之后;ii.尽可能靠近基因的5’端;iii.优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位,从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列;

步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish 软件将基因组打断成20bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成20bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述20bp片段所在基因组中的位置;

步骤(3)中比对的具体步骤为:

iv.将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将自比的结果过滤掉;

v.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;

vi.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;

vii.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:

<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>2</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>M</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <mrow> <mo>(</mo> <mi>S</mi> <mo>(</mo> <mrow> <mi>a</mi> <mi>b</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>a</mi> <mi>b</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>S</mi> <mo>(</mo> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>}</mo> <mo>&times;</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mi>o</mi> <mi>r</mi> <mi> </mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>=</mo> <mn>3</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;

当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:

<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mo>&lsqb;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>b</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow>

若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:

<mrow> <mi>M</mi> <mi>S</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mi>arg</mi> <mi>e</mi> <mi>t</mi> <mi>s</mi> </mrow> </munder> <mo>&lsqb;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mfrac> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>a</mi> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow>

所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;

viii.步骤v.的unique reads和步骤vii.打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。

6.根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点在构建基因敲除突变体文库或基因敲除动物模型中的应用。

7.一种基因芯片,其特征在于,所述芯片含有根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。

8.筛选CRISPR-Cas9系统sgRNA作用靶点的装置,其特征在于,包括以下模块:

A.全基因组外显子序列提取模块:用于权利要求1-5任一项所述方法步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段;

B.外显子NGG序列优选模块:用于权利要求1-5任一项所述方法步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查;

C.基因组序列打断比对模块:用于权利要求1-5任一项所述方法步骤(2)中将全基因组序列打断成相应大小的片段,并比对进行位置锚定;

D.外显子NGG候选序列与基因组NGG候选序列比对模块:用于权利要求1-5任一项所述方法步骤(3)中外显子NGG候选序列与基因 组NGG候选序列之间的比对;

E.候选sgRNA靶点序列打分模块:用于权利要求1-5任一项所述方法步骤(3)中所有候选序列的评估排序。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1