1.CRISPR-Cas9系统sgRNA作用靶点的筛选方法,其特征在于,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;
(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端;③优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位 置。
4.根据权利要求1所述的方法,其特征在于,步骤(3)中比对的具体步骤为:
①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;
②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;
⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。
5.根据权利要求1-4任一项所述的方法,其特征在于,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为20,N代表碱基A、T、G或C;
(2)将基因组打断成20bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合;
其中,步骤(1)中筛选符合条件的候选靶点序列的要求是:i.靶点必须落在基因的CDS区内,即起始密码子之后;ii.尽可能靠近基因的5’端;iii.优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位,从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列;
步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish 软件将基因组打断成20bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成20bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述20bp片段所在基因组中的位置;
步骤(3)中比对的具体步骤为:
iv.将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将自比的结果过滤掉;
v.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
vi.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
vii.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;
viii.步骤v.的unique reads和步骤vii.打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。
6.根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点在构建基因敲除突变体文库或基因敲除动物模型中的应用。
7.一种基因芯片,其特征在于,所述芯片含有根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。
8.筛选CRISPR-Cas9系统sgRNA作用靶点的装置,其特征在于,包括以下模块:
A.全基因组外显子序列提取模块:用于权利要求1-5任一项所述方法步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段;
B.外显子NGG序列优选模块:用于权利要求1-5任一项所述方法步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查;
C.基因组序列打断比对模块:用于权利要求1-5任一项所述方法步骤(2)中将全基因组序列打断成相应大小的片段,并比对进行位置锚定;
D.外显子NGG候选序列与基因组NGG候选序列比对模块:用于权利要求1-5任一项所述方法步骤(3)中外显子NGG候选序列与基因 组NGG候选序列之间的比对;
E.候选sgRNA靶点序列打分模块:用于权利要求1-5任一项所述方法步骤(3)中所有候选序列的评估排序。