一种寻找基因组中锌指蛋白靶标位点的方法与流程

文档序号:15118048发布日期:2018-08-07 22:00阅读:1264来源:国知局

本发明属于基因工程技术领域。更具体地,涉及一种寻找基因组中锌指蛋白靶标位点的新方法。



背景技术:

锌指核酸酶(zinc finger nuclease,ZFN)主要由锌指蛋白和核酸酶组成,通过锌指蛋白和特定DNA位点结合,从而将核酸酶带入该部位,对附近的DNA链进行酶解切割,从而可达到诱导DNA特定位点的双链断裂,大大提高同源重组的发生概率等。该技术因其具有高效和特异性的特点而受到广泛关注和研究,已经在多种物种(如果蝇、线虫、斑马鱼、大鼠等)中得到应用。近年来已经有多篇研究成果在Nature,Science,Nature Biotechnology等杂志上发表。

而构建锌指核酸酶的最重要的一步就是基因组中锌指蛋白靶标位点的寻找。目前,寻找基因组中锌指蛋白靶标位点的通常做法是根据ZINC FINGER CONSORTIUM网站上的ZiFiT Targeter软件来寻找。

但是,通过上述这种方法寻找获得的靶标位点与据此构建的锌指蛋白结合率多数低于2,还需要花费大量的时间和精力去筛选那些结合率大于2的可以有效应用的锌指蛋白。



技术实现要素:

本发明要解决的技术问题是克服现有技术中基因组锌指蛋白靶标位点寻找方法的缺陷和不足,提供一种基因组中锌指蛋白靶标位点设计的具体方法及应用,即寻找基因组中锌指蛋白靶标位点的新方法,与传统方法相比,以此方法构建的锌指蛋白则不需要检测筛选就可直接应用,大大简化了实验程序,节约成本,提高效率。

本发明的目的是提供一种寻找基因组中锌指蛋白靶标位点的新方法。

本发明另一目的是提供上述新方法的应用。

本发明上述目的通过以下技术方案实现:

一种寻找基因组中锌指蛋白靶标位点的新方法,包括如下步骤:

S1.将能与锌指蛋白结合且结合率大于2的所有9个核苷酸序列建成一个库;

S2.设计软件程序,利用该程序在目标基因组的双链中寻找每隔一段距离存在的与步骤S1所述库中对应的9个核苷酸序列匹配的位点,即得到相应的锌指蛋白靶标位点。

其中,步骤S1所述的所有9个核苷酸序列共有103个,其序列具体如下:GCAGCAGGA、GCTGCTGCT、GAAGAAGCT、GGGGAAGAA、GAAGTTGAG、GGTGCTGTG、GGTGCTGCC、GGAGGAGGT、GCGGCTGGG、GCCGCTGGG、GCAGCGGCA、GCAGATCTA、GCAGATCGC、GCAGCAGAG、GCGGCTGGG、GAAGCAGCA、GGGGTAGCG、GAAGGTGTG、TTGGTGGGA、GGGGGAGGG、GGGGCGGGC、GGGGAAGAG、GGGGAAGAA、GTCGGGGTA、GGGGACGTC、GGAGGGGCT、GGGGTGGCT、GGGGCTGCC、GGAGGAGGT、GCAGGAGGT、GGCGGAGAT、GATGGAGTT、GGGGAGGAG、GGAGGTGGT、GGAGGCGCG、GGAGCGGGT、GGAGCGGTG、GGTGAAGCT、GGTGCTGCC、GGCGGAGAT、GGCGTGGGA、GGCGCCGTG、GAGGAGGAG、GAGGACGGC、GAGGACGTG、GAGGTGGGC、GCTGTTGAG、GAGGCTGAT、GAGGCTGTG、GAGTGAGGA、GAGTTTGCC、GAAGATGGT、GAAGACGCT、GAAGTGGTC、GATGGAGTT、GATGGTGGG、GATGAAGCT、GATGATGGG、GATGCTGCA、GACGACGGC、GACGTGGTA、GACGCTGCT、GTGGGCGCC、GTGGATGAG、GTGGACGCG、GTGGTGGTG、GTGGCGGAT、GTGGCTGGT、GTGTAGGGG、GTAGAGGAT、GTAGATGGA、GTAGTAGCT、GTAGTTGGC、GTTGAGGGT、GTTGCGGCC、GTCGATGCC、GTCGCAGCC、GCGGTGGGA、GCGGTGGGT、GCGGTAGGC、GCGGCGGAC、GCGTGGGCG、GCAGAAGCC、GCAGTGGCG、GCAGTCGGC、GCAGTCGAC、GCAGTCGCT、GCAGCGGGC、GCAGCCGGA、GCTGACGTG、GCTGCTGCT、GCTGCTGCC、GCCGGTGGC、GCCGGCGGA、GCCGGCGGC、GCCGAGGTG、GCCGTCGCC、GCCGCAGTG、GCCGCCGGC、TAGGGAGCG、TCTGGCGCT、TGGGAGTCT、TTATGGGAG。

步骤S2是同时分别在目标基因组的双链中寻找每隔一段距离存在的与步骤S1所述库中对应的9个核苷酸序列匹配的位点。

优选地,步骤S2中所述的一段距离是指5~7个核苷酸的距离。

另外,步骤S2所述软件程序包括用户输入模块、序列载入和转换模块、数据处理模块、靶标搜索模块、搜索时间进度模块、结果输出模块。

具体地,所述用户输入模块是提示用户输入相关数据,所述相关数据是指:所有能与锌指蛋白结合且结合率大于2的9个核苷酸所组成的文件名,和所要寻找靶标序列的目标基因组文件名。

所述序列载入和转换模块是根据输入的文件名,将能与锌指蛋白结合且结合率大于2的所有9个核苷酸序列载入,并转换得到所有反向互补的相应序列。

所述数据处理模块是生成正向和反向motif的所有组合,并确保两个motif之间的碱基数目与用户设定的间距一致,为下一步的靶标搜索做好准备。

另外,具体地,上述新方法的具体操作方法流程如下:

1)编写上述的软件程序,提示用户输入相关数据;

2)收集能与9个核苷酸序列结合且结合率大于2的所有锌指蛋白基因信息,建成由相应的9个核苷酸序列所组成的库;

3)将步骤2)所述的库分别命名为正向和反向motif并储存;

4)储存待寻找锌指蛋白靶标位点的带有fasta格式的基因组或部分序列的文件;

5)规定锌指蛋白靶标位点的正向和反向motif之间的碱基距离数;

6)从motif文件中提取正向和反向motif,并将反向motif做反向互补处理;

7)分别从正向和反向motif中剔除重复的motif,生成正向和反向motif的所有组合,并确保两个motif之间的碱基数目与用户设定的间距一致;

8)运行perl子程序Motif_finder,它会调用bioperl模块,从用户输入的fasta序列中搜索以上生成的所有motif组合;

9)根据motif组合数目,调用Tk模块生成搜索进度条;

10)输出motif搜索结果到文件。

另外,上述新方法在寻找基因组中锌指蛋白靶标位点方面的应用,或在构建锌指蛋白中的应用,都应在本发明的保护范围之内。

本发明具有以下有益效果:

本发明提供了一种利用perl语言编写的程序,并结合bioperl模块等方法分析寻找特定基因组中的靶标位点的方法。首先将能与9个核苷酸序列结合且结合率大于2的所有锌指蛋白基因建成一个库,然后设计一个程序在基因组中寻找在双链中间隔一段距离存在的一对与库中对应的9个核苷酸序列。与传统方法相比,以此方法构建的锌指蛋白则不需要检测筛选就可直接应用,这样大大简化实验程序,节约成本,提高效率。

附图说明

图1为本发明寻找基因组中锌指蛋白靶标位点的新方法实施例的流程图。

图2为本发明寻找基因组中锌指蛋白靶标位点的新方法实施例的原理图。

图3为实施例1运行过程中的截图示例。

图4为实施例1运行过程中的截图示例。

具体实施方式

以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。

除非特别说明,以下实施例所用试剂和材料均为市购。

实施例1寻找家蚕部分基因组序列nscaf2681中的锌指蛋白靶标位点

1、寻找方法为:首先将能与锌指蛋白结合且结合率大于2的所有9个核苷酸序列(即能与9个核苷酸序列结合且结合率大于2的所有锌指蛋白基因)建成一个库;然后设计软件程序,利用该程序在目标基因组的双链中寻找每隔一段距离存在的与步骤S1所述库中对应的9个核苷酸序列匹配的位点,即得到相应的锌指蛋白靶标位点。

2、具体操作方法如下(运行系统需求:Windows系统):

(1)命名基因组序列nscaf2681为seqnscaf2681.txt;

(2)命名与锌指蛋白结合率大于2的所有9个核苷酸序列所组成的库的文件名为motifs.txt;

(3)设定锌指蛋白靶标位点的正向和反向motif之间的碱基距离数为6;

(4)程序运行命令Mptif_finder.exe

提示如下Enter your motif file name and fasta file name that contains all the primers and target sequences,specifically:

键入motifs.txt seqnscaf2681.txt,按enter键,则会出现如附图3所示窗口和提示,点击“Run”按钮,程序开始运行

(5)程序运行结束时出现如附图4所示窗口和提示,按任意键则退出程序。输出结果在OUTPUT.txt文件中。

3、打开OUTPUT.txt文件,输出结果如下:

nscaf2681寻找到一个匹配,从575569到575592:

CCCTCCCCCCTCGGCGGAGGTGGT。

nscaf2681寻找到一个匹配:从1552358到1552381

CGCGTCCACGAGCGCGCCGGTGGC。

4、以上结果表明,在家蚕nscaf2681基因组序列中找到了2个可用于构建锌指蛋白靶标位点的位置,分别为:

从碱基数575569到575592的CCCTCCCCCCTCGGCGGAGGTGGT,中间间隔为6;

从碱基数1552358到1552381的CGCGTCCACGAGCGCGCCGGTGGC,中间间隔为6。

实施例2寻找家蚕部分基因组序列nscaf1705中的锌指蛋白靶标位点

基本要求和流程同实施例1,系统需求:Windows系统。

具体操作方法如下:

(1)命名基因组序列nscaf2681为seqnscaf1705.txt

(2)命名与锌指蛋白结合率大于2的所有9个核苷酸序列所组成的库的文件名为motifs.txt

(3)设定锌指蛋白靶标位点的正向和反向motif之间的碱基距离数为7;

(4)程序运行命令Mptif_finder.exe

提示如下Enter your motif file name and fasta file name that contains all the primers and target sequences,specifically:

键入motifs.txt seqnscaf1705.txt,按enter键,点击Run按钮,程序开始运行;

(5)程序运行结束时按任意键则退出程序,输出结果在OUTPUT.txt文件中,打开OUTPUT.txt文件,输出结果如下:

nscaf1705寻找到一个匹配,从654027到654051:

TCCCTCCGCTCAAGTTGAAGACGCT。

表明在家蚕nscaf1705基因组序列中找到了1个可用于构建锌指蛋白靶标位点的位置,即从碱基数654027到654051的TCCCTCCGCTCAAGTTGAAGACGCT,中间间隔为7。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1