探针设计方法及其装置与流程

文档序号:34062847发布日期:2023-05-06 13:17阅读:80来源:国知局
探针设计方法及其装置与流程

本发明涉及分子生物学检测领域,具体涉及一种基于动态选择进行探针设计的装置和方法。


背景技术:

1、核酸分子杂交是分子生物学领域常用的基础技术之一。在理想的实验条件下,核酸分子杂交可以改良成非常有效且敏感的用于检测目标分子的手段。比如,经典的pcr方法可以在百万级别的非目标序列背景中扩增出仅有一个拷贝的目标分子序列。

2、基因(dna)芯片是另一种核酸分子杂交技术。由于它能够通过高通量的方式来监控所有基因的表达情况,因此基因芯片在生物学和医学领域迅速流行起来。核酸分子杂交技术的特异性依赖于引物(或探针)与目标片段的杂交结合,非特异性杂交一方面会浪费有效数据量从而增加实验成本,另一方面也会让研究者得出错误的结论。

3、因此,基于核酸分子杂交研发的芯片避免非特异性杂交是非常重要的,同时也是最难实现的。为了实现这一目的,已经存在一些对于核苷酸探针设计的参考规则,比如探针长度、gc含量、探针与靶标片段结合稳定性、探针二级结构等。

4、人类基因组相当复杂,具有编码功能的区域只占不到2%,其它98%的非编码区存在大量的重复序列,这些非编码区的序列构成简单且在全基因组范围内存在多处拷贝。如果选择的目标区域包含了这些非编码区,则设计出的探针将很难避免非特异性杂交。因此,亟需一种全新的探针设计方法。


技术实现思路

1、为了解决现有技术中存在的上述技术问题之一,本公开提供了一种新的探针设计方法,以及实现该方法的装置。

2、根据本公开的一个方面,提供了一种用于设计探针的方法,所述方法包括如下步骤:

3、(1)将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终止位置;

4、(2)获取每一个目标区域所对应的基因组序列;

5、(3)基于所述基因组的序列获得第一k1-mer序列集合并统计所述第一k1-mer序列的数目,基于一个或多个所述目标区域的序列获得第二k1-mer序列集合,并统计所述第二k1-mer序列集合中的各序列在所述基因组上出现的频数,其中k1选自10至20的整数;

6、(4)基于多个所述目标区域的序列获得k2-mer探针集合,其中k2为探针的长度;

7、(5)计算所述k2-mer探针集合中的每一探针的ud值,并且针对每一目标区域的探针,按照ud值从大到小进行排序,将ud值最大的探针确定为该目标区域的目的探针;

8、(6)重复n次步骤(5),筛选出针对每一目标区域的n个探针;

9、(7)计算获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。

10、通过本公开的方法,可以设计能捕获目标区域的最优的探针数据集合,最大程度上保证探针的特异性捕获。本公开的上述方法可以对给定的任意大小的目标区域进行探针设计。

11、通过本公开的方法获得的探针可用于dna微阵列(例如基因芯片)的探针设计。

12、根据本公开的另一方面,提供了一种dna微阵列,所述dna微阵列具有通过本公开的方法获得的探针。

13、根据本公开的又一方面,提供了一种设计探针的装置,所述装置包括:bed文件生成单元,用于将在基因组上的一个或多个目标区域整理成bed文件,每一个目标区域的bed文件包括该目标区域所在的染色体编号、该目标区域的起始位置和该目标区域的终止位置;基因组序列获取单元,用于获取每一个目标区域所对应的基因组序列;第一k-mer序列生成单元,用于基于多个所述基因组的序列获得第一k1-mer序列集合并统计所述第一k1-mer序列集合中的k1-mer序列的数目,基于多个所述目标区域的序列获得第二k1-mer序列集合并统计所述第二k1-mer序列集合中的各k1-mer序列在所述基因组上出现的频数,其中k1为10至20的整数;第二k-mer序列生成单元,用于基于多个所述目标区域的序列获得k2-mer探针数据集,其中k2为探针的长度;探针筛选单元,用于计算所述k2-mer探针数据集合中的每一探针的ud值,并按照ud值从大到小,对所述k2-mer探针数据集中的针对每一目标区域的探针进行排序,ud值最大的探针确定为该目标区域的目的探针,重复n次,筛选出针对每一目标区域的n个探针;同源性计算单元,用于计算获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。

14、根据本发明的又一方面,提供了一种设备,其包括存储器,用于存储程序;和,处理器,用于通过执行所述存储器存储的程序以实现本公开的方法。

15、根据本发明的又一方面,提供了一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被执行以实现本公开的方法。



技术特征:

1.一种用于设计探针的方法,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,在步骤(1)中,如果两个目标区域之间的距离≤50bp,则将该两个目标区域合并为一个目标区域。

3.根据权利要求1所述的方法,其特征在于,在步骤(2)中,从基因组文件获取每一个目标区域两侧各延伸10至30bp所对应的基因组序列,优选地,从基因组文件获取每一个目标区域两侧各延伸20bp所对应的基因组序列。

4.根据权利要求1所述的方法,其特征在于,在步骤(3)中,将所述第一k1-mer序列集合和所述第二k1-mer序列集合的信息保存到字典中,

5.根据权利要求1所述的方法,其特征在于,在步骤(4)中,遍历一个或多个所述目标区域的序列,按照1bp的步长打成指定的探针长度,

6.根据权利要求1所述的方法,其特征在于,在步骤(5)中,遍历所述k2-mer探针数据集合中的探针集合,获得第三k1-mer序列集合,

7.根据权利要求1所述的方法,其特征在于,步骤(5)还包括计算每一探针的ua、发夹结构、二聚体和/或gc55的数值,并且针对每一目标区域的探针,按照ud值从大到小、ua值从小到大、发夹结构值从小到大和/或二聚体值从小到大进行排序,选择排名第一位的探针作为目的探针;

8.根据权利要求1所述的方法,其特征在于,在步骤(6)中,针对每一目标区域的n个探针中,两个位置相邻的探针的末端彼此重叠,优选地重叠5~20bp。

9.根据权利要求1所述的方法,其特征在于,在步骤(7)中,计算步骤(5)和步骤(6)获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合。

10.根据权利要求1所述的方法,其特征在于,在步骤(7)之前或者之后,所述方法还包括以下步骤:将步骤(5)和步骤(6)获得的探针的序列与基因组上的非目标区域的序列进行对比,当探针的序列与所述非目标区域的序列不存在连续15个或更多核苷酸的相同序列,则保留该探针。

11.一种dna微阵列,其特征在于,所述dna微阵列具有通过权利要求1至10中任一项所述的方法获得的探针。

12.一种用于设计探针的装置,其特征在于,所述装置包括:

13.根据权利要求12所述的装置,其特征在于,在所述bed文件生成单元中,如果两个目标区域之间的距离小于50bp,则将该两个目标区域合并为一个目标区域。

14.根据权利要求12所述的装置,其特征在于,所述基因组序列获取单元从基因组文件获取每一个目标区域两侧各延伸10至30bp所对应的基因组序列,优选地,从基因组文件获取每一个目标区域两侧各延伸15至25bp所对应的基因组序列。

15.根据权利要求12所述的装置,其特征在于,所述第一k-mer序列生成单元将所述第一k1-mer序列集合和所述第二k1-mer序列集合的信息保存到字典中,

16.根据权利要求12所述的装置,其特征在于,所述第二k-mer序列生成单元遍历一个或多个所述目标区域的序列,按照1bp的步长打成指定的探针长度,

17.根据权利要求12所述的装置,其特征在于,所述探针筛选单元用于遍历所述k2-mer探针数据集合中的探针,获得第三k1-mer序列集合,

18.根据权利要求12所述的装置,其特征在于,所述探针筛选单元还包括ua值计算模块、发夹结构计算模块、二聚体值计算模块和/或gc55值计算模块;

19.根据权利要求12所述的装置,其特征在于,所述第一探针筛选单元在重复筛选步骤时,基于一个确定的目的探针的末端位置,以1bp的步长遍历所述k2-mer探针数据集合,计算与该确定的目的探针的末端位置重叠5~20bp的探针数据集合中每一探针的ud值,将ud值最大的探针确定为目的探针。

20.根据权利要求12所述的装置,其特征在于,所述同源性计算单元用于计算步骤(5)和步骤(6)获得的探针与所述基因组的序列的同源性,获得每一探针与所述基因组的序列的同源性≥75%的次数,选择所述次数≤5的探针生成探针数据集合,

21.根据权利要求12所述的装置,其特征在于,所述装置还包括比对单元,用于将所述探针筛选单元获得的探针的序列与基因组上的非目标区域的序列进行对比,当探针的序列与所述非目标区域的序列不存在连续15个或更多核苷酸的相同序列,则保留该探针。

22.一种设备,其特征在于,所述设备包括:

23.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被执行以实现权利要求1至10中任一项所述的方法。


技术总结
本公开提供了用于设计探针的方法及其装置。本公开的设计探针的方法包括:将在基因组上的一个或多个目标区域整理成bed文件;获取每一个目标区域所对应的基因组序列;分别基于基因组和目标区域的序列获得k‑mer序列集合;基于目标区域的序列获得探针数据集合;计算探针数据集合中的每一探针的Ud值,并且按照Ud值确定为该目标区域的目的探针;筛选探针与基因组的同源性,进一步筛选探针数据集合。

技术研发人员:任重敢,吴德伦,李自昕,卢昊
受保护的技术使用者:深圳吉因加医学检验实验室
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1