一种限定性模体的发现方法

文档序号:9327190阅读:402来源:国知局
一种限定性模体的发现方法
【技术领域】
[0001] 本发明涉及生物信息技术领域,尤其涉及一种限定性模体的发现方法。
【背景技术】
[0002] 模体(Motif)是指一组序列中局部的保守区域,或者是一组序列中共有的一小段 序列模式。更多的时候是指有可能具有与分子功能、结构性质或家族成员相关的任何序列 模式,其主要存在于蛋白质、DNA、RNA等序列中。模体的发现对研究基因表达意义重大,是后 基因时代生物信息学中的一个主要研究方向。目前模体发现问题研究主要集中于转录因子 结合位点,即在DNA序列中具有特定功能并且保守的序列片段。而对限制性内切酶结合位 点的发现问题同样是模体发现研究领域中的一个重要研究点。与前者不同,后者则是加入 了一些限定条件。限制性内切酶结合位点挖掘问题是指给定正例和反例核苷酸序列集合, 并指定模式P,要求找到符合模式P的模体m,且只在正例序列集合中有模体实例存在,而在 反例序列集合中不能出现模体m的实例。在这个过程中核苷酸序列的反向互补序列也要考 虑进去,因此这类问题可以看作是一种带有限定性条件的模体发现问题。此类带限定性条 件的模体的发现可以推断出新的限制性内切酶,进而可以针对不同外源DNA使用相应的内 切酶破坏其DNA结构以限制其侵入,从而起到了保护细胞原有的遗传信息的作用。
[0003] 虽然目前在转录因子结合位点研究领域已经出现了很多算法和相应的软件,如 MEME、AlignACE、Gibbs Sampler、PMS系列等。这些算法中,多数算法及其改进算法可以很 好地解决模体发现问题,但这些算法并不能直接用于寻找带有限定性的模体发现问题。

【发明内容】

[0004] 针对上述缺陷或不足,本发明的目的在于提供一种限定性模体的发现方法,能够 获取带有限定性的模体。
[0005] 为达到以上目的,本发明的技术方案为:
[0006] -种限定性模体的发现方法,包括以下步骤:
[0007] 1)构建字典表,所述字典表用以存储指定模式P的所有模式实例;
[0008] 2)在字典列中以字典顺序列出指定模式P的所有实例集合I = U1-InI,其中,I1 为模体实例;
[0009] 3)对每个模体实例I1Q彡i彡N)与待检测的核苷酸序列进行比较验证,若第i 个实例满足只出现在待检测的核苷酸正例序列集合中,而不出现在反例序列集合中,则该 实例作为最终所要得到的模体输出。
[0010] 所述对每个模体实例^与待检测的正例和反例核苷酸序列进行比较验证时,分别 设置针对正例和反例不同的比例阈值,以使得在正例序列集合中有大于或等于正例比例阈 值的序列包含符合实例1的Ι-mer,而在反例序列集合中有小于或等于反例比例阈值的序 列包含该实例1的Ι-mer,则I #卩为符合条件的模体。
[0011] 所述步骤1)的具体过程为:
[0012] I. I、构建字典表,字典表的每行对应指定模式P的一个模式实例;
[0013] 1.2、对字典表中每一个模式实例设置一个指针,所述指针指向一个倒排索引表, 所述倒排索引表存储了所有符合项该模式实例的序列。
[0014] 所述步骤3)具体包括:
[0015] 3. 1、设核苷酸的序列的长度为m,指定模式P的长度为1,所述核苷酸序列中正 向序列包含m-1+l个Ι-mer,考虑到给定核苷酸序列的双链结构,所述核苷酸序列包含的 1-mer 数为 2*(m_l+l)个;
[0016] 3. 2、设序列集合 Sp= {SP1~SPn},其中一条序列 Spi对应 2*(mi-l+l)个 l-mer,MPl =(I11,…}为Spi包含的模式P的实例集合,且反例序列集合S N= {S N1~SNn},序列SNj包 含的1-mer数为2*( mj-l+l)个,其中MNj= {I η,···}为SNj中包含的模式P的实例集合;
[0017] 3. 3、设给定序列集合Sp= {SP1···SPn}和Sn= {S νΓ·· SNn},运行后找到符合模式P的 模体集合为M = (ΜΡ1 η…n M J - (MniU…UMJ。
[0018] 所述步骤3)后还包括步骤4):
[0019] 应用打分函数对所获得的模体进行评分,找到得分最高的模体,并将其输出。
[0020] 所述评分过程中设置highestscore和motif两个参数,分别表示进程得到的最优 模体及其相对熵分数,在最后的输出过程中输出所有结果中得分最高的模体。
[0021] 与现有技术比较,本发明的有益效果为:
[0022] 本发明提供了一种限定性模体的发现方法,针对正反例问题和指定模式P问题, 采用倒排索引算法。首先构造字典列表,并针对字典中的每一项列出其在输入序列中的位 置信,以简单的方法解决了限定性模体发现问题。最后的实验证明,在合理的时间内,倒排 索引算法总是可以找到所有满足条件的模体,从而保证了算法的有效性。该方法计算方便, 准确性高,从所得到的具有限定性的模体可以推断出新的限制性内切酶,进而可以针对不 同外源DNA使用相应的内切酶破坏其DNA结构以限制其侵入,从而起到了保护细胞原有的 遗传信息的作用。
【附图说明】
[0023] 图1是本发明的限定性模体的发现方法流程框图;
[0024] 图2是本发明的模式NNN :5 :NNNXN的倒排索引列结构图;
[0025] 图3是本发明的不同植入实例下的三种算法正确率图;
[0026] 图4是本发明的不同植入实例情况下的三种算法运行时间图。
【具体实施方式】:
[0027] 下面结合附图对本发明做详细描述。
[0028] 实施例一
[0029] 限制性内切酶在DNA序列的酶切位点通常包含三部分,即头部(3-4个核苷酸),主 体部分(4-8个核苷酸),尾部(3-5个核苷酸)。一般输入模式为NNN :4 :NNXNNN,NNNN :3 : XNNNN等。输入的模式P统一表示表示如下:
[0030] PATTERN := HEAD' : ' BODY' : ' TAIL
[0031] HEAD := [3-4]*r Nr
[0032] BODY : = [4-8]
[0033] TAIL := [3-5]*Γ Ν' I ' X')
[0034] 模式P对应的模式实例如下:
个基本类型核苷酸,I ? TAIL-INSTANCE 包含长度为|P. TAI」个IUPAC类型核苷酸,并且Ι._γ ^?_部分核苷酸数等于?.《^声明的核苷酸数,则有实例"是指定模式?的实例。其 中'、' C、' 、' Iw四个字符代表基本类型字符,其他的IUPAC通配符则包 括,R,、,Υ,、,S,、,r、,r、,Μ,、,Β,、,D,、,Η,、,V,等, 也称为退化的基本类型字符,其中^ N'为不确定的基本类型核苷酸代码。IUPAC通配符表 如表1所示。
[0042] 表1 IUPAC通配符
[0043]
[0044] 识别出来的模体可以分为三部分,即头部,主体部分,尾部。头部为包含3-4个基 础核苷酸字符,主体部分可以是任何核苷酸,长度为4-8,尾部包括3-5个IUPAC核苷酸字 符,字符X对应于一个IUPAC核苷酸字符。例如,识别模式NNN :4 :XNNNN代表此模式头部长 度为3,主体长度为4,尾部长度为5,且尾部的第一个字符为IUPAC核苷酸字符。
[0045] 如图1所示,本发明提供了一种限定性模体的发现方法,包括以下步骤:
[0046] 1)构建字典表,所述字典表中以字典顺序存储指定模式P的所有模式实例;
[0047] 所述步骤1)的具体过程为:
[0048] 1. 1、构建字典表,字典表的每行对应指定模式P的一个模式实例;
[0049] 1.2、对字典表中每一个模式实例设置一个指针,所述指针指向一个倒排索引表, 所述倒排索引表存储了所有符合该项模式实例的序列。
[0050] 为了提高算法的运行效率,首先构建一个字典表,里面以字典顺序存储了模式P 的所有模式实例,字典表的每行对应模式P的一个模式实例。例如,图2中字典表显示了指 定模式"NNN:5 :NNNXN" 的其中两个实例:"CCANNNNNTTTAA" 和"TTGNNNNNACCRG"。接下
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1