筛选siRNA序列以降低脱靶效应的方法及系统与流程

文档序号:35664898发布日期:2023-10-06 20:09阅读:102来源:国知局
筛选siRNA序列以降低脱靶效应的方法及系统与流程

本发明涉及sirna序列筛选生物信息,尤其涉及筛选sirna序列以降低脱靶效应的方法及系统。


背景技术:

1、rna干扰(sirna)是自然界普遍存在的导致目标mrna降解的生物现象。以sirna为基础的基因沉默已经成为功能基因分析的高效工具,有试验结果表明,反义rna通过与mrna序列互补结合,抑制了基因的表达。sirna的沉默作用非常强大,在细胞中1~3个双链sirna就可以介导基因沉默。sirna是由dicer酶剪切双链rna(dsrna)产生的,并可与酶复合物结合成rna-induced silencing complex(risc),双链、irna解旋成单链,然后通过其反义链与目标mrna结合,促进目标mrna的酶性降解。sirna成功的关键取决于sirna和mrnas有效地相互作用,因此设计高效特异的sirna成为sirna应用过程中极具挑战性问题。目前,已有许多高效sirna的设计网站,但是对sirna的高效性起决定作用的特征参数并不是很清楚。sirna与mrna之间复杂的作用机制决定了sirna序列中各个位置的碱基必然有一定的偏好胜,然而现有的sirna设计规则存在很多的不一致,这些规则的机制也并不完全清楚,从而导致了现有的sirna设计不能很好抑制靶基因的表达,影响了sirna技术的发展。多项研究已经证明,这些规则并不是完全适用于所有的靶基因,对于不同的目标基因来说,它们的价值不同,这就需要对现有的sirna设计规则进行重新认识,并进一步优化,以减少由于设计规则的不一致性带来的影响。

2、大量生物试验表明,结合在同一mrna不同靶点的sirna具有不同的沉默效率。鉴于通过生物实验的方式寻找mrna上合适的sirna结合靶点效率高、免于脱靶或者脱靶率低、成本高、周期长、干扰因素多,借助计算机技术预测mrna上合适的sirna结合靶点具有显著意义。早期,sirna沉默mrna的靶点预测主要依据研究人员观察sirna结合mrna靶点样本上各种碱基出现的频次,效率较低,也难以得到最优结果。随着sirna结合mrna靶点样本的增加以及机器学习方法的兴起,通过提取sirna结合mrna靶点的碱基序列特征,再利用大样本数据训练预测模型,大幅提高了sirna沉默mrna的靶点预测效率和准确性。但是,现有的预测模型仅考虑sirna结合mrna靶点的碱基序列特征,并没有考虑结合mrna靶点处的rna二级结构特征,导致预测效果仍不能令人满意。


技术实现思路

1、为解决或缓解上述部分技术问题,因此,本发明提出一种新的筛选sirna序列以降低脱靶效应的方法及系统。该方法采用了全新的机器学习模型和训练方法,对候选sirna进行筛选评分,更加评分最高者筛选得到最合适的sirna。采用该方法及系统不仅筛选效率、精确度、敏感度、特异性和mcc值均显著高于对比例,并且不存在训练多度的情况发生;并且几乎可以免于sirna对靶mrna的脱靶效应产生,对将来sirna干扰效率预测领域有重要参考价值。为此,本发明提供了以下技术方案:

2、第一方面,本发明提供了一种获得免于脱靶mirna的sirna序列筛选方法,其特征在于,包括:

3、s100、获取sirna候选序列数据;

4、s200、根据sirna候选序列数据提取特征数据,并将特征数据组成训练集和测试集;所述特征数据包括各sirna候选序列对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;

5、s300、根据序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据构建机器学习模型;

6、s400、利用训练集对机器学习模型进行训练,并得到sirna序列筛选模型;

7、s500、提取测试集中的特征向量,输入sirna序列筛选模型,其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量;以及

8、s600、根据分别得到筛选评分筛选对mrna中靶效果最优的sirna并输出数据,输出数据包括最优sirna的序列数据、特征值和筛选评分;其中,筛选评分最高者,即为最优sirna。

9、进一步的,所述sirna候选序列包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的sirna;所述训练集包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的sirna对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。

10、进一步的,所述序列特征包括g/c含量、u-t1、u-t2、u-t3、u-t4、a、n、(g-c)%、(a-u)%、(g+c)%和(a+u)%,所述二级结构特征包括氢键系数,所述热力学特征包括δgm、δgs、δgd、p、w和m。

11、进一步的,g/c含量的特征提取方法为候选sirna中g和c分别占的百分比例;

12、u-t1的特征提取方法为判断反义链5’端是否为a/u,若是则特征值为1,否则为0;

13、u-t2的特征提取方法为判断正义链5’端是否为g/c,若是则特征值为1,否则为0;

14、u-t3的特征提取方法为判断是否在反义链5’末端1/3区富含au,若是则特征值为1,否则为0;

15、u-t4的特征提取方法为判断是否存在连续超过9位的gc区,若是则特征值为1,否则为0;

16、a的特征提取方法为判断是否同时满足u-t1/u-t2/u-t3/u-t4,若是则特征值为1,否则为0;

17、n的特征提取方法为判断是否同时不满足u-t1/u-t2/u-t3/u-t4,若是则特征值为1,否则为0;

18、(g-c)%的特征提取方法为计算100×(g%-c%)/(g%+c%);

19、(a-u)%的特征提取方法为计算100×(a%-u%)/(a%+u%);

20、(g+c)%的特征提取方法为计算g%+c%;

21、(a+u)%的特征提取方法为计算a%+u%。

22、进一步的,氢键系数的特征提取方法包括采用如下公式的进行计算:

23、

24、在此公式中,i表示sirna所对应的靶sirna区域中的核苷酸序数,ph-bond是第i个核苷酸与同一条mrna中其他核苷酸形成氢键的可能性。

25、进一步的,δgm的特征提取方法为计算打开靶标mrna结合位点的能量;

26、δgs的特征提取方法为计算打开sirna的能量;

27、δgd的特征提取方法为计算sirna与mrna结合释放的能量(单位为kcal/mol)

28、p的特征提取方法为计算判断自第一个与sirna结合碱基的位置,从mrna5’端起的长度与mrna长度的商;

29、w的特征提取方法为计算靶标mrna形成二级结构未发生互补配体的个数;

30、m的特征提取方法为计算靶标mrna形成二级结构所释放的能量。

31、进一步的,所述机器学习模型为

32、

33、其中,s为针对某一靶标mrna的某一sirna的筛选评分;m为针对某一靶标mrna的上述全部候选sirna的数量;n为特征数量;t1为针对某一靶标mrna的sirna序列特征值,t2为针对某一靶标mrna的二级结构特征值,t3为针对某一靶标mrna的热力学特征值;p、q和j为模型参数。

34、进一步的,所述步骤s400具体包括:

35、s401、获取所述训练集后,提取每一训练样本中的序列特征值、二级结构特征值和热动力学特征值,分别形成对应的特征向量;

36、s402、使用所述机器学习模型对训练样本中的这些特征进行训练,使用10倍交叉验证来确认所述机器学习模型的最优参数;

37、s403、根据确定的所述最优参数,建立所述sirna序列筛选模型。

38、第二方面,本发明提供了一种获得免于脱靶mirna的sirna序列筛选装置,包括:

39、输入单元,用于接收sirna候选序列数据;

40、存储单元,用于存储sirna候选序列的sirna筛选模型的程序以及sirna候选序列的特征数据;所述sirna候选序列的特征数据包括各种sirna序列数据对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;

41、运算单元,利用程序对sirna候选序列进行扫描;

42、输出单元,输出sirna候选序列分析结果的装置。

43、第三方面,本发明提供了一种获得免于脱靶mirna的sirna序列筛选的系统,包括第二方面所述的筛选装置;

44、数据库,用于存储sirna数据集,所述sirna数据集包括各编码的mrna的已知sirna序列数据、沉默数据、试验数据及临床信息数据;以及

45、学习装置,确定机器学习模型的最优参数。

46、本发明提供的获得免于脱靶mirna的sirna序列筛选方法、装置及系统的更多技术效果将在实施例中具体阐述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1