本说明书涉及计算机辅助药物分子设计领域,具体涉及一种基于机器学习和专家系统的小核酸药物筛选方法。
背景技术:
1、rna干扰(rna interference,rnai)是小干扰rna(small interfering rna,sirna)诱导序列特异性转录后基因沉默的机制,可用于功能基因组学与治疗应用。19-25个核苷酸长度的sirna抑制预期基因的表达,该基因的转录本与sirna引导链完全互补。因此,它的沉默效果被认为是非常具体的,能够用于制成小核酸药物。
2、小核酸药物的sirna序列的设计,传统的方法有两种,第一种,依据各种sirna数据库提供的数据资料,如mit、dsir、sidirect、ge sidesign center、block-it rnaidesigner等数据库,进行人工设计,然而存在的问题是数据量庞大,难以快速筛查出具有成药可能性的mrna;第二种,使用数百到数千条sirna平铺预期基因的mrna,再以细胞体外实验进行筛选,然而存在的问题是需要投入巨大的费用、人工,费时费力,延缓了小核酸药物的研发速度。
技术实现思路
1、鉴于现有技术存在的问题,本发明的目的在于提供一种基于机器学习和专家系统的小核酸药物筛选方法,利用计算机学习加快筛选速度,并且结合专家经验,减小计算机学习过程的误差,提高筛选结果的有效性和准确性。
2、本说明书实施例提供以下技术方案:
3、一种基于机器学习和专家系统的小核酸药物筛选方法,包括以下步骤:
4、获取mrna;
5、按照预设的长度剪切mrna,得到若干个sirna;
6、使用随机向量初始化每个sirna中的四种碱基;
7、将初始化后的全部sirna输入预设的卷积神经网络模型,训练神经网络模型后为每个sirna打分,得到每个sirna的第一得分;
8、以及,将剪切得到的全部sirna输入专家评分系统,为每个sirna打分,得到每个sirna的第二得分;
9、综合评定每个sirna第一得分和第二得分,输出得分大于第一阈值的sirna。
10、在上述的小核酸药物筛选方法中,首先按照预设长度对所获取的mrna进行剪切得到多个sirna,然后通过在卷积神经网络模型和专家评分系统分别对各个sirna打分,上述处理方法,不仅保证对mrna的覆盖率,还能综合利用卷积神经网络模型大数据分析能力以及专家评分系统的经验,避免单一评分可能造成的评估误差,扩大小核酸药物的筛选范围,提高小核酸药物筛选的速度和准确性。
11、本发明还提供一种方案,所述按照预设的长度剪切所述mrna,得到若干个sirna包括:
12、使用移动滑窗法对长度为l的所述mrna每n个核苷酸长度进行剪切,得到l-n个sirna,其中,n为19~25之间的自然数。
13、本发明还提供一种方案,所述卷积神经网络模型包括卷积层和bn层。
14、本发明还提供一种方案,所述使用随机向量初始化每个sirna中的四种碱基包括:
15、使用在[0,1]区间均匀分布或正态分布随机向量初始化每个sirna中的四种碱基。
16、本发明还提供一种方案,所述专家评分系统的打分规则包括以下至少一种或任意多种的组合:
17、所述sirna两端的不对称程度越大得分越高;
18、所述sirna的复杂程度越大得分越高;
19、所述sirna的引导链和伴随链的结合能力满足第一取值范围时,获得第三得分;
20、所述sirna的第一核苷酸位置不包含第一碱基时,获得第四得分;
21、其中,所述第二得分、所述第三得分用于与所述第二得分求和,以调整所述第二得分。
22、本发明还提供一种方案,所述综合评定每个sirna第一得分和第二得分包括:将每个sirna第一得分和第二得分取平均值。
23、本发明还提供一种方案,在输出得分大于阈值的sirna之后,所述基于机器学习和专家系统的小核酸药物筛选方法还包括:
24、比较输出的各sirna与人类dna和/或人类rna的结构相似性,得到相似性得分;
25、筛除所述相似性得分不大于第二阈值的sirna。
26、本发明还提供一种方案,所述人类dna和/或人类rna的结构数据包括来自blast数据库的数据。
27、本发明还提供一种方案,在blast数据库中的human genome库和/或homo sapien数据库中依次检索输出的各sirna,若返回肯定的检索结果,则删除肯定结果对应的sirna。
28、本发明还提供一种方案,在输出得分大于第一阈值的sirna之后,所述基于机器学习和专家系统的小核酸药物筛选方法还包括:
29、对输出的各sirna依次进行序列修饰、基因合成、连接传送靶头,以生成对应数量的模拟小核酸药物。
30、与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:采用上述的基于机器学习和专家系统的小核酸药物筛选方法,不仅利用卷积神经网络模型构建计算机学习模块,大幅度的增加了mrna初步筛查的筛查范围和筛查速度,并且将计算机学习与专家经验相互结合,利用专家经验对计算机筛查结果进行修正,减少机器学习模块初筛结果的误差,增加筛选结果的有效性和准确性,从而加快小核酸药物的研发进程,缩短药物研发周期,节省经费。
1.一种基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述按照预设的长度剪切所述mrna,得到若干个sirna包括:
3.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述卷积神经网络模型包括卷积层和bn层。
4.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述使用随机向量初始化每个sirna中的四种碱基包括:
5.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述专家评分系统的打分规则包括以下至少一种或任意多种的组合:
6.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述综合评定每个sirna第一得分和第二得分包括:将每个sirna第一得分和第二得分取平均值。
7.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,在输出得分大于阈值的sirna之后,所述基于机器学习和专家系统的小核酸药物筛选方法还包括:
8.根据权利要求7所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,所述人类dna和/或人类rna的结构数据包括来自blast数据库的数据。
9.根据权利要求8所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,在blast数据库中的human genome库和/或homo sapien数据库中依次检索输出的各sirna,若返回肯定的检索结果,则删除肯定结果对应的sirna。
10.根据权利要求1所述的基于机器学习和专家系统的小核酸药物筛选方法,其特征在于,在输出得分大于第一阈值的sirna之后,所述基于机器学习和专家系统的小核酸药物筛选方法还包括: