本发明涉及一种基于机器学习的水稻抗稻瘟菌关键srna识别方法,属于生物大数据挖掘技术。
背景技术:
1、水稻是全世界重要的粮食产物,但水稻容易受昆虫、微生物等侵害,尤其是作为真菌性病害的稻瘟菌侵染,能在水稻生长的全时间段进行侵染,严重影响水稻产量。但由于稻瘟菌具有易变异特点,这导致化学防治的成本较高同时会造成环境污染和影响食品安全。因此基于细胞水平的侵染机制从而找到该侵染过程中的稻瘟菌关键致病因子,对于水稻稻瘟病的长久性防治具有重要意义。
2、在真菌植物互作关系中,研究人员逐渐重视到关键生物分子的作用,越来越多的研究表明小的非编码rna可以在许多生物过程中起到重要作用,比如对rna修饰,调控基因的转录和翻译以及参与蛋白质易位和降解等过程。但随着生物学数据量的高速增长,传统的生物分析方法在诸多领域都遭受到了重大挑战,而最新的机器学习方法尤其是深度学习方法将能够极大地提升生物信息学领域的研究速度,更重要的是能够在大量的生物学数据中挖掘隐藏的联系和规律,为进一步的研究和探索提供重要理论依据。
3、目前,机器学习在稻瘟菌侵染水稻过程的研究中主要聚焦于稻瘟菌侵染水稻时起关键侵染作用的生物分子,却忽略了该过程中水稻抵抗稻瘟菌侵染的关键生物分子。此外,在侵染网络的分析研究中只考虑了不同生物分子之间的调控关系,但忽略了同类型生物分子间存在的隐式关系,对于同类型生物分子间存在互相影响的侵染网络中,其分析结果略有欠缺,还有改进的空间。
技术实现思路
1、本发明设计开发了一种基于机器学习的水稻抗稻瘟关键srna识别方法,通过构建差异表达水稻基因的异质互作网络,并进行联合优化,能够找出水稻抵抗稻瘟菌侵染过程中的关键水稻srna,弥补传统方法无法考虑同类型生物分子间相互影响的不足,提升方法预测的准确性。
2、本发明提供的技术方案为:
3、一种基于机器学习的水稻抗稻瘟关键srna识别方法,包括:
4、步骤一、在水稻侵染数据集中,通过基因库映射比对,获取水稻srna和mrna序列信息;
5、步骤二、设定筛选条件,筛选水稻差异表达srna和mrna;
6、步骤三、构建差异表达水稻基因的异质互作网络;
7、步骤四、在异质互作网络中,联合优化建模显示关系和建模隐式关系,通过联合优化结果,筛选出稻瘟菌侵染水稻过程中的水稻抗侵染关键srna。
8、优选的是,所述步骤一包括:
9、基于给定侵染时长的稻瘟菌侵染水稻数据集,提取基因序列信息并映射到水稻rna库中,将提取的水稻基因序列与水稻rna库中的基因序列进行匹配,匹配成功的序列为水稻rna序列;
10、将匹配得到的水稻rna序列信息映射到水稻srna库中,匹配成功的为水稻srna序列,其余的为水稻转录mrna。
11、优选的是,所述步骤二包括:
12、在侵染数据集中分别对水稻srna和水稻mrna数据进行表达量统计;
13、基于3/4分位数标准化方法对表达量数据进行标准化处理;
14、设定表达量倍数阈值筛选差异表达基因,并与统计的抗感型水稻相对于易感型水稻中新出现的基因共同作为差异表达基因。
15、优选的是,所述步骤三包括:
16、将得到的差异表达基因输入到数据库中,进行靶向基因预测,获得水稻srna靶向水稻mrna的预测结果;
17、根据预测结果构造异质网络节点图,将水稻srna设定为一类定点,水稻mrna设定为二类定点,存在靶向关系的两类定点之间并形成边;
18、根据每对定点对应的基因差异表达倍数来为边赋予权重,权重的大小为两个定点差异表达倍数之积。
19、优选的是,所述步骤四包括:
20、对构造的所述异质网络进行重构,从能观察到的边进行显式建模任务,从不能观察到的边进行隐式建模任务,通过联合优化上述两个任务来学习定点嵌入,并通过相似度分析筛选出抗侵染关键srna。
21、优选的是,所述步骤四中,进行显示建模任务包括:
22、通过考虑异质网络中两个非同类连接定点之间的局部邻近度来建模显示关系,分别通过经验概率分布和联合概率分布来建模,使用kl散度衡量两个分布的差异,通过最小化目标函数进行学习,目标函数为:
23、
24、式中,为ui和vj的联合概率分布,为ui和vj的局部相似性;和分别为ui和vj的嵌入式向量,eij为边集合e中,由节点i和节点j组成的边。
25、优选的是,所述进行隐式建模任务包括:
26、通过考虑异质网络中两个没有边直接连接的同类型节点建模隐式关系,对于一类顶点u,两个节点i和j之间的二阶接近度定义为:
27、
28、式中,wik为节点i和二类节点v中相邻的节点k之间的权重,wjk为节点j和二类节点v中相邻的节点k之间的权重,u为u定点组成的集合;
29、对于二类顶点v,两个节点i和j之间的二阶接近度定义为:
30、
31、生成两个同质网络图,分别为:
32、
33、
34、优选的是,还包括:
35、对总体目标函数进行联合优化,得到每个定点的嵌入向量,通过两类顶点之间的联合相似性分析,取排名前若干个关系中的srna作为在抵抗侵染过程中起关键作用的水稻srna;
36、总体目标函数为:
37、max imizel=αlog o2+βlog o3-γo1,
38、式中,α、β、γ是根据实际情况指定的超参数,o1为显示关系之间的差异函数、o2和o3分别为节点ui和vj之间隐式关系的差异函数。
39、本发明所述的有益效果:
40、1.本发明从抗稻瘟菌侵染角度出发,来寻找水稻中抵抗稻瘟菌侵染的关键srna;
41、2.本发明提出了在互作关系中,同类基因间也存在互相影响的隐式关系,从而更好的挖掘和分析基因间的相互作用;
42、3.本发明提出了联合优化策略,综合考虑基因间的显示关系和隐式关系,能更加有效地促进学习,提升泛化的效果。
1.一种基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,包括:
2.根据权利要求1所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,所述步骤一包括:
3.根据权利要求1或2所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,所述步骤二包括:
4.根据权利要求3所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,所述步骤三包括:
5.根据权利要求4所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,所述步骤四包括:
6.根据权利要求5所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,所述步骤四中,进行显示建模任务包括:
7.根据权利要求6所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,所述进行隐式建模任务包括:
8.根据权利要求7所述的基于机器学习的水稻抗稻瘟菌关键srna识别方法,其特征在于,还包括: