合成致死基因对预测模型的训练方法、装置和电子设备与流程

文档序号:34606626发布日期:2023-06-29 03:26阅读:56来源:国知局
合成致死基因对预测模型的训练方法、装置和电子设备与流程

本发明涉及生物医疗信息,尤其涉及一种合成致死基因对预测模型的训练方法、装置和电子设备。


背景技术:

1、如果两个基因的活性缺失导致细胞缺陷而无法生存,而任一基因的活性缺失都对细胞存活无害,则两个基因被认为是合成致死对。许多癌细胞在合成致死对的一个基因中携带特定突变,导致该基因失去活性,因此其合成致死伴侣有希望成为药物的靶点。例如,肿瘤抑制基因brca1/2和药物靶基因parp1之间已知的合成致死相互作用可用于通过触发致命的dna损伤来选择性地杀死癌细胞。目前,parp1抑制剂已被批准用于治疗某些类型的brca突变癌症。人类约有2万蛋白编码基因,相应理论上的约有2亿(20,000*20,000/2)基因对等待研究。然而,目前仅有少数几对合成致基因死对在特定细胞系中被验证。因此,通过生物实验的方法在各不同细胞系中寻找验证2亿基因对是否合成致死几乎是无法完成的任务。

2、随着机器学习尤其是深度学习技术的发展,越来越多的科学规律可以通过深度学习的方法获得。药理学前沿杂志(frontiers in pharmacology)上发表的文章“exp2sl:一种预测细胞系特异性的合成致死对的深度学习框架”中,作者开发了一种深度学习方法,使用基因敲除差异表达谱预测合成致死对。但是该方法受限于基因敲除差异表达谱对应的细胞系种类和基因数量,只能在3个细胞系中对大约4000个基因进行预测,即只能在3个细胞系中预测800万基因对是否合成致死(4000*4000/2)。


技术实现思路

1、为了解决现有技术中存在的问题,本发明提供了如下技术方案。

2、本发明第一方面提供了一种合成致死基因对预测模型的训练方法,包括:

3、获取训练数据,所述训练数据包括选自人类全部编码基因的合成致死基因对和非合成致死基因对,以及所述人类全部编码基因分别对应的基因细胞系敲除效应指数谱;

4、利用所述训练数据训练深度学习模型,以输出合成致死基因对,得到合成致死基因对预测模型。

5、优选地,所述利用所述训练数据训练深度学习模型包括:

6、获取基因细胞系敲除效应指数谱的向量;

7、将任意两个基因细胞系敲除效应指数谱的向量相加,得到表征向量a;

8、将任意两个基因细胞系敲除效应指数谱的向量相减,得到表征向量b;

9、将表征向量a和表征向量b作为输入,将与所述任意两个基因细胞系敲除效应指数谱对应的所述合成致死基因对或非合成致死基因对作为标签,训练所述深度学习模型。

10、优选地,以二分类交叉熵损失作为目标优化函数,使用adam优化器作为下降方法训练所述深度学习模型。

11、优选地,所述深度学习模型采用四层全连接神经网络。

12、优选地,所述方法还包括按照如下方式获取所述基因细胞系敲除效应指数谱:

13、获取基因细胞系敲除效应指数数据;

14、使用平均值填充法取代所述基因细胞系敲除效应指数数据中的缺失值,得到基因细胞系敲除效应指数谱。

15、优选地,所述方法还包括:

16、若所述训练数据中的所述合成致死基因对中至少有一个基因没有细胞系敲除效应指数谱,则将对应的合成致死基因对删除;

17、若所述训练数据中的非合成致死基因对中至少有一个基因没有细胞系敲除效应指数谱,则将对应的非合成致死基因对删除。

18、本发明第二方面提供了一种合成致死基因对预测模型的训练装置,包括:

19、训练数据获取模块,用于获取训练数据,所述训练数据包括选自人类全部编码基因的合成致死基因对和非合成致死基因对,以及所述人类全部编码基因对应的基因细胞系敲除效应指数谱;

20、模型训练模块,用于利用所述训练数据训练深度学习模型,以输出合成致死基因对,得到合成致死基因对预测模型。

21、本发明第三方面提供了一种合成致死基因对预测方法,包括:

22、利用合成致死基因对预测模型在不同细胞系中预测合成致死基因对;

23、所述合成致死基因对预测模型为预先利用如第一方面所述的方法训练得到的。

24、本发明第四方面提供了一种存储器,其特征在于,存储有多条指令,所述指令用于实现如第一方面所述的合成致死基因对预测模型的训练方法,或如第三方面所述的合成致死基因对预测方法。

25、本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的合成致死基因对预测模型的训练方法,或如第三方面所述的合成致死基因对预测方法。

26、本发明的有益效果是:本发明提供的一种合成致死基因对预测模型的训练方法、装置和电子设备,通过利用人类全部编码基因的细胞系敲除效应指数谱作为训练数据训练深度学习模型,得到合成致死基因对预测模型,并利用得到的合成致死基因对预测模型在各不同细胞系中预测合成致死基因对,实现了对人类全部编码基因合成致死对的预测。因此,采用本发明提供的技术方案可以减少不必要的临床实验,从而减少了临床前开发的资金与时间投入。而且,利用预测得到的合成致死基因对可以筛选出潜在的合成致死靶标,提高了临床实验的成功率。同时对于已开发和正在开发的合成致死基因对,可基于不同细胞系中的预测结果拓展验证潜在的适应症,减少不必要的临床试验,提高临床实验的成功率。



技术特征:

1.一种合成致死基因对预测模型的训练方法,其特征在于,包括:

2.如权利要求1所述的合成致死基因对预测模型的训练方法,其特征在于,所述利用所述训练数据训练深度学习模型包括:

3.如权利要求2所述的合成致死基因对预测模型的训练方法,其特征在于,以二分类交叉熵损失作为目标优化函数,使用adam优化器作为下降方法训练所述深度学习模型。

4.如权利要求2所述的合成致死基因对预测模型的训练方法,其特征在于,所述深度学习模型采用四层全连接神经网络。

5.如权利要求1所述的合成致死基因对预测模型的训练方法,其特征在于,所述方法还包括按照如下方式获取所述基因细胞系敲除效应指数谱:

6.如权利要求1所述的合成致死基因对预测模型的训练方法,其特征在于,所述方法还包括:

7.一种合成致死基因对预测模型的训练装置,其特征在于,包括:

8.一种合成致死基因对预测方法,其特征在于,包括:

9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的合成致死基因对预测模型的训练方法,或如权利要求8所述的合成致死基因对预测方法。

10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的合成致死基因对预测模型的训练方法,或如权利要求8所述的合成致死基因对预测方法。


技术总结
本发明公开了合成致死基因对预测模型的训练方法、装置和电子设备,属于生物医疗信息技术领域。训练方法包括:获取训练数据,包括选自人类全部编码基因的合成致死基因对和非合成致死基因对,以及所述人类全部编码基因对应的基因细胞系敲除效应指数谱;利用训练数据训练深度学习模型,以输出合成致死基因对,得到合成致死基因对预测模型。实现了对人类全部编码基因合成致死对的预测。因此,采用本发明提供的技术方案可以减少不必要的临床实验,从而减少了临床前的资金与时间投入。而且,利用预测得到的合成致死基因对可以筛选出潜在的合成致死靶标,还可以基于不同细胞系中的预测结果拓展验证潜在的适应症,提高了临床实验的成功率。

技术研发人员:季序我,彭鑫鑫,余丹阳,李哲
受保护的技术使用者:普瑞基准生物医药(苏州)有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1