一种ncRNA基因突变的解读方法、存储介质及终端

文档序号:35626175发布日期:2023-10-05 22:48阅读:21来源:国知局
一种ncRNA基因突变的解读方法、存储介质及终端

本发明涉及基因,尤其涉及一种ncrna基因突变的解读方法、存储介质及终端。


背景技术:

1、非编码rna(noncoding rna,ncrna)是一类细胞内不编码蛋白的rna,根据其物理生理特性可分为长非编码rna,微小rna,环状rna,pirna,核小rna和核仁小rna等。近年的研究发现,ncrna基因突变与各种人类重大疾病的发生发展密切相关,已成为疾病诊断治疗和预后的潜在标志物。目前一个典型的临床全基因组测序,能够发现上百万个基因组变异,而其中绝大部分的变异都落在基因组的非编码区域,涉及各种ncrna基因。相比编码基因变异的解读,目前十分缺乏系统的筛选鉴定方法来在全基因组范围内实现ncrna基因突变的方法和工具系统,只能基于已发表的文献和ncrna疾病知识库,依赖人工的知识经验进行解读报告,导致解读报告效率非常低下。由于针对ncrna基因突变,缺乏统一的解读报告专业标准,导致同样的检测数据可能出现不同的解读报告。例如,目前存在多种多样的ncrna疾病知识库,不同ncrna疾病知识库在疾病和ncrna命名方面存在很强的异质性,缺乏使用统一的本体术语进行注释。

2、虽然目前国际上的研究人员开发了一些人工智能辅助筛查鉴定致病性基因组变异的工具,但是这些工具在理论层面只能筛查鉴定编码基因及其调控区域上的致病性变异,无法有效地筛查鉴定ncrna基因上的致病性变异,更无法实现对ncrna突变进行自动化解读和报告。

3、因此,现有技术还有待于进一步的改进和提升。


技术实现思路

1、鉴于上述现有技术的不足,本发明的目的在于提供一种ncrna基因突变的解读方法,该方法能够对ncrna致病性突变进行高通量筛查解读和报告。

2、为达此目的,本发明采用以下技术方案:

3、第一方面,一种ncrna基因突变的解读方法,其中,包括:

4、构建ncrna基因致病性突变标准数据集、ncrna基因良性变异标准数据集和实验验证的ncrna基因变异有害性标准数据集;

5、利用所述ncrna基因致病性突变标准数据集和ncrna基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncrna基因变异有害性的计分模型;

6、采用所述特异性评估ncrna基因变异有害性的计分模型对候选ncrna基因的变异有害性进行计算,得到ncrna基因的变异位点的有害性计分文件;

7、构建ncrna基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncrna基因相关疾病表型相似度计分模型,采用所述ncrna基因相关疾病表型相似度计分模型对所述候选ncrna基因的疾病表型相似度进行计算,得到所述候选ncrna基因的疾病表型相似度计分文件;

8、采用数据挖掘软件对包含相同数量的致病性和良性的ncrna基因变异位点的有害性计分文件和ncrna基因的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncrna基因致病性突变的筛查鉴定的算法模型;

9、采用所述实验验证的ncrna基因变异有害性标准数据集对所述算法模型进行优化评估,采用优化评估后的算法模型对ncrna基因突变进行解读和报告。

10、本发明通过构建ncrna基因变异有害性标准数据集,基于该标准数据集,利用多种先进的有监督机器学习算法建立准确特异性评估ncrna基因变异的有害性计分模型。进一步地,利用多种先进的表型相似度算法建立准确特异性评估ncrna基因疾病表型相似度计分模型,再利用先进的机器学习算法融合ncrna基因变异功能有害性计分模型和ncrna基因疾病表型相似度计分模型,来建立智能筛查解读和报告ncrna致病性突变的系统。实现了针对ncrna基因突变的标准化、自动会、智能化和高通量地临床解读报告,不但可以大大提升解读效率,还可以大大增加解读的准确性,克服主观因素导致的解读不一致问题。

11、以下作为本发明的优选技术方案,但不作为对本发明提供的技术方案的限制,通过以下优选的技术方案,可以更好的达到和实现本发明的目的和有益效果。

12、作为优选的技术方案,所述的ncrna基因突变的解读方法,其中,所述ncrna基因致病性突变标准数据集的构建包括:

13、从疾病相关基因组变异数据库中获取各种基因组变异数据,包括ncrna基因致病性突变和良性变异,并用uscs liftover工具标准化变异参考基因组染色体位置;

14、获取各种ncrna基因组注释文件,所述ncrna基因组注释文件包括ncrna基因的染色体位置等信息,并使用专业的术语资源对所述各种ncrna基因的名称进行标准化;

15、基于疾病相关基基因组变异和ncrna基因染色体位置信息,将ncrna基因组变异注释文件映射到ncrna基因上,得到所述ncrna基因致病性突变标准数据集。

16、作为优选的技术方案,所述的ncrna基因突变的解读方法,其中,所述ncrna基因良性变异标准数据集的构建包括:

17、从健康人群基因变异数据库中获取各种良性得基因组变异数据,包括ncrna基因良性变异,并用uscs liftover工具标准化变异参考基因组染色体位置;

18、获取各种ncrna基因组注释文件,所述ncrna基因组注释文件包括ncrna基因的染色体位置等信息,并使用专业的术语资源对所述各种ncrna基因的名称进行标准化,;

19、基于基因组良性变异和ncrna基因染色体位置信息,将ncrna基因组变异注释文件映射到ncrna基因上,得到所述ncrna基因良性变异标准数据集。

20、作为优选的技术方案,所述的ncrna基因突变的解读方法,其中,所述特异性评估ncrna基因变异有害性的计分模型的获取包括:

21、利用所述ncrna基因致病性突变标准数据集和ncrna基因良性变异标准数据集,对支持向量机和随机森林等模型分别进行训练和3-7倍的交叉验证,并对交叉验证设置的模型参数分别计算均值,作为所支持向量机和随机森林模型的最终预测参数;

22、对所述支持向量机和随机森林等模型进行加权整合,得到加权整合的预测模型;

23、将所述加权整合的预测模型分别和所述支持向量机和随机森林模型进行比较,得到所述特异性评估ncrna基因变异有害性的计分模型。

24、作为优选的技术方案,所述的ncrna基因突变的解读方法,其中,所述构建ncrna基因与人类疾病表型关联的标准数据集具体包括:

25、从与疾病关联的数据库中下载并进行整合注释,得到各种ncrna与疾病关联的数据,使用专业的术语资源对所述各种ncrna的名称进行标准化;

26、利用疾病表型本体术语数据库,对各种疾病表型名称进行标准化注释,得到ncrna基因与人类疾病表型关联的标准数据集。

27、作为优选的技术方案,所述的ncrna基因突变的解读方法,其中,所述ncrna基因相关疾病表型相似度计分模型的构建具体包括:

28、基于所述ncrna基因与人类疾病表型关联的标准数据集,利用phenomizer表型相似度算法和phrank表型相似度算法分别建立ncrna相关疾病表型相似度计分模型,对所建立的两个计分模型进行比较,得到所述ncrna基因相关疾病表型相似度计分模型。

29、第二方面,一种ncrna基因突变的解读系统,其中,包括:

30、ncrna基因变异有害性数据集构建模块,用于构建ncrna基因致病性突变标准数据集、ncrna基因良性变异标准数据集和实验验证的ncrna基因变异有害性标准数据集;

31、特异性评估ncrna基因变异有害性的计分模型构建模块,用于利用所述ncrna基因致病性突变标准数据集和ncrna基因良性变异标准数据集,对两个及以上有监督的机器学习算法分别进行模型训练,得到特异性评估ncrna基因变异有害性的计分模型;采用所述特异性评估ncrna基因变异有害性的计分模型,计算得到候选ncrna基因变异有害性计分文件;

32、ncrna基因相关疾病表型相似度计分模型构建模块,用于构建ncrna基因与人类疾病表型关联的标准数据集;基于所述标准数据集构建ncrna基因相关疾病表型相似度计分模型,通过疾病表型关联到候选ncrna致病基因集,得到候选ncrna基因集的致病性计分文件;

33、ncrna基因致病性突变筛查鉴定的算法模型构建模块,用于采用数据挖掘软件对包含相同数量的致病性和良性的ncrna变异位点的有害性计分文件和ncrna的疾病表型相似度计分文件进行逻辑回归建模,得到特异性评估ncrna基因致病性突变的筛查鉴定的算法模型;

34、ncrna基因突变解读模块,用于采用所述实验验证的ncrna基因变异有害性标准数据集对所述算法模型进行优化评估,采用优化评估后的算法模型对ncrna基因突变进行解读和报告。

35、作为优选的技术方案,所述的ncrna基因突变的解读系统,其中,还包括人工审核模块,用于对训练后的算法模型解读出的结果进行审核。

36、第三方面,一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述所述的ncrna基因突变的解读方法中的步骤。

37、第四方面,一种终端设备,其中,所述终端设备包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;

38、所述通信总线实现处理器和存储器之间的连接通信;

39、所述处理器执行所述计算机可读程序时实现如上述所述的ncrna基因突变的解读方法中的步骤。

40、有益效果:与现有技术相比,本发明提供的ncrna基因突变的解读方法,通过构建针对ncrna基因的变异功能有害性计分模型和针对ncrna基因的疾病表型相似度计分模型,分别得到ncrna基因变异有害性计分文件和候选ncrna基因集的致病性计分文件,通过对包含相同数量的致病性和良性的ncrna变异位点的有害性计分文件和ncrna的疾病表型相似度计分文件进行逻辑回归建模。得到算法模型,对算法模型进行优化评估,利用优化评估好的算法模型实现针对ncrna基因突变的标准化、自动会、智能化和高通量地临床解读报告,大大提升了解读效率,解读的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1