1.一种基于甲基化序列的深度学习癌症风险预测方法,其特征在于,包括:
2.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法,其特征在于,所述过滤后的差异甲基化区域包括dus值排名靠前的若干低甲基化差异甲基化区域和所有高甲基化差异甲基化区域。
3.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法,其特征在于,步骤s21中,所述甲基化连续性分数的计算公式为:
4.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法,其特征在于,所述深度学习网络模型的结构为基于transformer的双向编码器表示模型,包括一个嵌入层、多层transformer编码器;
5.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法,其特征在于,所述深度学习网络模型的输入序列,采用n-gram方法被分词为包含上下文信息的多个连续碱基,并添加标记符[cls]作为输入序列的第一个标记符,用于表示整个序列的起始信息。
6.根据权利要求5所述的基于甲基化序列的深度学习癌症风险预测方法,其特征在于,所述深度学习网络模型的每个输入序列掩盖包含“ml”的80%的词。
7.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法,其特征在于,步骤s1中,将fdr多重假设检验校正后p值小于0.01,且甲基化差异大于25%的cpg位点定义为差异甲基化cpg位点;将包含至少五个所述差异甲基化cpg位点,且相邻差异甲基化cpg位点之间的距离不超过设定值的区域定义为一个所述差异甲基化区域。
8.一种基于甲基化序列的深度学习癌症风险预测系统,其特征在于,包括: