基于甲基化序列的深度学习癌症风险预测方法及系统与流程

文档序号：37372329发布日期：2024-03-22 10:25阅读：来源：国知局

技术特征：

1.一种基于甲基化序列的深度学习癌症风险预测方法，其特征在于，包括：

2.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法，其特征在于，所述过滤后的差异甲基化区域包括dus值排名靠前的若干低甲基化差异甲基化区域和所有高甲基化差异甲基化区域。

3.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法，其特征在于，步骤s21中，所述甲基化连续性分数的计算公式为：

4.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法，其特征在于，所述深度学习网络模型的结构为基于transformer的双向编码器表示模型，包括一个嵌入层、多层transformer编码器；

5.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法，其特征在于，所述深度学习网络模型的输入序列，采用n-gram方法被分词为包含上下文信息的多个连续碱基，并添加标记符[cls]作为输入序列的第一个标记符，用于表示整个序列的起始信息。

6.根据权利要求5所述的基于甲基化序列的深度学习癌症风险预测方法，其特征在于，所述深度学习网络模型的每个输入序列掩盖包含“ml”的80％的词。

7.根据权利要求1所述的基于甲基化序列的深度学习癌症风险预测方法，其特征在于，步骤s1中，将fdr多重假设检验校正后p值小于0.01，且甲基化差异大于25％的cpg位点定义为差异甲基化cpg位点；将包含至少五个所述差异甲基化cpg位点，且相邻差异甲基化cpg位点之间的距离不超过设定值的区域定义为一个所述差异甲基化区域。

8.一种基于甲基化序列的深度学习癌症风险预测系统，其特征在于，包括：

技术总结
本发明涉及基于甲基化序列的深度学习癌症风险预测方法及系统，包括：获取样本读段，进行甲基化测序；对差异甲基化区域进行过滤；建立预测模型：将正常人血浆样本读段处理后作为深度学习网络模型的输入序列，使用掩码语言模型任务来预测掩码标记，获得学习甲基化序列上下文信息的预训练模型；对所有样本读段提取过滤后的差异甲基化区域上的所有读段，掩码标记后并添加标签后对预训练模型进行微调训练，获得预测模型；将待预测的甲基化序列数据输入所述预测模型中进行肿瘤风险预测。本发明使用甲基化序列数据作为预测癌症风险的依据，提高了模型的预测精度。

技术研发人员：顾忠泽,于文龙,刘佳欢
受保护的技术使用者：江苏运动健康研究院
技术研发日：
技术公布日：2024/3/21

完整全部详细技术资料下载

当前第2页1 2