一种SLE病情相关基因序列信息的编码、分析和预测方法与流程

文档序号:37466993发布日期:2024-03-28 18:49阅读:19来源:国知局
一种SLE病情相关基因序列信息的编码、分析和预测方法与流程

本发明涉及医疗信息,具体为一种sle病情相关基因序列信息的编码、分析和预测方法。


背景技术:

1、系统性红斑狼疮(sle)是一种多发于青年女性的累及多脏器的自身免疫性炎症性结缔组织病。由于sle存在一定的遗传性,因此临床和科研上,会利用研究遗传相关的科学手段进行一些基因信息的挖掘。其中,全基因组关联分析(gwas)是广泛用于寻找复杂遗传疾病关联基因的重要手段。

2、但现有技术中,gwas找到的snps位点变异等信息,都是以碱基的测得形式进行记录和分析,复杂的文本表格缺乏复杂运算的能力,也不能有效提取sle患者和正常人等各类人群的基因特征;同时现有技术缺乏基因信息特征和sle导致的器官受累、临床指标变化、量表数据的关联分析;更无法通过基因信息预测用户状况。鉴于此,本发明拟提出一种sle病情相关基因序列信息的编码、分析和预测方法以克服上述问题。


技术实现思路

1、本发明的目的在于提供一种sle病情相关基因序列信息的编码、分析和预测方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、一种sle病情相关基因序列信息的编码和分析方法,所述方法包括以下步骤:

4、a1.对获得的基因信息进行标注,标注归属于sle患者亦或是健康对照被试;

5、a2.对sle患者和健康对照被试的基因信息进行编码,每个snps位点编码为一组8位01算子,所述8位01算子包括同一个snps位点的两个位置的变异结果,所述每个变异结果包括4位01算子,每个位置的编码顺序为a、t、c、g,如果变异则置1,如果不变异则置0;

6、a3.将编码后的结果按a1中的标签进行归类,将sle患者和健康对照被试的编码结果排列成两类矩阵样本,矩阵样本的列向量顺序为每个snps位点的编码结果,矩阵样本的行向量顺序为snps位点的顺序排列;

7、a4.将a3中的sle患者和健康对照被试的矩阵样本按临床指标、sle评分量表的分类进行标签的标注,然后将矩阵样本对每个标签分类,分类为80%样本数的训练数据和20%样本数的测试数据,使用训练数据训练lstm模型,使用测试数据测试lstm模型的测试精度;

8、a5.选出a4中测试精度高于70%的标签记为可用标签,将可用标签对应的矩阵样本记为可用样本集合,对可用样本集合按列计算每个snps位点的链接矩阵,再将链接矩阵按可用样本集合的行进行升维排列得到3维的链接总矩阵,所述3维的链接总矩阵记为在可用标签下sle患者和健康对照被试的基因组链接网络矩阵;

9、a6.对基因组链接网络矩阵按概率分布取出每个维度的最大概率分布下序列,然后按基因组链接网络的行顺序排列抽取的序列作为sle患者和健康对照被试对应可用标签的基因主序列,记为sle类主序列和健康对照类主序列。

10、具体的,一种sle病情相关基因序列信息的预测方法,所述预测方法包括以下步骤:

11、b1.获得预测被试的基因信息并按a2的方式进行编码获得编码结果;

12、b2.确定预测被试需要预测的指标,将对应指标的sle类主序列和健康对照类主序列按a2的方式进行编码获得编码结果;

13、b3.计算预测被试的基因信息的编码结果与sle类主序列的编码结果的切比雪夫距离记为p1,计算预测被试的基因信息的编码结果与健康对照类主序列的编码结果的切比雪夫距离记为p2。

14、b4.记预测被试在需要预测的指标下的sle的相关概率为p,则p为p1除以p1、p2之和。

15、具体的,所述a2中的snps位点的两个变异位置如分不清每个位置具体是父源还是母源,则将两个位置的变异结果获得的4位01算子对应位置相加,将所述基因信息(10)编码为4位012算子。

16、具体的,所述sle患者和健康对照被试的矩阵样本的数量比例小于1比1.5,所述数量比例大于1比3则直接判断对应标签为不可用标签,所述数量比例大于1比1.5小于1比3则给样本数量较少的一方2倍预测损失。

17、具体的,所述lstm模型可替换为可执行同输入输出结构的rnn系深度学习模型。

18、与现有技术相比,本发明的有益效果是:本发明相对现有技术实现了对snps位点变异信息的编码,使其可用于深度学习等方法进行运算,同时编码结果保留了位点的序列特征、变异信息和整体结构特征;本发明还利于深度学习将编码结果转化为标签和对应人群(健康还是患有sle)的分类问题,按分类结果分析出了可能与基因信息密切相关的指标;最后本申请还可通过抽取主序列的方式,通过计算主序列与预测用户基因的相似度,预测用户的sle相关状况。

19、本申请可使得gwas相关研究的成果可以转化为实际应用,具有广泛的科研和临床价值。



技术特征:

1.一种sle病情相关基因序列信息的编码和分析方法,其特征在于:所述方法包括以下步骤:

2.根据权利要求1所述的一种sle病情相关基因序列信息的预测方法,其特征在于:所述预测方法包括以下步骤:

3.根据权利要求1所述的一种sle病情相关基因序列信息的编码、分析方法,其特征在于:所述a2中的snps位点的两个变异位置如分不清每个位置具体是父源还是母源,则将两个位置的变异结果获得的4位01算子对应位置相加,将所述基因信息(10)编码为4位012算子。

4.根据权利要求1所述的一种sle病情相关基因序列信息的编码、分析方法,其特征在于:所述sle患者和健康对照被试的矩阵样本的数量比例小于1比1.5,所述数量比例大于1比3则直接判断对应标签为不可用标签,所述数量比例大于1比1.5小于1比3则给样本数量较少的一方2倍预测损失。

5.根据权利要求1所述的一种sle病情相关基因序列信息的编码、分析方法,其特征在于:所述lstm模型可替换为可执行同输入输出结构的rnn系深度学习模型。


技术总结
本发明涉及医疗信息技术领域,具体为一种SLE病情相关基因序列信息的编码、分析和预测方法,所述方法包括对获得的基因信息进行标注,并对基因信息进行编码,将编码后的结果按标签进行归类,归类为两类序列,接着将序列按临床指标、SLE评分量表的分类进行标签的标注,使用训练数据训练LSTM模型,使用测试数据获得测试精度,再选出测试精度高于70%的标签对应的矩阵样本记为可用样本集合,对可用样本集合计算基因组链接网络矩阵;最后对基因组链接网络矩阵按概率分布取出SLE患者和健康对照被试对应可用标签的基因主序列,记为SLE类主序列和健康对照类主序列。本发明可对SLE的基因信息进行编码和主序列抽取,可用于分析和预测SLE患者的基因与病情的关联。

技术研发人员:徐健,程宇琪,丁鹏,王湘宇,杨一帆,刘爽
受保护的技术使用者:徐健
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1