变异描述信息的处理方法、装置及电子设备与流程

文档序号:37436769发布日期:2024-03-25 19:35阅读:21来源:国知局
变异描述信息的处理方法、装置及电子设备与流程

本技术涉及基因,尤其是涉及一种变异描述信息的处理方法、装置及电子设备。


背景技术:

1、基因检测技术的发展也加快了临床对单基因疾病种类的认知,单基因疾病检测报告准确性与规范性也非常重要。现阶段,造成变异报出不准确的因素包括变异分类规则的使用、解读人员获取的信息、证据应用、专家判断等方面存在的差异。变异解读的不准确可能导致遗传诊断结果的不一致,从而影响遗传疾病的治疗和预后。

2、解读人员获取的信息包括变异相关信息、表型、文献及历史报出阳性位点等,此步骤当前主要由解读人员进行人工审核,人工介入的程度较高,因此,解读效率与解读结果准确性都可能存在一定程度的限制。


技术实现思路

1、本技术的目的在于提供一种变异描述信息的处理方法、装置及电子设备,对变异描述信息进行自动化校验与修正,提升此部分信息的准确性与规范性,进一步提高解读效率和基因检测报告的准确性。

2、第一方面,本技术提供一种变异描述信息的处理方法,方法包括:获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对vcf文件中的遗传变异信息进行注释得到的;判断变异描述信息中的变异hgvs描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;如果是,根据vcf文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的cds序列和变异cds序列;基于变异关联转录本的变异cds序列获取变异蛋白编码长度;根据cds序列、变异cds序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的dna水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。

3、进一步地,上述根据vcf文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的cds序列和变异cds序列的步骤,包括:获取vcf文件中的遗传变异信息;遗传变异信息包括:变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列,变异在参考基因组上的物理终止坐标;根据变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标、以及基因功能注释文件中变异关联转录本的cds起始位置、cds终止位置,以及所有外显子起始位置和外显子终止位置,从参考基因组序列文件中确定出变异关联转录本的cds序列、head序列、和tail序列;当变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标位于同一个cds子序列上时,将vcf文件中记录的变异位点发生突变的碱基序列作为变异序列;将head序列、变异序列、tail序列连接,对负链的编码序列基于连接的序列取反向互补序列,得到变异关联转录本的变异cds序列。

4、进一步地,上述根据cds序列、变异cds序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正的步骤,包括:从变异描述信息中,确定格式为指定格式的氨基酸水平变异描述信息;分别针对cds序列、变异cds序列,以三个碱基为一个单位,按照氨基酸密码子进行转换,得到蛋白编码序列和变异蛋白编码序列;从第一位开始,依次比较蛋白编码序列和变异蛋白编码序列是否一致,当第一次出现不一致时,将该处蛋白编码序列上的氨基酸序列描述为第一氨基酸,将该处变异蛋白编码序列上的氨基酸序列描述为第二氨基酸,将该位置描述为氨基酸变化位置;当变异蛋白编码长度为指定字符时,变异终止密码子位置记为指定字符,否则,变异终止密码子位置记为变异蛋白编码长度-氨基酸变化位置+1;判断指定格式的氨基酸水平变异描述信息中,第一氨基酸为met,氨基酸变化位置为1时,氨基酸水平变异描述记为p.met1?;判断指定格式的氨基酸水平变异描述信息中的第一氨基酸为时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“ext”“”“变异终止密码子位置”;不满足以上两种判断条件时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“fs”“”“变异终止密码子位置”。

5、进一步地,上述根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息的步骤,包括:基于基因功能注释文件获取转录本5’utr总长度;从第一个外显子开始判断,确定外显子内存在的与参考基因组序列文件中的基因组序列不完全匹配的序列在外显子总长度的目标位置;如果目标位置大于5’utr总长度,以三碱基为一个单位,不匹配序列总长涉及三碱基单位数目记为错配氨基酸长度;确定目标位置-5’utr总长度-3错配氨基酸长度,为编码dna错配位置;每个编码dna错配位置对应一个错配氨基酸长度。

6、进一步地,上述基于转录本位置信息,对变异描述信息中的dna水平变异描述信息和氨基酸水平变异描述信息进行校验与修正的步骤,包括:判断变异关联转录本存在已记录的编码dna错配位置和错配氨基酸长度时,针对dna水平变异描述信息中存在第一指定位置的情况,将转录本编码dna错配位置从大到小进行判断,如果第一指定位置大于编码dna错配位置,将第一指定位置更新为原数值加三倍的错配氨基酸长度;第一指定位置包括:变异在编码dna序列上位置;对转录本编码dna错配位置从大到小进行判断,计算编码dna错配位置含有完整3碱基的单位数目,记为氨基酸错配位置;针对氨基酸水平变异描述信息中存在第二指定位置的情况,将转录本氨基酸错配位置从大到小进行判断,如果第二指定位置大于氨基酸错配位置,将第二指定位置更新为原数值加错配氨基酸长度;第二指定位置包括:氨基酸变化位置;针对氨基酸水平变异描述信息中存在氨基酸变化位置和变异终止密码子位置的情况,将转录本氨基酸错配位置从大到小进行判断,当氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置时,如果氨基酸变化位置存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度-氨基酸变化位置对应的错配氨基酸长度;如果氨基酸变化位置不存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度。

7、进一步地,上述方法还包括:对vcf文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息;基于变异id信息、变异格式化信息、变异标签信息、chrx与chry高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息;基于变异id信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息。

8、进一步地,上述对vcf文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息的步骤,包括:确定初始变异信息,包括:变异关联的染色体名称、根据变异在参考基因组上的物理起始坐标确定的变异起始位置、根据所述变异起始位置和变异位点在参考基因组上的碱基序列长度,确定的变异终止位置、根据变异位点在参考基因组上的碱基序列确定的变异关联参考基因组碱基序列、根据变异位点发生突变的碱基序列确定的变异关联变异碱基序列;针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下前端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉第一个碱基序列,同时将变异起始位置在原数值上加一,继续执行前端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下后端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉最后一个碱基序列,同时将变异终止位置在原数值上减一,继续执行后端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;在变异关联参考基因组碱基序列无碱基序列剩余时,以指定字符进行表示,同时变异起始位置减一;在变异关联变异碱基序列无碱基序列剩余时,以指定字符进行表示,得到包括:变异关联格式化染色体名称、变异格式化起始位置、变异格式化终止位置、变异关联格式化参考基因组碱基序列、变异关联格式化变异碱基序列的变异格式化信息。

9、进一步地,上述基于变异id信息、变异格式化信息、变异标签信息、chrx与chry高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息的步骤,包括:从变异id信息中读取变异标注id序号;从变异标签信息中读取变异gt标签等位基因对应数值;等位基因对应数值包括第一等位基因数值与第二等位基因数值;获取chrx与chry高度同源区域信息、和待测个体性别标记值;如果第一等位基因数值与第二等位基因数值均为0,或者,第一等位基因数值与第二等位基因数值均与变异标注id序号不同,则确定变异基因型为野生型;如果待测个体性别标记值为m,变异关联格式化染色体名称为chrx,并且变异格式化起始位置和变异格式化终止位置均不在chrx与chry高度同源区域内,确定变异基因型为半合子;如果第一等位基因数值与第二等位基因数值相同,且第一等位基因数值与变异标注id序号相同,确定变异基因型为纯合型;如果第一等位基因数值与第二等位基因数值不同,第一等位基因数值与变异标注id序号相同,或第二等位基因数值与变异标注id序号相同,确定变异基因型为杂合型;如果第一等位基因数值与第二等位基因数值均不满足上述情况,确定变异基因型为基因型缺失型。

10、进一步地,上述变异标签信息包括变异ad标签、变异dp标签;基于变异id信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息的步骤,包括:从变异ad标签对应值,提取变异关联参考碱基reads数、变异关联变异碱基reads数;基于变异dp标签对应值,确定变异位点总测序深度;利用变异关联变异碱基reads数除以变异位点总测序深度,得到变异关联的变异比例;将变异关联参考碱基reads数、变异关联变异碱基reads数、变异位点总测序深度和变异关联的变异比例,作为变异测序深度相关信息。

11、第二方面,本技术还提供一种变异描述信息的处理装置,装置包括:信息获取模块,用于获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对vcf文件中的遗传变异信息进行注释得到的;判断模块,用于判断变异描述信息中的变异hgvs描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;修正模块,用于在判断结果为是时,根据vcf文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的cds序列和变异cds序列;基于变异关联转录本的变异cds序列获取变异蛋白编码长度;根据cds序列、变异cds序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的dna水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。

12、第三方面,本技术还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。

13、第四方面,本技术还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。

14、本技术提供的变异描述信息的处理方法、装置及电子设备中,首先获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对vcf文件中的遗传变异信息进行注释得到的;然后判断变异描述信息中的变异hgvs描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;如果是,根据vcf文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的cds序列和变异cds序列;基于变异关联转录本的变异cds序列获取变异蛋白编码长度;根据cds序列、变异cds序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的dna水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。本技术能够对变异描述信息进行自动化校验与修正,提升此部分信息的准确性与规范性,进一步提高解读效率和基因检测报告的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1