基因变异信息编码方法、装置、设备及其存储介质与流程

文档序号:37271901发布日期:2024-03-12 21:01阅读:21来源:国知局
基因变异信息编码方法、装置、设备及其存储介质与流程

本技术涉及生物信息,尤其涉及一种基因变异信息编码方法、装置、设备及其存储介质。


背景技术:

1、基因变异(variant)是指两个基因组之间存在差异的基因组特定区域,在基因组学中最常见的变异形式有单核苷酸变异、变异插入/缺失等。一般来说,基因变异的变异信息包括:变异发生的染色体、变异发生的基因组坐标、参考等位基因/碱基和替代等位基因/碱基,而将基因变异的变异信息进行规范化的编码是基因变异解读中不可或缺的一部分。

2、常规的基因变异信息的编码方法是通过对已有的基因变异情况赋予一个唯一且固定的编号,进而对新增的变异信息则在编号后自增数字串实现编码;但由于变异数据无法全部穷举,因此,编码后所得的编码结果无法固定长度,编码结果的数据量较大,进而导致基因变异信息编码的计算复杂度较高。

3、上述内容仅用于辅助理解本技术的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本技术的主要目的在于提供一种基因变异信息编码方法、装置、设备及其存储介质,旨在解决常规的基因变异信息编码方法的编码结果数据量较大的技术问题。

2、为实现上述目的,本技术提供一种基因变异信息编码方法,所述基因变异信息编码方法包括:

3、获取基因变异信息的原始数据;

4、根据变异位置对所述原始数据进行拆分,得到以不同变异位置为单位的变异数据;

5、基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以所述目标变异位置为单位的目标变异数据进行编码,得到所述目标变异数据的编码结果;

6、将所述原始数据拆分所得的变异数据的编码结果进行组合,得到所述基因变异信息的编码数据。

7、可选地,所述变异数据包括以染色体为单位的染色体变异数据,所述基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以所述目标变异位置为单位的目标变异数据进行编码,得到所述目标变异数据的编码结果的步骤包括:

8、确定所述染色体变异数据中的变异染色体编号;

9、根据预设的染色体编号与字母之间的映射关系,匹配得到所述变异染色体编号对应的目标字母,并将所述目标字母作为所述染色体变异数据的编码结果。

10、可选地,所述染色体编号包括:常染色体编号、性染色体编号和线粒体染色体编号,在所述基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以所述目标变异位置为单位的目标变异数据进行编码的步骤之前,还包括:

11、识别预设字母表中与所述性染色体编号或所述线粒体染色体编号存在相同字母的字母,作为第一字母,并分别建立各所述第一字母与存在相同字母的所述性染色体编号或所述线粒体染色体编号之间的第一映射关系;

12、根据所述预设字母表中的字母顺序和所述常染色体编号的编号顺序,建立所述预设字母表中除所述第一字母之外的字母与所述常染色体编号之间的第二映射关系;

13、将所述第一映射关系和所述第二映射关系,作为所述染色体编号与字母之间的映射关系。

14、可选地,所述变异数据包括以基因组为单位的基因组变异数据,所述基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以所述目标变异位置为单位的目标变异数据进行编码,得到所述目标变异数据的编码结果的步骤,还包括:

15、确定所述基因组变异数据中的变异基因组坐标;

16、对所述变异基因组坐标进行进制转换,得到基因组字符串,并将所述基因组字符串作为所述基因组变异数据的编码结果。

17、可选地,所述对所述变异基因组坐标进行进制转换的步骤包括:

18、对所述变异基因组坐标进行六十二进制转换。

19、可选地,所述变异数据包括以等位基因为单位的等位基因变异数据,所述基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以所述目标变异位置为单位的目标变异数据进行编码,得到所述目标变异数据的编码结果的步骤,还包括:

20、确定所述等位基因变异数据中的参考等位基因和替代等位基因,并将所述参考等位基因和所述替代等位基因进行组合,以作为待编码字符串;

21、根据预设的二进制编规则,对所述待编码字符串进行编码,得到所述待编码字符串的第一编码字符串,其中,所述第一编码字符串为二进制字符串;

22、对所述第一编码字符串进行进制转换,得到第二编码字符串,并将所述第二编码字符串作为所述等位基因变异数据的编码结果。

23、可选地,在所述对所述第一编码字符串进行进制转换的步骤之前,还包括:

24、对所述第一编码字符串进行crc计算,以压缩所述第一编码字符串。

25、本技术还提供一种基因变异信息编码装置,所述基因变异信息编码装置包括:

26、获取模块,用于获取基因变异信息的原始数据;

27、拆分模块,用于根据变异位置对所述原始数据进行拆分,得到以不同变异位置为单位的变异数据;

28、编码模块,用于基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以所述目标变异位置为单位的目标变异数据进行编码,得到所述目标变异数据的编码结果;

29、组合模块,用于将所述原始数据拆分所得的变异数据的编码结果进行组合,得到所述基因变异信息的编码数据。

30、本技术还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基因变异信息编码程序,所述基因变异信息编码程序配置为实现上述的基因变异信息编码方法的步骤。

31、本技术还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有基因变异信息编码程序,所述基因变异信息编码程序被处理器执行以实现上述的基因变异信息编码方法的步骤。

32、本技术公开了一种基因变异信息编码方法,通过获取基因变异信息的原始数据,并根据变异位置对原始数据进行拆分,得到以不同变异位置为单位的变异数据;进而基于预设的基因编码规则中与目标变异位置相匹配的目标编码规则,对以目标变异位置为单位的目标变异数据进行编码,得到目标变异数据对应的编码结果;进而将原始数据拆分所得的变异数据对应的编码结果进行组合,得到基因变异信息的编码数据;基于基因变异信息的内容,例如,变异发生的染色体、变异发生的基因组坐标、参考等位基因/碱基和替代等位基因/碱基等对原始数据进行拆分,从而得到以不同变异位置为单位的多个变异数据;由于以不同变异位置为单位的变异数据,其原始的数据之间的数据量存在较大差异,因此根据不同的变异位置,针对性的使用相匹配的编码规则对变异数据进行编码,能够在尽量减少计算量和计算复杂度的基础上,对变异数据进行编码;而预设的基因编码规则中的各编码规则,能够结合以各变异位置为单位的变异数据的特征进行编码;相较于常规的在编号后自增数字串的编码方式,本技术能够极大减少编码后的编码数据的数据量;进而能够减少基因变异信息存储时所需的存储资源和使用时的计算复杂度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1