一种将基因信息进行二进制表示的存储方法

文档序号:10655815阅读:335来源:国知局
一种将基因信息进行二进制表示的存储方法
【专利摘要】本发明公开了一种将基因信息进行二进制表示的存储方法,所述的方法包括:根据DNA双链结构及碱基配对,由字符代表匹配的碱基对;将四种碱基对进行数值定义并用两位二进制数来表示;三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值表示;以线性映射的方式,将64种碱基组0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。
【专利说明】
-种将基因信息进行二进制表示的存储方法
技术领域
[0001] 本发明设及生物信息领域,设及基因检测后数据存储的处理技术,是一种将基因 信息进行二进制表示的存储方法。
【背景技术】
[0002] 高通量基因测序技术的成熟与普及,使得基因检测的成本也逐渐降低,测序时间 更快,而随着最新的更高通量、更快、成本更低的基因测序技术的研发与商业化,基因测序 业已走进个人基因检测的商业化模式。然而,基因检测所得的数据是海量的,在测序输出的 数据存储格式上,一般WSAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格 式存储能够紧凑的表示出核巧酸序列。运种传统格式存储不但占用巨大的存储空间,而且 不利于对基因数据进行进一步的分析(如人工智能的数据挖掘)。

【发明内容】

[0003] 本发明的目的在于提供一种基因测序后数据信息的二进制表示的存储方法;通过 把生物基因的四种碱基对(A,T,G,C)转换成二进制形式。在缩小了存储空间的同时能更加 便捷的读取分析基因信息。
[0004] 为解决上述问题,本发明提供W下技术方案:
[0005] DNA(Deo巧ribonucleic acid),即脱氧核糖核酸,是一种分子,双链双螺旋结构, 由脱氧核糖核巧酸(成分为:脱氧核糖、憐酸及四种含氮碱基)组成。可组成遗传指令,引导 生物发育与生命机能运作,带有遗传信息的DNA片段称为基因。脱氧核巧酸是基因的基本结 构和功能单位,决定生物的多样性的就是脱氧核巧酸中四种碱基:腺嚷岭(adenine,缩写为 A)、胸腺喀晚(thymine,缩写为T)、胞喀晚(c}ftosine,缩写为C)和鸟嚷岭(guanine,缩写为 G)的排列顺序不同。基因测序得到四种碱基排列顺序的数据信息,将四种碱基排列顺序W 二进制形式表示并进行存储,从而减少存储空间的使用,也方便读取分析基因信息,为基 因信息的大数据挖掘、人工智能数据分析创造良好的应用基础。
[0006] -种基因信息的二进制存储方法,其特征在于,所述的方法包括:
[0007] 根据DNA双链结构及碱基配对,由字符代表匹配的碱基对;
[000引将四种碱基对进行数值定义并用两位二进制数来表示;
[0009]=个碱基对组成的碱基组W6位二进制数值和2位固定赋值组成一个8位一字节的 二进制数值表示;
[0010] W线性映射的方式,将64种碱基组0~63根据Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,W二进制字节 流形式的数据信息进行存储。
[0011] 作为本发明的进一步技术方案:由字符代表匹配的碱基对,根据碱基的固定配对, 由字符4,1',6,巧且成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:
[0012] A:A = T;T:T=A;G:G = C;C:C=G〇
[0013] 作为本发明的进一步技术方案:将四种碱基对进行数值定义并用两位二进制数来 表示,A、T、G、C四种碱基对,利用计算机二进制方法,分别用2位的二进制数值来表示,可W 有24种组合的表示方法,举例1中组合如下:
[0014] a = 00、T = 01、G = 10、C=11。
[0015] 作为本发明的进一步技术方案:碱基组的8位二进制数值表示方法,=个碱基对组 成的碱基组W6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值来表示;2位 的固定赋值可W用〇〇、〇1、1〇、11作为固定值来填充表示;^高位固定赋值是11,由碱基对八、 T、G组合成的碱基组其两位二进制数表示分别是00、01、10为例,由碱基对4、1\6组成的碱基 组的二进制表示为:ATG = 11000110。
[0016] 作为本发明的进一步技术方案:W线性映射的方式,将64种碱基组进行数值映射 并转换成8位二进制数值,根据线性映射的方式,将赋值之后的64种碱基组0~63根据Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均匀映射到0~255中,并将0~255所有数值转 换为8位二进制数;通过该赋值与映射的方式,每一个碱基组即可得到一个固定的8位二进 制数,所有碱基组组合在一起便形成二进制字节流,得到与基因信息两位代表转换法转换 之后同样形式的字节流。
[0017] 与现有技术相比,本发明的有益效果是:本发明通过把生物基因的四种碱基对(A, T,G,C)转换成二进制形式。在缩小了存储空间的同时能更加便捷的读取分析基因信息。
【附图说明】
[0018] 图1是字符与碱基对对应转换关系图。
【具体实施方式】
[0019] 下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范 围。
[0020] 参见说明书附图1,本发明提供一种技术方案:
[0021 ] DNA(Deo巧ribonucleic acid),即脱氧核糖核酸,是一种分子,双链双螺旋结构, 由脱氧核糖核巧酸(成分为:脱氧核糖、憐酸及四种含氮碱基)组成。可组成遗传指令,引导 生物发育与生命机能运作,带有遗传信息的DNA片段称为基因。脱氧核巧酸是基因的基本结 构和功能单位,决定生物的多样性的就是脱氧核巧酸中四种碱基:腺嚷岭(adenine,缩写为 A)、胸腺喀晚(thymine,缩写为T)、胞喀晚(c}ftosine,缩写为C)和鸟嚷岭(guanine,缩写为 G)的排列顺序不同。基因测序得到四种碱基排列顺序的数据信息,将四种碱基排列顺序W 二进制形式表示并进行存储,从而减少存储空间的使用,也方便读取分析基因信息,为基 因信息的大数据挖掘、人工智能数据分析创造良好的应用基础。
[0022] 在DNA双链结构中,碱基的互补配对是固定的,A = T、G = C,所W,由字符A,T,G,C组 成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:
[0023] A:A = T;T:T=A;G:G = C;C:C=G
[0024] 碱基对示例:T ACGAACTGCTA
[002引 ATGCTTGACGAT
[0026] 如上所示,双链上的两个互补配对的碱基称为一个碱基对,如A = T、T = A、G = C、C =G等,=个相邻的碱基对编成一组碱基组。
[0027] 可W利用计算机二进制方法,对每一个碱基对进行数值定义并用两位二进制数来 表示。所有二进制组合如下表: 「00281
[0029]
[0030] DNA上每=个相邻碱基对编成一组命名为碱基组,当碱基组位于基因上时,每个碱 基组对应一个密码子W及氨基酸。碱基组通过两位代表法转换之后生成了一个6位的二进 制数值,并且可W将运个6位数据存储到一个字节(8位)的高位或低位,剩余的2位数值可用 00,01,10,11作为固定值来填充。W高位固定赋值是11,由=个碱基对A、T、G组合成的碱基 组其两位二进制数表示分别是〇〇、〇1、1〇为例,因此由=个碱基对A、T、G组成的碱基组的二 进制表示为ATG = 11000110。
[0031] 每个碱基组都是可W用一个8位二进制数(一个字节)来表示。当所有碱基组都使 用二进制数表示之后,即得到一个新的由二进制数字节流表示的基因信息,再利用字节流 图像表示的方式便可得到一个基因信息转化而成的可视化图像,通过运种方式可W对基因 进行更加直观的研究与分析,并且在存储上节省了大量的存储空间。
[0032] 每个碱基组由=个碱基对组成,碱基对共有四种组合,所W每个碱基组有4~3 = 64 种组合方式。对基因的64种碱基组进行重新编码,将64种碱基组赋予0-63的编号,然后通过 线性映射或可选阀值映射的方式映射到0~255的范围,从而得到一个新的字节流。碱基组 编号如下表所不: r00331

[0034] 线性映射可W有四种方式:Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3,根据线性映 射的方式,将赋值之后的64种碱基组WY = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均 匀映射到0~255中,并将0~255所有数值转换为8位二进制数,通过该赋值与映射的方式, 每一个碱基组即可得到一个固定的8位二进制数,所有碱基组的组合在一起便形成二进制 字节流,得到与基因信息两位代表转换法转换之后同样形式的字节流。W映射公式Y = 4X+1 为例,映射结果如下表:
[0035]
[0036] 通过基因的两位代表转换法W及基因信息映射转换法都可W将多个DNA序列存储 在一个具有随机存取格式的二进制文件当中。文件可包含DNA信息W及需要隐藏的信息。
[0037] 利用数据赋值、两位二进制数表示,对碱基组进行重新编码,编码之后形成的便是 字节流形式的基因数据信息,运种数据可W通过字节流图像表示的方式对基因信息进行可 视化转换,也可W进行W机器学习的算法进行数据挖掘。
[0038] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可W 理解在不脱离本发明的原理和精神的情况下可W对运些实施例进行多种变化、修改、替换 和变型,本发明的范围由所附权利要求及其等同物限定。
【主权项】
1. 一种将基因信息进行二进制表示的存储方法,其特征在于,所述的方法包括: 根据DNA双链结构及碱基配对,由字符代表匹配的碱基对; 将四种碱基对进行数值定义并用两位二进制数来表示; 三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进 制数值表示; 以线性映射的方式,将64种碱基组0~63根据Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3 的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形 式的数据信息进行存储。2. 根据权利要求1所述的一种将基因信息进行二进制表示的存储方法,由字符代表匹 配的碱基对,其特征在于:根据碱基的固定配对,由字符A,T,G,C组成的字符文件,其中每一 个字符代表一个碱基对,转换方式如下所示: A:A = T;T:T=A;G:G = C;C:C = G〇3. 根据权利要求1所述的一种基因信息的二进制存储方法,将四种碱基对进行数值定 义并用两位二进制数来表示,其特征在于4、1\6、(:四种碱基对,利用计算机二进制方法,分 别用2位的二进制数值来表示,可以有24种组合的表示方法,举例1中组合如下: A = 00、T = 01、G=10、C=11〇4. 根据权利要求1所述的一种将基因信息进行二进制表示的存储方法,碱基组的8位二 进制数值表示方法,其特征在于:三个碱基对组成的碱基组以6位二进制数值和2位固定赋 值组成一个8位一字节的二进制数值来表示;2位的固定赋值可以用00、01、10、11作为固定 值来填充表示;以高位固定赋值是11,由碱基对A、T、G组合成的碱基组其两位二进制数表示 分别是00、01、10为例,由碱基对A、T、G组成的碱基组的二进制表示为:ATG = 11000110。5. 根据权利要求1所述的一种将基因信息进行二进制表示的存储方法,以线性映射的 方式,将64种碱基组进行数值映射并转换成8位二进制数值,其特征在于:根据线性映射的 方式,将赋值之后的64种碱基组0~63根据Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式 均匀映射到〇~255中,并将0~255所有数值转换为8位二进制数;通过该赋值与映射的方 式,每一个碱基组即可得到一个固定的8位二进制数,所有碱基组组合在一起便形成二进制 字节流,得到与基因信息两位代表转换法转换之后同样形式的字节流。
【文档编号】G06F19/28GK106022006SQ201610390134
【公开日】2016年10月12日
【申请日】2016年6月2日
【发明人】谢清禄, 徐宏锴, 朱军, 余孟春
【申请人】广州麦仑信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1