一种将基因信息进行可视化图像表示的方法

文档序号:10725449阅读:811来源:国知局
一种将基因信息进行可视化图像表示的方法
【专利摘要】本发明公开了一种基因信息的可视化图像表示方法,在基因信息的二进制存储的基础上,通过字节流图像表示的方式对基因信息进行可视化转换,转换成可视的图像信息表示。该方法利用二进制转换的方法,把基因信息转化为一个二进制字节流,根据不同的颜色空间,将字节流数据转换形成二维的图像数据,可选的色彩空间包括:RGB、HSV、GRAY单通道;二维图像矩阵的结构可采取固定列,或固定行,或正方形拟合三种方式;在运用程序进行转换时,每个碱基组得到一个固定的8位二进制数,然后8位二进制数再乘以4作为H(色度)值,128作为S(饱和度)值,128作为V(亮度)值,生成HSV颜色模型,然后再转换成RGB颜色模型,最后生成JPG格式的可视化图像。
【专利说明】
一种将基因信息进行可视化图像表示的方法
技术领域
[0001]本发明涉及生物信息领域,涉及基因检测后数据存储的处理技术,是一种将基因信息进行可视化图像表示的方法。
【背景技术】
[0002]高通量基因测序技术的成熟与普及,使得基因检测的成本也逐渐降低,测序时间更快,而随着最新的更高通量、更快、成本更低的基因测序技术的研发与商业化,基因测序业已走进个人基因检测的商业化模式。然而,基因检测所得的数据是海量的,在测序输出的数据存储格式上,一般以SAM(Sequence Alignment Map)/BAM(Binary Alignment Map )格式存储能够紧凑的表示出核苷酸序列。这种传统格式存储不但占用巨大的存储空间,而且不利于对基因数据进行进一步的分析和以机器学习的算法进行数据挖掘。

【发明内容】

[0003]本发明的目的在于提供一种将基因信息进行可视化图像表示的方法。
[0004]为解决上述问题,本发明提供以下技术方案:
DNACDeoxyribonucleic acid),即脱氧核糖核酸,是一种分子,双链双螺旋结构,由脱氧核糖核苷酸(成分为:脱氧核糖、磷酸及四种含氮碱基)组成。可组成遗传指令,引导生物发育与生命机能运作,带有遗传信息的DNA片段称为基因。脱氧核苷酸是基因的基本结构和功能单位,决定生物的多样性的就是脱氧核苷酸中四种碱基:腺嘌呤(adenine,缩写为A)、胸腺啼啶(thymine,缩写为T)、胞啼啶(cytosine,缩写为C)和鸟嘌呤(guanine,缩写为G)的排列顺序不同。基因测序得到四种碱基排列顺序的数据信息,将四种碱基排列顺序以二进制形式表示并进行存储,从而减少存储空间的使用,也方便读取分析基因信息,为基因信息的大数据挖掘、人工智能数据分析创造良好的应用基础。
[0005]在DNA双链结构中,碱基的互补配对是固定的,A=T、G=C,所以,由字符A、T、G、C组成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:
A:A=T;T:T=A;G:G=C;C:C=G碱基对示例:T ACGAACTGCTAATGCTTGACGAT如上所示,双链上的两个互补配对的碱基称为一个碱基对,如A=T、T=A、G=C、C=G等,三个相邻的碱基对编成一组碱基组。
[0006]通过基因信息的二进制表示以及基因信息映射转换可以将DNA序列存储在一个具有随机存取格式的二进制文件当中。文件可包含DNA信息以及需要隐藏的信息。
[0007]利用数据赋值、两位二进制数表示,对碱基组进行重新编码,编码之后形成的便是字节流形式的基因数据信息,这种数据可以通过字节流图像表示的方式对基因信息进行可视化转换,也可以进行以机器学习的算法进行数据挖掘。
[0008]利用二进制转换的方法,把基因信息转化为一个二进制字节流,根据不同的颜色空间,将字节流数据转换形成二维的图像数据。可选的颜色空间包括:RGB、HSV、GRAY单通道。
[0009]二维图像矩阵的结构可采取固定列、或固定行、或正方形拟合三种方式:
固定列:固定列是指图像的高度采用可设定的固定值,宽度根据不同基因文件的大小而定。
[0010]固定行:固定行是指图像的宽度采用可设定的固定值,高度根据不同基因文件的大小而定。
[0011]正方形拟合:正方形拟合法是找到最靠近字节流长度且大于字节流长度的平方数作为图像的面积,图像长宽相等,都等于平方数的开方,不足的色块用固定颜色来进行填充。
[0012]程序运行步骤:
C:\Users\wei>e
E:\>cd TransforJpg
E:\TransforJpg>cd X64
E:\TransforJpg\X 64>cd Release
E:\TransforJpg\X64\Release>TransforJpg.exe
E: \\关于基因数据转换及可视化项目说明
在运用程序进行转换时,每个碱基组得到一个固定的8位二进制数,然后8位二进制数再乘以4作为H(色度)值,128作为S(饱和度)值,128作为V(亮度)值,生成HSV颜色模型,然后再转换成RGB颜色模型,最后生成JPG格式的可视化图像。
[0013]与现有技术相比,本发明的有益效果是:该将基因信息进行可视化图像表示的方法,通过字节流图像表示的方式对基因信息进行可视化转换,转换成可视的图像信息表示,有利于以机器学习及图像识别技术对基因信息进行解读和分析。
【附图说明】
[0014]图1为本发明的流程图。
[0015]图2是基因信息经可视化图像转换后的JPG格式二维图像。
【具体实施方式】
[0016]下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0017]参见说明书附图1-2,本发明提供一种技术方案:
在DNA双链结构中,碱基的互补配对是固定的,A=T、G=C,所以,由字符A、T、G、C组成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:
A:A=T;T:T=A;G:G=C;C:C=G碱基对示例:T ACGAACTGCTAATGCTTGACGAT 如上所示,双链上的两个互补配对的碱基称为一个碱基对,如A=T、T=A、G=C、C=G等,三个相邻的碱基对编成一组碱基组。
[0018]—种将基因信息进行可视化图像表示的方法,通过基因信息的二进制表示以及基因信息映射转换可以将DNA序列存储在一个具有随机存取格式的二进制文件当中。文件可包含DNA信息以及需要隐藏的信息。
[0019]利用数据赋值、两位二进制数表示,对碱基组进行重新编码,编码之后形成的便是字节流形式的基因数据信息,这种数据可以通过字节流图像表示的方式对基因信息进行可视化转换,也可以进行以机器学习的算法进行数据挖掘。
[0020]利用二进制转换的方法,把基因信息转化为一个二进制字节流,根据不同的颜色空间,将字节流数据转换形成二维的图像数据。可选的颜色空间包括:RGB、HSV、GRAY单通道。
[0021]二维图像矩阵的结构可采取固定列、或固定行、或正方形拟合三种方式:
固定列:固定列是指图像的高度采用可设定的固定值,宽度根据不同基因文件的大小而定。
[0022]固定行:固定行是指图像的宽度采用可设定的固定值,高度根据不同基因文件的大小而定。
[0023]正方形拟合:正方形拟合法是找到最靠近字节流长度且大于字节流长度的平方数作为图像的面积,图像长宽相等,都等于平方数的开方,不足的色块用固定颜色来进行填充。
[0024]程序运行步骤:
C:\Users\wei>e
E:\>cd TransforJpg
E:\TransforJpg>cd X64
E:\TransforJpg\X 64>cd Release
E:\TransforJpg\X64\Release>TransforJpg.exe
E: \\关于基因数据转换及可视化项目说明
在运用程序进行转换时,每个碱基组得到一个固定的8位二进制数,然后8位二进制数再乘以4作为H(色度)值,128作为S(饱和度)值,128作为V(亮度)值,生成HSV颜色模型,然后再转换成RGB颜色模型,最后生成JPG格式的可视化图像。
[0025]尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
【主权项】
1.一种基因信息的可视化图像表示方法,其特征在于,所述的方法包括: 利用二进制转换的方法,把基因信息转化为一个二进制字节流,根据不同的颜色空间,将字节流数据转换形成二维的图像数据; 形成二维图像矩阵的结构可采取固定列、或固定行、或正方形拟合三种方式; 运行程序进行转换,基因信息的二进制字节流生成HSV颜色模型,再转换至RGB颜色模型,最后生成JPG格式的可视化图像。2.根据权利要求1所述的基因信息的可视化图像表示方法,其特征在于:将二进制字节流形式的基因信息,根据颜色空间模型,转化形成二维的图像数据;可用的颜色空间模型包括:RGB、HSV、GRAY 单通道。3.根据权利要求1所述的基因信息的可视化图像表示方法,形成二维图像矩阵的结构可采取固定列、或固定行、或正方形拟合三种方式: 固定列:固定列是指图像的高度采用可设定的固定值,宽度根据不同基因文件的大小而定; 固定行:固定行是指图像的宽度采用可设定的固定值,高度根据不同基因文件的大小而定; 正方形拟合:正方形拟合法是找到最靠近字节流长度且大于字节流长度的平方数作为图像的面积,图像长宽相等,都等于平方数的开方,不足的色块用固定颜色来进行填充。4.根据权利要求1所述的基因信息的可视化图像表示方法,运行程序进行转换: C:\Users\wei>e E:\>cd TransforJpg E:\TransforJpg>cd X64 E:\TransforJpg\X64>cd Release E:\TransforJpg\X64\Release>TransforJpg.exe E: \\关于基因数据转换及可视化项目说明。5.根据权利要求1所述的基因信息的可视化图像表示方法,运行程序进行可视化图像转换,其特征在于:在运用程序进行转换时,每个碱基组得到一个固定的8位二进制数,然后8位二进制数再乘以4作为H(色度)值,128作为S(饱和度)值,128作为V(亮度)值,生成HSV颜色模型,然后再转换成RGB颜色模型,最后生成JPG格式的可视化图像。
【文档编号】G06F19/26GK106096333SQ201610382945
【公开日】2016年11月9日
【申请日】2016年6月2日 公开号201610382945.3, CN 106096333 A, CN 106096333A, CN 201610382945, CN-A-106096333, CN106096333 A, CN106096333A, CN201610382945, CN201610382945.3
【发明人】谢清禄, 徐宏锴, 朱军, 余孟春
【申请人】广州麦仑信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1