本发明属于生物信息学或基因技术的技术领域,涉及一种分析生物基因组基因表达、拷贝数变异的可视化方法。
背景技术:
随着生物科学的发展,人类基因组计划完成后,人类对生命现象的探索越来越深入。我们已经知道人体基因约含3万多个基因,它们由约30亿个碱基对组成,分布在细胞核的23对染色体中。
dna序列总量实在是一个天文数字,然而研究dna及其编码的功能大分子蛋白质,对逐日增多的序列和结构进行收集、整理、储存、发布、提取和加工。并从中分析和发现新的序列,从而不断揭示人体生理和病理过程的分子基础,为人类疾病的预防、诊断和治疗提供依据,其意义是十分重大的,并已形成了“生物信息学”一门新兴学科。
全基因组基因表达量和拷贝数变异的可视化方式的研究,也是一个重要的内容。目前全基因组基因表达量和拷贝数变异可视化方式,比较常见的有曼哈顿图,这种图,比较单一,其特点是直观方便,
但是在两种癌症类型下进行基因表达量或者拷贝数变异对比的时候,或者在同一个癌症类型下正常类型样本和肿瘤类型样本的基因表达量或者拷贝数变异对比的时候不能直观的反映哪种类型的癌症或者哪种类型样本的值大;
对于基因表达量,曼哈顿图不能直观显示出基因是过表达呢还是表达不足;对于拷贝数变异,曼哈顿图不能直观显示出基因是扩增还是丢失。
技术实现要素:
为了解决现有技术中存在的问题,本发明提供一种分析生物基因组基因表达、拷贝数变异的可视化方法,高级曼哈顿图(deflectionplot),克服现有技术中在两种癌症类型下进行基因表达量或者拷贝数变异比较,或者在同一个癌症类型下正常类型样本和肿瘤类型样本的基因表达量或者拷贝数变异对比不能满足需求的问题。
本发明的技术方案是:一种分析生物基因组基因表达、拷贝数变异的可视化方法,包括以下步骤:
(1)横纵坐标的确定:把每个染色体的所有基因(22条染色体,也就是22个图),按照每个基因的起始位置作为横坐标;用matlab软件中的独立样本检验函数ttest2,然后每个基因会得到一个p值,然后对p值进行处理,-10log10(p)这个值始终是正的,我们将这个值作为纵坐标的幅度值;
(2)颜色的确定:事先需要规定两组样本的颜色,然后用matlab中的中位数函数,遍历出这两组样本中每个基因的拷贝数的中位数值,然后比较每个基因的两个中位数,谁的中位数值大,则颜色就取规定的该中位数所属组的颜色;
(3)y轴朝向的确定:在找到每个基因拷贝数中位数值大的所属的样本组后,拿这个大的基因拷贝数值中位数和该组所属的癌症类型中的正常样本的基因拷贝数中位数值做差,做差后的结果,如果值是正值则纵轴方向朝上,如果值是负值则纵轴方向朝下;
(4)绘制线:用matlab中的line函数;
(5)垂直虚线:因为中心体也有具体的位置,同样可以用line函数,把虚线绘制出来;
(6)百分比值的确定:用bonferonni校正的p值为2*10的-6次,做水平虚线,然后计算每个染色体中的p臂或者q臂中,p值大于那条水平虚线阈值的基因个数占该染色体整个p臂或者q臂的比例。
所述步骤(2)两组样本可以是两种癌症样本,或者是同一种癌症下的肿瘤样本和正常样本。
本发明的有益效果是:相比之前的可视化方法,我们用的这种可视化方法,在两种癌症类型下进行基因表达量或者拷贝数变异对比的时候,或者在同一个癌症类型下正常类型样本和肿瘤类型样本的基因表达量或者拷贝数变异对比的时候可以直观的反映哪种类型的癌症或者哪种类型样本的值大;
对于基因表达量,高级曼哈顿图可以直观显示出基因是过表达呢还是表达不足;对于拷贝数变异,高级曼哈顿图可以直观显示出基因是扩增还是丢失。
附图说明
图1是关于肺腺癌和肺鳞状细胞癌两种癌症类型的拷贝数变异的偏移图;
其中基因组拷贝数在tcga数据集中将肺腺癌与肺鳞状细胞癌的肿瘤样本区分开来,红色表示肺腺癌的偏移量较大,而蓝色表示肺鳞状细胞癌的偏移量较大;对应于bonferonni校正的p值为2*10的-6次的虚线水平线;图中的百分比显示了每个臂的bonneferoni校正后两种肿瘤类型之间的差异(基因百分比);垂直虚线将每个染色体的数据分割开来,单个染色体数据中的间隙表示中心体的位置。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
以肺腺癌和肺鳞状细胞癌来介绍这种可视化方法。对于一种癌症类型,人体基因约含3万多个基因,每个基因都有具体对应的几号染色体和对应的具体的起始位置ucstart,我们把每个染色体的所有基因,按照每个基因的ucstart位置作为横坐标;利用肺腺癌和肺鳞状细胞癌这两种癌症对应的肿瘤样本的拷贝数,我们用这两组样本做t检验,然后计算出每个基因的p值,-10log10(pvalue)值作为每个基因的纵坐标的值。然后遍历出这两种癌症肿瘤样本每个基因的拷贝数的中位数,然后比较每个基因在这两种癌症下的两个中位数,在这里我们规定红色表示刚才被比较的那个基因的拷贝数中位数大的是肺腺癌,反之蓝色表示刚才被比较的那个基因的拷贝数中位数大的是肺鳞状细胞癌。然后找到基因拷贝数的中位数大的所属的癌症类型后,拿这个大的基因拷贝数中位数和所属的癌症类型中的正常样本的基因拷贝数中位数做差,如果值是正的则纵轴方向朝上,如果值是负的则纵轴方向朝下。垂直虚线将每个染色体的数据分割开来,也就是将染色体p臂,q臂上的基因分隔开来。单个染色体数据中的间隙表示中心体的位置。
总之,本发明的可视化方法,在两个癌症类型下进行拷贝数变异或者表达量对比,或者在同一个癌症类型下肿瘤类型样本和正常类型样本的拷贝数变异或者表达量的对比,这两种情况都可以做。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。