一种在染色体上定位并显示生物基因表达信息及环境敏感区域的方法

文档序号:6623281阅读:398来源:国知局
一种在染色体上定位并显示生物基因表达信息及环境敏感区域的方法
【专利摘要】本发明提供了一种在染色体上定位显示生物基因表达信息及环境敏感区域的方法以及系统。该方法包括:下载生物染色体基因组序列;读入相应生物样本基因表达芯片数据后经对照处理、对数处理和归一化处理,得环境条件值;将基因表达芯片数据矩阵中的基因名字与下载的生物染色体基因序列中基因名字相匹配后,将基因的环境条件值定位到生物体基因组序列中对应基因位置上;根据定位的环境条件值,得生物染色体基因组上基因表达图像以及环境敏感区域。本发明实现了表达变化的基因在染色体上的分布特征的可视化功能,可获得环境敏感区域基因的分布特征数据,为在染色体层面上分析基因表达变化敏感区域,推测环境敏感型的转录因子提供有效的帮助。
【专利说明】一种在染色体上定位并显示生物基因表达信息及环境敏感区域的方法

【技术领域】
[0001]本发明属于生物信息【技术领域】,涉及一种可以将基因表达信息定位到染色体上进而分析染色体上基因表达变化敏感区域的方法。

【背景技术】
[0002]基因芯片技术采用光导原位合成或直接微量点样等方法,将大量DNA片段或寡核苷酸片段有序地固化于滤膜、硅片等支持物的表面,待检样品用同位素或荧光分子标记后,与微矩阵杂交,通过检测每个探针分子的杂交信号强度,进而获取样品分子的数量和序列信息。目前基因芯片主要用于基因表达水平的检测,基因诊断,药物筛选,个体化医疗,测序服务以及生物信息学等方面的研究。
[0003]表达谱基因芯片的出现为检测整个基因组的表达情况提供了极为有力的帮助。一次微阵列实验能获得细胞在某一条件下的全基因组表达数据,构成了一个数据矩阵集,行向量代表基因,列向量代表某一条件各基因的表达水平。成千上万个基因表达数据很难人工查找计算,迫切需要计算机参与处理以获取所需信息。然而基因表达谱分析技术尚处于发展初期,开发适时高效的生物学软件已成为当务之急。
[0004]模式生物在生物学和医学研究中占有十分重要的地位,其研究结果可以推演和应用到人类遗传、疾病等生命科学的研究中。秀丽隐杆线虫(简称线虫)具有基因测序完整、基因与人类同源性很高、细胞发育谱系清晰等特点,被广泛应用到各项生物学和医学研究中,是一种经典的模式生物学材料。与正常环境下的线虫相比,特定环境会诱导线虫某些基因的表达水平发生上调或者下调的改变,进而导致基因转录成mRNA和翻译成蛋白质时受到正性或负性调控,影响生物体的行为,表型,生理活动,甚至导致癌症或死亡。本发明中,经过特定环境处理的线虫同一染色体上三个或三个以上的相邻位点上,基因表达信息连续发生上调或者下调变化的基因区域被推测为基因表达热点区域,即可能的基因表达变化环境敏感区域。
[0005]染色体的结构、基因表达以及调控之间能够相互影响。从基因组以至染色体层面分析基因表达情况,将基因表达信息回归定位到相应染色体上进行生物功能预测和分析是生物学重要的研究内容。基因芯片测得的原始的线虫全基因组表达数据虽然具有线虫完整的基因表达信息,但是并未按照线虫基因在染色体上对应的位置顺序排序。生物学研究者要分析表达改变的基因所对应编码的DNA序列是否是环境易感区,即表达热点区域在染色体上的分布情况,需要先将其回归定位到基因所在的染色体上,再根据表达信息产生变化的基因在对应染色体上的分布位置,获取染色体上环境诱变的上下调控的基因区域信息。这对于从基因组以至染色体层面分析环境诱变的生物学效应具有重要的意义。因此很有必要开发一种能够在染色体上定位显示模式生物基因表达信息的软件。


【发明内容】

[0006]本发明的目的是提供一种可以引入模式生物数据库且可将基因表达信息定位到染色体上进而分析染色体上基因表达变化敏感区域的方法,从而为在染色体层面上分析基因表达变化敏感区域提供数据处理和信息可视化辅助技术。
[0007]本发明的第一方面提供一种在染色体上定位显示生物基因表达信息及环境敏感区域的方法,包括以下步骤:
[0008](a)从NCBI公共数据库下载生物染色体基因组序列;
[0009](b)读入相应生物样本基因表达芯片数据,所述基因表达芯片数据包括来自实验环境条件下的受试组样品和对照组样品的基因组基因的绝对表达量,将同一基因在受试组和对照组中的绝对表达量相除可获得该基因的基因表达倍数比值;所述对照组为在非实验环境条件下的样品;
[0010](C)将基因表达倍数比值数据以2为底数求对数值;
[0011](d)将步骤(C)得到的所有基因表达倍数比值数据的对数值进行归一化处理得环境条件值:将对数值大于等于I的基因的环境条件值规定为1,对数值小于等于-1的基因的环境条件值规定为-1,对数值大于-1小于I的基因的环境条件值与对数值相同;
[0012](e)将基因表达芯片数据矩阵中的基因名字与步骤(a)中下载的生物染色体基因序列中基因名字相匹配,匹配成功后,将步骤(d)得到的所有基因的环境条件值定位到生物体基因组序列中对应基因位置上;
[0013](f)根据定位到生物体基因组序列中对应基因位置上的环境条件值,划定实验环境条件下的基因界定条件,得生物染色体基因组上基因表达图像;
[0014]其中,环境条件值为I的染色体基因的位置填充红色,表示在实验环境条件下的上调基因;环境条件值为-1的染色体基因的位置填充蓝色,表示在实验环境条件下的下调基因;环境条件值大于-1小于I的染色体基因位置填充白色,表示在实验环境条件下的未见异常基因,未能匹配成功的染色体基因位置填充灰色,表示在实验环境条件下的未能匹配成功基因;
[0015](g)根据染色体基因组上基因表达图像,判断环境敏感区域,所述判断环境敏感区域的标准为:同一染色体上连续三个或三个以上被标记为红色或者蓝色的区域被推测为环境敏感区域。
[0016]在上述技术方案中,步骤(b)中,所述绝对表达量,是指样品mRNA与带有荧光标记物的cDNA探针结合后,反映在基因芯片上的荧光强度(光密度值)。所述对照组除了实验环境条件与受试组不同之外,其他条件均与受试组相同,对照组通过比对消除非实验环境的影响。
[0017]进一步,在上述技术方案中,所述步骤(f)还包括,统计和计算染色体基因中上调基因、下调基因、未见异常基因、未能匹配成功基因的数量和比例的步骤。
[0018]进一步,在上述技术方案中,所述步骤(g)还包括,统计和记录所有环境敏感区域基因的名称、在染色体上的绝对位置以及在基因表达图像中的相对位置的步骤。
[0019]进一步,在上述技术方案中,所述步骤(g)还包括,按照基因在染色体上的先后顺序导出环境敏感区域基因的基因表达芯片数据的步骤。所述环境敏感区域基因的基因表达芯片数据是指环境敏感区域基因的原始表达信息,即在上述步骤(b)中所述的在实验环境条件下的受试组样品和对照组样品的基因组基因的绝对表达量。
[0020]在上述技术方案中,在步骤(e)中,把步骤(a)中下载的生物染色体基因序列中所有的基因名和本地芯片表达数据集中的名字信息相匹配后,将环境条件值定位到生物体基因组序列中对应基因位置上,并记录在芯片表达数据集中的匹配位置,根据匹配位置查找基因的环境条件值。若未能查找成功,对应基因的环境条件值取10,即认为该基因的表达为空;对于查找成功的基因,若是查找结果只有一条基因表达信息,则直接取作该基因的表达值,若是查找结果大于一条基因信息,则取表达值绝对值最大的数据作为该基因的表达数据。将单个染色体上所有的表达结果按照基因所在染色体上的排序存储到一个列表中,以便后续画图及统计时用。
[0021]本发明的第二方面提供一种在染色体上定位显示生物基因表达信息及环境敏感区域的系统,该系统包括:
[0022]生物染色体基因信息下载单元,用于从NCBI公共数据库下载生物染色体基因组序列;
[0023]基因表达数据处理单元,用于读入相应生物样本基因表达芯片数据,并通过对照处理模块、对数处理模块和归一化处理模块处理读入的基因表达芯片数据,由此划定实验环境条件下的基因界定条件;所述基因表达芯片数据包括来自实验环境条件下的受试组样品和对照组样品的基因组基因的绝对表达量,所述对照组为在非实验环境条件下的样品;
[0024]所述对照处理模块,用于对所述基因表达芯片数据中的同一基因在受试组和对照组中的绝对表达量相除获得基因表达倍数比值;
[0025]所述对数处理模块,用于将所述基因表达倍数比值数据以2为底数求对数值;
[0026]所述归一化处理模块,用于对数处理单元得到的所有基因表达倍数比值数据的对数值得环境条件值:将对数值大于等于I的基因的环境条件值规定为1,对数值小于等于-1的基因的环境条件值规定为-1,对数值大于-1小于I的基因的环境条件值与对数值相同;
[0027]基因信息加载匹配单元,用于将基因芯片表达数据矩阵中的基因名字与下载的生物染色体基因组序列中基因名字相匹配,匹配成功后,将环境条件值定位到生物体基因组序列中对应基因位置上;
[0028]生成文件单元,包括4个功能模块,包括:
[0029](I)生成染色体上基因表达信息图像模块,用于根据定位到生物体基因组序列中对应基因位置上的环境条件值,得生物染色体基因组上基因表达图像;其中,环境条件值为I的染色体基因的位置填充红色,表示在实验环境条件下的上调基因;环境条件值为-1的染色体基因的位置填充蓝色,表示在实验环境条件下的下调基因;环境条件值大于-1小于I的染色体基因位置填充白色,表示在实验环境条件下的未见异常基因,未能匹配成功的染色体基因位置填充灰色,表示在实验环境条件下的未能匹配成功基因;
[0030](2)生成不同变化模式的基因统计文件模块,用于计算将通过基因信息加载匹配模块匹配完成的染色体上的上调基因、下调基因、未见异常基因、未能匹配成功基因的数量和比例,将输出存储到.txt文件中;
[0031](3)生成环境敏感区域基因信息统计文件模块,用于根据基因组上基因表达图像,判断环境敏感区域,记录所有环境敏感区域基因的名称,在染色体上的绝对位置以及在基因表达图像中的相对位置后,将所述信息输出储存到.txt文件中;所述判断环境敏感区域的标准为:同一基因组上连续三个或三个以上被标记为红色或者蓝色的区域被推测为环境敏感区域;
[0032](4)生成环境敏感区域基因原始信息导出文件模块,将环境敏感区域基因的基因表达芯片数据按照在染色体上的先后顺序存储到Excel表格中,实现环境敏感区域信息在染色体上的定位查找功能。
[0033]本发明的有益效果:本发明提供了一种将基因表达信息定位到染色体上进而分析染色体上基因表达变化敏感区域的方法及系统。本发明实现了表达变化的基因在染色体上的分布特征的可视化功能,并可获得基因表达环境敏感区域的分布特征数据,从而为在染色体层面上分析基因表达变化敏感区域,推测环境敏感型的转录因子提供有效的帮助,有利于从获取的生物学信息来阐明更多的生物学问题。

【专利附图】

【附图说明】
[0034]图1为本发明方法的实现流程图;
[0035]图2为构建本发明方法的系统;
[0036]图3是线虫I号染色体基因表达信息图像;
[0037]图4是线虫I号染色体基因中不同表达信息基因的个数和比列统计结果;
[0038]图5是线虫I号染色体基因中部分环境敏感区域基因信息统计结果。

【具体实施方式】
[0039]下面主要结合附图和具体实施例对本发明的构建和结果进行详细描述。但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。
[0040]下面以线虫全基因组为例详细说明本发明。
[0041]线虫全基因组基因表达芯片:上海康成生物公司
[0042]线虫全基因组基因表达芯片数据,包括两组数据,分别为:
[0043]第一组为受试组:在空间飞行环境条件下处理16.5天后,收集线虫,提取得到总RNA,利用Invitrogen Superscript试剂盒合成ds-cDNA,并对其进行单色突光标记(NimbleGen)。使用NimbleGen芯片杂交系统和Axon GenePix 4000B芯片扫描仪进行突光杂交和对突光结果扫描,最后利用NimbleScan software (vers1n 2.5)以及AgilentGeneSpring GX software (vers1n 11.5.1)对芯片结果进行读取和分析,获得在实验环境条件下的线虫全基因组基因绝对表达量数据
[0044]第二组为对照组:在地面条件下同步培养16.5天后,收集线虫,提取得到未经空间飞行环境处理的线虫总RNA,按上述受试组相同的方法,获得在地面条件下的线虫全基因组基因绝对表达量数据,作为对照。
[0045]在实际应用中,通过对照组的比对消除非实验变量的影响,使受试组的数据更为正确的反映在某一环境条件下的基因变化情况。
[0046]按照下述方法在线虫染色体上定位显示在空间飞行环境条件下的线虫基因表达信息及环境敏感区域:
[0047](I)下载基因信息:访问NCBI基因数据库,下载Caenorhabditis elegans (线虫)六个染色体完整的基因信息数据并保存;
[0048](2)读入上述受试组和对照组的线虫全基因组基因绝对表达量数据,将同一基因在受试组和对照组中的绝对表达量相除获得相应基因的基因表达倍数比值;
[0049](3)将基因表达倍数比值数据以2为底数求对数值,处理结果存储到预先定义的同样维度的矩阵变量中。对数处理后的结果数据取值范围一般在0-4之间;
[0050](4)将步骤(3)得到的所有基因表达倍数比值数据的对数值进行归一化处理得所有基因的环境条件值:将对数值大于等于I的基因的环境条件值规定为1,对数值小于等于-1的基因的环境条件值规定为-1,对数值大于-1小于I的基因的环境条件值与对数值相同;
[0051](5)将芯片表达数据矩阵中的基因名字与步骤(I)中下载的线虫染色体基因序列中基因名字相匹配,匹配成功后,将步骤(4)得到的环境条件值定位到线虫染色体基因组序列中对应基因位置上;根据匹配位置查找基因的环境条件值。若未能查找成功,对应基因的环境条件值取10,即认为该基因的表达为空;对于查找成功的基因,若是查找结果只有一条基因表达信息,则直接取作该基因的表达值,若是查找结果大于一条基因信息,则取表达值绝对值最大的数据作为该基因的表达数据。将单个染色体上所有的表达结果按照基因所在染色体上的排序存储到一个列表中,以便后续画图及统计时用;
[0052](6)根据定位到线虫染色体基因组序列中对应基因位置上的环境条件值,得线虫染色体上基因表达图像;
[0053]其中,环境条件值为I的染色体基因的位置填充红色,表示在实验环境条件下的上调基因;环境条件值为-1的染色体基因的位置填充蓝色,表示在实验环境条件下的下调基因;环境条件值大于-1小于I的染色体基因位置填充白色,表示在实验环境条件下的未见异常基因,未能匹配成功的染色体基因位置填充灰色,表示在实验环境条件下的未能匹配成功基因;由此画出的图像存为.Jpg格式;
[0054]统计和计算出每条染色体上上调基因、下调基因、未见异常基因、未能匹配成功基因的数量和比例,将输出存储到.txt文件中,以供查阅;
[0055](7)根据染色体基因组上基因表达图像,判断环境敏感区域,所述判断环境敏感区域的标准为:同一基因组上连续三个或三个以上被标记为红色或者蓝色的区域被推测为环境敏感区域;
[0056]记录和统计所有环境敏感区域基因的名称,在染色体上的绝对位置以及在基因表达图像中的相对位置后,将所述信息输出储存到.txt文件,作为环境敏感区域基因信息统计文件,并按基因名分行显示,以供查阅;
[0057](8)根据在(7)中的环境敏感区域基因信息统计文件,按照基因在染色体上的先后顺序导出环境敏感区域基因的基因表达芯片数据,存储到Excel表格中,实现环境敏感区域信息在染色体上的定位查找功能。
[0058]判定基因表达变化的常用方法之一就是倍数变化法(fold change),通常是以2为界限,当变化倍数> 2时,基因表达量增加,认为表达上调;当倍数< 0.5时,相反。上述步骤(3)-(4)中,将步骤(2)得到的所有基因的基因表达倍数比值取log2和归一化处理处理是为了在作图和数据处理时反映基因上下调更为直观。
[0059]图3为定位到I号染色体上的3000个基因的线虫染色体基因表达图像:图3反映了在特定环境下线虫I号染色体上前3000个基因的表达情况。图中每一个小方格表不一个基因,所有的方格从下到上从左至右顺次相连表示一条染色体上的所有基因。由于线虫每条染色体上基因数量较大,包含基因最少的III号染色体也有3500多个,因此无法在图像显示区域长度范围内将所有基因画在同一列中并且清晰地展示出每一个基因的表达情况。本图相当于将染色体分段,每一段都有75个基因。图中的横坐标刻度值代表基因段数,纵坐标刻度值代表对应基因段的基因位置,红色和蓝色方格分别代表环境诱变的上调基因和下调基因,白色和灰色分别代表未见异常基因和未匹配成功基因。
[0060]图3中基因列位置nral、行位置nMW和染色体上基因的位置η的对应关系如公式⑴、⑵:
[0061]ncol = ceil (n/75)(I)
[0062]nrow = n mod75(2)
[0063]式(I)、⑵中ceil取整数;mod取余数;n为基因位置。
[0064]比如要了解第370个基因的表达情况,由公式可得:
[0065]ncol = ceil (370/75) = 5
[0066]nrow = 370mod75 = 70
[0067]根据计算结果,先将位置定位到第5列,然后查看第5列第70个位置上方格的颜色。如图中荧光圆圈所圈位置,查看结果是红色表示第370个基因是环境诱变的上调基因。
[0068]在图3中也可以找到多个连续被标记为红色或者蓝色的基因区域,如第11列位置上荧光方框区域中803-806四个连续标记红色的基因区域,即被认为是一个可能的环境敏感区域。以此类推,生物研究者就可以从图中直观地看到所有基因的表达情况和环境敏感区域的分布情况。
[0069]图4为不同表达信息基因的数量及比例统计结果:图4所示文件与图3是相对应的,文件中所存结果是同一处理条件下I号染色体不同表达信息基因的数量和比例的统计结果。图 4 中 num_red = 203、num_blue = 122、num_white = 2289、num_grey = 386 分别表示I号染色体上前3000个基因中上调基因、下调基因、未见异常基因、未能匹配成功基因的数量分别是203、122、2289、386,所占比例分别是6.77%,4.07%,76.30%U2.87%。
[0070]图5为线虫I号染色体环境敏感区域基因信息统计结果:图5所示文件与图3也是相对应的。文件中所存结果为同一处理条件下I号染色体上所有环境敏感区域包含基因的信息统计结果。第一列数据是环境敏感区域中的每个基因在染色体上的位置以及基因的名字、第二列数据是基因在图3中的相对位置。例如,Gene_db_xref (2484): WBGene00005023表示I号染色体上第2484个基因是一个环境敏感区域,即可能的环境敏感型基因区域中的第一个基因,它的编号是WBGene00005023, posit1n: column (34), row(9)表不它在图3所示图像中的位置是第34列,第9行。chromosomel_up3_group_num = 15表示该环境条件下I号染色体上共有15组环境敏感区域基因。
[0071]在步骤(8)中,由于NCBI数据库中记录的基因名字没有提供基因亚基信息,因此在导出环境敏感基因信息时,染色体上的某些基因可能会匹配到不止一个基因芯片表达数据,遇到这种情况时,本发明一律将匹配到的所有结果均导出到Excel表格中。
[0072]对于不同环境下线虫的每条染色体,都有四个文件输出:一个反映染色体上所有基因表达情况的彩色.jpg图像(如图3),一个存有不同表达信息的基因的数量和比例统计结果的.txt文件(如图4),一个存有环境敏感区域基因名字、在染色体上绝对位置和在图中相对位置信息的.txt文件(如图5),和一个存有每条染色体上环境敏感区域基因原始表达数据的文件。生物研究者可以从这些文件中清楚地看到每条染色体上基因的表达信息和统计结果,以便直接利用统计结果进行下一步的生物学分析。
[0073]本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过系统来指令相关的硬件完成的,所述的系统可以在储存于一计算机可读取存储介质中,所述的存储介质如R0M/RAM、硬盘、光盘等,该系统如图2,具体为:
[0074]生物染色体基因信息下载单元,用于从NCBI公共数据库下载生物染色体基因组序列;
[0075]基因表达数据处理单元,用于读入相应生物样本基因表达芯片数据,并通过对照处理模块、对数处理模块和归一化处理模块处理读入的基因表达芯片数据,由此划定实验环境条件下的基因界定条件;所述基因表达芯片数据包括来自实验环境条件下的受试组样品和对照组样品的全基因组基因的绝对表达量,所述对照组为在非实验环境条件下的样品;
[0076]所述对照处理模块,用于对所述基因表达芯片数据中的同一基因在受试组和对照组中的绝对表达量相除获得基因表达倍数比值;
[0077]所述对数处理模块,用于将所述基因表达倍数比值数据以2为底数求对数值;
[0078]所述归一化处理模块,用于对数处理单元得到的所有基因表达倍数比值数据的对数值得环境条件值:将对数值大于等于I的基因的环境条件值规定为1,对数值小于等于-1的基因的环境条件值规定为-1,对数值大于-1小于I的基因的环境条件值与对数值相同;
[0079]基因信息加载匹配单元,用于将基因芯片表达数据矩阵中的基因名字与下载的生物染色体基因组序列中基因名字相匹配,匹配成功后,将环境条件值定位到生物体基因组序列中对应基因位置上;
[0080]生成文件单元,包括4个功能模块,包括:
[0081](I)生成染色体上基因表达信息图像模块,用于根据定位到生物体基因组序列中对应基因位置上的环境条件值,得生物染色体基因组上基因表达图像;其中,环境条件值为I的染色体基因的位置填充红色,表示在实验环境条件下的上调基因;环境条件值为-1的染色体基因的位置填充蓝色,表示在实验环境条件下的下调基因;环境条件值大于-1小于I的染色体基因位置填充白色,表示在实验环境条件下的未见异常基因,未能匹配成功的染色体基因位置填充灰色,表示在实验环境条件下的未能匹配成功基因;
[0082](2)生成不同变化模式的基因统计文件模块,用于计算将通过基因信息加载匹配模块匹配完成的染色体上的上调基因、下调基因、未见异常基因、未能匹配成功基因的数量和比例,将输出存储到.txt文件中;
[0083](3)生成环境敏感区域基因信息统计文件模块,用于根据基因组上基因表达图像,判断环境敏感区域,记录所有环境敏感区域基因的名称,在染色体上的绝对位置以及在基因表达图像中的相对位置后,将所述信息输出储存到.txt文件中;所述判断环境敏感区域的标准为:同一基因组上连续三个或三个以上被标记为红色或者蓝色的区域被推测为环境敏感区域;
[0084](4)生成环境敏感区域基因原始信息导出文件模块,将环境敏感区域基因的基因表达芯片数据按照在染色体上的先后顺序存储到Excel表格中,实现环境敏感区域信息在染色体上的定位查找功能。
[0085]系统中生成的文件可以通过用户界面上设置的查看文件单元来查看。
[0086]本发明是一种在染色体层面上显示基因表达变化特征和分布特征的可视化工具,不仅实现了基因表达信息在染色体上精确定位显示的功能,同时完成了环境敏感区域位置和数量的统计工作及不同表达变化基因的数量和比例的统计工作,直观地显示并分析出环境诱导的基因热点区域及其在染色体上的分布情况,为环境生物学研究提供了高效便捷的数据处理工具,比手工方法大大节约了时间。该软件的功能可以不只局限于线虫一种生物,也适用于其它生物的染色体环境敏感区域分析,为今后不同生物体内基因表达异常和染色体结构改变等研究提供了有力帮助。
[0087]以上实施例仅说明了本发明的一种实施方式,其描述较为具体和详细,但并不能因此理解为对本发明专利范围的限制。基于本发明思想的其他实施方式,均在本发明的保护范围之中。
【权利要求】
1.一种在染色体上定位显示生物基因表达信息及环境敏感区域的方法,包括以下步骤: (a)从NCBI公共数据库下载生物染色体基因组序列; (b)读入相应生物样本基因表达芯片数据,所述基因表达芯片数据包括来自实验环境条件下的受试组样品和对照组样品的基因组基因的绝对表达量,将同一基因在受试组和对照组中的绝对表达量相除可获得该基因的基因表达倍数比值;所述对照组为在非实验环境条件下的样品; (c)将基因表达倍数比值数据以2为底数求对数值; (d)将步骤(C)得到的所有基因表达倍数比值数据的对数值进行归一化处理得环境条件值:将对数值大于等于I的基因的环境条件值规定为1,对数值小于等于-1的基因的环境条件值规定为-1,对数值大于-1小于I的基因的环境条件值与对数值相同; (e)将基因表达芯片数据矩阵中的基因名字与步骤(a)中下载的生物染色体基因序列中基因名字相匹配,匹配成功后,将步骤(d)得到的所有基因的环境条件值定位到生物体基因组序列中对应基因位置上; (f)根据定位到生物体基因组序列中对应基因位置上的环境条件值,划定实验环境条件下的基因界定条件,得生物染色体基因组上基因表达图像; 其中,环境条件值为I的染色体基因的位置填充红色,表示在实验环境条件下的上调基因;环境条件值为-1的染色体基因的位置填充蓝色,表示在实验环境条件下的下调基因;环境条件值大于-1小于I的染色体基因位置填充白色,表示在实验环境条件下的未见异常基因,未能匹配成功的染色体基因位置填充灰色,表示在实验环境条件下的未能匹配成功基因; (g)根据染色体基因组上基因表达图像,判断环境敏感区域,所述判断环境敏感区域的标准为:同一染色体上连续三个或三个以上被标记为红色或者蓝色的区域被推测为环境敏感区域。
2.根据权利要求1所述的方法,其特征在于,所述步骤(f)还包括,统计和计算染色体基因中上调基因、下调基因、未见异常基因、未能匹配成功基因的数量和比例的步骤。
3.根据权利要求1所述的方法,其特征在于,所述步骤(g)还包括,统计和记录所有环境敏感区域基因的名称、在染色体上的绝对位置以及在基因表达图像中的相对位置的步骤。
4.根据权利要求1所述的方法,其特征在于,所述步骤(g)还包括,按照基因在染色体上的先后顺序导出环境敏感区域基因的基因表达芯片数据的步骤。
5.一种在染色体上定位显示生物基因表达信息及环境敏感区域的系统,该系统包括: 生物染色体基因信息下载单元,用于从NCBI公共数据库下载生物染色体基因组序列; 基因表达数据处理单元,用于读入相应生物样本基因表达芯片数据,并通过对照处理模块、对数处理模块和归一化处理模块处理读入的基因表达芯片数据,由此划定实验环境条件下的基因界定条件;所述基因表达芯片数据包括来自实验环境条件下的受试组样品和对照组样品的基因组基因的绝对表达量,所述对照组为在非实验环境条件下的样品; 所述对照处理模块,用于对所述基因表达芯片数据中的同一基因在受试组和对照组中的绝对表达量相除获得该基因的基因表达倍数比值; 所述对数处理模块,用于将所述基因表达倍数比值数据以2为底数求对数值; 所述归一化处理模块,用于对数处理单元得到的所有基因表达倍数比值数据的对数值得环境条件值:将对数值大于等于I的基因的环境条件值规定为1,对数值小于等于-1的基因的环境条件值规定为-1,对数值大于-1小于I的基因的环境条件值与对数值相同; 基因信息加载匹配单元,用于将基因芯片表达数据矩阵中的基因名字与下载的生物染色体基因组序列中基因名字相匹配,匹配成功后,将环境条件值定位到生物体基因组序列中对应基因位置上; 生成文件单元,包括4个功能模块: (1)生成染色体上基因表达信息图像模块,用于根据定位到生物体基因组序列中对应基因位置上的环境条件值,得生物染色体基因组上基因表达图像;其中,环境条件值为I的染色体基因的位置填充红色,表示在实验环境条件下的上调基因;环境条件值为-1的染色体基因的位置填充蓝色,表示在实验环境条件下的下调基因;环境条件值大于-1小于I的染色体基因位置填充白色,表示在实验环境条件下的未见异常基因,未能匹配成功的染色体基因位置填充灰色,表示在实验环境条件下的未能匹配成功基因; (2)生成不同变化模式的基因统计文件模块,用于计算将通过基因信息加载匹配模块匹配完成的染色体上的上调基因、下调基因、未见异常基因、未能匹配成功基因的数量和比例,将输出存储到.txt文件中; (3)生成环境敏感区域基因信息统计文件模块,用于根据基因组上基因表达图像,判断环境敏感区域,记录所有环境敏感区域基因的名称,在染色体上的绝对位置以及在基因表达图像中的相对位置后,将所述信息输出储存到.txt文件中;所述判断环境敏感区域的标准为:同一基因组上连续三个或三个以上被标记为红色或者蓝色的区域被推测为环境敏感区域; (4)生成环境敏感区域基因原始信息导出文件模块,用于将环境敏感区域基因的基因表达芯片数据按照在染色体上的先后顺序存储到Excel表格中。
【文档编号】G06F19/20GK104182656SQ201410395461
【公开日】2014年12月3日 申请日期:2014年8月12日 优先权日:2014年8月12日
【发明者】马宝山, 杨存敏, 高英, 徐丹, 董辉, 孙野青 申请人:大连海事大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1