一种跨芯片平台的基因表达数据整合方法

文档序号:6537404阅读:1953来源:国知局
一种跨芯片平台的基因表达数据整合方法
【专利摘要】本发明属于生物信息【技术领域】。本发明提供了一种跨多个不同芯片平台整合基因表达数据的方法,包括如下步骤:多个芯片平台的基因表达谱标准化预处理;合并不同芯片平台中共同的基因表达数据;根据基因间在多个芯片平台的表达相似性将基因分为k个子集;最小二乘法计算每个基因子集内不同芯片平台的表达线性关系;利用公式将所述不同芯片平台的基因表达值标准化到同一变化范围,得到标准化的基因表达矩阵,其中符号含义如说明书中所定义。
【专利说明】一种跨芯片平台的基因表达数据整合方法
[0001]
【技术领域】
[0002]本发明属于生物信息【技术领域】,特别是基因表达数据分析领域。
【背景技术】
[0003]目前,微阵列芯片已经发展成为系统研究生物学问题的常用高通量实验技术,并且有不同类型的芯片平台及其制造厂商。多年来,已经积累了大量的芯片数据集如美国国立生物技术信息中心NCBI的GEO芯片数据库和欧洲生物信息研究所EBI的ArrayExpress芯片数据库。其中,NCBI GEO芯片数据已收集了大约1,008,760个样本共12,090个实验的数据,EBI ArrayExpre ss芯片数据已收集了 43,124个实验共计1,223,250个微阵列芯片数据。由于芯片实验的价格相对昂贵,样本收集耗费工作量等客观原因,大多数科研项目仅会选择相对少量的样本进行实验甚至仅进行一个样本的检测,因此未能严格满足科学实验设计的要求,使得结果的可信度不足。所以,怎样合理充分的利用现有的数据资源,筛选与自己研究目相同相近的芯片数据进行整合分析研究成为一个亟需解决的问题。对于来自同一芯片平台的数据可以较直接地进行数据整合,但对于不同类型芯片间的数据整合目前还没有一个行之有效的方法。
[0004]已有基因表达数据整合的研究,其算法的步骤如下:1)芯片数据预处理进行1g2转换;2)根据不同芯片平台间信号的最大值,确定两款芯片间的基因表达转化的比值;3)整合两个芯片间共同存在的基因;4)消除实验批次影响。上述算法中存在以下缺点:1)芯片预处理方法对后续的分析至关重要,仅仅log2转化而忽略了采用了何种背景校正方法;2)评估基因在两个平台间表达的线性关系时,仅仅考虑了芯片的最大表达值,而未考虑基因在不同区段间的线性比例不同;3)没有对数据进行样本间中值和方差标准化,不利于数据间的比较。
[0005]鉴于上述原因,本领域中仍然需要克服上述一项或多项缺点的跨芯片平台的基因表达数据整合方法。

【发明内容】

[0006]在第一方面中,本发明提供一种跨芯片平台的基因表达数据整合方法。包括以下步骤:
步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本。
[0007]步骤2:对两个或多个基因芯片平台中共同存在基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述不同基因芯片平台检测的样本构成,每一列表不一个被检测的样本。[0008]步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为多个基因子集。
[0009]步骤4:对于步骤3得到基因子集,利用基因子集内基因在所述每个不同芯片平台的表达值,得出不同芯片平台的表达线性关系,利用所述关系将所述不同芯片平台的基因表达值标准化到同一变化范围,得到标准化后的基因表达矩阵。
[0010]在一个具体的实施方案中,本发明是这样实现的,主要包括如下流程:
步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本。
[0011]步骤2:对两个或多个基因芯片平台中共同存在的基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述不同基因芯片平台检测的样本构成,每一列表不一个被检测的样本。
[0012]步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为m个基因子集。
[0013]步骤4:对于步骤3得到每个基因子集,计算基因子集内基因在所述每个不同芯片平台的表达值均值,利用下式得出不同芯片平台在该基因子集内的表达线性关系
【权利要求】
1.一种跨芯片平台的基因表达数据整合方法,所述方法包括如下步骤: 步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本; 步骤2:对两个或多个基因芯片平台中共同存在基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述不同基因芯片平台检测的样本构成,每一列表不一个被检测的样本; 步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为多个基因子集; 步骤4:对于步骤3得到基因子集,利用基因子集内基因在所述每个不同芯片平台的表达值,得出不同芯片平台的表达线性关系,利用所述关系将所述不同芯片平台的基因表达值标准化到同一变化范围,得到标准化的基因表达矩阵。
2.权利要求1的方法,所述方法包括如下步骤: 步骤1:获得要整合的两个或多个基因芯片平台表达数据,对于每个基因芯片平台而言,表达数据为一个矩阵,矩阵的每一行表示一个基因,矩阵的每一列表示一个被检测的样本; 步骤2:对两个或多个基因芯片平台中共同存在基因,生成合并的基因表达矩阵,矩阵的每一行表示一个共同存在基因,矩阵的列由所述不同基因芯片平台检测的样本构成,每一列表不一个被检测的样本; 步骤3:基于基因在所述合并的基因表达矩阵中的表达模式相似性将基因分割为m个基因子集; 步骤4:对于步骤3得到每个基因子集,计算基因子集内基因在所述每个不同芯片平台的表达值均值,利用下式得出不同芯片平台在该基因子集内的表达线性关系expsi =fls*?ps2 +&s ,其中s表示m个基因子集中的一个子集,expsl是由基因子集s内基因在芯片平台I中的表达值均值构成的数组,exps2指基因子集s内基因在芯片平台2中的表达值均值构成的数组,采用最小二乘法估计
3.权利要求2的方法,所述方法包括如下步骤: 步骤1:获得要整合的两个或多个基因芯片平台表达数据,所述数据为基因芯片的探针荧光值,代表各个基因表达,将每个芯片基因平台的探针荧光值表示对应基因的表达值,即基因转录本多少的定量值,全部基因(Symbol 1-η)在全部样本(sample l_k)中的表达值(expll-nk)构成即基因表达矩阵(exp),矩阵的每一行表示一个基因,矩阵的每一列表示一个检测样本,基因可采用任何标识形式表示,表达矩阵如下:
4.权利要求1-3任一项的方法,其中在步骤I中,所述基因芯片的探针荧光值数据已经经过背景校正和标准化,所述背景校正和标准化优选采用RMA方法进行。
5.权利要求1-3任一项的方法,其中在步骤I中,如果一个基因仅对应一个探针,则该基因的表达值为其对应探针的荧光值;如果一个基因对应多个探针,则此基因的表达值采用其对应的多个探针荧光值的中值或均值表示。
6.权利要求1-3任一项的方法,其中步骤3中,将基因分割为m个基因子集通过层次聚类、k均值聚类和SOM自组织映射聚类进行,优选m>=10,同时每个基因子集包含的基因数目不少于30。
7.权利要求1-3任一项的方法,所述方法还包括步骤: 步骤5:对基因表达矩阵进行全局中值标准化和样本间方差标准化,其中所述全局中值标准化通过
8.权利要求7的方法,其中非参数经验贝叶斯模型利用Combat软件实现。
9.权利要求1-3任一项的方法,所述两个或多个基因芯片平台选自Affymetrix基因芯片平台和Agilent基因芯片平台。
10.一种利用两个或多个基因芯片平台获得一套基因表达数据的方法,所述方法包括: 利用所述两个或多个基因芯片平台分别对样品进行实验,获得各自的基因表达数据; 利用权利要求1-9任一项的方法整合所述基因表达数据。
【文档编号】G06F19/24GK103745137SQ201410044121
【公开日】2014年4月23日 申请日期:2014年1月30日 优先权日:2014年1月30日
【发明者】杭兴宜, 陈 胜 申请人:思博奥科生物信息科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1