某种疾病的特征基因的筛选方法

文档序号:6336944阅读:737来源:国知局
专利名称:某种疾病的特征基因的筛选方法
技术领域
本发明属于生物工程领域,具体地说是一种适应于生物基因标签提取的方法,也 就是某种疾病的特征基因的筛选方法,涉及生物统计对小样本,高通量,高维度数据的处理。
背景技术
随着大规模基因表达谱(Gene expression profile,或称为基因表达分布图)技 术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了 参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课 题。如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治 疗肿瘤具有重要意义。因为每一种肿瘤都有其基因的特征表达谱(见附图
)。从DNA芯片 所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因。通常由 于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩 小需要搜索的致癌基因范围。事实上,在基因表达谱中,一些基因的表达水平在所有样本中 都非常接近。例如,不少基因在急性白血病亚型(ALL,AML)两个类别中的分布无论其均值 还是方差均无明显差别,可以认为这些基因与样本类别无关,没有对样本类型的判别提供 有用信息,反而增加信息基因搜索的计算复杂度。因此,必须对这些“无关基因”进行剔除。面对提取基因图谱信息这样的领域,能够通过数学建模,得到能有效提取待检测 样本的基因图谱信息就行。国内外应用PCA方法对基因芯片进行研究尚处于初步阶段。

发明内容
本发明的目的在于提供有效提取基因标签的方法,即某种疾病的特征基因的筛选 方法。可应用在对所有小样本,高通量,高维度的数据处理。该方法简单方便,且具有很高 的推广价值,对生物上的基因标签提取等分类和识别问题,提供了一种可靠实用的方法,且 可有效及时的提取基因标签,对疾病进行分析,减轻病人痛苦。本发明的目的是以下述的技术方案来加以实现的某种疾病的特征基因的筛选方法,采用主成分分析方法和基于傅里叶变换的支持 向量机分类方法进行筛选,包括下列步骤(1)利用主成分分析对待分析样品进行降维,使基因表达空间减少,在以贡献率为 78% -88%以上的情况下,以特征值和贡献率作为分类因素来筛选某种疾病的特征基因,合 理的降低基因表达空间的有效维度;求出所有基因的相关系数矩阵,对此矩阵求特征值和特征向量;利用特征值即方 差,方差即信息量的思想,即我们认为方差越大包含信息量越多,特征值越大越好,求出贡 献率在99%的情况下减少的基因公式如下
贡献率
权利要求
某种疾病的特征基因的筛选方法,采用主成分分析方法和基于傅里叶变换的支持向量机分类方法进行筛选,包括下列步骤(1)利用主成分分析对待分析样品进行降维,使基因表达空间减少,在以贡献率为78% 88%以上的情况下,以特征值和贡献率作为分类因素来筛选某种疾病的特征基因,合理的降低基因表达空间的有效维度;求出所有基因的相关系数矩阵,对此矩阵求特征值和特征向量;利用特征值即方差,方差即信息量,特征值即方差越大包含信息量越大,求出贡献率在99%的情况下减少的基因公式如下贡献率 <mrow><msub> <mi>&lambda;</mi> <mn>1</mn></msub><mo>/</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>p</mi></munderover><msub> <mi>&lambda;</mi> <mi>i</mi></msub><mo>=</mo><mfrac> <mrow><mi>Var</mi><mrow> <mo>(</mo> <msub><mi>F</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><munderover> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>p</mi></munderover><mi>Var</mi><mrow> <mo>(</mo> <msub><mi>F</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac> </mrow>式中P代表特征值个数即基因个数Var代表方差;(2)在主成分分析的基础上,利用基于复数域的傅立叶变换的支持向量基对样本有效分类和识别,记录频数,频数越大,分类效果越好,提取某种疾病的基因标签;对第(1)步骤筛选出的数个某种疾病的特征基因进行基于复数域的傅里叶变换的支持向量机的分类与识别,提取基因标签公式如下对apha做二维离散傅里叶变换 <mrow><mi>X</mi><mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>m</mi><mo>=</mo><mn>0</mn> </mrow> <mrow><mi>m</mi><mo>-</mo><mn>1</mn> </mrow></munderover><munderover> <mi>&Sigma;</mi> <mrow><mi>n</mi><mo>=</mo><mn>0</mn> </mrow> <mrow><mi>n</mi><mo>-</mo><mn>1</mn> </mrow></munderover><mi>X</mi><mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo></mrow><msup> <mi>e</mi> <mrow><mo>-</mo><mi>j</mi><mfrac> <mrow><mn>2</mn><mi>&pi;</mi> </mrow> <mi>n</mi></mfrac><mi>kn</mi> </mrow></msup><msup> <mi>e</mi> <mrow><mo>-</mo><mi>j</mi><mfrac> <mrow><mn>2</mn><mi>&pi;</mi> </mrow> <mi>m</mi></mfrac><mi>lm</mi> </mrow></msup> </mrow> <mrow><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>m</mi><mo>=</mo><mn>0</mn> </mrow> <mrow><mi>m</mi><mo>-</mo><mn>1</mn> </mrow></munderover><munderover> <mi>&Sigma;</mi> <mrow><mi>n</mi><mo>=</mo><mn>0</mn> </mrow> <mrow><mi>n</mi><mo>-</mo><mn>1</mn> </mrow></munderover><mi>X</mi><mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo></mrow><msup> <msub><mi>W</mi><mi>n</mi> </msub> <mi>kn</mi></msup><msup> <mi>W</mi> <mi>lm</mi></msup> </mrow>其中 <mrow><msub> <mi>W</mi> <mi>n</mi></msub><mo>=</mo><msup> <mi>e</mi> <mrow><mo>-</mo><mi>j</mi><mfrac> <mrow><mn>2</mn><mi>&pi;</mi> </mrow> <mi>n</mi></mfrac> </mrow></msup><mo>,</mo><msub> <mi>W</mi> <mi>m</mi></msub><mo>=</mo><msup> <mi>e</mi> <mrow><mo>-</mo><mi>j</mi><mfrac> <mrow><mn>2</mn><mi>&pi;</mi> </mrow> <mi>m</mi></mfrac> </mrow></msup> </mrow>式中m,n分别代表正常样本数目,病变样本数目,X在这里面代表alpha。
全文摘要
本发明提供某种疾病的特征基因的筛选方法。从一个全新的角度来分析基因表达谱,首先利用主成分分析对其进行降维,在以贡献率为99%的情况下,以特征值和贡献率作为分类因素来筛选肿瘤基因的特征基因,合理的降低基因表达空间的有效维度;然后在主成分分析的基础上,利用基于复数域的傅立叶变换与支持向量基对样本有效的分类和识别,创新性的结合主成分分析和使实数域变为复数域的数据处理,记录频数,频数越大分类效果越好,合理有效的提取了基因标签。本发明可应用在生物疾病领域,如基因分类和识别;也可应用于气象地理学领域,如观测气象,具有很明显的效果,有较高的实用价值。
文档编号G06F19/10GK101996284SQ201010562308
公开日2011年3月30日 申请日期2010年11月29日 优先权日2010年11月29日
发明者孟华, 李红娟, 梁素梅, 王 华, 王建军 申请人:昆明理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1