生物标记提取装置及其方法

文档序号:6437355阅读:159来源:国知局
专利名称:生物标记提取装置及其方法
技术领域
本发明涉及一种生物信息学(Bioinformatics)技术,尤其涉及一种基于在序列上出现的变异对基因功能导致的危害性的分析,提取可靠性更高的生物标记的装置及其方法。
背景技术
人类基因项目完成后,开始解读人类DNA碱基序列,并开始揭开人类基因的多样的功能。尤其,发现了多样的基因变异,从而揭开了其不仅导致人类性状的差异,而且有可能成为特定疾病的原因,对人类基因的分析研究也进一步加速。然而,要揭开在人类基因中有可能产生的庞大的遗传性变异中哪些变异实际上成为病因,还存在困难。最近,作为解决这种问题的对策,正在研究下一代基因测序技术(Next Generation Sequencing) 0通过该技术可以对个别人类的整个基因进行碱基序列化,并且通过疾病群与正常群的碱基序列及变异比较分析方法,可以提取疾病特异性的基因变异。另一方面,与其相反,还在研究不是碱基序列测序,而是通过单核苷酸多态性 (single nucleotide polymorphism)芯片,依据种群(population)统计分析进行的全基因组关联研究(Genome Wide Association Study)分析技术。根据该技术,通过自数千至数万名中取得的单核苷酸多态性(SNP)数据分析,可以提取在特定疾病群中频繁发生的显著的遗传性变异。然而,即使通过多样的分析技术提取遗传性变异,但要确认包括这种遗传性变异的基因的实际表达以及功能上障碍与否,还需要进一步实验,这在时间以及费用方面造成相当的损失。尤其,仅仅通过个别基因变异信息,不能对引发特定疾病的多样的病因提供足够的说明。为了克服这些问题,还在研究,分析生物学要素的相互作用,并据此解读生物系统的所谓系统生物学的技术。即、由基因表达的生物学功能与其他基因表达的功能一起,为了维持生命而工作,从而在不断改变的外部环境下,仍然维持动态平衡而能够继续生存。这种技术通过生物学要素的网络分析,进行具有各个变异的基因的功能位置以及相互作用的分析,就能够明确遗传性变异对周边要素的影响及该影响如何传播。并且,为说明遗传性变异与公知基因的相互作用、基因调控电路、蛋白质相互作用、代谢,信号传达电路有什么关联性,提供基础。为了正常的细胞活动所需的细胞内多样的流程是,通过所谓功能模块的更小、特殊的蛋白质或基因团,进行工作的。作为对在个别基因中由于个别的非同义单核苷酸多态性(non-synonymous Single Nucleotide Polymorphism)而发生的蛋白质功能的危害性进行预测的一系列方法,有 SIFT (Sorting Tolerant From Intolerant)、PolyPhen、MAPP (Map Annotator and Pathway Profiler)等,然而仅仅使用这些方法,为比较复杂的疾病,找出病因或疾病标记(marker),存在一定限制。并且在通常单核苷酸多态性(SNP)中,对蛋白质功能有危害的单核苷酸多态性(SNP)的比率很低。从而,若利用基因集合富集度分析(Gene set enrichment analysis) 与单核苷酸多态性(SNP)分析方法,就不区分有可能对蛋白质功能导致危害的单核苷酸多态性(SNP),而利用预测为单核苷酸多态性(SNP)的所有数据,因此有可能误判实际上与特定疾病没有多大关系的生物学途径(pattway)或基因集合为统计上显著。从而有必要开发,基于生物分子网络,分析疾病特异性的基因变异,并对属于发现的生物分子网络的基因的表达模式进行分析,从而能够更为准确找出与特定疾病有关的生物标记的技术。

发明内容
本发明是鉴于上述问题而提出的,其目的在于,超越以前仅仅利用基因变异或基因表达模式的各一部分,而进行相互作用模块化以及分析的限制,基于在序列上出现的变异对基因功能导致的危害性分析,而提取可靠性更高的生物标记。尤其,本发明另一目的在于开发危害性预测技术,其利用多方面方法,对在提取上述生物标记上发挥重要影响的危害性进行定量。本发明的技术课题并不限于上面所说的技术课题,本领域的技术人员通过下面的记载,能够明确理解上面没有涉及的其他的技术课题。为实现上述技术课题,根据本发明一实施例的生物标记提取装置,其分析在序列上出现的变异对基因功能导致的变化,提取成为特定疾病的原因的生物标记,其包括一预处理部,其分析基因试样的序列,提取在基因上定位的变异数据;一危害性预测器,定量由于上述变异数据在上述基因功能上发生的障碍,而求出危害性分数;一模块化部,在基因网络,探索上述危害性分数在所定临界值以上的基因集合的子模块。为实现上述技术课题,根据本发明一实施例的危害性预测装置,其定量在序列上出现的变异数据影响基因功能导致的障碍,并包括一危害性计算部,其在多个危害性预测模型上适用上述变异数据,而获得各个危害性后,在上述各个危害性上适用权重值,而计算权重危害性;一重要性计算部,其基于上述变异数据的频率,计算相应基因变异的重要性; 一分数计算部,组合上述权重危害性及上述重要性,而计算危害性分数。为实现上述技术课题,根据本发明一实施例的生物标记提取方法,分析在序列上出现的变异对基因功能导致的变化,而提取成为特定疾病的原因的生物标记的方法,其包括定量由于包含在基因的变异数据而在上述基因功能上发生的障碍,而求出危害性分数的步骤;在基因网络中探索上述危害性分数在所定临界值以上的基因集合的子模块的步骤;上述生物标记提取装置决定上述探索的多个子模块之间的先后顺序的步骤。为实现上述技术课题,根据本发明一实施例的危害性预测方法,定量在序列上出现的变异数据影响基因功能导致的障碍,其包括从上述变异数据产生包含多样的要素的特征向量的步骤;在上述产生的特征向量中选出各个预测模型所需要素的步骤;在输入上述选出的要素后,提供在蛋白质序列内个别的分数的步骤;在上述预测模型的输出上,适用权重值进行合计,而计算权重危害性的步骤。根据上述本发明可以预测,比较疾病群与正常群而获得的疾病特异性序列的变异对相应基因的功能引发什么变化或障碍,并且并行这种表达模式与网络的分析,而提供个别基因障碍对整个生物系统的相互作用起什么影响的信息,从而能够发掘基于疾病机制的生物标记。
这种生物标记能够广泛用于特定疾病的诊断、治疗特定疾病的药物开发、副作用预防。


图1是示出根据本发明一实施例的生物标记提取装置的框图。图2是示出图1的预处理部的细部结构的框图。图3是示出图1的危害性预测器的细部结构的框图。图4是示出图3的危害性计算部的细部结构的框图。图5是示出用于危害性计算部的定位函数的一例的图。图6是示出在模块化部执行的子模块探索的具体过程的流程图。图7是示出根据在基因子模块与特定基因集合内同时存在的基因数量,验证显著性的概念的图。主要符号的说明
100 生物标记提取装置 110 预处理部120: 危害性预测器130网络合并部135: 相互作用数据库 140模块化部150: 先后顺序决定部 160验证部165: 途径数据库 170危害性计算部180: 重要性计算部190分数计算部
具体实施例方式以下,参照附图详细说明本发明的优先实施例。本发明的优点、特征以及实施方法可以下的通过参照附图的详细说明将会更加明确。然而,本发明并不限于下面揭示的实施例,而可以按互不相同的多样的形式实施,本实施例只是为使本发明的公开更加完整,而向具有本发明所属技术领域的通常知识的人完整地公开发明的范畴,因此本发明只按权利要求书的范围下定义。在整个说明书中相同的附图标记表示相同的结构要素。图1是示出根据本发明一实施例的生物标记提取装置100的框图。生物标记提取装置100包括预处理部110、危害性预测器120、网络合并部130、模块化部140、先后顺序决定部150、验证部160。在此,网络合并部130、验证部160是根据实施例可以省略的结构要素。并且,相互作用数据库135与网络合并部130连动,并且途径(pattway)数据库165 与验证部160连动。这种在图1(后述的图2至图4也一样)中图示的功能块能够在硬件系统运行,上述硬件系统是个人用电脑(无论便携式还是固定式装置)或通过通信网相连的服务器-客户装置。上述存储器载入关于上述功能块的模块,而供到上述流程,上述流程按照处理上述载入的模块的方式,运转生物标记提取装置100。预处理部110从基因试样提取在基因上定位的变异数据(variation)。具体而言, 预处理部Iio如图2所示,包括疾病群比较部112、变异提取部114、变异数据库115以及变异定位部116。
具体而言,疾病群比较部112提取疾病群变异与正常群变异,并通过互相比较两者,而获得在疾病群存在的变异。变异提取部114参照公知的变异数据库115,在上述获得的疾病群变异中只提取新变异。并且,变异定位部116只提取在上述提取的新变异中表达为蛋白质时氨基酸改变的种类,即,非同义(non-synonymous)的种类,并在功能性基因上进行定位。从测序数据分析基因性质的基因变异数据,按GFF3或GVF等文件形式保存,现在最广泛使用的是GFF3 (Genetic Feature R)rmat)。表1为显示整理成GFF3文件形式的基因变异的例子。表 权利要求
1.一种生物标记提取装置,所述装置分析在序列上出现的变异对基因功能导致的变化,提取成为特定疾病的原因的生物标记,其特征在于,包括一预处理部,分析基因试样的序列,提取在基因上定位的变异数据; 一危害性预测器,定量由于所述变异数据在所述基因功能上发生的障碍,而求出危害性分数;一模块化部,在基因网络,探索所述危害性分数在预定临界值以上的基因集合的子模块。
2.根据权利要求1所述的生物标记提取装置,其特征在于, 所述预处理部包括一疾病群比较部,互相比较疾病群变异与正常群变异,在所述分析的基因试样中获取所述疾病群中存在的变异;一变异提取部,参照公知的变异数据库,在所述获取的疾病群变异中提取新变异; 一变异定位部,在功能性基因上定位所述提取的新变异。
3.根据权利要求2所述的生物标记提取装置,其特征在于,所述变异定位部,在所述提取的新变异中,只提取在表达为蛋白质时氨基酸改变的种类,并在所述功能性基因上进行定位。
4.根据权利要求1所述的生物标记提取装置,其特征在于,所述危害性预测器包括危害性计算部,所述危害性计算部在多个危害性预测模型上适用所述变异数据而获得各个危害性后,在所述各个危害性上适用权重值而计算权重危害性。
5.根据权利要求4所述的生物标记提取装置,其特征在于, 所述危害性计算部包括一特征向量产生部,其从所述变异数据产生包含多样的要素的特征向量; 一适配器,在所述产生的特征向量中选出各个预测模型所需要素; 两个以上的预测模型,输入所述选出的要素,就能够在蛋白质序列内发现个别的非同义单核苷酸多态性;一权重值适用部,在所述预测模型的输出上适用权重值进行合计。
6.根据权利要求5所述的生物标记提取装置,其特征在于,所述权重值适用部,将所述预测模型的输出正规化为0至1之间的值后,适用所述权重值进行合计,并将所述合计的结果正规化为0至1之间的值。
7.根据权利要求5所述的生物标记提取装置,其特征在于,所述特征向量,在定位基因变异的基因及蛋白质的相应位置上氨基酸的各种生物种间的保守性分数、氨基酸取代导致的生物化学性质的变化、蛋白质结构特征的变化、有无内含子切接点位置、5端非翻译区变异位置中,包括两个以上。
8.根据权利要求5所述的生物标记提取装置,其特征在于,所述预测模型,在SIFT、 PolyPhen、MAPP中,至少包括一个。
9.根据权利要求4所述的生物标记提取装置,其特征在于,所述危害性预测器还包括 一重要性计算部,基于所述变异数据的频率计算相应基因变异的重要性;一分数计算部,组合所述权重危害性及所述重要性,而计算危害性分数。
10.根据权利要求9所述的生物标记提取装置,其特征在于,所述重要性计算部,根据相应基因变异在疾病群试样中出现的概率,计算所述重要性,并且所述概率是最大似然估计或贝叶斯概率。
11.根据权利要求9所述的生物标记提取装置,其特征在于,所述分数计算部,在一个基因内基因变异所具有的危害性分数的和,除以所述基因的长度,而求出最终危害性分数。
12.根据权利要求1所述的生物标记提取装置,其特征在于,所述模块化部,基于现在的基因节点的集合上合并邻接基因是否显著,而重复进行更新基因网络的过程,而探索所述子模块。
13.根据权利要求12所述的生物标记提取装置,其特征在于,所述模块化部,利用在所述危害性分数超过预定临界值的基因数量的超几何分布中获得的概率,判断所述显著性。
14.根据权利要求13所述的生物标记提取装置,其特征在于,所述预定临界值以整个基因的危害性分数分布中预定百分位数为准而决定。
15.根据权利要求1所述的生物标记提取装置,其特征在于,还包括网络合并部,在公知的蛋白质相互作用数据库中合并从求出所述危害性分数的基因表达的蛋白质,而形成相互作用网络。
16.根据权利要求1所述的生物标记提取装置,其特征在于,还包括先后顺序决定部, 以Z分数为准,决定通过所述模块化部探索的多个子模块之间的先后顺序。
17.根据权利要求16所述的生物标记提取装置,其特征在于,还包括验证部,比较按所述先后顺序排列的子模块与公知的途径数据库,而评价各功能的关联性。
18.一种危害性预测装置,其定量在序列上出现的变异数据影响基因功能导致的障碍, 其特征在于,包括一危害性计算部,其在多个危害性预测模型上适用所述变异数据,而获得各个危害性后,在所述各个危害性上适用权重值,而计算权重危害性;一重要性计算部,其基于所述变异数据的频率,计算相应基因变异的重要性;一分数计算部,组合所述权重危害性及所述重要性,而计算危害性分数。
19.根据权利要求18所述的危害性预测装置,其特征在于,所述危害性计算部包括一特征向量产生部,其从所述变异数据产生包含多样的要素的特征向量;一适配器,其在所述产生的特征向量中选出各个预测模型所需要素;两个以上的预测模型,输入所述选出的要素,就能够在蛋白质序列内发现个别的非同义单核苷酸多态性;一权重值适用部,其在所述预测模型的输出上适用权重值进行合计。
20.根据权利要求19所述的危害性预测装置,其特征在于,所述权重适用部,将所述预测模型的输出正规化为0至1之间的值后,适用所述权重值进行合计,并将上述合计的结果正规化为0至1之间的值。
21.根据权利要求19所述的危害性预测装置,其特征在于,所述特征向量,在定位基因变异的基因及蛋白质的相应位置上氨基酸的各种生物种间的保守性分数、氨基酸取代导致的生物化学性质的变化、蛋白质结构特征的变化、有无内含子切接点位置、5端非翻译区变异位置中,包括两个以上。
22.根据权利要求19所述的危害性预测装置,其特征在于,所述预测模型,在SIFT、PolyPhen,MAPP中,至少包括一个。
23.根据权利要求18所述的危害性预测装置,其特征在于,所述重要性计算部,根据相应基因变异在疾病群试样中出现的概率,计算所述重要性,并且所述概率是最大似然估计或贝叶斯概率。
24.根据权利要求18所述的危害性预测装置,其特征在于,所述分数计算部,在一个基因内基因变异所具有的危害性分数的和,除以所述基因的长度,而求出最终危害性分数。
25.—种生物标记提取方法,分析在序列上出现的变异对基因功能导致的变化,而提取成为特定疾病的原因的生物标记的方法,其特征在于,包括生物标记提取装置定量由于包含在基因的变异数据而在所述基因功能上发生的障碍, 而求出危害性分数的步骤;所述生物标记提取装置,在基因网络中探索所述危害性分数在预定临界值以上的基因集合的子模块的步骤;所述生物标记提取装置决定所述探索的多个子模块之间的先后顺序的步骤。
26.根据权利要求25所述的生物标记提取方法,其特征在于,所述决定先后顺序的步骤,包括所述生物标记提取装置以所述子模块所具备的各个Z分数为准,对具有较高Z分数的子模块赋予在先顺序的步骤。
27.根据权利要求25所述的生物标记提取方法,其特征在于,还包括,所述生物标记提取装置在公知的蛋白质相互作用数据库中合并从求出所述危害性分数的基因表达的蛋白质,而形成相互作用网络的步骤。
28.根据权利要求25所述的生物标记提取方法,其特征在于,还包括,所述生物标记提取装置比较按所述先后顺序排列的子模块与公知的途径数据库,而评价各功能的关联性的步骤。
29.一种危害性预测方法,定量在序列上出现的变异数据影响基因功能导致的障碍,其特征在于,包括生物标记提取装置从所述变异数据产生包含多样的要素的特征向量的步骤; 所述生物标记提取装置在所述产生的特征向量中选出各个预测模型所需要素的步骤;所述生物标记提取装置在输入所述选出的要素后,提供在蛋白质序列内个别的分数的步骤;所述生物标记提取装置在所述预测模型的输出上,适用权重值进行合计,而计算权重危害性的步骤。
30.根据权利要求四所述的危害性预测方法,其特征在于,所述权重值是作为学习数据利用公知疾病基因的变异,而通过经验获得的值。
31.根据权利要求19所述的危害性预测方法,其特征在于,所述获得权重危害性的步骤包括,所述生物标记提取装置将所述预测模型的输出正规化为O至1之间的值后,适用所述权重值进行合计,并将所述合计的结果正规化为O至1之间的值的步骤。
32.根据权利要求四所述的危害性预测方法,其特征在于,还包括所述生物标记提取装置基于所述变异数据的频率,计算相应基因变异的重要性的步骤;所述生物标记提取装置组合所述权重危害性及所述重要性,而计算危害性分数的步马聚ο
33.根据权利要求32所述的危害性预测方法,其特征在于,所述重要性计算步骤包括, 基于最大似然估计或贝叶斯概率,根据相应基因变异在疾病群试样中出现的概率,计算所述重要性的步骤。
34.根据权利要求32所述的危害性预测方法,其特征在于,还包括,所述生物标记提取装置,在一个基因内基因变异所具备的危害性分数的和,除以所述基因的长度,而求出最终危害性分数的步骤。
全文摘要
本发明涉及一种生物信息学技术,尤其涉及一种基于在序列上出现的变异对基因功能导致的危害性的分析,提取可靠性更高的生物标记的装置及其方法。分析在序列上出现的变异对基因功能导致的变化,并提取成为特定疾病的原因的生物标记的生物标记提取装置,其包括一预处理部,其分析基因试样的序列,提取在基因上定位的变异数据;一危害性预测器,定量由于上述变异数据在上述基因功能上发生的障碍,而求出危害性分数;一模块化部,在基因网络,探索上述危害性分数在所定临界值以上的基因集合的子模块。
文档编号G06F19/18GK102542179SQ20111034275
公开日2012年7月4日 申请日期2011年10月27日 优先权日2010年10月27日
发明者宣忠贤, 尹泓皙, 朴仁镐 申请人:三星Sds株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1