提供与基于基因序列的个人标记有关的信息的方法和装置的制造方法

文档序号:9252017阅读:473来源:国知局
提供与基于基因序列的个人标记有关的信息的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及提供与基于基因序列的个人标记有关的信息的方法和使用该方法的 装置。
【背景技术】
[0002] 随着人类基因组计划的完成,已经对人类DNA碱基序列进行了解码并从中发现了 人类基因的各种功能。具体而言,已经发现了各种基因变异,并且已发现它们不但引起人类 性状的差异,而且还充当了某些疾病的病因。因此,人类基因组分析研宄越来越在加速进 行。然而,难点在于确定人类基因组中出现的大量基因变异中哪些基因变异会是病因。
[0003] 随着下一代测序(NGS)技术的发展,已经能够对个体人类的全基因组的碱基序列 进行解码。通过对疾病组和正常组的碱基序列与变异的比较和分析,能够提取疾病特异性 基因变异。此外,已经采用如下方法在现有的繁殖材料中生成唯一的分子标记:选择与性状 相关联的标记,在种质(germplasm)内的一组标记中在核苷酸水平识别现有的变异,并借 助靶向核苷酸交换在标记的固定区域中的位置处引入一个或更多个核苷酸而引入选择性 标记(参见韩国专利申请特开No. 10-2011-0094268)。
[0004] 然而,现有技术的方法仅能提供高度特异性基因变异信息,因而其受限于不能提 供可靠的有用信息。

【发明内容】

[0005] 技术问题
[0006] 鉴于上述问题而做出本发明,并且本发明的目的是提供一种与基于基因序列的个 人标记有关的信息的方法,该方法包括以下步骤:从目标样品获得基因序列信息;使用所 获得的基因序列信息提取基因序列变异标记;以及基于碱基序列的品质对所提取的变异标 记的最优性进行评价,以提供与基于基因序列的个人标记有关的信息。
[0007] 此外,本发明的另一目的是提供一种装置,该装置包括:序列输入部;序列品质管 理(QC)部;序列比较运算部;基因变异提取部;以及从目标样品获得的碱基序列信息的变 异区域序列输出部。
[0008] 解决技术问题的技术方案
[0009] 在本发明中,术语"可靠性评价"是指对所选择的标记的可能显著性进行评价;其 实例包括:使用与支持读段(read)的数量、碱基序列的数量以及用于提取基因变异标记的 序列的品质(但不限于此)有关的信息对基因变异分析结果进行评价。
[0010] 在本发明中,术语"容易度评价"是指对实验标记检测的容易程度进行评价;其实 例包括:分析和评价重复序列的出现、诸如GC碱基含量等序列组成特性、以及基因变异周 围的附加个体变异的出现,但不限于此。
[0011] 在本发明中,术语"有用性评价"是指基于与标记的生物性状的关联性对有用性进 行评价;其实例包括:基于与基因标记的生物性状的关联性对有用性进行评价,例如与疾 病风险性的关联性,以及与靶向抗癌剂的关联性,但不限于此。
[0012] 在一个实施方式中,本发明提供了一种用于提供与基于基因序列的个人标记有关 的信息的方法,该方法包括以下步骤:从目标样品获得碱基序列相关信息;对所获得的碱 基序列信息是否适于分析执行品质管理;将执行了品质管理的所述碱基序列与参考序列进 行比较;从序列比较结果中提取个人识别标记;对所提取的个人识别标记的最优性进行评 价;以及输出已识别出标记的最优性的所述序列。
[0013] 在该实施方式中,对标记的最优性进行评价的步骤提供了特征在于下述的方法: 执行可靠性评价、容易度评价和有用性评价。对序列品质进行识别并执行品质管理的步 骤提供了特征在于下述的方法:对基因的每个位置执行选自由修整(trimming)、N掩蔽 (N-masking)和低品质读段过滤组成的组中的任意一个或更多个运算。对碱基序列进行比 较的步骤提供了特征在于下述的方法:其执行选自由全局比对和局部比对组成的组中的任 意一个或更多个运算。对标记进行提取的步骤提供了特征在于下述的方法:其提取单核苷 酸多态性(SNP)或结构变异(SV)。对标记的可靠性进行评价的步骤提供了特征在于下述的 方法:其基于所获得的碱基序列读段的数量和组成对统计可靠性进行评价。对标记的容易 度进行评价的步骤提供了特征在于下述的方法:考虑重复序列的出现、GC含量等对实验的 容易度进行评价。对标记的有用性进行评价的步骤提供了特征在于下述的方法:对涉及疾 病风险程度以及与疾病的关联性的生物学有用性进行评价。此外,输出上述识别出序列的 步骤提供了特征在于下述的方法:将包括所述基因变异的碱基序列的外围序列输出成例如 fasta格式等的常规标准序列文件格式。
[0014] 在一个实施方式中,本发明提供了一种用于提供与基于基因序列的个人标记有关 的信息的装置,该装置包括:输入部(110),用于输入从目标样品获得的碱基序列信息;品 质管理运算部(120),用于对所获得的碱基序列信息是否适于分析执行品质管理;比较运 算部(130),用于将执行了品质管理的所述碱基序列与参考序列进行比较;基因变异提取 部(140),用于从序列比较结果中提取个人识别标记;适用性运算部(150),用于对所提取 的个人识别标记的最优性进行识别和评价;以及输出部(160),用于输出所述标记的最优 性的评价结果。
[0015] 在上述实施方式中,最优性运算部(150)提供了特征在于下述的装置:其选自由 可靠性运算部、容易度运算部和有用性运算部组成的组中的任意一个或更多个。品质管理 运算部(120)提供了特征在于下述的装置:该运算对基因的每个位置执行选自由修整、N掩 蔽和低品质读段过滤组成的组中的任意一个或更多个运算。比较运算部(130)提供了特 征在于下述的装置:其执行选自由全局比对和局部比对组成的组中的任意一个或更多个运 算。基因变异提取部(140)提供了特征在于下述的装置:其提取单核苷酸多态性或结构变 异。在最优性运算部(150)中,可靠性运算部提供了特征在于下述的装置:其基于所获得的 碱基序列读段的数量和组成对统计可靠性进行评价;容易度运算部提供了特征在于下述的 装置:其考虑重复序列的出现、GC含量等对实验的容易度进行评价;以及有用性运算部提 供了特征在于下述的装置:其对涉及疾病风险程度以及与疾病的关联性的生物学有用性进 行评价。此外,输出部(160)提供了特征在于下述的装置:将包括所述基因变异的碱基序列 的外围序列呈现为例如fasta格式等常规标准序列文件格式。
[0016] 发明的有益效果
[0017]由于通过从基因序列分析仪得到的核苷酸序列读段获得的基因变异信息包括不 确定性,因此存在许多情形需要使用其他分析设备的识别处理。因而,通过根据本发明的用 于提供与基于基因序列的个人标记有关的信息的方法和使用该方法的装置,i)执行个人基 因变异标记提取;ii)基于可靠性、容易度和有用性对所提取的基因变异标记进行评价;以 及iii)在不使用单独程序的情况下能够同时获得外围序列信息,从而其能够用于使用其 他分析设备的识别实验。具体而言,在癌症细胞基因的情况下,其提供了对该癌症细胞特异 的基因变异标记,因此能够用作用于检测源自癌细胞的基因的工具,所述源自癌细胞的基 因与源自受试对象的的正常细胞的基因区别开。
【附图说明】
[0018] 图1是示出根据本发明的一个实施方式的用于提供与基于基因序列的个人标记 有关的信息的方法的总体图。
[0019]图2是用于读取来自序列分析仪的碱基序列读段、对各个读段执行品质管理并将 所获得的碱基序列相对于公开的参考序列进行匹配的方法的一个具体实例。
[0020] 图3是示出用于参照公开的参考序列或其他碱基序列读段提取个人基因变异标 记并对信息进行呈现的方法的一个具体实例。
[0021] 图4a至4h是通过执行了表1和2中所列出的可靠性计算的仿真而产生的示例性 序列;图4i至图41示出了每一个所述序列的计算结果。
[0022] 图5是基于与基因标记的生物性状的关联性计算出的所发现的三个基因变异的 有用性分数的一个具体实例。
【具体实施方式】
[0023]下面将参照【附图说明】本发明的优
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1