处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统的制作方法

文档序号:8548098阅读:196来源:国知局
处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统的制作方法
【专利说明】处理和呈现基因组序列数据中核巧酸变化的基因组浏览器 系统 相关申请的交叉引用
[0001] 本申请是于2012年10月24日提交的美国临时申请61/717, 773的非临时申请并 要求该临时申请的优先权。该优先申请其全部内容并入本文用于所有目的。
技术领域
[0002] 本公开总体设及基因组序列分析领域。更具体地,描述了提供序列变化的图形显 示W及能够与网络整合W促进公布和社区反馈的计算机系统和方法。
【背景技术】
[000引 例如在美国专利 7, 910, 354(arraysofamplifiedpolynucleotides),美国 专利 8,278, 039(randomarrayDManalysisbyhybridization);美国 2009/0318304A1(efficientshotgunsequencingmethods)讯美国 2011/0033854A1(longfragment readsequencing)中已经描述了用于全基因组测序的方法。用于将DM序列片段组装到 扩大的基因组序列的方法包括(但不限于)在美国专利8, 053, 191(iterativenucleic acidassemblyusingactivationofvector-encodedtraits);美国 2011/0004413 A1(callingvariationsinasamplepolynucleotidesequencewithrespecttoa referencepolynucleotidesequence)漢国 2009/0105961A1(methodsofnucleicacid identificationinlarge-scalesequencing)讯美国 2008/0221832A1(methodsfor computingpositionalbaseprobabilities)中描述的方法。
[0004] 除了确定基因组W外,能够W高效和直观的方式可视化基因组是有益的。

【发明内容】

[0005] 本公开提供了用于确定、显示和讨论不同的个体之间的基因序列中出现的变化的 计算机系统和方法。
[0006] 本发明的一个方面是用于显示相同物种的不同的个体之间的基因组之间的变化, W及其他复杂序列之间的差异的方法。针对测试样本和参考样本接收序列数据,使用计算 机系统对准样本,并且识别序列中的变化。然后在表示变化位于何处的比较基因序列图谱 上可W显示所述变化。可W给用户提供用于控制所述比较基因序列图谱的显示的界面。用 户可W从界面选择基因序列图谱内区域(有时少于整个比较基因序列图谱的一半)的选 择,从而所述显示被重新配置,使得该区域被放大,任选与所述区域尺寸成比例:例如是原 来的显示的至少2倍,跨越所述显示的宽度的至少约一半呈现所述区域。
[0007] 根据本发明的显示系统可W被配置为W多种格式显示序列和变体数据。所述格式 可包括染色体组型视图、细胞基因组视图、染色体连锁图、染色体视图、线性图谱、或序列视 图、典型地利用该些可用格式和用户可选择的格式中的若干或所有的任意组合。
[000引基因图谱可W提供低到单个碱基的等级的分辨率。因此,该方法包括确定所述区 域是否小于规定的尺寸,如果是的话,则显示跨越所述区域的核巧酸序列,和(如果在指定 的尺寸处的所选择的跨度内发生确定的变化中的至少一个),则显示相对于所述核巧酸序 列的变体的位置。根据所述方法显示的基因变化包括但不限于拷贝数变化(CNV),小核巧酸 变化(SNV),杂合性丢失(LOH),W及在本发明的其它地方列出的其它变化类型。
[0009] 显示的丰富度可适于提供者和/或使用者的喜好。例如,显示可W针对拷贝数、等 位基因特定拷贝数和蛋白质编码序列在整个感兴趣的区域呈现独立的图。用户可W被给予 选择染色体组型视图、跨越一个或多个染色体的圆形视图、或感兴趣的区域的线性视图的 能力,其中任何一个表示在复杂序列中的变化发生在何处。
[0010] 为了提供对测试样本的复杂序列的安全访问,所述方法可W包括;接收标识用户 的第一标识符和标识测试样本的第二标识符,确定用户是否有权访问试验样本的序列数 据,并且如果是的话,则从安全数据库中检索测试样本的复杂序列,所述安全数据库包括多 个不同的样本的基因组。所述方法还可W包括使用任何合适的方法,诸如那些在本公开别 处列出的方法,进行包含在测试样本中DNA的实际测序。参考序列可W任选地从该种序列 的数据库中选择,例如,通过捜索在参考数据库中的多个参考样本中的任何一个的复杂序 列的来源;比较测试样本的复杂序列与参考序列,并且如果参考序列根据预先设定的标准 与测试样本相匹配,则选择所述参考序列。
[0011] 数据的过滤可通过W下方法来进行:接收指定要显示的序列变化的特性的过滤器 的选择;W及调整所述显示W突出具有所述特性的变化和/或移除不具有由所述过滤器所 指定的特征的变化。所述方法可W包括预测序列变化对蛋白质表达、蛋白质功能、临床表 现、或疾病的风险的一个或多个影响,并利用所述基因序列图谱提供有关所述影响的信息。 所述方法还包括将所述变化中的至少一些与已知变体相比较,并可选地从外部数据库利用 所述基因序列图谱提供有关所述已知变体的信息。通过接收DNA序列中的一个或多个变化 的选择,W及指示所述比较基因图谱上的一个或多个变化,某些变体可W由用户突出显示 或牵制。所述方法可W包括接收DNA序列中的一个或多个所述变化的选择,确定在所述人 类基因组中所选择的变化中的每个的所述位置,获得关于在至少一些所选择的变化的位置 处或附近针对其他样本观察到的DNA序列变化的信息,和提供包含所述信息的显示。
[0012] 本发明的另一个方面是包括非临时性计算机可读介质的计算机产品,所述非临时 性计算机可读介质存储多个指令,所述多个指令当被执行时控制计算机系统W执行前述方 法的任何方面。
[0013] 本发明的另一个方面是配置成计算和提供根据本文描述的方法的测试样本的复 杂序列数据相对于参考样本的复杂序列数据的变化的显示的系统。所述系统可W包括计算 机处理器、存储所述参考DNA序列数据的数据库、和DNA测序装置。所述系统被配置为使得 所述用户可W与他人共享关于一个或多个变化的信息。
[0014] 本发明的另一个方面是一种用于在客户端之间共享复杂序列中的变化的服务器 系统。所述系统包括一个或多个处理器,所述一个或多个处理器被配置为组装例如示出测 试样本的样本复杂序列和参考样本的参考复杂序列之间的多个变化的基因序列图谱之类 的显示。所述处理器提供所述基因序列图谱给多个客户端;提供第一用户界面给第一客户 端,其中所述用户界面被配置成:接收指示W使所述基因序列图谱能提供给其他的客户端; W及接收关于能提供给其他客户端的一个或多个变化的第一信息。所述系统被配置成提供 第二用户界面给一个或多个第二客户端;从所述一个或多个第二客户端接收关于能提供的 所述一个或多个变化的回复信息;W及提供所述一个或多个变化的所述回复信息给所述第 一客户端。
[0015] 所述系统利用从一个或多个变化到第一信息和用于相应的变化的回复信息的链 接可提供基因序列图谱给多个客户端。利用链接到所述基因序列图谱上的所述一个或多个 变化的指示的超链接,关于由第一客户端用户提供的一个或更多的变化的第一信息能提供 给其他客户端。所述第一信息可W被显示在提要中作为一个或多个条目,所述提要能提供 给多个用户,其中每个条目对应于相应的变化。有关所述一个或多个变体的所述第一信息 通过因特网上的信息网站的方式能提供给其他用户。所述服务器可被配置为将来自其他用 户的有关一个或多个变化的回复信息编译成关于所述变化是致病性的还是良性的的评估。
[0016] 从下面的描述本发明的其他方面将是显而易见的。 定义
[0017] 如本发明中所用的术语"复杂序列"、"序列汇编"或"祀序列"是指任何物种的个 体或个体的组合的核巧酸序列组。序列数据可W通过测序来自特定个体的生物样本获得, 或者其可W被构造用于人的个体或群体的人工序列数据或共有序列数据。复杂序列可W是 完全或部分的基因组序列数据,它可W是来自表达文库的CDNA序列数据,它可W是序列集 合,如外显子组或生物群落,或者它可能是用户感兴趣的另一DNA编译。除非明确说明,否 则已经从其获得复杂序列的合适的个体可W从人、其它哺乳动物、其他脊椎动物、其它真核 生物、原核生物,或它们的组合选择,合适的个体包括但不限于:来自特定源或来自特定人 的亚分类的人或其它生物样本的库,来自特定的环境的单细胞有机体,或生物体或其部件 的假设序列或共有序列的汇编。
[001引如下面所解释的,如在本公开中使用的"参考样本"是用户可W将测试样本与其比 较的任何样本。参考样本可W具有参考复杂序列,例如,参考基因组。来自测试样本的核酸 分子的序列(因此相应于测试样本的基因组)可W与参考序列对准。
[0019] "比较基因序列图谱"是其中两个或两个W上的复杂序列之间的变化沿DNA结构 (如染色体)在遗传位置指标(如碱计数或已知标记物)之间被图谱化(mapped)的图形描 绘。除非另有说明,否则提供用于显示的基因序列图谱是"可扩大的",在该个意义上,用户 可W请求非常详细的概要(如整个染色体)或其区段的描述,最终归结到所选择的区段中 的序列中的实际核巧酸。
[0020] 核巧酸序列"变化"包括一个样本的复杂序列(例如,基因组)与另一样本的复杂 序列之间的任何差异,如从相应样本的序列读取中确定的,该在下面说明和举例说明。
[0021] "显示"是I/O装置(诸如显示器或触摸屏设备)上示出的视觉描绘,或由装置所 描绘的框或窗口内的视觉描绘。例如,通过使项目在可操作地连接到系统的适当的输出装 置上呈现,或者通过将数据集发送到外部装置(如客户端)使该装置能够在本地呈现项目, 计算机系统可W对项目"提供显示"。
【附图说明】
[0022] 图1A是根据本发明的基因浏览器系统的示例性配置的框图。图1B是显示用户通 过其可W对系统进行分析并显示序列数据的过程的流程图。
[0023] 图2A是示出来自特定患者的基因组序列数据的染色体组型视图的显示的屏幕截 图。图2B示出了与参考序列进行比较的整个基因组的细胞基因组视图。
[0024] 图3A是示出Circos⑩式图的形式的患者样本的整个基因组序列的概况的显示, 其示出了序列变化和表观染色体间结的分析。图3B是图谱化通过将测试序列与参考序列 比较来确定的核巧酸变化的更详细的视图。
[0025] 图4A是染色体1的线性视图的显示,其可通过移动标记402到较窄区域进行扩
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1