用于管理基因序列的方法和装置的制造方法

文档序号:9865963阅读:474来源:国知局
用于管理基因序列的方法和装置的制造方法
【技术领域】
[0001] 本发明的各实施方式涉及数据管理,更具体地,涉及用于管理基因序列(gene sequence)的方法和装置。
【背景技术】
[0002] 随着生物学的发展,人类对于生物基因的研究已经越来越深入,例如,已经涉及到 了诸如人类健康、药物研发、动植物新品种W及关于微生物等诸多方面。
[0003] 通过对生物的基因序列进行测序(sequencing),可W获得构成该生物的染色体的 碱基对的序列。通常,将测量一个物种的第一个样本的基因序列的过程称为测序,而将测量 该物种的其他样本的基因序列的过程称为重测序(re-sequencing)。测序和重测序技术已 经实现了突破,并且随着所涉及的各项成本的降低,越来越多的个人或者团体开始认识到 基因序列的重要性,并且目前已经通过测序/重测序过程而获得了大量物种的基因序列数 据。
[0004] 基因序列包括大量数据,仅W人类基因为例,人类基因包括大约30亿个碱基对, 按照现有的表示方式,人类的基因序列将包括大约60亿个字符(字符A、G、T、C)。因而,在 基因数据库中存储的每个基因序列将会占用大量的存储空间。进一步,当需要存储大量基 因序列、或者当需要针对基因序列进行拷贝和传输时,将会面临数据存储/数据传输效率 方面的更多挑战。
[0005] 生物学家已经发现,同一物种的各个样本的基因序列之间存在一定的相似性。例 女口,人类的基因序列之间的相似性远远高于人类与其他物种的基因序列之间的相似性;进 一步,黄色人种的基因序列之间的相似性通常会高于黄色人种与白色人种的基因序列之间 的相似性。因而基于相似性,目前已经提出了参考基因序列的概念,参考基因序列可W是在 W往的数据处理期间获得的具有代表性的典型基因序列。
[0006] 例如,对于人类而言,黄色人种的男性的基因序列中可能会存在某些共同的部分, 例如,控制皮肤颜色、头发颜色、性别的基因序列片段可能是相同的或者仅存在较小差异。 因而,可W将某个黄色人种男性的基因序列作为参考基因序列。当需要存储另一个黄色人 种男性的基因序列时,可W将该另一男性的基因序列与参考基因序列进行比较,并且仅需 要存储两个基因序列之间数据差异和参考基因序列的标识符即可。W此方式,可W大大降 低待存储的数据量,因而实现数据压缩的目的。
[0007] 应当注意,由于黄色人种的男性的基因序列中的很多部分是相同的,并且差异数 据所占的比例通常并不太高。因而上述方法可W大大降低带存储基因序列所占用的数据空 间。可W在参考数据库中存储大量参考基因序列,并且基于相似性搜索来从参考数据库中 选择与待存储基因序列最为匹配的参考基因序列。然而,由于每个基因序列的数据量通常 极大,并且包括字符A、G、T、C的各种组合,送些特点使得现有的相似性搜索算法并不十分 适合于基因序列。
[0008] 在基因序列处理的技术领域中,如何确定两个基因序列之间的相似性是选择参考 基因序列w及其他后续处理的基础,因而如何基于基因序列的特征而提供更有效的确定相 似性的方法,成为目前基因序列处理领域中的一个研究热点。

【发明内容】

[0009] 因而,期望能够充分考虑基因序列的自身特点,来提供用于确定第一基因序列与 第二基因序列之间的相似性的更加有效的技术方案。进一步,期望可W基于该确定相似性 的方法来找到更加匹配于待存储基因序列的参考基因序列,W便降低待存储基因序列和参 考基因序列之间的差异数据的数据量,进而实现更好的数据压缩效果。
[0010] 在本发明的一个实施方式中,提供了一种用于确定第一基因序列与第二基因序列 之间的相似性的方法,包括:分别在第一基因序列和第二基因序列上移动预定长度的滑动 窗口;在滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部 分Stringli、和所述第二基因序列在所述滑动窗口内的第二部分String2i ; W及基于第一 部分Stringli和第二部分String2i确定第一基因序列与第二基因序列之间的相似性。
[0011] 在本发明的一个实施方式中,提供了一种用于压缩基因序列的方法,包括;响应于 获取基因序列W及至少一个参考基因序列,采用根据本发明的方法,确定至少一个参考基 因序列中的每个参考基因序列与基因序列之间的至少一个相似性;响应于至少一个相似性 中的最小值小于或者等于预定阔值,选择相似性为最小值的参考基因序列作为当前参考基 因序列;W及生成经压缩的基因序列,经压缩的基因序列包括当前参考基因序列的标识符 W及基因序列与当前参考基因序列之间的差异数据。
[0012] 在本发明的一个实施方式中,提供了一种用于对经压缩的基因序列进行解压缩的 方法,包括:响应于接收到根据本发明方法进行压缩的经压缩的基因序列,从经压缩的基因 序列中提取当前参考基因序列的标识符W及差异数据;基于当前参考基因序列的标识符从 参考数据库中获取当前参考基因序列;W及基于参考基因序列和差异数据,对经压缩的基 因序列进行解压缩。
[0013] 在本发明的一个实施方式中,提供了一种用于确定第一基因序列与第二基因序列 之间的相似性的装置,包括:移动模块,配置用于分别在第一基因序列和第二基因序列上 移动预定长度的滑动窗口;提取模块,配置用于在滑动窗口的第i次移动期间,提取所述 第一基因序列在所述滑动窗口内的第一部分Stringli、和所述第二基因序列在所述滑动 窗口内的第二部分String2i ; W及确定模块,配置用于基于第一部分Stringli和第二部分 String2i确定第一基因序列与第二基因序列之间的相似性。
[0014] 在本发明的一个实施方式中,提供了一种用于压缩基因序列的装置,包括;确定模 块,配置用于响应于获取基因序列W及至少一个参考基因序列,采用根据本发明的装置,确 定至少一个参考基因序列中的每个参考基因序列与基因序列之间的至少一个相似性;选择 模块,配置用于响应于至少一个相似性中的最小值小于或者等于预定阔值,选择相似性为 最小值的参考基因序列作为当前参考基因序列;W及生成模块,配置用于生成经压缩的基 因序列,经压缩的基因序列包括当前参考基因序列的标识符W及基因序列与当前参考基因 序列之间的差异数据。
[0015] 在本发明的一个实施方式中,提供了一种用于对经压缩的基因序列进行解压缩的 装置,包括:提取模块,配置用于响应于接收到根据本发明的装置进行压缩的经压缩的基因 序列,从经压缩的基因序列中提取当前参考基因序列的标识符w及差异数据;获取模块,配 置用于基于当前参考基因序列的标识符从参考数据库中获取当前参考基因序列;W及解压 模块,配置用于基于参考基因序列和差异数据,对经压缩的基因序列进行解压缩。
[0016] 采用根据本发明的实施方式所述的技术方案,可W W更加适合于基因序列的自身 特点的方式来度量两个基因序列之间的相似性;进一步,还可W基于该相似性来找到参考 数据库中的最为匹配参考基因序列,进而W压缩方式来存储待存储基因序列。
【附图说明】
[0017] 结合附图并参考W下详细说明,本发明各实施方式的特征、优点及其他方面将变 得更加明显。本发明附图中,相同的标号表示相同或相似的元素。在附图中:
[0018] 图1示意性示出了适于实现本发明实施方式的示例性计算系统的框图;
[0019] 图2示意性示出了用于针对生物进行测序所得的基因序列的数据结构的示意;
[0020] 图3示意性示出了根据本发明一个实施方式的用于确定第一基因序列与第二基 因序列之间的相似性的技术方案的框图;
[0021] 图4示意性示出了根据本发明一个实施方式的用于确定第一基因序列与第二基 因序列之间的相似性的方法的流程图;
[0022] 图5示意性示出了根据本发明一个实施方式的用于确定第一基因序列与第二基 因序列之间的相似性的过程的示意图;
[0023] 图6示意性示出了根据本发明一个实施方式的用于压缩基因序列的方法的流程 图;
[0024] 图7A和图7B分别示意性示出了根据本发明一个实施方式的在压缩期间处理注释 和分段的框图;
[00巧]图8示意性示出了根据本发明一个实施方式的对经压缩的基因序列进行解压缩 的方法的流程图;W及
[0026] 图9A示意性示出了根据本发明一个实施方式的用于确定第一基因序列与第二基 因序列之间的相似性的装置的框图,图9B示意性示出了根据本发明一个实施方式的用于 压缩基因序列的装置的框图,W及图9C示意性示出了根据本发明一个实施方式的用于对 经压缩的基因序列进行解压缩的装置的框图。
【具体实施方式】
[0027] 图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框 图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施方式的功能和 使用范围带来任何限制。
[0028] 如图1所示,计算机系统/服务器12 W通用计算设备的形式表现。计算机系统 /服务器12的组件可W包括但不限于;一个或者多个处理器或者处理单元16,系统存储器 28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0029] 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器, 外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举 例来说,送些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线W及外围组件互连(PCI)总线。
[0030] 计算机系统/服务器12典型地包括多种计算机系统可读介质。送些介质可W是 任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动 的和不可移动的介质。
[0031] 系统存储器28可W包括易失性存储器形式的计算机系统可读介质,例如随机存 取存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可W进一步包括其 他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34 可W用于读写不可移动的、非易失性磁介质(图1未显示,通常称为"硬盘驱动器")。尽管 图1中未示出,可W提供用于对可移动非易失性磁盘(例如"软盘")读写的磁盘驱动器, W及对可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其他光介质)读写的光盘驱动器。 在送些情况下,每个驱动器可W通过一个或者多个数据介质接口与总线18相连。存储器28 可W包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,送些程序模 块被配置W执行本发明各实施方式的功能。
[0032] 具有一组(至少一个)程序模块42的程序/实用工具40,可W存储在例如存储器 28中,送样的程序模块42包括一但不限于一操作系统、一个或者多个应用程序、其他 程序模块W及程序数据,送些示例中的每一个或某种组合中可能包括网络环境的实现。程 序模块42通常执行本发明所描述的实施方式中的功能和/或方法。
[0033] 计算机系统/服务器12也可W与一个或多个外部设备14 (
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1