用于管理基因序列的方法和装置的制造方法_3

文档序号:9865963阅读:来源:国知局
] 在本发明的一个实施方式中,基于局部相似性similarity^确定第一基因序列与 第二基因序列之间的相似性包括:基于W下公式计算相似性
,其 中N为滑动窗口移动的次数。
[0064] 在此实施方式中,可W将在滑动窗口的每次移动期间所得的局部相似性 similarityi进行求和,来获取第一基因序列和第二基因序列之间的相似性。或者,本领域 技术人员还可W采用其他公式来计算相似性。
[0065] 在本发明的一个实施方式中,其中;第一基因序列是来自第一序列的一部分,W及 第二基因序列是来自第二序列的一部分。应当注意,由于基因序列的长度通常极大,例如当 确定描述人类基因信息的第一基因序列(包括60亿个字符)与描述人类基因信息的第二 基因序列(包括60亿个字符)之间的相似性时,将会涉及极大的计算量。因而,可W将基 因序列划分为多个分段(例如,每个分段可W包括1万个字符串),并且每次仅针对具有较 小长度的分段内的数据进行处理。
[0066] 在本发明的一个实施方式中,并不限定所划分的各个分段之间是否存在重叠区 域。例如,可W使得各个分段之间包括重叠区域,W便于将划分所得的各个分段拼接为原始 基因序列。
[0067] 应当注意,尽管在上文中仅示意性示出了如何计算两个基因序列之间的相似性的 具体示例,本领域技术人员应当理解,在从参考数据库中选择合适的参考基因序列时,还需 要计算待存储的基因序列与参考数据库中的各个参考基因序列之间的相似性。
[0068] 在本发明的一个实施方式中,当存在多个参考基因序列时,确定待存储基因序列 与多个参考基因序列(例如,η个)之间的相似性将会耗费较多的时间。因而,例如可W按 照如图5所示的方式将待存储基因序列与η个参考基因序列对准,并且从各个基因序列的 头部开始移动滑动窗口。W此方式,在滑动窗口的每次移动期间,可W同时获得待处理基因 序列W及η个参考基因序列在该滑动窗口内的部分。继而,可W分别将待存储基因序列在 滑动窗口内的部分分别与η个参考基因序列在滑动窗口内的相应部分进行比较,W获取相 应的局部相似性。
[0069] 为了加快计算速度,可W预先计算在计算相似性期间可能使用到的编辑距离,并 在数据表中存储预先计算的编辑距离。或者,还可W随着滑动窗口的移动来不断计算新的 编辑距离,并且在数据表中存储曾经出现的两个字符串之间的编辑距离,W便后续处理期 间可W直接使用该编辑距离。
[0070] 备选地,为了加快计算速度,还可W设置用于辅助计算的查找表,该查找表中可W 包括;将滑动窗口沿着各个参考基因序列移动期间、落在滑动窗口内的字符串;W及记录 上述各个字符串曾经出现在哪些参考基因序列中的信息。具体地,参见附图5,假设第一基 因序列310是待存储的基因序列,而第二基因序列320是参考基因序列,当滑动窗口位于附 图标记330所示的位置时,参考基因序列中的在滑动窗口内的字符串为"GCTGCCC"。如果该 字符串还出现在第3参考基因序列.....第i参考基因序列.....W及第η参考基因序列中 时,则查找表可W如下文表1所示。
[00川表1查找表
[0072]
[0073] 应当注意,在表1中仅仅示意性示出了包括字符串"GCTGCCC"的多个参考基因序 列,本领域技术人员还可W基于上文所述的原理,获得包括其他字符串的相应参考基因序 列的序列。通过使用如表1所示的查找表,可W在查找表中包括找到包括字符串"GCTGCCC" 的全部参考基因序列,因而可W将待存储基因序列与送些找到的参考基因序列中的每个参 考基因序列之间的相似性增加字符串"TCTAGCC"和"GCTGCCC"之间的编辑距离(在图5所 示的实施方式中,该编辑距离为37. 2)。基于查找表来将编辑距离进行累计求和,即可获得 待存储基因序列与各个参考基因序列之间的相似性。
[0074] 应当注意,本发明的确定相似性的方法可W作为处理基因序列的一个基本操作, 并且本发明的上述确定相似性的方法还可W进一步作为从参考数据库中选择合适的参考 基因序列、基于多个基因序列之间的相似性而将该多个基因序列进行聚类、确定聚类中必 等各种处理的子步骤。
[00巧]在下文中,将参见附图详细描述如何选择参考基因序列进而对待存储的基因序列 进行压缩和解压缩的方法的详细信息。目前已经存在许多组织可w提供参考基因序列,并 且可W通过网络来方便地访问参考基因序列。根据本发明的实施方式,在压缩基因序列时 只需要存储该基因序列与参考基因序列之间的差异数据W及参考基因序列的标识符,即可 W基于所存储的差异数据和经由网络访问而获得的参考基因序列,来获得基因序列的原始 数据。
[0076] 在本发明的一个实施方式中,提出了一种用于压缩基因序列的方法,包括;响应于 获取基因序列W及至少一个参考基因序列,采用根据本发明的方法,确定至少一个参考基 因序列中的每个参考基因序列与基因序列之间的至少一个相似性;响应于至少一个相似性 中的最小值小于或者等于预定阔值,选择相似性为最小值的参考基因序列作为当前参考基 因序列;W及生成经压缩的基因序列,经压缩的基因序列包括当前参考基因序列的标识符 W及基因序列与当前参考基因序列之间的差异数据。
[0077] 图6示意性示出了根据本发明一个实施方式的用于压缩基因序列的方法的流程 图600。在步骤S602中,响应于获取基因序列W及至少一个参考基因序列,采用根据上文的 方法,确定至少一个参考基因序列中的每个参考基因序列与基因序列之间的至少一个相似 性。本领域技术人员可W基于上文参见附图3-5描述的方法,逐个计算每个参考基因序列 与待压缩的基因序列之间的相似性。
[0078] 在步骤S604中,响应于至少一个相似性中的最小值小于或者等于预定阔值,选择 相似性为最小值的参考基因序列作为当前参考基因序列。在此实施方式中,当距离"来 衡量两个基因序列之间的相似性时,可W选择相似性的数值为最小的参考基因序列作为当 前使用的参考基因序列。备选地,当W "相似程度"来作为衡量标准时,则可W选择相似性 的数值为最大的参考基因序列作为当前使用的参考基因序列。本领域技术人员可W基于本 发明的原理来自定义具体实现方式。
[007引在步骤S606中,生成经压缩的基因序列,经压缩的基因序列包括当前参考基因序 列的标识符W及基因序列与当前参考基因序列之间的差异数据。由于选择的当前参考基因 序列是在参考数据库中与待压缩的基因序列的相似程度最高的参考基因序列,因而通过仅 存储当前参考基因序列的标识符W及待压缩基因序列与当前参考基因序列之间的差异数 据,即可保存该待压缩基因序列的全部信息。
[0080] 由于经压缩的基因序列并不包括待压缩基因序列与当前参考基因序列之间相同 的基因序列,因而,可W大大降低经压缩基因序列所占用的空间。当参考数据库中仅包括一 个参考基因序列时,无需在经压缩的基因序列中包括该参考基因序列的标识符;而当参考 数据库中包括多个参考基因序列时,还需要在经压缩的基因序列中包括该参考基因序列的 标识符,W便可W通过该标识符找到在执行压缩时使用了哪个参考基因序列。
[0081] 在本发明的一个实施方式中,生成经压缩的基因序列包括;响应于基因序列中存 在注释,在经压缩的基因序列中包括注释的位置和标识符;W及在经压缩的基因序列中包 括基因序列中的一部分与当前参考基因序列的相应部分之间的差异数据,基因序列中的一 部分是无关于注释的部分。
[008引随着人类对基因序列的研究,目前已经能够确定某些基因序列片段的含义。因而, 目前的基因序列的存储已经支持针对基因序列的片段加入注释。在此的注释信息例如可W 是描述某起始位置和终止位置之间区间的基因序列的功能的注释信息。例如,假设起始位 置和终止位置分别为1和10000之间的基因序列是与黑色头发有关的基因序列片段,则可 W针对位置1-10000之间的片段添加注释,表明此部分基因序列与黑色头发有关。由于与 某种功能相关的基因序列片段内容通常是固定的(或者仅存在较小差距),因而可W在经 压缩的基因序列中仅记录注释的标识符,而不需要记录与该注释相关联的基因序列片段本 身。
[0083] 另外,由于人类属于哺乳动物,因而人类的基因序列中会包括一些与较为低等哺 乳动物相同的保守基因序列片段,尽管人类还可W细分为白色人种、黄色人种等人种,然而 各色人种的基因组中都会包括送些固定基因序列片段。因而可注释的标识符来代替送 些固定基因序列片段。W此方式,可W大大节省存储空间。
[0084] 具体地,图7A示意性示出了根据本发明一个实施方式的在压缩期间处理注释的 框图700A。如图7A所示,假设待压缩基因序列710中的一个片段上包括注释712A,而其他 片段714A和716A并不包括注释,因而在生成经压缩基因序列的过程中,不必针对包括注释 712A的部分获取与参考基因序列之间的差异数据,而是只需记录该注释712A的标识符即 可。对于不包括注释的其他部分(即,片段714A和716A),则可W按照本发明上文中所述的 方法,获取送两个片段与参考基因序列中的相应片段(724A和726A)之间的差异数据730。
[0085] 应当注意,尽管在图7A中仅仅示意性示出了包括一个注释的情况,当待压缩基因 序列710A中包括多个注释时,本领域技术人员还可W基于上文记载的原理来针对每个注 释进行处理。
[0086] 在本发明的一个实施方式中,生成经压缩的基因序列包括;将基因序列划分为多 个分段;针对多个分段中的每个分段,在当前参考基因序列内搜索与每个分段相匹配的部 分;在经压缩的基因序列中包括相匹配的部分在当前参考基因序列中的位置、W及每个分 段与相匹配的部分之间的差异数据。
[0087] 当待压缩基因序列的长度过长并且不便于寻找适合的参考基因序列时,还可W将 该待压缩的基因序列划分为多个分段,并且针对每个分段逐个进行处理。例如,可W将待压 缩基因序列划分为定长的分段,或者还可W基于基因序列的生物学含义来划分分段。
[0088] 具体地,图7B示意性示出了根据本发明一个实施方式的在压缩期间处理分段的 框图700B。如图7B所示,假设基因序列710B中包括分段712B,则可W在参考基因序列720B 中寻找与该分段712B相匹配的部分,例如,在参考基因序列720B中找到分段722B。因而可 W记录分段722B在参考基因序列720B中的位置,并获取基因序列710B中的分段712B与 参考基因序列720B中的分段722B之间的差异数据。
[0089] 应当注意,尽管在图7B中仅仅示意性示出了包括一个分段的情况,当待压缩基因 序列710B中包括多个分段时,本领域技术人员还可W基于上文记载的原理来针对每个分 段进行处理。
[0090] 在本发明的一个实施方式中,进一步包括:响应于至少一个相似性中的最小值大 于预定阔值,将基因序列与其他待压缩基因序列划分至至少一个聚类,其中其他待压缩基 因序列中的每个基因序列与至少一个参考基因序列中的任一参考基因序列之间的相似性 大于预定阔值;W及生成经压缩的基因序列,经压缩的基因序列包括基因序列所属于的聚 类的聚类中必的指示符、W及基因序列与聚类中必之间的差异数据。
[0091] 在此实施方式中,如果
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1