用于管理基因序列的方法和装置的制造方法_2

文档序号:9865963阅读:来源:国知局
例如键盘、指向设备、 显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的 设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信 的任何设备(例如网卡,调制解调器等等)通信。送种通信可W通过输入/输出(I/O)接 口 22进行。并且,计算机系统/服务器12还可W通过网络适配器20与一个或者多个网络 (例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适 配器20通过总线18与计算机系统/服务器12的其他模块通信。应当明白,尽管图中未示 出,可W结合计算机系统/服务器12使用其他硬件和/或软件模块,包括但不限于;微代 码、设备驱动器、兀余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器W及数据备份存 储系统等。
[0034] 图2示意性示出了用于针对生物进行测序所得的基因序列的数据结构的示意 200。图2中的附图标记210示出了染色体的示意图,附图标记220示出了基因序列的示意 图。简言之,生物的基因序列可W由脱氧核糖核酸值eo巧ribonucleic Acid, DNA)的碱基 对的精确排列来描述。换言之,基因序列可W表示为由A、G、T、C送四个碱基构成的有序序 列。不同生物的基因序列的长度不同,例如,人类基因序列包括30亿个碱基对(即,60亿个 字符),而其他生物的基因序列可W具有不同长度。
[0035] 应当注意,在本发明的上下文中的基因序列不必包括一个生物样本的全部碱基对 (例如,对人类而言是30亿个碱基对),而是可W仅包括全部碱基对中的一部分,例如,仅包 括与外貌特征相关联的部分。
[0036] 尽管可文本字符串来表示基因序列,然而基因序列还具有诸多特性。在常规 的度量文本字符串的相似性的技术方案中,通常基于逐个比较字符(或者词(word))来确 定两个字符串的相似性。然而,基因序列是由A、G、T、C四个碱基形成的长度数量级为数十 亿的字符序列,当将针对普通文本字符串的度量相似性的方法应用于基因序列领域时,度 量效果并不理想。
[0037] 应当注意,基因序列中的单独的碱基(即,字符)并不能表示生物样本的特征,而 是由多个字符组成的字符串才能描述生物样本的特征。因而,现有技术中的逐个字符地比 较文本字符串中的字符的方法并不适合处理基因序列。
[0038] 另一方面,由于基因序列中包括连续排列的碱基,尽管可W基于基因序列中各个 部分的功能而将基因序列划分为多个片段,然而不同于常规的文本串(例如,W自然语言 的表示的文章等),在基因序列中并不存在词的概念。因而现有技术中基于词来确定相似性 的方法在基因序列领域也是无效的。
[0039] 基于现有技术中的上述缺陷,在本发明的实施方式中提出了一种基于滑动窗口 来确定两个基因序列之间的相似性的技术方案。具体地,提出了一种用于确定第一基因 序列与第二基因序列之间的相似性的方法,包括:分别在第一基因序列和第二基因序列上 移动预定长度的滑动窗口;在滑动窗口的第i次移动期间,提取所述第一基因序列在所 述滑动窗口内的第一部分Stringli、和所述第二基因序列在所述滑动窗口内的第二部分 strings; ; W及基于第一部分Stringli和第二部分strings;确定第一基因序列与第二基因 序列之间的相似性。
[0040] 具体地,图3示意性示出了根据一个实施方式的用于确定第一基因序列与第二基 因序列之间的相似性的技术方案的框图300。在图3中示出了第一基因序列310和第二基 因序列320,两个基因序列都是包括字符A、G、T、C的字符串。如图3所示,可长度为 K(在此示例中K = 7)的滑动窗口(例如,滑动窗口 330、332、334)在第一基因序列310和 第二基因序列320上移动,并且基于比较在每次移动期间在滑动窗口内的第一部分和第二 部分,来确定两个基因序列之间的相似性。
[0041] 具体地,在滑动窗口的第一次移动期间,滑动窗口位于参考数字330的位置,此时 第一部分是字符串"TCTAGCC",而第二部分是字符串"GCTGCCC"。在滑动窗口的第二次移动 期间,滑动窗口位于参考数字332的位置,此时第一部分是字符串"CTAGCCA",而第二部分 是字符串"CTGCCCA"。在滑动窗口的第Η次移动期间,滑动窗口位于参考数字334的位置, 此时第一部分是字符串"TAGCCAG",而第二部分是字符串"TGCCCAG"。
[0042] 在此实施方式中,可W将每次移动期间分别位于滑动窗口内的第一基因序列和第 二基因序列中的部分,作为进行相似性比较的基本单位。继而,可W基于在滑动窗口的每次 移动期间对基本单位的比较,来确定两个基因序列之间的相似性。
[0043] 在下文中,将参见附图详细描述本发明的各个实施方式的具体细节。具体地,图4 示意性示出了根据本发明一个实施方式的用于确定第一基因序列与第二基因序列之间的 相似性的方法的流程图400。在步骤S402中,分别在第一基因序列和第二基因序列上移动 预定长度的滑动窗口。在此步骤中,本领域技术人员可W自定义滑动窗口的预定长度。
[0044] 在步骤S404中,在滑动窗口的第i次移动期间,提取所述第一基因序列在所述 滑动窗口内的第一部分Stringli、和所述第二基因序列在所述滑动窗口内的第二部分 String2i。应当注意,由于长度较短(例如,小于或者等于3)的符号序列并不能表示生物 样本的生物特征,因而不宜将滑动窗口的长度设置为过短。
[0045] 本领域技术人员可W理解,在本发明的上下文中,i是正整数,并且数值小于或者 等于滑动窗口在所述两个基因序列上移动的次数。i的最大值依赖于基因序列的长度、滑动 窗口的长度W及移动步长,本领域技术人员可W基于滑动窗口的原理来计算,在此省略细 节。
[0046] 还应当注意,滑动窗口的长度越长,则第一部分和第二部分的相匹配的概率越低。 当滑动窗口的长度太大(例如等于20)时,只有当第一部分中的20个字符与第二部分中的 20个字符完全相同时,才认为第一部分和第二部分是相同的。因而滑动窗口长度过大可能 会导致忽略第一基因序列和第二基因序列内的某些长度较短的字符串之间的匹配。
[0047] 在本发明的一个实施方式中,本领域技术人员可W自定义滑动窗口的长度,例如, 本领域技术人员可W基于具体应用环境的要求,从4-12的范围内选择该长度,具体地,可 W将滑动窗口的长度定义为7或者其他数值。
[0048] 在步骤S406中,基于第一部分Stringli和第二部分String2i确定第一基因序列 与第二基因序列之间的相似性。在此步骤中,本领域技术人员可W基于上文参见图3描述 的过程来确定两个基因序列之间的相似性。
[0049] 在本发明的一个实施方式中,分别在第一基因序列和第二基因序列上移动预定长 度的滑动窗口包括:W小于或者等于预定长度的步长来移动滑动窗口。本领域技术人员应 当注意,由于需要W连续方式比较第一基因序列和第二基因序列内的各个部分,因而可W 将滑动步长设置为小于或者等于滑动窗口的预定长度。
[0050] 具体地,例如可W将滑动步长设置为1。W此方式,每次滑动1个字符的距离,可W 更全面地考虑基因序列中的每个字符串W及各个字符串之间的前后顺序关系,从而更准确 地确定两个基因序列之间的相似性。备选地,在考虑到W字符表示的碱基是W成对方式出 现的情况下,例如还可W将滑动步长设置为2。
[0051] 应当注意,在本发明的各个实施方式中,第一基因序列和第二基因序列的长度可 W是相同的或者是不同的。当两者的长度为相同时,随着滑动窗口的移动,可W-一对应地 比较每次滑动期间所形成的第一部分和第二部分。当两者长度为不同时,可空(null) 字符来补齐缺少的字符。例如,假设第一基因序列比第二基因序列多2个字符并且滑动窗 口的长度为7时,则在滑动窗口的最后一次移动期间,第一基因序列中的第一部分可W包 括7个字符,而第二基因序列的第二部分仅包括5个字符。此时,可W认为第二部分的末尾 处还包括两个空字符。
[0052] 在本发明的一个实施方式中,基于第一部分Stringli和第二部分String2i确定第 一基因序列与第二基因序列之间的相似性包括;在滑动窗口的第i次移动期间,计算第一 部分Stringli和第二部分strings;之间的局部相似性similarity^ ; W及基于局部相似性 similarityi确定第一基因序列与第二基因序列之间的相似性。
[0053] 在此实施方式中,局部相似性similarityi是指在滑动窗口的一次移动期间的第 一部分和第二部分之间的文本相似性。本领域技术人员可W基于目前已知的或者将在未来 开发的各种算法来确定局部相似性similarity^。
[0054] 在本发明的一个实施方式中,计算第一部分Stringli和第二部分strings;之间的 局部相似性similarity^包括;基于第一部分Stringli和第二部分strings;之间的编辑距 离巧dit Distance)山计算局部相似性similarity^。
[00巧]编辑距离又称Levenshtein距离,是指从一个字符串转成另一字符串所需的最少 编辑操作的次数。允许的编辑操作包括:将一个字符替换成另一个字符、插入一个字符,删 除一个字符。
[0056] 例如将kitten -字转成sitting,需要如下3次编辑操作:
[0057] sitten 化一 S)
[0058] sittin(e - i)
[0059] sitting ( -g)
[0060] 本领域技术人员应当理解,由于基因序列仅涉及4个字符A、G、T和C的各种组合, 因而在本发明的上下文中还可W针对不同的字符来设置不同的权重,或者针对不同的操作 类型设置不同的权重,等等。进一步,本领域技术人员还可W基于各个字符的组合的生物学 含义来修改计算编辑距离的具体公式。
[0061] 图5示意性示出了根据本发明一个实施方式的用于确定第一基因序列与第二基 因序列之间的相似性的过程的示意图500。如图5所示,滑动窗口 330内的两个字符串之 间的编辑距离di = 37. 2,滑动窗口 332内的两个字符串之间的编辑距离dz = 35. 9,滑动窗 口 334内的两个字符串之间的编辑距离d3 = 36. 5。本领域技术人员还可W基于计算编辑 距离的公式来计算在滑动窗口的每次移动期间在两个字符串之间的编辑距离。应当注意, 在此实施方式中所示的Η个编辑距离仅仅是示意性的,本领域技术人员可W自行设计具体 计算公式。
[0062] 在本发明的一个实施方式中,可W直接将编辑距离di作为第一部分Stringli和第 二部分String2i之间的局部相似性similarityi ;在本发明的另一个实施方式中,还可W基 于编辑距离di的函数来计算局部相似性similarity^,例如,定义..y細热隊j ;.或者,本 领域技术人员还可W基于其他公式来计算局部相似性similarityi。继而,可W基于滑动窗 口的每次移动期间所得的局部相似性similarityi,计算两个基因序列的相似性。
[0063
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1