DNA序列组装方法与流程

文档序号:31145521发布日期:2022-08-16 23:28阅读:270来源:国知局
DNA序列组装方法与流程
dna序列组装方法
技术领域
1.本发明涉及一种脱氧核糖核酸测定的技术领域,更具体地说,本发明涉及到基于伊辛机量子退火的dna序列组装方法。


背景技术:

2.脱氧核糖核酸即测定dna序列的技术在分子生物学研究中,dna的序列分析则是进一步研究和改造目的基因的基础。用于测序的技术主要有sanger等提出的双脱氧链末端终止法和gilbert等的化学降解法。这二种方法在原理上差异很大,但都是根据核苷酸在某个固定的点开始,随机在某个特定的碱基处终止,产生atcg四组不同长度的系列核苷酸并且需在尿素变性的page胶上电泳进行检测,从而获得dna序列。
3.近年来兴起的第二代核酸序列测序技术与传统桑格等测序技术相比,具有高通量和高准确性和低运行成本等突出优势,是dna测序技术的一次革命性改变,催生了众多生物学前沿领域的研究,应用前景十分广阔。其中ga测序仪以及applied biology公司的测序仪是两种目前在市场上占主流的测序仪。由于这两种测序仪产生的核酸序列具有序列比较短的行业性特点,因此从测序仪产生的数据到运用到众多的生物应用的数据分析流程当中必不可少的环节就是短序列回贴基因组。即将测序仪产生的高通量的短序列与基因组长序列进行对比比较。即产生了基因组序列的匹配度需求。
4.主要目标需要在基因组序列上找到一个最相似的片段与之相匹配,并输出匹配的位置从而认为短序列回贴基因组的本质就是一个短序列与长序列比对问题。这是生物信息学中最基本和常用的算法,几乎所有的生物信息处理任务都需要使用到它。随着可供比较分析的生物序列数据量呈现爆炸性增长,不断涌现的序列比较的各种新需求对于处理序列比对的方法提出新的挑战。例如如何实现脱氧核糖核酸序列组装的问题等。
5.目前由于要实现极高的检测可靠性,脱氧核糖核酸dna测序技术正在成为生命科学及医疗科学研究的热点,得到突飞猛进和日新月异的发展。dna序列数据由针对脱氧核糖核酸物质的测序技术获得,是遗传学、基因组学、生物信息学、医学等诸多领域的基础研究对象并具重要科学价值与实际意义。随着新一代高通量测序技术日益成熟并大量使用从而获取脱氧核糖核酸数据所需的时间略有所降低,在面临上亿个核苷酸的单分子的情况下新一代高通量测序技术也是束手无策。


技术实现要素:

6.本技术公开了一种dna序列组装方法,包括:
7.建立dna片段的有向图,根据所述有向图构建伊辛哈密顿量,由所述伊辛哈密顿量的退火演化结果复现整个dna的完整序列。
8.上述的方法,其中:
9.建立所述有向图包括:将待测序dna复制多份,将每一份dna在随机位置打断成多个dna片段并进行核苷酸测序,完成核苷酸测序的dna片段视为有向图的节点。
10.上述的方法,其中:
11.在所述有向图为每一对有序的节点对分配一条有向边。
12.上述的方法,其中:
13.每一条所述有向边分配有权重值,权重值用于评估所述有向边两端的一对节点所代表的两个dna片段的重叠程度。
14.上述的方法,其中:
15.权重值越小则重叠程度越大,权重值越大则重叠程度越低。
16.上述的方法,其中:
17.所述伊辛哈密顿量的量子退火用于在所述有向图中寻找权重值之和最小的路径,对应的dna片段按照最小路径的顺序排列出来,以完整的再现dna的核苷酸序列结构。
18.上述的方法,其中:
19.在所述有向图增添一个不代表任何dna片段的零节点,零节点与所有其他节点用有向边互连,零节点与所有其他节点之间的有向边的权重皆为零值,籍由零节点与代表路径起点的节点、代表路径终点的节点连接构成一个闭合的用以描述最小路径的环路。
20.本技术还公开另一种dna序列组装方法,包括:
21.将待测序dna复制多份,其中每一份dna在随机位置被打断成多个dna片段并进行核苷酸测序,完成核苷酸测序的dna片段视为一个有向图的节点;
22.根据所述有向图构建伊辛哈密顿量,其在量子退火中用于在所述有向图中寻找权重值之和最小的路径,dna片段按最小路径的顺序排列,以复现dna的核苷酸序列结构。
23.上述的方法,其中:
24.在所述有向图增添一个不代表任何dna片段的零节点,零节点与所有其他节点用有向边互连,零节点与所有其他节点之间的有向边的权重皆为零值,由零节点与代表路径起点的节点、代表路径终点的节点连接构成一个闭合的用以描述最小路径的环路。
25.本技术还公开另一种dna序列组装方法,其中,包括以下步骤:
26.s1、构建dna片段的有向图;
27.s2、根据所述有向图构建伊辛哈密顿量;
28.s3、由伊辛机对所述伊辛哈密顿量实施量子退火演化;
29.s4、根据所述量子退火演化结果复现整个dna的完整序列。
30.上述的方法,其中步骤s1包括:
31.s11、将待测序dna复制多份;
32.s12、将每一份dna都在随机位置打断成多个dna片段;
33.s13、从dna片段中挑选长度适合直接测序的片段,并进行核苷酸测序;
34.s14、将完成核苷酸测序的dna片段作为图中的一个节点;
35.s15、为每一对有序节点对(u,v)分配一条有向边(uv)。
36.本技术的目的在于提出一种全新的dna序列组装的解决方法,即利用伊辛机量子退火的方式高效的解决dna复现问题。
37.有鉴于此,本法的主要目的在于提供一种基于伊辛机量子退火的dna序列组装方法,该方法利用伊辛机量子退火的快速演化优势,快速处理巨量nda样本信息。
38.为了解决上述技术问题,本发明采用如下技术方案。
39.所述有向边(uv)分配权重为w
uv
=s(u,v)。例如所述s(u,v)是用户可自由选择或预设的已知的函数,譬如重叠评分函数,作用是评估dna片段u的尾端和dna片段v的首端的重叠程度。如重叠程度越大s(u,v)越小,若u,v完全不重叠,s(u,v)就很大。
40.根据节点v、u和有向边(uv)、边的权重w
uv
共同构建一个有向图g=(v,e)。
41.其中伊辛哈密顿量h
ising
由以下公式产生:
[0042][0043]
图路径问题,给定一个有向图,给定多种路径,要求对有向图中的每一个边赋权重且权重规则要求所有节点之间的边的权重具有最小性。图路径分配映射为哈密顿问题。
[0044]
图路径分配问题可以在数学上等价于路径寻找,而该图路径分配可以用伊辛机量子退火高效解决。所谓伊辛机是指构建的一个物理体系,基本哈密顿量具有如下形式:
[0045][0046]
哈密顿量中si为伊辛自旋,取值
±
1,只要对图路径分配构建对应的形式如下的伊辛哈密顿量式h
ising
=-∑
i《jjij
sis
j-∑
ihi
si,并且将各种约束条件和各种优化目的体现在伊辛哈密顿量中,伊辛机量子退火演化的最终结果就对应图路径分配的解。从而可用伊辛机高效地求解dna片段(如因测序而被打断的dna片段)之间的组装顺序问题,本质上是测出所有dna片段的核苷酸序列结构后如何恢复复现完整dna序列的问题。
[0047]
基本哈密顿量中j
ij
在伊辛哈密顿量中表示第i个自旋si和第j个自旋sj的耦合强度。
[0048]
基本哈密顿量中hi在伊辛哈密顿量中表示局部场结合系数(local field term)。
[0049]
量子计算量子近似优化算法是一个多项式时间的近似优化算法,主要是用于求解组合优化问题,其具有展示量子霸权的潜力。近似优化,顾名思义就是只要求近似的求得问题的解即可。可求解np-hard完全问题,也可以求解复杂度较高的np-hard问题。
[0050]
量子近似优化算法(qaoa)是在近期的量子计算机上实现的最有前途的显示量子优势的算法之一。作为一种近似算法,它并不给出最好的结果、而是给出“足够好”的结果并且其精度取决于近似比率的下界。
[0051]
根据数学领域的图论有关知识,dna恢复问题可以等价于一个图路径问题。图路径问题属于著名的np完全问题,虽然人们已经开发出众多的启发式算法、其他算法来解决图路径问题,但是基于伊辛机的量子退火方法是效率更高的图路径问题解决方案。每个图路径问题可以对应到一个伊辛机模型,伊辛机在物理规律支配下的自然演化结果就是图路径问题的解,也就是哈密顿路径问题或哈密顿环路问题的解。
[0052]
以上dna序列组装方法可用于替换包括传统ga测序仪及appliedbiology测序仪等在内的所有核酸序列测序仪、测序设备、测序系统等。只不过需在测序仪或设备或系统等中集成伊辛机或以伊辛机作为测序载体,所以本技术还涉及到一种dna序列组装装置而且此装置包括执行前述dna序列组装模式的伊辛机。
附图说明
[0053]
为使上述目的和特征及优点能够更加明显易懂,下面结合附图对具体实施方式做详细的阐释,阅读以下详细说明并参照以下附图之后,本技术的特征和优势将显而易见。
[0054]
图1是由节点和有向边以及边的权重等因素共同构建了一个有向图。
[0055]
图2是脱氧核糖核酸测定以及脱氧核糖核酸片段序列组装的流程图。
[0056]
图3是与脱氧核糖核酸片段相关的核糖核酸片段的有向图构建过程。
具体实施方式
[0057]
下面将结合各实施例,对本发明的方案进行清楚完整的阐述,所描述的实施例仅是本发明用作叙述说明所用的实施例而非全部的实施例,基于该等实施例,本领域的技术人员在没有做出创造性劳动的前提下所获得的方案属于本发明的保护范围。
[0058]
参见图1,图(graph)并不是指图形图像(image)或地图(map)。通常来说业界会把图视为一种由“顶点”组成的抽象网络,网络中的各顶点可以通过“边”实现彼此的连接并表示两顶点有关联。注意这里图定义中的两个关键字,由此得到我们最基础最基本的两个概念也即顶点(vertex)和边(edge)。首先介绍图论的最核心的几项内容。
[0059]
参见图1,顶点描述某个事物或对象。由于图的术语没有标准化,因此称顶点为点或节点或结点或端点等均可。申请上下文中涉及到的顶点术语亦如此。
[0060]
参见图1,边表示事物与事物之间的关系。边表示的是顶点之间的逻辑关系。
[0061]
参见图1,有向/无向图(directed graph/undirected graph)。最基本的图通常被定义为无向图而与之对应的则被称之为有向图。区别在于有向图中的边是有方向性的。
[0062]
参见图1,权重(weight)属权值、开销、长度,每条边都有与之对应的值。例如当顶点代表某些物理地点时或类似,两个顶点间边的权重可以设置为路网中的距离。有时候为了应对特殊的情况,边的权重可以是零或者负数。
[0063]
参见图1,本技术涉及dna测序领域,与前述图(graph)相结合的情况下本技术特别涉及到基于伊辛机量子退火的dna序列组装方法或曰dna序列恢复方法。
[0064]
参见图1,关于dna片段的序列组装问题,在dna测序过程中,能够被测序的完整的单个dna分子其长度通常都很短。即便技术进步到当前,单次也只能测几千个核苷酸长度的dna分子,但是人类的染色体是个有上亿个核苷酸的单分子。
[0065]
参见图1,鉴于核苷酸单分子庞大的基数量,所以不可能一次性测序完毕于是业界不得不把染色体打断成可被直接测序的dna片段。但是dna片段之间的组装顺序并不能直接被推测出,单就核苷酸单分子庞大的基数量,这种组装顺序计算量显得巨大。
[0066]
参见图1,就算是在很顺利的假设情况之下,能测出所有dna片段的核苷酸序列结构及序列规则,但也无法恢复完整dna的序列。
[0067]
参见图1,已知业界开发出鸟枪测序法(shotgun sequencing)。将待测dna复制多分副本或备份,对每个副本而言,在其随机位置打断成dna片段,从中选取长度适合的片段进行测序。由于片段来自很多dna副本,打断断点是随机的,所以需要样本量足够的大才可能从很多来自不同副本的dna片段序列出现重叠。这些关键的重叠信息让业界可以重建dna片段序列之间的顺序关系、把dna片段序列组装成完整dna序列。
[0068]
参见图1,但是如何去处理巨量的样本信息(典型的是不同副本的dna片段序列出
现重叠及其相关的序列之间的顺序关系)是亟待解决的问题。
[0069]
参见图1,建立有向图包括:将待测序dna复制多份,将每一份dna在随机位置打断成多个dna片段并进行核苷酸测序,完成核苷酸测序的dna片段视为有向图的节点譬如包括了示范性节点{a,b,c,d

n}等。更多的dna片段(节点)并未展示。
[0070]
参见图1,节点v、u和有向边(uv)、边的权重w
uv
共同构建有向图g=(v,e)。例如可假设图g=(v,e)共有n个节点,v代表所有节点的集合,e代表所有有向边集合。再如通常可用(uv)代表从节点u指向节点v的有向边,边的权重w
uv
=s(u,v)。
[0071]
参见图1,在有向边的解释性范例中,可用(ab)代表从节点a指向节点b的有向边以及此边上的权重w
ab
=s(a,b);相反的是,可用(ba)代表从节点b指向节点a的有向边以及此边上的权重w
ba
=s(b,a)。
[0072]
参见图1,在有向边的解释性范例中,可用(bc)代表从节点b指向节点c的有向边以及此边上的权重w
bc
=s(b,c);相反的是,可用(cb)代表从节点c指向节点b的有向边以及此边上的权重w
cb
=s(c,b)。
[0073]
参见图1,在有向边的解释性范例中,可用(cd)代表从节点c指向节点d的有向边以及此边上的权重w
cd
=s(c,d);相反的是,可用(dc)代表从节点d指向节点c的有向边以及此边上的权重w
dc
=s(d,c)。
[0074]
参见图1,在有向边的解释性范例中,可用(dn)代表从节点d指向节点n的有向边以及此边上的权重w
dn
=s(d,n);相反的是可用(nd)代表从节点n指向节点d的有向边以及此边上的权重w
nd
=s(n,d)。
[0075]
参见图1,在有向边的解释性范例中,可用(an)代表从节点a指向节点n的有向边以及此边上的权重w
an
=s(a,n);相反的是,可用(na)代表从节点n指向节点a的有向边以及此边上的权重w
na
=s(n,a)。
[0076]
参见图1,在有向边的解释性范例中,可用(ad)代表从节点a指向节点d的有向边以及此边上的权重w
ad
=s(a,d);相反的是,可用(da)代表从节点d指向节点a的有向边以及此边上的权重w
da
=s(d,a)。
[0077]
参见图1,在有向边的解释性范例中,可用(ac)代表从节点a指向节点c的有向边以及此边上的权重w
ac
=s(a,c);相反的是,可用(ca)代表从节点c指向节点a的有向边以及此边上的权重w
ca
=s(c,a)。
[0078]
参见图1,在有向边的解释性范例中,可用(bd)代表从节点b指向节点d的有向边以及此边上的权重w
bd
=s(b,d);相反的是,可用(db)代表从节点d指向节点b的有向边以及此边上的权重w
db
=s(d,b)。
[0079]
参见图1,边(bn)和(nb)及对应权重w
bn
=s(b,n)和权重w
nb
=s(n,b)。
[0080]
参见图1,边(cn)和(nc)及对应权重w
cn
=s(c,n)和权重w
nc
=s(n,c)。
[0081]
参见图1,对于有向图中的每个节点例如v分配n个二进制变量x
v,i
,变量x
v,i
的下标取值范围v=1,2,

,n以及i=1,2,

,n。变量x
v,i
=1如代表节点v(dna片段v)出现在所谓路径(路径表征着dna片段序列)的第i个位置,因一个节点(dna片段)只能出现在路径(dna片段序列)中的一个位置,有约束1:
[0082]
参见图1,图是数据结构和算法学中较强大的框架。图几乎可以用来表现所有类型的结构或系统,从交通网络到通信网络,从下棋游戏到最优流程求解,从任务分配到人际交
互网络等领域图都有广阔的用武之地。关于图论的世界,清晰、准确的基本概念是必须的前提和基础。图论的概念异乎寻常多,顶点和边是图论的最核心的数项内容。
[0083]
参见图1,目前量子计算机发展逐步趋于成熟、规模化,如基于传统计算机构造具有量子计算功能的模拟系统,提供量子算法的开发途径和工具。现有的量子模拟系统主要部署在超算机和云计算平台,量子计算机同传统计算机比具有指数级计算加速。寻求一种基于伊辛机量子退火的方式,不仅实现伊辛问题求解、而且能兼顾到复现整个dna的完整序列是本技术的主要目的。
[0084]
参见图1,有向边(uv)分配权重w
uv
=s(u,v)。例如图神经网络g=(v,e)。将打断成可被直接测序的dna片段和dna片段之间的组装顺序映射到伊辛哈密顿量,若映射有解则得到组装结果,下文会继续详细解释。如s(u,v)可以是用户可自由选择或定义或预设的已知函数,譬如重叠评分函数,作用是评估dna片段u的尾端和dna片段v的首端的重叠的程度。如重叠程度越大s(u,v)越小,若u,v完全不重叠,s(u,v)就很大。
[0085]
参见图2,构建dna片段的有向图包括如下步骤s201-s206。
[0086]
参见图2,在步骤s201中,将待测序dna复制多份。
[0087]
参见图2,在步骤s202中,将每一份dna在随机位置打断成多个dna片段。
[0088]
参见图2,在步骤s203中,从前述的dna片段中,挑选长度适合直接测序的片段并且还需要进行核苷酸测序。
[0089]
参见图2,在步骤s204中,把完成核苷酸测序的dna片段作为图的一个节点。
[0090]
参见图2,在步骤s205中,为每一对有序节点对(u,v)分配一条有向边(uv);有向边需要分配权重譬如如图1所示的有向边(uv)分配权重为w
uv
=s(u,v)。
[0091]
参见图2,在步骤s206中,根据节点v、u等以及有向边(uv)、边的权重w
uv
共同构建有向图g=(v,e)。步骤s201-s206定义的图是指有向图。
[0092]
参见图3,有鉴于此,本技术主要目的在于提供基于伊辛机量子退火的dna序列组装方法,利用伊辛机量子退火的快速演化优势,快速处理巨量nda样本信息。为了解决上述技术问题,本技术采用如下s101-s104的技术方案。
[0093]
参见图3,在步骤s101中构建dna片段的有向图。
[0094]
参见图3,在步骤s102中根据有向图构建伊辛哈密顿量h
ising

[0095]
参见图3,在步骤s103中将伊辛哈密顿量h
ising
代入伊辛机量子退火演化。
[0096]
参见图3,在步骤s104中根据量子退火演化结果复现整个dna的完整序列。
[0097]
参见图3,在步骤s101中所述构建dna片段的有向图包括如下步骤:将待测序dna复制多份;将每一份dna都在随机位置打断成多个dna片段;从dna片段中挑选长度适合直接测序的片段,并进行核苷酸测序;把前述的完成核苷酸测序的dna片段作为图的一个节点;每对有序节点对(u,v)分配一条有向边(uv)。根据节点v、有向边(uv)以及边的权重w
uv
共同构建一个有向图g=(v,e)。
[0098]
参见图3,其中伊辛哈密顿量h
ising
由以下公式产生:
[0099][0100]
上述技术方案具有如下有益效果:
[0101]
基于提出的一种基于基于伊辛机量子退火的dna序列组装方法,可先用鸟枪测序方产生巨量的dna样本片段,再将dna样本片段构建有向图,根据有向图构建哈密顿量并将哈密顿量参数带入伊辛机量子退火快速演化优势实现dna序列快速组装。
[0102]
参见图1,dna片段序列组问题的数学模型等价于一个哈密顿环路问题。
[0103]
参见图1,关于哈密顿环路问题与哈密顿路径问题。给定一个图,从某一个节点出发并沿着边前进,在不重复抵达任一个节点的情况下,遍历图中每一个节点,且要求路径中所有边的权重的和最小,可等效至哈密顿路径问题题。
[0104]
参见图1,哈密顿环路问题则是添加了一个要求,路径最终必须回到起点。实际上本技术中将哈密顿路径问题等价于一个哈密顿环路问题。
[0105]
参见图1,dna片段的序列组装问题,等价于在图中找一个权重和最小的闭合环路也即是哈密顿环路问题。若(u,v)之间的重叠评分函数s(u,v)很小,说明u尾端和v首端的重叠程度很大,即u,v(极有可能)是在完整的dna序列中紧挨着的一前一后的有一部分重叠的片段。如果在有向图中找到一条权重和最小的路径,那么对应的dna片段按照路径的顺序排列出来就可以(以最大的置信度)完整再现dna的核苷酸序列结构。
[0106]
参见图1,即本技术将dna片段组装问题进行转化,等价于在有向图寻找一条权重和最小的路径——哈密顿路径问题。
[0107]
参见图1,基于本文介绍的内容,主旨涉及到量子计算或量子处理,量子计算或量子处理允许是在量子器件上进行的运算,其哈密顿量的设计至少可以满足以下目标:伊辛哈密顿量运算包括量子退火或者模拟退火等各类退火及演化过程。
[0108]
参见图1,惯用的一体伊辛哈密顿量可以描述为:
[0109][0110]
其中j
ij
在伊辛哈密顿量中表示第i个自旋xi和第j个自旋xj的耦合强度。
[0111]
每个自旋的结果xi由二元值-1和1构成,求解伊辛问题的目标在于最小化伊辛哈密顿量并得到最小哈密顿量条件下的xi对应的值1或-1。
[0112]
由于本文与量子相关,关于量子器件和量子数据的相关内容如下述:
[0113]
本文所述“量子器件”包含已知的量子计算设备和量子芯片等,也可以用量子硬件替代量子器件这类术语。典型的“量子器件”包括但不限制于:量子计算机、量子信息处理系统或量子密码系统、量子模拟器、处理量子数据的所有种类的装置、设备和机器。
[0114]
本文所述“量子数据”包含由量子系统携带、保存或存储的信息或数据,最小的非平凡系统是量子比特,即定义量子信息单位的系统。应当理解,术语“量子比特”包括在相应上下文中可以适当地近似为二能级系统的所有的量子系统。这种量子系统举例来说通常包括了典型的原子、电子、光子、离子或超导量子比特等等。
[0115]
参见图1,图神经网络g=(v,e)是一种集合论的定义方法,表达的意思可概括为图是顶点和边的集合。v就是前述顶点(vertex)及e就是前述边(edge)。干涉图在本技术中的其他的表达方式是图神经网络,因此干涉图属于图神经网络。
[0116]
由于本文与量子相关,关于量子机器和量子数据的相关内容如下文所述:
[0117]
本文所谓“量子机器”包含已知的量子计算设备和量子芯片等,也可以用量子硬件替代量子器件这类术语。典型的“量子机器”包括但不限制于:量子计算机、量子信息处理系
统或量子密码系统、量子模拟器、处理量子数据的所有种类的装置、设备和机器。
[0118]
关于量子退火的商业应用——最典型的就是量子退火机,例如加拿大的一家量子计算机专业公司d-wave。d-wave商业销售的量子计算机原理是用金属铌制成的微小电流环形成量子比特,实现量子退火现象,可模仿量子计算中比特数据存储大量数值的效果。
[0119]
值得注意的是,在商业应用落地上,量子退火法可以通过使用叠加状态来搜索各种可能性来有效地解决优化问题,有效的满足当前对于实际工作方案的提效与加速需求。
[0120]
截至目前为止,量子退火已在物流、人工智能、材料科学、药物发现、网络安全及故障检测和财务建模等各个领域,构建了多款早期应用程序。目前常用的退火算法分模拟退火和量子退火两种,量子退火更胜一筹。
[0121]
退火本质上是将金属缓慢加热到一定温度并保持足够时间然后以适宜速度冷却的金属热处理工艺。以半导体为例,在经过离子注入以后就需要退火处理,因为往半导体中注入杂质离子时,高能量的入射离子会与半导体晶格上的原子碰撞使晶格原子发生位移且退火可恢复晶体结构和消除缺陷。实际退火解决的是材料在研制过程中的硬件工艺不稳定问题而模拟退火和量子退火则是解决组合优化等数学计算的非优解问题。
[0122]
量子退火是绝热量子计算(aqc)的一种形式。非正式地,绝热定理表明,如果一个量子力学系统从某个哈密顿量的基态开始,并且改变哈密顿量的速度足够的慢,系统将以最终哈密顿量的基态结束。如果将初始哈密顿量设为具有已知基态的哈密顿量,将最终哈密顿量设为问题哈密顿量,基态代表希望求解的优化问题的解,利用这个定理进行计算可得到期望的结果。退火时间尺度(单次运行达到解所需的预期时间)是由绝热演化过程中遇到的基态和第一激发态之间最小能隙的倒数所限定的。
[0123]
参见图1,得到图后开始构建一新哈密顿量。图g=(v,e)共有n个节点,v可代表所有节点的集合,e代表所有有向边的集合,用(uv)代表从节点u指向节点v的有向边而且边上的权重w
uv
=s(u,v)。这是有向图(directed graph)的基本架构。
[0124]
参见图1,对于有向图的每个dna片段或节点v分配n个二进制变量x
v,i
,变量的下标取值范围v=1,2,

,n,i=1,2,

,n。通常n是正整数。
[0125]
参见图1,值得注意,x
v,i
=1代表节点v(dna片段v)出现在路径(即dna片段序列)的第i个位置,因为一个节点(dna片段)只能出现在路径(dna片段序列)中的一个位置,设置约束条件1:对应于以下惩罚函数:
[0126][0127]
该约束条件下a》0。惩罚函数的意思就是,若违反约束,惩罚函数的值会增大而且伊辛机物理演化的特征就是寻找并稳定在能量最低的基态。所以哈密顿量中的惩罚函数保证了伊辛机不会演化到违反约束的情况。又因为路径(dna片段序列)的每个位置只能放一个节点(dna片段),设置约束条件2,对应以下惩罚函数:
[0128][0129]
除此之外要求路径上总的权重最小,对应于一个惩罚函数:
[0130][0131]
该约束条件下b》0。于是基于图g构建了旅行商问题的伊辛哈密顿量。
[0132][0133]
参见图1,值得注意,x
u,i
=1代表节点u(dna片段u)出现在路径(即dna片段序列)的第i个位置。因为一个节点(dna片段)只能出现在路径(dna片段序列)中的一个位置,前文已阐释。x
u,i+1
=1代表节点v(dna片段v)出现在路径(即dna片段序列)的第i+1个位置。
[0134]
伊辛哈密顿量中a》b》0。a是第一项预设系数以及b是第二项预设系数。
[0135]
允许只要求a》b》0,这表示不能为了追求权重更小而违背约束,毕竟满足约束是问题的前提条件。由于伊辛哈密顿量系数扩大或缩小几倍并不影响最终的基态,所以只要是满足了条件a》b》0即可,a和b可保持高度的灵活选择。通过计算,基于图g构建的伊辛哈密顿量可以换简称标准形式的以下的二体伊辛哈密顿量:
[0136][0137]
量子退火演化结束,输出的结果即每个节点在环路中的位置,也就是每个dna片段在组装顺序中的位置。根据dna片段的组装序列复现整个dna的完整序列。在量子退火中通常把j
ij
和hi输入伊辛机即可开始伊辛机量子退火演化。
[0138]
参见图1,本技术中可满足,当“在有向图中寻找一条权重和最小的路径——哈密顿路径问题”总是可以简单的转换:转化成“在图中寻找权重和最小的闭合环路——哈密顿环路问题”譬如可以在图中添加一个“0号节点”。0号节点与所有其他节点可用两条有向边互连,但是这些有向边的权重都为0。于是,一条权重和最小的路径,只需要把路径起点、路径终点与0号节点相连构成一个环路即可,该环路在本技术中定义成是有向图中权重和最小的闭合环路。零节点用图“0号节点”表示。
[0139]
参见图1,在零节点范例中,节点a指向零节点的有向边的权重w
a0
=0以及零节点指向节点a的有向边的权重w
0a
=0=w
a0

[0140]
参见图1,在零节点范例中,节点b指向零节点的有向边的权重w
b0
=0以及零节点指向节点b的有向边的权重w
0b
=0=w
b0

[0141]
参见图1,在零节点范例中,节点c指向零节点的有向边的权重w
c0
=0以及零节点指向节点c的有向边的权重w
0c
=0=w
c0

[0142]
参见图1,在零节点范例中,节点d指向零节点的有向边的权重w
d0
=0以及零节点指向节点d的有向边的权重w
0d
=0=w
d0

[0143]
参见图1,在零节点范例中,节点n指向零节点的有向边的权重w
n0
=0以及零节点指向节点n的有向边的权重w
0n
=0=w
n0

[0144]
参见图1,在可选的实施例中,在有向图增添一个不代表任何dna片段的零节点而且零节点与所有其他节点用有向边进行互连,零节点与所有其他节点之间的有向边的权重皆设置为零值,籍由零节点与代表路径起点的节点、代表路径终点的节点连接构成一个闭
合的用以描述最小路径的环路。
[0145]
参见图1,在可选的实施例中,伊辛哈密顿量的退火用于在有向图之中寻找权重值之和最小的路径,及对应的dna片段按照最小路径的顺序排列出来,主要目的及功能是用以完整的再现dna的核苷酸序列结构。
[0146]
参见图1,基于伊辛机量子退火的dna序列组装方法如通过全基因组鸟枪法,得到巨量有序nda片段,将有序dna片段构建成有向图,根据有向图构建伊辛哈密顿的参数并带入伊辛机量子退火,伊辛量子退火演化的结果就是每个节点在环路中的位置,其实就是每个dna片段在组装顺序中的位置,根据dna片段的组装序列复现整个dna的完整序列。量子退火和模拟退火是可选方案。
[0147]
以上通过说明和附图的内容,给出了具体实施方式的特定结构的典型实施例,上述申请内容提出了现有的较佳实施例,但这些内容并不作为局限。对于本领域的技术人员而言在阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应当看作是涵盖了本发明的真实意图和范围的全部变化和修正。在权利要求书范围内的任何和所有等价的范围与内容,都应认为属本发明的意图和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1