一种冷冻电镜三维重构中重构参数搜索方法和系统与流程

文档序号:15389530发布日期:2018-09-08 00:58阅读:204来源:国知局

本发明涉及结构生物学技术领域,更具体地,涉及一种冷冻电镜三维重构中重构参数搜索方法和系统。



背景技术:

在低温下使用透射电子显微镜观察样品的显微技术,就叫做冷冻电子显微学技术(cryo-electronmicroscopy,cryo-em),简称冷冻电镜技术。冷冻电镜技术是重要的结构生物学研究方法,它与另外两种技术:x射线晶体学(x-raycrystallography)和核磁共振(nuclearmagneticresonance,nmr)一起构成了高分辨率结构生物学研究的基础,在获得生物大分子的结构并揭示其功能方面极为重要。冷冻电镜技术的基本原理就是把样品冻起来然后保持低温放进显微镜里面,利用相干的电子束作为光源对生物样品进行观察,透过样品和附近的冰层后,透镜系统把电子散射信号转换为放大的图像在探测器上记录下来,最后进行图像信号处理,得到样品的三维结构。单颗粒冷冻电镜三维重构技术是把冷冻电子显微镜拍摄的一系列随机取向的具有均一结构的生物大分子的照片,通过一套三维重构的算法来计算出其高分辨率三维结构。重构出来的三维结构揭示了生物大分子中原子的排列方式以及相互作用的模式。通过对结构的分析,可以解释相关的生物功能和内在机制,对理解生命的基本原理,疾病的分子机理以及药物设计等具有重要意义。

三维重构需要首先获得围绕着样品从各个不同的方向角度来拍摄的照片,然后才能重构出样品的三维结构。由于每个蛋白质拍摄的角度不可控,三维重构算法包含两个部分,第一部分是计算出每张照片的三维空间取向等三维重构所需的参数,称为重构参数,第二部分是根据计算出来的重构参数进行三维重构。描述一张照片的三维空间取向需要多个参数,包括两个面内平移参数,三个空间取向角参数,分类参数以及成像相关的参数等等。精确测定这些重构参数,是决定最终三维重构分辨率的决定性因素。然而,因为照片的数量非常庞大,通常在几万到几十万的数量级,这也就意味着有数以百万甚至千万级的参数需要被精确测定。同时,在用于重构的照片里,经常会掺杂很多低质量甚至是杂质的照片,对重构测量参数的测量造成了干扰,经常会影响结构测定的最终分辨率。因此,如何精确测定这些参数,并且评估每个测定参数的准确度,是一个非常重要的问题。

用于三维重构的每张照片的取向等参数可以被认为分布在一个多维参数空间里,每一个参数对应一个维度。如上所述,目前的三维重构参数空间至少有5个维度,包括2个平移和3个空间取向角。如果考虑成像参数等,就需要增加到更高的维度。基于这样的多维空间描述方法,目前人们已经在冷冻电镜三维重构中引入了多种参数搜索的方法。其中最常用的是网格搜索的方法,其基本原理是在给定的参数搜索范围里,按照一个固定的步长,对所有可能的参数逐个进行尝试,最后找到可能性最大的参数作为搜索结果;这种方法的最大缺点是计算量随着搜索精度的提高,运算量呈指数增加;例如,在一个5维空间里,每个空间搜索10次,那么总的搜索量为105次。如果把搜索精度提高1倍,每个维度搜索20次,那么计算量就变为原先的25=64倍。一个变通的方法是先用比较粗的网格搜索,然后确定一个粗略的参数范围,然后再在这个小范围内做更加精细的搜索。无论那种网格搜索算法都强烈依赖于参数搜索的精度,而且需要借助一些先验的知识来确定起始的搜索补偿。

还有一种搜索方法是基于梯度下降的方法,这种方法通过估计起始点附近梯度的变化来确定搜索方向,可以使用较少的搜索量就能快速找到最优的参数,因此,相对于网格搜索方法,其最大优点是速度快,但这个方法只能解决局部最优问题,仅能进行局部搜索。而且梯度方法随着维度的增加,搜索可靠性显著下降。网格结合梯度下降的方法也经常被采用,利用覆盖全局参数空间的粗网格做全局搜索,然后利用梯度下降的办法做局部精确搜索,但是无论是网格搜索还是梯度搜索,都无法对每一个参数的搜索可靠性做出评估。



技术实现要素:

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种冷冻电镜三维重构中重构参数搜索方法和系统,解决了现有技术中无法空间参数搜索速度慢,可靠性低,且无法对每一个参数的搜索可靠性做出评估的问题。

根据本发明的一个方面,提供一种冷冻电镜三维重构中重构参数搜索方法,包括:

构建参数空间,对每一张实验照片,通过蒙特卡洛模拟方法在所述参数空间中进行随机采样,计算实验照片在每个采样点上与给定模型的初始似然度;

对初始似然度大于设定条件的采样点进行重采样,产生新的采样点,并计算相应的似然度;

重复所述重采样过程,直至所有采样点的分布均方差不再减小;

将收敛后的采样点的统计分布参数作为对该实验照片的重构参数的一种统计描述,并用于重构生物大分子的三维电子密度图。

作为优选的,构建参数空间具体包括:

构建平移子空间,将所述平移子空间通过x和y两个平移参数描述;构建旋转子空间,将所述旋转子空间通过一个单位四元数q描述;构建离焦量子空间,将所述离焦量子空间通过一个离焦量的变化比例系数ζ描述;构建结构状态子空间,将所述结构状态子空间通过一个描述所属结构状态的整数编号μ来描述;

将所述平移子空间、旋转子空间、离焦量子空间和结构状态子空间组合成参数空间{x,y,q,ζ,μ}。

作为优选的,获取每个采样点与实验照片的似然度具体包括:

将三维参照物按采样点的参数进行投影,计算投影和实验照片间的似然度。

作为优选的,对似然度大于设定条件的投影对应的采样点进行重采样具体包括:

将所述似然度作为采样点的权重,根据权重对采样点进行高低排序,将排序靠前的n个采样点进行重采样,即以每个原采样点为中心重新产生多个采样点,排在后面的权重较低的采样点将被去掉,保证采样点总数在重采样前后的总数不变。

作为优选的,对似然度大于设定条件的采样点进行重采样后还包括:

每次采样结束后,对采样点分布情况进行统计,基于所述采样点分布均方差进行下一轮重采样。

作为优选的,直至所有采样点的分布均方差不再减小具包括:

使所有采样点的似然度收敛,若重采样无法使采样点收敛到更小的区域,则使所有采样点收敛至具有最大似然度的采样点附近。

一种冷冻电镜三维重构中空间参数搜索系统,包括:

采样模块,用于对每一张实验照片,通过蒙特卡洛模拟方法在参数空间中进行随机采样,得到多个采样点;

搜索模块,用于基于每个采样点的参数对三维参照物体进行投影,获取每个投影与实验照片的似然度;

循环模块,用于对似然度大于设定条件的投影对应的采样点,像所述采样模块发送重采样指令,并在所有采样点收敛至具有最大似然度的投影对应的采样点时,发送停止采样指令。

重构模块,用于根据采样点所反映出的重构参数信息进行三维重构,把采样点分布均方差的倒数作为权重,随机选取n个或全部采样点按此权重参与三维重构。

作为优选的,还包括置信度模块,所述置信度模块用于在每一轮采样结束后,统计采样点在参数空间的分布情况,并计算采样点在参数空间分布的均方差。

作为优选的,还包括权重计算模块,所述权重计算模块用于在所有采样点收敛至具有最大似然度的投影对应的采样点后,计算所述采样点分布的均方差的倒数,并进行归一化处理,将所述倒数作为对应实验照片的权重。

本发明提出一种冷冻电镜三维重构中重构参数搜索方法和系统,在冷冻电镜三维重构中使用粒子滤波类的重点采样算法来估计参数,基于随机采样的方法进行参数估计,实现了对冷冻电镜三维重构中单个参数估计的置信度测量,从而提高了高维参数估计的鲁棒性,能更有效地搜索取向相关的参数以及进行二维和三维分类,还能对成像的离焦量参数进行局部搜索以大幅提高一些样品的三维重构分辨率,同时,也使得对成像时样品的厚度和倾斜造成的离焦量测量误差有了很好的适应性,使原子分辨率更加易于获得。

附图说明

图1为根据本发明实施例的冷冻电镜三维重构中空间参数搜索方法流程示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

如图1所示,图中示出了一种冷冻电镜三维重构中重构参数搜索方法,包括:

构建参数空间,对每一张实验照片,通过蒙特卡洛模拟方法在所述参数空间中进行随机采样,获取每个采样点与实验照片的似然度;具体的,对于一个给定的三维参照物体和一张实验照片,将三维参照物按照一套给定的参数进行投影,投影和实验照片之间的相似度用似然度(likelihood)来描述。对每一个这样的参数,都可以计算出其对应的似然度。

对似然度大于设定条件的采样点进行重采样,直至所有采样点收敛至具有最大似然度的区域,将采样点的分布参数作为描述所测定的重构参数的一种统计描述。通过在参数空间中搜索确定一套全局最优的参数,并且计算出每个参数的置信度。所谓“最优”,指的是在这套参数下计算出的三维重构电子密度图与实验照片所携带的结构信息之间有最大的似然度。

模型三维重构的基础是中心截面定理,重构过程中的关键问题是如何确定每个颗粒图像的空间角(orientationdetermination)。大多数模型重构和优化算法都是基于投影匹配(projectionmatching)的迭代方法。简单说就是,先利用粗糙的三维结构模型,进行投影得到参考的图像,和实验颗粒图像进行比对,根据结果来更新空间方位参数,继而构造新的三维结构,对实验图像的空间方位修正,形成迭代的过程,直至收敛就获得了最终的三维模型。在三维重构过程中,每一个取向有平移、旋转,加上空间取向角,一共是五个自由度,每个图像至少需要五个参数才能把三维结构重构出来。只有对每张实验图片都确定了相应的取向之后,才能进行三维重构。

蒙特卡罗方法(montecarlomethod),也称统计模拟方法,是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。蒙特卡罗方法的解题过程可以归结为三个主要步骤:构造或描述概率过程;实现从已知概率分布抽样;建立各种估计量。粒子滤波(particlefilter,pe)的思想基于蒙特卡洛方法(montecarlomethods),它是利用粒子集来表示概率,可以用在任何形式的状态空间模型上。其核心思想是通过从后验概率分布中抽取的随机状态粒子来表达其分布,是一种顺序重要性采样法(sequentialimportancesampling)。简单来说,粒子滤波法是指通过寻找一组在状态空间传播的随机样本对概率密度函数进行近似,以样本均值代替积分运算,从而获得状态最小方差分布的过程。这里的样本即指粒子,当样本数量n→∝时可以逼近任何形式的概率密度分布。

具体的,在本实施例中,这个参数空间被划分为多个子空间,包括平移子空间,旋转子空间,离焦量子空间和结构状态子空间。平移子空间由x和y两个平移参数描述;旋转子空间由一个单位四元数q来描述;离焦量子空间由一个离焦量的变化比例系数ζ来描述;结构状态子空间是一个离散参数,由一个整数μ来描述所属结构状态的编号。即构建参数空间具体包括:

构建平移子空间,将所述平移子空间通过x和y两个平移参数描述;构建旋转子空间,将所述旋转子空间通过一个单位四元数q描述;构建离焦量子空间,将所述离焦量子空间通过一个离焦量的变化比例系数ζ描述;构建结构状态子空间,将所述结构状态子空间通过一个描述所属结构状态的整数编号μ来描述;

将所述平移子空间、旋转子空间、离焦量子空间和结构状态子空间组合成参数空间{x,y,q,ζ,μ}。在此基础上,本方法不仅能更有效地搜索取向相关的参数以及进行二维和三维分类,还能对成像的离焦量参数进行局部搜索。对离焦量参数的搜索能大幅提高一些样品的三维重构分辨率,尤其是当分辨率高于3埃时。同时,也使得对成像时样品的厚度和倾斜造成的离焦量测量误差有了很好的适应性,使原子分辨率更加易于获得。

初始化采样点分布均方差σ,计算采样点的权重,并将高权重的采样点按照分布均方差σ拆分,除去低权重采样点,采样点的总数不变,具体的,在本实施例中,对似然度大于设定条件的投影对应的采样点进行重采样具体包括:

将所述似然度作为采样点的权重,根据权重对采样点进行高低排序,将排序靠前的n个采样点进行重采样,即以每个原采样点为中心重新产生多个采样点,排在后面的权重较低的采样点将被去掉,保证采样点总数在重采样前后的总数不变。

重复所述重采样过程,直至所有采样点的分布均方差不再减小,使所有采样点的似然度收敛,若重采样无法使采样点收敛到更小的区域,则使所有采样点收敛至具有最大似然度的采样点附近。整个参数的估计经过多轮的搜索,迭代运行。初始搜索采用蒙特卡洛(montecarlo)模拟的方式在参数空间中随机采样。然后计算每个采样点的似然度,并将其作为该采样点的权重。每一个采样点将根据其权重的高低来拆分,称为重采样。每一个权重高的采样点将被拆分为多个采样点,并将其分散在原有采样点的附近。设定总的采样点个数在重采样前后保持不变。那些权重比较低的采样点,将被去除掉。重复运行这一采样和重采样过程,这些固定数量的采样点将逐渐收敛到具有最大似然度的采样点(参数)附近。

具体的,在上述迭代估计的过程中,第一轮为初始估计轮,大量采样点被均匀分布于给定的参数空间中。随后几轮在第一轮的基础上,通过重采样,逐渐收敛到全局最优的参数附近。在每一轮结束的时候,对采样点的分布情况进行统计,将统计的采样点分布的均方差作为下一轮重采样的依据。采样点在参数空间中的统计分布情况,反映了参数测量的概率密度函数,描述了此参数估计的置信度。最终一轮计算出来采样点分布的均方差的倒数,在归一化之后,被当作此照片的权重,用于调整其在三维重构中的贡献。

三维重构中的权重调整体现在两个方面。一个是将实验照片的像素值直接乘以权重。另一个是把每张照片都在三维重构中使用多次,但每次使用时对应的参数都不同。这些参数为随机取得,且与上述最终一轮的采样点有相同的分布。

本方法实现了对冷冻电镜三维重构中单个参数估计的置信度测量,从而提高了高维参数估计的鲁棒性。参数评估的置信度被进一步作为权重因子,用于调整当前照片对最终三维重构的贡献。这一功能大幅提高了本方法对坏照片的容忍度,降低了图像筛选的难度。不论是对离焦量参数的精修,还是对坏照片的高容忍度,都有利于自动化三维重构的施行,更重要的是为未来工业化的大规模高通量生物大分子结构测定提供了保障。

本实施例中还提供了一种冷冻电镜三维重构中重构参数搜索系统,包括:

采样模块,用于对每一张实验照片,通过蒙特卡洛模拟方法在参数空间中进行随机采样,得到多个采样点;

搜索模块,用于基于每个采样点的参数对三维参照物体进行投影,获取每个投影与实验照片的似然度;

循环模块,用于对似然度大于设定条件的投影对应的采样点,像所述采样模块发送重采样指令,并在所有采样点收敛至具有最大似然度的投影对应的采样点时,发送停止采样指令。

重构模块,用于根据采样点所反映出的重构参数信息进行三维重构,把采样点分布均方差的倒数作为权重,随机选取n个或全部采样点按此权重参与三维重构。

在本实施例中,还包括置信度模块,所述置信度模块用于在每一轮采样结束后,统计采样点在参数空间的分布情况,并计算采样点在参数空间分布的均方差。

在本实施例中,还包括权重计算模块,所述权重计算模块用于在所有采样点收敛至具有最大似然度的投影对应的采样点后,计算所述采样点分布的均方差的倒数,并进行归一化处理,将所述倒数作为对应实验照片的权重。

综上所述,本发明提出一种冷冻电镜三维重构中空间参数搜索方法和系统,在冷冻电镜三维重构中使用粒子滤波类的重点采样算法来估计参数,基于随机采样的方法进行参数估计,实现了对冷冻电镜三维重构中单个参数估计的置信度测量,从而提高了高维参数估计的鲁棒性,能更有效地搜索取向相关的参数以及进行二维和三维分类,还能对成像的离焦量参数进行局部搜索,对离焦量参数的搜索能大幅提高一些样品的三维重构分辨率,同时,也使得对成像时样品的厚度和倾斜造成的离焦量测量误差有了很好的适应性,使原子分辨率更加易于获得。

最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1