一种用于冷冻电镜分析的单颗粒图像聚类方法与流程

文档序号:11729826阅读:1104来源:国知局
一种用于冷冻电镜分析的单颗粒图像聚类方法与流程
本发明属于结构生物学分析
技术领域
,特别涉及一种用于冷冻电镜分析的单颗粒图像聚类方法。
背景技术
:冷冻电镜技术是一种把样本置入超冷的环境中再利用电子显微镜进行二维图像采样进而生成样本三维模型的技术。与x射线晶体学和核磁共振技术这两种成熟的结构生物学研究手段相比,冷冻电镜技术具有可直接获得分子的形貌信息和相位信息,能够解析那些不适合应用x射线晶体学和核磁共振技术进行分析的蛋白质等优点。随着生物样品制备技术的完善,电子显微镜设备的进步以及数字图像处理技术的发展,电子显微学已经成为一种公认的研究生物大分子、超分子复合体及亚细胞结构的有力手段。最常用的冷冻电镜方法是单颗粒图像分析,单颗粒图像分析是将大量的二维投影图像生成三维模型的技术。但是目前电子显微镜得到的图像信噪比极低,所以为了得到比较精确的三维模型必须收集大量的单颗粒图像数据,在数千到数万张图像的量级。所以,在进行三维重构之前需要对图像进行聚类,从而确保每一类中的图像属于从同一投影方向生成的投影图。而单颗粒图像的特点表现为信噪比极低,常常低于1/30,所以传统的图像聚类算法在单颗粒图像上已经不再适用。目前常用的单颗粒图像聚类算法大多是基于kmeans算法的变种。spider软件采用的是首先滤波去噪,然后对像素空间进行pca降维,最后采用分裂的kmeans方法进行聚类。eman2软件采用的是,对图像进行特征提取,然后在特征空间进行kmeans聚类。xmipp软件采用的是直接在像素空间进行分裂的kmeans聚类,但是聚类准则是xmipp提出的一种特殊的方法。不论是在特征空间还是像素空间进行聚类,现在流行的算法的相似性度量都是两两相似性度量,即两幅图像的相似性的得出只需要这两幅图像。但是由于单颗粒图像的噪声很大,导致两两相似性的度量结果已经不再可靠。由于相似性度量是聚类中最基本的问题,一旦相似性度量不准确,之后的步骤也就失去了意义。再者,输入的单颗粒图像数据本身具有类的结构信息,变现为属于同一类的图像之间距离比较近,只是由于噪声的影响类间距离变小,类内距离变大,这使得用传统的方法难以区分类。技术实现要素:本发明提供一种用于冷冻电镜分析的单颗粒图像聚类方法,采用网络的方法,利用全局的结构信息来抑制噪声的影响。一种单颗粒图像聚类方法,用于单颗粒图像分析,包括以下步骤:步骤一:接受用户输入初始类数目k0,最终类的数目kn和输入数据集,随机初始化数据集为k0个类,计算类中心,对输入数据集建立共享k最近邻网络;步骤二:进行一次kmeans聚类,度量输入图像和类中心相似度时,将类中心加入网络中,并更新网络,计算节点之间的基于网络的相似性(structuralsimilarity);步骤三:判断当前类的数目k是否等于用户输入kn,如果是,输出各个类和类平均图像,并退出,否则分裂最大的类并返回步骤二继续执行。步骤二的具体实现包括:进行一次kmeans,即对每一个输入图像,计算该图像和所有类中心的jaccard相似性并指派该图像属于相似性最大的类中心代表的类,对所有图像指派结束之后更新类中心和共享k最近邻网络,再对每幅图像进行指派,如此重复直到收敛或者迭代次数达到设定的上限;建立共享k最近邻网络时有如下公式(1):sim(xi,c)>sim(xi,xj),sim(ci,cj)>sim(ci,xi)(1)其中c为类平均图像,xi,xj,为任意两幅输入图像,sim是建立共享k最近邻网络时采用的两两相似性计算方法,每个类维护一个共享k最近邻网络,该网络是在原来的共享k最近邻网络的基础上加入当前类中心图像得到的,其中jaccard相似性度量方法为:其中sxy为两幅图像的jaccard相似性,γ(x)为x的邻域。进一步的,分裂最大的类时,统计类中的图像和类平均图像的jaccard相似性,将相似性值按高低排列,取前50%为一类,剩下的为一类,并分别计算这两类的类中心等信息,然后删除原来的类信息,保留两个新生成的类。本发明的基于网络相似性度量的单颗粒图像聚类算法,是在单颗粒图像聚类领域首次应用了基于网络的相似性度量方法,与目前领域内存在的其他各类方法相比,运算时间大致相同的情况下具有更高的精度。本发明旨在解决低信噪比情况下的单颗粒图像聚类问题。本发明与现有领域内的方法相比,其显著优点:采用基于网络的相似性度量方法,使得算法在低信噪比的情况下仍然适用。附图说明图1是本发明基于网络相似性度量的单颗粒图像聚类算法的系统结构图。图2是本发明实施例中数据集的四幅代表图像。图3是本发明实施例中得到的类中心图像。图4是本发明实施例中类中心的真实值。具体实施方式下面结合附图对本发明作进一步的说明。图1给出了本发明的单颗粒图像聚类方法系统结构图:首先初始化类中心,对输入数据建立共享k最近邻网络。接下来的步骤从算法顶层来看是一个分裂的kmeans算法。从算法细节来看,我们采用基于网络的相似性作为kmeans中的相似性度量方法。下面进行具体阐述:第一步:接受用户输入初始类数目k0,最终类的数目kn和输入数据集。初始化数据集为k0个类,初始化类中心。对输入数据集建立共享k最近邻网络。第二步:进行一次kmeans。即对每一个输入图像,计算该图像和所有类中心的jaccard相似性并指派该图像属于相似性最大的类中心代表的类。对所有图像指派结束之后更新类中心和共享k最近邻网络,再对每幅图像进行指派,如此重复直到收敛或者迭代次数达到设定的上限。由于单颗粒图像的信噪比很低但类平均图像的信噪比很高,所以我们在建立共享k最近邻网络时导致有如下结果:sim(xi,c)>sim(xi,xj),sim(ci,cj)>sim(ci,xi)(1)其中c为类平均图像,xi,xj,为任意两幅输入图像,sim是建立共享k最近邻网络时采用的两两相似性计算方法,这里我们采用correntropy。所以,如果我们一次性把所有类平均图像加入输入图像的网络中,类平均图像一定是互相连接的,这些不必要的边在网络中会带来干扰,这与我们考察类平均图像和输入图像的相似性的目的相违背。所以,我们采取的方式是每个类维护一个共享k最近邻网络,这个网络是在原来的共享k最近邻网络的基础上加入当前类中心图像得到的。其中jaccard相似性度量方法为:其中sxy为两幅图像的jaccard相似性。γ(x)为x的邻域。第三步:判断当前的类的数目是否达到用户输入kn,如果达到则输出各个类和类中心,退出,否则分裂最大的类,更新当前类的数目,返回执行第二步。分裂最大的类时,我们统计类中的图像和类平均图像的jaccard相似性,将相似性值按高低排列,取前50%为一类,剩下的为一类,并分别计算这两类的类中心等信息。然后删除原来的类信息,保留两个新生成的类。实例:现有一个数据集,包含四个类,每个类有60幅图像,信噪比为1/30。我们每个类选取一副图像显示如图2所示。使用本发明方法的软件处理结果输出如下:真实类1真实类2真实类3真实类4输出类155100输出类245430输出类305540输出类410360所以,我们得到本方法的准确率为92.92%。输出的类中心图像为图3。类中心的真实值为图4所示。从结果可以看出,本方法有效的对低信噪比的单颗粒图像进行聚类,在当前数据集中的准确率达到了92.92%。上述实施例不以任何方式限制本发明,凡是采用等同替换或等效变换的方式获得的技术方案均落在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1