单细胞表现型数据库系统和搜索引擎的制作方法

文档序号:6501244阅读:303来源:国知局
单细胞表现型数据库系统和搜索引擎的制作方法
【专利摘要】“单细胞表现型数据库系统和搜索引擎”是针对目前国内很少有相关的单细胞表现型数据库和基于单细胞表现型数据库的搜索引擎,从而很难进行单细胞表型研究的问题,提出一种单细胞表现型数据库系统和搜索引擎方法。单细胞表现型数据库系统和搜索引擎的主要模块由单细胞表现型数据库和搜索引擎两部分组成。(1)单细胞表现型数据库系统,适应于存储单细胞的拉曼光谱数据和单细胞图像。核心是两层数据库结构和相应的数据处理方法。(2)基于单细胞表现型数据库的搜索引擎。搜索引擎可以将某个未知细胞的拉曼光谱数据和细胞图像作为查询数据,通过搜索整个单细胞表现型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息。
【专利说明】单细胞表现型数据库系统和搜索弓I擎

【技术领域】
[0001]本发明涉及单细胞研究领域,具体的讲是通过新一代的细胞分选装备,得到单个或群体细胞(微生物、植物、动物或人体细胞均适用)的图像和拉曼光谱信息,从而为对这些细胞的组学分析、改造和利用奠定根本的基础。针对不同种类的单细胞建立的一种单细胞表现型数据库系统和搜索引擎,服务于单细胞研究与细胞科学应用领域。

【背景技术】
[0002]单个细胞是生命活动的基本单元,地球上所有生物均由单细胞构成或单细胞分化形成。对单细胞进行深入系统的研究不仅可以全景式地揭示生命活动的本质,而且单个细胞的特异性与分化过程对于研究疾病机理和诊断预防疾病等具有重要的意义。“单细胞研究”(针对特定功能的单个细胞的分析)将能够解析生命体系最“深”层次的运作机制,因此能够带来生命科学及其在能源、环境、健康、农业、海洋等广泛应用领域的突破。美国国家健康研究院(NIH)更是于2012年9月启动了“Single Cell Analysis Program”,公布了对26个项目总计9000万美元的资助,主要用于单细胞领域新工具、新技术的开发
[0003](http://commonfund, nih.gov/singlecell/fundedresearch.aspx.)。2012 年12月21日的Science杂志将单细胞研究推选为2013年最值得关注的六大科学领域之一。
[0004]细胞的表现型也就是细胞的表现形式,即利用整体观测手段可以获得的、反映细胞生长状态的信息。对于单细胞而言,表示它特定的物理外观或成分,如细胞形状、大小、颜色特征、纹理特征、类别等等,都是表现型的例子。其中重要的方法包括显微鉴定单细胞形态,以及利用拉曼光谱仪等设备得到的细胞拉曼光谱信号。对单细胞进行研究,也就是对细胞形状、大小、颜色等相关信息分析和细胞种类的判别,这些均需借助于一个包含不同细胞及不同生长周期的表现型数据库及对应的搜索引擎来实现。而现阶段在国内很少有相关的单细胞表现型数据库系统和基于单细胞表现型数据库的搜索引擎的研究,使得建立一套单细胞表现型数据库系统和搜索引擎对单细胞进行研究具有重要的实用价值。


【发明内容】

[0005]本发明开发了一种单细胞表现型数据库系统和搜索引擎的方法,收集不同种类单细胞样品,通过构建单细胞表现型数据库系统,借助搜索引擎手段,来对未知细胞种类进行判别。主要包括以下两个方面内容(以下以微藻样品为对象示例):
[0006]1.单细胞表现型数据库系统是获取细胞信息的主要途径,是细胞识别与筛选的重要依据。单细胞表现型数据库存将已数据标准化之后的所有已扫描过的细胞不同时间的拉曼光谱数据和细胞图像结构化存储,并存储相应数据所代表的细胞详细物种信息。此外,数据库提供高效率的数据库操作的应用程序接口(API),供其他软件模块调用(图1)。因此设计了可扩展、多层次的单细胞表现型数据库系统,其核心是两层数据库结构和相应的数据处理方法(图2)。其中,(I)初级数据库中存储来源于单细胞拉曼信号采集设备和单细胞图像采集设备的原始数据(Raw Data),并记录单细胞相关信息(图3)。(2)核心数据库中存储来源于原始数据的,通过归一化和质量控制处理的,具有特定类型物种代表性的单细胞数据。其中的归一化和质量控制通过拉曼图谱分析模块完成,分析模块通过对光谱信号和单细胞图像进行数据分析,从而筛选出具有代表性的单细胞数据并存入核心数据库中。而代表性单细胞数据的筛选,主要通过基于所有单细胞聚类分析中的组间差异和组内差异等分析来获得。通常对于特定物种特定环境特定采集时间的单细胞数据均选出代表性高质量数据存储于核心数据库中。(3)核心数据库的重要用途是服务于基于单细胞拉曼图谱和单细胞图像的比较和搜索。(4)核心数据库还将和NCB1、MG-RAST等通用或专业功能基因组数据库连接,支撑单细胞基因型和表观型的整合分析。如将核心数据库中的微藻单细胞表观型数据和NSBI中的微藻基因型数据进行整合,进行聚类分析、特征选取等数据挖掘分析。(5)最后,基于核心数据库的搜索和与功能基因组数据库的连接,设计一系列针对特定生物学问题的分析流程,支撑各类基于单细胞数据的研究。
[0007]2.基于单细胞表现型数据库的搜索引擎可以将某个未知细胞的拉曼光谱数据或细胞图像作为查询数据,通过比对整个单细胞表型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息(图4)。
[0008]由于单细胞表现型数据库非常庞大,如果按照线性的扫描方法依次匹配每一个细胞的所有拉曼光谱,数据库比对的耗时会非常高。在搜索数据库时,采取并行化的策略将整个数据库分割为多个子块并同时进行比对,然后将子块的比对结果整合起来,即可获得整个数据库的最佳匹配。
[0009]在进行数据库分割时,将整个数据库以细胞为最小单位分割成一些数据量较小的子块。对于每一个子块,由于其数据量较小,搜索和比对的时间也会大大缩小。而整个数据库的每个子块都是相对独立的,彼此之间的搜索比对互不影响。这样就可以同时比对大量的子块,从而提闻比对效率。
[0010]在比对结果整合时,将所有子块的比对结果进行整合,来获得整体的最佳匹配。如果子块数量庞大,线性整合也会成为计算的瓶颈。对于大规模数据的整合,可以利用归并算法:设定一个阈值,如果数据库子块的数量超过此阈值,那么将这些需要整合的数据再次拆分并且并行化进行整合,直到需要整合的数据数量低于所设定的阈值。这样,就可将线性整合的时间复杂度0(n)降低为O(1gn)。
[0011]本发明的有益效果是,单细胞表现型数据库系统和搜索引擎相配合,克服了不能对未知细胞种类进行判别的瓶颈,而且借助于新一代的细胞分选装备可以实现原位、实时对细胞种类进行判别,易于普及市场。本发明的应用将会提速单细胞分析的研究。

【专利附图】

【附图说明】
[0012]图1、单细胞表现型数据库系统结构图。其主要部分是:第一,数据库的建立:根据一系列拉曼光谱的数据与细胞的详细物种信息,将拉曼光谱数据格式化并建立与细胞的对应关系。之后将所有的数据结构化存储,建立新的数据库。第二,数据库信息插入:当扫描新的细胞时,可以将此细胞的所有拉曼光谱数据和图像数据格式化,并与此细胞的详细信息建立对应关系,一并插入到已经存在的数据库中。如果扫描了数据库中已存在的细胞不同时间的拉曼光谱数据和图像数据,也可将数据格式化并建立对应关系后,插入到数据库合适位置中。第三,数据库信息删除:如果数据库中某个细胞的拉曼光谱数据和图像数据已经不需要,可以将此细胞所有的数据与信息从数据库中删除。另外细胞的某个时间的拉曼光谱数据也可以被单独删除而不影响此细胞的其他的拉曼光谱数据和图像数据。第四,基因组接口:标准化单细胞表现型数据库提供基因组接口,来实现细胞拉曼光谱数据、单细胞图像数据与基因组数据的相互转换。通过此接口,可以由细胞的拉曼光谱数据来获得相应的基因组数据,也可通过基因组数据来获得此细胞数据库中所存储的拉曼光谱数据和图像数据。
[0013]图2、数据库系统结构和关系。数据库系统结构可以分为两部分:(I)数据库更新和备份机制。通过基于MySQL的数据库插入、删除、更新等操作,建立数据库中数据的更新机制;通过软硬件结合的办法,利用定期RAID备份等方法,建立数据库备份机制。(2)数据库索引和搜索机制。基于单细胞物种、功能、环境等不同类型的特征建立索引,提高搜索效率,同时借助于数据库搜索算法实现单细胞表型研究。
[0014]图3、初级数据库系统原型架构图。初级数据库中记录单细胞4类信息:A、项目信息,如序号,测试时间等。B、样品制备信息,如细胞名字,温度等。C、仪器参数,如激光器波长,光栅,积分时间等。D、细胞信息,如位置、图像、拉曼谱图等。
[0015]图4、基于单细胞表现型数据库的搜索引擎结构图。在进行单细胞表现型数据库比对时,采取了并行化比对策略,采用分治算法,将数据库分成较小的块,这样每一块中数据的比对时间相对于整个数据库来说都将大大缩短,由于每一个块中的数据库比对是独立的,这些比对可以被同时计算。所有的数据库子块中数据比对完毕后,将比对结果进行汇总并选出最佳匹配。

【具体实施方式】
[0016]在图1中,单细胞表现型数据库系统的软件平台基本配置是:Windows XP操作系统,预装MySQL数据库。
[0017]在图2中,数据库系统结构和关系的硬件基本配置是:包含GPGPU(通用并行处理器)运行硬件的超级计算机,CPU至少两个核心,运算速度至少2Ghz以上,内存至少2GB以上,硬盘至少50G以上。CPU、GPGPU和存储之间高速互联。
[0018]在图3中,初级数据库系统原型架构图依赖于MySQL数据库的建立。
[0019]在图4中,基于单细胞表现型数据库的搜索引擎结构图的软件平台基本配置是:Windows XP操作系统,预装MySQL数据库和单细胞表型数据。
【权利要求】
1.一种单细胞表现型数据库系统和搜索引擎,其特征是:软件系统包括单细胞表现型数据库和搜索引擎。单细胞表现型数据库中包括单细胞图像、细胞光谱数据、细胞培养条件、测试条件等信息。搜索引擎是以某个未知细胞的拉曼光谱数据或细胞图像作为查询数据,通过比对整个单细胞表现型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息。
2.根据权利要求1所述的单细胞表现型数据库系统和搜索引擎,其特征是:单细胞表现型数据库是两层数据库结构,初级数据库中存储来源于单细胞拉曼信号采集设备和单细胞图像采集设备的原始数据,并记录单细胞光谱和图像信息;核心数据库中存储来源于原始数据的,通过归一化和质量控制处理的,具有特定类型物种代表性的单细胞数据。
3.根据权利要求1所述的单细胞表现型数据库系统和搜索引擎,其特征是:搜索引擎可以实现对未知细胞种类判别。搜索引擎可以将某个未知细胞的拉曼光谱数据和细胞图像作为查询数据,通过比对整个单细胞表现型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息。
【文档编号】G06F17/30GK104077307SQ201310105207
【公开日】2014年10月1日 申请日期:2013年3月29日 优先权日:2013年3月29日
【发明者】任立辉, 宁康, 籍月彤, 王允, 徐健, 黄巍 申请人:中国科学院青岛生物能源与过程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1