蛋白质组数据库及其应用_3

文档序号:9397085阅读:来源:国知局
位置,以实现所述定位,所述序列参 数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参 数值在蛋白质数据库中的位置定位找到该蛋白记录。本领域技术人员可以理解,上述对蛋 白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
[0036] 根据本发明的一个实施例,提供一种定位蛋白的系统,该系统能够实现上述本发 明任一实施例中的定位蛋白的方法的全部或部分步骤,该系统包括:输入装置,用以输入所 述蛋白的序列参数;输出装置,用以输出所述蛋白的定位信息;以及上述本发明任一实施 例中的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列 参数在所述蛋白质组数据库中的位置,实现所述定位,所述序列参数与所述蛋白质组数据 库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中 的位置定位找到该蛋白记录。上述对蛋白质组数据库的用途的优点和技术特征的描述,同 样适用该方法,在此不再赘述。
[0037] 根据本发明的一个实施例,提供一种对蛋白进行分类的方法,其根据每个所述蛋 白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置,实现所述分类,所 述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多 个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库 的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
[0038] 根据本发明的一个实施例,提供一种对蛋白进行分类的系统,其能够用于实施上 述本发明任一实施例中的蛋白分类方法的全部或部分步骤,该系统包括:输入装置,用以输 入各个蛋白的序列参数;输出装置,用以输出所述蛋白的分类信息;以及上述本发明任一 实施例中的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋 白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白 质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质 数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特 征的描述,同样适用该方法,在此不再赘述。
[0039] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中,自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。在本发明 的描述中,除非另有说明,"多个"的含义是两个或两个以上。在本文中,除非另有明确的规 定和限定,术语"相连"、"连接"等术语应做广义理解,例如,可以是固定连接,也可以是可拆 卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过 中间媒介间接相连,可以是两个元件内部的连通。
[0040] 以下结合具体实施例对本发明的构建蛋白质组数据库的方法、蛋白质数据库及其 用途等进行详细的描述。
[0041] 实施例1
[0042] -个物种FASTA格式的全蛋白质组可以从通用蛋白质资源(uniprot数据库) 下载(http://www. uniprot. org/proteomes/)。该示例中,从 uniprot 数据库下载人的 全蛋白质组。全蛋白质组FASTA格式蛋白序列被转换为纯文本格式,然后通过消除起始 甲硫氨酸转换成M-truncated的蛋白质序列(MTSs)。在MTSs中20个氨基酸的丰度作 为蛋白质氨基酸组成值。MTSs上氨基酸的丰度,序列长度(sequence length,SL),分子 量(molecular weight,Mff)的值和蛋白质的注释由R统计编程语言从全蛋白质组中提 取。各MTSs的疏水性(Hydrophobicity)和等电点(PI)值可以使用propas软件(Wu, S. and Zhu, Y. (2012)ProPAS:standalone software to analyze protein properties. Bioinformation, 8, 167-169.)和 / 或在线服务器 Compute pI/Mw tool (http://web. expasy.org/compute_pi/)计算获得。
[0043] -个蛋白质MTS序列中20个氨基酸的丰度、序列长度(SL),分子量的值(Mff)、等 电点值(PI)、疏水性(Hydrophobicity,HP)、蛋白质名字(name)、蛋白质登录号码等信息和 MTS序列被插入在电子表格(Spreadsheet)相应的行(列)的不同单元格内。全蛋白质组 所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水、蛋白质名 字、蛋白质登录号码等信息和MTS序列数据分别按相同性质的数据插入在电子表格中同一 列(行)的不同单元格内,不同性质的数据被分别插入在电子表格中不同的列(行)内。这 样,一个物种全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等 电点值、疏水性、蛋白质名字、蛋白质登录号码等信息和MTS序列等数据在电子表格内组成 一个数据矩阵,发明人称其为HICL表,即建立了数据表,获得所称的蛋白质组数据库。图2 是所建数据库的截图,示意数据库的部分组成和结构。表1显示数据库包含的各个字段,即 各序列参数,包括氨基酸丰度(AAC)、序列长度(SL)、分子量(Mff)、等电点(PI)以及疏水性 (HP)各自的五个分量(group I -V)的范围。表2显示人全蛋白质组中的蛋白在各个分 量中的数目分布情况。
[0044] 表 1
CN 1〇^117Α9Π A 1*兑明书 7/8 TFf
[0048] 实施例2
[0049] 建立实施例1的包含人的全蛋白质组所有蛋白质的数据库。以蛋白质的MTS的20 个氨基酸丰度和序列长度作为基本坐标,以分子量的值、等电点值和疏水性作为衍生坐标, 这样,在多维空间中对一个全蛋白质组含有几千至几万条蛋白序列实现定位,每个蛋白序 列的理化性质参数(坐标参数)与蛋白登录号码(坐标地址),蛋白序列(客体)和蛋白名 称(客体描述)因为在电子表格内同一行(列)而进行绑定。
[0050] 然后,可以利用电子表格本身具有的数据管理功能实现对全蛋白质组数据矩阵的 进行操作,例如使用电子表格排序功能,对全蛋白质组数据矩阵分别以20个氨基酸丰度、 序列长度、分子量的值、等电点值和/或疏水性进行排序,可以快速显示出全蛋白质组在20 个氨基酸丰度、序列长度、分子量的值、等电点值和疏水性各方面的全面而详细的分布,使 得很容易找到所需的含某种高丰度氨基酸的蛋白质,或者全面地分析出非常酸性的、碱性 的、小的、大的和疏水性的蛋白质。
[0051] 例如,使用电子表格排序功能,对全蛋白质组数据矩阵以蛋白质名字进行排序,一 些蛋白质因为名字都以相同的字母开头的组合在一起;然后,将所有的蛋白质名称开头是 相同而第二个字母也相同的组合在一起;如此下去,同一蛋白家族成员或蛋白变体通常可 以组合在一起构成一簇,因为
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1