蛋白质组数据库及其应用_4

文档序号：9397085阅读：来源：国知局

它们的名字，最初的字母是相同的。这样重新排列的数据矩阵根据蛋白质的名字的字母顺序进行排序，从而使得本领域普通技术人员能够快速地发现一些蛋白家族成员或蛋白变体的理化性质分布的细节。图3显示在该数据库中利用蛋白名字对α-2,8-唾液酸转移酶8(alpha-2,8_sialyltransferase 8)家族的蛋白成员进行排序聚类的结果。
[0052] 例如，使用电子表格排序功能，对全蛋白质组数据矩阵以MTS序列进行排序，能使 N端序列相同的蛋白家族成员或蛋白变体构成一簇，N端序列不相同的蛋白家族成员或蛋白变体则分散分布。图4显示在该数据库中利用MTS序列对α -2, 8-唾液酸转移酶8家族进行排序聚类，该家族蛋白成员的分布情况。
[0053] 也可以使用电子表格检索功能，实现对全蛋白质组数据矩阵的进行蛋白质名字和序列的检索定位，确定蛋白质名字和序列在全蛋白质组数据矩阵中分布。
[0054] 综上，通过对电子表格中全蛋白质组数据矩阵的操作实现对全蛋白质组所有蛋白序列有序化操作处理，进而实现对全蛋白质组所有蛋白序列进行分组和/或检索定位。
[0055] 在本说明书的描述中，参考术语"一个实施例"、"一些实施例"、"示例"、"具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0056] 尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
【主权项】
1. 一种构建蛋白质组数据库的方法，其特征在于，包括以下步骤：接收多个蛋白序列；消除每个所述蛋白序列的起始氨基酸，获得相应的截断序列；建立数据表，以获得所述蛋白质组数据库，所述数据表包含多个记录，一个所述记录与一个所述截断序列对应，所述数据表包含多个字段，所述字段包括以下序列参数中的至少两种：氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点，所述氨基酸丰度包括以下至少之一 =Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、 Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、 Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。2. 权利要求1的方法，其特征在于，所述字段包括所述序列参数中的至少三种；任选的，所述字段包括所述序列参数中的至少四种；任选的，所述字段包括全部所述序列参数；任选的，所述字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。3. 权利要求1或2的方法，其特征在于，所述字段包括所述序列长度，所述序列长度分为五个分量：[0, 200)，[200, 500)，[500, 1000)，[1000, 2000)和大于等于 2000aa ; 任选的，所述字段包括所述序列分子量，所述序列分子量分为五个分量：[0, 23000)， [23000, 57500)，[57500, 115000)，[115000, 230000)和大于等于 230000Da ; 任选的，所述字段包括所述序列等电点，所述序列等电点分为五个分量：[0, 4.0)， [4. 0, 6. 0)，[6. 0, 8. 0)，[8. 0, 10. 0)和大于等于 10. 0 ; 任选的，所述字段包括所述序列疏水性，所述序列疏水性分为五个分量：小于-1.0， [-1. 0, -0? 5)，[-0? 5, 0? 0)，[0? 0, 0? 5)和大于等于 0? 5 ; 任选的，所述字段包括所述氨基酸丰度，所述氨基酸丰度分为五个分量：[0. 0, 0. 05)， [0? 05, 0? 1)，[0? 1，0? 15)，[0? 15, 0? 20)和[0? 20, 1]。4. 一种蛋白质组数据库，其根据权利要求1-3任一方法构建获得。5. 权利要求4的蛋白质组数据库，其特征在于，其中的数据表的字段包括氨基酸丰度，所述数据表的记录按照所述氨基酸丰度的大小排布；任选的，其中的数据表的字段包括序列等电点，所述数据库的记录按照所述序列等电点的大小排布；任选的，其中的数据表的字段包括序列疏水性，所述数据库的记录按照所述序列疏水性的大小排布；任选的，其中的数据表的字段包括序列分子量，所述数据库的记录按照所述序列分子量的大小排布；任选的，其中的数据表的字段包括蛋白质名称，所述数据库的记录按照所述蛋白质名称的字母顺序排布。6. 权利要求4或5的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。7. -种定位蛋白的方法，其特征在于，根据所述蛋白的序列参数在权利要求4或5的蛋白质组数据库中的位置，以实现所述定位，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。8. -种定位蛋白的系统，其特征在于，包括：输入装置，用以输入所述蛋白的序列参数；输出装置，用以输出所述蛋白的定位信息；以及权利要求4或5的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述定位，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。9. 一种对蛋白进行分类的方法，其特征在于，根据每个所述蛋白的序列参数在权利要求4或5的蛋白质组数据库中的位置，以实现所述分类，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。10. -种对蛋白进行分类的系统，其特征在于，包括：输入装置，用以输入各个蛋白的序列参数；输出装置，用以输出所述蛋白的分类信息；以及权利要求4或5的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述分类，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
【专利摘要】本发明公开了一种构建蛋白质组数据库的方法，该方法包括步骤：接收多个蛋白序列；消除每个蛋白序列的起始氨基酸，获得相应的截断序列；建立数据表，以获得蛋白质组数据库，数据表包含多个记录，一个所述记录与一个所述截断序列对应，数据表包含多个字段，字段包括以下序列参数中的至少两种：氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点。本发明还公开一种蛋白质组数据库、蛋白质组数据库在蛋白质分组、检索和/或定位中的用途、一种定位蛋白的方法和系统。本发明的方法和/或蛋白质组数据库建立了蛋白的坐标系统，利于简单高效利用蛋白质大数据。
【IPC分类】G06F19/28
【公开号】CN105117620
【申请号】CN201510448466
【发明人】谢振华
【申请人】清华大学深圳研究生院
【公开日】2015年12月2日
【申请日】2015年7月27日

完整全部详细技术资料下载

当前第4页1 2 3 4