膜蛋白分类在线预报方法

文档序号:6613427阅读:394来源:国知局
专利名称:膜蛋白分类在线预报方法
技术领域
本发明涉及一种基于Bagging方法的膜蛋白分类建模方法,同时涉及膜蛋白分类 预报的Web服务实现方法。
背景技术
作为生物化学的一部分,膜蛋白研究成为实验和理论领域都很热门的一个焦点。 膜蛋白是一类结构独特的蛋白质,它镶嵌于膜脂的特性使这一蛋白处于细胞与外界的 交界部位,是细胞执行各种功能的物质基础,且可以形成膜受体、载体、酶和抗原等。 根据膜蛋白与脂双层之间的作用模式,可以分为如下5个类型(1) type-I membrane protein; (2) type-II membrane protein; (3) multipass transmembrane proteins; (4) lipidchain-anchored membrane proteins; (5) GPI陽anchored membrane proteins。随着基因 组学和蛋白组学的发展,生物信息的信息量的增长极为迅速,而膜蛋白在Genbank 中的数目也相应增长。在膜蛋白结构与功能研究的具体领域,膜蛋白的类型是一项重 要性能。通过实验方法和分子生物学的方法来测定膜蛋白类型难以满足迅速增长的膜 蛋白序列的需求,因此利用数据挖掘技术来预报膜蛋白序列很重要。Bagging是由 Breiman在1996年提出的一项机器学习方法。它通过把多种机器学习方法组合起来, 得到一个分类器。由于它在分类问题中的突出性能,被越来越多用于生物和社会科学 中的分类和预报问题中。

发明内容
本发明的目的在于针对膜蛋白类型预测迅速增长的需求,提供一种膜蛋白类型在 线预报方法。能够基于普通的Web客户端,单个或者批量预测膜蛋白序列的膜蛋白 类型。
为达到上述目的,本发明采用下述方案
一种膜蛋白分类在线预报方法,其特征在于利用机器学习方法Bagging,对一个 膜蛋白数据库样本进行学习,输出学习模型;由预报器载入该学习模型,输入数据传 输器将Web客户端提交的膜蛋白序列码转换为只包含"O"和"l"的数据,输出模蛋白分 类预测结果,通过Servlet组件返回到Web客户端。
上述的膜蛋白分类在线预报方法的具体操作步骤为 (1) 构建膜蛋白分类模型;
(2) 进行膜蛋白分类预报。
上述的膜蛋白分类在线预报方法中的构建模蛋白分类模型的步骤为
① 采集训练本集采集自互联网上的蛋白质数据库,该数据库的数据都已明确 膜蛋白分类类型;通过计算机程序,将蛋白序列码转换成为只包含"0"和"1"的数据作 为自变量,目标变量是膜蛋白分类类型;
② Bagging方法学习用Java编程语言实现Bagging算法;
③ 输出学习模型上述的Bagging方法学习完成对样本数据的学习,得到膜蛋 白分类的预报模型,将此模型对象进行序列化。
上述的膜蛋白分类在线预报方法中的进行膜蛋白分类预报的步骤如下
① 将膜蛋白分类预报模型输入预报组件;
② 输入数据经数据转换器转换后输入预报组件;
③ 预报组件读取膜蛋白分类预报模型,载入转换后的输入数据,进行处理后得 到膜蛋白分类信息的预报结果;
预报组件输出预报结果至Servlet组件返回至Web客户端,完成一次膜蛋白 分类预报工作。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点 本发明基于Bagging学习方法对膜蛋白分类建模,依据建立的膜蛋白分类预报模
型,实现在线预报结果。本发明能够基于普通的Web客户端单个或者批量预测膜蛋
白序列的膜蛋白类型。


图1描叙了构建膜蛋白分类模型的工作流程。 图2描叙了膜蛋白分类预报的工作流程。
具体实施例方式
本发明的一个优选实施例结合

如下
在膜蛋白分类预报系统中,对预报准确率至关重要的就是膜蛋白分类模型的好坏 与否,具有代表性与否。随着生物信息学的发展,膜蛋白数据库的信息量也与日俱增, 为了提高膜蛋白分类的预报准确率,分类模型也应该随之更新。所以将膜蛋白分类模 型与膜蛋白分类模型创建器和膜蛋白分类预报器之间相互独立分开是一个重要的措 施。
图1示出本实施例中的构建膜蛋白分类模型的工作流程,其中步骤如下
① 图1中的测试样本,采集自互联网上的蛋白质数据库,都已经明确膜蛋白分
类类型。通过计算机程序,将膜蛋白序列码转换成为只包含"o"和"r的数据作为自变
量,目标变量是膜蛋白分类类型。
② 图1中的Bagging方法学习用Java编程语言实现的Bagging算法。Bagging 是统计学家Breiman于1996年提出的,它的思想根源是统计学中非常重要的Bootstrap 理论。Bagging和Boosting是集成学习中最具代表性的和应用前景的两种处理方法。 Bagging是建立了通过投票结合起来的预测集集合。Bagging训练集的选择是随机的, 各轮训练集之间相互独立。Bagging的各个预测函数没有权重。Bagging的各个预测 函数可以并行生成,对于那些极为耗时的学习方法,Bagging可以通过并行处理方、法 节省大量的时间。
Bagging的基础是重复取样,它通过产生样本的重复Bootstrap实例作为训练集, 每回运行Bagging都给学习算法提供有替代地随机从大小为m的原始训练集抽取m 个训练样本的集合。这种训练集被称作原始训练集合的Bootstrap复制。这种技术也 叫Bootstrap综合,即Bagging。平均来说,每个BoostStrap复制包含原始训练集的 63.2%,原始训练集中的某些样本可能在新的训练集中出现多次,而另外一些样本则 可能一次也不出现。Bagging通过重新选取训练集增加了基础学习器集成的差异度, 从而提高了泛化能力。
其基本处理方法如下
1) 对于数据集Z^Kx,,几),…,(、,^), }.,选择一个弱分类器;
2) 定义训练集的分布概率为尸0) = 1/ 7;
3) 随机从训练集中提取m个输入(Xl,Yl),(X2,Y2),(X3,Y3),(Xm,Ym)
a) 训练得到模型hi;
b) 将训练样本放回;
4) 输出最终的分类器//(》= ^)|>,(^)。
③图1中的膜蛋白分类模型是一个独立存储在磁盘介质的文件。上述的
Bagging方法学习完成对样本数据的学习后,就得到膜蛋白分类的模型。将此模型对 象进行序列化,输出为一个独立存储的文件。
图2示出本实施例中的膜蛋白分类预报的工作流程,其中步骤如下
① 图2中的数据转换器,负责将Web客户端得到的膜蛋白序列码进行处理,然 后转换成为只包含"0"和"1"的数据并输出。
② 图2中的预报组件,与图一中的膜蛋白分类模型协同工作。进行膜蛋白分类 预报时,预报从磁盘介质中读取膜蛋白分类模型文件,载入模型完成初始化。输入由 数据转换器输出的数据,载入的膜蛋白分类模型对此数据进行处理,得到膜蛋白分类 信息的预报结果,输出。
③ 图2中的Servlet组件,采用J2EE规范编写。当Web客户端提交膜蛋白序列 码数据后,Servlet组件先调用验证组件对用户提交数据进行检测,确定是否有效数据。 若为有效数据,调用预报组件并使其完成初始化,再调用数据转换器对膜蛋白序列码 数据进行转换,输入到预报组件进行预报。
④ 将预报组件输出的预报结果信息处理后返回至Web客户端,完成一次膜蛋白 分类预报工作。
权利要求
1.一种膜蛋白分类在线预报方法,其特征在于利用机器学习方法Bagging,对一个膜蛋白数据库样本进行学习,输出学习模型;由预报器载入该学习模型,输入数据传输器将Web客户端提交的膜蛋白序列码转换为只包含“0”和“1”的数据,输出模蛋白分类预测结果,通过Servlet组件返回到Web客户端。
2. 根据权利要求l所述的膜蛋白分类在线预报方法,其特征在于具体操作步骤为 (1)构建膜蛋白分类模型;P)进行膜蛋白分类预报。
3. 根据权利要求2所述的膜蛋白分类在线预报方法,其特征在于所述的步骤(l)中的构建模蛋白分类模型的步骤为① 采集训练本集采集自互联网上的蛋白质数据库,该数据库的数据都已明 确膜蛋白分类类型;通过计算机程序,将蛋白序列码转换成为只包含"O" 和"1"的数据作为自变量,目标变量是膜蛋白分类类型;② Bagging方法学习用Java编程语言实现Bagging算法;③ 输出学习模型上述的Bagging方法学习完成对样本数据的学习,得到膜 蛋白分类的预报模型,将此模型对象进行序列化。
4. 根据权利要求2所述的膜蛋白分类在线预报方法,其特征在于所述的步骤(2)中的 进行膜蛋白分类预报的步骤如下① 将膜蛋白分类预报模型输入预报组件;② 输入数据经数据转换器转换后输入预报组件;③ 预报组件读取膜蛋白分类预报模型,载入转换后的输入数据,进行处理后 得到膜蛋白分类信息的预报结果; 预报组件输出预报结果至Servlet组件返回至Web客户端,完成一次膜蛋 白分类预报工作。
全文摘要
本发明公开了一种膜蛋白分类在线预报方法。本方法是利用机器学习方法Bagging对一个膜蛋白数据库样本进行学习,输出学习模型。预报器载入学习模型,输入数据转换器由Web客户端提交的膜蛋白序列码转换所得只包含“0”和“1”的数据,输出膜蛋白分类预测结果,通过Servlet组件返回到Web客户端。本发明能够基于普通的Web客户端单个或批量预测膜蛋白序列的膜蛋白类型。
文档编号G06F19/00GK101187960SQ20071017180
公开日2008年5月28日 申请日期2007年12月6日 优先权日2007年12月6日
发明者亮 刘, 丽 王, 金雨欢, 冰 钮, 陆文聪 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1