一种用于分析蛋白质序列的性质的方法和装置的制造方法

文档序号:9235641阅读:201来源:国知局
一种用于分析蛋白质序列的性质的方法和装置的制造方法
【技术领域】
[0001] 本发明的各实施方式涉及数据分析,具体地,涉及用于分析蛋白质序列(protein sequence)性质(prope;rty)的方法和装置。
【背景技术】
[0002] 随着人类社会的发展,人类在生物学方面的研究已经越来越深入。例如,人类对于 蛋白质的研究已经深入到了蛋白质序列的层次,例如,目前已经可W测定蛋白质序列、蛋白 质序列的结构,并且目前已经可W通过试验等技术手段,来分析蛋白质序列的性质。
[0003] 蛋白质序列可W具有多个方面的性质,例如,物理性质、化学性质和病理性质等 等。通常而言,需要设计不同的试验来确定上述诸多方面的性质。然而,试验过程费时费 力,并且在很大程度上依赖于试验人员的人工操作,因而需要大量的人力、物力W及时间开 销。另外,当需要获得多个蛋白质序列的多个方面的性质时,需要进行的试验的数量将成倍 地增加。因而,如何W较低的人力、物力和时间成本来获得蛋白质序列的各个方面的性质, 成为目前的一个研究热点。

【发明内容】

[0004] 因而,期望能够开发一种准确、高效地分析蛋白质序列的各个方面的性质的技术 方案,期望该技术方案可W基于参考数据库中的参考蛋白质序列的结构和性质,在无需进 行人工试验的情况下,获得未知的蛋白质序列的诸如物理性质、化学性质、病理性质等方面 的性质。进一步,还期望可W在无需人工试验的情况下,不断地丰富参考数据库中的参考蛋 白质序列的样本。
[0005] 根据本发明的一个方面,提供了一种用于分析蛋白质序列的性质的方法,包括:响 应于接收到蛋白质序列,从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质 序列;通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列,分 别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量;利用至 少一个参考向量W及至少一个参考蛋白质序列的性质来训练分类器;W及由分类器来基于 特征向量,分析蛋白质序列的性质。
[0006] 根据本发明的一个方面,响应于接收到蛋白质序列,从参考数据库中查找与蛋白 质序列相匹配的至少一个参考蛋白质序列包括;从参考数据库中查找与蛋白质序列的文本 内容相近似的至少一个参考蛋白质序列。
[0007] 根据本发明的一个方面,通过比较蛋白质序列和至少一个参考蛋白质序列构成的 集合中的任意两个序列,分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和 至少一个参考向量包括;将任意两个序列进行比较W构造差异矩阵,其中差异矩阵中的每 个元素是描述任意两个序列之间的差异的集合;基于差异矩阵中的多个列获取特征向量和 至少一个参考向量。
[0008] 根据本发明的一个方面,提供了一种用于分析蛋白质序列的性质的装置,包括:查 找模块,配置用于响应于接收到蛋白质序列,从参考数据库中查找与蛋白质序列相匹配的 至少一个参考蛋白质序列;映射模块,配置用于通过比较蛋白质序列和至少一个参考蛋白 质序列构成的集合中的任意两个序列,分别将蛋白质序列和至少一个参考蛋白质序列映射 至特征向量和至少一个参考向量;训练模块,配置用于利用至少一个参考向量W及至少一 个参考蛋白质序列的性质来训练分类器;W及分析模块,配置用于由分类器来基于特征向 量,分析蛋白质序列的性质。
[0009] 根据本发明的一个方面,查找模块包括:相似性查找模块,配置用于从参考数据库 中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。
[0010] 根据本发明的一个方面,映射模块包括:构造模块,配置用于将任意两个序列进 行比较W构造差异矩阵,其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集 合;获取模块,配置用于基于差异矩阵中的多个列获取特征向量和至少一个参考向量。
[0011] 采用本发明所述的方法和装置,可W在无需人工试验的情况下,W更为快速、准确 的方式分析蛋白质序列的多个方面的性质,并且还可W不断地丰富参考数据库中的内容, W便为将来的分析提供基础。
【附图说明】
[0012] 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述W及其 他目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。
[0013] 图1示意性示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12 的框图;
[0014] 图2示意性示出了蛋白质序列与蛋白质序列的性质之间的关系的示意图;
[0015] 图3示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方 法的架构图;
[0016] 图4示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方 法的流程图;
[0017] 图5A和图5B分别示意性示出了根据本发明一个实施方式的将蛋白质序列和参考 蛋白质序列划分片段的示意图;
[0018] 图6示意性示出了根据本发明一个实施方式的将蛋白质序列映射至特征向量的 过程的示意图;W及
[0019] 图7示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的装 置的框图。
【具体实施方式】
[0020] 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可W W各种形式实现本公开而不应被该里阐述的实施方 式所限制。相反,提供该些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。
[0021] 图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框 图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施方式的功能和 使用范围带来任何限制。
[0022] 如图1所示,计算机系统/服务器12 W通用计算设备的形式表现。计算机系统 /服务器12的组件可W包括但不限于;一个或者多个处理器或者处理单元16,系统存储器 28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0023] 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器, 外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举 例来说,该些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线W及外围组件互连(PCI)总线。
[0024] 计算机系统/服务器12典型地包括多种计算机系统可读介质。该些介质可W是 任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动 的和不可移动的介质。
[00巧]系统存储器28可W包括易失性存储器形式的计算机系统可读介质,例如随机存 取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可W进一步包括其 他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34 可W用于读写不可移动的、非易失性磁介质(图1未显示,通常称为"硬盘驱动器")。尽管图 1中未示出,可W提供用于对可移动非易失性磁盘(例如"软盘")读写的磁盘驱动器,W及对 可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其他光介质)读写的光盘驱动器。在该些 情况下,每个驱动器可W通过一个或者多个数据介质接口与总线18相连。存储器28可W 包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,该些程序模块被 配置W执行本发明各实施方式的功能。
[0026] 具有一组(至少一个)程序模块42的程序/实用工具40,可W存储在例如存储器 28中,该样的程序模块42包括一但不限于一操作系统、一个或者多个应用程序、其他 程序模块W及程序数据,该些示例中的每一个或某种组合中可能包括网络环境的实现。程 序模块42通常执行本发明所描述的实施方式中的功能和/或方法。
[0027] 计算机系统/服务器12也可W与一个或多个外部设备14 (例如键盘、指向设备、 显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设 备通信,和/或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信的 任何设备(例如网卡,调制解调器等等)通信。该种通信可W通过输入/输出(I/O)接口 22 进行。并且,计算机系统/服务器12还可W通过网络适配器20与一个或者多个网络(例如 局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20 通过总线18与计算机系统/服务器12的其他模块通信。应当明白,尽管图中未示出,可W 结合计算机系统/服务器12使用其他硬件和/或软件模块,包括但不限于;微代码、设备驱 动器、兀余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器W及数据备份存储系统等。
[0028] 应当注意,蛋白质序列包括数据和结构两方面的内容,数据方面是指构成蛋白质 序列的不同类型的氨基酸W及该些氨基酸之间的顺序关系;另一方面,蛋白质序列的结构 方面是指构成蛋白质序列的氨基酸的可W具有不同的结构(例如,折叠、螺旋等立体结构)。 因而,蛋白质序列的数据和结构两方面的内容都将对蛋白质序列的产生影响。
[0029] 图2示意性示出了蛋白质
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1