一种测试生物信息学计算平台性能的方法

文档序号:6624001阅读:424来源:国知局
一种测试生物信息学计算平台性能的方法
【专利摘要】本发明公开了一种测试生物信息学计算平台性能的方法,包括:选择适用于生物信息学的基础计算平台;对所选择的基础计算平台进行性能测试,得到标准性能指标;对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。通过本发明的方案,将对基础计算平台的性能测试作为标准性能指标,利用标准性能指标来衡量待测试计算平台,从而实现了对生物信息学计算平台的性能的测试。
【专利说明】一种测试生物信息学计算平台性能的方法

【技术领域】
[0001] 本发明涉及生物信息学技术,尤指一种测试生物信息学计算平台性能的方法。

【背景技术】
[0002] 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索 和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪 自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学 (Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能 的生物信息。在基因组学研究方向,测序技术是重要的研究手段,对于测序数据的分析需要 借助高性能计算平台完成,因此,高性能计算平台的性能对生物信息学研究进展起着至关 重要的作用,如何评测一套生物信息学计算平台的性能,是很多生物信息学专家以及高性 能计算专家面临的问题。因为熟悉生物信息学的专家不熟悉具体的计算系统的配置,高性 能计算专家对生物信息分析的流程和资源需求也知之甚少,所以发展一套标准化的生物信 息学计算平台性能的检测方法十分必要。
[0003] 现有的测试计算平台性能的方法是,只对计算平台进行系统级的常规检测,如 linpack测试,stream测试。其并没有考虑生物信息学应用软件的性能特征。而生物信息学 计算平台要求内存容量消耗大,磁盘读写频繁,且存储占用空间大等,因此采用现有的方法 检测得到的性能较好的计算平台,在进行生物信息学方面的计算时,其性能不一定是好的。


【发明内容】

[0004] 为了解决上述问题,本发明提出了一种测试生物信息学计算平台性能的方法,能 够测试生物信息学计算平台的性能。
[0005] 为了达到上述目的,本发明提出了一种测试生物信息学计算平台性能的方法,包 括:
[0006] 选择适用于生物信息学的基础计算平台;
[0007] 对所选择的基础计算平台进行性能测试,得到标准性能指标;
[0008] 对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标 进行比较,得到测试结果。
[0009] 优选地,所述性能测试包括对硬件的测试和对软件的测试。
[0010] 优选地,所述对硬件的测试包括对高性能计算的linpack HPL效率、内存带宽、磁 盘读写频率的测试。
[0011] 优选地,所述对软件的测试包括:
[0012] 采用测试用例在所述基础计算平台的生物信息学软件中运行的时间和资源消耗。
[0013] 优选地,所述将得到的性能指标与标准性能指标进行比较,得到测试结果包括:
[0014] 当所述待测试生物信息学计算平台的性能指标优于所述标准性能指标时,所述测 试结果为待测试计算平台满足要求。
[0015] 优选地,所述测试结果为待测试生物信息学计算平台满足要求包括:
[0016] 所述对待测试生物信息学计算平台进行性能测试得到的HPL效率大于或等于所 述对基础计算平台进行性能测试得到的HPL效率,
[0017] 且所述对待测试生物信息学计算平台进行性能测试得到的内存带宽的实测值和 理论值之间的比值大于或等于所述对基础计算平台进行性能测试得到的比值,
[0018] 且所述对待测试生物信息学计算平台进行性能测试得到的磁盘读写频率小于或 等于所述对基础计算平台进行性能测试得到的磁盘读写频率,
[0019] 且所述对待测试生物信息学计算平台进行性能测试得到的测试用例的运行时间 和资源消耗小于或等于所述对基础计算平台进行性能测试得到的运行时间和资源消耗。
[0020] 与现有技术相比,本发明包括:选择适用于生物信息学的基础计算平台;对所选 择的基础计算平台进行性能测试,得到标准性能指标;对待测试生物信息学计算平台进行 性能测试,将得到的性能指标与标准性能指标进行比较,得到测试结果。通过本发明的方 案,将对基础计算平台的性能测试作为标准性能指标,利用标准性能指标来衡量待测试计 算平台,从而实现了对生物信息学计算平台的性能的测试。

【专利附图】

【附图说明】
[0021] 下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一 步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
[0022] 图1为本发明的测试生物信息学计算平台性能的方法流程图。

【具体实施方式】
[0023] 为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不 能用来限制本发明的保护范围。
[0024] 参见图1,本发明提出了一种测试生物信息学计算平台性能的方法,包括:
[0025] 步骤100、选择适用于生物信息学的基础计算平台。
[0026] 本步骤中,所选择的基础计算平台必须是现有生物信息学分析较通用的硬件平 台,应满足大内存,高主频,高磁盘读写频率等。具体可以采用调研的方式了解目前生物信 息学用户对计算平台的硬件资源和软件资源的需求,从而选择使用频率最高的计算平台作 为基础计算平台。
[0027] 例如,根据调研发现,浪潮NF5280M3双路计算节点的计算平台完全可以满足目前 生物信息学用户对计算平台的硬件资源和软件资源的需求。该计算平台的CPU选用INTEL Xeon E5-2670,配 8GB*16 = 128GB 内存,8 块 300GB 磁盘做磁盘阵列(RAID,Redundant Arrays of Inexpensive Disks);该计算平台安装的操作系统为RHEL6. 3 Linux操作系统, 安装的编译器为incomposer_xe_2013. 3. 163,消息传递接口软件为intel mpi4. 1. 0· 024i, 是一种程序并行接口软件,以及用户环境的配置,即集群用户组群的建立,权限管理,用户 的磁盘空间分配等。
[0028] 步骤101、对所选择的基础计算平台进行性能测试,得到标准性能指标。
[0029] 本步骤中,性能测试包括对硬件的测试和对软件的测试。
[0030] 其中,对硬件的测试包括对基础计算平台的高性能计算的linpack(HPL,High Performance Computing Linpack)效率、内存带宽、磁盘读写频率等的测试。
[0031] 其中,可以采用现有的集群或是系统的基准测试方法,如HPL测试方法对HPL效率 进行测试,并不用于限定本发明的保护范围,这里不再赘述。
[0032] 测试过程中,可以通过调节问题规模大小N(矩阵大小)、使用到的CPU数目、使用 的优化方法等来执行HPL测试程序,以获取最佳的性能,一般HPL效率在95%以上为佳。
[0033] 其中,可以采用STREAM来测试内存带宽。
[0034] 测试过程中,可以通过对大维度的矢量数组的处理(如数组的复制、数组的尺度 变换、数组的矢量求和、数组的复合矢量求和)来评价基础计算平台的内存带宽。内存带宽 的实测值和理论值之间的比值在80%以上为佳。
[0035] 其中,可以采用Linux系统命令(如DD)进行磁盘读写频率的测试。磁盘读写速 度在80MB/s以上为佳。
[0036] 其中,对软件的测试是指采用测试用例在基础计算平台的生物信息学软件中运行 的时间和资源消耗情况(包括内存的占用、CPU的占用和磁盘读写频率等)。
[0037] 其中,由于BWA(Burrows-Wheeler Aligner)软件和序列拼接软件VELVET是生物 信息学中最耗时,且业内使用频率最高的两款软件,可以选用这两款软件作为用例对基础 计算平台的性能进行测试。
[0038] 其中,测试用例的选择要能占满或是消耗完系统的大量资源,如内存消耗达到总 内存容量的90 %的特点等。
[0039] 例如,测试用例可以选用ILLUMIA公司的测序数据进行分析,ILLUMIA公司产生的 序列文件可以作为进行生物信息学的软件(如BWA和VELVET等)的输入文件。
[0040] 其中,可以采用自动化程序对基准测试软件HPL,STREAM、生物信息学软件BWA、 VELVET自动安装到基础计算平台中,该自动化程序通过编写脚本将HPL、STREAM、生物信息 学软件BWA、VELVET软件自动安装到基础计算平台中,使用shell脚本定义用到的编译器 类型,定义编译选项,设置编译路径,定义编译的步骤,保存脚本,最后执行脚本实现自动安 装,并根据系统的参数自动匹配测试参数,进行性能测试。
[0041] 具体如何实现对基准测试软件HPL,STREAM、生物信息学软件BWA、VELVET的自动 安装属于本领域技术人员的惯用技术手段,这里不再赘述。
[0042] 步骤102、对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准 性能指标进行比较,得到测试结果。
[0043] 本步骤中,当待测试生物信息学计算平台的性能指标优于标准性能指标时,测试 结果为待测试计算平台满足要求。
[0044] 具体的,测试结果为待测试计算平台满足要求包括:对待测试生物信息学计算平 台进行性能测试得到的HPL效率大于或等于对基础计算平台进行性能测试得到的HPL效 率,且对待测试生物信息学计算平台进行性能测试得到的内存带宽的实测值和理论值之间 的比值大于或等于对基础计算平台的比值,且对待测试生物信息学计算平台进行性能测试 得到的磁盘读写频率小于或等于对基础计算平台进行性能测试得到的磁盘读写频率,且对 待测试生物信息学计算平台进行性能测试得到的测试用例的运行时间和资源消耗小于或 等于对基础计算平台进行性能测试得到的运行时间和资源消耗。
[0045] 本步骤中,采用HPL效率在95 %以上时所采用的测试条件(如问题规模大小N (矩 阵大小)、使用到的CPU数目、使用的优化方法等)对待测试计算平台进行HPL效率的测试。
[0046] 采用内存带宽的实测值和理论值之间的比值在80%以上是所采用的对大维度的 矢量数组的处理实例来评价待测试计算平台的内存带宽。
[0047] 采用与基础计算平台相同的测试用例在待测试计算平台上进行测试,当测试用例 运行时间比基础计算平台短时,认为待测试计算平台的性能优于基础计算平台。
[0048] 需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并 不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对 本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。
【权利要求】
1. 一种测试生物信息学计算平台性能的方法,其特征在于,包括: 选择适用于生物信息学的基础计算平台; 对所选择的基础计算平台进行性能测试,得到标准性能指标; 对待测试生物信息学计算平台进行性能测试,将得到的性能指标与标准性能指标进行 比较,得到测试结果。
2. 根据权利要求1所述的方法,其特征在于,所述性能测试包括对硬件的测试和对软 件的测试。
3. 根据权利要求2所述的方法,其特征在于,所述对硬件的测试包括对高性能计算的 linpack HPL效率、内存带宽、磁盘读写频率的测试。
4. 根据权利要求2所述的方法,其特征在于,所述对软件的测试包括: 采用测试用例在所述基础计算平台的生物信息学软件中运行的时间和资源消耗。
5. 根据权利要求1所述的方法,其特征在于,所述将得到的性能指标与标准性能指标 进行比较,得到测试结果包括: 当所述待测试生物信息学计算平台的性能指标优于所述标准性能指标时,所述测试结 果为待测试计算平台满足要求。
6. 根据权利要求5所述的方法,其特征在于,所述测试结果为待测试生物信息学计算 平台满足要求包括: 所述对待测试生物信息学计算平台进行性能测试得到的HPL效率大于或等于所述对 基础计算平台进行性能测试得到的HPL效率, 且所述对待测试生物信息学计算平台进行性能测试得到的内存带宽的实测值和理论 值之间的比值大于或等于所述对基础计算平台进行性能测试得到的比值, 且所述对待测试生物信息学计算平台进行性能测试得到的磁盘读写频率小于或等于 所述对基础计算平台进行性能测试得到的磁盘读写频率, 且所述对待测试生物信息学计算平台进行性能测试得到的测试用例的运行时间和资 源消耗小于或等于所述对基础计算平台进行性能测试得到的运行时间和资源消耗。
【文档编号】G06F11/36GK104156274SQ201410408945
【公开日】2014年11月19日 申请日期:2014年8月19日 优先权日:2014年8月19日
【发明者】金莲, 吕文静, 刘羽, 陈博文, 于涛 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1