一种生物信息工程师技能评级系统的制作方法

文档序号:11143761阅读:272来源:国知局
一种生物信息工程师技能评级系统的制造方法与工艺

本发明涉及计算机生物信息领域,具体地,涉及一种生物信息工程师技能评级系统。



背景技术:

生物信息学是生命科学和计算机科学相结合的一门新学科,是以计算机为工具对生物信息进行储存、检索和分析的学科。当前从事生物信息分析的工程师,涉及到的技能包括生物学、计算机、数学、物理、信息科学等多个学科,工程师在进行生物学研究时,实验下游的数据分析部分需要借助计算机编程、数学统计、现有软件等手段来得到实验结论。生物信息工程师需要进行分析思路的设计、实现等,数据大多来源于DNA测序仪,以及其他设备。

目前,平台或者用户都急需对生物信息工程师进行合理的评级,以便满足各方的需求,而不同的生物信息工程师由于自身原因具有不同的工作能力,而现有技术中没有对生物信息工程师评级的合理方法和系统,倚靠人工进行评级效率较低,且由于数据资源有限,评级的准确性和可靠性较差,参考价值较低。没有一个成熟、准确、专门针对生物信息分析工程师的技能评级方法。

综上所述,本申请发明人在实现本申请发明技术方案的过程中,发现上述技术至少存在如下技术问题:

在现有技术中,现有的生物信息分析工程师的技能评级方法存在效率、准确率和可靠性较差的技术问题。



技术实现要素:

本发明提供了一种生物信息工程师技能评级系统,解决了现有的生物信息分析工程师的技能评级方法存在效率、准确率和可靠性较差的技术问题,实现了系统设计合理,准确、高效、可靠的对生物信息工程师技能进行评级的技术效果。

为解决上述技术问题,本申请提供了一种生物信息工程师技能评级系统,所述系统包括:

生物信息分析类型数据库,生物信息分析类型数据库中包括:生物信息分析类型数据以及每种生物信息分析类型的难度系数数据;

生物信息期刊数据库,生物信息期刊数据库中包括:期刊的基本信息、每年各期刊的影响因子、每年各期刊的特征因子;

收集单元,所述收集单元用于收集生物信息工程师的基本信息和用户项目评价登记信息;

建立单元,所述建立单元用于将收集单元收集的信息作为训练样本,基于生物信息分析类型数据库和生物信息期刊数据库建立分类器;

评级单元,所述评级单元用于基于建立的分类器,对生物信息工程师技能进行评级。

进一步的,所述生物信息分析类型数据库的建立具体包括:

首先,分别建立DNA、RNA、环境微生物、蛋白质组学、代谢组学、基因6大类数据库,并建立小类生物信息分析类型数据库(如DNA大类下包括动植物de novo测序、微生物de novo测序、人全基因组重测序、动植物全基因组重测序、目标区域测序、全外显子组测序、ChIP-seq、简化基因组-RAD等),标记每种分析类型的分析方法、分析内容、模板信息;

然后,对于不同种类的分析类型,收集该类型相关项目作为样本,根据行业经验对样本进行评估,获得每种生物信息分析类型的难度系数;

然后,统计出每种分析类型的难度系数。

其中,通过对生物信息分析类型进行合理的划分,能够建立准确全面的生物信息分析类型数据库,进而能够准确的将生物信息工程师对应到相应的学科和领域,划分更加细致准确,对生物信息工程师的评级更加准确。

进一步的,所述生物信息期刊数据库的建立具体为:收集SCI、JCR信息,建立生物信息期刊数据库。

其中,美国《科学引文索引》(Science Citation Index,简称SCI)于1957年由美国科学信息研究所(Institute for Scientific Information,简称ISI)在美国费城创办,是由美国科学信息研究所(ISI)1961年创办出版的引文数据库,是国际公认的进行科学统计与科学评价的主要检索工具,ISI每年出版JCR(《期刊引用报告》,全称Journal Citation Reports)。JCR对包括SCI收录的3800种核心期刊(光盘版)在内的8000多种期刊(网络版)之间的引用和被引用数据进行统计、运算,并针对每种期刊定义了影响因子(Impact Factor)等指数加以报道。通过收集SCI、JCR信息,可以建立数据全面准确的生物信息期刊数据库,而利用数据全面准确的生物信息期刊数据库可以对生物信息工程师的论文期刊发表情况进行评价,进而对生物信息工程师的技能评级提供准确的参考因素。

进一步的,所述基于生物信息分析类型数据库和生物信息期刊数据库建立分类器,具体包括:

步骤1:对每位生物信息分析工程师,分别计算学历、工作年限、项目经验、发表论文信息、用户评价五个方面的得分;

步骤2:计算对应每种工程师级别下学历、工作年限、项目经验、发表论文、用户评价五个属性的频率;

步骤3:根据朴素贝叶斯分类算法,建立分类器。

其中,分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。本申请中建立分类器,可以良好的实现从生物信息分析类型数据库和生物信息期刊数据库以及生物信息工程师的基本信息和用户项目评价登记信息中实现数据挖掘。

进一步的,所述步骤1具体包括:

首先,对学历建立HASH函数并映射到数值集合A作为学历得分;

然后,对工作年限建立HASH函数并映射到数值集合B作为工作年限得分;

然后,对每个项目经验,查找生物信息分析类型数据库,得到单个项目经验的难度系数,对每个工程师所有项目的难度系数采用统计方法计算,并映射到数值集合C作为项目经验得分;

然后,对每篇发表论文,查找生物信息期刊数据库,得到每篇发表论文当年的影响因子,对每个工程师所有论文的影响因子采用统计方法计算,并映射到数值集合D作为发表论文得分;

然后,对每个项目的用户评价等级采用统计方法计算,并映射到数值集合E作为用户评价得分。

其中,通过上述方式,能够对每位生物信息分析工程师的各方面分别进行分值评价,能够便于获得准确的工程师实际能力准确对应的分数值,分别计算了学历、工作年限、项目经验、发表论文信息、用户评价五个方面的得分;全面的考虑了工程师的教育、工作、项目经验、论文信息等,因此,获得的相应整体得分能够准确的反应工程师的相应能力,作为评级的准确参考因素。

进一步的,所述系统还包括:校正单元,所述校正单元用于对评定结果进行判断,对于错误分类校正后加入到训练样本集,完善分类器。

本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:

本申请中的生物信息工程师技能评级系统中建立有生物信息分析类型数据库和生物信息期刊数据库,利用生物信息分析类型数据库可以准确的对生物信息分析类型进行类型划分,便于将生物信息工程师划分到相应的擅长的准确领域或科目,并且利用生物信息期刊数据库可以获得生物信息工程师在期刊上发布的论文信息,论文信息可以作为评价生物信息工程师技能等级的参考因素,然后,利用收集单元收集生物信息工程师的基本信息和用户项目评价登记信息,进一步的将这些信息作为生物信息工程师技能等级评价的参考因素;进一步的,利用收集的信息作为训练样本,基于生物信息分析类型数据库和生物信息期刊数据库建立分类器,基于建立的分类器,对生物信息工程师技能进行评级,由于实现的系统自动评级,相对于传统的人工评级效率较高,并且采用了多种全面的生物信息工程师数据,并结合并结合合理的运算,能够更加准确的计算出可靠的结果,使得评级结果更加准确和可靠,所以,有效解决了现有的生物信息分析工程师的技能评级方法存在效率、准确率和可靠性较差的技术问题,进而实现了系统设计合理,准确、高效、可靠的对生物信息工程师技能进行评级的技术效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;

图1是本申请中生物信息工程师技能评级系统的组成示意图。

具体实施方式

本发明提供了一种生物信息工程师技能评级系统,解决了现有的生物信息分析工程师的技能评级方法存在效率、准确率和可靠性较差的技术问题,实现了系统设计合理,准确、高效、可靠的对生物信息工程师技能进行评级的技术效果。

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一:

在实施例一中,请参考图1,提供了一种生物信息工程师技能评级系统,所述系统包括:

生物信息分析类型数据库,生物信息分析类型数据库中包括:生物信息分析类型数据以及每种生物信息分析类型的难度系数数据;

生物信息期刊数据库,生物信息期刊数据库中包括:期刊的基本信息、每年各期刊的影响因子、每年各期刊的特征因子;

收集单元,所述收集单元用于收集生物信息工程师的基本信息和用户项目评价登记信息;

建立单元,所述建立单元用于将收集单元收集的信息作为训练样本,基于生物信息分析类型数据库和生物信息期刊数据库建立分类器;

评级单元,所述评级单元用于基于建立的分类器,对生物信息工程师技能进行评级。

鉴于国内外还没有对生物信息分析工程师进行评级的计算机系统,本发明的目的是提供一种动态评级的方式,在少量人工的辅助下,对生物信息分析工程师专业技能水平进行评级。

工程师级别分为:实习、初级、中级、高级、专家、泰斗。

具体评级步骤如下:

步骤1:收集并建立生物信息分析类型数据库;

(1)分层级建立生物信息分析类型数据库,建立DNA、RNA、环境微生物、蛋白质组学、代谢组学、基因数据库6大类、200多小类的生物信息分析类型数据库,标记每种分析类型的分析方法、分析内容、模板等信息;

(2)对每一种分析类型,收集该类型的多个项目作为样本,指定不同专业人员对样本进行评估,得到每种生物信息分析类型的难度系数;

(3)对于包括多个分析类型的项目,指定不同专业人员对样本进行评估,得到每种生物信息分析类型的难度系数;

(4)通过数理统计方法统计出每种分析类型的难度系数(当前采用几何平均值作为该类型的难度系数)。

步骤2:收集近10年SCI、JCR资料,建立生物信息期刊数据库,记录每种期刊的基本信息和每年的影响因子和特征因子;

步骤3:收集多位生物信息分析工程师(实习、初级、中级、高级、专家、泰斗)的学历、工作年限、项目经验、发表论文和用户项目评价登记信息作为训练样本,通过数理统计方法建立分类器(当前采用朴素贝叶斯分类算法);

(1)对每位生物信息分析工程师计算学历、工作年限、项目经验、发表论文和用户评价五个方面的得分(离散数值);

(a)对学历建立HASH函数并映射到【1,2,3,4,5】作为学历得分;

(b)对工作年限建立HASH函数(分段函数)并映射到【1,2,3,4,5】作为工作年限得分;

(c)对每个项目经验,查找生物信息分析类型数据库,得到单个项目经验的难度系统,对所有项目的难度系数采用统计方法(当前采用移动加权平均法)计算,并映射到【1,2,3,4,5,6,7,8,9,10】作为项目经验得分;

(d)对每篇发表论文,查找生物信息期刊数据库,得到每篇发表论文当年的影响因子,对所有论文的影响因子采用统计方法(当前采用移动加权平均法)计算,并映射到【1,2,3,4,5,6,7,8,9,10】作为发表论文得分;

(e)对每个项目的用户评价等级采用统计方法(当前采用移动加权平均法)计算,并映射到【1,2,3,4,5】作为用户评价得分。

(2)计算对应每种工程师级别(实习、初级、中级、高级、专家、泰斗)下学历、工作年限、项目经验、发表论文、用户评价五个属性的频率;

(3)建立分类器(根据朴素贝叶斯分类算法)

步骤4:对每一位工程师,收集该工程师的学历、工作年限、项目经验、发表论文和用户评价等级信息,使用分类器对该工程师的专业技能水平进行评级

步骤5:人工对评定结果进行判断,对于错误分类人工矫正后加入到训练样本集,再次完善分类器;

步骤6:不断收集训练样本,训练完善分类器。

下面,举例对本申请进行介绍:首先根据事先收集的多个工程师详细信息作为样本进行训练,按照具体评级步骤中的说明建立分类器。之后对一个工程师根据其学历、工作年限、项目经验、发表论文、用户评价五个属性值,按照分类器代入后就可以鉴别工程师级别(实习、初级、中级、高级、专家、泰斗)。

上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:

本申请中的生物信息工程师技能评级系统中建立有生物信息分析类型数据库和生物信息期刊数据库,利用生物信息分析类型数据库可以准确的对生物信息分析类型进行类型划分,便于将生物信息工程师划分到相应的擅长的准确领域或科目,并且利用生物信息期刊数据库可以获得生物信息工程师在期刊上发布的论文信息,论文信息可以作为评价生物信息工程师技能等级的参考因素,然后,利用收集单元收集生物信息工程师的基本信息和用户项目评价登记信息,进一步的将这些信息作为生物信息工程师技能等级评价的参考因素;进一步的,利用收集的信息作为训练样本,基于生物信息分析类型数据库和生物信息期刊数据库建立分类器,基于建立的分类器,对生物信息工程师技能进行评级,由于实现的系统自动评级,相对于传统的人工评级效率较高,并且采用了多种全面的生物信息工程师数据,并结合并结合合理的运算,能够更加准确的计算出可靠的结果,使得评级结果更加准确和可靠,所以,有效解决了现有的生物信息分析工程师的技能评级方法存在效率、准确率和可靠性较差的技术问题,进而实现了系统设计合理,准确、高效、可靠的对生物信息工程师技能进行评级的技术效果。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1