基于集成学习的辅助专家决策方法、装置、设备和介质与流程

文档序号：33709614发布日期：2023-03-31 23:08阅读：38来源：国知局

1.本技术涉及人工智能技术领域，特别是涉及一种基于集成学习的辅助专家决策方法、装置、设备和介质。

背景技术：

2.现阶段针对科研绩效，更多的指标是构建和实现管理职能，功能较为初级，并不能够实现辅助专家决策的功能，随着机器学习的广泛应用，利用机器学习的算法量化专家在科研绩效评估方面的经验，可通过模型快速产出科研绩效的评估结果，辅助专家进行这类硬性指标的判断，为之后的人才引进、人才评选决策提供参考，从而节省整个决策时间和成本，提升决策效率。

技术实现要素：

3.鉴于以上所述现有技术的缺点，本技术的目的在于提供一种基于集成学习的辅助专家决策方法、装置、设备和介质，以解决现有技术中存在的至少一个问题。
4.为实现上述目的及其他相关目的，本技术提供一种基于集成学习的辅助专家决策方法，所述方法包括：对输入数据指标进行预处理以形成初始决策结果；利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果；通过对数据指标的统计分析确定数据缩放的规则，以对所述初始决策结果进行微调，并同所述模型决策结果形成结果候选集；根据输入的总体样本数据的平均水平于各专家对应的候选集中选择最终决策结果。
5.于本技术的一实施例中，所述对输入数据指标进行预处理的方法包括以下任意一种或多种：将多项维度的数据指标累计得出初始传统科研绩效；依据年龄转化公式将年龄转化为年龄得分；对满足预设条件的人才直接给予最终决策结果。
6.于本技术的一实施例中，所述年龄转化公式为：其中，age为年龄。
7.于本技术的一实施例中，所述数据指标包括：h指数得分、1％高被引文章数得分、专利数得分及国内项目总金额得分中任意一或多个。
8.于本技术的一实施例中，所述利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果，包括：基于bagging思想的随机森、基于boostin思想的xgboost和gbdt构建三个集成学习模型；利用网格搜索的方式，以均方误差为模型的评价指标并进行参数调优，以优选三个集成学习模型的拟合效果；保存调参后的三个集成学习模型，输入需要预测科研绩效的维度特征，同时保留三个集成学习模型的模型决策结果。
9.于本技术的一实施例中，所述通过对过往数据指标的统计分析确定数据缩放的规
则，包括：其中，n为初始决策结果；x为所有初始决策结果；a为初始决策结果区间上下限的差值；b为初始决策结果区间下限。
10.于本技术的一实施例中，所述根据输入总体样本数据的平均水平确定最终辅助专家决策的结果的方法包括一下任意一种或多种组合：1)当一专家具有占比不小于第一预设比例的特征都高于组内平均水平，则判断该专家在组内排名靠前，取候选集中最优值作为最终结果；2)当一专家具有占比不小于第二预设比例的特征都低于组内平均水平，则判断该专家在组内排名靠后，取候选集中的最劣值作为最终结果；3)当一专家的特征情况不属于上述情况时，则判断该专家在组内排名居中，取候选集的平均水平作为最终结果。
11.为实现上述目的及其他相关目的，本技术提供一种基于集成学习的辅助专家决策装置，所述装置包括：预处理模块，用于对输入数据指标进行预处理以形成初始决策结果；处理模块，用于利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果；通过对数据指标的统计分析确定数据缩放的规则，以对所述初始决策结果进行微调，并同所述模型决策结果形成结果候选集；根据输入的总体样本数据的平均水平于各专家对应的候选集中选择最终决策结果。
12.为实现上述目的及其他相关目的，本技术提供一种计算机设备，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如上所述的方法。
13.为实现上述目的及其他相关目的，本技术提供一种计算机可读存储介质，存储有计算机指令，所述计算机指令被运行时执行如上所述的方法。
14.综上所述，本技术提供的一种基于集成学习的辅助专家决策方法、装置、设备和介质，通过对输入数据指标进行预处理以形成初始决策结果；利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果；通过对数据指标的统计分析确定数据缩放的规则，以对所述初始决策结果进行微调，并同所述模型决策结果形成结果候选集；根据输入的总体样本数据的平均水平于各专家对应的候选集中选择最终决策结果。
15.具有以下有益效果：
16.本技术在使用集成学习模型进行训练的基础上，利用数据缩放的方法，使得结果分布更符合实际情况，改善了模型输出结果分布过分集中的情况，从而更可靠地辅助专家决策。本方法易于实现，成本较低，一方面避免专家出现决策前后相矛盾的情况，另一方面借助集成学习能够有效提升专家决策效率。
附图说明
17.图1显示为本技术于一实施例中基于集成学习的辅助专家决策方法的流程示意图。
18.图2显示为本技术于一实施例中基于集成学习的辅助专家决策系统的模块示意图。
19.图3显示为本技术于一实施例中计算机设备的结构示意图。
具体实施方式
20.以下通过特定的具体实例说明本技术的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本技术的其他优点与功效。本技术还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本技术的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
21.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本技术的基本构想，虽然图示中仅显示与本技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，但其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
22.在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
23.如图1所示，展示为本技术于一实施例中的基于集成学习的辅助专家决策方法的流程示意图。如图所示，所述方法包括：
24.步骤s101：对输入数据指标进行预处理，包括年龄的转化计算，以形成初始决策结果。
25.于本技术一或多个实施例中，所述对输入数据指标进行预处理的方法包括以下任意一种或多种：
26.a、将多项维度的数据指标累计得出初始决策结果。
27.其中，所述数据指标包括但不限于：h指数得分、1％高被引文章数得分、专利数得分及国内项目总金额得分中任意一或多个。例如，将h指数得分、1％高被引文章数得分、专利数得分、国内项目总金额得分等12项维度指标累计得出初始传统科研绩效。
28.所述h指数可用于评估研究人员的学术产出数量与学术产出水平。简单来讲，如果h得分为5表示作者至少有5篇论文，且每篇论文至少被五次引文引用；如果h分数为10意味着他有10篇论文，且每篇论文至少被引用10次。
29.b、依据年龄转化公式将年龄转化为年龄得分。
30.所述年龄转化公式为：
[0031][0032]
其中，age为年龄。
[0033]
例如，将年龄数据进行如上公式的转化，随着年龄的增大，其得分降低，但是降低的幅度越来越小。
[0034]
c、对满足预设条件的专家直接给予过最终决策结果。
[0035]
例如，有顶刊发文、参与项目总金额超过一定数额、工作经历符合条件，直接给予
过线或选择的最终决策结果。
[0036]
步骤s102：利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果。
[0037]
所述利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果，包括：
[0038]
a、基于bagging思想的随机森、基于boostin思想的xgboost和gbdt构建三个集成学习模型；优选地，以8：2的比例划分训练集和测试集。
[0039]
集成学习算法本身不算一种单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。可以说是集百家之所长，能在机器学习算法中拥有较高的准确率，不足之处就是模型的训练过程可能比较复杂，效率不是很高。
[0040]
b、利用网格搜索的方式，以均方误差为模型的评价指标并进行参数调优，以优选三个集成学习模型的拟合效果。
[0041]
其中，网格搜索法是指定参数值的一种穷举搜索方法，通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。简单来说，可以手动的给出一个模型，其中有想要改动的所用的参数，程序使用穷举法来将所用的参数都运行一遍。决策树中常常将最大树深作为需要调节的参数。
[0042]
然后以均方误差为模型的评价指标并进行参数调优。均方差即标准差，是方差的平方根。其能够较好的体现组内各参数调整的离散程度。本步骤通过训练，对三个集成学习模型参数调优，从而使得三个集成学习模型的拟合效果达到最佳。
[0043]
c、保存调参后的三个集成学习模型，输入需要预测科研绩效的维度特征，同时保留三个集成学习模型的模型决策结果。
[0044]
简单来说，对调参后的三个集成学习模型，输入需要预测科研绩效的维度特征进行测试，可得到三个集成学习模型的模型决策结果。
[0045]
步骤s103：通过对过往数据指标的统计分析确定数据缩放的规则，以对所述初始决策结果进行微调，并同所述模型决策结果形成结果候选集；
[0046]
其中，所述通过对过往数据指标的统计分析确定数据缩放的规则，包括：
[0047][0048]
其中，n为初始决策结果；x为所有初始决策结果；a为初始决策结果区间上下限的差值；b为初始决策结果区间下限。
[0049]
举例来说，通过对近几年的专家决策结果的统计分析，可以发现无论是何种专业领域，专家的决策结果大多集中于[65,90]的水平区间，为了将普遍偏低的传统的决策结果分布更加靠近真实的专家决策结果，利用如下数据缩放公式，将各个专业领域的传统决策结果置于[65,90]，同3个模型决策结果构成结果候选集。
[0050][0051]
其中，25为区间上下限的差值，65为区间下限。
[0052]
步骤s104：根据输入总体样本数据的平均水平确定最终辅助专家决策的结果。
[0053]
于一些示例中，由于集成学习所获得科研绩效比较集中，并不符合专家决策结果
的规律，所以根据各专业领域的平均水平进行最终决策结果的选择。
[0054]
举例来说，在共计13项维度中：
[0055]
1)当一专家有9项特征都高于组内平均水平，则判断该专家在组内排名靠前，取候选集中最优值作为最终结果；
[0056]
2)当一专家有11项特征都低于组内平均水平，则判断该专家在组内排名靠后，取候选集中的最劣值作为最终结果；
[0057]
3)当一专家的特征情况不属于1)和2)的情况时，则判断该专家在组内排名居中，取候选集的平均水平作为最终结果。
[0058]
需要说明的是，本技术对候选集的融合或处理的策略，并非选择常用的平均法。通常对于数值类的回归预测问题，常使用的结合策略是平均法，也就是说，对于若干和弱学习器的输出进行平均得到最终的预测输出。最简单的平均是算术平均，也就是说最终预测会考虑学习机器的权重。而本技术为了避免集成学习所获得科研绩效比较集中，以符合专家决策结果的规律，通过与总体样本数据的平均水平相比，来初步判定各专家在组内的排名，然后做出不同的选择，而且选择也并非一味的选择最优或最劣值，而是基于排名分散的选择，即排名靠前的选最优，排名居中的选平均，排名靠后的选最劣。这样的处理方式相比与现有的平均法更加合理，符合专家决策结果的规律。
[0059]
综上所述，本技术提供了一种基于集成学习的辅助专家决策方法，其优点在于：在使用集成学习模型进行训练的基础上，利用数据缩放的方法，使得结果分布更符合实际情况，改善了模型输出结果分布过分集中的情况，从而更可靠地辅助专家决策。本方法易于实现，成本较低，一方面避免专家出现决策前后相矛盾的情况，另一方面借助集成学习能够有效提升专家决策效率。
[0060]
如图2所示，展示为本技术于一实施例中的基于集成学习的辅助专家决策装置的模块示意图。如图所示，所述装置200包括：
[0061]
预处理模块201，用于对输入数据指标进行预处理以形成初始决策结果；
[0062]
处理模块202，用于利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果；通过对数据指标的统计分析确定数据缩放的规则，以对所述初始决策结果进行微调，并同所述模型决策结果形成结果候选集；根据输入的总体样本数据的平均水平于各专家对应的候选集中选择最终决策结果。
[0063]
需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本技术所述方法实施例基于同一构思，其带来的技术效果与本技术方法实施例相同，具体内容可参见本技术前述所示的方法实施例中的叙述，此处不再赘述。
[0064]
还需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，各模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述装置的某一个处理元件调用并执行以上各模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程
中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0065]
例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，简称asic)，或，一个或多个微处理器(digital signal processor，简称dsp)，或，一个或者多个现场可编程门阵列(field programmable gate array，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。
[0066]
如图3所示，展示为本技术于一实施例中的计算机设备的结构示意图。如图所示，所述计算机设备300包括：存储器301、及处理器302；所述存储器301用于存储计算机指令；所述处理器302运行计算机指令实现如图1所述的方法。
[0067]
在一些实施例中，所述计算机设备300中的所述存储器301的数量均可以是一或多个，所述处理器302的数量均可以是一或多个，而图3中均以一个为例。
[0068]
于本技术一实施例中，所述计算机设备300中的处理器302会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器301中，并由处理器302来运行存储在存储器301中的应用程序，从而实现如图1所述的方法。
[0069]
所述存储器301可以包括随机存取存储器(randomaccessmemory，简称ram)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。所述存储器301存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。
[0070]
所述处理器302可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0071]
在一些具体的应用中，所述计算机设备300的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图3中将各种总线都成为总线系统。
[0072]
于本技术的一实施例中，本技术提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所述的方法。
[0073]
在任何可能的技术细节结合层面，本技术可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本技术的各个方面的计算机可读程序指令。
[0074]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器
(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0075]
这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0076]
用于执行本技术操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等，以及过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本技术的各个方面。
[0077]
综上所述，本技术提供的一种基于集成学习的辅助专家决策方法、装置、设备和介质，通过对输入数据指标进行预处理以形成初始决策结果；利用三种集成学习模型，通过输入的各维度特征和初始决策结果进行训练，形成模型决策结果；通过对数据指标的统计分析确定数据缩放的规则，以对所述初始决策结果进行微调，并同所述模型决策结果形成结果候选集；根据输入的总体样本数据的平均水平于各专家对应的候选集中选择最终决策结果。
[0078]
本技术有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0079]
上述实施例仅例示性说明本技术的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本技术的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本技术的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何军樊宇航王茜
技术所有人：上海市研发公共服务平台管理中心
我是此专利的发明人

上一篇：一种热压机的制作方法
上一篇：一种动态视觉传感器的色彩识别方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。