本发明属于学术大数据领域,尤其涉及一种基于学术大数据的学者影响力评估方法。
背景技术:
科学研究为人类社会的发展和进步做出了巨大贡献,尤其是杰出科学家的输出,也正是因为有杰出的科学家,新的科学理论不断产生,推动着社会的发展进步。随着时代的发展,越来越多的研究者加入并活跃在相应领域中,并踊跃发表科研成果,近几年,文献数量更是呈指数级增长。但是学者的输出能力却良莠不齐,因此在复杂的学术网络环境中,寻找杰出的学者以及对学者影响力进行评估就显得尤为重要。本文以计算机科学这一领域的学者作为代表进行深入研究,从发表的论文入手,将对学者影响力进行评估。对于科研工作者来说,学术论文的产量和质量是反映学者影响力的标准,但是对标准如何量化与评估,便是要关注的问题。
技术实现要素:
本发明的目的主要针对上述目前存在的而一些问题,提供了一种基于学术大数据的学者影响力评估方法,有效地对学者影响力进行评估。
本发明的技术方案:
(1)建立包含学者、论文、期刊三种类型的节点的异构网络;
(2)根据结构洞理论,使用桥、介数中心性、信息熵、会议比等指标,提出用来评估节点重要性的B2算法,并计算评估指标B2的值;
(3)调整(2)中指标的权重系数,对B2算法进行改进;
(4)在无向异构网络下对PageRank算法进行改进,提出HnRank算法,并计算评估指标HnRank的值;
(5)使用最小-最大规范化方法,对B2值和HnRank值进行归一化处理;
(6)结合B2算法和HnRank算法,形成SWRank算法,并计算评估指标SWRank的值;
(7)使用了皮尔逊相关系数、学者排名重合比例、学者平均被引用次数三种方法,将本发明提出的SWRank方法和现有的评估方法PageRank、h指数进行比较。
进一步地,所述的异构网络,包括学者-学者合作网络、论文-论文引用网络两种同构网络和学者-论文从属网络、论文-期刊从属网络两种异构网络;
所述的桥指标是指,两个节点仅仅通过唯一的间接联系连在一起,则该间接关系所对应的边即为桥。
所述的介数中心性指标是指经过某节点最短路径的数。
所述的信息熵的计算依据包括学者的合作者所发表论文的关键字集合,和学者的合作者所在机构集合。
所述的会议比是指某学者发表的会议文章占总论文的比例。
所述用来评估节点重要性的B2算法包括BrigeRank算法和BetweenesRank算法;
所述的BrigeRank算法是桥的数量为指标的结构洞理论下节点重要性评估,这个形式输入Bridge值、会议论文比、信息熵,输出BridgeRank值;
所述BetweenesRank是介数中心性为指标的结构洞理论下节点重要性评估,这个形式输入Betweeness值、会议论文比、信息熵,输出BetweenesRank值;
所述的HnRank算法,加入了学者间,学者与论文,学者与期刊,论文间的关系,通过迭代和加和两个过程计算出某学者的HnRank的值。
所述的SWRank算法实现了强联系和弱联系理论的结合。
本发明的有益效果:本发明能够结合弱联系和强联系,在异构网络下对学者的影响力进行评估,打破了传统单一关系的评估,具有很强的创新性,和一定的可行性与可靠性。
附图说明
图1为社会网络中结构洞的示例图。
图2为介数中心性评价节点重要性示例图。
具体实施方式
下面结合具体实施例对本发明所述技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
一种基于学术大数据的学者影响力评估方法,步骤如下:
(1)建立无向异构网络
根据数据集中的节点以及节点间的关系,建立包含学者、论文和期刊三种类型节点的无向异构网络;
(2)根据结构洞理论提出用来评估节点重要性的B2算法,并计算评估指标B2值
结构洞的示意图如图1所示,其中,中心的黑点即为处于结构洞位置的节点。
B2算法包括BridgeRank算法和BetweenRank算法,分别如下:
1)桥的数量为指标的结构洞理论下节点重要性评估,也称作BridgeRank算法。这个形式输入Bridge值、会议论文比、信息熵,输出BridgeRank值;
2)介数中心性为指标的结构洞理论下节点重要性评估,也称作BetweenesRank算法。这个形式输入Betweeness值、会议比和信息熵,输出BetweenesRank值。图2为介数中心性评价节点重要性示例图,H点的介数较大,说明其影响力较大。
B2值的计算公式如下:
其中,B2i为学者i的评估指标B2值,n为表示学者总数,b为桥的数量/介数中心性,c为会议论文占总论文比例,e为以关键字和机构加和计算的信息熵,α、β、χ三个参数分别为b、c、e的权重。
(3)对B2算法进行改进:
根据B2值、PageRank值以及h指数对学者的影响力进行排名,分别计算其排名结果与学者引用量之间的相关系数,并比较大小;不断调整α,β和χ,确定通过B2算法所得的相关系数最大时,确定α,β和χ;
(4)在无向异构网络下对PageRank算法进行改进,提出了HnRank算法,并计算评估指标HnRank的值:
本方法加入了学者间、学者与论文、论文与期刊、论文间的关系。
第一步进行了6轮计算,根据PageRank的计算公式得到收敛的论文、学者、期刊的PageRank值:
(a)论文-论文:初始化论文PageRank值为1/n,n为论文数,根据论文的引用关系,得到收敛的每篇论文的PageRank值P1。
(b)学者-学者:初始化学者PageRank值为1/m,m为学者数,根据学者间的合作关系,得到收敛的每个学者的PageRank值A1。
(c)论文-学者:初始化论文和学者PageRank值分别为P1和A1,根据学者与论文之间的关系,得到收敛的论文和学者PageRank值P2和A2。
(d)论文-期刊/会议:初始化论文PageRank值为P2,初始化期刊PageRank值为1/k,k为期刊和会议总数,根据论文与期刊/会议的对应关系,得到收敛的论文和期刊/会议PageRank值P3和V。
(e)论文-论文:返回第一步,初始化论文PageRank值为P3,得到新的收敛的PageRank值P。
(f)学者-学者:返回第二步,初始化学者PageRank值为A2,得到新的收敛的学者PageRank值A。
第二步是使用第一步得到的值和下述公式,计算各个学者的HnRank值
其中,Ai表示学者i的PageRank值,ki表示学者i的论文总数,Pij表示学者i的第j篇论文的PageRank值,Vj表示学者i的第j篇论文所属期刊的PageRank值。
(5)对B2值和HnRank值进行归一化处理:
对B2值和HnRank值进行归一化处理,保证B2值和HnRank值在一个数量级,使用最小-最大规范化,对原始数据进行线性变换,且都处在0-1之间,保持原始数据间的联系,如果今后有数值在原始数据域之外,便做越界处理。
(6)结合B2算法和HnRank算法,形成SWRank算法,并计算评估指标SWRank的值:
学者i的SWRank值的计算公式如下:
其中,n表示学者总数,B2i表示学者i的B2值,HRi表示学者i的HnRank值,参数α和β分别为B2和HR的权重。
根据SWRank值、PageRank值以及h指数对学者的影响力进行排名,分别计算其排名结果与学者引用量之间的相关系数,并比较大小;不断调整参数α,β的大小,确定通过SWRank算法所得的相关系数最大时,确定α和β。
(7)使用皮尔逊相关系数、学者排名重合比例和学者平均被引用次数三种方法,将本方法提出的SWRank方法和现有的评估方法PageRank、h指数进行比较。皮尔逊相关系数、学者排名重合比例和学者平均被引用次数的值越大,说明评估方法的准确性越高。通过对比发现,由本发明提出的SWRank算法计算得到的皮尔逊相关系数、学者排名重合比例和学者平均被引用次数三个值明显大于通过PageRank值和h指数计算得到的值。