一种基于学术大数据的论文影响力预测方法与流程

文档序号:15853627发布日期:2018-11-07 10:34阅读:371来源:国知局
一种基于学术大数据的论文影响力预测方法与流程

本发明涉及学术领域中基于学术大数据对论文影响力进行预测的方法,尤其涉及一种基于点估计模型的论文影响力预测方法。

背景技术

科研领域的快速发展使得论文的数量以指数级别增加,对科研资金资助对象、高校招募新成员而言,论文潜在的影响力比量化论文过去的影响力更有指导意义。因此一种有效的论文影响力预测方法对学习和科研都有重要的帮助。但是至今为止所提出的如基于随机森林算法预测、基于贝叶斯算法预测都存在一些已知的问题,不能满足对预测准确度的要求,准确度更高的预测方法有待科研人员进一步去探索。



技术实现要素:

本发明的目的主要针对现有研究的一些不足之处,提出基于学术大数据的论文影响力预测方法,该方法利用点估计的预测模型预测论文影响力,其关键点在于根据论文引用量内在演化机制进行建模。给定一批学术数据,基于点估计的论文影响力预测模型的目的是在已有模型的基础上,通过分析驱动论文引用量演化的因素,扩展已有模型使之能够有效地预测论文未来的引用量。基于点估计的论文影响力预测模型需要满足以下三个性质:衰减性、增量性以及保持性。该方法利用论文之间的引用关系,提出了扩展的hawkes过程对论文影响力进行预测,并给出了相应的实现方法,具有很强的前瞻性,为论文影响力的预测提供一种新方法。

本发明的技术方案:

一种基于学术大数据的论文影响力预测方法,步骤如下:

(1)依据论文固有的潜力、论文影响力随时间的衰减、早期引用者影响力的特征以及早期引用量进行建模

1.1)分析论文固有的潜力:每篇论文都有它潜在的影响力,而决定论文固有的潜力的关键因素就是作者影响力;一篇论文固有的潜力通过作者影响力q值来刻画;当作者的q值高于1时,对论文影响力具有提升作用;当作者的q值低于1时,其能够降低论文的影响力,

1.2)论文影响力随时间的衰减:新颖的想法会被后续的研究借鉴,每篇论文的新颖度最终会褪色;

1.3)早期引用作者的影响力:先前的研究者在建模引用动态模型时忽略了引用作者的影响力。我们在论文影响力预测模型中考虑了早期引用作者的影响力。早期引用作者的影响力对论文的引用量起到正面作用。

1.4)早期引用量。论文在早期的引用量越多,论文在之后便可能获得更多的引用量。

1.5)基于上述与论文影响力变化相关的特征进行点估计建模,一篇学术论文的潜在被引用的强度定义如下:

其中,β是论文质量系数;qdmax表示一篇论文署名作者中,论文影响力最大的作者的影响力;是时间衰减函数,表示随着时间的推移,论文的影响力是逐渐衰减的;αd表示一篇论文引用影响的系数;j表示一篇论文;dj表示随着时间的变化,早期引用作者的影响力;表示目前引用量衰减的值;

q值公式如下:

其中,qi表示作者i的q值,<logcik>表示作者i所发表的所有论文的引用量的对数平均值;κ表示作者i的第κ篇论文;μp表示作者i所有论文潜在影响的平均值;

早期引用作者的影响力dj公式如下:

此公式表示早期引用作者的影响力对论文影响力变化起到积极作用;其中,qj表示引用作者的影响力,qjmax表示引用作者中影响力最大的作者的影响力;

(2)根据步骤(1)中的模型进行参数求解

2.1)为了获得模型中所有参数的最优值,我们采用极大似然估计的方法,即最大化在第i-1次引用于时间点ti-1到达的条件下,第i次引用于时间点ti到达的概率;该条件概率的表达式为:

之后,我们使用极大似然估计法,在每篇论文的引用序列上计算似然函数,并对似然函数取对数,记为:

其中,n为某篇论文的引用量,ti表示第i次引用发生的时间;通过计算其对偶方程的极小值来得到对数似然函数的极大值;t表示引用时间;将公式p(ti|ti-1)带入上式中,同时添加一个稀疏化正则项||β||1,在整个数据集上,得到如下目标函数:

其中,n是数据集中论文的总数,sd表示一篇论文对应的特征;

2.2)添加l1正则项使得目标函数不可微,因此使用交换方向乘子算法(alternatingdirectionmethodofmultipliers,admm)将原优化问题分解为几个较为简单的子问题,通过引入辅助变量z,下列公式中的优化问题由如下的约束优化形式表述:

minl+λ||z||1s.t.β=z.

其对应的增广拉格朗日方程为:

其中,l表示目标函数,u是对偶变量或称为拉格朗日乘子;ρ是惩罚系数,通常用作更新对偶变量的迭代步长;使用admm算法解决上述增广拉格朗日优化问题的步骤如下:

该算法与对偶上升算法十分相似:它包括三个过程,一个参数最小化过程:

l+1,αl+1)=argminβ≥0,α≥0lρ(βl,αl,zl,ul)

一个辅助参数最小化过程:

zl+1=sλ/ρ(βl+1l+1)

以及一个对偶参数更新过程:

ul+1=ull-zl+1

其中,sλ/ρ是软临界值函数;

2.3)使用em算法解出参数α和β;为了高效的解决参数最小化过程中的优化问题,我们使用em框架来更新参数α和β;记特征a激发事件b的概率为pab,事件b激发事件c的概率为pbc,则em算法中的e步如下:

m步如下:

其中,通过迭代执行e步和m步直至收敛,我们可以得到参数α和β的最优值。之后,将α和β的新值带回到admm算法中更新u和z的值。在这一步中,我们将每篇论文的参数w1和w2均置为1;

step4:得到参数α和β的最优值后,再通过梯度下降法求解每一篇论文的参数w1和w2。其中,目标函数关于w1和w2的梯度如下:

当得到所有参数α、β、w1、w2的最优值后,我们对强度函数λ(t)在给定的一个时间段上作积分来估计某篇论文未来一段时间后的引用量。

本发明的有益效果:本发明主要拓展了hawkes过程进行模型,该模型较不考虑早期作者影响力的点估计模型有更高的准确度。基于拓展的hawkes过程的论文影响力预测模型,考虑早期引用者影响力的论文影响力预测模型预测准确度高于不考虑早期引用者影响力模型该模型能够更好的利用影响力论文影响力的内在驱动因素,使得模型具有更好的预测力,该模型的目的就是利用驱动论文影响力潜在变化的因素,提高预测模型的准确性。本发明提供了论文影响力预测的一种新方法,为论文影响力预测工作提供了一种新的解决方案。

附图说明

图1为本发明的发表论文的早期引用量,论文在早期引用量越多,论文在之后可能获得更多的引用量。

图1(a)是1980~1984年的引用量;图1(b)是1985~1989年的引用量;图1(c)是1990~1994年的引用量;图1(d)是19895~1999年的引用量;图1(e)是2000~2004年的引用量;图1(f)是2005~2009年的引用量。

图2为本发明在考虑早期作者影响力的点估计模型的预测结果。

图3为本发明在不考虑早期作者影响力的点估计模型的预测结果。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。

本发明实例提供了一种基于学术大数据的论文影响力预测方法,该方法包括:

步骤1:根据论文引用量内在演化机制进行建模。

1.1)分析早期引用者影响力与论文影响力的关系。选择美国物理协会aps数据集中所发表的全部论文,并从中筛选出1978-198年的数据,共计183,336篇论文。在本章实验中,为了准确地预测论文的引用量,我们去掉了引用次数在前5年少于5的论文,保留了51,922篇论文,共计64,675个作者。此数据集可以通过htttp://publish.aps.org/datasets网站来获得。本章用前5年的引用量作为训练集,预测论文在其后10年的引用量。

由于先前的研究者在建模引用动态模型时忽略了引用作者的影响力。我们在论文影响力预测模型中考虑了早期引用作者的影响力。早期引用作者的影响力对论文的引用量起到正面作用。

1.2)分析论文影响力随时间衰变规律。新颖的想法会被后续的研究借鉴,每篇论文的新颖度最终会褪色。图3显示随着时间的变化,不同论文引用量的变化趋势。横轴表示论文发表的起始年份,纵轴表示论文的引用量。论文引用量的颜色表示论文发表的年份。

1.3)分析近期论文引用量和未来引用量关系论文在早期的引用量越多,论文在之后便可能获得更多的引用量。

1.4)根据上述驱动论文影响力变化的因素进行建模。

一篇学术论文的潜在被引用的强度定义如下:

其中,参数β是论文质量的系数。qdmax表示一篇论文署名作者中,论文影响力最大的作者的影响力。是时间衰减函数,表示随着时间的推移,论文的影响力是逐渐衰减的。αd表示一篇论文引用影响的系数。dj表示随着时间的变化,早期引用作者的影响力。表示目前引用量衰减的值。

步骤2:对预测模型中四个参数α、β、w1、w2进行求解。

step1:在数据集中的所有样本上写出参数的似然函数:

为了获得模型中所有参数的最优值,我们采用极大似然估计的方法,即最大化在第i-1次引用于时间点ti_1到达的条件下,第i次引用于时间点ti到达的概率。该条件概率的表达式为:

之后,我们使用极大似然估计法,在每篇论文的引用序列上计算似然函数,并对似然函数取对数,记为:

其中,n为某篇论文的引用量,ti表示第i次引用发生的时间。通过计算其对偶方程的极小值来得到对数似然函数的极大值。t表示引用时间。将公式(3.6)带入上式中,同时添加一个稀疏化正则项||β||1,在整个数据集上,我们得到如下目标函数,

其中n是数据集中论文的总数,sd表示一篇论文对应的特征。

step2:添加l1正则项使得目标函数不可微,因此我们使用交换方向乘子算法(alternatingdirectionmethodofmultipliers,admm)将原优化问题分解为几个较为简单的子问题。通过引入辅助变量z,下列公式中的优化问题可以由如下的约束优化形式表述:

minl+λ||z||1s.t.β=z.

其对应的增广拉格朗日方程为:

其中,l表示目标函数,u是对偶变量或称为拉格朗日乘子;ρ是惩罚系数,通常用作更新对偶变量的迭代步长。使用admm算法解决上述增广拉格朗日优化问题的步骤如下:

该算法与对偶上升算法十分相似:它包括三个过程,一个参数最小化过程:

l+1,αl+1)=argminβ≥0,α≥0lρ(βl,αl,zl,ul)

一个辅助参数最小化过程:

zl+1=sλ/ρ(βl+1l+1)

以及一个对偶参数更新过程:

ul+1=ull-zl+1

其中,sλ/ρ是软临界值函数。

step3:使用em算法解出参数α和β。为了高效的解决参数最小化过程中的优化问题,我们使用em框架来更新参数α和β。记特征a激发事件b的概率为pab,事件b激发事件c的概率为pbc,则em算法中的e步如下:

m步如下:

其中,

通过迭代执行e步和m步直至收敛,我们可以得到参数α和β的最优值。之后,将α和β的新值带回到admm算法中更新u和z的值。在这一步中,我们将每篇论文的参数w1和w2均置为1;

step4:得到参数α和β的最优值后,再通过梯度下降法求解每一篇论文的参数w1和w2。其中,目标函数关于w1和w2的梯度如下:

当得到所有参数α、β、w1、w2的最优值后,我们对强度函数λ(t)在给定的一个时间段上作积分来估计某篇论文未来一段时间后的引用量。

本发明中提出的方法能较好的区别引用的重要度,更能突出引用网络中边密度大的区域对论文排名的影响,自然排除了一些恶意增加引用量的情况,理论上具有更好的可信度。同时使用量子化方法,使该方法存在很强的并行计算潜力,有很强的前瞻性。

本发明中提出的方法能更好地利用驱动论文影响力内部因素,依据论文固有的潜力、论文影响力随时间的衰减、早期引用者影响力的特征以及早期引用量等因素提高预测论文影响力的准确度。

以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1