本发明涉及行业海量论文数据库的数据挖掘技术,具体涉及一种面向论文库的作者数据挖掘方法及系统。
背景技术:
对于行业海量论文数据库而言,获取对某一个研究目标有深入研究的专家学者,对于该行业的技术发展与推广具有重要意义。例如在生物医学领,如果快速获取对目标兴趣(如某个基因或某类疾病)有深入研究的专家学者,对该领域科学研究和医疗诊断都具有重要的意义。对于行业海量论文数据库而言,在挖掘作者的相关信息时,需要充分考虑各方面的因素,因此如何提高作者数据挖掘的准确度,则仍然是一项亟待解决的关键技术问题。
技术实现要素:
本发明要解决的技术问题是:针对现有技术的上述问题,提供一种面向论文库的作者数据挖掘方法及系统。本发明能够实现面向各类行业或者兴趣论文库提取其中的权威研究者,具有数据挖掘准确度高、数据挖掘通用性好、灵活度高的优点。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种面向论文库的作者数据挖掘方法,实施步骤包括:
1)确定目标论文库中的作者集合以及每一个作者的论文集合;
2)针对作者集合中每一个作者的论文集合下的每一篇论文,获取论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子;
3)针对作者集合中每一个作者,根据其论文集合下的每一篇论文的论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子四项特征值计算作者的研究深入度;
4)根据研究深入度对作者集合中的作者进行降序排序,然后将指定数量个作者及其对应的研究深入度作为挖掘结果输出。
可选地,步骤2)中论文所在期刊的影响因子的计算函数表达式如式(1)所示;
式(1)中,ifp表示论文p所在期刊的影响因子,α为期刊贡献率,fp为论文p所在期刊的影响因子。
可选地,步骤2)中论文所在期刊的影响因子的计算函数表达式中,如果论文所在期刊没有影响因子值,则论文所在期刊的影响因子fp的取值为0.05。
可选地,步骤2)中论文被其他论文引用的影响因子的计算函数表达式如式(2)所示;
式(2)中,cfp表示论文p被其他论文引用的影响因子,cp表示论文p被其他论文引用的次数。
可选地,步骤2)中该作者对论文的贡献度的计算函数表达式如式(3)所示;
式(3)中,confp(a)表示作者a对论文p的贡献度,a为作者。
可选地,步骤2)中论文的时间衰减因子的计算函数表达式如式(4)所示;
式(4)中,γcp为论文p的时间衰减因子,tc表示当前年份,tp表示论文p发表的年份,γ为论文每年影响度衰减因子,满足0≤γ≤1。
可选地,步骤3)中作者的研究深入度的计算函数表达式如式(5)所示;
式(4)中,q_s(a)表示作者a的研究深入度,p表示作者a的论文集合pa中的某一篇论文,ifp表示论文p所在期刊的影响因子,cfp表示论文p被其他论文引用的影响因子,confp(a)表示作者a对论文p的贡献度,γcp为论文p的时间衰减因子。
本发明还提供一种面向论文库的作者数据挖掘系统,包括:
论文收集程序单元,用于确定目标论文库中的作者集合以及每一个作者的论文集合;
论文特征提取程序单元,用于针对作者集合中每一个作者的论文集合下的每一篇论文,获取论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子;
研究深入度计算程序单元,用于针对作者集合中每一个作者,根据其论文集合下的每一篇论文的论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子四项特征值计算作者的研究深入度;
排序及输出程序单元,用于根据研究深入度对作者集合中的作者进行降序排序,然后将指定数量个作者及其对应的研究深入度作为挖掘结果输出。
本发明还提供一种面向论文库的作者数据挖掘系统,包括计算机设备,所述计算机设备被编程以执行本发明前述面向论文库的作者数据挖掘方法的步骤;或者所述计算机设备的存储介质中存储有被编程以执行本发明前述面向论文库的作者数据挖掘方法的计算机程序。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有被编程以执行本发明前述面向论文库的作者数据挖掘方法的计算机程序。
和现有技术相比,本发明具有下述优点:
1、本发明在确定目标论文库中的作者集合以及每一个作者的论文集合后,通过针对作者集合中每一个作者的论文集合下的每一篇论文,获取论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子,针对作者集合中每一个作者,根据其论文集合下的每一篇论文的四项特征值计算作者的研究深入度,从而能够实现面向各类行业或者兴趣论文库提取其中的权威研究者,在挖掘作者的相关信息时,需要充分考虑各方面的因素,如作者在目标兴趣发表的论文数目,杂志的影响因子,论文的引用率,作者对于所发表论文的贡献度,发表论文的时间等,具有检测准确度高的优点。
2、本发明在确定目标论文库中的作者集合以及每一个作者的论文集合后,通过针对作者集合中每一个作者的论文集合下的每一篇论文进行挖掘,目标论文库可以根据需要进行灵活选择或者根据条件进行筛选,具有数据挖掘通用性好、灵活度高的优点。
附图说明
图1为本发明实施例方法的基本流程示意图。
具体实施方式
下文将以生物医学领快速获取对目标兴趣(如某个基因或某类疾病)有深入研究的专家学者为例,对本发明面向论文库的作者数据挖掘方法及系统进行进一步的详细说明。
如图1所示,本实施例面向论文库的作者数据挖掘方法的实施步骤包括:
1)确定目标论文库中的作者集合以及每一个作者的论文集合;
2)针对作者集合中每一个作者的论文集合下的每一篇论文,获取论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子;
3)针对作者集合中每一个作者,根据其论文集合下的每一篇论文的论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子四项特征值计算作者的研究深入度;
4)根据研究深入度对作者集合中的作者进行降序排序,然后将指定数量个作者及其对应的研究深入度作为挖掘结果输出。
本实施例中,目标论文库具体是利用pubmed(来自https://www.ncbi.nlm.nih.gov/pubmed)论文库通过输入感兴趣的基因和疾病后筛选得到。毫无疑问,筛选并非是建立目标论文库的必需步骤,此外也可以直接使用某种论文数据库而不进行筛选。
本实施例中,步骤2)中论文所在期刊的影响因子的计算函数表达式如式(1)所示;
式(1)中,ifp表示论文p所在期刊的影响因子,α为期刊贡献率,fp为论文p所在期刊的影响因子。
本实施例中,步骤2)中论文所在期刊的影响因子的计算函数表达式中,如果论文所在期刊没有影响因子值,则论文所在期刊的影响因子fp的取值为0.05。
本实施例中,步骤2)中论文被其他论文引用的影响因子的计算函数表达式如式(2)所示;
式(2)中,cfp表示论文p被其他论文引用的影响因子,cp表示论文p被其他论文引用的次数。参见式(2),本实施例中论文p被其他论文引用的影响因子cfp为分段函数。
本实施例中,步骤2)中该作者对论文的贡献度的计算函数表达式如式(3)所示;
式(3)中,confp(a)表示作者a对论文p的贡献度,a为作者。参见式(3),本实施例中该作者对论文的贡献度confp(a)为分段函数。根据上述公式可知:第一作者或通信作者贡献值为1,第二作者贡献值为1/2,第三作者为1/3,其他作者为1/4。如果有重复,则取最大值。例如,如果a即为通信作者,又是第三作者,那么他对论文的贡献值为1。
论文发表距离当前越久,则影响力也越小。本实施例中,步骤2)中论文的时间衰减因子的计算函数表达式如式(4)所示;
式(4)中,γcp为论文p的时间衰减因子,tc表示当前年份,tp表示论文p发表的年份,γ为论文每年影响度衰减因子,满足0≤γ≤1。
本实施例中,论文每年影响度衰减因子γ缺省值取0.9。
本实施例中,步骤3)中作者的研究深入度的计算函数表达式如式(5)所示;
式(4)中,q_s(a)表示作者a的研究深入度,p表示作者a的论文集合pa中的某一篇论文,ifp表示论文p所在期刊的影响因子,cfp表示论文p被其他论文引用的影响因子,confp(a表示作者a对论文p的贡献度,γcp为论文p的时间衰减因子。
本实施例还提供一种面向论文库的作者数据挖掘系统,包括:
论文收集程序单元,用于确定目标论文库中的作者集合以及每一个作者的论文集合;
论文特征提取程序单元,用于针对作者集合中每一个作者的论文集合下的每一篇论文,获取论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子;
研究深入度计算程序单元,用于针对作者集合中每一个作者,根据其论文集合下的每一篇论文的论文所在期刊的影响因子、论文被其他论文引用的影响因子、该作者对论文的贡献度、论文的时间衰减因子四项特征值计算作者的研究深入度;
排序及输出程序单元,用于根据研究深入度对作者集合中的作者进行降序排序,然后将指定数量个作者及其对应的研究深入度作为挖掘结果输出。
本实施例还提供一种面向论文库的作者数据挖掘系统,包括计算机设备,所述计算机设备被编程以执行本实施例前述面向论文库的作者数据挖掘方法的步骤。
此外,本实施例还提供一种面向论文库的作者数据挖掘系统,包括带有存储介质的计算机设备,该存储介质中存储有被编程以执行本实施例前述面向论文库的作者数据挖掘方法的计算机程序。此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程以执行本实施例前述面向论文库的作者数据挖掘方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。