本发明属于文献检索技术领域,具体地说涉及一种基于引用次数的作者推荐方法。
背景技术:
寻找符合特定技术需求的专家,通常利用社会关系网或者根据科技成果的作者信息寻找相应的专家。通过社会关系网寻找专家过度依赖需求方的社会关系,局限性很大;基于科技成果的作者信息寻找专家需耗费大量人力和时间进行科技成果和成果作者调研,效率低下且工作量巨大。这两种人工寻找专家的方式都过于主观,存在缺乏准确性、公正性等问题。智能推荐专家技术,打破了传统人工寻找专家的限制。
申请号为201410680306.6的中国专利描述了一种基于群组匹配的专家推荐方法及系统:该系统通过网络爬虫获取专家列表中各专家的网页信息,再对所述网页信息进行提取,以获得各专家的专家学术信息,然后计算各专家与待匹配项目之间的匹配度,最后根据所述匹配度及群组匹配模型确定为待匹配项目推荐的专家。但是该方法是使用科研领域关键词作为匹配度的基准,当遇到交叉学科或新兴学科时必然会出现结果偏倚现象。
申请号为201811228086.8的中国专利公开了一种基于专家领域相似度与关联关系的协同推荐方法。将批量论文数据作为训练集,构造合作关系网络利用dijkstra算法计算作者之间的最短路径作为专家关联度cor,利用word2vec算法构造专家词向量模型计算关联专家词向量与领域词向量的余弦相似度作为专家领域相似度,筛选专家领域相似度sim与专家关联度cor满足阈值的专家即为推荐专家。该方法提出的专家关联度是依据专家之间合作关系计算的,以此为依据推荐的专家与给定的专家关联紧密。但是合作关系受主观因素影响,非研究领域相似的合作会干扰推荐结果,而且,作者之间合作关系也不能体现知识本身的传承和研究主题之间隐含的相关性。
有鉴于此,特提出本发明。
技术实现要素:
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于引用次数的作者推荐方法,通过计算作者的黄金引用次数和利用群落算法划分文献研究领域,快速准确地为用户推荐领域专家。
为解决上述技术问题,本发明采用技术方案的基本构思是:
本发明提供了一种基于引用次数的作者推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建文献引用网络模型,映射生成作者引用网络,统计文献作者的黄金引用次数;然后,基于所述作者引用网络对作者进行聚类分组;最后,按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者。
上述方案中,所述文献包括科技期刊、专利、会议论文、研究报告和学位论文。
本发明的进一步方案为:所述文献引用网络模型为:g=(v,e),g=(v,e)是由|v|=n个文献节点和|e|=m条边所组成的一个有向网络;其中,g代表文献群体中文献以及文献间引用关系的集合,v代表文献群体g中的文献集合,e代表文献群体g中文献间的引用关系;计算所述文献引用网络模型中g的他引次数并生成排除自引的文献他引网络模型g'=(v,e'),将所述文献他引网络g'通过线性映射生成作者引用网络gauth.。
本发明的进一步方案为:所述“基于所述作者引用网络对作者进行聚类分组”包括对作者引用网络进行群落划分,划分后的作者群落视为相对独立的研究领域,步骤如下:
s11.将所述作者引用网络gauth.作为初始网络,并设为当前网络;
s12.将当前网络中的节点随机分为两个群落,之后执行步骤s13;
s13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤s14;
s14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤s15;
s15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤s16;
s16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤s14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤s15;若模块度达到最大值,则执行步骤s17;
s17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤s18;
s18.将步骤s17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤s12~s18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即
本发明的进一步方案为:所述每个节点对模块度的贡献度λi根据下式计算:
其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数值总和,
本发明的进一步方案为:所述模块度q根据下式计算:
其中,m为文献网络中代表引用关系的总边数值总和。
本发明的进一步方案为:所述“按照黄金引用次数和作者聚类分组排序,向用户推荐文献作者”包括:将文献作者按照研究领域聚类划分的结果和依照黄金引用次数对文献作者排序相结合,向用户推荐文献作者;优选的,所述结合包括设定第一阈值,取作者群体中黄金引用次数大于所述第一阈值的作者节点,并根据黄金引用次数降序排列,之后取作者聚类划分结果和所述降序排列结果的交集,形成向用户推荐的作者列表,所述第一阈值不大于最大黄金引用次数;优选的,所述结合包括将作者群体中的所有作者节点按照黄金引用次数降序排列,之后为作者聚类划分结果中每个研究领域的作者群落设定第二阈值,向用户推荐每个作者群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的作者节点所组成的作者列表,所述第二阈值不大于最大黄金引用次数。
上述方案中,所述文献作者聚类划分的主要作用是对一个技术主题所包含的多个研究领域进行划分,划分结果即该技术主题下对应各子技术领域的数个文献作者的群落。而由于有些技术主题包含的研究领域比较庞杂,因此不可能完全实现每个研究领域中的文献作者都恰巧落入黄金引用作者群体中,因此需要在黄金引用作者群体和/或聚类划分的作者群落中引入阈值,在一定阈值范围形成二者的交集,从而得出推荐给用户的作者列表。
本发明的进一步方案为:所述统计文献的黄金引用次数包括如下步骤:
s21.构建文献引用网络模型,统计文献被引次数和他引次数,后执行步骤s22;
s22.根据文献他引次数映射生成排除自引的文献他引网络模型,并映射生成作者引用网络模型,后执行步骤s23;
s23.计算文献的黄金引用次数。
本发明的进一步方案为:所述步骤s21中文献被引次数是由文献vi在文献群体g中的被引次数通过引用变量eij累加得到,即第i篇文献在文献群体g中的被引次数计算公式为
本发明的进一步方案为:所述步骤s22中,依据他引次数
本发明的进一步方案为:所述步骤s23为计算作者节点
本发明的进一步方案为:所述“采用递归提取的方式缩小gauth.k的范围,直到gauth.k+1中含有的节点数为0”的具体方法为:提取gauth.k中
本发明的进一步方案为:将文献作者按照研究领域聚类划分的结果和依照黄金引用次数对文献作者排序相结合,向用户推荐文献作者;优选的,设定阈值kmin,在作者群体gauth.中取所有
上述方案中,针对文献作者按照研究领域聚类划分的结果和依照黄金引用次数对作者排序的结合方式进行了具体的说明,其中,kmin和
采用上述技术方案后,本发明与现有技术相比具有以下有益效果:
1.本发明提供的作者推荐方法反映了作者研究主题的内在关系,这种方法基于作者间研究内容关联的计算方法,能够更加便捷地、智能地、精准地推荐出领域专家,对于交叉学科或新兴学科的专家推荐同样适用;
2.本发明提供的作者推荐方法,采用黄金引用次数代替作者引用次数,既排除了自引在作者评价中的干扰,又削弱了低质低效的他引影响,使得作者排序更加合理,根据该方法推荐的专家更具权威性;
3.本发明提供的作者推荐方法对作者群体划分依据作者间的引用关系网络,符合科学技术发展客观规律,人为干扰因素少。
下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1是本发明中所提供的作者推荐方法的流程图;
图2是本发明所提供的作者推荐方法的流程图;
图3是本发明中作者推荐方法中统计黄金引用次数的流程示意图;
图4是本发明中基于作者引用网络对作者进行聚类分组的流程示意图。
需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1~4所示,本发明提供一种基于引用次数的作者推荐方法,提供一种基于引用次数的作者推荐方法,通过计算作者的黄金引用次数和利用群落算法划分作者研究领域,快速准确地为用户推荐领域专家。
实施例
如图1所示,本实施例中,具体包括以下a~d四个步骤:
a.在文献数据库中选定文献群体范围;所述文献包括科技期刊、专利、会议论文、研究报告和学位论文;
b.依据所选定文献群体中文献间的相互引用关系构建文献引用网络模型,映射生成作者引用网络,统计文献作者的黄金引用次数;
本实施例中,如图3所示,b步骤中包括构建文献引用网络,所述文献引用网络模型为:g=(v,e),g=(v,e)是由|v|=n个文献节点和|e|=m条边所组成的一个有向网络;其中,g代表文献群体中文献以及文献间引用关系的集合,v代表文献群体g中的文献集合,e代表文献群体g中文献间的引用关系;计算所述文献引用网络模型中g的他引次数并生成排除自引的文献他引网络模型g'=(v,e'),将所述文献他引网络g'通过线性映射生成作者引用网络gauth.。
本实施例中,如图2所示,b步骤中所述统计文献的黄金引用次数包括如下步骤:
s21.构建文献引用网络模型,统计文献被引次数和他引次数,后执行步骤s22;
s22.根据文献他引次数映射生成排除自引的文献他引网络模型,并映射生成作者引用网络模型,后执行步骤s23;
s23.计算作者的黄金引用次数。
本实施例中,所述步骤s21中文献被引次数是由文献vi在文献群体g中的被引次数通过引用变量eij累加得到,即第i篇文献在文献群体g中的被引次数计算公式为
本实施例中,所述步骤s22中,依据他引次数
本实施例中,所述步骤s23为计算作者节点
本实施例中,所述“采用递归提取的方式缩小gauth.k的范围,直到gauth.k+1中含有的节点数为0”的具体方法为:提取gauth.k中
c.基于所述作者引用网络对作者进行聚类分组;
本实施例中,如图4所示,c步骤中所述“基于所述作者引用网络对作者进行聚类分组”包括对作者引用网络进行群落划分,划分后的作者群落视为相对独立的研究领域,步骤如下:
s11.将所述作者引用网络gauth.作为初始网络,并设为当前网络;
s12.将当前网络中的节点随机分为两个群落,之后执行步骤s13;
s13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤s14;
s14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤s15;
s15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤s16;
s16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤s14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤s15;若模块度达到最大值,则执行步骤s17;
s17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤s18;
s18.将步骤s17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤s12~s18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即
本实施例中,步骤s13、s15和s17中所述每个节点对模块度的贡献度λi根据下式计算:
其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数值总和,
本实施例中,步骤s13、s15和s17中所述模块度q根据下式计算:
其中,m为文献网络中代表引用关系的边数值总和。
d.按照作者聚类划分的研究领域,并依据黄金引用次数排序,向用户推荐文献作者。
本实施例中,步骤d包括将文献作者按照研究领域聚类划分的结果和依照黄金引用次数对文献作者排序相结合,向用户推荐文献作者;
在本实施例的一种实施方式中,设定阈值kmin,在作者群体gauth.中取所有
在本实施例的另一种实施方式中,作者群体gauth.中所有节点依据黄金引用次数进行降序排列,即
本实施例中,步骤a中文献群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是引文数据库中的全部文献。
本实施例中,关键词含有“自动驾驶”的文献为例,首先选定文献群体有文献14,260篇,作者156,398个;建立文献引用网络模型,映射生成作者引用网络,统计作者的被引次数,以及黄金引用次数
本实施例中,关键词含有“超细纤维”的文献为例,首先选定文献群体有文献1,239篇,作者6,572个;建立文献引用网络模型,映射生成作者引用网络,统计作者的被引次数,以及黄金引用次数
本实施例中,用户手动按序查看,获取高质量的文献。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。