一种基于链接分析的引文推荐方法及系统与流程

文档序号:21634260发布日期:2020-07-29 02:44阅读:239来源:国知局
一种基于链接分析的引文推荐方法及系统与流程

本发明涉及文档搜索领域,具体涉及一种基于链接分析的引文推荐方法及系统。



背景技术:

一篇学术论文需要引用之前相关的重要工作来帮助读者了解它的背景和创新点,科研人员通常想要快速地了解这个领域中己有的文献,包括哪些论文是最相关的,这些论文中有哪些子主题等。随着学术论文数量的不断增加,由学术论文及其参考文献形成的引文网络正在成为一个规模巨大的复杂网络。引文分析在文献检索和论文推荐中具有重要的作用。

公开号为cn110674318a的发明专利申请公开了一种基于引文网络社区发现的数据推荐方法,基于作者之间的合著关系、论文之间的共引和祸合关系,构建引文网络;将引文网络划分成多个社区网络;基于论文与数据集之间的相似度,建立数据集与社区网络之间的关联;将与数据集建立起关联的社区网络中各论文节点进行叠加去重,再进行数据推荐。

上述申请虽然提及了基于引文网络社区发现进行推荐,但是其是将数据集与社区网络进行关联,以进行数据推荐。即使是同一社区网络中的论文其社区影响力也是不同的,进行引文推荐的概率也完全不同。且论文的引用是动态变化的,发表时间长短也对论文的引用有很大的影响,新发表的技术性先进的论文可能存在引用量小等问题,因此,上述申请的论文推荐方法存在准确率低的问题,如何针对现有的引文推荐的问题,实现高准确率、高质量的引文推荐,是本领域亟待解决的问题。



技术实现要素:

本发明的目的是针对现有技术的缺陷,提供了一种基于链接分析的引文推荐方法及系统。本发明对社区网络的引文推荐进行优化,提高了推荐的准确性,同时对发表时间短的论文进行预测,使推荐的引文更加全面。

为了实现以上目的,本发明采用以下技术方案:

一种基于链接分析的引文推荐方法,包括步骤:

s1、基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;

s2、将所述有向加权引用网络划分为多个网络集群;

s3、为每个所述网络集群选择影响力最大的节点作为代表节点;

s4、基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;

s5、将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;

s6、选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;

s7、获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;

s8、获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;

s9、将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。

进一步地,具有引用关系的论文的所述作者相似性为:

其中,分别为作者相同、作者合作所占的权重,为论文具有的相同作者个数,为论文中具有合作关系的作者对数,为第对具有合作关系的作者合作完成的论文数;

具有引用关系的论文的所述内容相似性为:

其中,为论文维的值,为论文o第维的值,为论文向量的维度;

具有引用关系的论文的相似性为:

其中,为作者相似性的权重;

所述有向加权引用网络中边的权值为边所连接论文的相似性。

进一步地,所述步骤s2具体为:

s21、选择有向加权引用网络中节点度数最高的论文节点作为初始节点,设置i=1;

s22、将所述初始节点加入新建立的集群sci;

s23、获取与sci中的论文节点连接、且不属于任何已建立的集群的点,加入候选集群;若候选集群为空集,执行步骤s25;

s24、判断候选集群中与集群sci中论文节点的连接边的最大权值是否大于第一阈值,若是,选择最大权值对应的论文节点及连接边加入集群sci,继续执行步骤s23;若否,i=i+1,执行步骤s25;

s25、判断有向加权引用网络中是否存在不属于任何集群的论文节点,若是,选择不属于任何集群的度数最高的论文节点作为初始节点,执行步骤s22,若否,输出集群sc1、sc2、...、sci、...、scx,其中,x为网络集群的个数。

进一步地,节点i的所述影响力为:

其中,网络集群中引用节点i的节点个数,为第j个引用节点i的节点在网络集群中被引用的次数,为引用第j个引用节点i的节点中同时引用节点i的节点个数。

进一步地,所述步骤s4包括:选择与新建论文的相似性最大的网络集群作为候选网络集群;新建论文与网络集群sci的相似性为:

其中,m为sci中论文节点的数量,为新建论文与第j个论文节点间的相似性,

进一步地,邻居节点i与第一节点的链接度为:

其中,为邻居节点i的度数,为邻居节点除去起点外的度数,为当前网络集群中节点度数的均值,的协方差,的方差。

进一步地,所述步骤s7具体为:

s71、计算第一论文与引用网络中节点的相似性;

s72、选择相似性超过第三阈值的节点加入相似节点集合;

s73、基于相似节点集合中节点从论文发表日起至发表日后第三时间段段内的引用次数,拟合预测第一论文未来第二时间段内的引用次数,第三时间段=第一时间段+第二时间段。

进一步地,论文节点i的所述引用次数增长度为:

其中,为论文从发表时间起j时间段内的引用次数,j的单位为年,其中,,对于第一论文,t为第三时间段,对于第二论文,t为论文的发表时间和推荐时间的时间差。

进一步地,所述包括实际的论文引用次数及预测的论文引用次数。

本发明还提出一种基于链接分析的引文推荐系统,用于实现上述的引文推荐方法,其特征在于,包括:

网络构建模块,用于基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;

集群划分模块,用于将所述有向加权引用网络划分为多个网络集群;

代表节点选择模块,用于为每个所述网络集群选择影响力最大的节点作为代表节点;

候选网络集群选择模块,用于基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;

链接度计算模块,用于将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;

候选引文推荐集构建模块,用于选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;

引用预测模块,用于获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;

增长度计算模块,用于获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;

最终引文推荐集生成模块,用于将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。

本发明与现有技术相比,具有如下效果:

(1)本发明基于网络集群对引文进行推荐,充分利用论文间的聚类特性,属于同一集群中的论文更可能进行论文间的引用,属于不同集群的论文进行引用的概率大大降低,降低对整个引用网络进行处理的花销;

(2)本发明对集群中的论文节点进行筛选,充分考虑同一集群中不同论文间的差异性,提高了基于集群进行引文推荐的准确性;

(3)本发明首先选择第一节点,基于第一节点与其它节点间的链接度选择相应的推荐节点,避免推荐引文与引用网络不存在引用连接边,不能充分利用引用网络中的引用关系的问题,提高了引文推荐的准确性;

(4)本发明对发表时间短的论文进行引用次数的预测,避免有价值但由于发表时间太短导致被推荐遗漏的问题,进一步提高了引文推荐的准确性,同时,本发明基于引用次数的增长度来对论文进行评估,有效评估论文的关注程度变化,更准确评估论文的重要性;

(5)本发明基于作者相似性、内容相似性全面评估论文间的引用关系,充分考虑论文间引用的差异性,进行论文引用关系的有向图构建,使得基于有向加权引用网络的引文推荐准确性更高。

附图说明

图1是实施例一提供的一种基于链接分析的引文推荐方法流程图;

图2是实施例二提供的一种基于链接分析的引文推荐系统结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。

实施例一

如图1所示,本实施例提出了一种基于链接分析的引文推荐方法,包括:

s1、基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;

本发明首先构建引用网络,在论文引用关系中,存在引用与被引用的关系,因此本发明的引用网络为有向图。引用网络可以表示为:有向图,其中为引用网络中的论文节点,n为文献数,为引用网络中论文间的连接边,m为连接边的数量,为有向边。表示论文被论文引用,

本发明构建的引用网络为有向加权引用网络,不同论文间的引用权值不同。具体地,引用权值与作者相似性、内容相似性有关。作者相似性、内容相似性越高,论文间的引用权值越大。

对于论文作者,如果两篇论文间存在相同的作者,则说明这两篇论文很可能为相关联的论文,可以为同一领域的递进研究成果,也可以为相关领域的研究成果。两篇论文中相同的作者数量越多,则说明这两篇论文间的联系越紧密。此外,如果两篇论文中的作者合作完成过其它论文,则说明这两名作者也存在一定的关联性,可能为同一团队的研发成员,而这两篇论文都属于团队的研究成果。作者间合作完成的论文数量越多,则说明这两名作者的关系越紧密。因此,两篇具有引用关系的论文的作者相似性为:

其中,分别为作者相同、作者合作所占的权重,为两篇论文具有的相同作者个数,为两篇论文中具有合作关系的作者对数,为第对具有合作关系的作者合作完成的论文数。

对于论文内容,领域相近、内容相似的论文关联性更大。如果对论文的整篇内容分析,数据的处理量大,计算复杂度高,由于论文通常包括摘要,而摘要是对论文内容的高度概括,因此,本发明基于论文摘要的相似度来评估内容的相似性。具体地,本发明获取论文的摘要信息,通过word2vec模型对摘要中的单词进行行分布式表示学习,转化成算法所能识别的向量。word2vec是谷歌公司开源的一款将词表征成分布式词向量的工具,它是一种深度学习的模型,基于神经网络,通过感知机将底层特征转换为高层的抽象特征。本发明对具有引用关系的论文进行表示学习,得到的向量为:

其中,为论文维的值,为论文向量的维度。

因此,两篇具有引用关系的论文的内容相似性为:

其中,为论文维的值,为论文o第维的值。

基于作者相似性、内容相似性,计算两篇具有引用关系的论文间的相似性,作为连接边的权重:

其中,为作者相似性的权重。

本发明基于作者相似性、内容相似性全面评估论文间的引用关系,充分考虑论文间引用的差异性,进行论文引用关系的有向图构建,使得基于有向加权引用网络的引文推荐准确性更高。

s2、将所述有向加权引用网络划分为多个网络集群;

对于论文引用网络,具有明显的聚类特性。属于同一集群中的论文更可能进行论文间的引用,属于不同集群的论文进行引用的概率大大降低。因此,本发明首先将有向加权引用网络划分为多个网络集群,具体包括:

s21、选择有向加权引用网络中节点度数最高的论文节点作为初始节点,设置i=1;

网络集群包括了论文节点及相应的连接边。将有向加权引用网络进行划分,对于划分的x网络集群,需要满足如下条件:

其中,为第i个网络集群所包括的论文节点,

引用网络中,度数最大的节点通常占据很高的地位,相比度数小的节点,更多的节点可能与其关系紧密。因此,本发明从引用网络中节点度数最高的论文节点开始构建网络集群,将其作为初始节点。

s22、将所述初始节点加入新建立的集群sci;

初始节点为集群中最早加入的论文节点。例如,对于新建立的集群sc1,首先将有向加权引用网络中节点度数最高的论文节点加入sc1,紧接着,以初始节点为基础,进行引用网络中论文节点及连接边的聚类。

s23、获取与sci中的论文节点连接、且不属于任何已建立的集群的点,加入候选集群;若候选集群为空集,执行步骤s25;

属于同一集群中的论文更可能进行论文间的引用,因此,本发明在进行网络集群构建时,获取与sci中的论文节点连接、且不属于任何已建立的集群的点,将其作为候选的论文节点,以使sci根据论文节点间的引用关系进行扩展。

当候选集群为空集时,则说明剩余的论文节点中不存在与sci中的论文节点连接的点,当前集群构建完毕。

s24、判断候选集群中与集群sci中论文节点的连接边的最大权值是否大于第一阈值,若是,选择最大权值对应的论文节点及连接边加入集群sci,继续执行步骤s23;若否,i=i+1,执行步骤s25;

对于候选集群中的节点,其与集群sci中已有的论文节点间都存在连接边,具体地,可以与一个已有的论文节点存在连接边,也可以与多个已有的论文节点存在连接边。进行集群构建时,当候选集群中的节点与集群sci中已有的论文节点间的所有连接边的权值都小于第一阈值时,则说明剩下的论文节点与当前的集群sci相似度较低、距离较远,因此集群sci中不再加入新的节点及相应的连接边,继续进行下一个新的集群的构建。

相应地,如果存在与集群sci中已有的论文节点间的连接边的权值大于第一阈值的论文节点时,则说明剩下的论文节点中存在与当前的集群sci相似度高、距离近的节点,因此,选择权值最大的论文节点及连接边加入集群sci,进行论文节点的聚类,并继续进行下一聚类节点的选择。

s25、判断有向加权引用网络中是否存在不属于任何集群的论文节点,若是,选择不属于任何集群的度数最高的论文节点作为初始节点,执行步骤s22,若否,输出集群sc1、sc2、...、sci、...、scx,其中,x为网络集群的个数。

通过上述步骤,本发明不断进行集群sci的构建,直到有向加权引用网络中所有的论文节点都被加入相应的集群。每个新的集群sci的构建,都是从剩余的论文节点中选择度数最高的论文节点作为初始节点,以进行论文节点的聚类。最终输出所有已经构建的集群sc1、sc2、...、sci、...、scx,完成有向加权引用网络的划分。

s3、为每个所述网络集群选择影响力最大的节点作为代表节点;

对于集群中的节点,其影响力不仅与集群本身有关,还与其邻居节点的影响力有关。通常情况下,节点的度数越大,其影响力也越大。而对于邻居节点,如果邻居节点不断被新的节点引用,则能将原始节点的内容不断被更多的作者所获悉,扩大了原始节点的影响力。因此,本发明中节点i影响力为:

其中,网络集群中引用节点i的节点个数,为第j个引用节点i的节点在网络集群中被引用的次数,为引用第j个引用节点i的节点中同时引用节点i的节点个数。

s4、基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;

进行引文推荐时,新建论文与论文引用网络中的节点还没有相应的引用关系。因此,本发明依次计算新建论文与引用网络中节点的相似性,节点间的相似性由作者相似性、内容相似性决定。其具体计算方法与步骤s1的论文间的相似性计算一致,在此不再赘述。由于本发明的内容相似性是基于论文的摘要进行计算的,因此,即使作者没有完成整篇的论文,只要输入相应的论文摘要,就可以为作者进行论文引文的推荐,以便作者对引文论文进行参考、学习。

本发明首先基于构建的网络集群进行论文引文推荐。因此,基于计算的新建论文与引用网络中各节点的相似性,计算新建论文与网络集群sci的相似性,具体为:

其中,m为sci中论文节点的数量,为新建论文与第j个论文节点间的相似性,

新建论文与网络集群sci的相似性越大,其与网络集群sci中的节点间发生引用关系的概率越大。因此,本发明选择与新建论文的相似性最大的网络集群作为候选网络集群。

s5、将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;

同一网络集群中不同节点的影响力不同,如果将候选网络集群中的所有文献都作为推荐引文,引文推荐的准确率低。因此,本发明进一步对候选网络集群中的论文节点进行筛选,以更精确地对引文进行推荐。

具体地,与新建论文相似度越高的节点其被选择作为引文的概率也越大。因此,在步骤s4计算出新建论文与候选网络集群中各节点的相似性后,本发明首先将候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,将其作为首个引文推荐节点。

如上所述,待引文推荐的新建论文与候选网络集群中的节点没有相应的引用关系,而与第一节点相关度大的论文被推荐的概率也大。因此,本发明首先以第一节点为起点,分析节点间的链接关系,基于链接度来评估节点间的相关度,依次计算起点与入候选引文推荐集中邻居节点间的链接度,对于邻居节点i,其与起点的链接度具体为:

其中,为邻居节点i的度数,为邻居节点除去起点外的度数,为当前网络集群中节点度数的均值,的协方差,的方差。

s6、选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;

链接度越高,节点间的相关度越大,其被新建论文同时引用的概率也越大。因此,本发明基于计算出的链接度,选择与第一节点的链接度高于第二阈值的节点加入候选引文推荐集,使其与第一节点一起作为引文推荐节点。

本发明不断进行节点的选择,当选择新的节点加入引文推荐集后,加新加入的节点作为第一节点,继续选择链接度高的邻居节点,直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集,至此完成候选引文推荐集的构建。

s7、获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;

通常情况下,论文的引用是动态变化的,论文被引用的次数与时间密切关联,发表时间越长的论文通常比发表时间短的论文引用次数多。对于发表时间在第一时间段内的论文,由于其发表的时间极短,其被引用的次数可能很少,甚至没有,但是一些新的研究成功可能就包括在这些论文中。因此,为了迅速获取发表时间短但重要的论文,本发明将第一时间段内发表的论文作为第一论文进行处理,预测未来第二时间段内第一论文的引用次数,具体包括:

s71、计算第一论文与引用网络中节点的相似性;

本发明基于与第一论文相似的节点对第一论文的引用次数进行预测。论文间的相似性由作者相似性、内容相似性决定。其具体计算方法与步骤s1的论文间的相似性计算一致,在此不再赘述。本发明将第一论文与引用网络中的节点进行依次计算,得到与各论文节点的相似性。

s72、选择相似性超过第三阈值的节点加入相似节点集合;

本发明选择相似性超过第三阈值的节点加入相似节点集合。相似性越高说明论文之间越相似,越可能遵循相同的引用规律。

s73、基于相似节点集合中节点从论文发表日起至发表日后第三时间段段内的引用次数,拟合预测第一论文未来第二时间段内的引用次数,第三时间段=第一时间段+第二时间段。

本发明对未来第二时间段内的引用次数进行预测,其核心是认为相似的论文其遵循的论文引用规律大致相同。相似节点集合中节点第三时间段内的引用次数为相似节点的从论文发表日起至发表日后第三时间段内的实际引用次数。因此,本发明基于相似论文在第三时间段段内的引用次数发展规律,对第一论文的引用次数进行拟合预测。具体的预测方法在此不作限定,可以采用现有的任何数据预测方法。

s8、获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;

本发明还对第三时间段内发表的第二论文进行选择,第三时间段=第一时间段+第二时间段,例如第三时间段为3年,第一时间段为1年,第二时间段为2年。也就是说,第一论文的发表时间比第二论文的发表时间更短,但第二论文的发表时间也不是很长。第三时间段内发明的第二论文是排除掉第一论文后的论文。

对于论文而言,虽然通常情况下论文的引用次数越多,该论文越重要。但是随着时间的推移,技术的进步,早年引用次数多的论文其再次被引用的概率可能会下降,相应的,对于短时间内发表的论文,即使其总体的论文引用次数不多,但是如果其在近期有较高的引用次数增长度,也说明该论文近期很活跃,该论文也很重要,尤其是在近期的论文引用过程中,引用的概率较大。因此,本发明计算第一论文、第二论文的引用次数增长度,以选择出发表时间短但近期关注程度强的论文。对于论文节点i,其引用次数增长度具体为:

其中,为论文从发表时间起j时间段内的引用次数,j的单位为年,其中,,对于第一论文,t为第三时间段,对于第二论文,t为论文的发表时间和推荐时间的时间差。由于第一论文包括了预测的引用次数,因此,可以为实际的论文引用次数,也可以为预测的论文引用次数。

s9、将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。

本发明将引用次数增长度大于第四阈值的论文加入候选引文推荐集得到最终引文推荐集,避免短期内发明的论文不能得到有力推荐的问题,实现引文的全面、精确推荐。因此,在得到最终的引文推荐集后,为用户返回推荐的引文推荐集中的引文,作为新建论文的引文。

实施例二

如图2所示,本实施例提出了一种基于链接分析的引文推荐系统,包括:

网络构建模块,用于基于论文间的引用关系、作者相似性、内容相似性构建有向加权引用网络;

本发明首先构建引用网络,在论文引用关系中,存在引用与被引用的关系,因此本发明的引用网络为有向图。引用网络可以表示为:有向图,其中为引用网络中的论文节点,n为文献数,为引用网络中论文间的连接边,m为连接边的数量,为有向边。表示论文被论文引用,

本发明构建的引用网络为有向加权引用网络,不同论文间的引用权值不同。具体地,引用权值与作者相似性、内容相似性有关。作者相似性、内容相似性越高,论文间的引用权值越大。

对于论文作者,如果两篇论文间存在相同的作者,则说明这两篇论文很可能为相关联的论文,可以为同一领域的递进研究成果,也可以为相关领域的研究成果。两篇论文中相同的作者数量越多,则说明这两篇论文间的联系越紧密。此外,如果两篇论文中的作者合作完成过其它论文,则说明这两名作者也存在一定的关联性,可能为同一团队的研发成员,而这两篇论文都属于团队的研究成果。作者间合作完成的论文数量越多,则说明这两名作者的关系越紧密。因此,两篇具有引用关系的论文的作者相似性为:

其中,分别为作者相同、作者合作所占的权重,为两篇论文具有的相同作者个数,为两篇论文中具有合作关系的作者对数,为第对具有合作关系的作者合作完成的论文数。

对于论文内容,领域相近、内容相似的论文关联性更大。如果对论文的整篇内容分析,数据的处理量大,计算复杂度高,由于论文通常包括摘要,而摘要是对论文内容的高度概括,因此,本发明基于论文摘要的相似度来评估内容的相似性。具体地,本发明获取论文的摘要信息,通过word2vec模型对摘要中的单词进行行分布式表示学习,转化成算法所能识别的向量。word2vec是谷歌公司开源的一款将词表征成分布式词向量的工具,它是一种深度学习的模型,基于神经网络,通过感知机将底层特征转换为高层的抽象特征。本发明对具有引用关系的论文进行表示学习,得到的向量为:

其中,为论文维的值,为论文向量的维度。

因此,两篇具有引用关系的论文的内容相似性为:

其中,为论文维的值,为论文o第维的值。

基于作者相似性、内容相似性,计算两篇具有引用关系的论文间的相似性,作为连接边的权重:

其中,为作者相似性的权重。

本发明基于作者相似性、内容相似性全面评估论文间的引用关系,充分考虑论文间引用的差异性,进行论文引用关系的有向图构建,使得基于有向加权引用网络的引文推荐准确性更高。

集群划分模块,用于将所述有向加权引用网络划分为多个网络集群;

对于论文引用网络,具有明显的聚类特性。属于同一集群中的论文更可能进行论文间的引用,属于不同集群的论文进行引用的概率大大降低。因此,本发明首先将有向加权引用网络划分为多个网络集群,具体包括:

初始化模块,用于选择有向加权引用网络中节点度数最高的论文节点作为初始节点,设置i=1;

网络集群包括了论文节点及相应的连接边。将有向加权引用网络进行划分,对于划分的x网络集群,需要满足如下条件:

其中,为第i个网络集群所包括的论文节点,

引用网络中,度数最大的节点通常占据很高的地位,相比度数小的节点,更多的节点可能与其关系紧密。因此,本发明从引用网络中节点度数最高的论文节点开始构建网络集群,将其作为初始节点。

第一添加模块,用于将所述初始节点加入新建立的集群sci;

初始节点为集群中最早加入的论文节点。例如,对于新建立的集群sc1,首先将有向加权引用网络中节点度数最高的论文节点加入sc1,紧接着,以初始节点为基础,进行引用网络中论文节点及连接边的聚类。

第二添加模块,用于获取与sci中的论文节点连接、且不属于任何已建立的集群的点,加入候选集群;若候选集群为空集,调用第二判断模块;

属于同一集群中的论文更可能进行论文间的引用,因此,本发明在进行网络集群构建时,获取与sci中的论文节点连接、且不属于任何已建立的集群的点,将其作为候选的论文节点,以使sci根据论文节点间的引用关系进行扩展。

当候选集群为空集时,则说明剩余的论文节点中不存在与sci中的论文节点连接的点,当前集群构建完毕。

第一判断模块,用于判断候选集群中与集群sci中论文节点的连接边的最大权值是否大于第一阈值,若是,选择最大权值对应的论文节点及连接边加入集群sci,调用第二添加模块;若否,i=i+1,调用第二判断模块;

对于候选集群中的节点,其与集群sci中已有的论文节点间都存在连接边,具体地,可以与一个已有的论文节点存在连接边,也可以与多个已有的论文节点存在连接边。进行集群构建时,当候选集群中的节点与集群sci中已有的论文节点间的所有连接边的权值都小于第一阈值时,则说明剩下的论文节点与当前的集群sci相似度较低、距离较远,因此集群sci中不再加入新的节点及相应的连接边,继续进行下一个新的集群的构建。

相应地,如果存在与集群sci中已有的论文节点间的连接边的权值大于第一阈值的论文节点时,则说明剩下的论文节点中存在与当前的集群sci相似度高、距离近的节点,因此,选择权值最大的论文节点及连接边加入集群sci,进行论文节点的聚类,并继续进行下一聚类节点的选择。

第二判断模块,用于判断有向加权引用网络中是否存在不属于任何集群的论文节点,若是,选择不属于任何集群的度数最高的论文节点作为初始节点,调用第一添加模块,若否,输出集群sc1、sc2、...、sci、...、scx,其中,x为网络集群的个数。

通过上述步骤,本发明不断进行集群sci的构建,直到有向加权引用网络中所有的论文节点都被加入相应的集群。每个新的集群sci的构建,都是从剩余的论文节点中选择度数最高的论文节点作为初始节点,以进行论文节点的聚类。最终输出所有已经构建的集群sc1、sc2、...、sci、...、scx,完成有向加权引用网络的划分。

代表节点选择模块,用于为每个所述网络集群选择影响力最大的节点作为代表节点;

对于集群中的节点,其影响力不仅与集群本身有关,还与其邻居节点的影响力有关。通常情况下,节点的度数越大,其影响力也越大。而对于邻居节点,如果邻居节点不断被新的节点引用,则能将原始节点的内容不断被更多的作者所获悉,扩大了原始节点的影响力。因此,本发明中节点i影响力为:

其中,网络集群中引用节点i的节点个数,为第j个引用节点i的节点在网络集群中被引用的次数,为引用第j个引用节点i的节点中同时引用节点i的节点个数。

候选网络集群选择模块,用于基于作者相似性、内容相似性为新建论文选择相应的网络集群,作为候选网络集群;

进行引文推荐时,新建论文与论文引用网络中的节点还没有相应的引用关系。因此,本发明依次计算新建论文与引用网络中节点的相似性,节点间的相似性由作者相似性、内容相似性决定。其具体计算方法与步骤s1的论文间的相似性计算一致,在此不再赘述。由于本发明的内容相似性是基于论文的摘要进行计算的,因此,即使作者没有完成整篇的论文,只要输入相应的论文摘要,就可以为作者进行论文引文的推荐,以便作者对引文论文进行参考、学习。

本发明首先基于构建的网络集群进行论文引文推荐。因此,基于计算的新建论文与引用网络中各节点的相似性,计算新建论文与网络集群sci的相似性,具体为:

其中,m为sci中论文节点的数量,为新建论文与第j个论文节点间的相似性,

新建论文与网络集群sci的相似性越大,其与网络集群sci中的节点间发生引用关系的概率越大。因此,本发明选择与新建论文的相似性最大的网络集群作为候选网络集群。

链接度计算模块,用于将所述候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,计算所述第一节点与所述入候选引文推荐集中其它节点间的链接度;

同一网络集群中不同节点的影响力不同,如果将候选网络集群中的所有文献都作为推荐引文,引文推荐的准确率低。因此,本发明进一步对候选网络集群中的论文节点进行筛选,以更精确地对引文进行推荐。

具体地,与新建论文相似度越高的节点其被选择作为引文的概率也越大。因此,在步骤s4计算出新建论文与候选网络集群中各节点的相似性后,本发明首先将候选网络集群中与新建论文相似度最高的节点作为第一节点加入候选引文推荐集,将其作为首个引文推荐节点。

如上所述,待引文推荐的新建论文与候选网络集群中的节点没有相应的引用关系,而与第一节点相关度大的论文被推荐的概率也大。因此,本发明首先以第一节点为起点,分析节点间的链接关系,基于链接度来评估节点间的相关度,依次计算起点与入候选引文推荐集中邻居节点间的链接度,对于邻居节点i,其与起点的链接度具体为:

其中,为邻居节点i的度数,为邻居节点除去起点外的度数,为当前网络集群中节点度数的均值,的协方差,的方差。

候选引文推荐集构建模块,用于选择与所述第一节点的链接度高于第二阈值的节点加入所述候选引文推荐集;将选择的节点作为第一节点继续选择节点加入候选引文推荐集直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集;

链接度越高,节点间的相关度越大,其被新建论文同时引用的概率也越大。因此,本发明基于计算出的链接度,选择与第一节点的链接度高于第二阈值的节点加入候选引文推荐集,使其与第一节点一起作为引文推荐节点。

本发明不断进行节点的选择,当选择新的节点加入引文推荐集后,加新加入的节点作为第一节点,继续选择链接度高的邻居节点,直到不能满足第二阈值的要求或网络集群中的所有节点都已加入候选引文推荐集,至此完成候选引文推荐集的构建。

引用预测模块,用于获取第一时间段内发表的论文作为第一论文,预测未来第二时间段内第一论文的引用次数;

通常情况下,论文的引用是动态变化的,论文被引用的次数与时间密切关联,发表时间越长的论文通常比发表时间短的论文引用次数多。对于发表时间在第一时间段内的论文,由于其发表的时间极短,其被引用的次数可能很少,甚至没有,但是一些新的研究成功可能就包括在这些论文中。因此,为了迅速获取发表时间短但重要的论文,本发明将第一时间段内发表的论文作为第一论文进行处理,预测未来第二时间段内第一论文的引用次数,具体包括:

计算模块,用于计算第一论文与引用网络中节点的相似性;

本发明基于与第一论文相似的节点对第一论文的引用次数进行预测。论文间的相似性由作者相似性、内容相似性决定。其具体计算方法与步骤s1的论文间的相似性计算一致,在此不再赘述。本发明将第一论文与引用网络中的节点进行依次计算,得到与各论文节点的相似性。

选择模块,用于选择相似性超过第三阈值的节点加入相似节点集合;

本发明选择相似性超过第三阈值的节点加入相似节点集合。相似性越高说明论文之间越相似,越可能遵循相同的引用规律。

预测模块,用于基于相似节点集合中节点从论文发表日起至发表日后第三时间段段内的引用次数,拟合预测第一论文未来第二时间段内的引用次数,第三时间段=第一时间段+第二时间段。

本发明对未来第二时间段内的引用次数进行预测,其核心是认为相似的论文其遵循的论文引用规律大致相同。相似节点集合中节点第三时间段内的引用次数为相似节点的从论文发表日起至发表日后第三时间段内的实际引用次数。因此,本发明基于相似论文在第三时间段段内的引用次数发展规律,对第一论文的引用次数进行拟合预测。具体的预测方法在此不作限定,可以采用现有的任何数据预测方法。

增长度计算模块,用于获取第三时间段内发表的论文作为第二论文,第三时间段=第一时间段+第二时间段;计算所述第一论文、第二论文的引用次数增长度;

本发明还对第三时间段内发表的第二论文进行选择,第三时间段=第一时间段+第二时间段,例如第三时间段为3年,第一时间段为1年,第二时间段为2年。也就是说,第一论文的发表时间比第二论文的发表时间更短,但第二论文的发表时间也不是很长。第三时间段内发明的第二论文是排除掉第一论文后的论文。

对于论文而言,虽然通常情况下论文的引用次数越多,该论文越重要。但是随着时间的推移,技术的进步,早年引用次数多的论文其再次被引用的概率可能会下降,相应的,对于短时间内发表的论文,即使其总体的论文引用次数不多,但是如果其在近期有较高的引用次数增长度,也说明该论文近期很活跃,该论文也很重要,尤其是在近期的论文引用过程中,引用的概率较大。因此,本发明计算第一论文、第二论文的引用次数增长度,以选择出发表时间短但近期关注程度强的论文。对于论文节点i,其引用次数增长度具体为:

其中,为论文从发表时间起j时间段内的引用次数,j的单位为年,其中,,对于第一论文,t为第三时间段,对于第二论文,t为论文的发表时间和推荐时间的时间差。由于第一论文包括了预测的引用次数,因此,可以为实际的论文引用次数,也可以为预测的论文引用次数。

最终引文推荐集生成模块,用于将所述引用次数增长度大于第四阈值的论文加入所述候选引文推荐集得到最终引文推荐集,向用户推荐引文推荐集中的论文作为新建论文的引文。

本发明将引用次数增长度大于第四阈值的论文加入候选引文推荐集得到最终引文推荐集,避免短期内发明的论文不能得到有力推荐的问题,实现引文的全面、精确推荐。因此,在得到最终的引文推荐集后,为用户返回推荐的引文推荐集中的引文,作为新建论文的引文。

由此可知,本发明提出的基于链接分析的引文推荐方法及系统,基于网络集群对引文进行推荐,充分利用论文间的聚类特性,属于同一集群中的论文更可能进行论文间的引用,属于不同集群的论文进行引用的概率大大降低,降低对整个引用网络进行处理的花销;对集群中的论文节点进行筛选,充分考虑同一集群中不同论文间的差异性,提高了基于集群进行引文推荐的准确性;首先选择第一节点,基于第一节点与其它节点间的链接度选择相应的推荐节点,避免推荐引文与引用网络不存在引用连接边,不能充分利用引用网络中的引用关系的问题,提高了引文推荐的准确性;对发表时间短的论文进行引用次数的预测,避免有价值但由于发表时间太短导致被推荐遗漏的问题,进一步提高了引文推荐的准确性,同时,本发明基于引用次数的增长度来对论文进行评估,有效评估论文的关注程度变化,更准确评估论文的重要性;基于作者相似性、内容相似性全面评估论文间的引用关系,充分考虑论文间引用的差异性,进行论文引用关系的有向图构建,使得基于有向加权引用网络的引文推荐准确性更高。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1