基于兴趣相似模型的作者影响力传播能力预测方法与流程

文档序号:11864888阅读:291来源:国知局
基于兴趣相似模型的作者影响力传播能力预测方法与流程

本发明涉及一种基于兴趣相似模型的作者影响力传播能力预测方法。



背景技术:

学术关系网络中影响力的评估是近年来社会关系网络研究问题的热点之一,现有的作者影响力评估方法大致可以分为两类[1],第一是基于统计的方法,考虑的是文献的数量和被引用次数等信息,例如作者发表文献的数量、作者被引用次数、作者合著次数、H指数[3]等,这些指标也出现了很多改进模型,更精确地评估个人影响力。第二是基于学术关系网络结构的评估方法,考虑的是整个学术关系网络,把作者抽象成节点,作者之间的关系抽象为边,赋予一定的权重值,通过算法得到某个作者节点的影响力,例如PageRank算法[4]。现有的作者影响力评估方法只是对当前静态的数据或网络进行影响力评估,考虑也不够全面,作者个人信息随时间的变化情况,以及作者之间的关系权重值大小,都没有一个更为准确的定义,也没有考虑作者之间的兴趣异同。

因此,有必要设计一种基于兴趣相似模型的作者影响力传播预测方法。

参考文献:

[1]刘大有,薛锐青,齐红.基于作者权威值的论文价值预测算法[J].自动化学报,2012,38(10):1654-1662.

[2]薛锐青.基于作者权威值的论文排名预测算法研究[D].吉林大学,2012.

[3]Hirsch J E.An index to quantify an individual's scientific research output[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572.

[4]Page L.The PageRank Citation Ranking:Bringing Order to the Web[C]//Stanford InfoLab.1998:1-14.



技术实现要素:

本发明所解决的技术问题是,针对现有技术的不足,提供一种基于兴趣相似模型的作者影响力传播预测方法,基于作者的兴趣相似性,以及作者引用合作关系的历史数据来预测作者未来的学术成果影响力的传播能力,并预测作者间未来是否产生影响。

本发明为解决技术问题所采取的技术方案为:

一种基于兴趣相似模型的作者影响力传播能力预测方法,包括以下步骤:

步骤1:从文献数据库的文献基本信息中抽取挖掘作者文献的学术关系信息,包括作者-论文撰写关系和文献-文献引用关系;

步骤2:根据作者-论文撰写关系和文献-文献引用关系,建立作者引用关系网络和作者合作关系网络;

步骤3:基于共引关系计算作者间的兴趣相似度;其中共引关系是指:若两篇文献的作者同时引用了一篇文献,就称这两篇文献的作者存在共引关系;

步骤4:建立作者影响力传播模型,预测作者影响力传播能力:利用作者引用关系网络与合作关系网络,挖掘作者影响力传播路径;以步骤3中得到的兴趣相似度作为路径的权值,加权计算得到影响力传播能力。

整个预测方法可以理解为某个具有影响力的作者与被影响的作者有较高的兴趣相似度,且他们有引用传播路径或者合作传播路径,则影响力传播能力较大。

所述步骤3具体包括以下步骤:

3.1)基于作者引用关系网络,建立NxN的共引矩阵Z,Z中元素Zi,j表示作者i引用作者j的文献次数;

3.2)对共引矩阵Z进行规范化处理,得到规范化的矩阵H;规范化处理公式如下:

<mrow> <msub> <mi>H</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;

3.3)规范化的矩阵H中的第i行与第k行分别表示作者i与作者k的引用向量,分别记为Hi=(Hi1,Hi2,…,HiN)和Hk=(Hk1,Hk2,…,HkN);i,k=1,2,…,N;

在计算作者i与作者k的兴趣相似度前,对Hi和Hk进行去自引处理,即将Hi和Hk中第第i列与第k列去除,得到无自引引用向量Hi′和Hk′;

通过余弦相似算法计算作者i与作者k的无自引引用向量之间夹角的余弦值,即余弦相似度,用以表征这两个作者的兴趣相似度;

所述余弦相似算法的计算公式为:

<mrow> <mi>cos</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msup> <msub> <mi>H</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msup> <mo>&times;</mo> <msup> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msup> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msup> <msub> <mi>H</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>&prime;</mo> <mn>2</mn> </mrow> </msup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msup> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>&prime;</mo> <mn>2</mn> </mrow> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,Hij′和Hkj′分别为Hi′和Hk′中的第j个元素;N-2为Hi′和Hk′中的元素总个数;

作者i与作者k的兴趣相似度sim(i,k)=cosθ。

所述步骤4中,作者影响力传播路径包括引用传播路径和合作传播路径,路径的权值为其连接的两个作者间的兴趣相似度;作者影响力传播模型为:

ISPA,B=∑k∈Usim(B,k)×C(B,k)

其中,ISPA,B表示作者A对作者B的影响力传播能力,ISPA,B的值越大表示作者A的影响力传播到作者B的可能性越大;U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合;sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了k的文献或者与k有合作关系,有则取1,否则0。

本发明的原理为:

作者的影响力与作者文献的被引用量相关,被引用次数越多,表示作者所发表的观点、思想得到的关注也就越多,作者能够影响别人或者说让别人接受并传递自己思想的能力也就越强。从作者引用关系网络的角度来分析,引用行为代表作者对引文中的观点、数据或者结论持有认可的态度,也代表他们的研究领域相同或者有交集,即可认为作者之间发生引用行为时,他们的研究兴趣有相似点。因此,可以认为研究兴趣是作者引用行为的前提,也是作者影响力传播的动力。

而作者影响力能够得到传播,还需要有关联条件,利用作者间的引用关系网络和作者合作关系网络,把具有影响力的作者与被影响的作者连通起来,即可理解为影响力的传播路径。因此,本发明提出一个合理的作者影响力传播模型来模拟作者影响力的传播过程,评估两个作者之间未来产生影响的可能性。

(一)作者兴趣相似模型

两篇文献同时引用了一篇文献,就称这两篇文献存在共引关系。存在共引关系的文献,说明它们在研究内容和方向上有某些相似处,而由此知道这两篇文献的作者在研究上借鉴了同一个作者的想法。

文献的引用可能是作者对某一句话、某个数据,或者某一个观点进行引用,并不能代表作者的研究内容,例如医学大数据的文献可能会引用医学领域和计算机领域的文献,而某些文献仅仅对于某一条数据的引用更不能代表作者研究的课题方向,因此这些引用关系都不能说明文献有相似之处。但是两个作者共同引用的文献全部相同,有理由得出他们的研究内容是一致的。因此可以说,两个作者的引用文献相同的数量越多,他们的研究内容也就越相似。

把上述作者间的研究内容,理解成为他们之间的研究兴趣,根据作者引用的情况,抽象出作者的兴趣相似度。作者兴趣相似建模过程为:首先从公共文献数据库中,获得文献的所有信息,然后针对作者集合,收集其发表的所有文献集合。在文献引用的基础上,挖掘出作者间引用关系,建立兴趣引用矩阵,利用相似算法,得到作者之间的兴趣相似度。

基于共引关系的作者兴趣相似度计算,主要是为了寻找近邻,找到研究兴趣相似的作者。本发明中的原始数据,以文献发表信息,如文献名、作者、关键词、摘要、引用文献名等存在于数据库中,作者研究兴趣相似度需要先抽取作者关系、建立共引矩阵、计算作者兴趣相似度。

1、抽取作者引用关系

通过作者-文献的撰写关系和文献-文献的引用关系,抽取作者引用关系网络。

2、建立共引矩阵

共引矩阵描述的是作者之间的引用关系情况,为了强调本发明中所阐述的作者之间的共引关系而特别命名为共引矩阵。

为了更好的描述共引矩阵的建立过程,在这里举一个例子。假设有5个作者A、B、C、D和E,对他们的引用关系网络进行表格化处理后的结果如表3-1所示。

表1抽象的作者引用关系情况

表3-1统计的为作者之间的引用情况,行为引用作者,列为被引用的作者。根据表格中的信息建立一个共引矩阵如公式3-1所示。

共引矩阵Z中元素Zi,j表示作者i引用作者j的文献次数。

再对共引矩阵Z进行规范化处理,得到规范化的矩阵H规范化处理公式如公式3-2所示:

其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;得到规范化的矩阵如公式3-3所示。

3、计算作者兴趣相似度

两个作者引用的情况越接近,即他们共引的文献大部分相同,他们的研究兴趣越相似。从共引矩阵中,任意抽出一行Hi,表示作者i的引用向量;

通过如图2所示的余弦相似算法计算两个作者的引用向量之间夹角的余弦值,即余弦相似度,用以表征作者兴趣相似度。如果余弦相似度越接近于1,表示两个引用向量的夹角越小,方向更加吻合,则作者兴趣相似度越高。本发明是对作者共同引用兴趣的研究,因此需要对自引用进行处理,如果计算是作者A与作者B的兴趣相似度,则将作者A的引用向量和作者B的引用向量均去掉引用作者A与作者B的列,得到无自引引用向量如图3所示。

算法的伪码描述如下:

(二)作者影响力传播路径

学术关系网络是一个关系复杂的多样性网络,从各类研究者到他们所发表的文献、从属的机构和研究所等等,构成一个多样性节点网络。本发明所讨论的影响力是一个作者的学术成就,主要体现在其所发表文献的关注度、引用量。而这种影响力在网络中的传播,主要依靠与其相关联的节点。学术关系网络中,如果一个节点能影响其他节点,则称这个节点具有影响力。如果一个节点可以把其他节点的影响力传递给另一个节点,则称其具有影响力传播能力。引用传递和合作共享是作者影响力主要传播路径,通过二级引用关系作者可以关注更多优秀作者,通过合作关系作者也可以共享更多优秀资源信息。针对作者影响力的传播特点,本发明提出基于作者兴趣的引用路径和基于作者兴趣的合作路径的传播方式,如图4所示。图4(a)为引用传播路径:作者A能影响作者k,作者k与作者B兴趣相似,并且作者B引用了作者k,从而作者A的影响力很有可能通过作者k传播给作者B。而图4(b)为合作传播路径:作者A能影响作者k,作者k和作者B兴趣相似,并具有合作关系,从而作者A的影响力很有可能通过作者k传播给作者B。

(三)影响力传播预测指标

影响力传播路径包括引用传播路径和合作传播路径,路径的权值为其连接的两个作者间的兴趣相似度,把所有路径上的权重进行综合即可得到影响力传播能力值。

ISPA,B=∑k∈Usim(B,k)×C(B,k) 公式(3-4)

其中,ISPA,B表示作者A对作者B的影响力传播指标,值越大表示作者A的影响力通过作者B传播可能性越大,sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了邻居k的文献或者与邻居k有合作关系,有则取1,否则0。U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合。

算法的伪码描述如下:

有益效果:

本发明利用提出了一种基于兴趣相似模型的作者影响力传播能力预测方法预测作者影响力在现有学术关系网络的基础上,进行扩散传播的能力。在影响力的传播过程中,主要依靠作者引用关系和作者合作关系形成传播路径,以及作者的研究兴趣相似性作为传播动力。本发明在作者的共引矩阵的基础上,利用余弦定理,得到作者间的兴趣相似度。在具备传播径路的网络中,利用预测算法,得到影响力传播能力值,并预测作者间未来是否产生影响。

附图说明

图1为本发明流程图;

图2为本发明实施例中作者A与B的引用向量余弦相似度;

图3为本发明实施例中作者A与B的无自引引用向量余弦相似度;

图4为本发明影响力传播路径;图4(a)为引用传播路径;图4(b)为合作传播路径;

图5为本发明作者引用关系网络;

图6为作者共引关系与兴趣相似度;

图7为AUC精度评估指标。

具体实施方式

以下结合附图和具体实施方式对本发明进行进一步具体说明。

一种基于兴趣相似模型的作者影响力传播能力预测方法,包括以下步骤:

步骤1:从文献数据库的文献基本信息中抽取挖掘作者文献的学术关系信息,包括作者-论文撰写关系和文献-文献引用关系;

步骤2:根据作者-论文撰写关系和文献-文献引用关系,建立作者引用关系网络和作者合作关系网络;

步骤3:基于共引关系计算作者间的兴趣相似度;其中共引关系是指:若两篇文献的作者同时引用了一篇文献,就称这两篇文献的作者存在共引关系;

步骤4:建立作者影响力传播模型,预测作者影响力传播能力:利用作者引用关系网络与合作关系网络,挖掘作者影响力传播路径;以步骤3中得到的兴趣相似度作为路径的权值,加权计算得到影响力传播能力。

整个预测方法可以理解为某个具有影响力的作者与被影响的作者有较高的兴趣相似度,且他们有引用传播路径或者合作传播路径,则影响力传播能力较大。

所述步骤3具体包括以下步骤:

3.1)基于作者引用关系网络,建立NxN的共引矩阵Z,Z中元素Zi,j表示作者i引用作者j的文献次数;

3.2)对共引矩阵Z进行规范化处理,得到规范化的矩阵H;规范化处理公式如下:

<mrow> <msub> <mi>H</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;

3.3)规范化的矩阵H中的第i行与第k行分别表示作者i与作者k的引用向量,分别记为Hi=(Hi1,Hi2,...,HiN)和Hk=(Hk1,Hk2,...,HkN);i,k=1,2,…,N;

在计算作者i与作者k的兴趣相似度前,对Hi和Hk进行去自引处理,即将Hi和Hk中第第i列与第k列去除,得到无自引引用向量Hi′和Hk′;

通过余弦相似算法计算作者i与作者k的无自引引用向量之间夹角的余弦值,即余弦相似度,用以表征这两个作者的兴趣相似度;

所述余弦相似算法的计算公式为:

<mrow> <mi>cos</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msup> <msub> <mi>H</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msup> <mo>&times;</mo> <msup> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msup> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msup> <msub> <mi>H</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>&prime;</mo> <mn>2</mn> </mrow> </msup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>2</mn> </mrow> </munderover> <msup> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>&prime;</mo> <mn>2</mn> </mrow> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,Hij′和Hkj′分别为Hi′和Hk′中的第j个元素;N-2为Hi′和Hk′中的元素总个数;

作者i与作者k的兴趣相似度sim(i,k)=cosθ。

所述步骤4中,作者影响力传播路径包括引用传播路径和合作传播路径,路径的权值为其连接的两个作者间的兴趣相似度;作者影响力传播模型为:

ISPA,B=∑k∈Usim(B,k)×C(B,k)

其中,ISPA,B表示作者A对作者B的影响力传播能力,ISPA,B的值越大表示作者A的影响力传播到作者B的可能性越大;U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合;sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了k的文献或者与k有合作关系,有则取1,否则0。

实验分析:

(1)数据来源

本发明的数据来源于中国知网(http://www.cnki.net/)公开的文献基本信息记录,包括作者、标题、发表时间以及引用关系等信息项。将经过处理的数据存入Excel表格中,为实验提供数据基础。

从中选取三个数据集分别进行实验,每个数据集的数据情况如表4-1所示

表2实验数据集表

实验分别选取三个不同大小,不同时间跨度的数据集,更加有利于对实验结果的分析。数据集1的数据比较集中,都是8年内发表和引用的文献,数据集3跨度比较大,时间上的稀疏性比较高,引用关系的数量与文献的记录条数成正比例关系。

(2)作者关系网络

实验涉及到两个网络,一个是作者引用关系网络,另一个是作者合作关系网络。引用关系网络是作者影响力传播的主要方式,也是作者研究兴趣的评估指标网络。因此以数据集1为例,对作者引用关系网络进行Gephi展示,如图5所示。

(3)作者兴趣相似度指标分析

从数据集1中,随机抽取了10组兴趣相似度大于0.5的作者,对他们进行相似性计算,结果如表3所示。

表3实验数据集学术关系网络情况

使用折线图表把表3中的结果展示出来如图6所示。

图6中上面的线条代表作者的兴趣相似度,下面的曲线代表共引作者数量,从表3中,可以看出兴趣相似度高的作者共引作者数量也多,但第一组数据的兴趣相似高,共引作者数量反而少,是因为共引矩阵的稀疏性,余弦定理得出的结果是两个向量的方向,不包括向量绝对值之间的差异,因此会出现偏差。图6从图中明显能看出来两条线的趋势是相似的,说明本发明对作者兴趣相似度评估的指标选取合适。作者共引作者数量越多,则作者兴趣的相似性越高。

(4)结果分析

为了说明基于兴趣相似模型的作者影响力传播预测指标的有效性,本文采用AUC指标评价预测精度进行评估。AUC是描述一种事件发生的概率,把现有的网络分为训练集和预测集,可以理解为利用训练集去观察预测集发生的概率。

过程如下:

首先根据实验数据集建立一个相应的作者影响力传播网络,包含作者-作者的引用关系和作者-作者的合作关系,作者为网络的节点,作者之间的关系为网络的边。

然后进行m次试验:每一次试验把整个建好的影响力传播网络分为两部分,一个为训练集,一个为预测集,这里选取的预测集中的边数占影响力传播网络中总边数的20%。再用训练集去计算预测集中边的产生概率。每一次计算,在预测集中随机选取一条存在的边和一条不存在的边,根据训练集分别计算这两条边在预测算法下的得分,如果存在的边得分高,记为1,不存在的边得分高记为0,相等则记为0.5。如此进行n次计算,再把所有的1和0.5加起来,除以n,得到最终计算结果。如果最终计算结果大于0.5,说明预测算法有效地预测了作者影响力的传播。

对于(1)中选取三个数据集,分别进行上述实验,并取m=10,n=10000,得到最终结果如表4所示。

表4作者影响力传播预测评价指标AUC实验结果

根据表4所示结果,本发明对于作者影响力传播能力预测的准确率比较高,均在92%以上。结合各个数据集的网络情况,数据集1的边与节点的比值大于4,网络中连通的边比较多,影响力的传播途径较多,预测得到的结果也比较高。

图7是三个数据集的AUC结果折线图表,数据集2、3的数据稀疏性比数据集1的高,因此结果的精确度也低一点,数据集3的结果稳定性也比较低。

上述三个数据集的实验结果证明了本发明预测方法的有效性,能够比较准确的预测作者影响力的传播。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1