一种文献质量评估方法及应用的制作方法

文档序号:6605865阅读:279来源:国知局
专利名称:一种文献质量评估方法及应用的制作方法
技术领域
本发明涉及一种文献的质量评估方法,具体涉及一种在文献共享平台上的文献质 量评估方法,属于知识挖掘技术领域。
背景技术
近年以来,随着科学研究的飞速发展,科技文献的出版速度逐年增加,其数量已经 非常庞大,例如仅针对计算机和信息科学领域的数字图书馆CiteSeerX上就存有150多万 篇科技文献。科研人员在进行研究工作的过程中需要阅读和参考大量的科技文献资料,高 质量的文献和低质量的文献对于科研工作者的价值是迥然不同的,从这些良莠不齐而数量 十分庞大的文献资料中获取具有较高价值的科技文献成为了一项非常困难的工作。因此, 如何对科技文献的质量进行有效的自动评估这一研究课题也吸引了越来越多的研究人员。在学术研究领域的社会化文献共享交流网站上,用户可以收藏自己认为比较有价 值的科技文献,标注标签,进行评论,并将这些文献分享给其他的用户。用户的收藏行为应 当在对科技文献的质量进行分析的时候成为一个重要的参考,而目前利用了用户的行为来 对科技文献质量进行分析的研究还非常少。因此,在Web 2.0环境下,如何将用户行为有效 应用到科技文献质量评价系统中,值得进一步研究。对学术论文进行质量评估,学术界现有的评价方法主要包括同行评议、引文分析 和基于链接分析的方法。同行评议通常用于论文的前期评价,如会议或期刊评审投稿论文; 引文评价用于后期评价,例如评价研究人员已发表论文的学术水平。同行评议,即由相同研究领域的自身专家学者从所选课题的意义以及创新性、研 究方法、研究完成的质量、论文写作水平等各个方面进行综合性的评价。同行评议的优点在 于专家对研究质量的评价是细致而准确的,专家凭借相关领域深厚的学术造诣能够看清学 术研究的水平高下;而缺点则在于当前评价制度尚不完善、“同行”自律不严容易引发一些 “流弊”,并且对大量的学术论文进行同行评价费时费力,是不太现实的。引文分析,即利用学术论文间的引用和被引用关系采用某种具体方法和评价标准 对论文进行质量评价。引文分析法的研究人员提出了一系列量化的质量评价指标,例如被 引频次、影响因子等。相对于同行评议,引文分析的评价方法更加简单,易于利用计算机自 动完成;与此同时,引文分析的结果更粗糙,而且必须利用论文间的引用与被引用关系,对 新发表的文献,因为被引用较少,往往给出的评价偏低,局限性较强。Brin和Page在1998年基于网页之间的链接关系提出了 PageRank算法来对网页 按照其重要度排序,并以此为基础创立了 Google搜索引擎。Kleinberg提出了另外一种链 接分析算法HITS算法。之后,考虑到科技文献之间通过引用关系天然形成的链接结构,很 多研究人员基于这些方法的思想来解决文献质量评价方面的问题。

发明内容
本发明的目的是通过对文献、作者和期刊会议之间的关系建模并进行分析,利用Web 2.0环境下用户行为和文献质量之间的关系协助分析文献质量。本发明将同行评议和 引文分析这两种分析方法统一在带重启动的随机游走算法框架下,给出最终的分析结果。本发明解决其技术问题所采用的方案是(流程如图1所示)本发明提出一种评估文献质量的方法,该方法应用于科技文献共享平台,在该平 台上,用户可以对文献进行收藏、添加标签、评论、分享给其他用户,其特征在于,所述方法 包括以下步骤A.利用文献的引用关系、文献与期刊会议和作者的关系以及文献的发表时间,构 建带权的有向图,称为学术网络图;B.将文献的引用关系、文献与期刊会议和作者的关系定量成图上顶点之间的转移 关系,建模得到学术网络图上的转移概率矩阵;C.利用用户对文献的收藏行为建立模型,考虑收藏时间,利用HITS算法计算得到 一个基于用户分析的文献质量值;D.根据步骤B和步骤C建立的模型,进行带重启动的随机游走迭代,直到结果收 敛,得到学术网络图上每个顶点的概率值,这个概率值即为文献质量、期刊会议质量和作者 学术声望的信息。本发明提供的方法不仅可用于科技文献共享平台,同样也适用于论文共享平台或 网站(其中的文献指的是论文),以及图片共享平台或网站(其中的文献指的是图片)等。本发明的有益效果本发明提出的应用于科技文献的基于图的质量评估方法,第一次将用户行为信息 与文献质量评价结合起来,能够在给出文献质量分析结果时还能够给出作者学术声望和期 刊会议学术质量的分析结果。如将本发明应用于科技文献检索网站,对用户按照关键字检 索到的结果进行质量值排序,能够帮助用户更快找到高质量的科技文献,更快了解到高质 量的期刊和会议,以及学术声望高的作者。实验证明,本方法的排序效果相比其他方法有明 显提尚ο


图1为根据本发明的基于图的科技文献质量评估方法的总流程图;图2为根据本发明构建的学术网络图;图3为根据本发明构建的学术网络图上顶点间转移关系图;图4为根据本发明构建的用户_文献收藏关系图。
具体实施例方式下面结合附图和具体实施方式
对本发明作进一步详细描述步骤1,利用文献的引用关系、文献与期刊会议和作者的关系以及文献的发表时 间,构建带权的有向图,称为学术网络图。本发明设计构建的学术网络图由三个部分组成,对文献、作者、期刊会议三种实体 之间的关系进行建模。三个部分分别为 文献引文互联子图Gdd = (Vd, Edd),Gdd是有向图,表示文献之间的引用关系,其中Vd是文献顶点集,Edd是边集,有向边
以下分别给出这些子矩阵的初始定义 从文献顶点到文献顶点的带权邻接矩阵
W{G) = {w{I,J))ijbV = ι
<di; dj> e Edd表示文献Cli引用了文献Clj ; 作者-文献子图 Gad = (Va U Vd, Ead),Gad是一个二部图,表示作者和文献之间的著作关系,其中Va是作者顶点集,Ead是 边集,无向边(ai; dj) e Ead表示作者屮写作了文献dj ; 期刊会议-文献子图Gcd = (Vc U Vd, Ecd),G。d是一个二部图,表示期刊会议和文献之间的发表关系,其中V。是期刊、会议顶 点集,E。d是边集,无向边(Ci,dj) e Ecd表示文献dj发表在期刊或会议Ci上; 这三个子图的组合即为学术网络图,如图2所示。定义学术网络图为有向图G= (V, E)。其中V为顶点集,V = Va U Vd U V。,E为 边集,E = Edd U Ead U Ecdo考虑到随机游走需要在有向图上进行,因此这里将作者-文献 子图和期刊会议-文献子图中的每一条无向边都表示成连接这两个顶点的两条有向边,例 如(Ci,dj) — <ci; dj> U <dj, Ci>。步骤2,将文献的引用关系、文献与期刊会议和作者的关系定量成图上顶点之间的 转移关系,建模得到学术网络图上的转移概率矩阵。学术网络图G中每个顶点代表一个作者、一篇文献或者一个期刊/会议,因此图G 是一个包含三种不同类型实体的异构图。本发明对不同类型的顶点(实体)之间的转移定 义不同的转移概率α,如图3中所示。对于这些转移概率参数,定义Qad= Qcd= 1α da+ α dc+ α dd = 1其中α ad为从作者顶点到文献顶点的转移概率,α。d为从发表地点顶点到文献顶 点的转移概率,α da为从文献顶点到作者顶点的转移概率,α d。为从文献顶点到发表地点顶 点的转移概率,α dd为从文献顶点到文献顶点的转移概率。定义W(G)为图G的带权邻接矩阵,对应于学术网络图中不同顶点之间关系的权 重,根据前面对学术网络图的定义,W(G)可以被分解为如下表所示的一系列子矩阵。首先, 本发明对各个子矩阵赋初值获得初始的带权邻接矩阵;然后,对矩阵的初值应用权值计分 函数,获得最终的带权邻接矩阵;最后,再以带权邻接矩阵为基础,计算得到转移概率矩阵。

其中t(d)表示文献d的发表时间,Γω(φ)表示文献Cli引用的文献的集合. 从作者地点顶点到文献顶点的带权邻接矩阵 其中Fad(A)表示作者 发表文献的集合,/( ,句=+,作者a是文献d的第k作者。从文献顶点到作者顶点的带权邻接矩阵 其中r da(dj)表示文献…的作者集合,k表示作者 是文献…的第k作者。从文献顶点到作者顶点的带权邻接矩阵 从发表地点顶点到文献顶点的带权邻接矩阵 其中Cik表示会议Ci的某一届,或者期刊Ci的某一卷,Γ cd(cj表示发表在Cim上 的文献集合,t (Ciffl)表示Cim的对应时间(年份)。 显然, 接下来对矩阵中的初始权值应用一个权值计分函数Φ ff(i, j) = Φ (ff(i, j))合适的权值计分函数的标准是这个函数应该是一个单调递增函数,但随着自变 量取值的增大,函数值的增长幅度逐渐减小,即Φ' (X) >0且Φ" (χ) <0,本方法中取 Φ(χ) = λ/jc 接下来,首先定义三个子图对应的转移概率矩阵,最后计算出整个学术网络图的 转移概率矩阵。 文献引用子图Gdd文献到文献的转移概率矩阵为Mdd = (Mdd(iJ)\jeVd其中, Mdd = (Mdd(iJ)\jeVd 作者-文献子图Gad作者到文献的转移概率矩阵为
Mad=(Mad(i,j)icVa,jcVd其中, 文献到作者的转移概率矩阵为Mda=(Mda(i,j)icVa,jcVd其中, 期刊会议_文献子图Gcd文献到期刊会议的转移概率矩阵为 其中, 期刊会议到文献的转移概率矩阵为 其中, 通过子图的转移概率矩阵,得到学术网络图上的转移概率矩阵 步骤3,利用用户对文献的收藏行为建立模型,考虑收藏时间,利用HITS算法计算 得到一个基于用户分析的文献质量值。本发明将文献和用户之间通过收藏行为连接起来构造用户_文献收藏关系图,用 户和文献是图中的顶点,收藏行为是边,如图4所示。本发明定义用户-文献收藏体系为B =(U,D,T,R),其中U是用户集合,D是文献集合,T是一系列时间点的集合,i 口 f/xDxr, 表示收藏关系的集合。(u,d,t) e R,表示用户u在时刻t收藏了文献d。定义文献集合的质量值向量为q = (qi,q2,八…,其中!!!= D ;定义用户集合 的专家度向量为e= (ei,e2,A,en),其中η = |υ|。定义用户-文献收藏关系图的邻接矩 阵A: 计算文献质量值和用户专家度就是重复如下的迭代过程直到结果收敛
q = eXAe = qXAT 步骤4,根据步骤2和步骤3建立的模型,进行带重启动的随机游走迭代,直到结果 收敛,得到学术网络图上每个顶点的概率值,这个概率值即为文献质量、期刊会议质量和作 者学术声望的信息。 设d为文献质量值向量,a为作者学术声望向量,c为期刊会议质量值向量。将对 应三种实体的向量连接成一个向量口 = [dT,aT,cT]T。带重启动的随机游走算法可以用如 下的公式表达πt+1 = cMt πt + (I-C)Q,0 ≤c ≤1采用如下的方法构建Q 在判断是否收敛时,将相邻的前后两次迭代得到的π向量相减,如果差小于10_6, 则判断其为收敛。假设最后得到的向量为,则其中的值为文献质量值、作者学术声望值 和期刊会议质量值。性能评测本发明的科技文献质量评价方法为文献、期刊会议和作者都给出了一个质量评分 值,利用这一分值得到的排序结果进行实验评测。首先对文献质量评价的结果进行评测,选取三个领域“0piniOn Mining'VTopic Model”和“Social Network"的文献来进行评测。文献评价的实验人工评测主要利用人工 对质量排序结果打分的方式结合DCG(Discounted Cumulative Gain)评测算法来评测。评 测者依据不同的文献的质量不同给其赋予不同的分值,分值越高的文献越应该排在排序结 果的前面。之后,使用DCG评测算法来对结果进行评测,DCG值越高,说明算法输出的排序 结果越符合实际需要。DCG评测值的计算公式为 其中Scorei为评测者给排序结果中第i项的分值。 对文献质量的评价,所采用的对比方法如下 PageRank算法结果中的文献部分 PopRank算法结果中的文献部分 学术网络图上的Random Walk算法(RW)结果中的文献部分 文献被引次数(Citation Count)文献在本文实验采用的论文集中的被引用次数。以下为评测结果(为了便于表示,本发明的方法记为RW+U ):
其次是对作者学术声望的评价实验结果进行评测,方法与文献质量评价实验相 同,对比方法如下PageRank算法结果中的作者部分PopRank算法结果中的作者部分学术网络图上的Random Walk算法(RW)结果中的作者部分发表文献数(Publication Count)作者在实验的领域文献集中发表的文献总数领域文献被引次数(Citation Count):作者在实验的领域文献集中发表的文献的 被引次数总和评测结果如下所示 最后是对期刊的学术质量评价结果进行评测。考虑到影响因子是学术界中普遍采 用的期刊质量评价方法,所以评测的参考标准是修改版影响因子分析法的结果。修改版影 响因子计算方法如下
其中,D是期刊X上发表的文献的总数,C是这些文献被引用次数之和<对于期刊评价评测的方法是前N个结果的准确率,其计算方法如下
P _ I·{待评测方法排名前N的期刊;}l {m/Kt排名前N的期刊;j _N以下为评测结果 上表所示为几种算法结果中的文献质量值平均值的按年分布情况。这里列出的是 从1971年到2009年的平均值,每年的均值是用当年发表文献的质量值之和除以发表的文 献数。从图中可以看出,本发明的方法RW和RW+U对新文献的质量值要普遍高于其他两种 方法,说明本发明的方法解决了传统方法中新文献评价结果普遍偏低的问题。需要注意的是,公布实施例的目的在于帮助进一步理解本发明,本领域的技术人 员可以理解在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能 的。例如,本发明同样可以应用于论文共享平台或网站(只需用论文取代文献),以及图片 共享平台或网站(只需用图片取代文献)等。因此,本发明不应局限于实施例所公开的内 容,本发明要求保护的范围以权利要求书界定的范围为准。
权利要求
一种评估文献质量的方法,该方法应用于科技文献共享平台,在该平台上,用户可以对文献进行收藏、添加标签、评论、分享给其他用户,其特征在于,所述方法包括以下步骤A.利用文献的引用关系、文献与期刊会议和作者的关系以及文献的发表时间,构建带权的有向图,称为学术网络图;B.将文献的引用关系、文献与期刊会议和作者的关系定量成图上顶点之间的转移关系,建模得到学术网络图上的转移概率矩阵;C.利用用户对文献的收藏行为建立模型,考虑收藏时间,利用HITS算法计算得到一个基于用户分析的文献质量值;D.根据步骤B和步骤C建立的模型,进行带重启动的随机游走迭代,直到结果收敛,得到学术网络图上每个顶点的概率值,这个概率值即为文献质量、期刊会议质量和作者学术声望的信息。
2.如权利要求1所述的方法,其特征在于,步骤A中所述的学术网络图由三个子图组 成,分别为 文献引文互联子图Gdd= (Vd, Edd),Gdd是有向图,表示文献之间的引用关系,其中Vd是文献顶点集,Edd是边集,有向边 <屯, dj> e Edd表示文献Cli引用了文献dj ; 作者_文献子图Gad = (Va U Vd, EJ,Gad是一个二部图,表示作者和文献之间的著作关系,其中Va是作者顶点集,Ead是边集, 无向边(ai; dj) e Ead表示作者屮写作了文献Clj ; 期刊会议-文献子图Gcd = (Vc U Vd, Ecd),Gcd是一个二部图,表示期刊会议和文献之间的发表关系,其中V。是期刊、会议顶点集, Ecd是边集,无向边(Ci,dj) e Ecd表示文献Clj发表在期刊或会议Ci上;学术网络图为有向 图G= (V,E),其中顶点集V = Va U Vd U V。,边集E = Edd U Ead U E。d ;作者-文献子图Gad 和期刊会议_文献子图G。d中的每一条无向边均替换为连接该边两个顶点的两条有向边。
3.如权利要求2所述的方法,其特征在于,所述步骤B的实现方法为Bi.对不同类型的顶点之间的转移定义不同的转移概率α,a ad=acd =1Q da+ Q dc+ Q dd = 1α ad为从作者顶点到文献顶点的转移概率,α Cd为从发表地点顶点到文献顶点的转移 概率,Cida为从文献顶点到作者顶点的转移概率,Cid。为从文献顶点到发表地点顶点的转移 概率,Cidd为从文献顶点到文献顶点的转移概率;B2.定义图G的带权邻接矩阵W(G),对应于学术网络图中不同顶点之间关系的权重, 根据学术网络图的定义,把W(G)分解为一系列子矩阵Wdd,Wad,Wda,Wdc, W。d,其中Wdd为从文 献顶点到文献顶点的带权邻接矩阵,Wad为从作者地点顶点到文献顶点的带权邻接矩阵,Wda 为从文献顶点到作者顶点的带权邻接矩阵,Wd。为从文献顶点到发表地点顶点的带权邻接矩 阵,Wcd为从发表地点顶点到文献顶点的带权邻接矩阵;B3.对各个子矩阵赋初值获得初始的带权邻接矩阵 否则其中t(d)表示文献d的发表时间,rdd(di)表示文献Cli引用的文献的集合; 其中Γ ^(Bi)表示作者 发表文献的集合,f(a,d) = ,作者a是文献d的第k作 其中Γ da(dj)表示文献…的作者集合,k表示作者ai是文献…的第k作者; 其中Cik表示会议Ci的某一届,或者期刊Ci的某一卷,rcd(ciffl)表示发表在Cim上的文 献集合,t (Cim)表示Cim的对应时间;B4.对矩阵的初值应用权值计分函数,来获得最终的带权邻接矩阵; B5.以带权邻接矩阵为基础,计算得到转移概率矩阵。
4.如权利要求3所述的方法,其特征在于,所述步骤B4中采用的权值计分函数,是一 个单调递增函数,但随着自变量取值的增大,函数值的增长幅度逐渐减小,即Φ' (x) >0 且Φ “ (χ) < 0,本方法中取Φ(χ) = V^
5.如权利要求4所述的方法,其特征在于,所述步骤Β5的实现方法为 i.定义三个子图的转移概率矩阵-文献引用子图Gdd文献到文献的转移概率矩阵= (Mdd(Ij))i jeVd,其中 -作者-文献子图Gad作者到文献的转移概率矩阵似“ =(m^J)Lw嗎,其中 文献到作者的转移概率矩阵%& =其中 -期刊会议-文献子图G。d文献到期刊会议的转移概率矩阵Mifc = (Mdc(ijjl—Vd,—Vc,其中W β /)Md (i’j) = P{c \d)= 二 ’JJ 期刊会议到文献的转移概率矩阵[(^。力力;^^ μ,其中W β i)M d(j,i) = P(d Ic.)= 二 cd明cdUj) YjkWcM). ii通过子图的转移概率矩阵,得到学术网络图上的转移概率矩阵^ddMdd adcMda adcMd: M(G) = (P(j I = Mad 00Mcd 0 0ο
6.如权利要求5所述的方法,其特征在于,所述步骤C的实现方法为 Cl.构造用户-文献收藏关系图,顶点为用户和文献,边为收藏行为;定义用户_文献收藏体系为B = (U,D,T,R),其中 U是用户集合,D是文献集合,T是一系列时间点的集合,i ^f/X/)Xr,表示收藏关系的集 合,(u,d,t) e R,表示用户u在时刻t收藏了文献d ; C2.定义用户-文献收藏关系图的邻接矩阵A,首先定义文献集合的质量值向量q= (Q1, q2,Λ,qm),其中m= |D| ;定义用户集合的 专家度向量e= (ei;e2, A,en),其中η = |υ| ;则用户-文献收藏关系图的邻接矩阵)) = U|{w I (u, d}, t), (U1 ,CijJjj) G R At < ty }| +1 用户 K 收藏文献. ,~10否则 ,C3.计算文献质量值和用户专家度,方法为重复如下的迭代过程直到结果收敛 q = eXA e = qXAT。
7.如权利要求6所述的方法,其特征在于,所述步骤D的实现方法为Dl.设d为文献质量值向量,a为作者学术声望向量,c为期刊会议质量值向量,将对应 三种实体的向量连接成一个向量η = [dT,aT,cT]T;D2.用带重启动的随机游走算法,用公式= cMTJit+(l-c)Q,0 ( c ( 1,其中=i G &且/有对应的用户分析结果 (/) “ I 1,否则,对Q(i)进行规范化,使得ΣQO = M;i&VD3.将相邻的前后两次迭代得到的π向量相减,如果差小于10_6,则判断其为收敛;假 设最后得到的向量为,则其中的值为文献质量值、作者学术声望值和期刊会议质量值。
8.把权利要求1所述的方法应用于论文共享平台或网站、图片共享平台或网站。全文摘要
本发明提供一种应用于文献共享平台中的文献质量评估算法,该算法包括以下步骤利用文献-文献,文献-期刊会议和作者的关系构建学术网络图;将这些关系定量成图上顶点之间的转移关系,建模得到转移概率矩阵;利用用户对文献的收藏行为建立模型,计算得到基于用户分析的文献质量值;对该图进行带重启动的随机游走迭代算法,得到文献质量、期刊会议质量和作者学术声望的信息。本发明第一次将用户行为信息与文献质量评价结合起来,能够在给出文献质量分析结果时还能够给出作者学术声望和期刊会议学术质量的分析结果,本方法的排序效果相比其他方法有明显提高。
文档编号G06F17/30GK101887460SQ20101022635
公开日2010年11月17日 申请日期2010年7月14日 优先权日2010年7月14日
发明者封盛, 张铭 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1