面向科技文献的论文、作者和期刊排序模型及排序方法

文档序号:6604421阅读:504来源:国知局
专利名称:面向科技文献的论文、作者和期刊排序模型及排序方法
技术领域
本发明提供了一种科技文献的排序模型及排序方法,属于数字图书馆领域。
背景技术
科研文献网是一个包含作者、论文和期刊或会议的网络如

图1所示,在这个网络中,作者撰写文章,而文章在相应的期刊或会议上发表,同时,文章之间还有相互引用的关系。科研工作者为了进行研究工作需要查阅大量的论文。如何选择重要的期刊或会议,以及重要作者的有影响力的论文进行研读,是科研工作的一个重要环节。目前为止,关于科研文献网的现有技术包括1.清华大学的唐杰等人开发的ArnetMiner原型系统(http://www. arnetminer. org/)。在他的系统中,利用条件随机场CRF(Conditional Random Fields)来对网络信息进行提取,利用EM(Expectation Maximization)方法对同名作者进行了区分,最后利用ACT 模型(Author-Conference-Topic Model)对科研文献网进行建模,为用户提供查询。2. UIUC的Yizhou Sun, Jiawei Han等人针对科研文献网提出的聚类排序算法 RankClus以及NetClus。该方法把基于结点的分类聚类和结点的组内的排序,综合起来,首先对所有的结点进行一个初步的分类和聚类,然后再利用一些Ranking(排序)的算法来计算每一个结点在相应聚类中的排名,然后这个排名反过来对聚类的结果也有一定的帮助, 最后反复迭代,达到一个稳定的值。现有技术主要针对的是对科研文献网中科研文献实体信息的抽取以及对相关信息的分类以及聚类,针对排名做的工作比较少。在Yizhou Sim等人的RankClus方法有对相应实体信息的排名。但是一方面,其工作的重点在于对文章的聚类和分类,其排名也仅仅是对会议和作者的排名,没有对论文进行排名。另一方面,它的排名的信息并没有用到文章之间相互引用的关系。而众所周知,被其他文章引用是判断一篇论文是否重要的一个十分关键的因素。

发明内容
本发明针对目前科研文献网排序模型存在的问题,根据科研文献网的特点,提出了一种新的排序模型PAJ模型,该模型充分利用科研文献网中实体的相互联系,对科研文献网中的科研文献实体(期刊或会议,作者,论文)进行排序。本发明的具体技术方案如下本发明提出的PAJ模型如图3所示。该模型是一个有向权重图,该图包括三种结点,结点A代表作者集合,结点P代表论文集合,结点J代表期刊或会议的集合。这三种结点之间总共有5种边,其权值如下
1)作者与文章之间的边
权利要求
1.一种面向科研文献的排序模型,取名为PAJ模型,该模型为一个有向图,包含三种结点,分别是作者集合结点A、论文集合结点P、期刊或会议集合结点J,其特征在于,该模型还包括五种有向边,各边的权值定义如下 1)作者与文章之间的边s * y」—其中sp,a表示作者a在文章P中 的排名;Σ 一一表示该文章的所有作者的排名的倒数之和; 2)作者与期刊或会议之间的边 表不文章 P在期刊或会议j上发表;a e A(P)表示作者a是文章P的作者之一; 3)文章与期刊或会议之间的边e(pj)=eG,p)=ΛJI 0PiP(J)即如果论文P在期刊或会议j上发表,那么他们之间的边的权重为1,否则为0 ; 1P7 e ref(p,)4)文章与文章之间的边e(Pl,p2)=ηΓ1I 0p2 ^ref(P1)即如果文章P1引用了文章P2,那么e(Pl,P2)的值为1,否则为0 ;5)作者与作者之间的边6(、&2)= ^2為)=Σ g 二 °aieA(p)Aa2eA(p)X Sp,a2
2.一种面向科研文献的排序方法,该方法基于如权利要求1所述的PAJ排序模型,其特征在于,该方法包含如下步骤Dl.抽取科研文献实体D2.建立PAJ模型并计算各条边的权值;D3.生成转移概率矩阵;D4.对转移概率矩阵进行运算,得出最终的概率分布。
3.如权利要求2所述的排序方法,其特征在于,所述抽取科研文献实体是从科研文献网或者包含科研文献的数据库中抽取;所述科研文献实体包括论文、论文所述期刊或会议、 论文作者、论文之间的引用关系。
4.如权利要求2所述的排序方法,其特征在于,步骤C的实现方法如下Pr =丄+__j)Cl.定义从点i到点j的转移概率叫 \V\ I e(i,k) 、,J)keV,e^kePAJ其中ε是从本结点随机游走的概率(0< ε <1),|V|代表的是图中所有结点的个数;C2.生成转移概率矩阵所有的转移概率ft^i构成的矩阵,构成了一个转移概率矩阵Wft,假设图中有η个结点,那么
5.如权利要求4所述的排序方法,其特征在于,步骤D的实现方法如下Dl.结点概率分布K = Ik1, k2,L,kj代表PAJ图中所有结点的访问概率分布,其中Σ \<i<nD2.初始化概率分布,假定任意的一个概率分布^=1'*Wft,Kt为经过t次迭代后得\<i<nD3.由旧的结点概率分布计算新的结点概率分布Kt = Kt 到的概率分布;D4.计算终止条件,事先假定一个误差阈值δ,当I IKt-K D5.得出结果,算法终止时的Kt即为最终的概率分布。(δ时,算法终止;
全文摘要
本发明公布了一种面向科技文献的论文、作者和期刊排序模型及排序方法,属于数字图书馆领域。本发明根据科研文献网的特点,提出了PAJ模型,该模型是一个有向图,包括论文、作者、期刊或会议三种结点以及这三种结点间的五种关系。本发明同时提出了一种基于PAJ模型的排序方法,包括抽取科研文献实体;建立PAJ模型;生成转移概率矩阵;对矩阵进行计算并生成结果。该算法利用矩阵迭代计算,达到收敛结果,以此作为排序的依据,能够充分挖掘科研文献网的内在联系,对各个实体的排名结果准确可信。
文档编号G06F17/30GK102298579SQ20101020467
公开日2011年12月28日 申请日期2010年6月22日 优先权日2010年6月22日
发明者方国栋, 邓志鸿 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1