一种结合标签数据的二部图模型学术论文推荐方法

文档序号:10535035阅读:132来源:国知局
一种结合标签数据的二部图模型学术论文推荐方法
【专利摘要】本发明是一种结合标签数据的二部图模型学术论文推荐方法。由于论文的标签以简短的语义概述了论文的主旨内容,本发明将论文中的标签信息自然的添加到论文的内容信息中,结合论文的引用关系和用户收藏论文的关系,构建了一个二部关系图,运用重启动的随机游走算法提出了一个高效解决学术论文推荐冷启动问题的图模型方法。该模型仅仅添加了少部分的相似度关系,因此该模型降低了参数优化过程中消耗的资源。同时,由于该模型充分利用了数据中的各种信息,尤其是论文的标签信息,保证了论文推荐的精度。本发明在一个真实的数据集上进行了相关的实验,得到了较好的实验结果。
【专利说明】
一种结合标签数据的二部图模型学术论文推荐方法
技术领域
[0001] 本发明是涉及数据挖掘、信息提取和推荐系统领域,具体是一种结合标签数据的 二部图模型学术论文推荐实现方法。
【背景技术】
[0002] 早期研究人员的科学成果大多用学术论文的形式进行记录,通过查阅该类论文可 以给研究者提供借鉴;除此之外,学术论文中又记录了同代人的科研成果,可以为研究者提 供参考。通过查阅相关的科学论文,研究者可以避免其他研究者的重复劳动,提高科研的速 度和效益。古往今来一切有成就的研究者,都是在广泛吸收了其他研究者知识的基础上,受 到了良好的启发而取得成功的。因此,任何人在从事特定学科的学术活动时,或者新开始一 项研究任务时,都要花费大量的时间,对该类学科相关论文进行全面的调查研究,明白国内 外该课题的的研究情况,是否已经有人做过或者有人正在做,已经得到了哪些成果,现今尚 未解决的问题是什么,做到心中有数。只有如此,才能避免重复劳动,有所创新、有所前进。
[0003] 随着数字化网络的快速发展和学科的拓展,学术论文信息呈爆炸式增长。这使得 研究者越来越难在其中找到自己感兴趣的论文。在这样的环境下,论文推荐算法应运而生, 可以很好的为研究者推荐相关的学术论文。然而,大部分的论文推荐算法没有利用到论文 的标签的数据。标签在一定程度上概括了论文的主旨,合理的添加标签数据信息可以增强 论文内容之间的关系,可以很有效的解决推荐当中面临的冷启动问题,进而为研究者推荐 新发表的论文,这样可以使研究者更好的了解学科最前沿的技术。
[0004] 学术论文推荐在面向用户的推荐算法中,存在一种基于图模型的重启动的随机游 走算法。图是一种呈现数据的表现形式,有着一些固定的关系结构。在图中,在同一种原则 下,可以很容易的表现出多种数据的信息。通过用图中的节点和它们之间的加权边来表示 对象和其之间存在的关系。此外,加权边的权值还可以表示对象之间的关系的强度。利用图 模型,可以很容易的利用数据集中的各种信息。Tian和Jing在2013年提出了一种基于二部 图模型的学术论文推荐方法。该方法将用户-论文关系、用户的相似度和论文的相似度关系 结合到一起,为用户推荐感兴趣的论文。同年,Meng和Gao等提出一种基于多层图模型的学 术论文推荐方法。该方法通过LDA(Latent Dirichlet Allocation)找出论文潜在的话题模 型,并将其与作者信息、引文信息和词汇信息相结合,充分利用数据中的各种信息来实现个 性化的论文推荐。

【发明内容】

[0005] 基于上述【背景技术】,本发明提出了一种结合标签数据的二部图模型,充分利用数 据中的各种信息,将数据中的标签信息添加到论文的内容中,在保证精度的基础上,高效快 速的为研究者推荐学术论文。传统的学术论文推荐方法往往忽略了论文的标签信息,然而, 学术论文的标签信息以简短的语义概括了论文的主旨,在帮助用户找到自己感兴趣的论文 过程中起到非常重要的作用。通过添加标签信息,本发明可以有效的增强论文之间的内容 联系,可以更好的表示在这种关系下,学术论文之间的相互关系,有效的解决了推荐当中面 临的冷启动问题,进而优化整个算法,提高推荐的精度。使用本发明提供的推荐方法,可以 应用到论文的搜索系统中,提供新发表论文的推荐服务或者是提高推荐的精度。
[0006] 本发明提出的论文推荐方法是结合标签数据二部图模型的混合方法。将论文的标 签信息与论文的其他信息有机结合,提高推荐的精度,同时又添加论文之间的部分相似度 关系,以保证推荐的效率。为了方便组织论文的异构信息,本发明需要做一些初始工作,具 体步骤是:
[0007] 1.向量化标签信息
[0008] 首先对标签数据进行去噪,去除在所有论文中出现次数少于5的标签。其次,统计 剩余的标签数据,组成一个标签的向量,其中每一行的行号对应论文的编号,向量中的每一 项表示该标签是否在此论文中出现,出现则值为1,否则值为〇。如公式(1)所示:
[0009] ? ^2' - h ! C1)
[0010] 上式中1表示数据中标签的总数。
[0011] 2.向量化论文内容信息
[0012] 提取论文的标题和摘要信息,去除停用词,组成论文文本向量,其中每一行的行号 对应论文的编号,向量中每一项表示该词汇是否在论文中出现,如若出现则对应位置的值 为1,否则为〇。如公式(2)所示:
[0013] <2)
[0014] 3.整合论文向量信息和内容信息
[0015] 由于标签以简短的语义概括了论文的主旨,从而可以帮助用户更好地发现和自己 研究邻域相关的论文。其作用类似于论文的关键字信息,因此本发明整合论文标签向量和 论文的内容向量的方式,将论文的标签信息添加到论文的内容信息中,最终得到论文的特 征向量。如公式(3)所示:
[0016] 為={為-為〈3.)
[0017] 其中式中的WT表示标签信息在文本向量中的权重。
[0018] 4.计算学术论文的相似度
[0019] 根据论文的特征向量,运用余弦相似度的算法,计算论文之间的相似度。如公式 (4)所示:
(4)
[0021] 5.构建结合标签数据的二部图模型
[0022] 1)将数据集中的所有用户和论文看为图中的顶点,每个用户或者论文当为二部图 中的一个顶点。
[0023] 2)根据用户-论文的查阅关系,构建用户顶点集与论文顶点集之间边的联系。如果 用户U收藏了论文A,那么在二部图中对应的用户U顶点和论文A顶点之间存在边,否则不存 在边。如公式(5)所示:
[0024] A, fl,如果论文A在用户U的列表中 … H(U,A) = \ (5; 1〇,其他情况
[0025] 3)根据论文之间的引用关系,构建二部关系图中论文-论文的引用关系,用于加强 子图中论文之间的内在联系。如果论文A引用论文B,则在论文子图中对应论文A顶点与论文 B顶点之间存在边,否则不存在边。如公式(6)所示
[0026] 咖的冲,如果论文八引用了论文B 0 ' 1〇,其他情况
[0027] 4)根据结合标签信息后计算得到的论文相似度,采用K近邻算法,找到论文前K个 最邻近的论文,然后在二部图模型中给对应的顶点之间添加一条边。
[0028] 6本发明运用重启动的随机游走算法计算二部图模型中顶点之间的相似度,根据 结果为用户推荐学术论文。
[0029] 1)用符号G来表示结合标签数据的二部图模型,M表示其邻接矩阵,并对邻接矩阵M 进行行标准化得到其正则化的概率转移矩阵心
[0030] 2)在二部图G上运用重启动的随机游走算法,如公式(7)所示:
[0031] '山=(1-(.)?,#?户+e* 歹 (1)
[0032] 其中c是重启动的概率,即每次迭代过程中回到出发点的概率是重启动向量,表 示初始状态。重启动向量#中取种子顶点值为1,其余为〇。表示第t步图中概率分布,f表 示第t步由种子顶点转移到顶点i的概率。
[0033] 3)为了缩减公式(7)的时间和内存消耗,采用BEAR(Block Elimination Approach for Random Walk with Restart on Large Graphs)算法,对二部图模型顶点重新排列,分 块计算各个矩阵的逆,得到最终的结果。
[0034] 4)对最终的概率分布?排序,找出与种子顶点相似的Top N个顶点。
【附图说明】
[0035] 图1是本发明的结合标签数据的二部图模型;
[0036] 图2是本发明在数据集上和其他模型测试结果时间和内存效率的对比;
[0037] 图3是本发明在数据集上和其他模型测试结果召回率的对比;
[0038] 图4是本发明在数据集上和其他模型测试结果成功率的对比。
【具体实施方式】
[0039] 下面参照附图,并结合具体的数据集,对本发明的实施例进行详细的描述。以下描 述的实施例仅仅是示例性的,只用于更好的解释本发明,便于本发明领域内的研究人员更 好的理解,不能理解为对本发明的限制。
[0040] 本发明是一种结合标签数据的二部图模型学术论文推荐方法,主要是对学术论文 进行推荐。如图1所示,本发明包括以下步骤:
[0041] S1 ?数据集介绍
[0042] 本发明具体的实施例使用的是数据集是从CiteULike上采集的,数据集中具体包 括16980个学术论文信息、5551个用户列表信息、46391个论文的标签信息和44709个论文引 用关系,其中学术论文主要的内容信息包括其标题和摘要信息。
[0043] S2 ?数据预处理
[0044]数据预处理包括文本信息处理、标签信息处理和论文相似度计算三部分。
[0045] 1)文本信息处理
[0056]对于学术论文的标题和摘要,去除其中的停用词后,计算其TF-IDF( term frequency-inverse document frequency)的值,并按降序对其排列,选出前8000个不相同 词组成词汇表,按顺序对其进行编号。然后根据词汇表,将每篇论文用词汇向量表示。例如 "50 3:8 10:5 980:1…"这表示论文向量化的文本信息的格式,"50"表示该论文中总共的 词汇数,"3:8"表示编号为"3"的词汇在该论文中出现了 "8"次。
[0047] 2)标签信息处理
[0048]本发明将使用次数少于5次的论文标签数据移除,得到7386个不同的标签。根据最 终的标签数据,将每篇论文组成标签向量,例如"10 4 578 7385…"这表示论文向量化的标 签信息的格式,"10"表示该论文中标签的总数,"4"标签编号为"4"的标签在该论文中出现。 [0049] 3)论文相似度计算
[0050] 将论文的词汇表和论文的标签组合,得到15386个不同的词汇,组成所有特征词汇 表。将1)、2)得到的论文向量组合,构建论文特征向量。例如"60 3:8 10:5 980:1…8004: k8578:k 15385:k…"这表示论文特征向量的格式,"60"表示该论文中所有特征的总数,"3: 8"表示编号为"3"的词汇在该论文中出现了 "8"次,"8004:k"标签编号为"4"(8004-8000)的 标签在该论文中出现,其中"k"表示标签在论文中的权重。之后根据最终论文的特征向量计 算论文之间的余弦相似度。
[0051] S3模型训练
[0052]将数据集中的所有论文平均分为5组,轮流将其中一组作为测试集,其他4组作为 训练集。对于训练集,同样将其分为5份,选取1份做测试集,4份为训练集进行五折交叉验 证。通过交叉验证确定模型的参数,选取综合性能最好的参数在测试集上进行预测,得到5 组预测结果,再求其均值,作为对算法性能的估计。
[0053] S4评价指标
[0054]召回率通常被用于评测推荐算法的精度,召回率越大,推荐的结果质量越高,召回 率的计算公式为:
[0056]由于用户对该论文没有兴趣或者用户不知道该论文,都可能导致预测过程中的零 项,因此准确率不能应用于论文推荐上。在这里用successON作为另一个评价指标。它被定 义为推荐的前N个用户中发现一个真实存在的用户的概率。当对某篇论文推荐N个用户中存 在一个正确的用户,那么success_= 1,反之为(LsuccessON定义为: r n _ft7 fl,如果在推荐列表中存在对论文感兴趣的用户
[0057] success@ISl = \ 1〇,其他情况
[0058] 最后本发明统计所有的recallON和successON,分别计算平均值作为模型的最后 预测结果。
[0059]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领域的技术 人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技 术人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发 明构思的发明创造均在保护之列。
【主权项】
1. 一种结合标签数据的二部图模型学术论文推荐方法,包括相关数据预处理、结合标 签的二部图模型的构造及学术论文推荐方法的实现。具体操作步骤如下: 步骤a.预处理数据集,去除其中的噪音数据; 步骤b.将论文的标签信息进行向量化处理; 步骤c.将论文内容信息和论文标签结合,计算论文之间相似度; 步骤d.根据用户收藏论文关系、引入标签后的论文相似度与论文之间的引用关系构建 二部图模型; 步骤e.在最终结合标签数据的二部图模型上,运用重启动的随机游走算法,计算节点 之间的结构相关性。2. 根据权利要求1所述的论文推荐方法,其特征是步骤a,具体包括将在所有数据集中 出现次数少于5次的标签数据移除,减少标签噪音数据,并重新构建论文-标签隶属的关系。3. 根据权利要求1所述的推荐方法,其特征是步骤b,具体包括统计论文中的标签信息, 组成一个标签的文本向量,其中每一行的行号对应论文的编号,向量中的每一项表示该标 签是否在论文中出现,出现则值为1,否则值为0。如公式(1)所示: 為-1,1 "2.,、·,,(. 1 .)4. 根据权利要求1所述的推荐方法,其特征是步骤c,具体包括 (cl)提取学术论文中的标题和摘要信息,构建论文的内容文本信息。 (c2)对得到的论文文本信息去除停用词,计算其TF_IDF( term frequency-inverse document frequency)值,根据计算得到的值,获取前N项组成词汇表,并对每个词汇进行编 号。 (c3)根据得到的词汇表,统计每篇论文的文本信息,组成论文文本向量,其中每一行的 行号对应论文的编号,向量中每一项表示该词汇是否在论文中出现,如若出现则对应位置 的值为1,否则为0。如公式(2)所示: 4w= (WJ5W2,:...,,Wp) (2) (c4)将论文的标签信息添加到论文的内容信息中。 由于标签以简短的语义概括了论文的内容信息,从而可以帮助用户更好地发现和自己 研究邻域相关的论文。其作用类似于论文的关键字信息,因此本发明整合论文标签向量和 论文的内容向量的方式,将论文的标签信息添加到论文的内容信息中,最终得到论文的特 征向量。如公式(3)所示: A1 = (Ai, Wt-Ah} (3) 其中式中Wt表示标签信息在文本向量中的权重。 (c5)根据论文的特征向量,本发明使用余弦相似度来计算论文之间的相似度。如公式 (4)所示: I Α *Λ, I sim(A.,A) =--^:- (A) J 14.114 丨 '5. 根据权利要求1所述的推荐方法,其特征是步骤d,具体包括: (dl)根据用户列表中对应的论文,本发明将每个用户和每篇论文都看为图中的顶点, 用于构建用户-论文二部关系图。 (d2)根据用户-论文的查阅关系,构建用户顶点集与论文顶点集之间边的联系。如果用 户U收藏了论文A,那么在二部图中对应的用户U顶点和论文A顶点之间存在边,否则不存在 边。如公式(5)所示: 如果论文A在用户U的刻表中 (5) ,其他情况 〇 (d3)根据论文之间的引用关系,构建二部关系图中论文-论文的引用关系,用于加强子 图中论文之间的内在联系。如果论文A引用论文B,则在论文子图中对应论文A顶点与论文B 顶点之间存在边,否则不存在边。如公式(6)所示 1〇,其他情况 (d4)根据结合标签信息后计算得到的论文相似度,采用K近邻算法,找到论文前K个最 邻近的论文,然后在二部图模型中给对应的顶点之间添加一条边。6.根据权利要求1所述的推荐方法,其特征是步骤e,具体包括 (el)根据权利5得到的结合标签数据的二部图模型用符号G来表示,M表示其邻接矩阵, 并对邻接矩阵M进行行标准化得到其正则化的概率转移矩阵# 在二部图G H云用重启动的随机游走算法,如公式(7)所示:(7) 其中c是重启动的概率,即每次迭代过程中回到出发点的概率。$是重启动向量,表示初 始状态。重启动向量I中取种子顶点值为1,其余为〇。?£表示第t步图中概率分布,f表示第t 步由种子顶点转移到顶点i的概率。 (e3)为了缩减公式(7)的时间和内存消耗,采用BEAR(Block Elimination Approach for Random Walk with Restart on Large Graphs)算法,对二部图模型顶点重新排列组 合,分块计算各个子矩阵的逆,重复迭代,直到F收敛,等到目标顶点与图中其它各个顶点稳 定的概率分布。 (e4)对最终的概率分布?排序,找出与目标顶点相似的Top N个顶点。
【文档编号】G06F17/30GK105893585SQ201610205785
【公开日】2016年8月24日
【申请日】2016年4月5日
【发明人】程红蓉, 蔡腾远, 张盼, 唐明霜, 郭彦伟
【申请人】电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1