一种基于多源异构信息图模型的学术论文标签推荐方法

文档序号:10488926阅读:408来源:国知局
一种基于多源异构信息图模型的学术论文标签推荐方法
【专利摘要】本发明是一种基于多源异构信息图模型的学术论文标签推荐方法。本发明根据普遍存在于标签数据集的三元关系,即用户?物品?标签,再结合物品之间的内容信息,构建了多源异构信息图模型。该图模型可以将多种数据信息整合到一个图中,可以方便的发现哪种数据信息组合能更好地提升标签推荐的精度。除此之外,本发明设计的图模型仅仅添加少部分文本内容相似度关系,因此该图模型具有高效的执行效率。通过相关实验,本发明得到了较传统标签推荐方法更加有效的执行效率和更高的推荐精度。
【专利说明】
一种基于多源异构信息图模型的学术论文标签推荐方法
技术领域
[0001] 本发明涉及数据挖掘、信息提取和推荐系统领域,是一种基于多源异构信息图模 型的学术论文标签推荐实现方法。
【背景技术】
[0002] 随着互联网的快速发展,像音乐、图片、电影和论文之类的在线资源快速增长。标 签被广泛的用于对这类资源进行注释和分类,以便于用户的查找搜索。同时,标签系统也被 广泛的应用于各个网站,成为其重要的组成部分,例如音乐网站Last, fm、论文网站 CiteULike和电影评论网站豆瓣等。在这些网站中,标签以简短的词汇描述了物品,用户可 以根据物品的标签属性,快速的了解该物品,方便了其对物品的筛选查找,提升了用户的体 验。与此同时,网站希望用户可以给物品标注准确客观的标签信息,用于保证标签系统的良 性循环。在这种环境下,标签推荐应运而生,同时,标签推荐也成为当前的研究热点,受到各 个领域的关注。
[0003] 标签推荐系统可以高效的为用户提供恰当的标签,节省了时间,提高了用户的参 与度,提升了用户实际体验。同时,标签推荐系统还可以规范标签的书写,减少了歧义,提高 了标签品质。
[0004] 标签推荐的主要任务是为用户快速的找出合适的标签信息。在标签推荐系统中, 存在一种混合图模型的方法。利用图模型,可以很容易的利用数据集中的各种信息。图是一 种数据呈现的形式,有一定的关系结构。图中,可以很方便的在同一种标准下呈现出多种数 据信息。图中边的权重可以很好的表示各个对象关系的强弱。本发明根据标签数据中普遍 存在的三元关系,设计了新的层次图模型。于此同时,通过K近邻算法计算物品的文本内容 信息,并将计算得到的邻居添加到图模型中,这样可以加强物品之间的内在联系,充分利用 多种数据信息,提高推荐精度。

【发明内容】

[0005] 基于上述【背景技术】,本发明提出了一种基于多源异构信息图模型,高效地为学术 论文推荐相关的标签信息。传统的标签推荐方法没有能直观的呈现出标签数据的结构,然 而,赋有层次的图模型不仅可以很好的呈现出数据的内在结构,而且能很好的整合各种数 据信息。本发明设计的多源异构信息图模型具有多层次的特点,可以方便的观察出哪些数 据信息组合能更加有效地提高标签推荐精度,进而优化整个算法,提高推荐的性能。使用本 发明的标签推荐方法,可以应用于网络标签系统中,用于提供标签推荐功能和提高推荐标 签的质量,提升用户实际体验。
[0006] 本发明提出的学术论文标签推荐方法是一种基于多源异构信息图模型的混合方 法。该方法用赋有层次的图模型直观的呈现和整合了各种数据信息,提高了推荐的精度。同 时,因只添加部分论文文本内容相似性关系,该方法可以保证推荐的执行效率。本发明的具 体实施步骤如下:
[0007] I.论文文本信息向量化
[0008] 1)提取数据集中学术论文的标题和摘要信息,用于构建论文的内容文本信息。
[0009] 2)去除论文文本信息中的标点符号以及停用词,然后计算其TF-IDF( term frequency -inverse document frequency)值,获取前1^项高分词汇组成词汇表,按降序对 词汇进行排序,并对词汇表中的每个词汇进行编号。
[0010] 3)根据得到的词汇表,统计每篇论文的词汇信息,组成论文的一个文本向量,其中 每一行的行号对应于数据集中论文的编号,每行是论文词汇向量化的结果,其中每一项表 示成词汇编号、词频的形式。
[0011] 2.计算论文之间相似度
[0012] 根据论文的文本向量,本发明使用余弦相似度计算论文之间的相似性。如公式(1) 所示: 「00131
(1)
[0014] 3.构建多源异构信息图
[0015] 1)根据数据集中含有的信息,本发明将用户、论文以及标签看做图中的三种顶点, 用于构建多源异构信息图。
[0016] 2)根据论文中含有标签信息的关系,构建论文顶点集与标签顶点集之间边的关 系。如果论文A中含有标签T,则在多源异构信息图中对应的论文A顶点和标签T顶点之间存 在边,否则不存在边。如公式(2)所示:
[0017] 1〇,其他情况
[0018] 3)根据论文之间的引用关系,加强论文子图内部关系,构建论文-论文边关系。如 果论文A引用了论文B,则在图中对应论文A顶点和论文B顶点之间存在边,否则不存在边。如 公式(3)所示:
[0019] ~ Λ n、 f 1,如果论文A引用论文B /Λ、 / (A B) = < (3) 1〇,其他情况
[0020] 4)根据论文文本内容相似性的关系,进一步加强论文子图内部关系,构建论文之 间边的关系。本发明使用K近邻算法找出论文前K个最邻近的论文,然后在图中给对应顶点 之间添加一条边。如公式(4)所示:
[0021] ( 、(1,如果论文Ai是论文Ai的近邻 E(AilAj) = ] (4) (0,其他情況
[0022] 5)根据用户查阅论文的关系,本发明将用户的信息添加进图中,充分利用各种信 息。如果用户U查阅过论文A,则在图中对应的用户U顶点和论文A顶点之间存在边,否则不存 在边。如公式(5)所示:
[0023] (、(1,如果用户U查阅过论文A ,、 E(U1A) = ·- (5) 1〇,其他情况
[0024] 4.本发明在多源异构信息网络图模型上,运用重启动的随机游走算法,计算各个 节点之间的结构相关性。
[0025] 1)根据多源异构信息网络图模型,得到其邻接矩阵Μ,然后对邻接矩阵M经行正则 化得到标准化后的矩阵M ?
[0026] 2)本发明在多源异构信息网络图模型上运用重启动的随机游走算法,计算图中各 个节点之间的结构相关性。如公式(6)所示:
[0027] (*>) 其中c是返回出
友点的概率,ft是里启动向量,表示初始状态。重启动向量%是第i维为 1的单位向量。
[0028] 3)多次迭代公式(6),经过有限次的随机游走过程,图中各个顶点之间的概率达到 平稳的状态,再次迭代不会改变图中的概率分布。此时,图中每个点的概率值馬可以看为该 顶点与出发点的相似度。
[0029] 4)对稳定的概率分布麥进行排序,找出与目标顶点结构相关的Top N候选顶点。
【附图说明】
[0030] 图1是本发明的多源异构信息网络图模型;
[0031] 图2是本发明在两个数据集上与其他标签推荐模型推荐结果时间的对比;
[0032]图3是本发明在数据集CiteULike-a上与其他标签推荐模型推荐结果召回率的对 比;
[0033]图4是本发明在数据集CiteULike-t上与其他标签推荐模型推荐结果召回率的对 比;
[0034]图5是本发明在数据集CiteULike-a上与其他标签推荐模型推荐结果成功率的对 比;
[0035]图6是本发明在数据集CiteULike-t上与其他标签推荐模型推荐结果成功率的对 比;
[0036]图7是本发明在数据集CiteULike-a上与其他标签推荐模型推荐结果nDCG的对比。 [0037]图8是本发明在数据集CiteULike-t上与其他标签推荐模型推荐结果nDCG的对比。
【具体实施方式】
[0038]下面结合【附图说明】和实际的数据集对本发明的【具体实施方式】进行详细的描述,以 下描述的实施例仅仅是示例性的,只用于更好的解释本发明,便于本发明领域内的研究人 员更好的理解本发明的实施例,不能理解为对本发明的限制。
[0039] 1数据集介绍
[0040]本发明具体实施例使用的两个数据集均采自于CiteULike,一个称之为 CiteULike-a,另一个为CiteULike-t。其中两个数据集相对于论文-标签矩阵的非零元比率 分别为0.00145和0.00104,这说明数据集(:^61]1^1?54比(:^61]1^1?5-&更加稀疏。本发明的 具体实施例最终得到的数据集具体描述如表1所示。
[0041]表一数据集简介
[0043] 2数据预处理
[0044]数据预处理部分包括数据去噪处理、文本信息向量化和相似度计算三部分内容。 [0045] 1)数据去噪处理
[0046]将两个数据集中使用次数少于5次的标签剔除,减少噪音数据,降低数据维度。最 终两个数据集分别得到7386和8311个标签信息。
[0047] 2)文本信息向量化
[0048]对于论文的内容信息,去除其中的标点和停用词,根据计算得到的TF-IDFUerm frequency-inverse document frequency)值,分别选取前8000和20000个高频词组成词汇 表。根据得到的词汇表,向量化论文内容信息。例如"90 1:6 20:3 7000:1···"这表示论文词 汇向量化的文本信息格式,其中"90"表示该论文中总共含有90个词汇表中的词汇,"1:6"代 表编号为"Γ的词汇在该篇论文中出现了6次。
[0049] 3)相似度计算
[0050]根据论文词汇向量化的结果,采用余弦相似度的计算方式,对其进行计算,得到各 个论文的余弦值。
[0051] 3模型训练
[0052] 随机对每个标签选取5篇论文组成训练集,其余的部分作为测试集。对于训练集, 将其均分为5份,轮流选取1份作为测试集,剩余的4份为训练集进行5折交叉验证,用于确定 模型的最优参数。选取性能最优的参数在测试集上进行预测得到预测结果。重复实验5次, 求其平均值,作为对算法性能的估计。
[0053] 4评价指标
[0054] 推荐算法的性能一般采用召回率进行评测,召回率的值越大,算法的性能越好。召 回率的计算公式如下:
[0055] =推荐的签标签数 和论_3ζ相天的fe签总敎
[0056] 由于用户在使用标签标注论文的时候,不知道标签的存在或者不是使用已知存在 的标签,都可能导致预测过程中的零项,因此准确率不能应用于标签推荐上。这里本发明采 用另一个评测指标,称之为successON。它被定义为在前N个推荐的标签中存在一个真实存 在于论文中的概率。当对某篇论文推荐N个标签中存在一个正确的标签,那么successON = 1,反之为(^success·定义为: Γ ? " fl,如果推荐列表中存在至少一个正确的标签
[0057] Success(O)N -] _ 1〇,其他情况
[0058] 另外,nDCG可以用于评测推荐结果排序的好坏。在此,本发明还使用了 nDCG来评测 最终标签推荐结果的排序质量。nDCGON定义为:
[0059]
[0060]其中reli是一个二进制数值,表示推荐列表中第ith位置的标签是否正确。IDCG是 以分子形式计算得到的最优得分。
[0061 ] 最后本发明统计所有的recall_、success@N和nDCG_,并分别计算平均值作为模 型的最后预测结果。
[0062]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领域的技术 人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技 术人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发 明构思的发明创造均在保护之列。
【主权项】
1. 一种基于多源异构信息图模型的学术论文标签推荐方法,该方法包括相关数据的预 处理部分、多源异构信息图模型的构造部分W及学术论文标签推荐方法的实现部分。具体 步骤如下: 步骤a.对数据集进行初始化操作,去除标签噪音数据; 步骤b.将学术论文的文本信息进行向量化处理; 步骤C.根据论文的文本向量计算论文之间的相似度; 步骤d.根据数据中用户收藏论文关系、论文标签关系、论文引用关系和相似度关系构 建多源异构信息图; 步骤e.在多源异构信息图模型上,运用重启动的随机游走算法,计算各个节点之间的 结构相关性。2. 根据权利要求1所述的标签推荐方法,其特征是步骤a,具体包括将数据集中标签出 现次数少于5次的标签移除,去除噪音数据,降低数据维度,重新构建论文-标签隶属关系 对。3. 根据权利要求1所述的标签推荐方法,其特征是步骤b,具体包括: (bl)提取数据集中论文的标题和摘要信息,用于构建论文的内容文本信息。 化2)去除论文文本信息中的标点符号W及停用词,然后计算其TF-IDF值,获取前N项词 汇组成词汇表,并对词汇表中的每个词汇进行编号。 (b3)根据得到的词汇表,统计每篇论文的词汇信息,组成论文的一个文本向量,其中每 一行的行号对应于数据集中论文的编号,每行是论文词汇向量化的结果,其中每一项表示 成词汇编号、词频的形式。4. 根据权利要求1所述的推荐方法,其特征是步骤C,具体包括根据论文的文本向量,使 用余弦相似度来计算论文之间的相似关系。如公式(1)所示:(1):5. 根据权利要求1所述的标签推荐方法,其特征是步骤d,具体包括 (dl)根据数据集中含有的信息,本发明将用户、论文W及标签看做图中的Ξ种顶点,用 于构建多源异构信息图。 (d2)根据论文中含有标签信息的关系,构建论文顶点集与标签顶点集之间边的关系。 如果论文A中含有标签T,则在多源异构信息图中对应的论文A顶点和标签T顶点之间存在 边,否则不存在边。如公式(2)所示:α) (d3)根据论文之间的引用关系,加强论文子图内部关系,构建论文-论文边关系。如果 论文A引用了论文B,则在图中对应论文A顶点和论文B顶点之间存在边,否则不存在边。如公 式(3)所示:(3) (d4)根据论文文本内容相似性的关系,进一步加强论文子图内部关系,构建论文之间 边的关系。本发明使用κ近邻算法找出论文前κ个最邻近的论文,然后在图中给对应顶点之 间添加一条边。如公式(4)所示:(4) (d5)根据用户查阅论文的关系,本发明将用户的信息添加进图中,充分利用各种信息。 如果用户U查阅过论文A,则在图中对应的用户U顶点和论文A顶点之间存在边,否则不存在 巧。血公击化)所元,(5)6.根据权利要求1所述的标签推荐方法,其特征是步骤e,具体包括 (el)根据多源异构信息图模型,得到其邻接矩阵M,然后对邻接矩阵Μ进行正则化得到 标准化后的矩阵掘。 (e2)本发明在多源异构信息图模型上运用重启动的随机游走算法,计算图中各个节点 之间的结构相关性。如公式(6)所示:脚 其中C是返回出发点的概率,帛是重启动向量,表示初始状态。重启动向量奈是第i维为1 的单位向量。 (e3)多次迭代公式(6),经过有限次的随机游走过程,图中各个顶点之间的概率达到平 稳的状态,再次迭代不会改变图中的概率分布。此时,图中每个点的概率值與可W看为该顶 点与出发点的相似度。 (e4)对稳定的概率分布0进行排序,找出与目标顶点结构相关的Top N候选顶点。
【文档编号】G06F17/21GK105843799SQ201610208244
【公开日】2016年8月10日
【申请日】2016年4月5日
【发明人】程红蓉, 蔡腾远, 张盼, 郭彦伟, 唐明霜
【申请人】电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1