一种基于混合网络与DPP的论文推荐方法

文档序号:36492303发布日期:2023-12-27 00:52阅读:33来源:国知局
一种基于混合网络与

本发明涉及一种论文推荐方法,适用于论文推荐。


背景技术:

1、在学术领域,随着各种论文资源的数量迅猛增长,学者们开展论文调研工作的难度也日益增大。研究人员需要耗费大量时间与精力去研判论文的相关性及价值,科研效率也随之受到影响。isi web of science 收录了各个研究领域最具影响力的8850(sci)+3200(ssci)+1700(ahci)多种核心学术期刊。截止2017年,就已经包括了12000种高影响期刊和160000种会议记录。ieee xplore 提供超过500万份文档的web访问、1900多个全球会议、11000多个技术标准、近5000本电子书和500多个在线课程,每月大约增加20000份新文件。

2、为提升论文推荐系统的准确性,常用的方法有二部图和引文网络两种方法。如图1所示,二部图是一种图表,也称为二元关系图(binary relation diagram),用于表示两个不同类型节点之间的关系。其中,一个圆圈代表一个节点,另一个圆圈代表另一个不同类型的节点,线段代表两个节点之间的关系。二部图在图论、数学、计算机科学等领域中被广泛应用,例如在社交网络的研究中,二部图被用来表示人与兴趣、人与物品之间的关系。例如,如果有三个人alice、bob和charlie,和两篇论文paper1和paper2。如果alice和bob都阅读了paper1,而bob和charlie都阅读了paper2,那么对应的二部图就是:alice和bob都阅读了paper1,所以对应的二部图上有一条连接alice和paper1的线段,以及一条连接bob和paper1的线段。同理,bob和charlie都阅读了paper2,所以对应的二部图上也有一条连接bob和paper2的线段,以及一条连接charlie和paper2的线段。二部图的优点是简单易懂,能够有效地表示人和论文之间的阅读关系。如图2所示,论文的引文网络是指一组论文之间的引用关系形成的网络,其中每一个节点代表一个论文,每一条边表示一个论文与另一个论文的引用关系。引用网络常常被用于分析学术界的知识传播和学科间的关联。在引文网络中,节点代表论文,有向边代表论文之间的引用关系。引文网络的分析可以帮助我们研究不同学科和领域之间的相互关系,发现重要的学术趋势和研究热点,评估学术成果的影响力等。

3、由于二部图过于关注用户与物品之间的关系,无法表示论文与论文之间的关系。引文网络过于关注论文之间的引用关系,而忽略了论文与用户之间的关系,拥有单一的、具有局限性的信息,会使得推荐结果不准确,甚至错误。因此缺乏任意一种信息,都会对推荐的准确度造成影响。

4、此外,多样性也是论文推荐系统的一个度量标准,论文的多样性可以为拓宽研究人员视野,为研究者提供更多的灵感,帮助用户快速、准确地获取其研究需要的相关论文,减轻“科学信息过载”现象对科研效率的影响,并在推荐结果中尽可能提供多样性,为研究者提供灵感。大多数论文推荐系统仅仅把追求较高准确性作为推荐目标,只关注论文之间的相似度,而忽略了多样新,导致用户潜在的一些兴趣可能被忽略,用户满意度不高。


技术实现思路

1、本发明的目的在于提供一种基于混合网络与dpp的论文推荐方法,可以大大提高论文推荐的准确性和多样性。

2、为实现上述发明目的,本发明采取的技术方案为:一种基于混合网络与dpp的论文推荐方法,其特征在于,包括如下步骤:步骤1: 获取学术论文库数据;步骤2:提取论文之间的引用关系,构成引文网络,该网络图中包含了论文之间引用关系的特征;步骤3:体用用户浏览记录,建立用户—论文二部图,该网络图中包含了用户对不同论文感兴趣程度的特征;步骤4:将步骤2与步骤3生成的网络图进行融合,生成混合网络,同时包含了论文之间引用关系的特征和用户对不同论文感兴趣程度的特征;步骤5:基于node2vec进行有偏随机游走,生成各个节点的特征向量;步骤6:提取网络中表示论文的节点,与其对应的特征向量,得到基于混合网络的论文特征矩阵;步骤7:通过对论文内容本身的文本预处理,包括特殊字符的去除,大写全部转换为小写后,使用bert模型提取论文文本特征,得到基于bert的论文特征矩阵;步骤8:将步骤6和步骤7中的论文特征矩阵使用特征拼接的方式进行特征融合,得到最终的论文特征矩阵;步骤9:使用余弦相似度算法,计算论文之间的相似度,生成相似度矩阵;步骤10:当用户进入系统时,根据其浏览记录,根据每一篇论文,通过相似度矩阵得到相似度最高的m篇论文,最终通过加权,得到推荐给该用户的m篇论文;步骤11:对步骤10得到的m篇论文使用dpp算法,得到多样性最强的n片论文;其中n小于m。

3、上述方案中,使用dpp算法的步骤为:基于引入相关性参数的 dpp 数学模型,对论文 embedding 进行子集筛选,保证推荐结果多样性,具体过程为:

4、给定k个论文,把这些论文的 embedding 表征为k个 d 维单位向量 v1,v2,……vk ;

5、由于同一维度上的数值差距越大,两个向量的夹角越大,所有这些单位向量的组成的超平形体的体积可以用来衡量论文集合的多样性;

6、超平形体的体积为全部论文特征向量的乘积,当v1,v2,……vk两两正交时,体积最大,多样性最好;

7、而体积与行列式的关系如下:

8、

9、 det 表示determinant,其含义为行列式;p(v1,v2,…,vk)表示v1,v2…vk 组成的超平形体,vol表示体积;该公式的含义表示,超平形体的体积与行列式的值大小,是成正相关的。

10、上述方案中,步骤10中, m的数值为50。

11、上述方案中,步骤11中,n的数值为20。

12、本发明的有益效果:(1)使用二部图与引文网络构建混合网络,并且针对不同类型关系,进行权重的编排,最后使用图嵌入的方式得到论文的 d 维向量表征。保证了最终的结果既包含论文与论文之间的关系,又包含了用户与论文的关系,提供了更高的准确性。(2)基于引入相关性参数的 dpp 数学模型,对论文集合进行子集筛选,保证推荐结果多样性。



技术特征:

1.一种基于混合网络与dpp的论文推荐方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于混合网络与dpp的论文推荐方法,其特征在于,使用dpp算法的步骤为:基于引入相关性参数的 dpp 数学模型,对论文 embedding 进行子集筛选,保证推荐结果多样性,具体过程为:

3.根据权利要求2所述的一种基于混合网络与dpp的论文推荐方法,其特征在于,步骤10中, m的数值为50。

4.根据权利要求2所述的一种基于混合网络与dpp的论文推荐方法,其特征在于,步骤11中,n的数值为20。


技术总结
本发明公开了一种基于混合网络与DPP的论文推荐方法,包括(1)使用二部图与引文网络构建混合网络,并且针对不同类型关系,进行权重的编排,最后使用图嵌入的方式得到论文的d维向量表征。保证了最终的结果既包含论文与论文之间的关系,又包含了用户与论文的关系,提供了更高的准确性。(2)基于引入相关性参数的DPP数学模型,对论文集合进行子集筛选,保证推荐结果多样性。

技术研发人员:许颜鹏
受保护的技术使用者:江苏大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1