权威作者和高质量论文推荐系统和推荐方法

文档序号:6510133阅读:170来源:国知局
权威作者和高质量论文推荐系统和推荐方法
【专利摘要】一种权威作者和高质量论文的推荐系统和推荐方法,该推荐系统根据每个设定主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐指定主题的权威作者和高质量的论文,避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并能降低系统计算量,提高系统反应时间。本发明依据学术论文特性,综合考虑作者权威值和论文质量值的各种影响因素,改进了相关算法,提高了推荐结果的准确性,不仅能够为用户推荐高质量论文,还显著缩减计算时间,实时更新效果好;在论文推荐列表中还能够提高推荐结果的多样性,并克服现有系统导致用户视野越来越窄的缺陷。
【专利说明】权威作者和高质量论文推荐系统和推荐方法
【技术领域】
[0001]本发明涉及一种权威作者和高质量论文推荐系统和方法,确切地说,涉及一种针对用户操作行为的权威作者和高质量论文的个性化推荐系统和推荐方法,属于数据挖掘和机器学习的【技术领域】。
【背景技术】
[0002]2003 年,D.M.Blei 等人提出潜在狄利克雷 LDA (Latent Dirichlet Allocation)模型。LDA模型是在概率潜在语义分析PLSA(Probabilistic Latent Semantic Analysis)基础上,使用一个服从Dirichlet分布的K维隐含随机变量Y表示文本的主题概率分布,并模拟文本的生成过程。后来,有人对该模型中的η参数施加Dirichlet先验,使其服从Dirichlet分布,该参数为δ k,其能够使得LDA模型成为一个完整的文本生成模型。这样,LDA主题模型及其扩展技术就被越来愈多地应用于文本挖掘和信息处理等领域。
[0003]LDA是一种非监督的机器学习技术,可用于识别大规模文本集或语料库中潜藏的主题信息。它是采用词袋的方法:将每篇文本视为一个词频向量,从而将文本信息转化为易于建模的数字信息。但是,词袋方法没有考虑词与词之间的顺序,这样虽然将问题的复杂性作了简化处理,同时也为改进模型提供了契机。因每篇文本代表一些主题所构成的一个概率分布,而每个主题又代表一些构成单词的另一个概率分布。由于Dirichlet分布随机向量中各分量间的弱相关性(即各分量之和必须为1),使得人们假想的潜在主题之间是几乎不相关的。
[0004]参见图1,介绍LDA对于语料库中的每篇文本所定义的生成过程如下:
[0005](I)对于每篇文本,从其主题分布中抽取一个主题;
[0006](2)从抽取的主题所对应的单词分布中抽取一个单词;
[0007](3)重复上述两个步骤,直至遍历文本中的每个单词。
[0008]图1展示了 LDA生成过程:其中的3,表示主题k中的词概率分布,Θ 表示第j篇文本的主题概率分布,即第j篇文本的主题特征向量。Θ]和δ,又作为多项式分布的参数,分别用于生成主题和词。K代表主题的总数量,J代表文本的总数量,Bj表示第j篇文本的长度,gj,b和Zj b分别表示第j篇文本中第b个词及该词所属的主题。Y和η是Dirichlet分布的参数,通常是固定值,且对称分布,因此用标量表示。Θ」,Sk均服从Dirichlet分布。
[0009]图1所示的模型表示法被称作“盘子表示法”(plate notation)。图中的阴影圆圈表示可观测变量(observed variable),非阴影圆圈表示潜在变量(latent variable),箭头表示两变量间的条件依赖性(conditional dependency),方框表示重复抽样,重复抽样的次数在方框的右下角。该模型有两个参数需要推断:文本-主题分布Θ 和主题-词分布5k。通过对这两个参数的学习,可以获知文本作者感兴趣的主题,以及每篇文本所涵盖的主题比例等。推断方法主要有LDA模型作者提出的变分-EM算法,以及现在常用的Gibbs抽样法。
[0010]再介绍另一种用于Web网页结构挖掘中具有权威性并广泛应用的算法:超链引导的主题搜索HITS(Hyperlink Induced Topic Search)算法,该算法在现有的各种对网页进行链接分析、并提取分组的算法中,应用最广泛。它是利用Web的链接结构进行挖掘,也就是通过两个评价权值一权威度(Authority)和枢纽值(Hub)来评估网页质量;其基本思路是利用页面之间的引用链接挖掘隐含的有用信息(如权威性),其特点是计算简单、效率高。其中:
[0011]权威值的计算公式为:网页P的权威值
【权利要求】
1.一种权威作者和高质量论文的推荐系统,其特征在于:所述推荐系统根据每个设定主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐权威作者和高质量的论文,以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并降低系统的计算量,提高系统的反应时间;该推荐系统设有:论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库;其中: 论文抓取模块,负责采用网络爬虫抓取相关学科【技术领域】中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间,并根据该期刊或会议名称确定的该期刊或会议的级别,再以该论文的链接地址作为每篇论文的标识加以区分后,将上述论文全部信息都存储于数据库; 预处理模块,负责从数据库中读取每篇论文的摘要和标题,并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理,以及由分词、停用词剔除两个单元依序对论文标题进行处理,得到每篇论文的摘要分词序列和标题分词序列;其中的分词单元依据空格、标点符号对论文标题、摘要进行分词;词性标注单元对分词后的论文摘要标注词性;词性过滤单元依据词性标注单元的标注结果提取名词,停用词剔除单元删除其中对论文没有实际意义的停用词,以提高后续训练和搜索的效率; 主题模型训练模块,负责读取预处理模块中的论文摘要分词序列,将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文都具有其归属每个主题的特征向量,再以每篇论文的标识进行区分; 论文模型构建模块,设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元,所述标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列,再计算每篇论 文的标题分词序列中每个词的tf-1df值,得到每篇论文标题的空间特征向量;摘要的空间特征向量计算单元负责读取预处理模块中的每篇论文的摘要分词序列,再计算每篇论文的摘要分词序列中每个词的tf-1df值,得到每篇论文摘要的空间特征向量;关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词,再计算每篇论文的关键词中每个词的tf-1df值,得到每篇论文关键词的空间特征向量;论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型;所述空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-1df值成对组成的多个键值对形成的向量; 用户模型构建模块,负责构建个性化的用户模型:根据从数据库中获取设定时间段内每个用户的全部操作行为记录,以及从主题模型训练模块中获取的论文主题特征向量,计算该用户的当前研究主题集合;再从论文模型构建模块中获取该论文的论文模型,计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量;并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型;设有:用户当前研究主题计算、用户标题空间特征向量计算、用户摘要空间特征向量计算、用户关键词空间特征向量计算和用户模型构建五个单元; 权威值与质量值计算模块,负责迭代计算针对每个主题的论文作者权威值和论文质量值:读取主题模型训练模块中的论文的主题特征向量,得到归属某主题的所有论文,再从数据库中读取归属于该主题的所有论文的作者信息,得到该主题的全部作者;并依据作者级别设置该主题的全部作者权威值的初始值,依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值;然后,迭代计算该主题的所有作者权威值和论文质量值,直至结果收敛;最后,依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序;设有:作者权威值初始化、论文质量值初始化、作者权威值与论文质量值计算、作者与论文排序四个单元; 作者与论文推荐模块,用于从用户模型读取用户的当前研究主题集合,对于该集合中的每个主题,读取经由权威值与质量值计算模块计算排序后的该主题的所有论文,再计算每篇论文与该用户的相似度后,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,选择位于前列设定数量的论文,形成该用户在该主题的论文推荐初始列表;同时,读取经由权威值与质量值计算模块计算排序后,位于该主题前列的多个作者,形成该用户在该主题的作者推荐初始列表;再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后,删除其中重复的论文和作者,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表保存于数据库;设有:用户与论文相似度计算、相似度过滤和作者与论文过滤三个单元; 数据库,用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每条操作行为记录包含:用户标识、论文标识、操作行为和起止时间。
2.根据权利要求1所述的推荐系统,其特征在于:所述用户模型构建模块将所有用户、所有论文和所有主题分别组成为:用户集合U=,论文集合 P= (P1, p2,...,Pj,, PjI 和主题集合 T= It1, t2,…,tk,…,tK},其中,自然数 1、j和k分别为用户、论文和主题的序号,其最大值分别为:1、J和K;用户Ui的用户模型为Mui= {UTi, UM, Uci, UdJ,即用户模型是由下述四个维度的向量所组成: Un为用户Ui当如研究主题集合、即主题集合T的子集,且Wjb = +,自然数下标Si为该用户当前研究主题的序号,其最大值Si为用户Ui的当前研究主题的总个数; Um为用户Ui操作过的论文集合Ri中所有论文标题分词序列的用户标题空间特征向量,且 其中,Ri为论文集合P的子集,自然数下标Xi为论文集合Ri中所有论文的标题分词序列中的词及其对应tf-1df值的序号,其最大值Xi为UBi中词的总个数,K,为Um中的第Xi个词,_iXi为词 的tf-1df值; Uci为用户Ui操作过的论文集合Ri中所有论文摘要分词序列的用户摘要空间特征向量,且& =份匕4),(%4),--.5《% 4;)},自然数下标71为论文集合Ri中所有论文的摘要分词序列中的词及其对应tf-1df值的序号,其最大值Yi Suei中词的总个数,Ki为uCi中的第yi个词语,< 为词的tf-1df值; UDi为用户Ui操作过的论文集合Ri中所有论文关键词的用户关键词空间向量,且Ua ={(W14MW,Uo:2),自然数下标Zi为论文集合Ri中所有论文的关键词中的词及其对应tf-1df值的序号,其最大值Zi Sum中的词语总个数,,?为Um中第Zi个词语,< 为词》';:;的tf-1df值。
3.根据权利要求1所述的推荐系统,其特征在于:所述用户模型构建模块中的各个组成部件的功能如下: 用户当前研究主题计算单元,用于读取存储于数据库中设定时间段内每个用户对所存储的全部论文包括阅读、收藏、分享、下载和评分的全部操作行为记录,再读取这些操作行为记录中的论文标识,得到该用户在该设定时间段内操作过的论文集合Ri,并根据该用户操作行为计算其对Ri中每篇论文的偏好值,然后结合Ri中每篇论文的主题特征向量,计算该用户对其研究主题的偏好值,并依据偏好值对这些主题进行降序排序,选择位于前列的多个主题,形成该用户的当前研究主题集合; 用户标题空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的标题空间特征向量,然后将这些标题空间特征向量进行相同词与其tf-1df值的合并处理,得到该用户的用户标题空间特征向量; 用户摘要空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的摘要空间特征向量,然后将这些摘要空间特征向量进行相同词与其tf-1df值的合并处理,得到该用户的用户摘要空间特征向量; 用户关键词空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的关键词空间特征向量,然后将这些关键词空间特征向量进行相同词与其tf-1df值的合并处理,得到该用户的用户关键词空间特征向量; 用户模型构建单元,负责由该用户的当前研究主题集合、用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量构建该用户的用户模型; 所述用户标题、用户摘要和用户关键词三个空间特征向量计算单元中的空间特征向量合并处理是将两个空间特征向量合并成一个空间特征向量,具体操作内容是:先合并该两个空间特征向量中的词,再合并其中每个词的tf-1df值;也就是,如果在合并前某个词出现于两个空间特征向量中,则该词在合并后的空间特征向量中的tf-1df值是其原来合并前的两个tf-1df值之和;如果合并前某个词只出现在一个空间特征向量,则该词在合并后的空间特征向量中的tf-1df值保持不变。
4.根据权利要求1所述的推荐系统,其特征在于:所述论文模型构建模块设置每篇论文Pj的论文模型为Mpj= {PBj,Pcj, Pdj},即论文模型是由下述三个维度的向量所组成: Pbj为该论文Pj的标题空间特征向量,且
5.根据权利要求1所述的推荐系统,其特征在于:因每个主题下的作者权威值和论文质量值存在相互关联的影响:作者在某领域内发表的论文质量越高,其权威值也越高;同样地,作者的权威值越高,其论文的质量值也越高;因此,影响作者权威值的因素包括:其发表论文的质量值、作者级别、发表的论文数和该作者在对应论文中的署名位置;影响论文质量值的因素包括:作者的权威值、论文的引用数、发表时间和发表论文的期刊或会议级别。
6.根据权利要求1所述的推荐系统,其特征在于:所述权威值与质量值计算模块中,归属主题tk的所有作者集合R= {ri,r2,...,匕,...rE},其中,自然数下标e为作者序号,且其最大值为E ; 作者K的权威值\的计算公式为:
7.根据权利要求6所述的推荐系统,其特征在于:所述权威值与质量值计算模块中的各个组成部件的功能如下: 论文质量值初始单元,用于读取主题模型训练模块中的论文的主题特征向量,并判断每个主题特征向量中归属于某个主题的权值是否大于设定阈值;若是,则认为该论文属于该主题;否则,认为该论文不属于该主题,从而得到归属该主题的所有论文;还用于从数据库中读取该主题中所有论文的引用数、发表时间及其刊载的期刊或会议级别,依据公式 设置归属某一主题的全部论文的初始质量值; 作者权威值初始化单元,用于从数据库中读取归属于某主题的所有论文的作者信息,得到该主题的全部作者,再依据作者级别设置该主题的全部作者的初始权威值; 作者权威值与论文质量值计算单元,用于依据论文质量值和作者权威值的两个计算公式
8.根据权利要求1所述的推荐系统,其特征在于:所述作者与论文推荐模块中的各个组成部件的功能如下: 用户与论文相似度计算单元,用于读取用户模型构建模块中的用户模型,然后对于用户模型中当前研究主题集合的每个主题,读取经权威值与质量值计算模块排序后该主题的所有论文,计算每篇论文与该用户的相似度; 相似度过滤单元,用于依据用户与论文相似度计算单元计算的相似度,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,接着选择位于前列设定数量的论文,形成用户在该主题的初始论文推荐初始列表;同时,读取经权威值与质量值计算模块计算排序后,该主题中位于前列按权威值递减排序的多个论文作者,形成用户在该主题的作者推荐初始列表; 作者与论文过滤单元,用于将该用户的当前研究主题集合中所有主题的初始论文推荐初始列表和初始作者推荐初始列表分别进行合并后,并删除该合并后两个论文推荐初始列表中的重复作者和论文,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表结果保存于数据库中。
9.一种采用权利要求1所述的推荐系统的推荐方法,其特征在于,所述方法包括下列各个操作步骤: (1)抓取论文:论文抓取模块使用网络爬虫在网络上抓取包括该论文的标题、摘要、关键词、链接地址、作者姓名与级别、发表的期刊或会议名称、引用数量和发表时间的各个论文信息,并根据该期刊或会议名称确定该期刊或会议的级别,再以该论文的链接地址作为其唯一标识加以区分后,将上述所有论文的全部信息存储于数据库; (2)对论文标题、摘要分别进行预处理:使用斯坦福词性标注器StanfordPOS Tagger对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作,并保存词性标记为单数形式名词或物质名词NN、复数形式名词NNS、单数形式专有名词NP、复数形式名词NPS的各种名词,再过滤并删除没有实际意义的停用词后,删除论文摘要中剩余词语数少于5的论文;因论文标题言简意赅,故对论文标题分词后,只需过滤并删除没有实际意义的停用词;(3)对论文摘要分词序列进行主题模型训练:按照设定的主题个数,使用潜在狄利克雷分布LDA (Latent Dirichlet Allocation)主题模型对论文摘要的分词序列进行主题模型



K训练,得到该论文的主题特征向量=TSj=CTjl, Tj2,Tjk,TjK),且[I;— =1;式中,自然





k I '数j和k分别是论文和主题的序号,其最大值分别为J和K ;TJk为论文P」归属主题tk的权值; (4)构建论文模型:依据步骤(2)获得的每篇论文的标题分词序列、摘要分词序列和从数据库中读取的每篇论文关键词,分别计算每篇论文标题分词序列、摘要分词序列和关键词中每个词的tf-1df值,再由上述标题、摘要和关键词三部分中各自的词和该词的tf-1df值各自成对组成的多个键值对,分别形成该论文的标题空间特征向量、摘要空间特征向量和关键词空间特征向量;且由上述三个空间特征向量构建该论文的论文模型; (5)构建用户模型:从数据库中读取用户在设定时段的全部操作行为记录,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户Ui的操作行为计算该用户对集合Ri中






每篇论文的偏好值Aij,并依据步骤(3)的所有论文的主题特征向量和公式
10.根据权利要求9所述的推荐方法,其特征在于:所述步骤(5)包括下列操作内容: (51)从数据库中读取用户在设定时段的全部操作行为,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户Ui的操作行为计算该用户对集合Ri中每篇论文的偏好值Aij,偏好值的计算公式为:
11.根据权利要求9所述的推荐方法,其特征在于:所述步骤(6)包括下列操作内容: (61)根据所有论文的论文主题特征向量,设定每篇论文归属某个主题的门限值,再判断各个主题的每篇论文是否归属该主题,即其权值是否大于该门限值,以便得到归属每个主题的所有论文标识; (62)读取数据库中存储的每篇论文&的全部作者信息,得到归属该主题的所有作者标识; (63)读取归属该主题的每位作者级别Ie,并将该Ie作为该作者权威值的初始值; (64)读取发表每篇论文P」的期刊或会议的名称,并使用影响因子表示该期刊或会议的级别,再读取论文的引用数与发表时间,设置下述公式
12.根据权利要求9所述的推荐方法,其特征在于:所述步骤(7)包括下列操作内容: (71)计算该主题递减排序后的每篇论文与用户之间的相似性:采用余弦相似度分别计算每篇论文与用户模型标题、摘要和关键词的三个空间特征向量的相似性,再将该三个相似性以设定权重分别计算得到该论文与用户的相似性; (72)删除相似性值小于设定阈值的论文,再删除用户已经有操作行为的论文后,提取位于前列的多篇论文作为用户Ui在该主题的候选论文推荐列表; (73)选取位于最前列的多位权威作者作为用户Ui在该主题的候选作者推荐列表。
【文档编号】G06F17/30GK103440329SQ201310396249
【公开日】2013年12月11日 申请日期:2013年9月4日 优先权日:2013年9月4日
【发明者】卢美莲, 高洁, 王萌星, 秦臻, 刘智超 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1