1.一种基于成熟度技术的文献推荐方法,特征是,采用了基于内容的推荐算法的基本框架;首先通过机器学习的方法分析出每篇文献的主题类别,再根据用户的浏览记录找到用户感兴趣的主题,给用户推荐他所感兴趣的主题下的文献;再在这个基础上考虑到用户在他感兴趣的领域的学习程度,根据用户的学习程度为用户设定等级;再计算出每篇文献在它所属的领域属于什么程度的文献,通过计算机的方法对文献设定等级;最后结合用户的等级和文献本身的等级为用户推荐适合他等级的文献。
2.一种基于成熟度技术的文献推荐系统,其特征在于,包括数据预处理模块、文献分类模块、计算文献等级模块、计算用户等级模块、生成各用户的推荐列表模块,其中:
数据预处理模块得到的数据有三部分,分别是每个用户的文献阅读顺序、文献的详细内容、文献的发布时间和好评率,其中用户的文献阅读顺序提供给计算文献等级模块和计算用户等级模块;文献的详细内容提供给文献分类模块;
文献分类模块的输入是各种主题的技术文献详细内容,输出是所有文献和该文献的主题,将该输出提供给计算文献等级模块;在文献主题分类时使用了文本向量空间模型,这是一种词袋模式,不考虑词的先后顺序,然后使用tfidf统计加权技术对文献内的各个词语求权重,并且使用word2vec方法来对所有的词语进行分类;使用新的向量来表示词语;获得每篇文献的所有权重前k大的词语之后,文献之间可以两两求得相似度;使用knn的方法对文献进行聚类操作,把所有的文献一共分为k类,k的大小取决于文献库的体量,每个分类即一个主题;
计算文献等级模块的输入是各个文献及它们的主题以及用户的文献阅读顺序,输出是各个文献的等级信息,提供给计算用户等级模块;对每个主题的文献进行等级划分,参考的重要特征有以下三个:
(1)文献的发布时间,最新发布的文献是当前领域的前沿的研究;
(2)文献在所有用户阅读列表中的顺序;综合各个用户在某一个主题下的阅读顺序,符合用户的阅读和学习顺序由浅入深的过程;
(3)好评率作为参考标准;
综上,首先根据每个用户阅读该主题下的文献的顺序对文献进行评级,并规整为1~10级;确定等级之后,根据文献的下载量和发布时间对文献进行排序,优先推荐排名高的文献给用户;
计算用户等级模块的输入是用户的阅读列表和各文献的等级信息;每个用户阅读多个主题的文献,确定用户的等级时,考虑到了时间局部性的原则,即用户最近阅读的文献就是用户目前最感兴趣的主题和用户当前的等级;找到用户最近阅读的各个主题下的三篇文献,使用这三篇文献的等级平均值作为用户在当前主题下的等级;
生成各用户的推荐列表模块,该模块的输入是用户感兴趣的主题、在该主题下用户的等级和不同主题下各个文献的等级,输出是给用户的推荐列表;给用户推荐一共十篇文献,其中五篇是和用户等级相同,另外五篇为等级高一些的文献。
3.如权利要求2所述的系统,特征是,在有新用户加入系统时,此时系统对用户的主题和等级划分为空,根据用户接下来阅读的几篇文献对用户进行主题和等级的划分;而对那些新加入系统的文献,由于进入系统的时间比较晚,所以它们在用户的阅读列表中居后,在使用阅读顺序给这些文献划分等级会出现较大的误差;此时在确定文献的等级时,本系统选择记录阅读该文献的用户的等级;将前n个阅读该文献的用户的等级取平均值,作为文献的等级。