一种基于作者频繁模式的科技文献推荐方法与流程

文档序号：13672243阅读：145来源：国知局

技术领域本发明属于推荐系统领域，涉及一种基于作者频繁模式的科技文献推荐方法。

背景技术：
互联网的出现和普及给用户带来了大量的信息，但随着网络的迅速发展而带来的网上信息量的大幅增长，使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低了，这就是所谓的信息超载问题。解决信息超载问题一个非常有潜力的办法是推荐系统，它是根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。关联规则最初提出的动机是针对购物篮分析问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是，想知道哪些商品顾客可能会在一次购物时同时购买？为回答该问题，可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联，分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买，从而帮助他们开发更好的营销策略。1993年，Agrawal等人首先提出关联规则的概念，同时给出了相应的挖掘算法AIS，但是性能较差。1994年，他们建立了项目集格空间理论，并依据上述两个定理，提出了著名的Apriori算法。至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。其核心是基于两阶段的频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。众所周知，Apriori算法在产生频繁模式前需要对数据库进行多次扫描，同时产生大量的候选频繁集，这就使Apriori算法时间和空间复杂度较大。而且Apriori算法中有一个很重要的性质：频繁项集的所有非空子集都必须也是频繁的。这个性质导致Apriori算法在挖掘长频繁模式的时候性能低下。为了提高性能，JiaweiHan提出了FP-Growth算法，Fp-growth算法在挖掘频繁模式的时候性能提高10倍以上。FP-growth算法使用了一种紧缩的数据结构来存储找频繁项集所需要的全部信息。Fp-growth方法将发现长频繁模式的问题转换成在较小的条件数据库中递归地搜索一些较短的模式，然后连接后缀。它使用最不频繁的项作后缀，提供较好的选择性。该方法显著地降低了搜索开销。FP-growth算法中涉及到一些概念：项(事物表示的单位)的集合称为项集。包含k个项的项集成为k项集。集合{computer，software

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李玉鑑;杨凯文;
技术所有人：北京工业大学;
我是此专利的发明人

上一篇：基于GPS的用户信息采集与行为分析方法与流程
上一篇：一种资源共享装置、系统和方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。