一种基于用户历史行为特征的知识文档推荐方法

文档序号:6524311阅读:298来源:国知局
一种基于用户历史行为特征的知识文档推荐方法
【专利摘要】一种基于用户历史行为特征的知识文档推荐方法,通过计算文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree方法挖掘出与用户上传之文章最具相关性的文章,包括:对知识库中的和用户阅读过的文章分词提取知识库词库;扫描优化用户词库中的词表,用TF词频代替FP-tree算法中的支持度构建FP树,挖掘出具有用户阅读特征的频繁项集;最后确定最相关的文章,对最相关文章的重要度排序,向用户推荐。本发明用文章中的词语作为挖掘特征,为每个用户的历史阅读行为建模,不依赖其它用户的阅读行为,解决了企业知识库中大量有价值的文章无人阅读而用户又找不到包含相关知识文章的问题。
【专利说明】一种基于用户历史行为特征的知识文档推荐方法
【技术领域】
[0001]本发明涉及企业知识库与智能推荐【技术领域】,具体说是一种基于用户历史行为特征的知识文档推荐方法。
【背景技术】
[0002]在一些大型的IT公司中已经成立了企业知识库,以存储企业基本信息:公共关系信息、年度报告、出版物和企业总体介绍等;企业组织结构信息:地址、代理商、分公司、月艮务中心等的信息广品和服务的信息:技术专长、服务特点等;基本流程信息;关于专利、商标、版权,使用其他企业技术、方法学可证的信息;顾客信息等。而很多员工发现他们很难在公司中找到他们需要的知识,通常员工们不知道这些信息保存在哪里,也不知道哪些信息或者文章可以为他们所用。在上述众多信息中,知识、文件多、难以管理、知识利用率低已经成为企业知识库的首要问题之一。此时,根据企业知识库的用户需要系统能根据他们的使用习惯、在登录后主动推荐用户可能需要的知识的需求日益强烈。
[0003]现阶段一些公司如Amazon, eBay,淘宝,豆瓣,当当网等一些商务网站已经能够根据用户的购买记录、浏览、检索、收藏行为等分析用户的购买兴趣并向其主动推荐商品。也有一些文献利用用户的阅读记录为用户的阅读行为建模,仿照购物篮模型分析有相似阅读行为的用户最喜欢阅读的文章类型,也即,分析的是“阅读这篇文章的用户还有可能阅读另外哪些文章”。这种方式的劣势在于,依赖用户群体,也称为“冷启动”,即,当一个系统刚刚启动还只有很少的用户时系统无法建立有效的模型。且如果一篇文章已经很久没有用户阅读,那么即使这篇文章的知识价值再高也难以用这种模型推荐给用户。
[0004]本方案亟需解决企业中沉淀的大量知识无人阅读,而新员工找不到这些相关知识的问题。

【发明内容】

[0005]本发明所要解决的技术问题是提供一种基于用户历史行为特征的知识文档推荐方法,是基于用户历史行为特征的知识文档推荐方法,主动向用户推荐企业知识库中存储的与用户历史行为特征相关的知识文档。
[0006]基于用户历史行为特征的知识文档推荐方法,
[0007]首先,由管理员将文章集建立知识库,确定知识库中文章的分类;
[0008]之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别;
[0009]第三步,系统收集用户上传的以及阅读过的文章并进行归类分析;
[0010]最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是:
[0011]向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为I~15:
[0012]第一种方式,该用户上传或阅读的文章种类的知识文档中点击数最高的N篇文.1V.早;
[0013]第二种方式,该用户上传或阅读的文章种类的知识文档中好评数最多的N篇文.1V.早;
[0014]第三种方式,通过数据挖掘得到与用户上传、阅读过的文章中知识关联性最大的N篇文章;
[0015]第三种方式具体为,
[0016]对知识库中的文章做分词处理形成知识库词库,
[0017]提取用户上传过、阅读过的文章做分词处理形成用户词库,
[0018]约减用户词库形成优化用户词库,
[0019]通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集,
[0020]根据频繁项集中的词在优化词库的各对应类别中的词频确定知识最相关的N篇文章。
[0021]所述用户历史行为特征库,是知识库用户在上传和阅读过程中,包括用户上传过的文章、上传文章的类别、阅读过的文章、阅读过文章的类别。
[0022]所述知识库词库以下述方式得到:·[0023]首先对知识库中的每一篇文章做分词处理,分词后,首先统计词频TF (termfrequency,TF表示某个词或短语在一篇文章中出现的频率),对于在第j篇文章中的第i个词语ti;它的重要性表示为:
【权利要求】
1.一种基于用户历史行为特征的知识文档推荐方法, 首先,由管理员将文章集建立知识库,确定知识库中文章的分类; 之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别; 第三步,系统收集用户上传的以及阅读过的文章并进行归类分析; 最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是: 向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为1~15: 第一种方式,该用户上传或阅读的文章种类的知识文档中点击数最高的N篇文章;第二种方式,该用户上传或 阅读的文章种类的知识文档中好评数最多的N篇文章;第三种方式,通过数据挖掘得到与用户上传、阅读过的文章中知识关联性最大的N篇文章; 第三种方式具体为, 对知识库中的文章做分词处理形成知识库词库, 提取用户上传过、阅读过的文章做分词处理形成用户词库, 约减用户词库形成优化用户词库, 通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集, 根据频繁项集中的词在优化词库的各对应类别中的词频确定知识最相关的N篇文章。
2.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述用户历史行为特征库,是知识库用户在上传和阅读过程中,包括用户上传过的文章、上传文章的类别、阅读过的文章、阅读过文章的类别。
3.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述知识库词库以下述方式得到: 首先对知识库中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti;它的重要性表示为:
4.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述用户词库以下述方式得到: 首先提取用户上传和阅读过的文章组成文章集,然后用下述方法对文章集中的每篇文章提取TF词频: 首先对文章集中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti;它的重要性表示为:

5.根据权利要求4所述的基于用户历史行为特征的知识文档推荐方法,其特征是:对所述用户词库进行约减,每个类别只保留TF词频与TF-1DF词频值之和在30%以上的【词,TF词频】对,作为优化用户词库存储,所述优化用户词库与所述用户词库的格式一致。
6.根据权利要求4或5所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集具体为,使用数据挖掘中的FP-Tree算法对用户的阅读习惯做文本信息挖掘,找出最有可能在阅读时一起出现的词语存储为频繁项集,方法为: 输入用户词库中某一知识类别中所有该用户阅读过的文章,输出频繁项集,以【词,TF词频】对作为FP-Tree的【项,值】对,【词,TF词频】对中的“词”作为FP-Tree的搜索项,第一次搜索的时候用“TF词频”代替原算法中的项的频率,设一个词语的TF词频为支持度阈值,如果频繁项集中的项不满足支持度阈值,则丢弃该项,满足支持度阈值则生成FP-Tree。
7.根据权利要求6之一所述的基于用户历史行为特征的知识文档推荐方法,其特征是:使用数据挖掘中的FP-Tree算法对用户的阅读习惯做文本信息挖掘的具体实现方法如下: 输入词表,词表结构包括文章ID、该文章中的词语、对应词语的词频,第一步:扫描所述词表,累计所有文章中各词的TF词频之和;设最小支持度,舍弃支持度小于所述的最小支持度的累计词的这一项,得到频繁项集; 第二步:对于每一条记录,按照所述频繁项集中TF词频之和的大小重新排序; 第三步:把第二步得到的各条记录插入到FP-Tree中,构造FP-Tree,构造FP-Tree的过程为: Cl)定义FP-Tree的根节点为空,以null标记, (2)在null标记后面插入第一条记录:文章I的词语表, (3)在第一条记录后面插入第二条记录:文章2的词语表, (4)在第二条记录后面插入第三条记录:文章3的词语表,直至遍历完成整个数据库,FP-Tree构造完成。 第四步=WFP-Tree中找出频繁项,以如下方式遍历FP-Tree的表头中的每一项: (1)从FP-Tree中找到所有的“指定词”节点,向上遍历它的祖先节点。 (2)对于每一条路径上的节点,其词频值都设置为“指定词”的词频值。 (3)每一项末尾都是“指定词”,可以把“指定词”去掉,得到条件模式基,此时的后缀模式是:“指定词”。 (4)把第(3)项结果当作原始的事务数据库,递归迭代执行,模式增长通过后缀模式与条件FP-Tree产生的频繁模式链接实现,即可得到频繁项集。
8.根据权利要求6所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述确定知识最相关的N篇文章采用如下方法: 查询频繁项集中的词语在知识库词库对应类别的每篇文章中出现的次数,将具体每篇文章中出现过的频繁项集中的词语的TF-1DF词频之和为最大的N篇文章,其中不包含该用户上传和已阅读过的文章,推荐为具有最相关知识的文章。
9.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述排列推荐文章的显示顺序采用如下方法: 统计向用户推荐文章的方法中三种方式所选中的文章是否重复出现,如果重复出现则统计每篇文章重复出现的次数,按每篇文章的重复出现次数倒序排列,即,重复出现次数最多的排在最前面,重复出现次数最少的排在最后面;如果出现重复次数相同的文章,则按上传时间倒序排列,即,上传时间最晚的排在最前面,上传时间最早的排在最后面。
【文档编号】G06F17/27GK103678620SQ201310697904
【公开日】2014年3月26日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】冯天佑, 李成华, 阮羚, 邓万婷, 陈婷, 余晓阳, 欧阳由, 熊宇 申请人:国家电网公司, 国网湖北省电力公司电力科学研究院, 华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1