一种基于混合模型的个性化职位信息推荐系统及实现方法_3

文档序号：9217380阅读：来源：国知局

2] 图2为基于聚类分析的协同过滤推荐算法流程图，一般的协同过滤算法是利用用户群过去已有的行为或意见预测当前用户对哪些物品最为感兴趣，常见的显示行为包括：物品评分、收藏等；隐示行为包括：浏览记录、点击行为。协同过滤算法有两种方式：基于用户的协同过滤算法和基于物品的协同过滤算法。前者指通过不同用户对职位的评分寻找用户之间的相似性，然后向用户推荐其他相似用户评分较高的职位信息。后者通过用户对不同职位的评分预测职位之间的相似性，然后向用户推荐与之前评分较高的职位相似的职位。本发明基于Mahout根据职位固有的属性（职位工资，职位有效期等）进行二次开发设计出符合职位推荐的协同过滤算法，通过实现IDrescore接口中的IsFiltered(long id)方法过滤掉推荐项目中不符合用户背景知识的推荐项目，比如：求职者的背景知识明确给出期待薪水大于5000元，直接使用Mahout中的基于物品的协同过滤算法得到的只是一般推荐项，使得到的推荐结果不理想，但是通过实现合适的过滤器过滤推荐项中工资低于5000的职位项，则推荐的项目会更让求职者满意，根据需要可以设置多个类似的条件优化推荐项目。
[0093] 实验结果表明即使可以通过设置过滤条件可以优化推荐结果，但是由于评分矩阵的稀疏性质，导致许多用户计算出的推荐结果为空。针对该问题本文引入聚类技术对协同过滤推荐算法进行改进，填充预测评分，降低评分矩阵的稀疏度。除此之外，将评分矩阵限定在相同类别的用户规模下，可以降低评分矩阵的纵向深度和横向宽度，加快相似度计算效率。
[0094] 基于聚类分析的协同过滤算法分为两个部分：聚类和推荐，聚类分析目标是将对同类型职位具有相同偏好的用户进行归类，建立用户的行为模型，然后基于该模型对原来的稀疏评分矩阵填充预测评分，可以降低评分矩阵的稀疏度，提高协同过滤算法的准确度。 [0095] 算法步骤如下：
[0096] (1)将评分数据表与职位记录表连接，将用户对不同类别职位打分的次数作为该用户对此类职位的偏好值，构建用户-职位类别矩阵。
[0097] (2)选定K个用户作为初始聚类中心，单个用户节点表示为向量：Ui = {tl, t2, t3,. . . tn} tk表示用户i对类型k的偏好值，利用Mahout提供的K-means算法，将用户划分为k类。
[0098] (3)对评分矩阵中的空值填补预测评分，降低矩阵稀疏度。
[0099]
代表用户i对职位j的预测评分，瓦代表用户i已有评分的均值，U代表与用户i属于同一个簇内的所有用户，p代表与i同类同时对职位j有评分的用户。
[0100] (4)基于修改过后的评分矩阵利用协同过滤算法计算推荐结果。
【主权项】
1. 一种基于混合模型的个性化职位信息推荐系统，其特征在于，包括表现层，推荐层，信息抽取层和信息采集层；所述信息采集层与所述信息抽取层之间、所述信息抽取层与所述推荐层之间、所述推荐层与所述表现层之间均通过共享数据实现衔接；所述信息采集层负责从互联网招聘网站中抓取特征链接，编写网络爬虫程序，基于Nutch进行二次开发，通过修改Nutch中Crawl类代码，采用正则表达式对外链接进行过滤得到需要的特征链接，并将特征链接保存在本地的CrawlDb文件数据库中；所述信息抽取层负责从特征页面中解析原始的职位信息，将底层获取的特征链接上传至HDFS文件系统；所述推荐层负责整个职位推荐系统的推荐引擎算法，所述算法包括：基于内容的推荐算法、基于聚类分析的协同过滤算法，基于关联规则的推荐算法、基于归纳统计的辅助推荐算法；所述表现层负责向用户提供交互界面，将推荐层计算出的推荐项目，通过网页的形式向求职者展现。2. 根据权利要求1所述的一种基于混合模型的个性化职位信息推荐系统，其特征在于，所述基于混合模型的个性化职位信息推荐系统采用基于JSP+JavaBean+Servlet的方法构建，静态页面使用HTML展现，动态页面使用JSP展现。3. 根据权利要求1或2所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，包括：信息采集层负责编写网络爬虫程序，从互联网的招聘网站中抓取特征链接，然后将特征链接作为信息抽取层的输入，信息采集层与信息抽取层通过共享爬虫抓取的特征链接数据进行沟通；信息抽取层采用基于Hadoop的并行抽取技术，从特征链接页面当中解析出职位信息数据，将职位信息按照指定格式保存在本地数据库；推荐层根据存储在数据库中的用户评分信息、用户点击行为信息和用户背景知识采用对应的推荐算法向表现层推送职位。4. 根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述信息采集层的实现步骤包括：步骤I. 1 :分析主流招聘网站的当中职位详情页面的链接特征，构造相应的正则表达式；步骤1. 2 :修改Nutch当中Crawl, java类的代码，重新编译Nutch，部署Nutch; 步骤1. 3 :执行Nutch脚本文件，进行抓取。5. 根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述信息抽取层的实现步骤包括：步骤2. 1 :搭建Hadoop分布式平台，将爬虫模块产生的特征链接文本上传至HDFS当中；步骤2. 2 :针对不同的职位详情页面的结构编写对应的MapReduce解析程序，获取职位详情的文本信息存储在HDFS当中；步骤2. 3 :编写TF-IDF算法程序获取文本信息中的关键词作为职位信息的职位关键 O6. 根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述推荐层中的基于内容的推荐算法的具体实现步骤包括：步骤3. 1 :新用户根据引导页面定制偏好，包括专业背景、期望工资、期望工资地点、专业技能、备注信息，系统保存用户背景知识；步骤3. 2 :利用Lucene分词和TF-IDF算法挖掘背景知识的关键词，按照用户id，关键词的形式存储；步骤3. 3 :采用Dice系数度量用户背景知识内容和职位记录的相似度，保存相似度高的前几项作为新用户推荐项。7. 根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述推荐层中的基于聚类分析的协同过滤算法的具体实现步骤包括：步骤4. 1 :将评分数据表与职位记录表连接，构建用户-职位类别矩阵；步骤4. 2 :利用Mahout提供的K-means聚类算法，将用户划分为k类；步骤4. 3 :用预测评分填补用户-评分矩阵中的缺省值，降低矩阵稀疏度；步骤4. 4 :基于修改过后的评分矩阵利用协同过滤算法计算推荐结果。8. 根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述推荐层中的基于关联规则的推荐算法的实现步骤包括：步骤5. 1 :系统收集用户每一次点击职位行为数据；步骤5. 2 :基于步骤5. 1中的数据采用Mahout中的FP-Growth算法计算出职位之间的关联规则，所述关联规则如下： Rl: (2, 5, 9) = > (10, 18)R2: (6, 20) = > (13, 1, 25, 30)....Rn其中，Rk(k = 2, 3…n)代表一条关联规则，括号中数值代表职位Id。9. 根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述推荐层中的基于归纳统计的辅助推荐算法的实现步骤包括：步骤6. 1 :将最近一段时间内点击次数最多的N个职位记录到数据库的表格中；步骤6. 2 :将各个行业最近点击最多的热门职位记录到数据库的表格中；步骤6. 3 :将用户最近浏览的N个职位记录到数据库的表格中；步骤6. 4 :采用SQL语句针对步骤6. 1至步骤6. 3中数据库对应表格的记录进行统计。
【专利摘要】本发明公开了一种基于混合模型的个性化职位信息推荐系统及实现方法，推荐系统自上而下包括表现层，推荐层，信息抽取层和信息采集层；层与层之间通过共享数据实现衔接；信息采集层负责编写网络爬虫程序；信息抽取层负责从特征页面中解析原始的职位信息，将底层获取的特征链接上传至HDFS文件系统；推荐层负责整个职位推荐系统的推荐引擎算法；表现层向用户提供交互界面，将推荐层计算出的推荐项目，通过网页的形式向求职者展现。本发明的推荐系统一定程度上降低了系统冷启动和矩阵稀疏性带来的影响，推荐的结果更全面和精确，增强系统的粘性和用户体验。
【IPC分类】G06F17/30, G06F17/50
【公开号】CN104933239
【申请号】CN201510314383
【发明人】薛安荣, 黄祖卫
【申请人】江苏大学
【公开日】2015年9月23日
【申请日】2015年6月9日

完整全部详细技术资料下载

当前第3页1 2 3