一种职位推荐方法及系统与流程

文档序号:16669672发布日期:2019-01-18 23:29阅读:445来源:国知局
一种职位推荐方法及系统与流程
本发明涉及互联网
技术领域
具体涉及一种职位推荐方法及系统。
背景技术
:随着互联网的普及,求职、找工作逐步从传统人才市场走向互联网、移动互联网等网络求职方式;据监控数据分析,来访的人员中接近90%用户未登陆系统,登录用户中约40%人员没有明确的求职意;针对这部分用户,由于未录入相关的信息、求职意向不明确,系统无法判断用户需要的内容,推荐的信息为通用信息,没有推荐来访用户的相关信息,容易造成用户流失;现有的技术方案是根据用户点击查看职位后,根据查看职位信息的分类,进行相似职位推荐;如果求职者查看多个职位,则根据多个职位的分类特征,进行推荐;这种推荐方式较粗犷,无法对来访求职者进行精准营销。现有的技术方案是根据相似职位进行推荐,并未对用户操作行为进行分析,不了解用户特征,推荐方式较粗犷;这样推荐的信息与用户需求差异较大;另外有些求职者求职意向不明确,存在推荐信息不匹配、并未对此类用户进行引导,从而造成了大批用户流失。现有技术中的自动推荐产品对求职和用户特征没有进行深度结合;不能精准的向求职者推荐职位,用户转化率低。技术实现要素:为了解决上述问题,本发明提供一种能精准推荐求职信息,提高用户转化率的职位推荐方法,包括以下步骤步骤s1:获取用户访问数据,生成数据矩阵;步骤s2:对数据矩阵执行监督学习算法;步骤s3:对数据矩阵执行无监督学习算法并生成预测结果数据;步骤s4:依据预测结果数据和人物画像数据生成职位预推荐数据。进一步的,所述步骤s1包括,步骤s11:收集用户浏览招聘网站过程中的浏览职位数据、浏览企业数据、用户数据;步骤s12:将步骤s11收集的数据以预设数据格式存储;步骤s13:对所述以预设数据格式存储的数据分析数据特征并生成数据矩阵;所述用户访问数据包括,设备类型、设备品牌、设备型号、浏览器类别、信息渠道、搜索内容、访问时间、访问职位、是否投递、是否获取联系方式、访问企业中的多种或一种;所述数据矩阵的数据特征包括,类别、薪酬、经验、学历、职别、群体中的多种或一种。进一步的,所述步骤s2包括,步骤21:对所述数据矩阵进行分解和降噪;步骤22:基于访问记录进行相似度计算;步骤23:从数据矩阵中抽取知识数据并存储;所述步骤s21包括,采用奇异值分解算法对原始数据矩阵进行处理,将原始数据矩阵分解为三个子矩阵u、∑和vt;原始矩阵data是m行n列,对应的u、∑和vt分别为m行m列、m行n列和n行n列;计算表达式为:所述步骤s22包括,采用余弦相似度算法对用户数据中访问职位、企业的数据向量进行相似度计算,并得到访问职位、企业的数据向量夹角的余弦值;若访问职位、企业的数据向量夹角的余弦值为90度,则相似度设定为0;若访问职位、企业的数据向量的方向相同,则相似度设定为1.0;计算表达式如下:其中‖a‖和‖b‖表示向量a、b的2范数;所述步骤s23包括,获取访问职位的样本点中包含的数值型特征x1和x2;通过梯度上升算法获取回归系数作为logistic回归模型的参数;所述步骤s23包括,步骤s231:初始化每个回归系数为1;步骤s232:重复若干次计算整个数据矩阵的梯度,采用alpha*gradient更新回归系数的向量;alpha是向目标移动的步长;步骤s233:存储回归系数,并完成监督学习算法训练。进一步的,所述步骤s3包括,步骤s31:采用k均值聚类算法对数据矩阵进行相似聚类;步骤s32:采用fp-growth算法对数据矩阵进行关联性分析并生成预测结果数据。所述步骤s31包括,步骤s311:随机创建k个点作为起始质心;步骤s312:若任意一个点的簇心分配结果发生改变,则对数据集中的每个数据点,对每个质心,计算质心与数据点之间的距离,并将数据点分配到距其最近的簇;步骤s313:对每一个簇计算簇中所有点的均值并将均值作为质心;步骤s314:使用量化的误差指标对算法结果进行评价。所述步骤s32包括,步骤s321:将数据矩阵中访问职位数据集离散化,将其量化位离散值;步骤s322:第一次遍历数据矩阵,获取每个元素项的出现频率,去掉不满足的元素项,读入每个项集并将其保存,并按照出现的频率进行排序并过滤后,构建fp树并对树进行挖掘,完成无监督学习算法训练;步骤s323:提取经常出现的元素项生成预测结果数据;进一步的,所述步骤s4包括,步骤41:将预测结果数据与人物画像进行相似度计算生成关键元素信息,用于预推荐;步骤42:向用户展示预推荐的职位信息。为了保证上述方法的实施,本发明还提供一种职位推荐系统,包括以下模块数据获取模块,用于获取用户访问数据,生成数据矩阵;监督学习模块,用于对数据矩阵执行监督学习算法;无监督学习模块,用于对数据矩阵执行无监督学习算法并生成预测结果数据;预测模块,用于依据预测结果数据和人物画像数据生成职位预推荐数据。进一步的,所述数据获取模块执行以下步骤,步骤s11:收集用户浏览招聘网站过程中的浏览职位数据、浏览企业数据、用户数据;步骤s12:将步骤s11收集的数据以预设数据格式存储;步骤s13:对所述以预设数据格式存储的数据分析数据特征并生成数据矩阵;所述用户访问数据包括,设备类型、设备品牌、设备型号、浏览器类别、信息渠道、搜索内容、访问时间、访问职位、是否投递、是否获取联系方式、访问企业中的多种或一种;所述数据矩阵的数据特征包括,类别、薪酬、经验、学历、职别、群体中的多种或一种。进一步的,所述监督学习模块执行以下步骤,步骤21:对所述数据矩阵进行分解和降噪;步骤22:基于访问记录进行相似度计算;步骤23:从数据矩阵中抽取知识数据并存储;所述步骤s21包括,采用奇异值分解算法对原始数据矩阵进行处理,将原始数据矩阵分解为三个子矩阵u、∑和vt;原始矩阵data是m行n列,对应的u、∑和vt分别为m行m列、m行n列和n行n列;计算表达式为:所述步骤s22包括,采用余弦相似度算法对用户数据中访问职位、企业的数据向量进行相似度计算,并得到访问职位、企业的数据向量夹角的余弦值;若访问职位、企业的数据向量夹角的余弦值为90度,则相似度设定为0;若访问职位、企业的数据向量的方向相同,则相似度设定为1.0;计算表达式如下:其中‖a‖和‖b‖表示向量a、b的2范数;所述步骤s23包括,获取访问职位的样本点中包含的数值型特征x1和x2;通过梯度上升算法获取回归系数作为logistic回归模型的参数;所述步骤s23包括,步骤s231:初始化每个回归系数为1;步骤s232:重复若干次计算整个数据矩阵的梯度,采用alpha*gradient更新回归系数的向量;alpha是向目标移动的步长;步骤s233:存储回归系数,并完成监督学习算法训练。进一步的,所述无监督学习模块执行以下步骤,步骤s31:采用k均值聚类算法对数据矩阵进行相似聚类;步骤s32:采用fp-growth算法对数据矩阵进行关联性分析并生成预测结果数据。所述步骤s31包括,步骤s311:随机创建k个点作为起始质心;步骤s312:若任意一个点的簇心分配结果发生改变,则对数据集中的每个数据点,对每个质心,计算质心与数据点之间的距离,并将数据点分配到距其最近的簇;步骤s313:对每一个簇计算簇中所有点的均值并将均值作为质心;步骤s314:使用量化的误差指标对算法结果进行评价。所述步骤s32包括,步骤s321:将数据矩阵中访问职位数据集离散化,将其量化位离散值;步骤s322:第一次遍历数据矩阵,获取每个元素项的出现频率,去掉不满足的元素项,读入每个项集并将其保存,并按照出现的频率进行排序并过滤后,构建fp树并对树进行挖掘,完成无监督学习算法训练;步骤s323:提取经常出现的元素项生成预测结果数据;进一步的,所述预测模块执行以下步骤,步骤41:将预测结果数据与人物画像进行相似度计算生成关键元素信息,用于预推荐;步骤42:向用户展示预推荐的职位信息。本发明的有益效果是:根据来访人员的设备信息、访问内容、操作行为等,通过职位预推荐的机器学习方法,让系统自动学习、完成用户分析,并精准推荐工作资讯;让用户发现更多相关度较高、感兴趣职位信息,提高用户查看内容,从而具有较高的用户转化率。附图说明图1为本发明一实施例流程图。具体实施方式下面结合附图给出一个非限定的实施例对本发明作进一步的阐述。但是应该理解,这些描述只是示例的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。如图1所示,本发明提供一种职位预推荐的深度学习方法,具体的实现步骤是:第一步:获取用户访问数据,生成数据矩阵;具体的包括,将来访用户访问职位、企业及隐含属性作为数据集,建立相应的数据矩阵;第二部:对数据矩阵执行监督学习算法,具体的包括对数据矩阵进行回归、去噪和局部加权,完成监督学习算法训练;第三部:对数据矩阵执行无监督学习算法并生成预测结果数据,具体的包括利用k均值聚类算法、fp-growth算法完成无监督学习;第四部:依据预测结果数据和人物画像数据生成职位预推荐数据,具体的包括,向工作人员展示预测结果,并与人物画像综合应用,完成职位预推荐。下面对上述各步骤进行具体说明。上述第一步中将来访用户访问职位、企业及隐含属性作为数据集,建立相应的数据矩阵,包括如下步骤:步骤1.1:收集数据:收集用户访问求职网站过程中产生的职位、企业信息、用户信息;步骤1.2:数据准备:将收集的数据信息整理成符合要求的数据格式;步骤1.3:创建数据矩阵,按照大数据分析的数据特征,并分别建立相应的数据矩阵;上述第二步中对数据矩阵进行回归、去噪和局部加权,完成监督学习算法训练,包括如下步骤:步骤2.1:对数据矩阵进行分解,对数据矩阵进行降噪;通过对数据分解降噪,为后续处理做好准备,提高了系统运行效率。步骤2.2:基于访问记录相似度计算;步骤2.3:训练算法从数据集中抽取知识信息,并存储;上述第三步中利用k均值聚类算法、fp-growth算法完成无监督学习,包括如下步骤:步骤3.1:使用k均值聚类算法对数据进行相似聚类;步骤3.2:使用fp-growth算法,对数据进行关联性分析;上述第四步中查看预测结果,并与人物画像综合应用,完成职位预推荐,包括如下步骤:步骤4.1:向工作人员展示机器学习预测结果;步骤4.2:将预测结果与人物画像进行相似度计算;步骤4.3:完成职位预推荐;实施例1下面通过一个具体的实施例来对本发明进行说明。本发明职位推荐方法具体实施过程中包括以下步骤。步骤1.1:完成收集数据,收集用户信息及用户访问过的职位信息、企业信息;例如:用户信息:设备类型、设备品牌、设备型号、浏览器类别、信息渠道、搜索内容等等;访问记录:访问时间、访问职位,是否投递、是否获取联系方式、访问企业;步骤1.2:完成数据准备,将收集的数据信息整理成符合要求的数据格式,例如:岗位类别jc={jc1,jc2,…,jcm},薪酬js={js1,js2,…,jsn},职别jl={jl1,jl2,…,jlr},学历jd={jd1,jd2,…,jds},年龄ja={ja1,ja2,…,jax},企业规模cs={cs1,cs2,…,cso},行业ca={ca1,ca2,…,cap},l={l1,l2,…,lk};步骤1.3:创建数据矩阵,按照大数据分析的数据特征,并分别建立相应的数据矩阵;数据特征例如:类别薪酬经验学历职别群体php低0本科普通应届生java中2大专普通初级工程师销售低5不限普通转行(迷茫)ceo高10本科高管资深注:数据特征之间部分信息有相关性;例如:枚举型薪酬跟类别有相关性,各个职位类别的薪酬高、中、低建立相应的矩阵字典。数据矩阵例如:[a1[职位1,职位2,…,职位n],a2[职位1,职位2,…,职位n],…,an[职位1,职位2,…,职位n]],[a1[企业1,企业2,…,企业n],a2[企业1,企业2,…,企业n],…,am[企业1,企业2,…,企业n]];[职位1[类别1,薪酬1,…,区域1],职位2[类别2,薪酬2,…,区域2],…,职位n[类别n,薪酬n,…,区域n]][企业1[行业1,薪酬1,…,规模1],企业2[行业2,薪酬2,…,规模2],…,企业z[行业z,薪酬z,…,规模z]]]以上步骤主要完成数据的收集,建立相应的数据集和数据矩阵,结合前期利用大数据分析结果作为特征值;前期利用大数据分析结果包括,已转化用户访问数据分析得出的已转化用户的用户画像,以及向已转化用户转化前推荐职位后,用户的转化数据,分析得出用户画像对应的高转化率职位。本发明中的用户转化行为包括,注册用户转化为付费用户或者用户对系统发送的职位做出响应,接收系统推荐的职位。通过分析访问网站的潜在用户得出潜在用户画像,向潜在用户推荐其用户画像对应的高转化率职位,提高了用户转化效率。步骤2.1:主要利用奇异值分解(singularvaluedecomposition,svd)对访问的职位、企业数据矩阵进行分解,将原始矩阵表示成易于处理的形式;svd将原始矩阵data分解为三个矩阵u、∑和vt;原始矩阵data是m行n列,那么对应的u、∑和vt就分别为m行m列、m行n列和n行n列;计算表达式为:通过使用svd对数据集进行简化,同时对异常值进行优化,完成对数据矩阵降噪;步骤2.2:主要采用余弦相似度(cosinesimilarity)对访问职位、企业的数据向量相似度计算,计算的是两个向量夹角的余弦值。如果夹角为90度,则相似度为0;如果两个向量的方向相同,则相似度为1.0。计算表达式如下:其中‖a‖和‖b‖表示向量a、b的2范数步骤2.3:训练算法主要采用梯度上升找到最佳参数,在抽取访问职位的样本点中,每个点包含两个数值型特征:x1和x2,通过梯度上升法找到最佳回归系数,也就是拟合出logistic回归模型的最佳参数,主要处理步骤如下:步骤2.3.1:初始化每个回归系数为1;步骤2.3.2:重复n次:计算整个数据集的梯度;使用alpha*gradient更新回归系数的向量;alpha是向目标移动的步长。步骤2.3.3:返回回归系数优化训练算法主要采用随机梯度上升法,由于数据特征较大,采用梯度上升法计算复杂度太高,改进的方法主要是一次仅用一个样本点来更新回归系数。上述主要完成对数据矩阵进行回归、去噪和局部加权,并完成监督学习算法训练。步骤3.1:使用k均值聚类算法对数据进行相似聚类,主要处理步骤如下:步骤3.1.1:随机创建k个点作为起始质心;步骤3.1.2:当任意一个点的簇心分配结果发生改变时,对数据集中的每个数据点,对每个质心,计算质心与数据点之间的距离,并将数据点分配到距其最近的簇;步骤3.1.3:对每一个簇,计算簇中所有点的均值并将均值作为质心;步骤3.1.4:算法结果评价:使用量化的误差指标,本发明使用误差平方和来评价算法的结果;步骤3.2:使用fp-growth算法,对数据进行关联性分析;步骤3.2.1:将访问职位数据集离散化,将其量化位离散值;步骤3.2.2:第一次遍历数据集,获取每个元素项的出现频率。去掉不满足的元素项,读入每个项集并将其保存,并按照出现的频率进行排序。排序及过滤后,构建fp树,并对树进行挖掘;步骤3.2.3:提取经常出现的元素项,用于职位预测;上述第三步中利用k均值聚类算法、fp-growth算法完成无监督学习。步骤4.1:查看某类型求职者从机器学习预测结果;步骤4.2:将预测结果与人物画像进行相似度计算,提取相似度较高的预测值;步骤4.3:将相似度较高的预测值,用于职位预推荐;上述第四步中查看预测结果,并与人物画像综合应用,完成职位预推荐。本实施例的有益效果是,根据来访人员的设备信息、访问内容、操作行为等等,完成自动学习、并结合用户画像,精准推荐工作资讯;让用户发现更多相关度较高职位信息,提高用户查看内容,从而达到提高用户转化率的有益效果;可以将转化率由未采用本发明技术方案的的10%提高到采用本发明技术方案后的20%~40%。在本发明的具体实施过程中,职位推荐系统包括数据获取模块,用于获取用户访问数据,生成数据矩阵;监督学习模块,用于对数据矩阵执行监督学习算法;无监督学习模块,用于对数据矩阵执行无监督学习算法并生成预测结果数据;预测模块,用于依据预测结果数据和人物画像数据生成职位预推荐数据。数据获取模块获取的数据源包含求职用户来访时访问的软件系统留下的日志、文件以及软件系统的格式化信息。本方案主要涉及:apachelog、nginxlog、solrlog、database等等,另外还有用上传的文本文件、图片文件等等。监督学习模块和无监督学习模块完成数据分析步骤:包括完成数据源的提取,并按照数据模型、算法进行分析、画像;再将分析的结果交由机器学习;并将机器学习应用到来访推荐职位中。核心流程主要分为以下步骤:数据清洗:指的是系统提取数据源信息,对数据进行智能清洗,将非有效数据乱码等干扰数据清洗调,留下核心数据;主要采用solr+hadoop(hive)+redis架构,使用hadoop(hive)实时存储采集的数据,并进行一定的清洗、梳理、抽取和存储;数据规整:指的是对清洗后的数据进行比对,将重复数据标记合并;另外在数据层进行数据元、元数据管理等。数据分类:指的是对规整后的数据进行数据分类;分类信息有设备类型:pc、mobile、ipad等;设备分辨率:特高清、高清、中、低等;来访运营商:移动、电信、联通、其它;另外还有设备品牌、设备型号、浏览器类别、信息渠道等等。求职者分类:人群分类:高管、金领、白领、蓝领、兼职等;学历分类:博士、硕士、本科、大专、中专/中技、高中、初中、小学等;另外还有年龄、性别、地区、收入、职业、意向职业、职业成长、浏览信息、搜索、婚姻、生育、兴趣爱好、偏好、disc性格等等。企业分类:企业类型:独角兽、知名企业、上市公司、中型、小微;其它还有企业规模、所属行业、所属地区、岗位需求、岗位急招情况、求职者评价等等;数据建模:根据概念模型,进行逻辑模型设计;根据逻辑模型,进行物理模型设计;根据物理模型,进行数据仓库、分析仓库搭建;并将设计的数据指标保存到指标工具。对行为、数据等知识进行类比、总结、记录、自动调整数据,主要采用的学习方法有:均值聚类、apriori、fp-growth。主要根据审核人员在审核过程中操作的行为进行学习;通过类比相关标准数据进行学习;通过标准事例的数据结构进行学习;通过管理员引导进行学习。采用solr+hadoop(hive)+redis架构,使用hadoop(hive)实时存储采集的数据,并进行一定的清洗、梳理和抽取;系统将数据再进行按照机器学习的结果,将数据进行规范化,并将规范后的数据提交到redis服务器;solr根据数据模型及算法获取匹配的数据信息,根据获取到的数据信息,定期生成数据表。根据数据建模类型进行创建对象;根据算法进行元数据分析;预测模块根据算法分析的结果,通过机器学习快速对来访人员进行判断,并推荐相应的职位信息、工作资讯、求职引导等等。预测模块还可以将分析的结果以图表的形式将内容展现出来,主要展示的图形为:深度交互图、散点图、面积图、趋势图、热力图、关系图等。让分析人员,根据数据计算相关准确度,从而进行算法优化;另外及时展现机器学习成果,让研究人员快速判断是否符合预期实习对算法的快速准确调整。下面对本发明中的特定词汇进行解释说明本发明中涉及相关的专业术语定义如下:机器学习:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。数据特征:用于区分来访人员需要使用的不同属性值,例如:人群类别:高管、金领、白领、蓝领、兼职;学历分类:博士、硕士、本科、大专、中专/中技、高中、初中等;性别:男、女等等;回归分析:是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。矩阵分解:是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、qr分解、jordan分解和svd(singularvaluedecomposition奇异值)分解等,常见的有三种:1)三角分解法(triangularfactorization),2)qr分解法(qrfactorization),3)奇异值分解法(singularvaluedecomposition)。异常值:指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。梯度上升法:基于的思想是:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。如果梯度记为▽,则函数f(x,y)的梯度表达式如下:这个梯度意味着要沿x方向移动沿y方向移动梯度算子总是指向函数值增长最快的方向,及移动方向;移动量的大小称为步长,记为ɑ;用向量来表示的话,梯度上升算法的表达式为:w:=w+α▽wf(w);迭代执行,直到某个停止条件为止,比如迭代次数达到限定值或者算法达到可允许的误差范围。用户画像:利用大数据对用户操作信息收集与分析后,完美地抽象出一个用户的概况,是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1