一种人物画像与职位匹配的方法及系统的制作方法

文档序号:9844417阅读:715来源:国知局
一种人物画像与职位匹配的方法及系统的制作方法
【专利说明】
【技术领域】
[0001]本发明涉及计算机及网络领域,尤其是一种人物画像与职位匹配的方法及系统。【【背景技术】】
[0002]早期在线招聘平台缺乏对用户提供个性化推荐的计算能力和技术手段,将研发重点放在搜索技术的提高上:将职位依据地点、行业、待遇、学历要求、技能要求等等方面划分为若干个子门类,减小用户的检索难度。
[0003]随着互联网的发展,行业对用户体验愈发重视,伴随着计算能力和分词技术的提高,在线招聘平台逐步开始了向个性化推荐的转变;最早的推荐方式依旧是基于检索,即将用户信息文本分词并提取关键词,然后依据关键词对职位库进行检索;这种方式其实并没有改变检索本质,仅仅是减轻了用户的录入负担。
[0004]随后协同过滤技术出现,运用对用户隐性反馈的分析,比如对点击、收藏、投递等等行为的记录,从而挖掘出用户喜好的职位类型。这一方法也是目前业界主流的推荐手段之一。该方法同样有许多弊端,比如冷启动问题、数据稀疏性问题等等;但最大的问题在于完全忽略了用户的个人信息和职位描述信息。
[0005]后来人们引入数据挖掘方法进行人物画像,包括K-means等聚类方法,在一定程度上改善了用户基础信息的提取和整合工作。
[0006]近几年机器学习算法,尤其是深度学习算法得到了广泛的应用,包括卷积神经网络(CNN,ConvoIut 1n neural network)、循环神经网络(R丽,Recurrent NeuralNetworks)、主题模型、词向量等方法,有了新的手段将职位描述的文本和词语映射到向量空间当中,统一的数学表征为职位的聚类分析,挖掘更多的深层次信息提供了更多的可能。
[0007]上述需要解释的术语包括:人物画像:从用户处收集到的个人信息以及社交网络信息,经过聚类整理,形成一系列的人物属性特征,并依据特征分类所得即为人物画像。机器学习:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问,强调用数据或以往的经验,以自动优化和改进计算机程序和算法性能。聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。深度学习:深度学习是机器学习的附属概念之一,源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
[0008]经发明人进一步研究发现,在现有技术中申请(专利)号:200510077871.4的申请公开说明书中的技术背景中介绍了多种系统和方法,其主要匹配思路是依据现有条件和希望条件进行匹配,这种方式中通过双方的希望条件或现有条件进行自动匹配,使匹配度数值化,进而把数值高的推荐给对方。另一篇申请(专利)号:200710143140.4中,介绍了一种通过媒合度的方法来进行匹配,这种方法和先前介绍的申请(专利)号:200510077871.4中的方法相似,都是通过加设权重计分的方法来反映偏好,从中选择出相应的那类招聘单位或求职者。
[0009]综上,现有技术的缺点是类似的,S卩I)这种方式通常只考虑某一方的要求,没有考虑到用户与招聘单位是双向匹配的过程,忽略了匹配另一方的要求,实用性差。2)人物信息与职位信息之间往往存在着非字面层面上的模糊关系,将人物的每条特征与职位的每条要求都独立看待,忽略了人物特征之间与职位要求之间的相关性,也就忽略了隐含的深层次信息,从而存在着模糊偏好很难实现精确配对的问题。

【发明内容】

[0010]本发明提供了一种人物画像与职位匹配的方法及系统,目的是保留住并利用到职位描述的语义信息,挖掘出人物画像与职位之间更深层次的关联,有效提高人物画像和职位的匹配精度和匹配速度。
[0011]本发明的一种人物画像与职位匹配的方法,包括下列步骤:S1、对职位信息预处理的步骤:对职位信息进行预处理,得到经预处理的历史职位词语序列和经预处理的当前职位词语序列;S2、职位特征标注的步骤:对所述的经预处理的历史职位词语序列进行处理,得到已标注的历史职位信息和历史职位分类模型;以及,对所述的经预处理的当前职位词语序列进行处理,得到已标注的当前职位信息和当前职位分类模型;S3、关联提取的步骤:根据已有的人物画像信息和上述得到的历史职位分类模型,提取人物画像与历史职位特征的关联;S4、模型训练的步骤:根据上述得到的已标注的历史职位信息、历史职位分类模型、已标注的当前职位信息以及当前职位分类模型,获取历史职位特征与当前职位特征的关联;S5、结果输出的步骤:根据已有的人物画像信息以及上述得到的人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息,获取人物画像与当前职位的匹配度。
[0012]其中,步骤SI中所述的对职位信息进行预处理包括:输入职位的各项数据;将所述职位的各项数据中的中文文本进行分词后进行文本清洗操作,非中文文本的职位信息则根据数据类型按照特征处理流程进行清洗操作。
[0013]其中,步骤S2中所述的对经预处理的历史职位词语序列进行处理包括:生成文档的向量表示;使用机器学习方法,将历史职位聚类并标注特征或类别;使用机器学习方法,训练历史职位分类模型。设总共m个职位的所有文本包含的词语总数为S,每个职位的文本信息为一个文档D,一个包含d个词语的文档D的词语序列为[wl,w2,…,wd],每个文档的s值各不相同;生成文档的向量表示具体包括:通过向量空间模型将每个文档转化为具有同等长度s的向量,此时整体信息为一个m*s的矩阵S,每一行代表一个文档向量,每一列即每个维度表示一个词语的特定统计量;再将维度从s缩减到q,即矩阵S转化为m*q的矩阵Q,其中每一维度在数学意义上代表一个复合特征;使用机器学习方法,将历史职位聚类并标注特征或类别具体包括:视每个文档向量为向量空间中的散点进行聚类分析,将散点划分为k个类别,每个行向量标注一个类别;使用机器学习方法,训练历史职位分类模型具体包括:已标注了 k个类别的m*q矩阵Q做训练数据,训练得到历史职位分类模型。
[0014]其中,步骤S2中所述的对经预处理的当前职位词语序列进行处理包括:生成文档的向量表示;使用机器学习方法,将当前职位聚类并标注特征或类别;使用机器学习方法,训练当前职位分类模型。
[0015]其中,步骤S3中通过数据挖掘和深度学习方法提取所述的人物画像与历史职位特征的关联。设人物画像信息用一个n*p矩阵P表示,代表有η种人物类型,用P种特征来表示;历史职位分类模型在数学意义上可简单抽象成一个k*q矩阵C,其余历史职位信息用k行矩阵X表示;人物画像与历史职位的n*k关系矩阵R,R?表示第i种人物画像与第j种历史职位类型的关联频度;所述人物画像与历史职位特征的关联,具体为人物画像特征与历史职位特征之间的关联矩阵1]=时(?^)+^^如)+0,其中_数和8函数是对矩阵的变换函数,矩阵B是偏置矩阵,α、β、γ分别是各线性加权项的权重参数。
[0016]其中,步骤S4中具体使用机器学习、深度学习方法和训练模型方法,将历史职位特征与当前职位特征的关联。
[0017]其中,步骤S5中具体包括:用矩阵P代表人物画像,用矩阵U代表人物画像与历史职位特征的关联,用矩阵V代表历史职位特征与当前职位特征的关联,用矩阵Y代表已标注的当前职位信息;人物画像与当前职位的匹配度W = f(P
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1