一种基于互联网的岗位职业能力需求的自动获取方法_2

文档序号:9751498阅读:来源:国知局
的文本文件中。文本文件中每一条招聘信息中的岗位名称和岗位要求以制表符分隔,而每条招聘信息之间以一个特殊符号分隔(应保证在招聘信息中不包含这个特殊符号)。
[0030]步骤3,分别读取这两个文本文件,利用开源分词系统提供的接口对这两个文本文件进行分词,然后去除单字符和重复单词,分别构建两个文本的单词向量空间(即:这两个文本是由哪些不同的单词构成的)。
[0031]步骤4,逐行扫描分词后两个文本文件中每条信息(即岗位),结合各自的单词向量空间,分别统计这些单词在每条信息中出现的次数从而构建招聘信息(岗位)_单词矩阵,矩阵中每一行代表一条招聘信息(岗位),每一列代表一个单词,相应的矩阵元素设置为单词在这条信息(岗位)中的加权出现频次,具体技术方案为:如果某个单词前面有前缀单词“精通”设置权值为2; “熟悉”和“熟练”设置权值为1.6; “掌握”设置权值为1.5,其他设置权值为
1
[0032]统计具体岗位文本所对应的矩阵中每个单词累计加权出现频率,具体计算公式为:一个单词在这个文本文件包含的招聘信息中出现的累计加权出现频次除以所有单词在这个文本文件包含的招聘信息中出现的累计加权出现频次之和。
[0033]统计这些单词在某一类职位文本所对应的矩阵中的累计加权出现频率。
[0034]步骤5,设置一个阈值(5%_10%),如果一个单词在具体岗位文本中累计加权出现频率减去这个单词在某一类职位文本中累计加权出现频率大于这个阈值,那么这个词就是这个具体岗位所要求的职业技能,所有满足这个条件的词共同组成了这个岗位所要求的职业技能。
[0035]说明书中未阐述的部分均为现有技术或公知常识。本实施例仅用于说明该发明,而不用于限制本发明的范围,本领域技术人员对于本发明所做的等价置换等修改均认为是落入该发明权利要求书所保护范围内。
【主权项】
1.一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:该方法包括以下步骤: 步骤1,利用爬虫技术爬取招聘网站上的招聘信息,并将招聘信息保存在数据库中; 步骤2,从数据库中检索某一类职位的职位名称和岗位要求数据,并在返回的结果中检索某一具体岗位的职位名称和岗位要求数据,将两次检索的结果分别保存在职位文本文件和具体岗位文本文件中; 步骤3,利用分词系统提供的接口分别对步骤2中所述的职位文本文件和具体岗位文本文件进行分词,构建两个文本的单词向量空间; 步骤4,扫描两个文本文件中每条招聘信息,结合各自的单词向量空间,分别统计这些单词在每条信息中出现的次数从而构建“招聘信息-单词”频次矩阵;分别统计具体岗位文本和职位文本所对应矩阵中各单词出现概率; 步骤5,根据步骤4中得到的单词概率筛选具体岗位文本中的单词并组合形成该岗位所要求的职业技能。2.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法, 其特征在于:步骤I中所述的爬取招聘信息具体包括以下步骤: 步骤101,获取并解析招聘网站职业搜索页面获取该网站所有职能、行业和地区名称以及对应编号,保存在本地数据库中; 步骤102,利用职能、行业和地区名称以及对应的编号组合成搜索关键词,利用该网站的内部搜索引擎,获取包含招聘信息超链接的信息列表; 步骤103,通过循环解析信息列表,获取完整招聘信息和职位名并保存在数据库中。3.根据权利要求2所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤103中包括对重复爬取的超链接数据利用数据库脚本进行去重和优化。4.根据权利要求1或2所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:所述步骤I还包括对已经爬取的网页在数据库的超链接信息中进行标记防止重复爬取已获得的数据,方便数据更新和分析。5.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤3中所述的单词向量空间的元素为职位文本文件或具体岗位文本文件中包含的单词。6.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤4中所述“招聘信息-单词”频次矩阵中,每一行代表一条招聘信息、每一列代表一个单词,或者每一列代表一条招聘信息、每一行代表一个单词,对应的矩阵元素为单词在这条招聘信息中的出现频次。7.根据权利要求6所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:所述频次为加权频次,即根据不同的词汇对于岗位要求的重要程度不同设置不同的权值。8.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤5中筛选的具体方法为:设置阈值,若一个单词在具体岗位文本中出现的概率减去该单词在职位文本中出现的概率大于阈值,则将该单词定义为该具体岗位所要求的职业技能关键词;具体岗位文本中所有满足上述条件的单词共同组成该岗位所要求的职业技能。
【专利摘要】本发明公开了一种基于互联网的岗位职业能力需求的自动获取方法,通过自动化的方式从招聘网站上获取招聘信息,并保存在本地资料库中,针对某一具体岗位抽取招聘信息,利用自然语言处理技术和数据挖掘技术,自动提取该岗位的职业能力需求。本方法和传统的方法相比具有以下优点:1.本方法是一个自动化的过程,时间快,效率高,成本低;2.获取的数据样本大,数据及时更新,分析结果具有代表性。
【IPC分类】G06Q10/10, G06F17/27, G06F17/30
【公开号】CN105512864
【申请号】CN201610057492
【发明人】丁沂, 冯耀, 梅晓
【申请人】丁沂
【公开日】2016年4月20日
【申请日】2016年1月28日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1