一种基于互联网的岗位职业能力需求的自动获取方法

文档序号:9751498阅读:528来源:国知局
一种基于互联网的岗位职业能力需求的自动获取方法
【技术领域】
[0001]本发明涉及互联网及数据处理技术领域,尤其涉及一种基于互联网的岗位职业能力需求的自动获取方法。
【背景技术】
[0002]充分利用信息技术手段,提升职业教育学生的职业核心能力;依托互联网媒介功能,将企业实际需求与职业教育培养充分结合,是我国追赶乃至超越职业教育先进国家的唯一可行选择。当前,互联网尤其是招聘网站上有大量招聘信息,在这些招聘信息中,企业明确指出了具体岗位的职业能力需求,这些招聘信息可以用来帮助学生就业,获取的岗位职业能力需求能够用来优化人才培养方案和课程教学,为教育行业相关职能部门进行科学决策提供数据支持。
[0003]然而现如今获取相关岗位职业能力需求的方式主要是通过问卷调查、访谈、以及利用网络进行人工检索获取数据,然后对获取的数据进行整理和分析,这种方法通常采集的数据量小、采集面窄、数据不能及时更新,因此最后统计分析的结果往往不具备代表性。

【发明内容】

[0004]为了克服现有技术的不足,本发明提供一种基于互联网的岗位职业能力需求的自动获取方法,本方法通过自动化的方式从招聘网站上获取招聘信息,并保存在本地资料库中,针对某一具体岗位,利用大量这个岗位的招聘信息,通过自然语言处理技术和数据挖掘技术,自动提取该岗位的职业能力需求。
[0005 ]本发明为解决上述技术问题所采用的技术方案是:
[0006]—种基于互联网的岗位职业能力需求的自动获取方法,该方法包括以下步骤:
[0007]步骤I,利用爬虫技术爬取招聘网站上的招聘信息,并将招聘信息保存在数据库中;
[0008]步骤2,从数据库中检索某一类职位的职位名称和岗位要求数据,并在返回的结果中检索某一具体岗位的职位名称和岗位要求数据,将两次检索的结果分别保存在职位文本文件和具体岗位文本文件中;
[0009]步骤3,利用分词系统提供的接口分别对步骤2中所述的职位文本文件和具体岗位文本文件进行分词,构建两个文本的单词向量空间;所述的单词向量空间的元素为职位文本文件或具体岗位文本文件中包含的单词。
[0010]步骤4,扫描两个文本文件中每条招聘信息,结合各自的单词向量空间,分别统计这些单词在每条信息中出现的次数从而构建“招聘信息-单词”频次矩阵;分别统计具体岗位文本和职位文本所对应矩阵中各单词出现概率;
[0011]步骤5,根据步骤4中得到的单词概率筛选具体岗位文本中的单词并组合形成该岗位所要求的职业技能,具体为设置阈值,若一个单词在具体岗位文本中出现的概率减去该单词在职位文本中出现的概率大于阈值,则将该单词定义为该具体岗位所要求的职业技能关键词;具体岗位文本中所有满足上述条件的单词共同组成该岗位所要求的职业技能。
[0012]作为优选,步骤I中所述的爬取招聘信息具体包括以下步骤:
[0013]步骤101,获取并解析招聘网站职业搜索页面获取该网站所有职能、行业和地区名称以及对应编号,保存在本地数据库中;
[0014]步骤102,利用职能、行业和地区名称以及对应的编号组合成搜索关键词,利用该网站的内部搜索引擎,获取包含招聘信息超链接的信息列表;
[0015]步骤103,通过循环解析信息列表,获取完整招聘信息和职位名并保存在数据库中。该步骤中还包括对重复爬取的超链接数据利用数据库脚本进行去重和优化。
[0016]作为优选,所述步骤I还包括对已经爬取的网页在数据库的超链接信息中进行标记防止重复爬取已获得的数据,方便数据更新和分析。
[0017]作为优选,步骤4中所述“招聘信息-单词”频次矩阵中,每一行代表一条招聘信息、每一列代表一个单词,或者每一列代表一条招聘信息、每一行代表一个单词,对应的矩阵元素为单词在这条招聘信息中的出现频次。所述频次为加权频次,即根据不同的词汇对于岗位要求的重要程度不同设置不同的权值。例如:如果某个单词前面有前缀单词“精通”设置权值为2; “熟悉”和“熟练”设置权值为1.6; “掌握”设置权值为1.5,其他设置权值为I。
[0018]与现有技术相比,本发明的有益效果是:
[0019]1、本方法是一个自动化的过程,时间快,效率高,成本低。
[0020]2、获取的数据样本大,数据及时更新,分析结果具有代表性。
【附图说明】
[0021 ]图1是本发明方法流程图。
【具体实施方式】
[0022]下面结合附图及实施例对本发明作进一步说明。
[0023]一种基于互联网的岗位职业能力需求的自动获取方法,包括以下步骤:
[0024]步骤I,利用爬虫技术爬取招聘网站上的招聘信息,并将招聘信息保存在数据库中;
[0025]步骤I中所述的爬取招聘信息具体包括以下步骤:
[0026]步骤101,获取并解析招聘网站职业搜索页面获取该网站所有职能、行业和地区名称以及对应编号,保存在本地数据库中;
[0027]步骤102,利用职能、行业和地区名称以及对应的编号组合成搜索关键词,利用该网站的内部搜索引擎,获取包含招聘信息超链接的信息列表;
[0028]步骤103,通过循环解析信息列表,获取完整招聘信息和职位名并保存在数据库中。该步骤中还包括对重复爬取的超链接数据利用数据库脚本进行去重和优化。
[0029]步骤2,从数据库中检索某一类职位(如:软件工程师)的职位名称和岗位要求数据,并在返回的结果中检索某一具体岗位(如:java开发工程师)的职位名称和岗位要求数据,将两次检索的结果分别保存在不同
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1