基于大数据的区域人才供需平衡量化分析方法与流程

文档序号:11217084阅读:649来源:国知局
本发明涉及一种人才供需平衡量化分析方法,更具体的说,尤其涉及一种基于大数据的区域人才供需平衡量化分析方法。
背景技术
::人才是区域经济发展的第一资源和基础性资源,在很大程度上影响或决定着区域经济的发展方向、发展速度、发展潜力、市场竞争力和经济效益。因此,大到国家,中到省、自治区,小到地市,微到区县,各层各级行政区都希望对本区域的人才情况有着直观量化的掌控,从而根据区域经济优势及人才供需缺口,制定相匹配的人才发展计划和人才引进政策,宏观调控区域资源和人才的优化配置,进一步推进本地区经济又好又快的发展。当前各层各级区域对人才供需现状的分析,一般是通过抽样式的调查问卷或购买咨询公司分析报告等人工服务介入的形式获取第一手数据,虽然加工后可直接获得定性结论,但存在如下三类问题:一、范围窄人才供需的分析都需要预先定义报告的主题也即分析的目标,一次只能分析一个目标,针对一个主题形成报告。而且受分析人员人力、报告时限及材料收集的限制,分析的目标不能过于宽泛,分析的维度不能过多,时间跨度也不能过大。因此,很难一次同时生成多个主题的报告。目前的分析报告大多是五年内一个行业或领域内有限维度的相关分析。二、耗时长确定分析目标后无论是调查问卷还是咨询公司,都需要花较长的时间去收集整理相关数据,而收集的数据大多来自年鉴库、省志库等统计资料库,这些资料库通常是在年末汇总具有一定滞后性的,很难实时地反映当前人才供需情况。随着分析指标的增多和时间跨度的增大,数据收集的难度会随之增大,信息的可靠性也会随之降低。此外,数据收集后的整理去噪规则的编写和多维度分析模型的构建也需要投入大量的人力和时间去处理。且在报告最终呈现前无法提前检验分析模型的有效性,当模型出现偏差时需多次迭代模型构建、数据分析、报告撰写等过程,无形地增加分析耗时。三、成本高一次人才供需分析,各个阶段都需大量人工介入,致使单次分析耗费的人力和财务成本较高。即使拥有一系列历史分析报告,由于每次分析的人员组成、目标数据和模型功能等因素不同,导致了数据割裂、目标模型单一等问题,使得之前报告的各项成果、数据、参数、指标、模型等很难被重用,每次分析的成本很难被降低。大数据时代的来临,网络上承载的信息愈加丰富。其涵盖各行业个领域人才供需的详细信息,通过分布式网络爬虫在网络上采集人才的需求和供给相关数据,再利用大数据处理方法及数据挖掘算法量化分析方法,构建区域视角下人才供需分析系统,可有效解决人工分析所面临的上述三类问题,为区域人才的量化分析提供解决方案。。技术实现要素:本发明为了克服上述技术问题的缺点,提供了一种基于大数据的区域人才供需平衡量化分析方法。本发明的基于大数据的区域人才供需平衡量化分析方法,包括区域内人才需求相关数据采集、区域内人才供给相关数据采集和区域人才供需平衡量化分析步骤,其特征在于:所述区域内人才需求相关数据采集通过以下方法来实现:a).确定人才需求目标数据源和采集范围,优质可量化且能够实时反映区域人才需求的数据是做好分析的前提,因此选取的目标数据源为:招聘网站,大型组织、大学、人社局网站的招聘板块,以及编制招考信息;由于单独一个区域的分析不能体现本区域的优势及不足,需要对多个同级区域对比分析才能找到问题,为政策的制定提供依据;因此除了采集指定区域外,也将同一行政区下所有与指定区域同级的区域也纳入到采集的范围;b).采集人才需求目标源数据,大型组织、大学、人社局网站的招聘模块和编制招考信息的更新频率不高,直接采用现有分布式爬虫的抓取策略采集信息;由于招聘网站同时服务器于诸多实体组织,承载着诸多组织的招聘信息更新频率极高,需要实时获取招聘网站的信息;同时受目标数据源服务器的限制,同一ip地址的爬虫在一定时间内只能采集同一目标服务器限定的数据,故采用将同一招聘网站平均分配到多个爬取节点的方法进行目标数据源的信息采集;c).人才需求信息提取,由于所采集的人才需求数据是原始的非结构化网页,其中杂陈广告、友情链接、同类推荐无关信息,首先采用dom树的方法和基于行块分布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括组织名称、岗位、职位、月薪、学历、工作年限、组织规模、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求、年龄要求、工作地点、发布时间在内的招聘信息,形成结构化数据,每个招聘信息定义一个人才需求指标维度,所有的指标维度组成人才需求指标维度列表;d).人才需求数据清洗,首先将各指标维度所采用指标体系进行标准化、将各指标维度值进行标准化,以实现指标维度的标准化处理;然后,将同一媒体、多个媒体中重复发布的招聘信息进行去重处理,以过滤重复发布的信息;e).人才需求数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类统计将网页url、招聘信息媒体来源、所属区域也作为一个人才需求指标维度存储于数据库一列;为方便时间跨度方面的统计分析,将招聘信息的有效持续结束时间也作为一个人才需求指标维度存储于数据库一列;同时若指标维度是区间标度属性,则在存储过程中将其分成区间起始值和区间终止值分别存储指标维度的首尾值;所述区域内人才供给相关数据采集通过以下方法来实现:1).确定人才供给目标数据源和采集范围,人才供给分析的基础是数据,优质可量化,且能够实时反映区域人才供给的数据是做好分析的前提,因此选取的目标数据源为:各类学校的招生信息,并通过比例计算获取不同学历、不同专业人才的供给情况;由于单独一个区域的分析并不能体现本区域的优势及不足,只有在多个同级区域对比分析中才能找到问题;根据人才流动情况,人们更倾向于就近相邻区域的流动;因此,本系统将同一行政区下所有与指定区域同级的区域也都纳入到采集的范围;2).采集人才供给目标源数据,采用分布式爬虫采集指定范围内的目标数据源;3).人才供给信息提取,由于所采集的人才供给数据是原始的非结构化网页,其中杂陈广告、友情链接、同类推荐无关信息,首先采用dom树的方法和基于行块分布函数方法抽取目标网页中的数据;然后从非结构化的网页数据中提取包括学校名称、专业及招生人数在内的信息,每个信息定义为一个指标维度,同时也将学校所属区域、学校招生批次、学校招生学历列为人才供给指标维度,与提取的指标维度共同构建人才供给指标维度列表;4).人才供给数据清洗,采用教育部制定的普通高等学校本科专业目录中的专业名称统一不同学校专业名目,实现专业指标维度的标准化处理;学校每年均会发布招生信息,且每年各学校发布招生信息的时间略有不同,需多次重复扫描含有招生信息的网页;为防止多次采集相同招生信息后重复存储,在采集到招生信息后需要进行清洗,过滤重复发布的信息;5).人才供给数据存储,所提取的每一个指标维度使用结构化数据库中一列存储,为方便招聘信息的归类统计将网页url、招生信息媒体来源也作为一个人才供给指标维度存储于数据库一列;区分相同学校不同时间的招生信息以及确定学校供给人才的时间,将招生时间和学制也分别作为人才供给指标维度存储于数据库一列;所述区域人才供需平衡量化分析步骤通过以下方法来实现:a).人才供需数据映射,人才需求指标维度中的职位与人才供给指标维度中的专业是人才供需联系的纽带,通过将指标维度职位的取值与指标维度专业的取值映射到相同的空间,以便将人才需求量与人才供给量联系在一起;b).指标维度分类,指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度,区域维度用于指定分析的目标区域,区域维度的分析可以分成两类:本区域人才供需分析和多区域人才供需对比分析;动态维度的分析可以分成两类:一定时间段的整体宏观分析和时间演化分析;人才供给分析的主要目标在于向用户展示本区域人才的供需量,目标维度定为供给量和需求量;限定维度用于指定分析的限定条件,主要是学历和职位两个指标维度;c).分析分类,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分,分析可分为四型分析:ⅰ型分析、ⅱ型分析、ⅲ型分析和ⅳ型分析;其中,ⅰ型分析为本区域一定时间段内整体宏观人才供需分析;ⅱ型分析为本区域随时间演化人才供需趋势分析;ⅲ型分析为多区域一定时间段整体宏观人才供需对比分析;ⅳ型分析为多区域随时间演化人才供需变化趋势对比分析;d).分析方法,目标维度需求量和供给量的分析结果属于数值型数据,按照分析分类对其进行量化分析;e).分析结果可视化,通过柱形图直观展现人才需求量和人才供给量的平衡情况及其缺口。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤b)中所述的招聘网站的数据采集具体通过以下步骤来实现:b-1).将所有目标招聘网站的域名分配到全部爬取节点;b-2).在将域名分给所有爬取节点的同时,为不同的爬取节点分配互不相交的职位类别及标识该职位类别的参数,以此将招聘网站划分成互不相交的子集分配给各爬取节点,每个爬取节点负责一个子集的采集;b-3).各爬取节点通过招聘网站加所分配职位类别参数的方式,向招聘网站发送请求,获取工作岗位列表,此列表即是需要采集的目标数据源列表url_init_list;b-4).为避免同一时间过于集中地采集同一域名的招聘网站,在得到url_init_list后不即刻采集网页,而是将url_init_list中的url地址进行混排生成最终采集目标数据源列表url_final_list,混排方法如下:首先将url_init_list中的url地址按照主机分组划分成若干子列表;然后采用随机方法随机挑选一个子列表,并在该子列表中随机选择一个未被选中过的url地址放入url_final_list;迭代子列表和url地址的选择过程直至选完所有子列表的所有url地址;b-5).爬取节点在得到url_final_list后,采集网页数据。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤c)中所述的招聘信息的提取通过以下步骤来实现:c-1).由于每个招聘网站的格式都较为固定,因此首先为每个招聘网站设计模板,然后利用正则表达式提取所需信息,并将从非结构化页面中提取的各个指标维度的值存储于结构化数据库中;c-2).由于大型组织、大学、人社局网站的招聘板块以及编制招考信息在发布招聘信息时较为随意,没有固定的格式,并会在详情页面中使用表格展示招聘信息,故直接从表格中提取指标维度值,方法如下:c-2-1).获取表格,在详情页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格;c-2-2).表格去噪,在处理表格时首先去除控制页面显示格式的div、css及与表格无关的html标签,只保留与表格显示和控制相关的table、tr、td、colspan标签;c-2-3).表格标准化,因为表格无规定格式,在处理过程中分割多行多列的单元格,将表格转化成简单表格,使表格中的每个单元格只占一行一列且只有一个值;c-2-4).判断表格横竖,判断记录招聘信息的表格是横表还是纵表,取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;c-2-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的html表格转化成结构化的键值对,进而存储到结构化数据库;纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤d)中,各指标维度所采用指标体系的标准化方法为:首先,将指标维度使用最广泛的指标体系作为标准指标体系;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度使用的其他指标体系中的指标;最后依据其他指标体系中指标与本体中概念的功能相似性,将其他指标体系中的指标作为概念的实例引入本体,通过本体概念与本体实例之间的关系,建立标准指标体系与其他指标体系之间的映射关系,将指标体系统一到标准指标体系,实现多指标体系指标维度的标准化;各指标维度值的标准化方法为:针对指标维度值不一致的情形,采用量化表或公式的方式统一指标维度的赋值;首先规定一种赋值为标准值;然后利用量化表或公式,为指标维度的各种不同赋值建立映射关系,将不同的赋值转化为标准值;同一媒体中重复发布的招聘信息去重方法为:url是互联网资源的唯一标识,因此判断同一媒体发布的信息是否存在重复的url,同一url地址的信息只采集一次即可实现去重;多个媒体中重复发布的招聘信息去重方法为:同一招聘信息发布于不同媒体其url地址不同,需要对比不同媒体招聘内容中提取的各个指标维度是否相似,通过以下方法来实现:d-1).首先对比从不同媒体获取的招聘信息中组织名称是否相同,若相同则对比招聘职位是否相同,若相同执行步骤d-2);d-2).对比岗位职责和岗位要求的相似度,通过文本相似度算法,若岗位职责和岗位要求的相似度均超过75%,则执行步骤d-3);d-3).对比不同媒体招聘信息的发布时间,若发布时间差小于7天转入步骤d-4);d-4).对比结果判定为重复信息,统一不同媒体中各指标维度值;对于序数属性类的指标维度取较低的值作为统一值;对于标称属性类的指标维度取各指标维度值的合集作为统一值;对于区间数值属性类的指标维度取各指标维度值的最小和最大值,按照加权平均的方法求取平均数作为统一值。d-5).确定非重复招聘信息,若步骤d-1)、d-2)和d-3)中有任意一条不满足,则认为是非重复招聘信息,提取信息后直接存储于结构化数据库中。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤2)中所述目标源数据的采集通过以下步骤来实现:2-1).收集指定区域所处行政区下所有区域的学校列表及其网站url;2-2).找出学校网站中与招生信息相关版块的采集入口;2-3).采集招生版块下的所有网页,通过关键词匹配的方式定位招生信息所处网页;2-4).采集所定位网页的招生信息。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤3)中所述的信息提取中,大多数学校的招生信息一般会采用表格展示招生信息,然而学校在发布招生信息时并无固定格式较为随意,表格中所出现的指标维度也会较为随意,此种情形很难采用固定的正则表达式来提取数据;本发明直接处理表格从中提取指标维度的值,具体方法如下:3-1).获取表格,在招生信息页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格;3-2).表格去噪,去除网页中表格中控制页面显示格式的div、css及与表格无关的html标签,只保留与表格显示和控制相关的诸如table、tr、td、colspan标签;3-3).表格标准化,将表格转化成简单表格,使得表格中的每个单元格只占一行一列且只有一个值;3-4).判断表格横竖,发布招生信息时既可采用横表,也可采用纵表;因此需要判断记录招生信息的表格是横表还是纵表;取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;3-5).提取键值序列,若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的html表格转化成结构化的键值对,进而存储到结构化数据库;若表格为横表纵表,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库;如果招生信息附件为word、excel或pdf文件,则采用poi解析word和excel文档,采用pdfbox解析pdf文档,将其转化为表格,然后再执行步骤3-3)至3-5)。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤4)中,专业指标维度的标准化处理方法为:采用文本的语义相似性度算法最长公共子序列、最小编辑距离或余弦相似度为学校专业名目找出相似度最大的目录专业名称,进而将指标维度专业的值统一到目录中的专业名称中;多次采集相同招生信息的去重方法为:4-1).对比招生信息网页的url是否相同,url是互联网资源的唯一标识,如同一url地址的信息只需采集存储一次即可,如相同,则认为是重复招生信息,对其不进行存储;如不同转入4-2);4-2).对比相同学校招生信息的招生时间是否相同,若相同转入4-3);如不同,认为是非重复招生信息,提取信息后直接存储于结构化数据库中;4-3).对比相同学校相同时间招生信息的招生专业是否相同,是否有新增加的专业,若相同且无新增专业转入4-4);若不同或有新增专业,则不同专业和新增专业的数据为非重复招生信息,提取信息后直接存储于结构化数据库中;4-4).对比相同学校相同时间招生信息的招生数量是否相同,若相同则判定为重复信息不再存储,若不同则采用较新时间的招生数量更新数据库中的原有数量。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤a)中所述职位的取值与专业的取值映射采用从职位角度的映射方法或从专业角度的映射方法,从职位角度的映射方法如下:a-1-1).首先,将人才指标维度职位的指标体系作为标准指标体系;a-1-2).其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;a-1-3).再次,抽取指标维度专业指标体系中的指标;a-1-4).最后依据专业指标体系中指标与本体中概念的语义相似性,将专业指标体系中的指标作为概念的实例引入本体;a-1-5).通过本体概念与本体实例之间的关系,建立职位指标体系与专业指标体系之间的映射关系,将两套指标体系统一到职位指标体系;a-1-6).获取每个职位与多个专业的比例对应关系,也即可以获取某个专业有多少百分比对应到一个职位,通过职位的招聘人数和专业的百分比获取对应的供给数量;从专业角度的映射方法如下:假设职位列表为listjob,其中第i个职位为listjobi;专业列表为listmajor,第i个专业为listmajori;使用nmajor记录数目,第i个专业的数目为nmajori,初始时令nmajori为0,职位与专业的对应列表为listjob_major,第i个职位所对应的第j个专业为listjobi_majorj;a-2-1).依次从指标维度职位列表listjob中获取一个具体职位;a-2-2).检索人才需求数据,获取该具体职位listjobi所对应的岗位职责、岗位要求和招聘人数列表listjobi_psn;a-2-3).从列表listjobi_psn中取出一条岗位职责和岗位要求,匹配专业列表listmajor中的各个专业,假设有njob_psn个专业被命中,则每个命中listmajori的专业数目nmajori为a-2-4).迭代操作a-2-3),直至listjobi_psn列表为空,汇总专业listjobi所命中listmajori的专业数目nmajori,计算listjobi所命中各个专业的占比,将占比记录到listjobi_majorj;a-2-5).迭代操作a-2-1)到操作a-2-4),直至listjob列表为空;a-2-6).获取每个职位与多个专业的比例对应关系,也即可以获取某个专业有多少百分比对应到一个职位,通过职位的招聘人数和专业的百分比获取对应的供给数量。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤c)中所述的四型分析分别通过以下步骤来实现:ⅰ型供需平衡量化分析,从多角度多层面对指定区域的人才供需量做出有效分析,分析流程如下:c-1-1).首先,在区域维度中选择一个区域作为分析区域;c-1-2).其次,在动态维度中选择一个时段作为分析时段;c-1-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;c-1-4).最后,选择目标维度供需量作为分析对象;若未指定限定维度,可宏观地说明划定时间段内指定区域总的人才供需平衡情况;若指定单一限定维度,可分析划定时间段内指定区域在不同职位或不同学历人才的供需平衡情况;若指定中全部限定维度,可分析划定时间段内指定区域不同职位和不同学历各种组合的人才供需平衡情况;ⅱ型供需平衡量化分析,从多角度对指定区域不同阶段的人才供需平衡的变化做出有效对比分析,分析流程如下:c-2-1).首先,在区域维度中选择一个区域作为分析区域;c-2-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度自然时间分割节点;c-2-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;c-2-4).最后,选择目标维度供需量作为分析对象;若未指定限定维度,可宏观地说明指定区域不同时段人才供需的变化情况,从侧面反映区域内人才的饱和和欠缺程度;通过指定单一限定维度,可分析指定区域在相同职位或相同学历的人才在不同时间段供需平衡的变动情况;通过限定维度的组合,可分析指定区域不同时段职位和学历各种组合的人才供需变动情况;ⅲ型供需平衡量化分析,可从多角度对不同区域的人才供需平衡做出有效对比分析,分析流程如下:c-3-1).首先,在区域维度中选择多个区域作为对比分析区域;c-3-2).其次,在动态维度中选择一个时段作为分析时段;c-3-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;c-3-4).最后,选择目标维度供需量作为分析对象未指定限定维度,可宏观地对比划定时间段内不同区域的人才供需平衡情况;通过指定单一限定维度,可分析划定时间段内不同区域在相同职位或相同学历人才供需平衡情况;通过限定维度的组合,可分析不同区域相同职位和相同学历不同组合的人才供需平衡情况;ⅳ型供需平衡量化分析,从多角度对不同区域不同阶段的人才供需平衡变化做出有效对比分析,分析流程如下;c-4-1).首先,在区域维度中选择多个区域作为对比分析区域;c-4-2).其次,在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度自然时间分割节点;c-4-3).再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;c-4-4).最后,选择目标维度供给量作为分析对象;未指定限定维度,可宏观地分析多个区域不同时段人才供需平衡的变化情况;通过指定单一限定维度,可分析不同区域在相同职位或相同学历不同时间段人才供需平衡的变动;通过限定维度的组合,可分析不同区域不同时段相同职位和相同学历的人才供需平衡变化情况。本发明的基于大数据的区域人才供需平衡量化分析方法,步骤d)中所述的分析方法通过以下步骤来实现:d-1).记录学历和职位两个限定维度的选择顺序;d-2).按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选中的值;假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标维度分别为chose_index1,chose_index2,…,chose_indexidxn,每个限定维度选中值的个数为chose_an1,chose_an2,…,chose_anidxn,选中的值分别是chose_index1_atb1,chose_index1_atb2,…,chose_index1_atban1,chose_index2_atb1,chose_index2_atb2,…,chose_index2_atban2,…,chose_indexidxn_atb1,chose_indexidxn_atb2,…,chose_indexidxn_atbanidxn;则转化的数组共idxn维,第i维为指标维度chose_indexi,第i维的长度为chose_ani,第i维数组的值分别为chose_indexi_atb1,chose_indexi_atb2,…,chose_indexi_atbani;d-3).取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不等长矩阵,将其转化为一棵树,如图1所示,给出了第一维数组第一个元素作为根节点的树;d-4).取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不等长矩阵,将其转化成一棵树;d-5).迭代操作d-4),直至第一维数组元素为空;d-6).按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的根节点顺序构建森林,森林中共有chose_an1棵树;d-7).首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树,记录每一个遍历从树根至叶子所经历的完整路径,如[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb2]、…、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atbanidxn],共有chose_an1×chose_an2×…×chose_anidxn条路径;d-8).结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限定规则;如路径[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]转化为一条规则:chose_index1matcheschose_index1_atb1andchose_index2matcheschose_index2_atb1andchose_index3matcheschose_index3_atb1and…andchose_indexidxnmatcheschose_indexidxn_atb1,共有chose_an1×chose_an2×…×chose_anidxn条数据查询规则;d-9).按照顺序抽取一条数据查询规则,在抓取的数据中查询满足前述查询规则的供给量数据集合supply_dataseti和需求量集合demand_dataseti,最后分别对supply_dataseti和demand_dataseti进行统计求和获取结果supply_resulti和demand_resulti;d-10).迭代操作d-9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果supply_resulti和demand_resulti,返回量化分析结果supply_result和demand_result步骤e)中所述的柱形图的生成方法如下:e-1).初始时令选择多值的维度数dimension_count=0;e-2).查看区域维度、动态维度和限定维度,计算选择多值的维度数,若区域维度选择了多个区域,则dimension_count加1;若动态维度选择了多个对比时段,则dimension_count加1;从限定维度中取出一个指标维度,若该指标维度选择了多个值,则dimension_count加1,迭代此操作,直至限定维度中的指标维度为空;e-3).若dimension_count的值等于0,表明除目标维度供需量,其余指标维度至多选取了一个值,则最终得到的结果为供给量和需求量两个数值,可直接采用一个柱形图展现;e-4).若dimension_count的值大于等于1,表明除目标维度外,至少有一个指标维度选择了多个值,假定选中了多值的指标维度个数为idxn;e-4-1).若选择了多值的指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为chose_indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为chose_indexidxn-1,chose_indexidxn-2,…,chose_index1;e-4-2).若选择了多值的指标维度中包含区域维度和动态维度,则将动态维度标识为chose_indexidxn,将区域维度标识为chose_indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为chose_indexidxn-2,chose_indexidxn-3,…,chose_index1;e-4-3).若选择了多值的指标维度中不包含区域维度和动态维度,将选择了多值的限定维度按照选择顺序依次标识为chose_indexidxn,chose_indexidxn-1,…,chose_index1;假定限定维度chose_index1,chose_index2,…,chose_indexidxn选定值的个数分别是chidxn1,chidxn2,…,chidxnidxn;首先,使用限定维度chose_index1,chose_index2,…,chose_indexidxn构建一个chidxn1×chidxn2×...×chidxnidxn行idxn+1列的表格,表格的第1列到第idxn列分别对应指标维度chose_index1,…,chose_indexidxn;表格第i行j列单元格的值则为限定维度chose_indexj第个值,其中j<idxn;然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并chidxnj+1×chidxnj+2×...×chidxnidxn个小单元格,合并后的单元格i将取chose_indexj的第i个值;最后,第idxn+1列有chidxn1×chidxn2×...×chidxnidxn个单元格,每个单元格中包含一个反应供给和需求平衡情况柱形图。本发明的有益效果是:本发明的区域人才供需平衡量化分析方法,首先利用爬虫从招聘网站、组织招聘板块和编制招考信息上获取区域人才需求相关数据,然后利用爬虫从各类学校的招生信息上获取指定区域的人才供给相关数据,最后通过对人才需求数据和人才供给数据的处理,可从多角度多层面对指定区域的人才供需量做出有效分析,全面量化剖析指定区域人才的情况,明确区域人才构成,实现量化“知己”,以及折射不同阶段不同人才政策对区域人才供需的影响情况,总结不同人才政策中的优势和弊端,为更好的制定人才政策提供数据支持。附图说明图1给出了第一维数组第一个元素作为根节点的树。具体实施方式下面结合附图与实施例对本发明作进一步说明,本发明的基于大数据的区域人才供需平衡量化分析方法,包括区域内人才需求相关数据采集、区域内人才供给相关数据采集和区域人才供需平衡量化分析步骤:步骤一:区域内人才需求相关数据采集在本步骤中首先需要明确采集目标,在纷繁多样的网络数据中准确定位能够反映人才需求的数据,然后根据目标数据源的特点确定采集方法。因此,本步骤包含以下两个阶段:阶段一:确定人才需求采集目标1、确定人才需求目标数据源类型人才需求分析的基础是数据,优质可量化,且能够实时反映区域人才需求的数据是做好分析的前提。因此,本系统所面临的首要问题即是目标数据源的确定。当前,人才的真实需求掌握在政府机关、事业单位、企业等各级各类实体组织中,其对人才需求最直接的体现即为招聘信息。因此,招聘信息可作为系统分析的目标数据对象。然而通过抽样或问卷调查等人工方式,从各实体组织中获取区域内较为完备的招聘信息数据集并非是一种有效的常态机制。且人工的方式不具有可持续性,而需求会随时变化,难以满足精准分析的要求。网络作为信息的集散地,为公众信息发布提供实时平台,因此从网络上寻找组织招聘信息线索,是实时获取人才需求动态的有效方式。大型组织一般拥有自己的网站,招聘信息可在站内发布。中小型组织即使部分也有自己的网站,然而在知名度和影响力不足的情况下很难被大众所关注,因此一般会在专门的招聘网站发布招聘信息。政府机关和事业单位一般都是通过招考信息发布招聘信息。此外,各大学的校招网和各区域人社网网站等也都是招聘信息集中发布平台。综上,本系统的目标数据源大致可分为三类:招聘网站,大型组织、大学、人社局等网站的招聘版块,以及编制招考信息。2、确定人才需求目标数据源采集范围确定好目标数据源类型后下一步则要决定在多大范围内采集这些目标数据源。首先,本系统目标是为区域提供人才需求分析,因此,处在本区域内实体组织网站的招聘版块及面向本区域的招聘网站是采集的首要目标。其次,单独一个区域的分析并不能体现本区域的优势及不足,只有在多个同级区域对比分析中才能找到问题,为政策的制定提供依据,因此,本系统将同一行政区下所有与指定区域同级的区域也都纳入到采集的范围。例如,指定某一地市为分析区域,则该地市所属省或自治区内的所有地市均需被纳入采集范围,也即需要采集该省或自治区内所有招聘网站,大型组织、大学、人社局等网站的招聘版块,以及编制招考信息。阶段二:设计采集方案随着网络信息的爆炸,分布式爬虫已成为搜索、舆情、自动问答等依赖网络数据系统的基本网络数据采集工具。本系统也采用分布式爬虫采集指定范围内的目标数据源。大型组织、大学、人社局等网站的招聘版块和编制招考信息的更新频率不高,可直接使用现有分布式爬虫的抓取策略采集信息。而招聘网站同时服务于诸多实体组织,承载着诸多组织的招聘信息更新频率极高,特别在用人高峰期及毕业投档期其更新频率会更高,若不能及时有效的捕捉将会严重影响分析的准确性导致结果的误导。受目标数据源服务器的限制,同一ip地址的爬虫在一定时间内只能采集同一目标服务器限定的数据。当前抓取策略的种子链接分配策略一般是以域名(主机)为单位,将同一域名的数据交由一个爬取节点采集。显然,将一个招聘网站完全交由一个爬取节点采集,无法做到数据采集的完备性。因此,本系统将一个招聘网站分配到多个爬取节点共同采集。针对招聘网站的数据采集,本发明采用的方案为:1、将所有目标招聘网站的域名分配到全部爬取节点。2、将同一域名的招聘网站信息分割为互不相交的子集,每个爬取节点负责一个子集的采集。划分招聘网站信息的方法有多种,本发明采用职位类别划分网站。一般招聘网站均将职位类别列为工作分类的重要维度,并使用一个参数标识该维度,通过域名加参数的方式即可获得该职位类别下工作岗位的详细列表。利用职位类别可将招聘网站大致划分成互不相交子集。因此本发明利用这个特性,在将域名分给所有爬取节点的同时,为不同的爬取节点分配互不相交的职位类别及标识该职位类别的参数,以此将招聘网站划分成互不相交的子集分配给各爬取节点。3、各爬取节点通过招聘网站加所分配职位类别参数的方式,向招聘网站发送请求,获取工作岗位列表,此列表即是需要采集的目标数据源列表url_init_list。4、为进一步避免同一时间过于集中地采集同一域名的招聘网站,本系统并没有在得到url_init_list后即刻采集网页,而是将url_init_list中的url地址进行混排生成最终采集目标数据源列表url_final_list。其方案如下:首先将url_init_list中的url地址按照主机分组划分成若干子列表;然后采用随机方法随机挑选一个子列表,并在该子列表中随机选择一个未被选中过的url地址放入url_final_list;迭代子列表和url地址的选择过程直至选完所有子列表的所有url地址。5、爬取节点在得到url_final_list后,采集网页数据。步骤二:人才需求信息提取、清洗和存储阶段一:人才需求信息提取1、人才需求有效信息提取依据url_final_list列表的url地址所采集的数据是原始的非结构化网页,其中会杂陈诸多广告、友情链接、同类推荐等无关信息。因此在预处理中过滤此类无关信息抽取有效信息是后续处理的关键。本发明采用dom树的方法和基于行块分布函数方法抽取目标网页中的数据。2、结构化人才需求信息提取在剔除无关信息后所获得网页仍是非结构化的html代码块,而各类数据分析算法所处理的数据对象均是结构化数据,因此从非结构化的数据中准确提取结构化的数据是后续处理的前提。并非网页中的所有数据均是提取目标,结合人才需求分析目标,通过对各类招聘信息的整理汇总,需要从招聘信息中提取组织名称、岗位、职位、月薪、学历、工作年限、组织规模、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求、年龄要求、工作地点、发布时间等信息,每个信息定义一个指标维度,所有的指标维度组成指标维度列表。指标维度的抽取方法如下。2-1每个招聘类的网站格式都较为固定,通常通过岗位列表罗列招聘信息,再通过超链接详情页面展示每个招聘的详细信息,而详情页面所展示的内容也有较为固定的格式。因此可通过为每个招聘网站设计模板的方式,利用正则表达式提取所需信息,在非结构化页面中提取各个指标维度的值存储于结构化数据库。2-2各类网站的招聘板块和编制招考信息在发布招聘信息时则较为随意没有固定的格式,通常会在详情页面中使用表格(table)展示招聘信息。然而哪些指标维度会出现在表格中则较为随意,并非每次都会出现全部指标维度,且指标维度并没有固定的展示顺序也较为随意,显然正则表达式的方法并不适于此种情形的数据提取。因此本发明直接处理表格从中提取指标维度的值,方案如下:(1)获取表格在详情页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格。(2)表格去噪网页中的表格使用html语言书写,其中会存在诸多控制页面显示格式的div、css及与表格无关的html标签,在处理表格时首先去除无效标签,只保留与表格显示和控制相关的标签,如table、tr、td、colspan等。(3)表格标准化因为并无规定格式所以表格的样式会很随意,在处理过程中需分割多行多列的单元格,将表格转化成简单表格,使得表格中的每个单元格只占一行一列且只有一个值。(4)判断表格横竖发布招聘信息时既可采用横表(将指标维度放到第一行,下面每行存储一个岗位的信息),也可采用纵表(将指标维度放到第一列,右面其余每列存储一个岗位的信息),因此需要判断记录招聘信息的表格是横表还是纵表。取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表。(5)提取键值序列若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的html表格转化成结构化的键值对,进而存储到结构化数据库。纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库。阶段二:人才需求数据清洗1、人才需求指标维度标准化不同网站在发布招聘信息时并无统一标准,这就造成不同网站招聘信息中各维度所使用的指标体系不一致。以维度组织性质为例,各网站所采用的指标体系就有超过六种之多,其中既有按“国家机关、全民企业单位、全民事业单位、社会团体、集体企业、民办企业、外资企业”指标体系分类的网站,也有按“党政机关、科研设计单位、高等教育单位、中等、初等教育单位、医疗卫生单位、艰苦行业事业单位、其他事业单位、国有企业、三资企业、艰苦行业企业、其他企业、部队”指标体系分类的网站,还有按“国家行政企业事业单位、公私合作企业事业单位、中外合资企业事业单位、社会组织机构、国际组织机构、外资企业事业单位、私营企业事业单位、集体企业事业单位、国防军事企业事业单位”指标体系分类的网站等等不一而足。此外,不同网站招聘信息中给出的各指标维度值也并不统一。如指标维度组织规模,部分网站直接使用“大、中、小、微”为其赋值,也有部分网站通过从业人员数为其赋值,另有部分网站通过营业收入为其赋值。综上,指标维度标准化包含两类:一是指标维度所采用指标体系的标准化,二是指标维度值的标准化。1-1多指标体系标准化针对各指标维度所采用的指标体系不一致的情形,采用具体的方法为各个指标体系构建映射方法。首先,将指标维度使用最广泛的指标体系作为标准指标体系;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度使用的其他指标体系中的指标;最后依据其他指标体系中指标与本体中概念的功能相似性,将其他指标体系中的指标作为概念的实例引入本体。通过本体概念与本体实例之间的关系,建立标准指标体系与其他指标体系之间的映射关系,将指标体系统一到标准指标体系,实现多指标体系指标维度的标准化。1-2指标维度值标准化针对指标维度值不一致的情形,采用量化表或公式的方式统一指标维度的赋值。首先规定一种赋值为标准值;然后利用量化表或公式,为指标维度的各种不同赋值建立映射关系,将不同的赋值转化为标准值。2、人才需求数据去重一个组织为扩大招聘信息的受众覆盖面,将会在一个媒体持续发布一段时间,还可能会在多个媒体中广泛发布,因此从网页中提取的信息在存储之前需要进行清洗,过滤重复发布的信息。2-1同一媒体发布数据去重url是互联网资源的唯一标识,因此判断同一媒体发布的信息是否重复可以依靠资源的url,同一url地址的信息只需采集存储一次即可。2-2多个媒体发布数据去重同一招聘信息发布于不同媒体其url地址不同,因此不能简单依靠url地址判断信息是否重复,需要对比不同媒体招聘内容中提取的各个指标维度是否相似。(1)对比组织名称是否相同,若相同则对比招聘职位是否相同,若相同转入(2);(2)对比岗位职责和岗位要求的相似度,通过文本相似度算法,若相似度超过75%转入(3)(3)对比不同媒体招聘信息的发布时间,若发布时间差小于7天转入(4)(4)对比结果判定为重复信息,统一不同媒体中各指标维度值。对于诸如学历等序数属性类的指标维度取较低的值作为统一值;对于诸如福利等标称属性类的指标维度取各指标维度值的合集作为统一值;对于诸如需求量、月薪等区间数值属性类的指标维度取各指标维度值的最小和最大值,按照加权平均的方法求取平均数作为统一值。(5)若(1)、(2)、(3)中有任意一条不满足,则认为是非重复招聘信息,提取信息后直接存储于结构化数据库中。阶段三:人才需求数据存储为便于各指标维度的分析宜采用结构化的数据库存储从网页中提取的数据。鉴于区域人才需求量化分析所涉及的数据并不仅局限于本区域,而是综合同一行政区下所有与指定区域同级的区域数据一同分析,因此随着区域的范围的扩大,数据也是成倍增长。结合各类数据库的特征,在区域范围较小时,可采用关系数据进行存储。随着区域范围的增大,建议采用基于分布式文件存储的数据库,如mongodb、hbase等。网页中所提取的每一个指标维度使用结构化数据库中一列存储。为方便招聘信息的归类统计将网页url、招聘信息媒体来源、所属区域也作为一个指标维度存储于数据库一列。此外为方便时间跨度方面的统计分析,将招聘信息的有效持续结束时间也作为一个指标维度存储于数据库一列。同时若指标维度是区间标度属性,如招聘人数、月薪。则在存储过程中将其分成区间起始值和区间终止值分别存储指标维度的首尾值。步骤三:区域内人才供给相关数据采集在本步骤中首先需要明确采集目标,在纷繁多样的网络数据中准确定位能够反映人才供给的数据,然后根据目标数据源的特点确定采集方法。因此,本步骤包含以下两个阶段:阶段一:确定人才供给采集目标1、确定人才供给目标数据源类型人才供给分析的基础是数据,优质可量化,且能够实时反映区域人才供给的数据是做好分析的前提。因此,本系统所面临的首要问题即是目标数据源的确定。实时获取人才供给最直接的方式是收集应聘者的简历,通过简历分析可获取人才各类信息最真实的第一手资料。然而,首先个人信息过于分散,采集和过滤所耗费的资源较大;其次个人简历信息的载体并无统一要求,即可使用word/excel文档,也可使用pdf文档,还可以使用网页等各类不同形式的文档,不同类型文档信息的抽取较为复杂;此外,个人简历的书写格式也极为随意,根据个人不同的书写风格,难以在各类不同文档中准确定位所需信息。因此,通过个人简历采集分析方式获取人才供给数据的性价比较低。人才最大的培养和输出地是各类学校,其每年向社会供给大量人才,因此可通过采集各类学校发布信息获取人才供给情况。虽然各类学校每年均会统计毕业生专业、数量等信息,但此类报告一般作为内部资料很难在internet找到。然而,各类学校每年都会发布招生信息,此类招生信息也会明确标注招生的专业数量等。学校的招生情况可直接反映若干年后此批学生的毕业情况,如普通本科院校的招生情况可直接反映出4年后毕业的本科生数量、专业及学历情况。当然招生的数量并不直接等于毕业生的数量,其中可能会存在部分学生因不同原因不能毕业的情形出现,还有部分学生会升入更高一级的学府深造或出国留学。各个学校的就业比例可以从internet获取,进而获取学校的人才供给情况。综上,本系统将各类学校的招生信息作为目标数据源,通过比例计算获取不同学历、专业人才的供给情况。2、确定人才供给目标数据源采集范围确定好目标数据源类型后下一步则要决定在多大范围内采集这些目标数据源。首先,本系统目标是为区域提供人才供给分析,因此,处在本区域内各类学校的招生信息是采集的首要目标。其次,单独一个区域的分析并不能体现本区域的优势及不足,只有在多个同级区域对比分析中才能找到问题。此外,根据人才流动情况,人们更倾向于就近相邻区域的流动。因此,本系统将同一行政区下所有与指定区域同级的区域也都纳入到采集的范围。例如,指定某一地市为分析区域,则该地市所属省或自治区内的所有地市均需被纳入采集范围,也即需要采集该省或自治区内所有学校招生信息。阶段二:设计人才供给采集方案随着网络信息的爆炸,分布式爬虫已成为搜索、舆情、自动问答等依赖网络数据系统的基本网络数据采集工具。本系统也采用分布式爬虫采集指定范围内的目标数据源。数据采集方案如下。1、收集指定区域所处行政区下所有区域的学校列表及其网站url;2、找出学校网站中与招生信息相关版块的采集入口;3、采集指定版块下的所有网页,通过关键词匹配的方式定位招生信息所处网页;4、采集所定位网页的招生信息。步骤四:人才供给信息提取、清洗和存储阶段一:人才供给信息提取1、人才供给有效信息提取从定位网页中所采集的招生信息是原始的非结构化网页,其中会杂陈诸多广告、友情链接、同类推荐等无关信息。因此在预处理中过滤此类无关信息抽取有效信息是后续处理的关键。本发明采用dom树的方法和基于行块分布函数方法抽取目标网页中的数据。2、结构化人才供给信息提取在剔除无关信息后所获得网页仍是非结构化的html代码块,而各类数据分析算法所处理的数据对象均是结构化数据,因此从非结构化的数据中准确提取结构化的数据是后续处理的前提。相较于对个人信息详细介绍的简历,各类学校的招生信息只能给出概括性的通用信息,因此所能提取的信息相对有限。通过对各类招生信息的整理汇总,一般可提取的指标维度包括:学校名称、专业及招生人数。此外在确定采集目标的同时还可确定学校所属区域、学校招生批次、学校招生学历,本发明将这些外部信息也列入分析指标维度,与提取的指标维度共同构建指标维度列表。大多数学校的招生信息一般会采用表格(table)展示招生信息。然而学校在发布招生信息时并无固定格式较为随意,表格中所出现的指标维度也会较为随意,此种情形很难采用固定的正则表达式来提取数据。因此本发明直接处理表格从中提取指标维度的值,方案如下:(1)获取表格在招生信息页面中由于页面布局的原因可能会存在多个表格的情形,所以首先通过能够标识表格的属性在多个表格中抽取记录招聘信息的表格。(2)表格去噪网页中的表格使用html语言书写,其中会存在诸多控制页面显示格式的div、css及与表格无关的html标签,在处理表格时首先去除无效标签,只保留与表格显示和控制相关的标签,如table、tr、td、colspan等。(3)表格标准化因为并无规定格式所以表格的样式会很随意,在处理过程中需分割多行多列的单元格,将表格转化成简单表格,使得表格中的每个单元格只占一行一列且只有一个值。(4)判断表格横竖发布招生信息时既可采用横表(将指标维度放到第一行,下面每行存储一个招生的信息),也可采用纵表(将指标维度放到第一列,右面其余每列存储一个招生的信息),因此需要判断记录招生信息的表格是横表还是纵表。取表格的第一行表格的单元格值和第一列表格的单元格值,分别与各个指标维度进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表。(5)提取键值序列若表格为横表,则将第一行单元格的值映射到相应的指标维度,相应列单元格的值即为指标维度的值,形成键值对将无结构的html表格转化成结构化的键值对,进而存储到结构化数据库。纵表与横表类似,将第一列单元格的值映射到指标维度,相应行单元格的值即为指标维度的值,提取键值对存储到结构化数据库。此外,除直接在招生信息页面中直接采用表格的方式外,学校还可能会采用附件的形式发布招生信息,附件所使用的载体一般会是word、excel、pdf等。而附件通常仍使用表格罗列招生信息,因此除解析附件方法不同外,表格内信息提取方式与网页表格提取方式类似,其方案如下。(1)解析附件根据附件载体类型采用合适的方法解析附件,获取罗列招生信息的表格。如采用poi解析word和excel文档,采用pdfbox解析pdf文档等,从中获取表格。(2)表格解析附件表格解析方法与网页表格解析相似,需对表格进行标准化,并判断表格的横竖方向,最后提取表格中的键值对,将附件中无结构表格转化成结构化的键值对,进而存储到结构化数据库。其操作可参照网页表格解析方案中的操作(3)到操作(5)。阶段二:人才供给数据清洗1、人才供给指标维度标准化不同学校在发布招生计划时一般是以专业为最小信息汇总单位公布招生数量,然而各学校专业名目设置具有一定随意性。在人才供给量化分析中为实现同区域不同学校专业的汇总统计,需对指标维度专业的值做标准化处理。此处采用教育部制定的普通高等学校本科专业目录中的专业名称统一不同学校专业名目。虽然各学校专业名目的设置可能会与目录中的专业名称有所差别,但专业设置不可能偏离目录中的专业,因此在用词方面会有较大的相似性。因此,采用文本的语义相似性度算法,如最长公共子序列、最小编辑距离或余弦相似度等即可为学校专业名目找出相似度最大的目录专业名称,进而将指标维度专业的值统一到目录中的专业名称。2、人才供给数据去重学校每年均会发布招生信息,且每年各学校发布招生信息的时间略有不同,因此系统需多次重复扫描含有招生信息的网页。为防止多次采集相同招生信息后重复存储,在采集到招生信息后需要进行清洗,过滤重复发布的信息。其方案如下。(1)对比招生信息网页的url是否相同,url是互联网资源的唯一标识,同一url地址的信息只需采集存储一次即可,如不同转入(2);(2)对比相同学校招生信息的招生时间是否相同,若相同转入(3),认为是非重复招生信息,提取信息后直接存储于结构化数据库中;(3)对比相同学校相同时间招生信息的招生专业是否相同,是否有新增加的专业,若相同且无新增专业转入(4),若不同或有新增专业,则不同专业和新增专业的数据为非重复招生信息,提取信息后直接存储于结构化数据库中;(4)对比相同学校相同时间招生信息的招生数量是否相同,若相同则判定为重复信息不再存储,若不同则采用较新时间的招生数量更新数据库中的原有数量。阶段三:人才供给数据存储为便于各指标维度的分析宜采用结构化的数据库存储从网页中提取的数据。鉴于区域人才供给量化分析所涉及的数据并不仅局限于本区域,而是综合同一行政区下所有与指定区域同级的区域数据一同分析,因此随着区域的范围的扩大,数据也是成倍增长。结合各类数据库的特征,在区域范围较小时,可采用关系数据进行存储。随着区域范围的增大,建议采用基于分布式文件存储的数据库,如mongodb、hbase等。网页中所提取的每一个指标维度使用结构化数据库中一列存储。为方便招生信息的归类统计将网页url、招生信息媒体来源也作为一个指标维度存储于数据库一列。此外区分相同学校不同时间的招生信息以及确定学校供给人才的时间,将招生时间和学制也分别作为指标维度存储于数据库一列。在采集到区域人才需求和人才供给基础数据后,可量化分析指定区域人才供需是否平衡。基于大数据的区域人才供需平衡量化分析方法的步骤如下:步骤五:人才供需数据映射人才需求系统中包含的指标维度较多,如区域、时段、岗位、职位、月薪、学历、所属行业、组织性质、招聘人数、提供福利、岗位职责、岗位要求等。而人才供给系统中包含的指标维度较少,只包含区域、时段、学历、专业和供给量五个指标维度。为了分析人才的需求量和供给量之间的平衡关系,需要一个能够将需求和供给联系在一起的指标维度,通过两套指标维度的对比,可以发现人才需求指标维度中的职位和人才供给指标维度中的专业是两者联系的纽带。一般需求中的职位会对供给的专业有特殊要求,因此可通过这两个指标维度将需求量和供给量联系在一起,进而实现平衡分析。然而指标维度职位和指标维度专业两者采用的指标体系不同,因此两者的取值不同,需将两者取值映射到相同的空间。根据用户看问题角度是基于职位还是专业的不同,有两种映射方法。1、从职位角度针对指标维度职位和专业所采用的指标体系不一致的情形,其一可采用本体的方法为两个指标体系构建映射方法。首先,将指标维度职位的指标体系作为标准指标体系;其次,抽取标准指标体系中的指标作为概念构建本体,将各级指标体系映射到本体概念层次结构的类和子类;再次,抽取指标维度专业指标体系中的指标;最后依据专业指标体系中指标与本体中概念的语义相似性,将专业指标体系中的指标作为概念的实例引入本体。通过本体概念与本体实例之间的关系,建立职位指标体系与专业指标体系之间的映射关系,将两套指标体系统一到职位指标体系。2、从专业角度针对指标维度职位和专业所采用的指标体系不一致的情形,其二可采用关键词匹配的方法两个指标体系构建映射方法。具体方案如下。假设职位列表为listjob,其中第i个职位为listjobi;专业列表为listmajor,第i个专业为listmajori;使用nmajor记录数目,第i各个专业的数目为nmajori,初始时令nmajori为0。职位与专业的对应列表为listjob_major,第i个职位所对应的第j个专业为listjobi_majorj;(1)依次从指标维度职位列表listjob中获取一个具体职位;(2)检索人才需求数据,获取该具体职位listjobi所对应的岗位职责、岗位要求和招聘人数列表listjobi_psn;(3)从列表listjobi_psn中取出一条岗位职责和岗位要求,匹配专业列表listmajor中的各个专业,假设有njob_psn个专业被命中,则每个命中listmajori的专业数目nmajori为(4)迭代操作(3),直至listjobi_psn列表为空,汇总专业listjobi所命中listmajori的专业数目nmajori,计算listjobi所命中各个专业的占比,将占比记录到listjobi_majorj;(5)迭代操作(1)到操作(4),直至listjob列表为空。通过上述操作可以获取每个职位与多个专业的比例对应关系,也即可以获取某个专业有多少百分比对应到一个职位,通过职位的招聘人数和专业的百分比获取对应的供给数量。步骤六:区域人才供需平衡量化分析阶段一:指标维度分类诸多指标维度根据其功用分为四类:区域维度、动态维度、目标维度和限定维度。1、区域维度区域维度用于指定分析的目标区域。区域维度的分析可以分成两类:本区域人才供需分析和多区域人才供需对比分析。2、动态维度动态维度用于指定分析的时间范围。动态维度的分析可以分成两类:一定时间段的整体宏观分析和时间演化分析。3、目标维度人才供给分析的主要目标在于向用户展示本区域人才的供需量,因此将目标维度定为供给量和需求量。4、限定维度限定维度用于指定分析的限定条件。主要是学历和职位两个指标维度。阶段二:分类分析各种指标维度按照不同方式组合可产生诸多不同结果,为使结果条理清晰更易于被用户所理解,采用区域维度和动态维度相组合的方式对分析进行大类划分。分析可分为四型分析:ⅰ型分析、ⅱ型分析、ⅲ型分析和ⅳ型分析。其中,ⅰ型分析为本区域一定时间段内整体宏观人才供需分析;ⅱ型分析为本区域随时间演化人才供需趋势分析;ⅲ型分析为多区域一定时间段整体宏观人才供需对比分析;ⅳ型分析为多区域随时间演化人才供需变化趋势对比分析。1、ⅰ型供需平衡量化分析ⅰ型供需平衡量化分析可从多角度多层面对指定区域的人才供需量做出有效分析,全面量化剖析指定区域人才的情况,明确区域人才构成,实现量化“知己”。分析流程如下。首先,需要在区域维度中选择一个区域作为分析区域;其次,需要在动态维度中选择一个时段作为分析时段;再次,在限定维度中选择0到2个指标维度作为分析的限定条件,限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;最后,选择目标维度供需量作为分析对象。若未指定限定维度,可宏观地说明划定时间段内指定区域总的人才供需平衡情况。若指定单一限定维度,可分析划定时间段内指定区域在不同职位或不同学历人才的供需平衡情况。若指定中全部限定维度,可分析划定时间段内指定区域不同职位和不同学历各种组合的人才供需平衡情况。2、ⅱ型供需平衡量化分析ⅱ型供需平衡量化分析可从多角度对指定区域不同阶段的人才供需平衡的变化做出有效对比分析,采用发展的眼光纵向量化剖析指定区域,以里程碑式的区域人才发展路径,折射不同阶段不同人才政策对区域人才供需的影响情况,衡量各阶段人才政策的得失。分析流程如下。首先,需要在区域维度中选择一个区域作为分析区域;其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;最后,选择目标维度供需量作为分析对象。若未指定限定维度,可宏观地说明指定区域不同时段人才供需的变化情况,从侧面反映区域内人才的饱和和欠缺程度。通过指定单一限定维度,可分析指定区域在相同职位或相同学历的人才在不同时间段供需平衡的变动情况。通过限定维度的组合,可分析指定区域不同时段职位和学历各种组合的人才供需变动情况。3、ⅲ型供需平衡量化分析ⅲ型供需平衡量化分析可从多角度对不同区域的人才供需平衡做出有效对比分析,全面量化剖析不同区域的人才情况,分析不同区域人才构成情况,通过多区域对比,发现自身区域人才缺口以及其他区域人才盈余,为人才引进提供推荐区域。分析流程如下。首先,需要在区域维度中选择多个区域作为对比分析区域;其次,需要在动态维度中选择一个时段作为分析时段;再次,在限定维度中选择0到2个指标维度作为分析的限定条件,限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;最后,选择目标维度供需量作为分析对象。未指定限定维度,可宏观地对比划定时间段内不同区域的人才供需平衡情况。通过指定单一限定维度,可分析划定时间段内不同区域在相同职位或相同学历人才供需平衡情况。通过限定维度的组合,可分析不同区域相同职位和相同学历不同组合的人才供需平衡情况。4、ⅳ型供需平衡量化分析ⅳ型供需平衡量化分析可从多角度对不同区域不同阶段的人才供需平衡变化做出有效对比分析,采用纵向发展的眼光和横向对比的眼光量化剖析区域人才供需平衡的变化,通过不同区域人才政策的对比,折射各种人才政策对人才平衡稳定发展的影响,总结不同人才政策中的优势和弊端,为更好的制定人才政策提供数据支持。分析流程如下。首先,需要在区域维度中选择多个区域作为对比分析区域;其次,需要在动态维度中选择对比时段作为分析时段,所选定的对比时段通常是月度、季度或年度等自然时间分割节点;再次,在限定维度中选择0到2个指标维度作为分析的限定条件,此分析中限定维度的选择并无任何要求,可以不选择任一限定维度,也可以选择一个限定维度的一个值或多个值,还可以选择多个限定维度,每个限定维度选择一个值或每个限定维度选择多个值;最后,选择目标维度供给量作为分析对象。未指定限定维度,可宏观地分析多个区域不同时段人才供需平衡的变化情况。通过指定单一限定维度,可分析不同区域在相同职位或相同学历不同时间段人才供需平衡的变动。通过限定维度的组合,可分析不同区域不同时段相同职位和相同学历的人才供需平衡变化情况。阶段三:分析方案目标维度供需量包含需求量和供给量两个数值,其分析结果属于数值型数据。分析方案如下。(1)记录学历和职位两个限定维度的选择顺序。(2)按照有序的限定维度、区域维度和动态维度的顺序,记录选中的指标维度及每个选定指标维度选中的值,将其转化成不等长矩阵,其中矩阵每一行代表一个选中的指标维度,一行中的一个元素代表对应指标维度选中的值。假定包含区域维度和动态维度共选中了idxn个指标维度,选中的指标维度分别为chose_index1,chose_index2,…,chose_indexidxn,每个限定维度选中值的个数为chose_an1,chose_an2,…,chose_anidxn,选中的值分别是chose_index1_atb1,chose_index1_atb2,…,chose_index1_atban1,chose_index2_atb1,chose_index2_atb2,…,chose_index2_atban2,…,chose_indexidxn_atb1,chose_indexidxn_atb2,…,chose_indexidxn_atbanidxn。则转化的数组共idxn维,第i维为指标维度chose_indexi,第i维的长度为chose_ani,第i维数组的值分别为chose_indexi_atb1,chose_indexi_atb2,…,chose_indexi_atbani。(3)取出矩阵第一维数组第一个元素作为根节点,按照深度优先遍历不等长矩阵,将其转化为一棵树,如图1所示,给出了第一维数组第一个元素作为根节点的树(4)取出矩阵第一维数组的后续元素作为根节点,按照深度优先遍历不等长矩阵,将其转化成一棵树。(5)迭代操作(4),直至第一维数组元素为空。(6)按照第一维数组的元素顺序,自左至右排列矩阵转化而成多棵树的根节点顺序构建森林,森林中共有chose_an1棵树。(7)首先按照自左至右遍历森林中的树,然后按照深度优先遍历每棵树,记录每一个遍历从树根至叶子所经历的完整路径,如[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb2]、…、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atbanidxn]等,共有chose_an1×chose_an2×…×chose_anidxn条路径。(8)结合属性值所属指标维度,将一条遍历路径转化为一条数据查询限定规则。如路径[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]转化为一条规则:chose_index1matcheschose_index1_atb1andchose_index2matcheschose_index2_atb1andchose_index3matcheschose_index3_atb1and…andchose_indexidxnmatcheschose_indexidxn_atb1,共有chose_an1×chose_an2×…×chose_anidxn条数据查询规则。(9)按照顺序抽取一条数据查询规则,在抓取的数据中查询满足前述查询规则的供给量数据集合supply_dataseti和需求量集合demand_dataseti,最后分别对supply_dataseti和demand_dataseti进行统计求和获取结果supply_resulti和demand_resulti。(10)迭代操作(9),直至抽取完所有的数据查询规则,汇总每条数据查询规则所获得的结果supply_resulti和demand_resulti,返回量化分析结果supply_result和demand_result。步骤七:分析结果可视化基于大数据的区域人才供需量化分析系统可服务于政府人才策略制定者、学校管理者、企业管理者等不同类型的用户,也即其所提供分析结果面向的信息接受者类型不同。分析结果的解读直接影响接受者获取信息量的大小,面对的接受者类型不同需要解读的角度也应有所不同。虽然多角度解读有助于全面阐述结果的意义,然后面对不同类型的信息接受者,并非解读的越全面用户体验也越好,与信息接收者类型不匹配角度的解读反而会使信息混乱或分散,增加信息的不确定性(熵值)。因此全面平铺直叙的文本解读方式并不适合于面向多类型信息接收者系统的结果呈现。种类丰富的图表其直观地表现能力,为不同类型信息接收者提供了从不同角度解读分析结果的想象空间,各类信息接收者可从自身角度出发对各种量化或对比分析图表进行有效解读,而不失信息完整性。javascript脚本具有平台无关、相对安全、事件驱动等特性,适合于客户端的运行和展现,目前已有众多基于javascript脚本的图表生成控件,如echarts、highcharts、d3、rgraph等。可采用其中一种控件辅助生成图表。阶段一:图表类型选择分析结果为供给量和需求量两个数值型数据,供给和需求的对比可通过柱形图直观展现两者平衡情况及其缺口。因此将采用柱形图作为基本的供需平衡可视化展示途径。阶段二:图表生成方案图表生成方案如下。(1)初始时令选择多值的维度数dimension_count=0;(2)查看区域维度、动态维度和限定维度,计算选择多值的维度数,若区域维度选择了多个区域,则dimension_count加1;若动态维度选择了多个对比时段,则dimension_count加1;从限定维度中取出一个指标维度,若该指标维度选择了多个值,则dimension_count加1,迭代此操作,直至限定维度中的指标维度为空。(3)若dimension_count的值等于0,表明除目标维度供需量,其余指标维度至多选取了一个值,则最终得到的结果为供给量和需求量两个数值,可直接采用一个柱形图展现。(4)若dimension_count的值大于等于1,表明除目标维度外,至少有一个指标维度选择了多个值,假定选中了多值的指标维度个数为idxn,①若选择了多值的指标维度中包含区域维度或动态维度,则将含有多值的区域维度或动态维度标识为chose_indexidxn,将其他选择了多值的限定维度按照选择顺序依次标识为chose_indexidxn-1,chose_indexidxn-2,…,chose_index1,②若选择了多值的指标维度中包含区域维度和动态维度,则将动态维度标识为chose_indexidxn,将区域维度标识为chose_indexidxn-1,将其他选择了多值的限定维度按照选择顺序依次标识为chose_indexidxn-2,chose_indexidxn-3,…,chose_index1,③若选择了多值的指标维度中不包含区域维度和动态维度,将选择了多值的限定维度按照选择顺序依次标识为chose_indexidxn,chose_indexidxn-1,…,chose_index1,假定限定维度chose_index1,chose_index2,…,chose_indexidxn选定值的个数分别是chidxn1,chidxn2,…,chidxnidxn,首先,使用限定维度chose_index1,chose_index2,…,chose_indexidxn构建一个chidxn1×chidxn2×...×chidxnidxn行idxn+1列的表格,表格的第1列到第idxn列分别对应指标维度chose_index1,…,chose_indexidxn。表格第i行j列单元格的值则为限定维度chose_indexj第个值,其中j<idxn;然后,为使图表单元格的显示更为整洁,将相同值的单元格进行合并,也即后第j列的每个单元格需合并chidxnj+1×chidxnj+2×...×chidxnidxn个小单元格,合并后的单元格i将取chose_indexj的第i个值;最后,第idxn+1列有chidxn1×chidxn2×...×chidxnidxn个单元格,每个单元格中包含一个反应供给和需求平衡情况柱形图。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1