就业中心识别方法、装置、电子设备及存储介质与流程

文档序号:32475727发布日期:2022-12-07 09:01阅读:91来源:国知局
就业中心识别方法、装置、电子设备及存储介质与流程

1.本发明涉及数据处理技术领域,尤其涉及一种就业中心识别方法、装置、电子设备及存储介质。


背景技术:

2.城市内部人口的空间分布是城市内部空间结构研究的主要内容之一,具体体现在居住空间和就业空间。在城市用地开发模式的选择方面:规划师通常强调通过功能分区,组织居住与就业空间,从产业功能的角度,城市中心的首要条件应是就业中心。近年来,随着土地资源愈发紧缺,优化调整空间结构、完善中心城的多中心体系显得尤为重要(例如就业岗位如何分布,就业中心规模多大、通勤者来自何处等),如果无法准确把握这些基本特征,为构建多中心体系而调整土地使用、建设交通设施、配置公共设施就有可能发生目标和效果的错位、偏移。
3.由于城市规划只能在土地利用上贯彻职住平衡这一理念,而住房和就业岗位的分配是在市场中进行的,市场既无法保证居住在当地的居民就可以得到当地的就业岗位,也无法保证在当地工作就可以购买当地的住房,所以即使从规划用地角度做到了平衡。常规方法以人口普查数据为依据,只能判断居住人口在城市里的聚集状况,无法识别就业岗位的空间分布,且无法反映居住与就业的空间联系方向(职住关系)。


技术实现要素:

4.本发明提供一种就业中心识别方法、装置、电子设备及存储介质,用以识别就业岗位的空间分布,反映居住与就业的空间联系方向。
5.本发明提供一种就业中心识别方法,包括:获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
6.根据本发明提供的就业中心识别方法,还包括:获取所述就业中心多个不同的企业类别,基于所述多个不同的企业类别,确定就业中心产业多样性度量;获取所述就业中心的公共交通数据,基于所述公共交通数据确定就业中心辐射范围度量;基于所述就业中心产业多样性度量和所述就业中心辐射范围度量,对所述目标地区的就业中心进行分类。
7.根据本发明提供的就业中心识别方法,基于如下公式计算就业中心产业多样性度量:其中,为所述就业中心产业多样性度量,s为企业类别数,为所述目标地区内第i类企业的占比。
8.根据本发明提供的就业中心识别方法,所述公共交通数据包括公共交通站台位置和所述目标地区人员的通勤时间。
9.根据本发明提供的就业中心识别方法,所述基于所述就业中心产业多样性度量和所述就业中心辐射范围度量,对所述目标地区的就业中心进行分类,包括:基于所述就业中心产业多样性度量,依次选取多组就业中心类别,每组就业中心类别包含有多类就业中心;基于所述就业中心辐射范围度量,确定每组就业中心类别对应的就业中心辐射范围度量均值,在下一组就业中心类别对应的就业中心辐射范围度量均值与上一组就业中心类别对应的就业中心辐射范围均值之间的差值小于预设阈值的情况下,将所述下一组就业中心类别作为就业中心目标类别。
10.根据本发明提供的就业中心识别方法,所述聚类模型用于:对输入至所述聚类模型的数据进行解析,得到空间点数据集;计算所述空间点数据集中每个空间点的k-距离;将所述空间点数据集中每个空间点的k-距离用散点图显示,并基于所述散点图确定邻域半径;基于预设的初始最小点数量以及所述邻域半径,确定核心点集合;所述核心点集合中的核心点是以自身为中心,以所述邻域半径为半径的邻域内空间点不少于所述初始最小点数量的空间点;基于具有噪声的密度聚类算法,对所述核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于所述邻域半径的空间点进行聚类,得到所述目标地区人员的就业地或者所述企业注册聚集地。
11.根据本发明提供的就业中心识别方法,所述基于具有噪声的密度聚类算法,对所述核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于所述邻域半径的空间点进行聚类,得到所述目标地区人员的就业地或者所述企业注册聚集地,包括:基于具有噪声的密度聚类算法,对所述核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于所述邻域半径的空间点进行聚类,得到所述可连通的核心点组对应的簇;将所述可连通的核心点组对应的簇进行聚集,得到空间聚类簇;从不同邻域半径对应的空间聚类簇中选取最大面积的聚类簇,基于所述最大面积的聚类簇中空间点坐标的算数平均数,确定所述目标地区人员的就业地或者所述企业注册聚集地。
12.本发明还提供一种就业中心识别装置,包括:第一聚类模块,用于获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;第二聚类模块,用于获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;就业中心识别模块,用于基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
13.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述就业中心识别方法。
14.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述就业中心识别方法。
15.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述就业中心识别方法。
16.本发明提供的就业中心识别方法、装置、电子设备及存储介质,通过将目标地区人员的手机定位数据发送至聚类模型进行聚类,得到目标地区人员的就业地,以及将目标地区的企业注册数据输入至聚类模型进行聚类,得到企业注册聚集地,再结合目标地区人员的就业地和企业注册聚集地,得到目标地区的就业中心,因此,基于本发明提供的就业中心识别方法,可以识别就业岗位的空间分布,反映居住与就业的空间联系方向。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本邻域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明提供的就业中心识别方法的流程示意图;图2是本发明提供的聚类模型的训练流程示意图;图3是本发明提供的就业中心分类示意图;图4是本发明提供的就业中心聚类结果示意图之一;图5是本发明提供的就业中心聚类结果示意图之二;图6是本发明提供的就业中心聚类结果示意图之三;图7是本发明提供的就业中心聚类结果示意图之四;图8是本发明提供的就业中心识别装置的结构示意图;图9是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,
而不是全部的实施例。基于本发明中的实施例,本邻域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.下面结合图1-图9描述本发明的就业中心识别方法、装置、电子设备及存储介质。
21.如图1所示,本发明提供一种就业中心识别方法,包括:步骤110、获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;其中,所述聚类模型是基于具有噪声的密度聚类算法(dbscan,density-based spatial clustering of applications with noise)训练得到。
22.可以理解的是,对于目标地区的手机人员中,随机选取部分手机人员,获取该部分手机人员的手机定位数据。
23.具有噪声的密度聚类算法,利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值,算法可从具有噪声的数据集合中发现任意形状的簇(cluster),使得具有足够的密度区域划分在同一个簇内,从而达到聚类的目的。具有噪声的密度聚类算法有两个重要的输入参数:邻域半径(eps)和最小点的数量(minpts)。
24.由于具有噪声的密度聚类算法的参数敏感性,在使用该算法进行聚类分析之前,我们要对该聚类算法的两个参数邻域半径和最小点数量最小点的数量进行参数标定。
25.聚类模型的训练流程如图2所示,先获取原始数据,对原始数据进行一场数据清理,得到有效数据,在基于删选规则对有效数据进行山泉,得到可用数据,接着对可用数据进行数据简化和规则提取,得到训练数据,基于训练数据对原始模型(即:具有噪声的密度聚类算法初始模型)进行参数标定,得到聚类模型。
26.步骤120、获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地。
27.可以理解的是,可以通过提供企业工商数据的第三方服务平台的网络接口获取目标地区的企业注册数据,企业注册数据包含有企业的注册地和办公地址,企业主营业务和行业。
28.步骤130、基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心。
29.可以理解的是,将上面得到的目标地区人员的就业地与企业注册聚集地进行叠加,分析得到就业中心热力图、等值线等相关指标,即确定目标地区的就业中心。
30.在一些实施例中,就业中心识别方法,还包括:获取所述就业中心多个不同的企业类别,基于所述多个不同的企业类别,确定就业中心产业多样性度量;获取所述就业中心的公共交通数据,基于所述公共交通数据确定就业中心辐射范围度量;基于所述就业中心产业多样性度量和所述就业中心辐射范围度量,对所述目标地区的就业中心进行分类。
31.可以理解的是,获取目标地区多个不同的企业类别,判断其中是否具有优势企业,对目标地区就业中心内部产业进行分析,按照类别比例,绘制风玫瑰图,凸显其优势产业,
得到就业中心产业多样性度量。
32.在识别就业中心机器边界的基础上,筛选出就业中心的公共交通数据,基于筛选出来的就业中心的公共交通数据,确定就业中心辐射范围度量。就业中心的公共交通数据可以是基于公交集成电路(ic,integrated circuit card)卡的数据。
33.在一些实施例中,就业中心识别方法,基于如下公式计算就业中心产业多样性度量:其中,为所述就业中心产业多样性度量,在时具有极大值,s为企业类别数,为所述目标地区内第i类企业的占比。
34.可以理解的是,本实施例引入生物学中的多样性指数,计算就业中心内部产业多样性。多样性指数是指物种多样性测定,对区域内的生物多样性数据进行了很好的描述。多样性指数是反映丰富度和均匀度的综合指标。应用多样性指数时,具低丰富度和高均匀度的群落与具高丰富度与低均匀度的区域,可能得到相同的多样性指数。
35.进一步,本实施例中根据香农指数(香农-维纳多样性指数)确定就业中心产业多样性度量,可反映就业中心是否具有优势产业。
36.在一些实施例中,所述公共交通数据包括公共交通站台位置和所述目标地区人员的通勤时间。
37.可以理解的是,在识别就业中心及其边界的基础上,筛选出就业中心的地铁站和公交站的位置。选定时间段为7:00-11:00在就业中心下车的通勤者,计算通勤者的平均通勤时间,度量就业中心辐射范围。
38.在一些实施例中,所述基于所述就业中心产业多样性度量和所述就业中心辐射范围度量,对所述目标地区的就业中心进行分类,包括:基于所述就业中心产业多样性度量,依次选取多组就业中心类别,每组就业中心类别包含有多类就业中心;基于所述就业中心辐射范围度量,确定每组就业中心类别对应的就业中心辐射范围度量均值,在下一组就业中心类别对应的就业中心辐射范围度量均值与上一组就业中心类别对应的就业中心辐射范围均值之间的差值小于预设阈值的情况下,将所述下一组就业中心类别作为就业中心目标类别。
39.可以理解的是,可以基于k-means算法实现目标地区的就业中心分类。k-means算法是硬聚类算法,是基于原型的目标函数聚类方法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。k-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量v最优分类,使得评价指标j最小。k-means算法采用误差平方和准则函数作为聚类准则函数。
40.k-means算法过程如下:1、从n个文档随机选取k个文档作为质心;2、对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;
3、重新计算已经得到的各个类的质心;4、迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。
41.本实施例中,k-means算法具体步骤如下:1、确定一组就业中心类别,该组就业中心类别中包含有多个不同类别的就业中心,例如,一组就业中心类别中包含有k个不同类别的就业中心,每类就业中心对应一个特征向量,即一组就业中心类别对应有k个特征向量;2、求出一组就业中心类别中,每一类就业中心对应的就业中心辐射范围度量,就业中心辐射范围度量也即是新的特征向量,进而求出一组就业中心类别中,多类就业中心对应的就业中心辐射范围度量均值,也即是该组就业中心类别对应的就业中心辐射范围度量均值;3、重复步骤1和2,直到相邻两组就业中心类别对应的就业中心辐射范围度量均值的差值不再变化或者达到迭代上限,即得到就业中心目标类别。基于k-means算法得到的就业中心分类结果如图3所示。
42.在一些实施例中,所述聚类模型用于:对输入至所述聚类模型的数据进行解析,得到空间点数据集;计算所述空间点数据集中每个空间点的k-距离;将所述空间点数据集中每个空间点的k-距离用散点图显示,并基于所述散点图确定邻域半径;基于预设的初始最小点数量以及所述邻域半径,确定核心点集合;所述核心点集合中的核心点是以自身为中心,以所述邻域半径为半径的邻域内空间点不少于所述初始最小点数量的空间点;基于具有噪声的密度聚类算法,对所述核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于所述邻域半径的空间点进行聚类,得到所述目标地区人员的就业地或者所述企业注册聚集地。
43.可以理解的是,解析输入至聚类模型的数据,形成空间点数据集合p={p(i); i = 0, 1,
ꢀ…
, n},p(i)表示输入的数据,也即是集合的空间点,n表示输入数据的总数。
44.计算空间点数据集合p中每个空间点p(i)的k-距离。针对集合p,对于任意点p(i)属于p,计算点p(i)到集合p的子集 s={p(1), p(2),
ꢀ…
, p(i-1), p(i+1),
ꢀ…
, p(n)}中所有元素之间的距离,距离按照从小到大的顺序排序,设定排序后的距离集合记作d={d(1), d(2),
ꢀ…
, d(k-1), d(k), d(k+1),
ꢀ…
, d(n-1)},则d(k)就被称为p(i)的k-距离。也即是,k-距离是点p(i)到所有点(除了p(i)点)之间距离中第k近的距离。对集合p中每个点p(i)都计算k-距离,最后得到集合p中所有元素p(i)的k-距离,用集合e表示e={e(1),e(2),

,e(n)}。
45.用散点图显示集合p中的所有元素p(i)的k-距离值,根据散点图确定邻域半径的值。
46.根据给定的初始最小点的数量(例如4),以及上一步中邻域半径的值,计算所有核心点,得到核心点集合;即以点p为中心、邻域半径内的点的个数不少于初始最小点的数量的点成为核心点,并建立核心点与到核心点距离小于邻域半径点的映射。
47.根据得到的核心点集合,以及邻域半径的值,计算可连通的核心点组,得到噪声
点。可连通的核心点组中包含有至少两个可连通的核心点。
48.基于具有噪声的密度聚类算法,对核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于邻域半径的空间点进行聚类,得到目标地区人员的就业地或者企业注册聚集地。
49.在一些实施例中,所述基于具有噪声的密度聚类算法,对所述核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于所述邻域半径的空间点进行聚类,得到所述目标地区人员的就业地或者所述企业注册聚集地,包括:基于具有噪声的密度聚类算法,对所述核心点集合中可连通的核心点组,以及到可连通的核心点组的距离小于所述邻域半径的空间点进行聚类,得到所述可连通的核心点组对应的簇;将所述可连通的核心点组对应的簇进行聚集,得到空间聚类簇;从不同邻域半径对应的空间聚类簇中选取最大面积的聚类簇,基于所述最大面积的聚类簇中空间点坐标的算数平均数,确定所述目标地区人员的就业地或者所述企业注册聚集地。
50.可以理解的是,将可连通的每一组核心点,以及到可连通的核心点距离小于邻域半径的点,都放到一起,形成一个簇。
51.选择不同的邻域半径,使用具有噪声的密度聚类算法聚类得到的一组聚类簇及其噪声点,使用散点图对比聚类效果,确定参数eps=0.0003,minpts=10为具有噪声的密度聚类算法的模型参数,利用具有噪声的密度聚类算法计算得到的如图4、图5、图6、图7所示的结果(黑色实心点为异常噪声数据)。
52.计算最大面积的聚类簇中空间点坐标的算术平均数,以此作为目标地区人员的就业地(即:企业注册聚集地)或居住地。
53.具有噪声的密度聚类算法的显著优点是能够有效地剔除噪声数据、高效快速的发现任意形状的空间聚类簇。这里主要是就所有人员的有效数据进行聚类,获取最大的聚类簇中坐标点的算数平均值,这样每个人员就能得到两个有效聚类点,白天的作为就业地,晚上的作为居住地。
54.综上所述,本发明提供的就业中心识别方法,包括:获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
55.在本发明提供的就业中心识别方法中,通过将目标地区人员的手机定位数据发送至聚类模型进行聚类,得到目标地区人员的就业地,以及将目标地区的企业注册数据输入至聚类模型进行聚类,得到企业注册聚集地,再结合目标地区人员的就业地和企业注册聚集地,得到目标地区的就业中心,因此,基于本发明提供的就业中心识别方法,可以识别就业岗位的空间分布,反映居住与就业的空间联系方向。
56.下面对本发明提供的就业中心识别装置进行描述,下文描述的就业中心识别装置与上文描述的就业中心识别方法可相互对应参照。
57.如图8所示,本发明提供的一种就业中心识别装置800,包括:第一聚类模块810,用于获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;第二聚类模块820,用于获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;就业中心识别模块830,用于基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
58.下面对本发明提供的电子设备、计算机程序产品及存储介质进行描述,下文描述的电子设备、计算机程序产品及存储介质与上文描述的就业中心识别方法可相互对应参照。
59.图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(communications interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行就业中心识别方法,该方法包括:获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
60.此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
61.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的就业中心识别方法,该方法包括:获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;
其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
62.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的就业中心识别方法,该方法包括:获取目标地区人员的手机定位数据,将所述手机定位数据发送至聚类模型中进行聚类,得到所述聚类模型输出的目标地区人员的就业地;获取目标地区的企业注册数据,将所述企业注册数据输入至所述聚类模型进行聚类,得到所述聚类模型输出的企业注册聚集地;基于所述目标地区人员的就业地和所述企业注册聚集地,得到所述目标地区的就业中心;其中,所述聚类模型是基于具有噪声的密度聚类算法训练得到。
63.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本邻域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
64.通过以上的实施方式的描述,本邻域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
65.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本邻域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1