一种运用大数据多点碰撞技术进行人口迁徙分析的方法与流程

文档序号:11678269阅读:2392来源:国知局

本发明涉及大数据分析及可视化领域,具体地说是一种运用大数据多点碰撞技术进行人口迁徙分析的方法。



背景技术:

数据碰撞是指运用计算机对数据进行分析,将两组以上同类型的数据集进行梳理,通过关联比对,筛选数据集取交集的一种方法。随着数据量的增大,数据含义复杂化,单组数据所表达的含义已经远远无法满足各业务场景的需求,把多点数据碰撞进行交叉计算,从多个不同维度综合挖掘数据的价值用于辅助决策,已经成为一种新型的数据利用手段。

人口迁徙一般指的是人口在两个地区之间的空间移动,这种移动通常涉及人口居住地由迁出地到迁入地的永久性或长期性的改变。社会学家对人口迁徙现象的研究自古至今都没有停止过,它能够从某些方面直接或者间接的反应一个地区的政治、经济、文化的发展情况。影响人口迁徙的因素有很多种,有一些是从表面可以直接看到的,例如气候因素,但是另外一些是隐藏在深处的,需要经过复杂的数据分析才能得到的。人口迁徙对区域经济文化等带来的影响,也需要对迁徙数据进行多层次的挖掘才能得到。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种运用大数据多点碰撞技术进行人口迁徙分析的方法,可以从多个维度对人口迁徙的要素进行深入的挖掘分析,可以有利的辅助政府了解城市人口迁徙现象的本质,辅助进行政策的制定。

本发明解决其技术问题所采用的技术方案是:

一种运用大数据多点碰撞技术进行人口迁徙分析的方法,该方法包括以下内容:

抽取数据,包括公安局人口户籍信息、迁入迁出人口信息、人社局社保缴纳信息、公积金中心公积金信息、房产局房屋登记信息、教育局学历信息和卫计委全员户信息,把这些数据抽取到同一数据库中;

从户籍信息中过滤出迁入时间不为空的并且迁出的地点不为本市的记录,并保存为u1;

把u1中的样本与迁入迁出人口信息做比对碰撞,取交集,并保存为u2;

把u2中的样本与人社局的社保缴纳信息表做比对计算,取其交集并保存为u3,此交集中的数据为迁入人口中交社保的人群;

把u2中的样本与公积金信息做比对计算,取其交集并保存为u4,此交集中的数据为迁入人口中缴纳公积金的人群;

把u2中的样本与房产登记信息和卫计委全员户信息做比对计算,取其交集并保存为u5,此集合中的数据为迁入人口中通过房产落户的人群;

把u2中的样本与教育局的学历信息做比对计算,得到其交集并保存为u6;

对u2中的样本进行分析,按照户口类别关键字进行分组统计,计算得到迁入人口中的户口性质以及其包含的人口数量,包括农业户口多少人,非农业家庭户多少人,非农业集体户多少人;

对u2中的样本进行分析,按照迁入年份关键字进行分组统计,计算得到每年迁入的人口数量变化趋势;

对u6中的样本进行分析,按照学历类型关键字进行分组统计,得到迁入人口中的学历组成及人口数量;

把分别统计每年迁入人口和迁出人口的数量,做成趋势图,对比迁入人口和迁出人口的逐年变化,反应一个城市的发展状况;

把以上完成的各个集合进行二次碰撞对比计算,不同集合的碰撞计算,得到不同维度的迁入人口信息。

优选的,抽取数据利用etl工具或数据交换工具抽取,所述数据库为oracle或mysql。

优选的,所述u1中的样本与迁入迁出人口信息做比对碰撞,以身份证号作为关联字段取交集。

本发明的一种运用大数据多点碰撞技术进行人口迁徙分析的方法和现有技术相比,具有以下有益效果:

提出运用大数据多点碰撞技术对与人口相关的各个部门的数据进行碰撞计算,把看似无关的数据关联在一起进行比对,从多个更深入的层面提出对人口迁徙的分析,能够更全面的挖掘人口迁移现象的本质和趋势,辅助政府指定相关策略。

附图说明

图1是运用大数据多点碰撞技术进行人口迁徙分析的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

一种运用大数据多点碰撞技术进行人口迁徙分析的方法,该方法包括以下内容:

抽取数据,包括公安局人口户籍信息、迁入迁出人口信息、人社局社保缴纳信息、公积金中心公积金信息、房产局房屋登记信息、教育局学历信息和卫计委全员户信息,把这些数据抽取到同一数据库中;抽取数据利用etl工具或数据交换工具抽取,所述数据库为oracle或mysql。

从户籍信息中过滤出迁入时间不为空的并且迁出的地点不为本市的记录,并保存为u1;所述u1中的样本与迁入迁出人口信息做比对碰撞,以身份证号作为关联字段取交集。

把u1中的样本与迁入迁出人口信息做比对碰撞,取交集,并保存为u2;

把u2中的样本与人社局的社保缴纳信息表做比对计算,取其交集并保存为u3,此交集中的数据为迁入人口中交社保的人群;

把u2中的样本与公积金信息做比对计算,取其交集并保存为u4,此交集中的数据为迁入人口中缴纳公积金的人群;

把u2中的样本与房产登记信息和卫计委全员户信息做比对计算,取其交集并保存为u5,此集合中的数据为迁入人口中通过房产落户的人群;

把u2中的样本与教育局的学历信息做比对计算,得到其交集并保存为u6;

对u2中的样本进行分析,按照户口类别关键字进行分组统计,计算得到迁入人口中的户口性质以及其包含的人口数量,包括农业户口多少人,非农业家庭户多少人,非农业集体户多少人;

对u2中的样本进行分析,按照迁入年份关键字进行分组统计,计算得到每年迁入的人口数量变化趋势;

对u6中的样本进行分析,按照学历类型关键字进行分组统计,得到迁入人口中的学历组成及人口数量;

把分别统计每年迁入人口和迁出人口的数量,做成趋势图,对比迁入人口和迁出人口的逐年变化,反应一个城市的发展状况;

把以上完成的各个集合进行二次碰撞对比计算,不同集合的碰撞计算,得到不同维度的迁入人口信息。

如图1所示,

1、人口户籍信息与迁入迁出信息做交集得到迁入人口集合u2,

2、迁入人口集合分别与社保信息、公积金信息、房产信息、全员户信息、学历信息等进行碰撞计算,

3、碰撞计算得到的集合根据不同需要进行二次碰撞,得到的数据进行统计分析,

4、用图表、表格等可视化工具对统计分析结果进行展示,得到多维度的人口分析模型。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。



技术特征:

技术总结
本发明公开了一种运用大数据多点碰撞技术进行人口迁徙分析的方法,属于大数据分析及可视化领域。该方法包括以下内容:抽取数据,包括公安局人口户籍信息、迁入迁出人口信息、人社局社保缴纳信息、公积金中心公积金信息、房产局房屋登记信息、教育局学历信息和卫计委全员户信息,把这些数据抽取到同一数据库中;从户籍信息中过滤出迁入时间不为空的并且迁出的地点不为本市的记录,形成迁入人口集合,迁入人口集合分别与社保信息、公积金信息、房产信息、全员户信息、学历信息等进行碰撞计算。本发明可以从多个维度对人口迁徙的要素进行深入的挖掘分析,可以有利的辅助政府了解城市人口迁徙现象的本质,辅助进行政策的制定。

技术研发人员:王晓芹;张晓磊;李锦峰
受保护的技术使用者:山东浪潮云服务信息科技有限公司
技术研发日:2017.03.20
技术公布日:2017.07.25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1