一种基于大数据的人口结构分析方法、系统及可读存储介质与流程

文档序号:28493670发布日期:2022-01-15 03:32阅读:165来源:国知局
一种基于大数据的人口结构分析方法、系统及可读存储介质与流程

1.本技术涉及数据分析技术领域,具体而言,涉及一种基于大数据的人口结构分析方法、系统及可读存储介质。


背景技术:

2.人口结构一般指人口构成。人口构成,是指把人口总体区分为各个组成部分。当前随着社会的变更发展,根据人口的不同特征,可划分得到三大类人口构成包括人口的自然构成、地域构成与社会构成。其中,自然构成是依人口的生理属性划分得到,主要有性别构成与年龄构成。地域构成指人口的地理分布状况,包括人口的行政、自然与经济区域分布、城乡分布等。社会构成是依人口的社会经济属性来划分的,包括人口的婚姻状况构成、家庭类型构成、文化教育程度构成等。目前,已有相关的研究人员,基于宏观统计学分析汇总方式,结合人口构成因素的特点和作用的分类方式,将人口结构划分为三大类:1.人口自然构成;2.人口地域构成;3.人口社会构成。然而,这种统计方式一般以人工统计为主导核心,涉及到的统计工作量大,存在统计信息误差大的问题。


技术实现要素:

3.本技术实施例的目的在基于提供一种基于大数据的人口结构分析方法、系统及可读存储介质,可以降低统计信息误差率。
4.本技术实施例还提供了一种基于大数据的人口结构分析方法,包括以下步骤:获取所属目标区域的用户移动数据,并根据所述用户移动数据确定目标区域中各用户在历史预设时段内的移动区域信息;所述移动区域信息包括用户在相应时间点所到达的移动区域、按照时间顺序确定的移动区域前、后重复出现的间隔时间点、用户在移动区域中的驻留时间点;根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对所确定的各项移动区域信息进行聚合分析,以确定各用户分别在历史预设时段内的历史移动规律;根据所述历史移动规律,从目标区域的各用户中识别出常住用户;确定常住用户的身份属性信息,并根据所述身份属性信息进行人口结构划分,以确定目标区域的人口结构分布信息。
5.第二方面,本技术实施例还提供了一种基于大数据的人口结构分析系统,所述系统包括数据获取模块、移动规律分析模块、常住用户识别模块和人口结构划分模块,其中:所述数据获取模块,用于获取所属目标区域的用户移动数据,并根据所述用户移动数据确定目标区域中各用户在历史预设时段内的移动区域信息;所述移动区域信息包括用户在相应时间点所到达的移动区域、按照时间顺序确定的移动区域前、后重复出现的间隔时间点、用户在移动区域中的驻留时间点;所述移动规律分析模块,用于根据移动区域重复出现的重合程度、以及不同用户
在相同移动区域中的驻留关联程度,对所确定的各项移动区域信息进行聚合分析,以确定各用户分别在历史预设时段内的历史移动规律;所述常住用户识别模块,用于根据所述历史移动规律,从目标区域的各用户中识别出常住用户;所述人口结构划分模块,用于确定常住用户的身份属性信息,并根据所述身份属性信息进行人口结构划分,以确定目标区域的人口结构分布信息。
6.第三方面,本技术实施例还提供了一种可读存储介质,所述可读存储介质中包括基于大数据的人口结构分析方法程序,所述基于大数据的人口结构分析方法程序被处理器执行时,实现如上述任一项所述的一种基于大数据的人口结构分析方法的步骤。
7.由上可知,本技术实施例提供的一种基于大数据的人口结构分析方法、系统及可读存储介质,根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对各项移动区域信息进行聚合分析,可以有效挖掘出数据间关联性,更好的分析出用户的移动规律。结合分析出的历史移动规律,从目标区域的各用户中识别出常住用户,实现对流动用户的剔除,保证了人口结构划分结果的正确性,降低了统计信息的误差率。
8.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
9.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
10.图1为本技术实施例提供的基于大数据的人口结构分析方法的一种流程图。
11.图2为本技术实施例提供的基于大数据的人口结构分析系统的一种结构示意图。
具体实施方式
12.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
13.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
14.请参照图1,图1是本技术一些实施例中的一种基于大数据的人口结构分析方法的流程图。以该方法应用于计算机设备(该计算机设备具体可以是终端或服务器,终端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服
务器可以用独立的服务器或者是多个服务器组成的服务器集群)为例进行说明,包括以下步骤:步骤s1,获取所属目标区域的用户移动数据,并根据用户移动数据确定目标区域中各用户在历史预设时段内的移动区域信息;移动区域信息包括用户在相应时间点所到达的移动区域、按照时间顺序确定的移动区域前、后重复出现的间隔时间点、用户在移动区域中的驻留时间点。
15.具体的,计算机设备可以基于运营商提供的手机信令数据确定所属目标区域的用户移动数据。需要说明是,一般通过手机用户之间的通话频率和通话时长,来确定用户的手机通话数据,以此反映用户之间的信息联系强度;一般也可通过手机用户在基站之间的信息交换,来确定用户的空间位置,该空间位置能相对准确的记录人流的时空轨迹。而,只要在发生开关机、通话、短信、位置更新和切换基站行为的情况下,都会记录下相应的信令数据;该信令数据将反馈到计算机设备,由计算机设备基于手机信令数据,确定目标区域中各用户的移动区域。当前实施例中,基于手机信令数据的动态实时性和连续性,即时不同时间点手机用户所在的空间位置,为描述目标区域内的人群流动、以及用户之间的联系强度提供遍历。
16.在其中一个实施例中,在计算机设备无法及时获取到手机信令数据的情况下,还可以基于分布设于目标区域中的摄像头(例如,设于电梯内的摄像头,以及设于楼栋、小区、或关键街道处的摄像头)等录像设备,实时拍摄到的人流画面,在处理该人流画面时,通过人脸识别以确定目标区域中各用户的移动区域信息。当然,计算机设备还可以通过其他方式确定各用户在历史预设时段内的移动区域信息,例如,在疫情期间,由于用户进出工作场所、超市、住宅等都需要提供行程信息,这一情况下,可以基于预先统计得到的行程信息,进行移动区域信息的确定,本技术实施例对移动区域信息的确定方式不做限定。
17.步骤s2,根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对所确定的各项移动区域信息进行聚合分析,以确定各用户分别在历史预设时段内的历史移动规律。
18.具体的,在进行聚合分析的时候,计算机设备会先确定聚合规则,例如,在需要确定用户移动区域的重复性时,设定的规则可以为将不同时间点用户对应移动的相同移动区域进行聚合。之后再基于所确定的聚合规则,将符合该规则的多项信息划分到统一的集合中。之后,针对当前划分得到的各个集合,在确定移动区域的重复出现次数以及不同用户在相同移动区域的关联程度,即可确定用户移动规律。
19.当前实施例中,基于移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,进行聚合分析,可以有效挖掘出数据间关联性,更好分析出用户移动规律。
20.步骤s3,根据历史移动规律,从目标区域的各用户中识别出常住用户。
21.具体的,由于目标用户群体中一般会涉及到常住用户,也就是长时间停留在该区域的用户,以及涉及到流动用户,该用户只是短暂停留(例如,出差、或者亲戚走动)在该区域,其并不属于目标区域的常住用户。因此,在进行人口结构划分之前,计算机设备需要从所确定的目标用户群体中,剔除流动用户。之后,再基于剔除剩余的常住用户群体,基于其所属的身份属性信息进行人口结构划分。
22.在其中一个实施例中,为保证常住用户的准确识别,计算机设备还可以基于用户的历史移动规律,对未来预设时间段内,例如,未来3个月的移动轨迹进行预测。之后,计算机设备再结合历史移动规律和预测到的未来移动规律,来判断用户是否固定停留在该目标区域,若是,则判断其为常住用户;反之,则判断其为流动用户。如此,结合对未来移动规律的预测,从更全面的角度进行常住用户识别,提高了常住用户的正确辨识率。
23.步骤s4,确定常住用户的身份属性信息,并根据身份属性信息进行人口结构划分,以确定目标区域的人口结构分布信息。
24.具体的,身份属性信息可以包括年龄信息、职业信息、户籍信息、籍贯信息以及是否属于新生儿等。当前实施例中,计算机设备基于所确定的身份属性信息类型,对所确定的常住用户进行分类划分,例如,在进行人口结构划分的时候,可以按照职业信息,将具备相同职业的多个用户划分到一大类中。在一个实施例中,为了保证能够从多维度角度,更加全面的反映该目标区域的人口结构,在职业信息划分的基础上,计算机设备还可以按照户籍信息或等籍贯信息等,进行二级分类,换句话说,当前实施例的目的就是为了确定所属同一职业的用户群体中,有哪些用户具备相同的户籍。
25.上述的基于大数据的人口结构分析方法,根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对各项移动区域信息进行聚合分析,可以有效挖掘出数据间关联性,更好的分析出用户的移动规律。结合分析出的历史移动规律,从目标区域的各用户中识别出常住用户,实现对流动用户的剔除,保证了人口结构划分结果的正确性,降低了统计信息的误差率。
26.在一个实施例中,用户移动数据基于运营商提供的手机信令数据确定;手机信令数据包括用户标识、用于记录人流的时空轨迹的空间位置标识。步骤s1中,根据用户移动数据确定目标区域中各用户在历史预设时段内的移动区域信息,包括:获取目标区域中各用户分别对应的目标用户标识,并根据目标用户标识进行目标空间位置标识的确定;按照时间顺序、以及邻近区域在时空上的关联顺序,对目标空间位置标识进行排序,并根据排序结果,确定各用户在历史预设时段内的移动区域信息。
27.具体的,计算机设备基于所确定的目标用户标识,从所确定的各项空间位置标识中,确定所属目标用户的目标空间位置标识。后续,计算机设备再确定目标空间位置标识所对应的时间生成点,基于该时间生成点,按照时间顺序对各项目标空间位置标识进行排序,以确定用户的移动区域。其中,在确定移动区域的时候,再基于邻近区域在时空上的关联顺序,从所确定各项移动区域中筛除无效区域数据,例如,计算机设备在确定用户在10点的时候位于移动区域a,并在确定用户在10点2分的时候,从移动区域a移动到移动区域b,基于移动区域a和移动区域b在地理位置上的远近,在确定移动区域a和移动区域b之间距离较远的时候,较短时间内是无法从移动区域a切换到移动区域b,因此,即可判断当前所确定的移动区域b,并非最终所需收集到的移动区域信息,将移动区域b作为无效区域数据筛选即可。
28.在一个实施例中,步骤s2中,根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对所确定的各项移动区域信息进行聚合分析,包括:步骤s21,基于区域重合程度,对所确定的各个移动区域进行一次聚合,基于得到的一次聚合结果,确定各移动区域的重复出现次数。
29.步骤s22,针对重复出现次数小于预设最低次数阈值的第一移动区域、以及第一移
动区域关联到的第一目标用户,生成表征第一目标用户不常在第一移动区域中活动的第一历史移动规律。
30.具体的,对于重复出现次数小于预设最低次数阈值的第一移动区域,则认为其对应关联到的第一目标用户并非频繁出入该区域,该区域并不作为第一目标用户的驻留区域,当前,既可以确定第一目标用户为目标区域中的流动用户。此时,同步生成的第一历史移动规律即可进一步印证该第一目标用户不是目标区域中的常住用户,后续计算机设备可以基于第一历史移动规律,进行流动用户的剔除。
31.步骤s23,针对重复出现次数大于或等于预设最低次数阈值的第二移动区域、以及第二移动区域关联到的第二目标用户,基于在进、出区域时间点、以及驻留时长上的驻留关联程度,进行二次聚合。
32.步骤s24,基于得到的二次聚合结果,从第二目标用户群体中筛选出存在驻留关联的第三目标用户,并生成表征第三目标用户常在第二移动区域中活动的第二历史移动规律。
33.具体的,计算机设备在进行二次聚合的时候,为了保证当前定位到的第二目标用户为所需识别到的常住用户,在基于处于同一移动区域的用户在进、出区域时间点、以及驻留时长上的关联性,进行常住用户的深入筛选。例如,处于同一移动区域的不同第二目标用户之间,同步进出该区域、以及两者的驻留时长相接近,则证明其与该区域中的其他用户之间存在联系,二者可能是身份上的联系,例如上下级、妻儿等,本技术实施例对此不做限定,则可以认为存在驻留关联的第三目标用户很有可能是常住用户。
34.上述实施例中,基于移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,提高了常住人口的辨识准确度,使得后续的人口结构划分结果更加准确。
35.在一个实施例中,步骤s3中,根据历史移动规律,从目标区域的各用户中识别出常住用户,包括:获取用户的身份属性信息,身份属性信息包括年龄信息、职业信息、户籍信息、以及籍贯信息中的至少一种;根据历史移动规律、以及身份属性信息,对用户在未来预设时段内的移动规律进行预测,得到对应的未来移动规律;综合历史移动规律和未来移动规律,基于用户在目标区域中的移动频率,从目标区域的各用户中识别出常住用户。
36.在一个实施例中,步骤s4中,根据身份属性信息进行人口结构划分,以确定目标区域的人口结构分布信息,包括:确定各常住用户的身份属性信息分别所属的信息类型;信息类型包括年龄、职业、户籍、籍贯、以及婚姻状况中的至少一种;基于所确定的各项信息类型,进行人口结构分布的汇总,并基于得到的汇总结果确定目标区域的人口结构分布信息。
37.需要说明的是,由于前述实施例中已对此处的具体实时方式进行了具体说明,包括相一级分类以及二级分类等,本技术实施例对此不做过多说明。
38.在其中一个实施例中,所得的人口结构分布信息也可以经由计算机设备反馈到运营部门,由运营部门中的运营人员根据接收到的人口结构分布信息,进行人口结构的调整,例如,运营人员基于接收到的人口结构分布信息,在确定目标区域中老年人的占比较多时,将提高人口结构分析的频率,例如,先前的分析频率为1年1次,当前应用场景中,可以将分析频率调整为半年1次,或一季度1次。在其中一个实施例中,计算机设备也可以基于人口结构分布信息,生成人口结构调整建议,并将该调整建议反馈到运营部门,由运营部门基于接
收到的调整建议,进行人口结构的调整。其中,对于调整建议的生成可以参考以下方式:基于人口结构分布信息,在确定目标区域中老年人的占比较多时,将生成表征整改区域中产业结构的调整建议。这便是基于人口结构分布信息,推断目标区域中的产业构成,为该区域的产业发展提高指导规划。
39.上述实施例中,将所确定的目标区域的人口结构分布信息反馈给运营人员,协助运营人员及时掌握区域中的人口结构分布情况,并根据该人口结构分布情况及时进行产业规划、以及人口结构的调整,提高了区域管理效率,便于城市发展。
40.在一个实施例中,该方法还包括:获取目标区域在电子地图上所处的坐标位置点,并根据坐标位置点,将统计得到的人口结构分布信息关联到电子地图上对应的标识位置处;当电子地图接收到点击信号时,根据识别到的点击范围,进行目标人口结构分布信息的关联显示。
41.具体的,在计算机设备同时关联显示多区域中的目标人口结构分布信息的时候,可以将各目标人口结构分布信息汇总在一个表格中,以避免在显示多处邻近区域关联到的目标人口结构分布信息时,由于显示区域的重叠,造成信息显示不全的问题。其中,表格的覆盖范围可以包括电子地图或不包括电子地图,对于不包括电子地图的情况,计算机设备可以基于识别到的点击范围,在该点击范围之外的任一位置处,进行表格显示。
42.在一个实施例中,在需要显示非邻近区域处的多条目标人口结构分布信息时,为了避免造成信息混淆,计算机设备可以通过设置不同的字体颜色加以区分,例如,对于a区域显示的信息a,设置其字体显示颜色为红色,对于b区域显示的信息b,则设置其字体显示颜色为蓝色,当然,为达到区分效果,还可以通过延迟时间等其他方式,本技术实施例对此不做限定。例如,在信息a显示的同时,推迟信息b的显示时间,这样通过信息的延迟显示,避免电子地图上同时显示多条信息,造成的信息混淆问题。
43.请参照图2所示,本技术实施例还提供了一种基于大数据的人口结构分析系统200,该系统200包括数据获取模块201、移动规律分析模块202、常住用户识别模块203和人口结构划分模块204,其中:数据获取模块201,用于获取所属目标区域的用户移动数据,并根据用户移动数据确定目标区域中各用户在历史预设时段内的移动区域信息;移动区域信息包括用户在相应时间点所到达的移动区域、按照时间顺序确定的移动区域前、后重复出现的间隔时间点、用户在移动区域中的驻留时间点。
44.移动规律分析模块202,用于根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对所确定的各项移动区域信息进行聚合分析,以确定各用户分别在历史预设时段内的历史移动规律。
45.常住用户识别模块203,用于根据历史移动规律,从目标区域的各用户中识别出常住用户。
46.人口结构划分模块204,用于确定常住用户的身份属性信息,并根据身份属性信息进行人口结构划分,以确定目标区域的人口结构分布信息。
47.在其中一个实施例中,数据获取模块201还用于获取目标区域中各用户分别对应的目标用户标识,并根据目标用户标识进行目标空间位置标识的确定;按照时间顺序、以及邻近区域在时空上的关联顺序,对目标空间位置标识进行排序,并根据排序结果,确定各用
户在历史预设时段内的移动区域信息。
48.在其中一个实施例中,移动规律分析模块202还用于基于区域重合程度,对所确定的各个移动区域进行一次聚合,基于得到的一次聚合结果,确定各移动区域的重复出现次数;针对重复出现次数小于预设最低次数阈值的第一移动区域、以及第一移动区域关联到的第一目标用户,生成表征第一目标用户不常在第一移动区域中活动的第一历史移动规律;针对重复出现次数大于或等于预设最低次数阈值的第二移动区域、以及第二移动区域关联到的第二目标用户,基于在进、出区域时间点、以及驻留时长上的驻留关联程度,进行二次聚合;基于得到的二次聚合结果,从第二目标用户群体中筛选出存在驻留关联的第三目标用户,并生成表征第三目标用户常在第二移动区域中活动的第二历史移动规律。
49.在其中一个实施例中,常住用户识别模块203还用于获取用户的身份属性信息,身份属性信息包括年龄信息、职业信息、户籍信息、以及籍贯信息中的至少一种;根据历史移动规律、以及身份属性信息,对用户在未来预设时段内的移动规律进行预测,得到对应的未来移动规律;综合历史移动规律和未来移动规律,基于用户在目标区域中的移动频率,从目标区域的各用户中识别出常住用户。
50.在其中一个实施例中,人口结构划分模块204还用于确定各常住用户的身份属性信息分别所属的信息类型;信息类型包括年龄、职业、户籍、籍贯、以及婚姻状况中的至少一种;基于所确定的各项信息类型,进行人口结构分布的汇总,并基于得到的汇总结果确定目标区域的人口结构分布信息。
51.在其中一个实施例中,该系统200还包括关联显示模块,其中:关联显示模块,用于获取目标区域在电子地图上所处的坐标位置点,并根据坐标位置点,将统计得到的人口结构分布信息关联到电子地图上对应的标识位置处;当电子地图接收到点击信号时,根据识别到的点击范围,进行目标人口结构分布信息的关联显示。
52.由上可知,本技术实施例提供的基于大数据的人口结构分析系统,根据移动区域重复出现的重合程度、以及不同用户在相同移动区域中的驻留关联程度,对各项移动区域信息进行聚合分析,可以有效挖掘出数据间关联性,更好的分析出用户的移动规律。结合分析出的历史移动规律,从目标区域的各用户中识别出常住用户,实现对流动用户的剔除,保证了人口结构划分结果的正确性,降低了统计信息的误差率。
53.本技术实施例提供一种存储介质,所述计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(static random access memory, 简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory, 简称eeprom),可擦除可编程只读存储器(erasable programmable read only memory, 简称eprom),可编程只读存储器(programmable red-only memory, 简称prom),只读存储器(read-only memory, 简称rom),磁存储器,快闪存储器,磁盘或光盘。
54.在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间
的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
55.另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
56.再者,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
57.在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
58.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1