本发明涉及机器学习,尤其涉及一种人员驻留行为概率预测方法和系统。
背景技术:
1、随着疫情的持续蔓延,准确把控城市实有人口和流动人群数据对疫情防控至关重要。利用人员疫情期间人员的多维数据,做好数据治理和数据预测,对人员管理和精准快速链接实有人口的业务开展有关键性作用。在此背景下,如何在无法获取信令信息的情况下,基于人员的多维数据,预测人员是否仍在当前城市驻留,进而辅助人员管理和疫情防控,成为待解决的问题。
技术实现思路
1、本发明提供一种人员驻留行为概率预测方法和系统,旨在解决现有技术中无信令信息的情况下无法预测出人员驻留概率的技术问题。
2、一种人员驻留行为概率预测方法,包括:
3、步骤a1,获取当前的城市的待预测人员的特征数据,特征数据包括人员行为数据和人员属性数据,特征数据与城市有关;
4、步骤a2,将待预测人员的特征数据,输入预先训练好的驻留行为预测模型以预测待预测人员驻留当前城市的概率;
5、其中,在所述步骤a2中,驻留行为预测模型的训练过程包括如下步骤:
6、步骤a21,获取若干用于模型训练的第一人员的特征数据作为第一特征数据;
7、步骤a22,对第一人员的第一特征数据进行预处理获得第二特征数据;
8、步骤a23,根据第二特征数据筛选出预定采样时间点之前最近的第一预设时间段内具有过预定行为的第一人员作为第二人员;
9、步骤a24,根据第二人员的第二特征数据将第二人员分成当前城市的驻留人员和非驻留人员;将驻留人员的第二特征数据作为正样本,非驻留人员的第二特征数据作为负样本,将正样本和负样本组成样本数据集;
10、步骤a25,使用样本数据集对初始构建的驻留行为预测模型进行训练获得训练好的驻留行为预测模型。
11、进一步的,人员行为数据包括预定行为的数据、出行数据以及住宿数据;
12、其中,预定行为包括核酸检测。
13、进一步的,人员属性数据包括:性别、年龄、房屋登记数据、居住证登记数据、户籍数据、车辆登记数据和社保数据。
14、进一步的,步骤a24包括:
15、步骤a241,按照预设年龄段对第二人员进行分层;
16、步骤a242,计算每个预设年龄段中第二人员在预设采样时间点之前最近的第二预设时间段内的发生预定行为的平均间隔天数;
17、步骤a243,计算每个预设年龄段中平均间隔天数的平均值和标准差;
18、步骤a244,根据第二特征数据获取第二人员在预定采样时间点之前最后一次预定行为的发生时间以及预设采样时间点之后最近一次预定行为的发生时间之间的时间间隔;
19、步骤a245,基于经验法则,判断时间间隔是否不大于对应的预设年龄段的临界值:
20、若是,执行步骤a246;
21、若否,执行步骤a247;
22、临界值等于预设年龄段的平均值与三个标准差之和;
23、步骤a246,判定第二人员为驻留人员,并将对应的第二特征数据标记为正样本;
24、步骤a247,判定第二人员为非驻留人员,并将对应的第二特征数据标记为负样本。
25、进一步的,步骤a247之后还包括:
26、步骤a248,确定每个预设年龄段用于模型训练的负样本数量;
27、步骤a249,基于负样本数量以及预设正负样本比例确定对应的预设年龄段的正样本数量;
28、步骤a250,从对应的预设年龄段总的正样本中随机筛选出与正样本数量相同的正样本用于模型训练;
29、步骤a251,将所有的预设年龄段的用于模型训练的正样本和负样本组成样本数据集;
30、在步骤a25中,使用样本数据集对初始构建的驻留行为预测模型进行训练获得训练好的驻留行为预测模型。
31、进一步的,在步骤a21之前,还包括:
32、步骤a20,设置多个预设采样时间点;
33、在步骤a21包括:
34、步骤a211,获取确定的预设采样时间点时驻留在城市的人员;
35、步骤a212,根据步骤a211中获取的人员确定第一人员。
36、进一步的,在步骤a24之后步骤a25之前还包括:
37、步骤b1,判断是否还存在剩余的预设采样时间点:
38、若是,执行步骤b2;
39、若否,执行步骤a25;
40、步骤b2,确定下一个预设采样时间点,重复步骤a21-a24以及步骤b1;
41、步骤a25,将所有预设采样时间点对应的样本数据集用于驻留行为预测模型的训练。
42、进一步的,第一预设时间段和第二预设时间段相同。
43、进一步的,,第一预设时间段为预设采样时间点之前的最近30天。
44、一种人员驻留行为概率预测系统,包括前述的一种人员驻留行为概率预测方法,包括:
45、模型构建模块,用于预先构建和训练驻留行为预测模型;
46、存储模块,连接模型构建模块,用于存储训练好的驻留行为预测模型;
47、数据获取模块,用于获取当前的城市的待预测人员的特征数据,特征数据包括人员行为数据和人员属性数据,特征数据与城市有关;
48、预测模块连接数据获取模块,用于将待预测人员的特征数据,输入预先训练好的驻留行为预测模型以预测待预测人员驻留当前城市的概率;
49、其中模型构建模块包括:
50、数据采集模块,用于采集若干用于模型训练的第一人员的特征数据作为第一特征数据;
51、预处理模块,连接数据采集模块,用于对第一人员的第一特征数据进行预处理获得第二特征数据;
52、筛选模块,连接预处理模块,用于根据第二特征数据筛选出预定采样时间点之前最近的第一预设时间段内具有过预定行为的第一人员作为第二人员;
53、样本确定模块,连接筛选模块,用于根据第二人员的第二特征数据将第二人员分成当前城市的驻留人员和非驻留人员;驻留人员的第二特征数据作为正样本,非驻留人员的第二特征数据作为负样本,将正样本和负样本组成样本数据集;
54、训练模块,连接样本确定模块,用于使用样本数据集对初始构建的驻留行为预测模型进行训练获得训练好的驻留行为预测模型。
55、本发明的有益技术效果在于:基于模型预测人员驻留当前城市的概率,无需信令信息,基于人员的多维数据,预测人员是否仍在当前城市驻留,进而辅助人员管理和疫情防控。
1.一种人员驻留行为概率预测方法,其特征在于,包括:
2.如权利要求1所述的一种人员驻留行为概率预测方法,其特征在于,所述人员行为数据包括所述预定行为的数据、出行数据以及住宿数据;
3.如权利要求1所述的一种人员驻留行为概率预测方法,其特征在于,所述人员属性数据包括:性别、年龄、房屋登记数据、居住证登记数据、户籍数据、车辆登记数据和社保数据。
4.如权利要求1所述的一种人员驻留行为概率预测方法,其特征在于,所述步骤a24包括:
5.如权利要求4所述的一种人员驻留行为概率预测方法,其特征在于,所述步骤a247之后还包括:
6.如权利要求1所述的一种人员驻留行为概率预测方法,其特征在于,在所述步骤a21之前,还包括:
7.如权利要求6所述的一种人员驻留行为概率预测方法,其特征在于,
8.如权利要求4所述的一种人员驻留行为概率预测方法,其特征在于,所述第一预设时间段和所述第二预设时间段相同。
9.如权利要求8所述的一种人员驻留行为概率预测方法,其特征在于,所述第一预设时间段为所述预设采样时间点之前的最近30天。
10.一种人员驻留行为概率预测系统,其特征在于,包括如权利要求1-9任意一项所述的一种人员驻留行为概率预测方法,包括: