一种地块画像方法、装置、电子设备及计算机可读介质与流程

文档序号:31784788发布日期:2022-10-12 12:35阅读:53来源:国知局
一种地块画像方法、装置、电子设备及计算机可读介质与流程

1.本技术涉及智能城市技术领域,尤其涉及市域治理技术领域,具体涉及一种地块画像方法、装置、电子设备及计算机可读介质。


背景技术:

2.人们由于专业背景和业务需求的不同,对城市空间的区域划分方式和粒度会有较大的区别。可以直接采用行政区域的划分或者某一个路段的一定范围等划分方式,但不同需求所形成的地块,表征的方式是不同的。即使对应到一个建筑物作为一个地块,同样不能使用一个单一的类别来对地块进行标记。地块在不同的访问序列下,可能会有不同功能语义。比如,对于危化品行业,需要对危化品生产、存储、运输、使用、经营、处理六个环节进行监管,需要关注城市中所有与危化品相关的地块,并对相关地块进行功能划分,而同一地块在不同的场景下可能会有不同功能。地块的功能表征的准确划分对危化品相关行业监管具有重要意义。城市地块功能具有时空属性和复杂性,在不同时间段会具有独特的、多个维度的表征。通过人工操作的方式对地块的功能进行标注,需要专家对多个维度进行打分标注,需要较高成本。
3.在实现本技术过程中,发明人发现现有技术中至少存在如下问题:
4.通过人工操作的方式对地块的功能进行标注,需要专家对地块的多个维度进行打分标注,成本高,效率及准确率低。


技术实现要素:

5.有鉴于此,本技术实施例提供一种地块画像方法、装置、电子设备及计算机可读介质,能够解决现有的通过人工操作的方式对地块的功能进行标注,需要专家对地块的多个维度进行打分标注,成本高,效率及准确率低的问题。
6.为实现上述目的,根据本技术实施例的一个方面,提供了一种地块画像方法,包括:
7.获取轨迹数据和轨迹数据对应的标识信息;
8.根据轨迹数据,生成驻留点序列;
9.将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列;
10.基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征;
11.基于各时空特征,生成地块访问序列中各地块的地块画像。
12.可选地,生成驻留点序列包括:
13.根据轨迹数据,确定车辆驻留位置和驻留时长;
14.根据车辆驻留位置和驻留时长,生成驻留点序列。
15.可选地,在基于预设的目标维度对地块访问序列进行特征提取之前,方法还包括:
16.对地块访问序列基于自然日或驻留时长进行划分,以得到各子地块访问序列;以

17.基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征,包括:
18.分别基于时间维度和空间维度对各子地块访问序列进行特征提取,以生成对应各标识信息的时间特征和空间特征。
19.可选地,基于各时空特征,生成地块访问序列中各地块的地块画像,包括:
20.对于地块访问序列中的每一个地块,确定对应的标识信息,进而调用深度学习网络模型中的预训练特征提取模块,以基于地块访问序列中的每一个地块对应的标识信息对应的时空特征,生成地块访问序列中各地块的地块画像。
21.可选地,生成地块访问序列中各地块的地块画像,包括:
22.对于每一个地块访问序列,从中选取一个地块作为锚点;
23.筛选经过锚点的地块访问序列,进而从经过锚点的地块访问序列中确定目标地块访问序列;
24.获取目标地块访问序列对应的时空特征,进而基于目标地块访问序列对应的时空特征、目标地块访问序列中的锚点位置、锚点以及锚点所在的地块访问序列的时空特征,生成锚点对应的地块的地块画像。
25.可选地,从经过锚点的地块访问序列中确定目标地块访问序列,包括:
26.确定经过锚点的地块访问序列的长度和锚点位置;
27.基于长度和锚点位置,从经过锚点的地块访问序列中确定出目标地块访问序列。
28.可选地,在调用深度学习网络模型中的预训练特征提取模块之前,方法还包括:
29.获取初始神经网络模型;
30.获取训练样本集,训练样本集包括基于空间特征的相似样本对、基于时间特征的相似样本对、基于空间特征的相似样本对所对应的空间锚点对、基于时间特征的相似样本对所对应的时间锚点对、标注的空间锚点对的第一距离、标注的时间锚点对的第二距离和标注的地块画像;
31.将基于空间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于空间特征的相似样本对所对应的空间锚点对和第一距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;
32.将基于时间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于时间特征的相似样本对所对应的时间锚点对和第二距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;
33.分别将空间锚点对、时间锚点对、第一距离、第二距离作为初始神经网络模型的线性层的输入,将表述的地块画像作为线性层的期望输出,对初始神经网络模型进行训练,进而通过损失函数进行优化,以得到深度学习网络模型中的预训练特征提取模块。
34.另外,本技术还提供了一种地块画像装置,包括:
35.接收单元,被配置成获取轨迹数据和轨迹数据对应的标识信息;
36.驻留点序列生成单元,被配置成根据轨迹数据,生成驻留点序列;
37.地块访问序列生成单元,被配置成将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列;
38.时空特征生成单元,被配置成基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征;
39.地块画像生成单元,被配置成基于各时空特征,生成地块访问序列中各地块的地块画像。
40.可选地,驻留点序列生成单元进一步被配置成:
41.根据轨迹数据,确定车辆驻留位置和驻留时长;
42.根据车辆驻留位置和驻留时长,生成驻留点序列。
43.可选地,装置还包括序列划分单元,被配置成:
44.对地块访问序列基于自然日或驻留时长进行划分,以得到各子地块访问序列;以及
45.时空特征生成单元进一步被配置成:
46.分别基于时间维度和空间维度对各子地块访问序列进行特征提取,以生成对应各标识信息的时间特征和空间特征。
47.可选地,地块画像生成单元进一步被配置成:
48.对于地块访问序列中的每一个地块,确定对应的标识信息,进而调用深度学习网络模型中的预训练特征提取模块,以基于地块访问序列中的每一个地块对应的标识信息对应的时空特征,生成地块访问序列中各地块的地块画像。
49.可选地,地块画像生成单元进一步被配置成:
50.对于每一个地块访问序列,从中选取一个地块作为锚点;
51.筛选经过锚点的地块访问序列,进而从经过锚点的地块访问序列中确定目标地块访问序列;
52.获取目标地块访问序列对应的时空特征,进而基于目标地块访问序列对应的时空特征、目标地块访问序列中的锚点位置、锚点以及锚点所在的地块访问序列的时空特征,生成锚点对应的地块的地块画像。
53.可选地,地块画像生成单元进一步被配置成:
54.确定经过锚点的地块访问序列的长度和锚点位置;
55.基于长度和锚点位置,从经过锚点的地块访问序列中确定出目标地块访问序列。
56.可选地,地块画像装置还包括模型训练单元,被配置成:
57.获取初始神经网络模型;
58.获取训练样本集,训练样本集被配置成基于空间特征的相似样本对、基于时间特征的相似样本对、基于空间特征的相似样本对所对应的空间锚点对、基于时间特征的相似样本对所对应的时间锚点对、标注的空间锚点对的第一距离、标注的时间锚点对的第二距离和标注的地块画像;
59.将基于空间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于空间特征的相似样本对所对应的空间锚点对和第一距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;
60.将基于时间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于时间特征的相似样本对所对应的时间锚点对和第二距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;
61.分别将空间锚点对、时间锚点对、第一距离、第二距离作为初始神经网络模型的线性层的输入,将表述的地块画像作为线性层的期望输出,对初始神经网络模型进行训练,进而通过损失函数进行优化,以得到深度学习网络模型中的预训练特征提取模块。
62.另外,本技术还提供了一种数据处理电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的地块画像方法。
63.另外,本技术还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的地块画像方法。
64.上述发明中的一个实施例具有如下优点或有益效果:本技术通过获取轨迹数据和轨迹数据对应的标识信息;根据轨迹数据,生成驻留点序列;将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列;基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。通过基于预设的目标维度对地块访问序列进行特征提取,生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。基于得到的地块画像,可以辅助城市区域细粒度管理,对检测特种物质运输、区域间流转的异常、危险区域预警、区域精准广告投放、交通流量分析和城市规划提供支持,从而提高对地块的多个维度进行打分标注的效率及准确率,减少了人力参与,降低了数据处理成本。
65.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
66.附图用于更好地理解本技术,不构成对本技术的不当限定。其中:
67.图1是根据本技术第一实施例的地块画像方法的主要流程的示意图;
68.图2是根据本技术第二实施例的地块画像方法的主要流程的示意图;
69.图3是根据本技术第三实施例的地块画像方法的应用场景示意图;
70.图4a、4b、4c分别是根据本技术实施例的地块画像方法的基于时间的轨迹样本对、基于空间的轨迹样本对和混合轨迹样本对示意图;
71.图5是根据本技术实施例的地块画像方法的预训练模型框架示意图;
72.图6是根据本技术实施例的地块画像装置的主要单元的示意图;
73.图7是本技术实施例可以应用于其中的示例性系统架构图;
74.图8是适于用来实现本技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
75.以下结合附图对本技术的示范性实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
76.图1是根据本技术第一实施例的地块画像方法的主要流程的示意图,如图1所示,地块画像方法包括:
77.步骤s101,获取轨迹数据和轨迹数据对应的标识信息。
78.本实施例中,地块画像方法的执行主体(例如,可以是服务器)可以通过有线连接或无线连接的方式,获取轨迹数据和该轨迹数据对应的标识信息。轨迹数据,例如可以是车辆行驶过程中的轨迹数据,轨迹数据对应的标识信息,例如可以是与获取的轨迹数据相对应的车辆的车牌号信息、车主姓名信息等,每一条标识信息可以对应一个车辆。数据处理请求,具体可以是获取目标地块的功能的请求。目标地块,可以是车辆行驶轨迹所经过的地块。示例的,如图4a、图4b、图4c中的各圆点所示,图中的各圆点即可以为目标地块。
79.步骤s102,根据轨迹数据,生成驻留点序列。
80.执行主体可以从轨迹数据中提取标识信息、车辆驻留位置和驻留时间区间(也即驻留时长)。车辆的驻留点序列包括标识信息、车辆驻留位置、驻留时间区间。示例的,驻留点序列可以为a宾馆(a车辆,上午10:00-上午10:02,驻留2分钟)-b加油站(a车辆,上午10:10-上午10:15,驻留5分钟)-c学校-d图书馆(a车辆,上午11:00-下午13:00,驻留2小时)。
81.步骤s103,将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列。
82.预设的地块信息,例如可以为预设的社区范围。社区范围包括社区随着时间的变化范围和社区空间区域范围。首先,执行主体需要将驻留点序列对应的驻留位置与社区范围进行匹配。根据驻留的时间先后次序,转换为车辆对各个社区范围所对应的地块的访问序列,即地块访问序列,示例的,地块访问序列可以为:a地块(a车辆,上午10:00-上午10:02,驻留2分钟)-b地块(a车辆,上午10:10-上午10:15,驻留5分钟)-c地块-d地块(a车辆,上午11:00-下午13:00,驻留2小时)。
83.步骤s104,基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征。
84.预设的目标维度,例如时间维度、空间维度等。基于预设的目标维度对地块访问序列进行特征提取,具体可以是分别基于时间维度和空间维度对地块访问序列进行特征提取,以生成对应各标识信息的时间特征和空间特征,简称为时空特征。每一条标识信息可以对应一个车辆,如果在地块访问序列中,同一地块同时有多个车辆进行访问,则标识信息的条数为多条。
85.具体地,在基于预设的目标维度对地块访问序列进行特征提取之前,地块画像方法还包括:
86.对地块访问序列基于自然日或驻留时长进行划分,以得到各子地块访问序列。
87.示例的,对地块访问序列进行切分,划分为不定长度的序列,即划分得到各子地块访问序列。划分方式有多种。具体划分方式如下:
88.1)按照自然日划分,以每天04:00作为分界点,每天04:00至第二日的04:00期间的形成的序列作为一条样本。以时间为划分依据,人群出行的需求是大部分是以天为最小周期的。以天划分,可以得到一个完整出行周期的子地块访问序列。
89.2)按照长时驻留点划分,统计所有驻留时长。设定驻留时长、驻留频次等维度的阈值。通过找到频繁的长时驻留点,作为切分轨迹的节点。以空间作为划分依据,结合人群出行时长和不同的出行时间点,当人群经过某些特定的地块时,切分地块访问序列,得到各子
地块访问序列。
90.通过对访问地块的序列进行切分,每一个子地块访问序列作为一个样本。最后,进行时间片划分。
91.本技术实施例中,基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征,包括:
92.分别基于时间维度和空间维度对各子地块访问序列进行特征提取,以生成对应各标识信息的时间特征和空间特征。
93.具体可以是,将各子地块访问序列中同一时间对应的特征进行提取,以得到各子地块访问序列对应的各标识信息的时间特征。示例的,各子地块访问序列对应的各标识信息的时间特征,可以包括相近时间具有相似轨迹的车辆对应的标识信息、驻留时长、访问行为等特征;将各子地块访问序列中同一空间对应的特征进行提取,以得到各子地块访问序列对应的各标识信息对应的空间特征。示例的,很多车从餐厅经过,经过同一个餐厅的车辆的标识信息、驻留时长、访问行为等特征即为提取到的空间特征。
94.步骤s105,基于各时空特征,生成地块访问序列中各地块的地块画像。
95.执行主体基于提取到的各标识信息对应的时空特征,对对应的每一个地块执行画像构造,将每一个地块在同一时间点经过的车辆、驻留时长、访问行为等特征作为每一个地块的地块画像的构成部分;并结合空间特征,得到预设时间段内经过同一地块的车辆、驻留时长、访问行为等特征,进而作为每一个地块的地块画像的补充进一步完善地块画像,最终生成地块访问序列中各地块的地块画像。地块画像,具体可以表征地块的车辆运输物质类型、车辆流转情况、地块危险程度、交通流量等信息。
96.本实施例通过获取轨迹数据和轨迹数据对应的标识信息;根据轨迹数据,生成驻留点序列;将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列;基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。通过基于预设的目标维度对地块访问序列进行特征提取,生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。基于得到的地块画像,可以辅助城市区域细粒度管理,对检测特种物质运输、区域间流转的异常、危险区域预警、区域精准广告投放、交通流量分析和城市规划提供支持,从而提高对地块的多个维度进行打分标注的效率及准确率,减少了人力参与,降低了数据处理成本。
97.图2是根据本技术第二实施例的地块画像方法的主要流程示意图,如图2所示,地块画像方法包括:
98.步骤s201,获取轨迹数据和轨迹数据对应的标识信息。
99.步骤s202,根据轨迹数据,确定车辆驻留位置和驻留时长。
100.步骤s203,根据车辆驻留位置和驻留时长,生成驻留点序列。
101.具体地,执行主体可以将车辆驻留位置和驻留时长信息封装于驻留点中,将车辆的每一个驻留位置和对应的驻留时长封装于一个驻留点中,进而依照时间顺序生成驻留点序列。
102.步骤s204,将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列。
103.步骤s205,基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标
识信息的时空特征。
104.步骤s206,对于地块访问序列中的每一个地块,确定对应的标识信息,进而调用深度学习网络模型中的预训练特征提取模块,以基于地块访问序列中的每一个地块对应的标识信息对应的时空特征,生成地块访问序列中各地块的地块画像。
105.具体地,生成地块访问序列中各地块的地块画像,包括:
106.对于每一个地块访问序列,从中选取一个地块作为锚点;对于每一个地块访问序列,可以从一条地块访问序列中随意选取一个地块作为锚点。进而该选取的锚点可以表征这一整条地块访问序列。锚点的位置就是一个地块访问序列中的某一个地块的位置。
107.然后,执行主体筛选经过锚点的地块访问序列,进而从经过锚点的地块访问序列中确定目标地块访问序列;执行主体在选取锚点后,可以筛选经过该锚点的地块访问序列,从而可以确定出与该锚点所处的地块访问序列存在交集的地块访问序列有哪些,从而可以确定出锚点所处的地块访问序列与哪些地块访问序列存在相似的可能,从而可以丰富锚点所对应的地块的地块画像。目标地块访问序列可以是经过该锚点的地块访问序列中的地块数量超出阈值的地块访问序列,也就是说当经过该锚点的地块访问序列中的地块的数量达到一定数量后才可以作为目标地块访问序列,用以丰富锚点所对应的地块的地块画像。
108.获取目标地块访问序列对应的时空特征,进而基于目标地块访问序列对应的时空特征、目标地块访问序列中的锚点位置、锚点以及锚点所在的地块访问序列的时空特征,生成锚点对应的地块的地块画像。
109.具体地,从经过锚点的地块访问序列中确定目标地块访问序列,包括:
110.确定经过锚点的地块访问序列的长度和锚点位置;
111.基于长度和锚点位置,从经过锚点的地块访问序列中确定出目标地块访问序列。
112.执行主体可以首先确定锚点o所处的地块访问序列的长度l1和位置p1,然后执行主体可以确定经过锚点o的地块访问序列的长度和锚点位置,然后,执行主体可以将经过锚点o的各地块访问序列的长度(例如l2、l3、l4
……
)和锚点位置(p2、p3、p4
……
)中与锚点o所处的地块访问序列的长度l1和位置p1相似的地块访问序列确定为目标地块访问序列。也就是说,目标地块访问序列(例如s1、s2)的长度和锚点位置与当前锚点o所处的地块访问序列的长度l1和锚点位置p1相近,此处的“相近”指的是序列长度之差小于预设的长度阈值,锚点位置之差小于预设的距离阈值。
113.具体地,在调用深度学习网络模型中的预训练特征提取模块之前,地块画像方法还包括:
114.获取初始神经网络模型,例如可以是transformer模型,也可以是rnn、lstm、tcn等模型,本技术实施例对模型的具体类型不做限定。
115.获取训练样本集,训练样本集包括基于空间特征的相似样本对、基于时间特征的相似样本对、基于空间特征的相似样本对所对应的空间锚点对、基于时间特征的相似样本对所对应的时间锚点对、标注的空间锚点对的第一距离、标注的时间锚点对的第二距离和标注的地块画像;
116.将基于空间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于空间特征的相似样本对所对应的空间锚点对和第一距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;
117.将基于时间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于时间特征的相似样本对所对应的时间锚点对和第二距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;
118.分别将空间锚点对、时间锚点对、第一距离、第二距离作为初始神经网络模型的线性层的输入,将表述的地块画像作为线性层的期望输出,对初始神经网络模型进行训练,进而通过损失函数进行优化,以得到深度学习网络模型中的预训练特征提取模块。
119.示例的,获取训练样本集时,具体可以为对时空样本对进行构造。经过数据预处理,获得训练样本,对比学习样本构造主要基于序列数据通过时间、空间两个维度构造对比样本。
120.基于空间的构造方式为:选取同一个地块所处地块访问的序列构成候选集,通过生成序列的车辆、序列长度等维度的相似度进行匹配,生成相似的样本对。同时,要限制构成相似样本对的两条样本的相似程度,如果两条样本的相似度过高,对训练没有意义,需要过滤掉样本。构造示例如图4b基于空间构造方式所示,两个序列e节点为锚点,标注为驻留时间段,具体步骤如下:
121.选择任意一地块ld(即地块标识,例如可以是地块编号)作为锚点,并筛选经过地块ld的所有地块样本的序列s。
122.根据样本序列的长度、锚点ld所在序列的序数作为特征,设置阈值v,当达到阈值v认为两个样本可以构成相似样本对,构成候选集sn。
123.对候选集sn中的两个样本分别组成地块序列,计算最长相似子序列。设置阈值w,当相似度高于阈值w时,候选集sn清除此对比样本对。
124.候选集sn为最终构造的相似对比样本空间。如图4b所示,即为构造的相似对比样本空间,即基于空间特征的相似样本对。
125.基于时间的构造方式为:根据车辆出行的潮汐性进行基于时间特征的相似样本对构造。同类型的车辆(除公交车这类规定路线车辆)构成的访问地块序列具有相似的语义。根据时间维度的相似性构造具有多种方式。主要有以下方法:同一车辆的不同序列、两个序列中的两个地块访问的时间段相近且轨迹具有较高的相似度(如访问地块的停留时间相近)以及两个样本序列中访问各个地块的行为相似度较高等。构造样例如图4a所示,图4a中09:32-10:03、12:01-12:28、14:11-14:55、16:48-17:55为以f为锚点的车辆驻留点序列的驻留时间段。08:51-09:29、13:56-15:14、18:06-18:14为以g为锚点的车辆驻留点序列的驻留时间段。图4a中两个序列f、g节点为锚点。
126.作为本技术实施例的另一种实现方式,训练样本集还可以同时结合时间、空间两个维度,对相似对比样本进行构造。构造示例如图4c所示,两个序列的e节点为锚点,标注为驻留时间段,具体步骤如下:
127.选择任意一地块ld作为锚点,并筛选经过该地块ld的所有地块样本的序列s。
128.通过访问地块ld的时间区间,对地块样本的序列s进行划分。访问时间区间相近的序列,划分到相似序列的候选集。
129.根据样本序列的长度、锚点ld所在序列的序数作为特征,设置阈值v,当达到阈值v时认为两个样本可以构成相似样本对,构成候选集sn。
130.对候选集sn中的两个样本分别组成地块序列,计算最长相似子序列。设置阈值w,
当相似度高于阈值w时,候选集sn清除此对比样本对。
131.候选集sn为最终构造的基于时空特征的相似样本对。
132.执行主体可以将基于时空的相似样本对输入至初始神经网络模型,将标记的锚点对应的地块画像作为期望输出,以对初始神经网络模型进行训练,最终得到深度学习网络模型中的预训练特征提取模块。
133.可以理解的是,深度学习网络模型中的预训练特征提取模块的本质就是将输入的地块访问序列基于时间特征和空间特征进行聚类,拉近相似地块访问序列的锚点在模型空间中的距离,对不相似的地块访问序列的锚点增大在空间中的距离。从而,通过聚类生成输入的地块访问序列的锚点对应的地块画像。地块r的地块画像,用于表征地块r在时间段r的每一个时间点接受访问的标识信息、车辆驻留时长、车辆访问行为等信息。
134.在获取到训练样本集后,可以执行模型训练进程。具体为:
135.当执行主体构造了可以用于自监督对比学习的样本,即基于空间特征的相似样本、基于空间特征的相似样本,则可以对模型进行训练。本技术实施例是对序列模型进行建模,选择transformer框架结构对地块的表征进行预训练。
136.预训练模型框架如图5所示:其中,输入部分为p
a1
,p
a2

……
,p
ax

……
,p
an
和p
b1
,p
b2

……
,p
by

……
,p
bm
为输入的两条样本数据,p表示序列中的地块,右上角标为地块p在样本序列中的序数,右下角标为序列编号。两个序列a,b的长度分别为n,m,锚点分别为x,y位置的地块。模型部分为编码转换层(transformer encoding层)和线性层(linear层,即linear layer),transformer的部分可以根据模型实际情况进行堆叠n层,对模型进行调优。图5中左右两个部分的transformer结构相同且共用参数。初始的地块编码经过n层的transformer,输出为与输入序列等长的序列,a,b两个序列的维度分别为n*d和m*d。选取锚点x,y的表征分别通过线性层,输出最终地块表征,得到地块画像。最后,通过loss损失函数进行优化。对相似样本拉近在模型空间中的距离,对负样本增大空间中的距离。损失函数可以选择平方和损失函数、hinge损失函数等损失函数。
137.模型经过预训练之后,可以用于模型推理,具体可以去除线性层linear层,并冻结预训练transformer部分的参数。结合下游任务特性,设计下游网络结构,可以使用小样本对下游网络进行微调。经过微调后,可以对具体的下游任务进行预测。构建了一种基于轨迹序列的自监督对比的地块画像预训练方式,解决了地块划分标签少,难以训练大规模模型的问题。可以获得同一地块在不同时间和访问序列下的功能表征和分类,可以为下游任务提供更稳定和通用的地块表征。
138.图3是根据本技术第三实施例的地块画像方法的应用场景示意图。本技术实施例的地块画像方法,应用于同一地块在不同时间和访问序列下的功能表征和分类的场景。本技术实施例中,poi:point of interest兴趣点;aoi:area of interest兴趣面;od:轨迹的起点和终点;loss:损失函数。城市地块是对城市进行区域划分得到的空间范围。根据下游任务和不同需求,地块的空间粒度的划分会有所区别。对地块的功能主要体现在地块内的poi的类别的构成和数量,并且同类别的不同poi具有其独特的性质。对城市地块进行分类和标注复杂且相对难以对不同维度进行量化。而人和车辆的od(起终点)和驻留点与城市地块具有极高的相关性。在生态学中,粒度包括空间粒度和时间粒度,空间粒度表示研究区空间最小可辨识单元所代表的特征长度、面积或者体积,比如研究区影像的栅格像元、样本样
方等;时间粒度指研究的某一对象或事件发生(或取样)的频率或时间间隔。
139.本技术实施例使用车辆od序列或者轨迹(需要预处理为驻留点序列)对地块进行分类和画像标注。方法框架如图3所示,建模流程为数据预处理,模型训练,模型推理。最终输出为地块的嵌入表示,即地块画像,可以用于支持区域推荐、城市规划、异常检测、交通流量等下游任务。具体地,如图3所示,首先获取轨迹数据。轨迹数据主要包括车辆驻留点序列、社区区域范围等。对轨迹数据进行数据预处理得到驻留点序列,然后将得到的驻留点序列输入深度学习网络模型中的预训练特征提取模块,以输出地块画像。数据预处理包括将输入数据中的驻留位置与社区进行匹配,根据驻留的时间先后次序,转换为车辆对各个地块的访问序列,进一步,对访问地块的序列进行切分,划分为不定长度的序列。可以获得同一地块在不同时间和访问序列下的功能表征和分类,可以为下游任务提供更稳定和通用的地块表征。
140.图6是根据本技术实施例的地块画像装置的主要单元的示意图。如图6所示,地块画像装置600包括接收单元601、驻留点序列生成单元602、地块访问序列生成单元603、时空特征生成单元604和地块画像生成单元605。
141.接收单元601,被配置成获取轨迹数据和轨迹数据对应的标识信息。
142.驻留点序列生成单元602,被配置成根据轨迹数据,生成驻留点序列。
143.地块访问序列生成单元603,被配置成将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列。
144.时空特征生成单元604,被配置成基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征。
145.地块画像生成单元605,被配置成基于各时空特征,生成地块访问序列中各地块的地块画像。
146.在一些实施例中,驻留点序列生成单元602进一步被配置成:根据轨迹数据,确定车辆驻留位置和驻留时长;根据车辆驻留位置和驻留时长,生成驻留点序列。
147.在一些实施例中,装置还包括图6中未示出的序列划分单元,被配置成:对地块访问序列基于自然日或驻留时长进行划分,以得到各子地块访问序列;以及时空特征生成单元进一步被配置成:分别基于时间维度和空间维度对各子地块访问序列进行特征提取,以生成对应各标识信息的时间特征和空间特征。
148.在一些实施例中,地块画像生成单元605进一步被配置成:对于地块访问序列中的每一个地块,确定对应的标识信息,进而调用深度学习网络模型中的预训练特征提取模块,以基于地块访问序列中的每一个地块对应的标识信息对应的时空特征,生成地块访问序列中各地块的地块画像。
149.在一些实施例中,地块画像生成单元605进一步被配置成:对于每一个地块访问序列,从中选取一个地块作为锚点;筛选经过锚点的地块访问序列,进而从经过锚点的地块访问序列中确定目标地块访问序列;获取目标地块访问序列对应的时空特征,进而基于目标地块访问序列对应的时空特征、目标地块访问序列中的锚点位置、锚点以及锚点所在的地块访问序列的时空特征,生成锚点对应的地块的地块画像。
150.在一些实施例中,地块画像生成单元605进一步被配置成:确定经过锚点的地块访问序列的长度和锚点位置;基于长度和锚点位置,从经过锚点的地块访问序列中确定出目
标地块访问序列。
151.在一些实施例中,地块画像装置还包括图6中未示出的模型训练单元,被配置成:获取初始神经网络模型;获取训练样本集,训练样本集被配置成基于空间特征的相似样本对、基于时间特征的相似样本对、基于空间特征的相似样本对所对应的空间锚点对、基于时间特征的相似样本对所对应的时间锚点对、标注的空间锚点对的第一距离、标注的时间锚点对的第二距离和标注的地块画像;将基于空间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于空间特征的相似样本对所对应的空间锚点对和第一距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;将基于时间特征的相似样本对作为初始神经网络模型的编码转换层的输入,将基于时间特征的相似样本对所对应的时间锚点对和第二距离作为初始神经网络模型的编码转换层的期望输出,对初始神经网络模型进行自监督训练;分别将空间锚点对、时间锚点对、第一距离、第二距离作为初始神经网络模型的线性层的输入,将表述的地块画像作为线性层的期望输出,对初始神经网络模型进行训练,进而通过损失函数进行优化,以得到深度学习网络模型中的预训练特征提取模块。
152.需要说明的是,在本技术地块画像方法和地块画像装置在具体实施内容上具有相应关系,故重复内容不再说明。
153.图7示出了可以应用本技术实施例的地块画像方法或地块画像装置的示例性系统架构700。
154.如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
155.用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
156.终端设备701、702、703可以是具有数据处理屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
157.服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所提交的数据处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以获取轨迹数据和轨迹数据对应的标识信息;根据轨迹数据,生成驻留点序列;将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列;基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。通过基于预设的目标维度对地块访问序列进行特征提取,生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。基于得到的地块画像,可以辅助城市区域细粒度管理,对检测特种物质运输、区域间流转的异常、危险区域预警、区域精准广告投放、交通流量分析和城市规划提供支持,从而提高对地块的多个维度进行打分标注的效率及准确率,减少了人力参与,降低了数据处理成本。
158.需要说明的是,本技术实施例所提供的地块画像方法一般由服务器705执行,相应地,地块画像装置一般设置于服务器705中。
159.应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需
要,可以具有任意数目的终端设备、网络和服务器。
160.下面参考图8,其示出了适于用来实现本技术实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
161.如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中,还存储有计算机系统800操作所需的各种程序和数据。cpu801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
162.以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶征信授权查询处理器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
163.特别地,根据本技术公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本技术的系统中限定的上述功能。
164.需要说明的是,本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
165.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个
用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
166.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、驻留点序列生成单元、地块访问序列生成单元、时空特征生成单元和地块画像生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
167.作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备获取轨迹数据和轨迹数据对应的标识信息;根据轨迹数据,生成驻留点序列;将驻留点序列与预设的地块信息进行匹配,进而生成地块访问序列;基于预设的目标维度对地块访问序列进行特征提取,以生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。
168.根据本技术实施例的技术方案,通过基于预设的目标维度对地块访问序列进行特征提取,生成对应各标识信息的时空特征;基于各时空特征,生成地块访问序列中各地块的地块画像。基于得到的地块画像,可以辅助城市区域细粒度管理,对检测特种物质运输、区域间流转的异常、危险区域预警、区域精准广告投放、交通流量分析和城市规划提供支持,从而提高对地块的多个维度进行打分标注的效率及准确率,减少了人力参与,降低了数据处理成本。
169.上述具体实施方式,并不构成对本技术保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等,均应包含在本技术保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1