本发明涉及数据配准,具体地说,涉及一种多源数据的批量采集方法、装置、设备及存储介质。
背景技术:
1、随着我国城镇化进程快速推进和移动互联网技术的普及应用,消费市场和生产要素的流动也越显强劲活力,也由此催生了大量游离于政府监督与管理的商户,特别是城中村、城乡结合部等区域。
2、现有技术对于商户的经营状态、用工情况、类别、数量和分布等关键信息的多源数据一般通过相关部门的人工核查以及商户自主上报来获得,并进行信息更新,但现有方案费时费力且更新周期长,数据获取不够全面,数据的准确性不高,且及时性不强,难以支撑政府部门实施精细有效的城市治理的需求,急需研发出适应现代快节奏、流动性强的商户采集与更新方法。
技术实现思路
1、为了解决上述问题,本发明提出一种多源数据的批量采集方法、装置、设备及存储介质,能够及时、准确、高效、全面的获取商户关键信息的多源数据。
2、本发明实施例提供一种多源数据的批量采集方法,所述方法包括:
3、调用数据接口获取目标区域的商户数据;
4、对所述商户数据进行空间化处理,将商户的地址信息统一转换至地址空间;
5、对所述地址空间中的地址信息进行标准化处理,确定商户的标准地址。
6、优选地,所述方法还包括:
7、将商户的标准地址和预先获取登记数据中对应的商户信息进行匹配,并根据匹配结果更新所述登记数据。
8、作为一种优选方案,所述将商户的标准地址和预存的登记数据中对应的商户信息进行匹配,并根据匹配结果更新所述登记数据,具体包括:
9、使用空间连接工具将已标准化处理的商户空间点数据图层与所述登记数据中的空间点数据图层进行空间关联匹配,并设置搜索范围作为地址容差;
10、将两个空间点数据图层的地址或商户名称不匹配的商户点数据从所述登记数据中删除;
11、将两个空间点数据图层的地址和商户名称均匹配的商户点数据保留。
12、作为一种优选方案,所述调用数据接口获取目标区域的商户数据,具体包括:
13、采用编写的数据采集脚本调用互联网平台的api数据接口,获取平台网站内所述目标区域的数据表单,所述数据表单包括商户信息和地图poi信息;
14、对获取的数据表单进行数据清洗,剔除非商户的数据和无关数据字段、统一格式,生成所述商户数据。
15、优选地,所述对所述商户数据进行空间化处理,将商户的地址信息统一转换至地址空间,具体包括:
16、将所述商户数据中的商户表单导入地理空间分析软件,基于所述商户数据中的经纬度字段信息将所述商户数据批量地转换为空间点数据。
17、作为一种优选方案,所述对所述地址空间中的地址信息进行标准化处理,确定商户的标准地址,具体包括:
18、根据所述地址信息在arcgis软件中加载所述目标区域的矢量面数据;
19、使用空间连接工具将预先加载的镇街字段信息和社区字段信息赋予在每个商户点数据上;
20、将所述商户数据的非标准地址字段信息重新解析成包含城市、区县、城镇、街道、以及门牌号码的标准化地址。
21、优选地,所述登记数据的获取过程具体包括:
22、获取所述目标区域内商户的工商等级信息表单,剔除敏感字段信息后,得到商户信息数据表单;
23、基于预建的标准地名地址数据库和地址匹配引擎,提取所述商户信息数据表单中的商户地址信息,利用正则表达式算法进行地址名称的模糊匹配,并落图到所匹配的地址的空间上,将空间化的商户数据图层进行统一的坐标转换。
24、本发明实施例还提供一种多源数据的批量采集装置,所述装置包括:
25、数据获取模块,用于调用数据接口获取目标区域的商户数据;
26、地址转换模块,用于对所述商户数据进行空间化处理,将商户的地址信息统一转换至地址空间;
27、地址标准化模块,用于对所述地址空间中的地址信息进行标准化处理,确定商户的标准地址。
28、优选地,所述装置还包括匹配模块,用于:
29、将商户的标准地址和预先获取登记数据中对应的商户信息进行匹配,并根据匹配结果更新所述登记数据。
30、进一步地,所述匹配模块具体用于:
31、使用空间连接工具将已标准化处理的商户空间点数据图层与所述登记数据中的空间点数据图层进行空间关联匹配,并设置搜索范围作为地址容差;
32、将两个空间点数据图层的地址或商户名称不匹配的商户点数据从所述登记数据中删除;
33、将两个空间点数据图层的地址和商户名称均匹配的商户点数据保留。
34、优选地,所述数据获取模块具体用于:
35、采用编写的数据采集脚本调用互联网平台的api数据接口,获取平台网站内所述目标区域的数据表单,所述数据表单包括商户信息和地图poi信息;
36、对获取的数据表单进行数据清洗,剔除非商户的数据和无关数据字段、统一格式,生成所述商户数据。
37、优选地,所述地址转换模块具体用于:
38、将所述商户数据中的商户表单导入地理空间分析软件,基于所述商户数据中的经纬度字段信息将所述商户数据批量地转换为空间点数据。
39、优选地,所述地址标准化模块具体用于:
40、根据所述地址信息在arcgis软件中加载所述目标区域的矢量面数据;
41、使用空间连接工具将预先加载的镇街字段信息和社区字段信息赋予在每个商户点数据上;
42、将所述商户数据的非标准地址字段信息重新解析成包含城市、区县、城镇、街道、以及门牌号码的标准化地址。
43、优选地,所述登记数据的获取过程具体包括:
44、获取所述目标区域内商户的工商等级信息表单,剔除敏感字段信息后,得到商户信息数据表单;
45、基于预建的标准地名地址数据库和地址匹配引擎,提取所述商户信息数据表单中的商户地址信息,利用正则表达式算法进行地址名称的模糊匹配,并落图到所匹配的地址的空间上,将空间化的商户数据图层进行统一的坐标转换。
46、本发明实施例还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的一种多源数据的批量采集方法。
47、本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项实施例所述的一种多源数据的批量采集方法。
48、本发明提供一种多源数据的批量采集方法、装置、设备及存储介质,通过调用数据接口获取目标区域的商户数据;对所述商户数据进行空间化处理,将商户的地址信息统一转换至地址空间;对所述地址空间中的地址信息进行标准化处理,确定商户的标准地址。能够及时、准确、高效、全面的获取商户关键信息的多源数据。