本发明涉及数据处理技术领域,具体涉及一种预测企业存在地址位置变更却未及时工商备案的方法及系统。
背景技术:
随着互联网的崛起,网络的应用变得越来越普遍,且网络中包含有大量的信息,方便了人们信息的查找。
现如今越来越多的企业将其招聘渠道由以往的线下招聘方式调整为线下线上并行招聘的方式,甚至有部分企业将其招聘渠道只保留了线上招聘,而不再进行线下招聘,因此,这也使得互联网上具有大量的企业信息。
企业在发展过程中,由于人员的增加、单位的扩张,使得企业可能会变动工作地址,但还可能会存在企业虽然变更了工作地址,却并没有像工商总局进行备案的情况,这使得企业信息存在一定的不确定性。
由于互联网信息的快速更新,将更加有利于获得更新的相关信息,因此,根据互联网上企业发布的招聘数据信息,将能够进行企业地址信息的识别判断,方便确定企业是否存在地址位置变更却未及时工商总局备案的情况。
因此,如何提供一种能够有效获取网上企业招聘信息并分析提取,同时能够根据工商总局备案信息进行判断企业信息是否存在变更的方法和系统就成为了亟待解决的问题。
技术实现要素:
本发明提供了一种预测企业存在地址位置变更却未及时工商备案的方法及系统,基于互联网上有效的招聘数据信息,并结合企业于工商总局的备案数据信息,通过对比分析,对存在企业地址位置变更却未及时工商总局备案的情况进行判断并预警。
本发明的第一部分提供了一种预测企业存在地址位置变更却未及时工商备案的方法,包括以下步骤:
S1、采用静态下载方式,自工商局备案信息资源系统中爬取最新企业备案信息,并构建企业备案信息库;
S2、采用静态下载方式,自互联网中爬取企业最新招聘数据信息,并构建招聘信息资源库;
S3、确定待检验企业,并自企业备案信息库中获取待检验企业的第一地址信息,自招聘信息资源库中获取待检验企业的第二地址信息;
S4、将第一地址信息和第二地址信息转换为经纬度坐标;
S5、计算第一地址信息和第二地址信息转换的经纬度坐标的坐标差;
S6、根据坐标差判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况,并确定是否进行预警。
优选的,S1中,爬取最新企业备案信息包括以下步骤:
S11、抓取自工商局备案信息资源系统中关于企业备案信息的第一HTML信息;
S12、通过Python捕捉第一HTML信息中的第一链接信息;
S13、利用R语言对第一链接信息进行数据清洗。
优选的,S2中,爬取最新招聘数据信息包括以下步骤:
S21、抓取互联网中关于企业招聘信息的第二HTML信息;
S22、通过Python捕捉第二HTML信息中的第二链接信息;
S23、利用R语言对第二链接信息进行数据清洗。
优选的,最新企业备案信息中包括企业社会信用代码、企业名称、企业备案住所和信息抓取时间;最新招聘数据信息中包括企业名称、企业发布住所和信息发布时间。
优选的,S4中,第一地址信息和第二地址信息通过百度API转换为经纬度坐标。
优选的,S6中,当坐标差≥10''时,则判断待检验企业存在企业地址位置变更却未及时工商备案的情况,并进行预警;
当坐标差<10''时,则判断待检验企业不存在企业地址位置变更却未及时工商备案的情况,不进行预警。
本发明的第二部分提供了一种预测企业存在地址位置变更却未及时工商备案的系统,包括:
企业备案信息库构建服务器,其连接工商局备案信息资源系统,并自工商局备案信息资源系统中爬取最新企业备案信息来构建企业备案信息库;
招聘信息资源库构建服务器,其连接互联网,并自互联网中爬取企业最新招聘数据信息来构建招聘信息资源库;
经纬度转换单元,经纬度转换单元分别自企业备案信息库构建服务器和招聘信息资源库构建服务器中获取待检验企业的第一地址信息和第二地址信息,并将第一地址信息和第二地址信息分别转换为经纬度坐标;
住所检验服务器,根据第一地址信息和第二地址信息转换的经纬度坐标的坐标差判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况;
预警单元,根据判断的待检验企业是否存在企业地址位置变更却未及时工商备案的情况的结果,确定是否进行预警。
优选的,企业备案信息库构建服务器包括:
企业备案信息获取单元,其用于抓取自工商局备案信息资源系统中关于企业备案信息的第一HTML信息;
备案信息处理单元,其用于通过Python捕捉第一HTML信息中的第一链接信息;
备案信息清洗单元,其用于利用R语言对第一链接信息进行数据清洗。
优选的,招聘信息资源库构建服务器包括:
招聘信息获取单元,其用于抓取互联网中关于企业招聘息的第二HTML信息;
招聘信息处理单元,其用于通过Python捕捉所述第二HTML信息中的第二链接信息;
招聘信息清洗单元,其用于利用R语言对所述第二链接信息进行数据清洗。
优选的,经纬度转换单元采用百度API转换芯片,并将第一地址信息和第二地址信息转换为经纬度坐标。
优选的,住所检验服务器包括:
坐标差计算单元,其用于计算第一地址信息和第二地址信息转换的经纬度坐标的坐标差;
地址检验单元,根据坐标差判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况。
优选的,地址检验单元判断:
当坐标差≥10''时,则判断待检验企业存在企业地址位置变更却未及时工商备案的情况;
当坐标差<10''时,则判断待检验企业不存在企业地址位置变更却未及时工商备案的情况。
进一步优选的,预警单元判断:
当所述坐标差≥10''时,则进行预警;
当所述坐标差<10''时,则不进行预警。
本发明的预测企业存在地址位置变更却未及时工商备案的方法及系统,通过爬取互联网上企业发布的招聘数据信息,并与爬取的工商总局的备案信息进行比较,能够有效的确定企业是否存在地址变更却未向工商总局进行备案,更加有效的实现企业信息的识别判断,并针对存在问题的企业进行预警。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明预测企业存在地址位置变更却未及时工商备案的方法的一个实施例的流程图。
图2为本发明预测企业存在地址位置变更却未及时工商备案的方法的一个实施例的爬取最新企业备案信息的流程图。
图3为本发明预测企业存在地址位置变更却未及时工商备案的方法的一个实施例的爬取最新招聘数据信息的流程图。
图4为本发明预测企业存在地址位置变更却未及时工商备案的系统的一个实施例的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明预测企业存在地址位置变更却未及时工商备案的方法的一个实施例的流程图,如图1所示,本实施例中,预测企业存在地址位置变更却未及时工商备案的方法,包括以下步骤:
S1、采用静态下载方式,自工商局备案信息资源系统中爬取最新企业备案信息,并构建企业备案信息库;
S2、采用静态下载方式,自互联网中爬取企业最新招聘数据信息,并构建招聘信息资源库;
S3、确定待检验企业,并自企业备案信息库中获取待检验企业的第一地址信息,自招聘信息资源库中获取待检验企业的第二地址信息;
S4、将第一地址信息和第二地址信息转换为经纬度坐标;
S5、计算第一地址信息和第二地址信息转换的经纬度坐标的坐标差;
S6、根据坐标差判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况,并确定是否进行预警。
具体的,S1中通过采用静态下载的方式,连接工商局备案信息资源系统,并从其中爬取最新企业备案信息,并整合所爬取的最新企业备案信息,以此来构建企业备案信息库。
进一步的,如图2所示的爬取最新企业备案信息的流程图,则S1中爬取最新企业备案信息可具体分为以下步骤:
S11、抓取工商局备案信息资源系统中关于企业备案信息的第一HTML信息。
通过静态下载方式,在工商局备案信息资源系统抓取关于企业备案信息的HTML信息,即第一HTML信息,以便后续针对该第一HTML信息进行处理,获取企业的第一地址信息。
S12、通过Python捕捉所述第一HTML信息中的第一链接信息。
捕捉抓取的第一HTML信息中的链接信息,具体可通过Python中的urllib2模块或request模块来捕获第一HTML信息中的href属性类标签的链接,即第一链接信息。
S13、利用R语言对所述第一链接信息进行数据清洗。
针对捕捉到的第一链接信息,利用R语言来对其进行数据清洗,筛选第一链接信息中的有用信息,以便获得最新企业备案信息。
并整合通过数据清洗后获得的最新企业备案信息,以根据最新企业备案信息来构建企业备案信息库。
进一步的,最新企业备案信息中可具体的包括企业社会信用代码、企业名称、企业备案住所和信息抓取时间,具体如表1所示:
表1
其中,如上表1中所示,企业社会信用代码和企业名称用于对企业进行识别,企业备案住所用于识别企业备案住所,而信息抓取时间用于确认该最新企业备案信息是否已经更新,以保证最新企业备案信息具有更好的时效性。
同样的,S2中通过采用静态下载的方式,连接互联网,并从互联网中爬取企业最新招聘数据信息,并整合所爬取的最新招聘数据信息,以此来构建招聘信息资源库。
进一步的,如图3所示的爬取最新招聘数据信息的流程图,则S2中爬取最新招聘数据信息可具体分为以下步骤:
S21、抓取互联网中关于企业招聘信息的第二HTML信息。
由于目前大部分企业都通过互联网来发布企业招聘信息,以此在企业发布的招聘信息中包括大量的数据信息,例如:企业名称、企业办公地址、招聘职位、职位要求、联系方式等,因此,通过对企业发布的招聘信息进行分析处理,将能够获得较多的企业数据信息。
基于此,通过静态下载方式,在互联网抓取关于企业招聘信息的HTML信息,即第二HTML信息,以便后续针对该第二HTML信息进行处理,获取企业的第二地址信息。
S22、通过Python捕捉所述第二HTML信息中的第二链接信息。
其与上述的S12相似,主要捕捉抓取的第二HTML信息中的链接信息,并具体可通过Python中的urllib2模块或request模块来捕获第二HTML信息中的href属性类标签的链接,即第二链接信息。
S23、利用R语言对所述第二链接信息进行数据清洗。
其与上述的S13相似,针对捕捉到的第二链接信息,利用R语言来对其进行数据清洗,筛选第二链接信息中的有用信息,以便获得最新招聘数据信息。
并整合通过数据清洗后获得的最新招聘数据信息,以根据最新招聘数据信息来构建招聘信息资源库。
进一步的,最新招聘数据信息中包括企业名称、企业发布住所和信息发布时间,具体如表2所示:
表2
其中,如上表2所示,企业名称用于对企业进行识别,企业发布住所用于识别企业发布的其住所所在,而发布时间用于确认该最新招聘数据信息是否已经更新,以保证最新招聘数据信息具有更好的时效性。
进一步的,根据表1和表2可知,由于最新企业备案信息和最新招聘数据信息同样包括企业名称信息,因此将能够的是最新企业备案信息和最新招聘数据信息形成相互的对应,以便实现后述根据最新企业备案信息和最新招聘数据信息对企业地址信息的比较,并判断企业是否存在地址位置变更却未及时工商备案的情况。
S3中首先确定需要进行检验地址变更的企业,即待检验企业,以便针对该待检验企业来自S1中构建的企业备案信息库中获取该待检验企业的第一地址信息,并自S2中构建的招聘信息资源库中获取该待检验企业的第二地址信息。
具体的,根据确定的待检验企业,能够获得该企业的企业名称,而在最新企业备案信息和最新招聘数据信息中同样包括企业名称,因此,可在企业备案信息库和招聘信息资源库中查找到该待检验企业的对应的最新企业备案信息和最新招聘数据信息。
最终,根据查找到的待检验企业在企业备案信息库和招聘信息资源库中所对应的最新企业备案信息和最新招聘数据信息后,可自该最新企业备案信息和最新招聘数据信息中获取该待检验企业的第一地址信息和第二地址信息,以便后述针对该第一地址信息和第二地址信息进行分析比较,确定该待检验企业是否存在地址变更情况。
即,根据表1和表2的记载,可知本实施例中,第一地址信息为:北京市丰台区XXX路XX号;第二地址信息为:北京市海淀区XXX路XX号。
进一步的,第一地址信息和第二地址信息的选取应满足以下要求:
第二地址信息所对应的最新招聘数据信息中的信息发布时间应晚于或等于第一地址信息所对应的最新企业备案信息的信息抓取时间。
以此来确保针对企业地址位置变更检验的过程更具时效性。
S4中将获取到的待检验企业的第一地址信息和第二地址信息转换为经纬度坐标形式。
最终,第一地址信息的坐标形式为:第一经纬度(X1,Y1);
且,第二地址信息的坐标形式为:第二经纬度(X2,Y2)。
进一步的,第一地址信息和第二地址信息通过百度API转换为经纬度坐标。
具体的,根据百度API进行第一地址信息和第二地址信息转换经纬度坐标形式的服务参数如表3所示:
表3
并且,根据上表3所示的百度API进行第一地址信息和第二地址信息转换经纬度坐标形式的返回值如表4所示:
表4
S5中根据以上S4中转换出的第一地址信息和第二地址信息的经纬度坐标形式来计算其经纬度坐标的坐标差。
具体的,例如采用上述获得的第一地址信息的坐标形式:第一经纬度(X1,Y1)和第二地址信息的坐标形式也:第二经纬度(X2,Y2)。
则,坐标差可通过以下方法计算:
坐标差可具体表示为:坐标差(ΔX,ΔY)。
其中,ΔX为第一地址信息的坐标形式中经度值与第二地址信息的坐标形式中经度值的差值,则可知ΔX=|X1-X2|。
同样的,ΔY则为第一地址信息的坐标形式中纬度值与第二地址信息的坐标形式中纬度值的差值,则可知ΔY=|Y1-Y2|。
根据以上确定的ΔX和ΔY的值。
则,坐标差还可表示为:坐标差(|X1-X2|,|Y1-Y2|)。
S6中根据S5中计算出的坐标差,来判断该待检验企业是否存在企业地址位置变更却未及时工商备案的情况,且根据判断结果来确定是否进行预警处理。
具体的,当根据坐标差判断出该待检验企业存在企业地址位置变更却未及时工商备案的情况,则进行预警处理;而根据坐标差判断出该待检验企业不存在企业地址位置变更却未及时工商备案的情况,则不进行预警处理。
进一步的,本实施例中,设定坐标差阈值为10'',即根据坐标差是否超过该阈值来判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况。
也就是说,根据计算出的坐标差是否超过10'',以此来确定该待检验企业是否存在企业地址位置变更却未及时工商备案的情况。
具体的,当坐标差≥10''时,则判断待检验企业存在企业地址位置变更却未及时工商备案的情况,并进行预警;当坐标差<10''时,则判断待检验企业不存在企业地址位置变更却未及时工商备案的情况,不进行预警。
基于以上方法,能够充分的发挥互联网中,数据更新频率快的特点,对需要检验的企业是否存在地址位置变更却未及时工商备案的情况进行监测检验,并根据检验结果确定是否进行预警。
实施例二
图4为本发明预测企业存在地址位置变更却未及时工商备案的系统的一个实施例的结构图。
如图4所示,本实施例中预测企业存在地址位置变更却未及时工商备案的系统,包括:企业备案信息库构建服务器、招聘信息资源库构建服务器、经纬度转换单元、住所检验服务器和预警单元。
其中,企业备案信息库构建服务器连接工商局备案信息资源系统,以便企业备案信息库构建服务器能够自工商局备案信息资源系统中爬取最新企业备案信息,并根据所爬取的最新企业备案信息来构建企业备案信息库。
进一步的,该企业备案信息库构建服务器还可具体包括:企业备案信息获取单元、备案信息处理单元和备案信息清洗单元。
其中,企业备案信息获取单元用于抓取所述自工商局备案信息资源系统中关于企业备案信息的第一HTML信息,其具体过程如上述实施例一中S11的过程。
备案信息处理单元用于通过Python捕捉所述第一HTML信息中的第一链接信息,其具体过程如上述实施例一中S12的过程。
备案信息清洗单元用于利用R语言对所述第一链接信息进行数据清洗,其具体过程如上述实施例一中S13的过程。
招聘信息资源库构建服务器连接互联网,以便招聘信息资源库构建服务器能够自互联网中爬取企业最新招聘数据信息,并根据所爬取的最新招聘数据信息来构建招聘信息资源库。
进一步的,该招聘信息资源库构建服务器可具体包括:招聘信息获取单元、招聘信息处理单元和招聘信息清洗单元。
其中,招聘信息获取单元用于抓取互联网中关于企业招聘息的第二HTML信息,其具体过程如上述实施例一中S21的过程。
招聘信息处理单元用于通过Python捕捉所述第二HTML信息中的第二链接信息,其具体过程如上述实施例一中S22的过程。
招聘信息清洗单元用于利用R语言对所述第二链接信息进行数据清洗,其具体过程如上述实施例一中S23的过程。
经纬度转换单元分别连接企业备案信息库构建服务器和招聘信息资源库构建服务器,且,经纬度转换单元能够分别自企业备案信息库构建服务器和招聘信息资源库构建服务器中获取待检验企业的第一地址信息和第二地址信息,并将获取的第一地址信息和第二地址信息分别转换为经纬度坐标。
进一步的,该经纬度转换单元可具体采用百度API转换芯片,并将所述第一地址信息和第二地址信息转换为经纬度坐标。
进一步的,经纬度转换单元对于第一地址信息和第二地址信息的选取应满足以下要求:
第二地址信息所对应的最新招聘数据信息中的信息发布时间应晚于或等于第一地址信息所对应的最新企业备案信息的信息抓取时间。
以此来确保针对企业地址位置变更检验的过程更具时效性。
例如,经纬度转换单元获取到的待检验企业的第一地址信息和第二地址信息如实施例一中表1和表2所示,即第一地址信息为:北京市丰台区XXX路XX号;第二地址信息为:北京市海淀区XXX路XX号。
则,经纬度转换单元将该第一地址信息和第二地址信息转换为经纬度坐标形式。
具体为,第一地址信息的坐标形式为:第一经纬度(X1,Y1);而第二地址信息的坐标形式为:第二经纬度(X2,Y2)。
住所检验服务器根据经纬度转换单元提供的由第一地址信息和第二地址信息转换的经纬度坐标的坐标差来判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况。
进一步的,该住所检验服务器可具体包括:坐标差计算单元和地址检验单元。
其中,坐标差计算单元用于计算所述第一地址信息和第二地址信息转换的经纬度坐标的坐标差。
坐标差计算单元根据经纬度转换单元计算出的第一地址信息和第二地址信息转换为经纬度坐标形式,即第一经纬度(X1,Y1)和第二经纬度(X2,Y2),以此来计算坐标差。
具体的坐标差可通过以下方法计算:
坐标差可具体表示为:坐标差(ΔX,ΔY)。
其中,ΔX为第一地址信息的坐标形式中经度值与第二地址信息的坐标形式中经度值的差值,则可知ΔX=|X1-X2|。
同样的,ΔY则为第一地址信息的坐标形式中纬度值与第二地址信息的坐标形式中纬度值的差值,则可知ΔY=|Y1-Y2|。
根据以上确定的ΔX和ΔY的值。
则,坐标差还可表示为:坐标差(|X1-X2|,|Y1-Y2|)。
地址检验单元则根据坐标差判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况。
地址检测单元根据预先设定的坐标差阈值来判断该坐标差是否超过阈值,以此来判断待检验企业是否存在企业地址位置变更却未及时工商备案的情况。
本实施例中,标准差阈值设定为10''。
具体的,则,当坐标差≥10''时,则判断待检验企业存在企业地址位置变更却未及时工商备案的情况;当坐标差<10''时,则判断待检验企业不存在企业地址位置变更却未及时工商备案的情况。
预警单元根据住所检验服务器判断的待检验企业是否存在企业地址位置变更却未及时工商备案的情况的结果,来确定是否需要针对该企业进行预警处理。
具体的,预警单元连接住所检验服务器,以便接收住所检验服务器检验的针对企业否存在企业地址位置变更却未及时工商备案的情况的结果,并根据接收的检验结果判断是否需要进行预警处理。
根据住所检验服务器中的设置,则可知,当坐标差≥10''时,则进行预警;而当坐标差<10''时,则不进行预警。
以上针对预警单元的设定即对应于住所检验服务器中,当坐标差≥10''时,则判断待检验企业存在企业地址位置变更却未及时工商备案的情况;当坐标差<10''时,则判断待检验企业不存在企业地址位置变更却未及时工商备案的情况。
以此来实现,当坐标差≥10''时,则判断待检验企业存在企业地址位置变更却未及时工商备案的情况,并进行预警。
而当坐标差<10''时,则判断待检验企业不存在企业地址位置变更却未及时工商备案的情况,且不进行预警。
本发明的预测企业存在地址位置变更却未及时工商备案的方法及系统,通过爬取互联网上企业发布的招聘数据信息,并与爬取的工商总局的备案信息进行比较,能够有效的确定企业是否存在地址变更却未向工商总局进行备案,更加有效的实现企业信息的识别判断,并针对存在问题的企业进行预警。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。