一种用于垂直搜索的企业位置信息获取系统的制作方法

文档序号:13164526阅读:154来源:国知局
一种用于垂直搜索的企业位置信息获取系统的制作方法

本发明涉及互联网信息处理领域,特别涉及一种用于垂直搜索的企业位置信息获取系统。



背景技术:

以信息技术发展为代表的社会进步,数据信息的积累以级数速度增长,网络技术的发展促进了信息的传播和积累,网络信息数据涵盖了社会、经济、政治、行业、企业、组织、个人活动的方方面面,数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息成为迫切解决的问题,在巨大的市场需求面前,互联网搜索和大数据分析成为当今互联网应用的热门;各种搜索引擎也应运而生,其中垂直搜索引擎是针对某一个行业的专业搜索引擎,相对通用搜索引擎的信息量大、查询不准确、深度不够等缺点,垂直搜索通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,具有“专业”、“精准”、“深度挖掘”的特点,且具有行业色彩。然而目前市场针对企业的垂直搜索还比较鲜见。

而企业信息是数据分析的重要一环;在数据分析中具有重要的意义,由于企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析可以了解企业的背景、勾勒出企业活动的生产情况、经营状况、人员信息、投资情况、股东构成、企业资质、资产规模、资产增长情况以及异常情况。这些信息对于监控企业发展状态和防范企业经营风险具有极其重要的意义,而在企业的信息中地理信息是相当重要的一环,对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘都大有裨益。

现有的公用地理信息地图系统,没有公开的专门的搜索企业以及企业关系的搜索平台,只有酒店,餐馆、景点等的专门搜索;大而全的通用搜索,突出不了专注企业搜索的意义;更搜索不了以某个位置为中心的周围的不知道名字的企业。所以结合已有的大数据量的企业信息,建立专门的企业地理信息系统对针对企业信息大数据分析的公司是必要的需求。

而要建立这样的系统,首先要做的就是集合企业数据,建立企业位置信息高效的获取和存储系统。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供一种用于垂直搜索的企业位置信息获取系统。通过使用企业基本信息来获取企业地理信息;在获取的地理信息上建立适当的存储模型,为基于地理位置的企业信息查询提供数据基础。

为了实现上述发明目的,本发明提供了以下技术方案:

一种用于垂直搜索的企业位置信息获取系统,所述系统包括企业地理信息获取模块和企业地理信息存储模块,所述企业地理信息获取模块根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息;所述企业地理信息存储模块将企业信息和获取到的经纬度信息存储起来。

进一步的,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。

具体的,所述数据相互验证和补全,包含以下实现步骤:

(st1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;

(st2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;

(st3)对不一致的数据按照各个开放平台返回结构的分数排序,取可信值分数较高的。所述数据相互验证和补全,适用以下规则条件:

a、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;

b、选择从平台获取到的数据信息中,可信较高的对应经纬度信息为企业的经纬度数据;

c、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。

作为一种优选,所述分布式系统为hdfs。

作为一种优选,所述数据相互验证和补全过程通过mapreduce并行处理来实现。

进一步的,所述企业地理信息获取模块为加载有上述企业地理信息获取和分析功能的计算机、服务器或者服务器集群。

进一步的,所述企业地理信息存储模块为安装有hdfs程序的计算机、服务器或者服务器集群。

与现有技术相比,本发明的有益效果:本发明提供一种用于垂直搜索的企业位置信息获取系统,本发明系统包括企业地理信息获取模块和企业地理信息存储模块,通过已获取的企业地址信息调用公开数据平台的接口获得对应的企业地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,提高了企业经纬度信息采集的结果的准确性;并且本发明将获取到的企业信息(包括:名称、地址、地理经纬度信息)存储于分布式文件夹系统中,为专门针对企业的垂直搜索提供了数据获取和数据存储的技术基础。本发明系统所采集到的数据存储于hdfs分布式文件系统中,可以满足海量数据存储,高容错性的需要,为云计算和批量处理提供文件存储基础。

此外本发明系统专门针对企业来进行地理信息的数据获取,为相关的企业地理信息垂直搜索提供数据基础,弥补了现有公开地图平台中没有专门针对企业地理信息服务的缺失;在企业地理区位分析、查询、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的使用价值。

附图说明:

图1为本发明系统的模块关系图。

图2为本发明地理信息数据的获取及分析过程示意图。

图3为本发明企业位置信息获取、存储和索引建立的实现步骤示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种用于垂直搜索的企业位置信息获取系统。通过使用企业基本信息来获取企业地理信息;并通过从至少两家地图平台获取的数据进行相互验证和相互补全,确保了经纬度数据的准确性为基于地理位置的企业信息查询提供数据基础。

为了实现上述发明目的,本发明提供了以下技术方案:

一种用于垂直搜索的企业位置信息获取系统,所述系统包括企业地理信息获取模块和企业地理信息存储模块,所述企业地理信息获取模块根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息;所述企业地理信息存储模块将企业信息和获取到的经纬度信息存储起来。

本发明系统建立专门针对企业目标来进行的地理信息获取和存储,为相关的企业地理信息垂直搜索提供数据基础,弥补了现有地图平台缺乏专门针对企业信息地图信息服务的缺失;而且本发明系统通过至少两个地图平台获取的数据来相互印证和数据补全,保证了获取到地理信息的准确性。对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的意义。

进一步的,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。目前公开的地图数据平台很多,根据企业地址在公开数据平台上自动获取企业的经纬度信息,快速便捷,成本较低;为数据深度分析和再加工利用应用创造了前提条件。仅仅从一家平台上获取的数据存在较大的数据不准确的风险,通过调用多家平台来获取目标企业的地理经纬度信息,并且通过多家平台的数据来相互验证和补全则可以极大的提高数据获取的质量,为后期的数据使用提供更加准确的数据源。

具体的,所述数据相互验证和补全,包含如图1所示的以下实现过程:

(st1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;

(st2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;

(st3)所述数据相互验证和补全,适用以下规则条件:

a、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;

b、选择从平台获取到的数据信息中,根据可信度来排序,选择可信较高的对应经纬度信息为企业的经纬度数据;

c、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。上述规则条件按顺序适用。

进一步的,所述分布式系统为hdfs。hdfs作为hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时hdfs非常适合用于大规模数据集;采用hdfs来存储待处理数据可以满足海量数据存储,高容错性的需要,为云计算和批量处理提供文件存储基础。

进一步的,所述企业地理信息获取模块为加载有上述企业地理信息获取和分析功能的计算机、服务器或者服务器集群。

进一步的,所述企业地理信息存储模块为安装有hdfs程序的计算机、服务器或者服务器集群。

所述计算机、服务器或者服务器集群为本系统功能的实现提供硬件支撑。

实施例1

从网络上根据字段设置爬取到企业名称和对应的地址信息,例如企业名称为成都abcd科技有限公司,地址为:成都市天府大道中段xx号,根据企业地址信息调用第一地图平台接口获取到企业地址对应的地理经纬度信息为:{″status":0,"result":{″location":{″lng":105.07392899855,"lat":36.555138880016},″precise":1,"confidence":80,"level":"、u5546、u52al、u5927、u53a6"}}从返回信息可以获取到可信度为:80,经度为105.07392899855,纬度为36.555138880016。

调用第二地图平台接口获取到企业地址对应的地理经纬度信息为:{″status":″1″,″info″:″ok″,"infocode":″1000","count":″1","geocodes":[{″formatted_address":″四川省成都市武侯区某某广场b座″,″province":″四川省,″citycode":"028","city":″成都市″,″district":″武侯区″,″township":[],″neighborhood":{″name":[],″type":[]},"building":{″name":[],f″type″:[]},″adcode":″510107","street":″天府大道中段″,″number":"xx号″,″location":″104.067139,30.548830","level":″门牌号″}]}。从上述返回信息可以获取到:可信度为门牌号,经度为105.067139,纬度为36.548830。

上述两个平台获取到的数据均完整,则适用规则b,根据两个平台的获取数据的可信度来进行排序,比如说将第二地图平台的"level":″门牌号″,对应的转化为“可信度:99”,较通过第一地图平台获取的“可信度:80”的可信度更高,则选择第二地图平台获取到的经度为105.067139,纬度为36.548830作为:“成都abcd科技有限公司、成都市天府大道中段xx号”对应的经纬数据。将获取到的经纬度信息存储于hdfs分布式文件系统中,以上过程完成了经纬度信息的获取和存储过程。

可以看出以上仅为一个简单示例来说明数据的获取过程,实际上在大数据处理中针对的是千万级或者数亿级的海量目标来进行上述过程的操作和实现,本发明系统采用云计算平台下的分布式存储系统,满足了海量数据的存储和快速读取的需要;并使用云计算框架下的mapreduce将存储于hdfs分布式文件系统中的数据批量读取到索引之中,处理速度极快、效率显著、通过使用elasticsearch可以建立亿数量级别的企业地理信息搜索的需要,为建立全量企业地理信息检索提供技术支撑。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1