一种基于企业大数据平台的企业数据雷达监控方法及系统与流程

文档序号:11519746阅读:377来源:国知局
一种基于企业大数据平台的企业数据雷达监控方法及系统与流程

本发明涉及网络技术领域,具体而言,涉及一种基于企业大数据平台的企业数据雷达监控方法及系统。



背景技术:

随着经济的发展,每年新增大量的企业,企业也会根据市场的需要变更业务等其他方面的信息,同一行业的企业针对不同的用户也各具不同的优势,了解和跟踪行业内企业信息的变化,对于用户选择合适的企业进行合作是重要的指引和参考。因此,市面上出现很多提供企业信息查询的产品。

企业信息的获取,通常通过网络爬虫从互联网上获取,通过数据库进行保存;进一步利用网络爬虫定期采集企业信息,并通过和存储在本地的信息进行比较来获取最新的企业数据。但是,在对新旧数据比较的过程中,经常会出现需要处理的特殊数据,它们表达的意思相同但是数据格式却并不相同,如果不加以人工干预会出现错误的企业信息。

现有的对企业信息存储的数据库通常采用关系型数据库进行组织,对于多维度的企业信息处理效率低下,扩展性能不好,无法适应用户个性化的需求,比如用户自定义组装维度。

另外,对于网络爬虫采集的源数据,有时会出现大量的错误信息,比如将属性a的数据值错误地替换成属性b的数据值,导致企业信息数据不够精确。

不同的用户需要不同的维度信息,对于获取到的最新的企业信息,如何根据不同的用户有针对性的推送用户自定义组装的维度信息,也是亟待解决的问题。



技术实现要素:

本发明提出一种基于企业大数据平台的企业数据雷达监控技术,其目的在于解决至少一种上述技术问题,从而提高数据更新的效率和精确度,快速精确推送用户关注数据,并支持用户自定义接收企业细化的各维度数据。

为了实现上述目的,本发明采用如下技术方案:

根据本发明的一方面,提供一种基于企业大数据平台的企业数据雷达监控方法,所述方法包括:

通过至少一台服务器实时获取第一企业数据实体,所述第一企业数据实体为最新的企业数据实体;

获取当前数据库中存储的第二企业数据实体,利用雷达监控技术自动比较所述第一企业数据实体和第二企业数据实体;

根据预设规则审核机制对比较结果集进行自定义排查,若是正常变更,则更新数据库,若比较结果异常,则重新获取第一企业数据实体进行所述比较和排查,所述异常次数超过阈值时,向系统发出错误通知

向关注企业的用户实时地推送变更信息的通知。

优选地,所述雷达监控技术包括:通过底层映射技术自动获取所述第一企业数据实体和第二企业数据实体下所有的属性,通过getvalue获取所述属性的数据值,比较所述两个数据实体对应属性的数据值。

优选地,在对所述对应属性的数据值进行所述比较之前,还包括数据格式预处理,将获取的相同属性的数据值进行统一格式处理。

优选地,所述异常为比较结果存在问题数据,所述问题数据是数据错位、股东全部删除或主要人员全部删除。

优选地,通过消息队列技术(mq)发送所述错误通知。

优选地,通过消息队列技术(mq)实时向所述用户推送所述变更信息的通知。

优选地,所述通知是系统通知、短信通知或邮件通知的任一个,或所述通知类型的任意组合。

优选地,所述向用户推送变更信息的通知还包括:根据用户自定义接收的企业细化的各维度数据,用户可以根据推送的数据格式自定义组装维度。

优选地,所述数据库为文档类型的非关系型数据库。

优选地,所述非关系型数据库是:mongodb。

根据本发明的另一方面,提供了一种基于企业大数据平台的企业数据雷达监控系统,所述系统包括:

最新企业数据获取模块,当前企业数据获取模块,企业数据实体数据库,雷达监控比较模块,消息推送模块;

最新企业数据获取模块,用于获取企业的最新数据,企业数据实体数据库用于管理企业数据信息,雷达监控比较模块用于最新数据和当前数据的比较,消息推送模块用于向用户推送变更信息的通知。

优选地,最新企业数据获取模块可以根据需要部署到多台服务器,互联网上实时获取企业信息的源数据,保证所采集到的企业数据实体是最新的,

当前企业数据获取模块从本地数据库获取当前企业数据;

优选地,企业数据实体数据库采用非关系型数据库(nosql)组织存储企业数据信息;

优选地,采用文档型nosql数据库,例如mongodb;数据库中存储的文档同样包括多个维度的属性,和网络爬虫采集的企业数据实体源数据多个维度相对应;

优选地,雷达监控比较模块通过对实体的底层映射技术(propertyinfo),遍历自动获取该实体下所有的属性,通过getvalue分别获取在两个实体中的数据值;

优选地,雷达监控比较模块,还包括数据预处理模块,用于对于预设的数据类型进行数据格式的预处理;

优选地,数据预处理模块还用于对实体属性中如果包含其他自定义实体,也需要相应的做自定义类型处理;

优选地,雷达监控比较模块还包括自定义排查模块,自定义排查模块用于对雷达监控数据对比结果进行自定义排查,若是正常的变更,则更新数据库,

若比较结果异常,例如数据的错位、数据删除过多等情况则进行驳回,通知爬虫重新处理,这里可以设置计数程序或其他公知的手段对比较结果异常的次数进行计数,当达到阈值的时候则通知相关开发人员进行核实该情况是否属实;

优选地,消息推送模块使用的mq技术将流程分割,独立数据流程后期实时处理消息队列;

优选地,消息推送模块还用于将自定义排查模块得出的异常数据推送给开发人员;

优选地,消息推送模块还用于将自定义排查模块的输出的正常比较结果以通知的形式推送给用户;

优选地,所述通知是系统通知、短信通知或邮件通知的任一个,或所述通知类型的任意组合;

优选地,消息推送模块还用于根据用户自定义的维度组装数据,推送给用户。

本发明的有益效果在于:

根据雷达系统的自定义排查规则找到有问题的数据,根据问题提醒通知爬虫优化框架高效提升数据爬虫质量,快速响应数据变化的错误,雷达系统的实时变更推送服务使得用户及时获取最新企业数据信息,精确推送用户关注的信息,支持用户自定义接收企业细化的各维度数据。

附图说明

通过以下参照附图而提供的具体实施方式部分,本发明的特征和优点将变得更加容易理解,在附图中:

图1是本发明基于企业大数据平台的企业数据雷达监控方法的流程图;

图2是本发明基于企业大数据平台的企业数据雷达监控方法优选的的流程图;

图3是本发明基于企业大数据平台的企业数据雷达监控系统的结构框图;

图4是本发明基于企业大数据平台的企业数据雷达监控系统的优选结构框图。

具体实施方式

下面参照附图对本发明的示例性实施方式进行详细描述。对示例性实施方式的描述仅仅是出于示范目的,而绝不是对本发明及其应用或用法的限制。

本发明的一个实施例中,提供一种基于企业大数据平台的雷达企业数据监控方法,

图1是根据本发明实施例的企业数据监控方法的流程图,根据图1所示该流程包括:

步骤s102,对企业监控的数据,看作成对两个企业实体的监控;

根据需要将引擎部署到多台服务器(视情况而定),开启多线程数据入口,保证数据量的要求的同时,让数据更加完善。这里的服务器包括搜索服务器和数据库服务器以及应用服务器,搜索服务器上部署有网络爬虫,利用网络爬虫从互联网上搜索企业的最新信息,数据库服务器用于存储采集的企业信息,应用服务器用于执行雷达监控技术、消息通知等。其中,搜索服务器、数据库服务器、应用服务器可分别由多台物理或虚拟服务器实现,也可用多台pc实现,或者是服务器和pc的组合实现,这里不做限制。

优选地,网络爬虫通过搜索服务器从互联网上实时获取企业信息的源数据,保证所采集到的企业数据实体是最新的,其中企业数据实体源数据包括多个维度的属性,例如企业的经营范围、地址、法人代表、品牌产品、股东高管、工商信息、对外投资、失信信息、被执行人信息、裁判文书、商标、专利、法院公告、证书、著作权、经营异常、股权出质、动产抵押、抽查检查、清算信息等,可以根据需要对信息维度进行设置。

步骤s104,获取本地数据库中存储的当前企业数据实体;

优选地,本地数据库服务器存储有当前的企业数据实体,本发明采用非关系型数据库(nosql)组织存储企业数据信息,nosql数据库特别适用于大规模数据集合多重数据,尤其是企业大数据信息的存储。

更进一步地,本发明优选文档型nosql数据库,可以把企业所有信息当作一个实体,可以把整个企业的实体当作一个文档存储,这样大大提升了数据的完整性、保存和查询的性能。

数据库中存储的文档同样包括多个维度的属性,和网络爬虫采集的企业数据实体源数据多个维度相对应。

步骤s106,利用雷达监控技术比较网络爬虫采集的最新企业数据实体和数据库中存储的企业数据实体;

优选地,这里使用是c#语言,通过每次抓取最新的企业数据实体,然后获取当前数据库中存储的企业数据实体,对两个企业实体进行对比。一个企业实体可以抽象为如下数据结构:

如:公司实体

通过对实体的底层映射技术(propertyinfo),遍历自动获取该实体下所有的属性,通过getvalue获取分别获取在两个实体中的数据值如:

foreach(propertyinfopinnewdata.gettype().getproperties())

{

varnewvalue=p.getvalue(newdata);//获取新值

varoldvalue=p.getvalue(olddata);//获取旧值

}

这样可以简便的对比数据。

步骤s108,对雷达监控的数据对比结果进行自定义排查(自制规则审核机制),若是正常的变更,则执行s110,更新数据库;

步骤s112,根据关注该企业的用户实时推送;上述两个步骤的执行顺序不做限制;

若比较结果异常,例如数据的错位、数据删除过多等情况则进行驳回,通知爬虫重新处理,

步骤s114,这里可以设置计数程序或其他公知的手段对比较结果异常的次数进行计数,

步骤s116判断异常次数是否超过预设阈值,

步骤s118通知相关开发人员进行核实该情况是否属实,这样可大大减少人力成本,更能高效的提升数据质量。

优选地,这里的数据库使用mongodb,因为把整个企业当作一个实体,可以把整个企业的实体当作一个文档存储,这样大大提升的数据的完整性、保存及查询的性能。

优选地,消息推送机制这里使用的mq技术将流程分割,独立数据流程后期实时处理消息队列,既能保证雷达监控的完整性,又能达到消息提醒的实时性,保证用户消息的及时性已应对相应的措施。

处理消息队列,开启一个实时job不停的处理消息队列,跟消息队列获取雷达对比的结果集,根据自定义规则排查流程,例如:每次对比的结果是否有以下异常情况:

1、数据错位,例如一些企业数据的变化是正确的,如公司的名称a改成了b,但有些情况下又是错的,如公司名称正确的就是a,但爬虫的误把公司名称替换成了公司法人,这时也是做特殊处理,属于数据错位的问题;

2、股东全部删除,即:原来的值有很多,网络爬虫获取的股东属性对应的数据值新值为空;

3、主要人员全部删除;

一方面,这些情况都可以作为问题数据处理放到缓存中,发送给相关人员。

另一方面,若流程排查没有异常的话就可以作为准确数据通过消息提醒机制发送给关注该企业的用户变更提醒通知。

当然,优选地,所述通知是系统通知、短信通知或邮件通知的任一个,或所述通知类型的任意组合。

优选地,用户可以根据需要自定义接收企业细化的各维度数据,例如:工商维度、法律诉讼等维度;根据推送的数据格式自定义组装维度如:工商类型、失信类型等提高数据针对性。

图2是根据本发明实施例的企业数据监控方法优选的流程图,相比图1,该流程还包括如下步骤:

在对当前企业数据实体和最新数据实体进行比较之前,还包括步骤s120,这里还会有一些具体的格式进行自定义对比处理,不必生搬硬套,对于预设的数据类型进行数据格式的预处理。如:newvalue的数据类型是日期类型,在比较之前需要对新旧数据做统一处理,使其格式相同,

varnewdata=newvalue.parsetodatetime().tostring(“yyyy-mm-dd”);

否则的话就有可能会出现2017-02-03和2017/02/03不相同的情况。

另外,该实体属性中如果包含其他自定义实体,也需要相应的做自定义类型处理。

本发明的另一个实施例中,提供了一种基于企业大数据平台的企业数据雷达监控系统,图3是根据本发明实施例的雷达企业监控系统的结构框图,该雷达企业监控系统包括:最新企业数据获取模块31,当前企业数据获取模块32,企业数据实体数据库33,雷达监控比较模块34,雷达监控比较模块34包括自定义排查模块35,消息推送模块36,下面对此说明。

最新企业数据获取模块31,用于获取企业的最新数据,企业数据实体数据库33用于管理企业数据信息,雷达监控比较模块用于最新数据和当前数据的比较,消息推送模块35用于向用户推送变更信息的通知。

优选地,最新企业数据获取模块31可以根据需要部署到多台服务器,互联网上实时获取企业信息的源数据,保证所采集到的企业数据实体是最新的,

其中企业数据实体源数据包括多个维度的属性,例如企业的经营范围、地址、法人代表、品牌产品、股东高管、工商信息、对外投资、失信信息、被执行人信息、裁判文书、商标、专利、法院公告、证书、著作权、经营异常、股权出质、动产抵押、抽查检查、清算信息等,可以根据需要对信息维度进行设置。

当前企业数据获取模块32从本地数据库33获取当前企业数据;

优选地,企业数据实体数据库33本发明采用非关系型数据库(nosql)组织存储企业数据信息;

优选地,采用文档型nosql数据库,例如mongodb;数据库中存储的文档同样包括多个维度的属性,和网络爬虫采集的企业数据实体源数据多个维度相对应;

优选地,雷达监控比较模块34通过对实体的底层映射技术(propertyinfo),遍历自动获取该实体下所有的属性,通过getvalue获取分别获取在两个实体中的数据值;

优选地,雷达监控比较模块还包括自定义排查模块35,自定义排查模块用于对雷达监控的数据对比结果进行自定义排查,若是正常的变更,则更新数据库,

若比较结果异常,例如数据的错位、数据删除过多等情况则进行驳回,通知爬虫重新处理,这里可以设置计数程序或其他公知的手段对比较结果异常的次数进行计数,当达到阈值的时候则通知相关开发人员进行核实该情况是否属实;

优选地,消息推送模块36使用的mq技术将流程分割,独立数据流程后期实时处理消息队列;

优选地,消息推送模块36还用于将自定义排查模块得出的异常数据推送给开发人员;

优选地,消息推送模块36还用于将自定义排查模块的出的正常比较结果以通知的形式推送给用户;

优选地,所述通知是系统通知、短信通知或邮件通知的任一个,或所述通知类型的任意组合;

优选地,消息推送模块还用于根据用户自定义的维度组装数据,推送给用户;

图4是根据本发明实施例的企业数据监控系统优选的结构框图,相比图3还包括数据预处理模块47:

优选地,雷达监控比较模块还包括数据预处理模块47,用于对于预设的数据类型进行数据格式的预处理;

优选地,数据预处理模块47,还用于对实体属性中如果包含其他自定义实体,也需要相应的做自定义类型处理;

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤;

虽然参照示例性实施方式对本发明进行了描述,但是应当理解,本发明并不局限于文中详细描述和示出的具体实施方式,在不偏离权利要求书所限定的范围的情况下,本领域技术人员可以对所述示例性实施方式做出各种改变。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1