一种企业关联关系识别方法及系统的制作方法

文档序号:9417484阅读:884来源:国知局
一种企业关联关系识别方法及系统的制作方法
【技术领域】
[0001]本发明涉及关联企业识别技术领域,具体涉及一种企业关联关系识别方法及系统。
【背景技术】
[0002]随着近几年市场经济的飞速发展及国家对创业者的鼓励及扶持,越来越多得大中型小型企业被注册;同时随着互联网的高速发展,企业的登记信息、股东信息、变更信息等都变得越来越透明,甚至可以直接在互联网上查到。现有的企业信息查询技术主要存在以下问题:
[0003]1.互联网上找到的信息都是松散的、针对单个企业的个体,并没有针对企业与企业、企业与个人之间的关联关系。
[0004]2.互联网上找到的信息错踪乱杂,标准不统一,如若想知道两个企业间的关系,只能人工查找整理,或是去各地工商局走各种流程申请查询,然后人工整理关联。
[0005]3.直接获取的数据字段通常包含大量的特殊字符、中间字符等,对于数据字段的准确识别产生极大的影响,降低数据提取的准确率。
[0006]4.不能从直接获取的大量数据字段中准确提取出有用的数据信息,更不能根据提取的数据字段准确判断出该数据字段是代表企业还是代表个人,这为以后的数据关联关系识别造成了极大的困难。

【发明内容】

[0007]本发明的目的就是为了解决上述问题,提出了一种企业关联关系识别方法及系统,该方法及系统能够实现自动将有关系的企业关联起来,使之可以快速的查找企业与企业之前的关系,无需人工查找与整理,极大地提高了工作效率。
[0008]为了实现上述目的,本发明采用如下技术方案:
[0009]一种企业关联关系识别方法,包括:
[0010]在一个服务器执行该方法,所述服务器包括一个或多个处理器以及用于存储由所述一个或多个处理器执行的程序的存储器;
[0011](I)建立统一数据格式的企业相关数据库,所述数据库包括基本数据库和关联数据库;
[0012](2)通过网络技术采集设定区域的企业相关数据,并将所述数据进行格式转换后存储至基本数据库;
[0013](3)调取企业相关数据库中每个企业的相关数据字段,对所述数据字段进行预处理,提取出代表企业相关信息的数据字段并存入基本数据库;
[0014](4)提取企业股东数据字段,判断所述数据字段是个人还是企业,并将判断结果存入基本数据库中相应企业的存储路径下;
[0015](5)对同一企业进行数据对接:将企业名称字段相同或者企业注册号字段相同的企业,合并至相同的存储路径下;
[0016](6)建立不同企业之间的数据关联:如果企业股东为另一企业名称,则将两企业进行关联;如果两个企业拥有相同名称字段的人员,则将两企业的存储路径进行关联;将所述关联信息存入关联数据库;
[0017](7)用户客户端进行关联企业信息查询时,从关联数据库中调取关联企业,并从基本数据库中查询关联企业的基本信息。
[0018]所述步骤(2)中通过网络爬虫手段采集设定区域的企业信息,所述企业信息包括但不限于:企业登记信息、股东信息、变更信息、经营地址和联系电话。
[0019]所述步骤(3)中调取企业相关数据库中每个企业的相关数据字段,对所述数据字段进行预处理的方法包括:
[0020]去除所述数据字段的首尾特殊字符;
[0021]判断所述数据字段是否包含英文,如果是,则不处理;如果否,根据中间字符将所述数据字段分成多个字段;
[0022]判断分割后的字段长度是否大于设定的长度,如果是,将分割后的字段按多个字段进行处理;否则,去除特殊字符后,合并所有分割字段。
[0023]所述步骤(3)中代表企业相关信息的数据字段包括但不限于:企业名称、股东信息、主要负责人和经营人。
[0024]所述步骤(4)的具体方法为:
[0025]I)调取所有企业名称的前两位及后两位字符,并统计其出现频率;
[0026]2)将出现频率大于设定频率阈值t的字符,保存至集合M中;
[0027]3)提取企业A的股东数据字段,判断字符长度是否大于设定长度,如果是,进入步骤4);否则,判断为个人;
[0028]4)提取所述企业A的股东数据字段的前两位字符,判断所述字符是否出现在集合M中,如果是,判断为企业;否则,进入步骤5);
[0029]5)提取所述企业A的股东数据字段的后两位字符,判断所述字符是否出现在集合M中,如果是,判断为企业;否则,判断为个人。
[0030]一种企业关联关系识别的装置,包括:
[0031]—个服务器,所述服务器包括一个或多个处理器以及用于存储由所述一个或多个处理器执行的程序的存储器;
[0032]基本数据库和关联数据库;
[0033]通过网络技术采集设定区域的企业相关数据的单元,将所述数据进行格式转换的单元,以及将转换后数据存储至基本数据库的单元;
[0034]调取企业相关数据库中每个企业的相关数据字段的单元,对所述数据字段进行预处理的单元,提取出代表企业相关信息的数据字段并存入基本数据库的单元;
[0035]提取企业股东数据字段的单元,判断所述数据字段是个人还是企业的单元,将判断结果存入基本数据库中相应企业的存储路径下的单元;
[0036]对同一企业进行数据对接的单元:将企业名称字段相同或者企业注册号字段相同的企业,合并至相同的存储路径下;
[0037](6)建立不同企业之间的数据关联的单元:如果企业股东为另一企业名称,则将两企业进行关联;如果两个企业拥有相同名称字段的人员,则将两企业进行关联;将所述关联信息存入关联数据库;
[0038]进行关联企业信息查询的单元:从关联数据库中调取关联企业,并从基本数据库中查询关联企业的基本信息。
[0039]通过网络爬虫手段采集设定区域的企业信息,所述企业信息包括但不限于:企业登记信息、股东信息、变更信息、经营地址和联系电话。
[0040]对所述数据字段进行预处理的单元包括:
[0041]去除所述数据字段的首尾特殊字符的单元;
[0042]判断所述数据字段是否包含英文的单元,根据中间字符将所述数据字段分成多个字段的单元;
[0043]判断分割后的字段长度是否大于设定的长度的单元以及对分割后数据字段进行处理的单元。
[0044]代表企业相关信息的数据字段包括但不限于:企业名称、股东信息、主要负责人和经营人。
[0045]判断所述数据字段是个人还是企业的单元包括:
[0046]调取所有企业名称的前两位及后两位字符,并统计其出现频率的单元;
[0047]将出现频率大于设定频率阈值t的字符,保存至集合M中的单元;
[0048]提取企业A的股东数据字段,判断字符长度是否大于设定长度的单元;
[0049]提取所述企业A的股东数据字段的前两位字符,判断所述字符是否出现在集合M中的单元;
[0050]提取所述企业A的股东数据字段的后两位字符,判断所述字符是否出现在集合M中的单元。
[0051]本发明的有益效果是:
[0052]对数据字段进行预处理,可以从大量的杂乱无章的、无规则的数据中提取出对本系统有用的正确的企业名称及
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1