基于哈希算法的企业画像数据预处理方法和系统与流程

文档序号:18902642发布日期:2019-10-18 22:09阅读:230来源:国知局
基于哈希算法的企业画像数据预处理方法和系统与流程
本发明涉及数据处理
技术领域
,尤其涉及一种基于哈希算法的企业画像数据预处理方法和系统。
背景技术
:随着网络技术不断发展,用户在网上留存的痕迹越来越多,我们可以对用户在不同网络环境中留下的大量个人痕迹等碎片化数据进行充分的挖掘,发现其中潜在的价值,这就是用户画像技术。受此影响,将企业作为一个个体同样可以进行画像刻画,通过搜集企业的一系列相关数据进行处理分析,抽取出可以描述企业特征的标签体系,满足政府对企业的监管引导、企业实体合作、金融机构评估等各类日益增长的需求。企业画像的刻画是在企业各类相关数据的汇聚融合基础上进行的,很大程度上依赖于互联网数据的采集,如企业公布的财务报告、企业招聘信息、企业涉诉情况、各类舆情信息等,均需通过互联网获取。互联网数据具有更新频率高、数据量大、内容繁杂、结构不统一等特点,这给互联网数据的汇聚融合带来很大障碍。一个企业的数据指标项有几十甚至上百项,考虑到数据存储的冗余限制,不可能所有新采集的数据均存入数据库中,只有必要的已发生更新的指标项数据才会执行更新操作。而逐一对比各项指标内容将耗费大量计算资源,在企业基数达到几十万甚至上百万时,这个问题也将呈指数级放大。因此,有必要通过技术革新来缓解或解决这个数据比对过程中耗费资源巨大的问题。技术实现要素:本发明公开了一种基于哈希算法的企业画像数据预处理方法,包括步骤:计算企业数据库内存储的企业旧数据指标项的权重;设定权重阈值;将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项;将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为maindata;将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为secondarydata;计算所述maindata和所述secondarydata的哈希值,包括步骤:采用sha1算法计算所述maindata的哈希值,计算结果为mainresult;采用md5算法计算所述secondarydata的哈希值,计算结果为secondaryresult;将所述mainresult和所述secondaryresult存入所述企业数据库内;通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项;将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为maindatanew;将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为secondarydatanew;计算所述maindatanew和所述secondarydatanew的哈希值,包括步骤:采用sha1算法计算所述maindatanew的哈希值,计算结果为mainresultnew;采用md5算法计算所述secondarydatanew的哈希值,计算结果为secondaryresultnew;比较新旧哈希值,包括步骤:当mainresultnew=mainresult,secondaryresultnew=secondaryresult时,所述企业数据库中数据指标不更新;当mainresultnew=mainresult,secondaryresultnew≠secondaryresult时,将企业次要新数据指标项更新进所述企业数据库中,同步将secondaryresultnew值赋予secondaryresult;当mainresultnew≠mainresult,secondaryresultnew=secondaryresult时,将企业主要新数据指标项更新进所述企业数据库中,同步将mainresultnew值赋予mainresult;当mainresultnew≠mainresult,secondaryresultnew≠secondaryresult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将mainresultnew值赋予mainresult,secondaryresultnew值赋予secondaryresult。优选地,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。优选地,所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价。优选地,还包括步骤:重复比较新旧哈希值过程。本发明还公开了一种基于哈希算法的企业画像数据预处理系统,包括:企业数据库管理模块、哈希值计算模块、数据采集模块、权重计算模块、数据指标项划分模块、以及哈希值比较模块,其中,所述企业数据库管理模块分别与所述权重计算模块、所述哈希值计算模块、以及所述哈希值比较模块相耦接,用于存储企业数据指标;提供企业数据库内存储的企业旧数据指标项给所述权重计算模块,接收所述哈希值计算模块发送的mainresult和secondaryresult;接收所述哈希值比较模块发送的mainresultnew、secondaryresultnew、企业主要新数据指标项、以及企业次要新数据指标项;权重计算模块分别与所述企业数据库管理模块和所述数据指标项划分模块相耦接,用于接收所述企业数据库管理模块提供的所述企业数据库内存储的企业旧数据指标项,计算企业数据库内存储的企业旧数据指标项的权重,并将所述企业旧数据指标项的权重发送到所述数据指标项划分模块;所述数据指标项划分模块分别与所述权重计算模块和所述哈希值计算模块相耦接,用于接收所述权重计算模块发送的所述企业旧数据指标项的权重和设定权重阈值;将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项,并将所述企业主要旧数据指标项和所述企业次要旧数据指标项发送到所述哈希值计算模块;所述数据采集模块与所述哈希值计算模块相耦接,用于通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项,将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;将所述企业主要新数据指标项和所述企业次要新数据指标项发送到所述哈希值计算模块;所述哈希值计算模块分别与所述企业数据库管理模块、所述数据指标项划分模块、所述数据采集模块、以及所述哈希值比较模块相耦接,用于接收所述数据指标项划分模块发送的所述企业主要旧数据指标项和所述企业次要旧数据指标项,接收所述数据采集模块发送的所述企业主要新数据指标项和所述企业次要新数据指标项;将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为maindata,将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为secondarydata,采用sha1算法计算所述maindata的哈希值,计算结果为所述mainresult,采用md5算法计算所述secondarydata的哈希值,计算结果为所述secondaryresult;将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为maindatanew,将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为secondarydatanew,采用sha1算法计算所述maindatanew的哈希值,计算结果为mainresultnew,采用md5算法计算所述secondarydatanew的哈希值,计算结果为secondaryresultnew;将所述mainresult和所述secondaryresult发送到所述企业数据库管理模块和所述哈希值比较模块;将所述mainresultnew和所述secondaryresultnew发送到所述哈希值比较模块;所述哈希值比较模块分别与所述企业数据库管理模块和所述哈希值计算模块相耦接,用于接收所述哈希值计算模块发送的所述mainresult、所述secondaryresult、所述mainresultnew和所述secondaryresultnew,并进行比较;当mainresultnew=mainresult,secondaryresultnew=secondaryresult时,所述企业数据库管理模块中数据指标不更新;当mainresultnew=mainresult,secondaryresultnew≠secondaryresult时,将所述企业次要新数据指标项更新进所述企业数据库管理模块中,同步将secondaryresultnew值赋予secondaryresult;当mainresultnew≠mainresult,secondaryresultnew=secondaryresult时,将所述企业主要新数据指标项更新进所述企业数据库管理模块中,同步将mainresultnew值赋予mainresult;当mainresultnew≠mainresult,secondaryresultnew≠secondaryresult时,将所述企业主要新数据指标项和所述企业次要新数据指标项都更新进所述企业数据库管理模块中,同步将mainresultnew值赋予mainresult,secondaryresultnew值赋予secondaryresult。优选地,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。优选地,所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价。优选地,所述哈希值比较模块还用于重复比较新旧哈希值。与现有技术相比,本发明提供的基于哈希算法的企业画像数据预处理方法和系统,达到如下有益效果:第一,本发明将企业新旧数据指标项换算成哈希值来进行对比,可有效提高比对效率,大大降低了比对耗费的计算资源与时间成本。第二,本发明将企业数据指标项分为企业主要数据指标项和企业次要数据指标项,并将企业主、次要数据指标项整合形成统一的数据串,通过该数据串计算出哈希值,将一个企业繁多的企业数据指标项变换成两个哈希值,减少了哈希值个数,简化了哈希值对比次数,降低了计算资源与时间成本。第三,本发明分别将企业主要数据指标和企业次要数据指标通过不同的哈希算法计算哈希值,更好的平衡了运算速度与数据损失风险两者的关系,降低了计算资源的浪费,提高了数据处理效率。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本发明实施例1中基于哈希算法的企业画像数据预处理方法的流程图;图2为本发明实施例2中基于哈希算法的企业画像数据预处理系统的结构示意图;图3为本发明实施例3中基于哈希算法的企业画像数据预处理方法的流程图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。应注意到,所描述的实施例实际上仅仅是本发明一部分实施例,而不是全部的实施例,且实际上仅是说明性的,决不作为对本发明及其应用或使用的任何限制。本申请的保护范围当视所附权利要求所界定者为准。实施例1:参见图1所示为本申请所述基于哈希算法的企业画像数据预处理方法的具体实施例,该方法包括步骤:步骤101、计算企业数据库内存储的企业旧数据指标项的权重;所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价;所述企业旧数据指标项不限于这几项,有可能有上百个以上的指标项,根据实际需要设定和选取;权重的确定方法由采用的企业画像刻画模型进行定义;步骤102、设定权重阈值;该权重阈值根据实际情况具体设定,无硬性要求;步骤103、将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项;步骤104、将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为maindata;将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为secondarydata;设定顺序可根据实际情况进行设定;步骤105、计算所述maindata和所述secondarydata的哈希值,包括步骤:采用sha1算法计算所述maindata的哈希值,计算结果为mainresult;采用md5算法计算所述secondarydata的哈希值,计算结果为secondaryresult;步骤106、将所述mainresult和所述secondaryresult存入所述企业数据库内;步骤107、通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项;步骤108、将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;步骤109、将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为maindatanew;将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为secondarydatanew;所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同;步骤110、计算所述maindatanew和所述secondarydatanew的哈希值,包括步骤:采用sha1算法计算所述maindatanew的哈希值,计算结果为mainresultnew;采用md5算法计算所述secondarydatanew的哈希值,计算结果为secondaryresultnew;步骤111、比较新旧哈希值,包括步骤:当mainresultnew=mainresult,secondaryresultnew=secondaryresult时,所述企业数据库中数据指标不更新;当mainresultnew=mainresult,secondaryresultnew≠secondaryresult时,将企业次要新数据指标项更新进所述企业数据库中,同步将secondaryresultnew值赋予secondaryresult;当mainresultnew≠mainresult,secondaryresultnew=secondaryresult时,将企业主要新数据指标项更新进所述企业数据库中,同步将mainresultnew值赋予mainresult;当mainresultnew≠mainresult,secondaryresultnew≠secondaryresult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将mainresultnew值赋予mainresult,secondaryresultnew值赋予secondaryresult。还包括步骤112、重复比较新旧哈希值过程;即不停的通过互联网采集企业新数据指标项,重复以上步骤,重复进行新旧哈希值的比较过程;步骤113、进行下一个企业的企业数据指标项的比对和更新操作。本实施例属于算法应用,可应用于各主流数据库管理系统以及hdfs等新式数据存储管理技术,不受数据库产品选型、开发工具选型等的限制,具有普适性。本实施例将企业新旧数据指标项换算成哈希值来进行对比,有效提高比对效率,大大降低了比对耗费的计算资源与时间成本。将企业数据指标项分为企业主要数据指标项和企业次要数据指标项,并将企业主、次要数据指标项整合形成统一的数据串,通过该数据串计算出哈希值,将一个企业繁多的企业数据指标项变换成两个哈希值,减少了哈希值个数,简化了哈希值对比次数,降低了计算资源与时间成本。企业画像的数据采集过程中为了减少冗余,防止重复数据存储情况发生,需要对新采集数据与原有数据进行比对,确定是否为新增数据。了解哈希算法的特性后,我们可以通过哈希算法将数据库中存储的各类数据都生成为统一长度的数据指纹(哈希值),通过比较新旧数据的数据指纹(哈希值),来达到新旧数据内容一致性比对的目的。哈希算法中包括多种具体的实现算法,常用的哈希算法包括md5、sha1、sha-256、rabinhash等。不同的算法根据其计算规则不同,生成的哈希值长度不同,计算的复杂程度不同,计算时间成本不同,抗冲突性(指不同的数据生成的哈希值相同的情况发生的概率)也不尽相同。md5运算速度比sha1要快,但sha1采用了160bit哈希值,比md5多了32bit,存储内容更多,抗冲突性更好。本实施例分别将企业主要数据指标和企业次要数据指标通过sha1和md5计算哈希值,更好的平衡了运算速度与数据损失风险两者的关系,降低了计算资源的浪费,提高了数据处理效率。实施例2:参见图2所示为本申请所述基于哈希算法的企业画像数据预处理系统的具体实施例,系统包括:企业数据库管理模块201、哈希值计算模块202、数据采集模块203、权重计算模块204、数据指标项划分模块205、以及哈希值比较模块206,其中,所述企业数据库管理模块201分别与所述权重计算模块204、所述哈希值计算模块202、以及所述哈希值比较模块206相耦接,用于存储企业数据指标;提供企业数据库内存储的企业旧数据指标项给所述权重计算模块204,接收所述哈希值计算模块202发送的mainresult和secondaryresult;接收所述哈希值比较模块206发送的mainresultnew、secondaryresultnew、企业主要新数据指标项、以及企业次要新数据指标项;权重计算模块204分别与所述企业数据库管理模块201和所述数据指标项划分模块205相耦接,用于接收所述企业数据库管理模块201提供的所述企业数据库内存储的企业旧数据指标项,计算企业数据库内存储的企业旧数据指标项的权重,并将所述企业旧数据指标项的权重发送到所述数据指标项划分模块205;所述数据指标项划分模块205分别与所述权重计算模块204和所述哈希值计算模块202相耦接,用于接收所述权重计算模块204发送的所述企业旧数据指标项的权重和设定权重阈值;将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项,并将所述企业主要旧数据指标项和所述企业次要旧数据指标项发送到所述哈希值计算模块202;所述数据采集模块203与所述哈希值计算模块202相耦接,用于通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项,将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;将所述企业主要新数据指标项和所述企业次要新数据指标项发送到所述哈希值计算模块202;所述哈希值计算模块202分别与所述企业数据库管理模块201、所述数据指标项划分模块205、所述数据采集模块203、以及所述哈希值比较模块206相耦接,用于接收所述数据指标项划分模块205发送的所述企业主要旧数据指标项和所述企业次要旧数据指标项,接收所述数据采集模块203发送的所述企业主要新数据指标项和所述企业次要新数据指标项;将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为maindata,将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为secondarydata,采用sha1算法计算所述maindata的哈希值,计算结果为所述mainresult,采用md5算法计算所述secondarydata的哈希值,计算结果为所述secondaryresult;将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为maindatanew,将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为secondarydatanew,采用sha1算法计算所述maindatanew的哈希值,计算结果为mainresultnew,采用md5算法计算所述secondarydatanew的哈希值,计算结果为secondaryresultnew;将所述mainresult和所述secondaryresult发送到所述企业数据库管理模块201和所述哈希值比较模块206;将所述mainresultnew和所述secondaryresultnew发送到所述哈希值比较模块206;所述哈希值比较模块206分别与所述企业数据库管理模块201和所述哈希值计算模块202相耦接,用于接收所述哈希值计算模块202发送的所述mainresult、所述secondaryresult、所述mainresultnew和所述secondaryresultnew,并进行比较;当mainresultnew=mainresult,secondaryresultnew=secondaryresult时,所述企业数据库管理模块201中数据指标不更新;当mainresultnew=mainresult,secondaryresultnew≠secondaryresult时,将所述企业次要新数据指标项更新进所述企业数据库管理模块201中,同步将secondaryresultnew值赋予secondaryresult;当mainresultnew≠mainresult,secondaryresultnew=secondaryresult时,将所述企业主要新数据指标项更新进所述企业数据库管理模块201中,同步将mainresultnew值赋予mainresult;当mainresultnew≠mainresult,secondaryresultnew≠secondaryresult时,将所述企业主要新数据指标项和所述企业次要新数据指标项都更新进所述企业数据库管理模块201中,同步将mainresultnew值赋予mainresult,secondaryresultnew值赋予secondaryresult。其中,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价等。所述哈希值比较模块206还用于重复比较新旧哈希值。实施例3:在实施例1的基础上,参见图3所示为本申请所述基于哈希算法的企业画像数据预处理方法的一个应用实施例。为了便于理解,本实施例选取企业数据库中10个企业数据指标项进行说明,参见下表1所示,表1中所列权重值为模拟值,权重的确定方法由采用的企业画像刻画模型进行定义。表1企业旧数据指标项和权重值企业旧数据指标项权重值注册资本0.20出口规模0.17对外投资0.15专利数量0.13涉诉案件数量0.10股权变更0.09招聘人员数0.07招聘评论0.05社交舆论0.03员工评价0.01设定权重阈值为0.09,因为表1是按权重值从大到小的顺序排列的,则将权重值大于或等于0.09的前6项企业旧数据指标项作为企业主要旧数据指标项(即注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更),后4项企业旧数据指标项作为企业次要旧数据指标项(招聘人员数、招聘评论、社交舆论、员工评价)。将6项企业主要旧数据指标项按其权重值从大到小的顺序串联形成统一数据串,作为一个maindata;将4项企业次要旧数据指标项按其权重值从大到小的顺序串联形成统一数据串,作为一个secondarydata。采用sha1算法计算maindata的哈希值为mainresult,即为企业主要旧数据指纹;采用md5算法计算secondarydata的哈希值为secondaryresult,即为企业次要旧数据指纹。通过互联网采集注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价在互联网络中更新的新数据,相应的作为企业新数据指标项。将新收集的注册资本、出口规模、对外投资、专利数量、涉诉案件数量和股权变更作为企业主要新数据指标项,将新收集的招聘人员数、招聘评论、社交舆论和员工评价作为企业次要新数据指标项。根据上述相同的方法得到maindatanew和secondarydatanew,并计算出mainresultnew,即为企业主要新数据指纹,计算出secondaryresultnew,即为企业次要新数据指纹。分别将mainresultnew和mainresult、secondaryresultnew和secondaryresult进行比对,当mainresultnew=mainresult,secondaryresultnew=secondaryresult时,所述企业数据库不执行更新操作;当mainresultnew=mainresult,secondaryresultnew≠secondaryresult时,将企业次要新数据指标项更新进所述企业数据库中,同步将secondaryresultnew值赋予secondaryresult;当mainresultnew≠mainresult,secondaryresultnew=secondaryresult时,将企业主要新数据指标项更新进所述企业数据库中,同步将mainresultnew值赋予mainresult;当mainresultnew≠mainresult,secondaryresultnew≠secondaryresult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将mainresultnew值赋予mainresult,secondaryresultnew值赋予secondaryresult。所有操作执行完毕后,继续进行下一个企业的企业数据指标项的比对和更新操作。通过以上各实施例可知,本申请存在的有益效果是:第一,本发明将企业新旧数据指标项换算成哈希值来进行对比,可有效提高比对效率,大大降低了比对耗费的计算资源与时间成本。第二,本发明将企业数据指标项分为企业主要数据指标项和企业次要数据指标项,并将企业主、次要数据指标项整合形成统一的数据串,通过该数据串计算出哈希值,将一个企业繁多的企业数据指标项变换成两个哈希值,减少了哈希值个数,简化了哈希值对比次数,降低了计算资源与时间成本。第三,本发明分别将企业主要数据指标和企业次要数据指标通过不同的哈希算法计算哈希值,更好的平衡了运算速度与数据损失风险两者的关系,降低了计算资源的浪费,提高了数据处理效率。上面通过附图和实施例,对本发明的技术方案做虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本发明的范围由所附权利要求来限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1