一种精准识别高风险建筑企业的方法、系统及设备与流程

文档序号:31336987发布日期:2022-08-31 09:03阅读:35来源:国知局
一种精准识别高风险建筑企业的方法、系统及设备与流程

1.本发明涉及数据处理技术领域,具体地,涉及一种精准识别高风险建筑企业的方法、系统及设备。


背景技术:

2.由于建筑行业有诸如关联度高、产业链长和资产负债率偏高等等行业特点,如何精准识别出高风险的建筑企业,从而避免选取到存在经营、财务等各类风险的合作对象是急需解决的技术问题。
3.现有的企业风险识别技术虽然能为企业或个人防范化解金融风险提供一些解决方案,但通常是为了满足各行各业的通用需求,所涉及的信用评估和风险评估的维度和方法无法很好的满足建筑行业对于高风险企业的识别需求;另一方面,建筑企业多采用多元化业务布局,业务范围涉及建筑工程的多个细分领域,在现有的技术中大部分仅对建筑企业自身的风险进行了评估,而忽略了其关联公司的风险,例如:在执行业务活动中关联企业会因资金等原因以自有的股权出质、不动产或动产抵押为其他方提供担保;并且,由于建筑行业的产业链长且复杂,而建筑企业的上下游的经营风险将会对其产生影响,现有的技术通常没有考虑到产业链中各参与者的风险带来的潜在的合作风险。


技术实现要素:

4.本发明的目的是提供一种精准识别高风险建筑企业的方法、系统及设备,解决了现有技术中存在的问题,通过对采集的建筑企业诚信数据和金融数据进行处理分析,精准识别出高风险建筑企业。
5.为了实现上述目的,本发明第一方面提供一种精准识别高风险建筑企业的方法,包括以下步骤:基于互联网数据进行信息收集;第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据至少包括企业诚信数据和企业金融数据;对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。
6.进一步地,所述对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业的步骤包括:对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述第二建筑企业数据包括:第一识别数据和第二识别数据;对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘包括:实体字段提取和事件类型抽取;基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别。
7.进一步地,所述第三识别数据包括:裁判文书、中标业绩、动产抵押、股权出质、是否交叉持股和活跃度。
8.进一步地,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤包括:对建筑业参与者的多个风险评估维度向量化以得到多个模型变量参数;建立风险识别模型;进行数据样本训练;进行风险识别模型预训练;使用
风险识别模型进行建筑业参与者风险等级评估。
9.进一步地,所述进行数据样本训练的步骤包括:采用先验指标进行数据样本的预标注;构建分类回归树数据集合训练集;基于所述训练集进行训练,得到预训练分类回归树;通过对标签数据的不断的抽查,纠正预训练分类回归树分类错误的数据;使用公认的权威数据作为交叉验证的标准。
10.进一步地,所述实体字段提取的步骤包括:建立提取模型;获取标注后的预训练数据集;基于所述预训练数据集,结合bert+crf模型训练所述提取模型;运用所述提取模型提取实体字段。
11.进一步地,所述事件类型抽取采用基于bert-dgcnn的中文事件抽取方法,其中:第一部分为事件类型预测模型,第二部分为对事件角色抽取模型,将第一部分的抽取结果与所述实体字段作为第二部分的输入。
12.进一步地,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤还包括:股权穿透分析,所述股权穿透分析包括对各建筑业参与者的人员唯一性和关联关系进行判定。
13.本发明第二方面提供一种精准识别高风险建筑企业的系统,其特征在于,包括:信息收集模块,被配置为基于互联网数据进行信息收集;信息判断模块,被配置为从收集的信息中判断出建筑业参与者;数据采集模块,被配置为采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据包括企业诚信数据和企业金融数据;数据预处理模块,被配置为对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述数据预处理模块包括第一识别单元和第二识别单元,所述第一识别单元被配置为从第二建筑企业数据中判断出第一识别数据,所述第二识别单元被配置为从第二建筑企业数据中判断出第二识别数据;数据挖掘模块,被配置为对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘模块包括:实体字段提取子模块和事件类型抽取子模块,所述实体字段提取子模块被配置为对所述第二识别数据进行实体字段的提取,所述事件类型抽取子模块被配置为基于bert-dgcnn进行中文事件抽取;风险识别模块,被配置为基于第一识别数据和第三识别数据进行分析处理以实现高风险建筑企业的识别;数据通信模块,被配置为在各模块之间传输数据;数据存储模块,被配置为存储数据采集模块、数据预处理模块、数据挖掘模块和风险识别模块的数据。
14.本发明第三方面提供一种精准识别高风险建筑企业的设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行前述的任一种精准识别高风险建筑企业的方法。
15.上述技术方案中,基于互联网信息对建筑企业及其关联公司、建筑业产业链中的各参与者进行识别,并对其的企业诚信数据和企业金融数据进行采集、预处理和挖掘分析后形成第一识别数据和第三识别数据,基于第一识别数据和第三识别数据进行建筑业参与者的经营能力和诚信分析可以呈现出了建筑产业链条上各参与者的画像,精准识别出高风险建筑企业;通过多渠道收集第一建筑企业数据,并对各个来源的多种格式的第一建筑企业数据进行自动化的采集、数据结构化、数据深度扩展与关联等处理,为高风险建筑企业的识别提供了全面、有效的数据支撑,还对企业经营的健康程度的判断做出重要的支持;基于
第一识别数据和第三识别数据进行股权穿透分析,能够对建筑企业及关联公司的金融风险进行识别,对建筑企业的新风险做出重要的提示,为客户避免潜在的合作风险。
附图说明
16.附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
17.图1是本发明精准识别高风险建筑企业的方法的流程示意图;
18.图2是本发明对第一建筑企业数据进行分析处理以识别出高风险建筑企业的流程示意图;
19.图3是本发明基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的流程示意图;
20.图4是本发明进行数据样本训练的流程示意图;
21.图5是本发明构建的分类回归树数据集合训练集的示例图;
22.图6是本发明实体字段提取的流程示意图;
23.图7是本发明采用bert+crf模型训练提取模型的示意图;
24.图8是本发明基于bert-dgcnn的中文事件抽取的流程示意图;
25.图9是本发明基于bert-dgcnn的中文事件抽取的示例图;
26.图10是本发明挖掘整理后的股权结构数据示例;
27.图11是本发明查询一个建筑业参与者的对外投资情况时形成的对外投资数据集合示例;
28.图12是本发明精准识别高风险建筑企业的系统的结构示意图。
具体实施方式
29.以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
30.实施例1:
31.参照图1所示,本发明实施例提供一种精准识别高风险建筑企业的方法,包括以下步骤:
32.s1:基于互联网数据进行信息收集;
33.s2:第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据至少包括企业诚信数据和企业金融数据;
34.s3:对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。
35.本实施例通过搜索引擎对政府网站、公共资源交易中心、各省市招中标网站、各地区及省市产权交易中心、中国审判流程信息公开网等多方渠道信息进行汇集,根据行业分类识别出建筑业参与者并对其企业诚信数据和金融数据进行采集,企业诚信数据包括有关于中标业绩、资质证书个数与等级、是否是央企的优质供应商/通报黑名单、失信次数、法院公告、裁判文书和行政处罚等等的相关信息,企业金融数据包括有关于其股权结构、主要人员及联系方式、分支机构、对外投资、股权出质、不动产及动产抵押等的相关信息;所述建筑
业参与者包括建筑企业及其关联公司、建筑业产业链中的各参与者,通过对建筑业参与者进行识别和信息采集可以为精准识别高风险建筑企业提供全面、有效的数据支撑。
36.具体地,如图2所示,对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业的步骤包括:
37.s31:对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述第二建筑企业数据包括:第一识别数据和第二识别数据;
38.s32:对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘包括:实体字段提取和事件类型抽取;
39.s33:基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别。
40.具体地,对第一建筑企业数据进行标准化、去重和关联统计等数据预处理后形成第二建筑企业数据,并将其存储到预先建立的建筑企业数据库中,所述第二建筑企业数据包括第一识别数据和第二识别数据,其中第一识别数据在收集过程中就可以明确下来,因为是使用明确的名字”xxxxxx有限公司”进行的搜索的数据,数据的结果数量也对应搜索企业的名字,第一识别数据包括:资质证书个数与等级、是否是央企的优质供应商、是否是央企通报黑名单、失信次数、黑名单次数和行政处罚等;第二识别数据是需要文本挖掘处理的数据,对其挖掘处理后形成的第三识别数据包括:裁判文书、中标业绩、动产抵押、股权出质、是否交叉持股和活跃度等;表1是本实施例中标业绩、裁判文书和行政处罚的字段示例。
41.[0042][0043]
表1
[0044]
本实施例基于互联网信息对建筑企业及其关联公司、建筑业产业链中的各参与者进行识别,并对建筑业参与者的企业诚信数据和企业金融数据进行采集、预处理和挖掘分析后形成第一识别数据和第三识别数据,基于第一识别数据和第三识别数据进行建筑企业的经营能力和诚信分析呈现出建筑产业链条上各参与者的画像,精准识别出高风险建筑企业。
[0045]
实施例2:
[0046]
基于本发明的第一个实施例,如图3所示,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤包括:
[0047]
s34:对建筑业参与者的多个风险评估维度向量化以得到多个模型变量参数;
[0048]
s35:建立风险识别模型;
[0049]
s36:进行数据样本训练;
[0050]
s37:进行风险识别模型预训练;
[0051]
s38:使用风险识别模型进行建筑业参与者风险等级评估。
[0052]
本实施例对建筑业参与者的多个风险评估维度向量化以得到多个模型变量参数,依据模型变量参数建立风险识别模型,模型变量参数至少包括:财报数据、企业中标业绩、活跃度、资质分析、是否跟央企的优质供应商、是否是央企通报黑名单、公司裁判文书、法院公告、开庭公告、失信信息、被执行信息、交叉持股情况、股权分析、股权出质、动产抵押和是否信用平台黑名单和是否有行政处罚,应用时风险识别模型可以随着数据源的增多而进行优化。
[0053]
进一步地,如图4所示,进行数据样本训练的步骤包括:
[0054]
s361:采用先验指标进行数据样本的预标注;
[0055]
s362:构建分类回归树数据集合训练集;
[0056]
s363:基于所述训练集进行训练,得到预训练分类回归树;
[0057]
s364:通过对标签数据的不断的抽查,纠正预训练分类回归树分类错误的数据;
base中文版实现句子级编码;采用膨胀门卷积神经网络进行特征捕捉,可以在不增加模型参数的前提下捕捉到更远距离的特征,接着对dgcnn的输出进行池化,使得要处理的特征个数和参数减少,本实施例中使用的是平均池化方法,通过平均池化可以保留数据整体的特征,在应用时也可以使用最大池化、随机池化等方法;然后将含有多个事件类型的文本视作一个多标签任务,分类层使用一个全连接层后,以池化结果作为输入,使用sigmoid函数进行输出。
[0071]
进一步地,事件角色抽取模型的模型结构与事件类型预测模型除输出部分外基本一致;输入部分:将前一模型预测结果与事件角色拼接作为bert输入sequence 1,文本作为输入sequence 2;输出部分:使用类似于在squad等阅读理解任务上的输出,每个token有两个作为事件论元角色首末地址的概率输出,这些概率不互斥所以使用sigmoid输出,并且便于加入先验分数、选取多个候选项和进行阙值筛选等,图9是基于bert-dgcnn的中文事件抽取的示例图。
[0072]
进一步地,本实施例基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤还包括:股权穿透分析,所述股权穿透分析包括对各建筑业参与者的人员唯一性和关联关系进行判定,并将判定结果存储至建筑企业数据库以及做可视化处理。
[0073]
具体地,对于股权穿透分析需要对采集到的第一建筑企业数据中包含的关于股权结构的数据进行预处理和挖掘整理,图10为挖掘整理后的股权结构数据示例;通常关联性企业之间往往存在交叉持股或人员互补,通过对采集的国家企业信息信用公示系统中的股东(包括法人股东和自然人股东)及主要人员(含联系方式)信息进行分析处理对各建筑业参与者的人员进行唯一性确定;企业间关联关系的判定主要分别通过对以下数据进行分析处理得到:1、对分支机构、对外投资的数据进行分析处理,企业在经营过程中根据业务需要会成立子公司、分公司,或通过持股控制其他公司,形成共同控制或处于同一控制下,通过国家企业信用信息公示系统,汇集各企业之间的投资、被投资,共同控制、同一控制的关系;2、通过对企业年报股、股权出质、不动产及动产抵押等数据分析处理,主要通过以下两种方法获取数据:(1)通过上市公司公开的年报信息、巨浪咨询、上海清算网、各个地市企业诚信监督市场公示的非上市公司财务报表中表现的净利润、总资产和净利润等财务指标来获取数据;(2)通过搜索引擎汇集各大证券交易所、各省市不动产交易中心、各省市工商系统的质押、抵押信息;通过多渠道收集的第一建筑企业数据为确定人员唯一性、判定企业间的关联关系等提供了全面、有效的数据支撑;图11示出了查询一个建筑业参与者的对外投资情况时形成的对外投资数据集合,把这些数据导入neo4j图形数据就可以查询一个参与者是否有递归股权穿透的情况;本实施例在对股权分析情况进行可视化处理时,还基于建筑企业数据库关联了各个建筑业参与者的基本信息、风险等级等各类数据;本发明基于第一识别数据和第三识别数据进行股权穿透分析,呈现出建筑产业链条上各参与者的画像,能够对建筑企业及关联公司、上下游企业的金融风险进行识别,对建筑企业的新风险做出重要的提示,为客户避免潜在的合作风险;应用时,可以基于建筑企业、其关联公司及上、下游企业的风险等级进行该建筑企业的风险等级综合评估,并结合用户的其他需求(比如地理位置、运输成本、合作协议等等)和综合评估的风险等级等因素进行建筑企业的排序和推送,为用户推选优秀的建筑企业进行合作。
[0074]
本实施例中的建筑企业数据库的数据源来源于国内政府、发改委、财政、公共资源交易等多个渠道,实时监控各大基建相关网站,精准覆盖99%的建筑施工企业,各个来源的多种格式的项目、企业信息通过自动化的采集、数据标准化/结构化、数据深度扩展与关联等处理,将建筑工程项目信息按照行业、区域、项目类型、投资额和中标金额等字段提取数据可以对建筑企业经营的健康程度的判断做出重要的支持。
[0075]
如图12所示,本发明还提供一种精准识别高风险建筑企业的系统,包括:信息收集模块1,被配置为基于互联网数据进行信息收集;信息判断模块2,被配置为从收集的信息中判断出建筑业参与者;数据采集模块3,被配置为采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据包括企业诚信数据和企业金融数据;数据预处理模块4,被配置为对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述数据预处理模块4包括第一识别单元41和第二识别单元42,所述第一识别单元41被配置为从第二建筑企业数据中判断出第一识别数据,所述第二识别单元42被配置为从第二建筑企业数据中判断出第二识别数据;数据挖掘模块5,被配置为对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘模块5包括:实体字段提取子模块51和事件类型抽取子模块52,所述实体字段提取子模块51被配置为对所述第二识别数据进行实体字段的提取,所述事件类型抽取子模块52被配置为基于bert-dgcnn进行中文事件抽取;风险识别模块6,被配置为基于第一识别数据和第三识别数据进行分析处理以实现高风险建筑企业的识别;数据通信模块,被配置为在各模块之间传输数据;数据存储模块7,被配置为存储数据采集模块3、数据预处理模块4、数据挖掘模块5和风险识别模块6的数据。
[0076]
本发明精准识别高风险建筑企业的系统的具体实施方式与上述精准识别高风险建筑企业的方法各实施例基本相同,在此不再赘述。
[0077]
本发明还提供一种精准识别高风险建筑企业的设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行前述的精准识别高风险建筑企业的方法。
[0078]
本发明项目精准识别高风险建筑企业的设备的具体实施方式与上述精准识别高风险建筑企业的方法各实施例基本相同,在此不再赘述。
[0079]
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
[0080]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
[0081]
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1