一种精准识别高风险建筑企业的方法、系统及设备与流程

文档序号:31336987发布日期:2022-08-31 09:03阅读:来源:国知局

技术特征:
1.一种精准识别高风险建筑企业的方法,其特征在于,包括以下步骤:基于互联网数据进行信息收集;第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据至少包括企业诚信数据和企业金融数据;对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。2.根据权利要求1所述的精准识别高风险建筑企业的方法,其特征在于,所述对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业的步骤包括:对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述第二建筑企业数据包括:第一识别数据和第二识别数据;对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘包括:实体字段提取和事件类型抽取;基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别。3.根据权利要求2所述的精准识别高风险建筑企业的方法,其特征在于,所述第三识别数据包括:裁判文书、中标业绩、动产抵押、股权出质、是否交叉持股和活跃度。4.根据权利要求3所述的精准识别高风险建筑企业的方法,其特征在于,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤包括:对建筑业参与者的多个风险评估维度向量化以得到多个模型变量参数;建立风险识别模型;进行数据样本训练;进行风险识别模型预训练;使用风险识别模型进行建筑业参与者风险等级评估。5.根据权利要求4所述的精准识别高风险建筑企业的方法,其特征在于,所述进行数据样本训练的步骤包括:采用先验指标进行数据样本的预标注;构建分类回归树数据集合训练集;基于所述训练集进行训练,得到预训练分类回归树;通过对标签数据的不断的抽查,纠正预训练分类回归树分类错误的数据;使用公认的权威数据作为交叉验证的标准。6.根据权利要求2所述的精准识别高风险建筑企业的方法,其特征在于,所述实体字段提取的步骤包括:建立提取模型;获取标注后的预训练数据集;基于所述预训练数据集,结合bert+crf模型训练所述提取模型;运用所述提取模型提取实体字段。7.根据权利要求2所述的精准识别高风险建筑企业的方法,其特征在于,所述事件类型抽取采用基于bert-dgcnn的中文事件抽取方法,其中:第一部分为事件类型预测模型,第二
部分为对事件角色抽取模型,将第一部分的抽取结果与所述实体字段作为第二部分的输入。8.根据权利要求2所述的精准识别高风险建筑企业的方法,其特征在于,所述基于所述第一识别数据和所述第三识别数据进行分析处理以实现高风险建筑企业的识别的步骤还包括:股权穿透分析,所述股权穿透分析包括对各建筑业参与者的人员唯一性和关联关系进行判定。9.一种精准识别高风险建筑企业的系统,其特征在于,包括:信息收集模块,被配置为基于互联网数据进行信息收集;信息判断模块,被配置为从收集的信息中判断出建筑业参与者;数据采集模块,被配置为采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据包括企业诚信数据和企业金融数据;数据预处理模块,被配置为对所述第一建筑企业数据进行数据预处理以形成第二建筑企业数据,所述数据预处理模块包括第一识别单元和第二识别单元,所述第一识别单元被配置为从第二建筑企业数据中判断出第一识别数据,所述第二识别单元被配置为从第二建筑企业数据中判断出第二识别数据;数据挖掘模块,被配置为对所述第二识别数据进行数据挖掘以形成第三识别数据,所述数据挖掘模块包括:实体字段提取子模块和事件类型抽取子模块,所述实体字段提取子模块被配置为对所述第二识别数据进行实体字段的提取,所述事件类型抽取子模块被配置为基于bert-dgcnn进行中文事件抽取;风险识别模块,被配置为基于第一识别数据和第三识别数据进行分析处理以实现高风险建筑企业的识别;数据通信模块,被配置为在各模块之间传输数据;数据存储模块,被配置为存储数据采集模块、数据预处理模块、数据挖掘模块和风险识别模块的数据。10.一种精准识别高风险建筑企业的设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行如权利要求1~8任意一项所述的精准识别高风险建筑企业的方法。

技术总结
本发明涉及一种精准识别高风险建筑企业的方法、系统及设备,包括以下步骤:基于互联网数据进行信息收集;第一判断步骤,所述第一判断步骤包括:根据行业分类从收集的信息中进行建筑业参与者判断,在判断为是建筑业参与者的情况下采集所述建筑业参与者的第一建筑企业数据,所述第一建筑企业数据包括企业诚信数据和企业金融数据;对所述第一建筑企业数据进行分析处理以识别出高风险建筑企业。本发明基于互联网信息对建筑业参与者进行识别,并对其的企业诚信数据和企业金融数据进行采集,通过对采集的数据进行处理分析,呈现出建筑产业链条上各参与者的画像,精准识别出高风险建筑企业。业。业。


技术研发人员:张森 连朝晖 张大丽 谭卓 和艳玲 王迪 童雅梅
受保护的技术使用者:四川隧唐科技股份有限公司
技术研发日:2022.06.21
技术公布日:2022/8/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1