识别互联网金融借贷企业经营异常的方法、终端设备及存储介质与流程

文档序号:14217363阅读:171来源:国知局

本发明涉及信息处理技术领域,具体是一种基于知识图谱识别互联网金融借贷企业经营异常的方法、终端设备及存储介质。



背景技术:

随着互联网和金融行业的快速发展,出现了大量互联网金融借贷企业,与传统金融企业相比,借助于互联网的快速传播,互联网金融借贷企业的运营效率更高,经营模式更灵活,尤其对促进小微企业的经济发展有积极意义。另一方面,互联网金融借贷企业受到的金融监管要较传统金融企业弱,也不需要什么固定资产投资,初始投入资本的门槛低,目前已经发展出来的业务模式包括小额贷款公司、p2p理财、担保公司、投资管理顾问等形式。

传统的金融企业主要依据财务数据,比如销售收入、流动资产、负债总额等作为评价企业运营状况的指标。而互联网金融借贷企业很多本身也是小微企业,财务制度不完善,存在部分企业通过构建虚假投资标的诈骗投资者的情况。考虑到互联网金融借贷企业主要的业务都是通过网上交易完成,因而可以通过从互联网上获取互联网金融借贷企业经营相关的各种数据,来对其经营状况进行评价。

互联网上可以获取的互联网金融借贷企业数据多种多样,包含交易数据、新闻数据、财务数据等,数据的格式和标准也不统一,不易对数据进行提取及分析。



技术实现要素:

为了解决上述问题,本发明提供一种基于知识图谱识别互联网金融借贷企业经营异常的方法、终端设备及存储介质,通过从互联网上采集企业的注册信息、交易数据、招聘信息、舆情信息、财务数据等,采用资源描述框架(rdf,resourcedescriptionframework)的形式将不同结构的企业数据进行抽取形成企业的知识数据,共同构建企业的知识图谱信息,并结合机器学习的方法,能从多个维度建立起企业经营异常的识别模型,从而有效提升对经营异常互联网金融企业的识别能力。此外,通过所建的企业知识图谱,还能识别出与异常经营企业存在法律连带责任的企业,以便进行预警。

本发明一种基于知识图谱识别互联网金融借贷企业经营异常的方法,包括如下步骤:

s1:获取互联网金融借贷企业的企业基础信息、招聘信息、投资标的信息、网络舆情信息和财务信息,构建其包括企业基础信息知识库、企业招聘信息知识库、企业投资标的知识库、企业网络舆情知识库和企业财务信息知识库的企业知识库,进入s2步骤;

s2:从s1所构建的企业知识库中,按照rdf三元组的结构,提取各种知识库中的实体名称和关系名称,存入知识图谱数据库中,形成包含企业基础信息实体、企业招聘信息实体、企业投资标的实体、企业网络舆情实体和企业财务信息实体的企业实体数据库,进入s3步骤;

s3:在s2所建立的企业实体数据库中,将同一个企业的多个实体的数据库进行关联,构建该企业的企业信息知识图谱,进入s4步骤;

s4:分析能够评价互联网金融借贷企业经营异常的各种经营数据,根据各种经营数据的特点,选用适宜的机器学习的算法,从s3中建立的企业信息知识图谱中抽取和各种经营数据有关的知识数据,包括应用自然语言处理算法和分类算法,从s3中建立的企业信息知识图谱中,抽取企业基础信息实体中的内容,按地理位置或资金规模对企业进行分类,给企业加上地理位置或资金规模的标签;应用自然语言处理算法,从s3中建立的企业信息知识图谱中,抽取企业基础信息实体中的司法协助信息和企业变更信息,给企业加上是否存在司法违约或变更的标签;应用正则匹配算法和分类算法,从s3中建立的企业信息知识图谱中,抽取企业招聘信息实体中的内容,划分企业在行业中的薪酬福利等级,作为企业综合实力的参考;应用时间序列算法和回归算法,从s3中建立的企业信息知识图谱中,抽取企业投资标的实体中的内容,预测企业投资标的的发布规模和投资收益;应用自然语言处理算法,从s3中建立的企业信息知识图谱中,抽取企业网络舆情实体中的内容,并进行文本的语义分析和情感分析;应用分类算法,从s3中建立的企业信息知识图谱中,抽取企业财务信息实体中的内容,进行企业盈利能力的分类对比。基于以上构建的多种分析模型,分析获取能够评价互联网金融借贷企业经营异常的各种经营数据,从多个维度对互联网金融借贷企业进行经营异常的风险预测,识别出经营异常的互联网金融借贷企业。

进一步的,还包括s5:根据s3中建立的企业信息知识图谱,将与s4中已识别出的经营异常的互联网金融借贷企业具有法律连带责任的企业列入经营异常预警名单,并进行推送。

进一步的,s1中,通过爬虫抓取来获取互联网金融借贷企业的企业基础信息、招聘信息、投资标的信息、网络舆情信息和财务信息。

进一步的,s4中,机器学习的算法包括:正则匹配算法、分类算法、自然语言处理算法、时间序列算法和回归算法。

进一步的,s4中,评价互联网金融借贷企业经营异常的各种经营数据包括:企业存在违法经营行为、主要负责人离职、高级岗位离职率高、企业薪酬明显过高、企业发布的投资标的存在投资收益或投资规模明显高于预测值、企业获得的负面评价或负面新闻的数量高于设定的阈值或企业的营收能力低于设定的阈值。

本发明一种基于知识图谱识别互联网金融借贷企业经营异常的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于知识图谱识别互联网金融借贷企业经营异常的方法的步骤。

本发明一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于知识图谱识别互联网金融借贷企业经营异常的方法的步骤。

本发明的有益效果:

1.通过采用资源描述框架(rdf,resourcedescriptionframework)的形式可以将不同结构的企业数据进行抽取形成企业的知识数据,以便对各种知识数据进行融合,形成企业的知识图谱。再结合机器学习的算法,从而可以从多个维度对互联网金融借贷企业的运营状况进行描述,识别出经营异常的互联网金融借贷企业。

2.能够将已识别出的经营异常的互联网金融借贷企业具有法律连带责任的企业列入经营异常预警名单,并进行推送。

附图说明

图1为本发明实施例一的方法流程图;

图2为本发明实施例一的企业基础信息知识库示意图;

图3为本发明实施例一的企业招聘信息知识库示意图;

图4为本发明实施例一的企业投资标的知识库示意图;

图5为本发明实施例一的企业网络舆情知识库示意图;

图6为本发明实施例一的企业财务信息知识库示意图;

图7为本发明实施例一的企业信息知识图谱示意图。

具体实施方式

为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

实施例一:

请参阅图1-图7所示,本发明提供了一种基于知识图谱识别互联网金融借贷企业经营异常的方法,

本发明所阐述的方法具体过程如下:

s1:通过爬虫抓取来获取互联网金融借贷企业的企业基础信息、招聘信息、投资标的信息、网络舆情信息和财务信息,构建其包括企业基础信息知识库、企业招聘信息知识库、企业投资标的知识库、企业网络舆情知识库和企业财务信息知识库的企业知识库,

s2:从s1所构建的企业知识库中,按照rdf三元组的结构,提取各种知识库中的实体名称和关系名称,存入知识图谱数据库中,形成包含企业基础信息实体、企业招聘信息实体、企业投资标的实体、企业网络舆情实体和企业财务信息实体的企业实体数据库,

s1和s2步骤中,具体地,如图2所示,通过网络爬虫从国家企业信用信息公示系统中获取企业的基础信息,如企业营业执照信息、主要负责人信息、变更信息、发起人及出资信息、司法协助信息等,构建企业基础信息知识库。并按照rdf的数据形式从企业基础信息知识库中抽取数据形成企业基础信息实体,存储到知识图谱数据库中。

如图3所示,通过网络爬虫从主要招聘网站中获取企业的招聘信息,如招聘职位、招聘人数、工作地点、福利待遇等,构建企业招聘信息知识库,并按照rdf的数据形式从企业招聘信息知识库库中抽取数据形成企业招聘信息实体,存储到知识图谱数据库中。

如图4所示,通过网络爬虫从互联网金融借贷企业的网站上获取企业的投资标的信息,如投资类型、投资对象、投资金额、投资用途等,构建企业投资标的知识库,并按照rdf的数据形式从企业投资标的知识库中抽取数据形成企业投资标的实体,存储到知识图谱数据库中;

如图5所示,通过网络爬虫从新闻、博客、论坛、贴吧等主要网站获取企业的新闻消息、网络评论等,构建企业网络舆情知识库,并按照rdf的数据形式从企业网络舆情知识库中抽取数据形成企业网络舆情实体,存储到知识图谱数据库中;

如图6所示,通过网络爬虫获取企业的营业收入、销售费用、纳税信息等,构建企业财务信息知识库,并按照rdf的数据形式从企业财务信息知识库中抽取数据形成企业财务信息实体,存储到知识图谱数据库中;

s3:在s2所建立的企业实体数据库中,将同一个企业的多个实体的数据库进行关联,构建该企业的如图7所示的包含企业基础信息实体、企业招聘信息实体、企业投资标的实体、企业网络舆情实体和企业财务信息实体的企业信息知识图谱,进入s4步骤;

s4:分析能够评价互联网金融借贷企业经营异常的各种经营数据,各种经营数据包括但不限于:企业存在违法经营行为、主要负责人离职、高级岗位离职率高、企业薪酬明显过高、企业发布的投资标的存在投资收益或投资规模明显高于预测值、企业获得的负面评价或负面新闻的数量高于设定的阈值或企业的营收能力低于设定的阈值等。根据各种经营数据的特点,选用适宜的机器学习的算法,机器学习的算法包括但不限于:正则匹配算法、分类算法、自然语言处理算法、时间序列算法和回归算法等,从s3中建立的企业信息知识图谱中抽取和各种经营数据有关的知识数据,进而分析获得能够评价互联网金融借贷企业经营异常的各种经营数据,从多个维度对互联网金融借贷企业进行经营异常的风险预测,识别出经营异常的互联网金融借贷企业。

具体地,应用自然语言处理算法抽取企业基础信息实体中的内容,如企业的办公地址、企业法人、注册资金等信息,然后应用分类算法对所抽取的企业信息进行分类。比如,根据企业的办公地址打上省、市两级的地理位置标签,便于将相同地理位置的企业进行对比;根据企业注册资金的多少划分为不同的等级,作为企业抵抗风险能力的一个依据。应用自然语言处理算法,抽取企业基础信息实体中的司法协助信息和企业变更信息,如果企业存在违法经营行为或者主要负责人离职等影响到企业正常经营的事项,则预警企业经营异常。应用正则匹配算法和分类算法,抽取企业招聘信息实体中的内容,划分企业在行业中的薪酬福利等级,作为企业综合实力的参考,如果企业存在企业薪酬明显过高的情况,则预警企业经营异常。同时根据企业发布的职位信息,与行业均值对比,如果企业存在人事变动比较频繁,尤其是高级岗位离职率高的问题,则预警企业经营异常。应用时间序列算法和回归算法,抽取企业投资标的实体中的内容,预测企业投资标的的发布规模和投资收益。如果企业发布的投资标的存在投资收益或投资规模明显高于算法预测值的情况,则预警企业经营异常。应用自然语言处理算法和深度学习算法,如词向量、循环神经网络、对抗神经网络等,抽取企业网络舆情实体中的内容,进行语义分析和情感分析,如果企业获得的负面评价或负面新闻的数量高于设定的阈值,则预警企业经营异常。其中阈值的设定可以参考行业均值。应用分类算法,抽取企业财务信息实体中的内容,依据企业的纳税信息、营业收入、销售费用等对企业打上不同的类别标签,比如高营收高销售、低营收高销售等,作为企业运营模式的参考。根据企业的运营模式和所抽取的企业财务信息,构建企业盈利模式的知识数据,若企业的营收能力明显低于同类别企业的行业均值,则预警企业经营异常。以上能够评价互联网金融借贷企业经营异常的各种经营数据中,只要存在一个以上(包括一个)经营异常数据,即预警企业经营异常。

本方法还包括s5:根据s3中建立的企业信息知识图谱,将与s4中已识别出的经营异常的互联网金融借贷企业具有法律连带责任的企业列入经营异常预警名单,并进行推送。

具体地,当识别出经营异常的互联网金融借贷企业后,通过所建的企业信息知识图谱,将与互联网金融借贷企业具有密切关联关系的企业也列入经营异常预警名单。所述密切关联关系包含法人代表相同的公司、所投资的子公司、承担担保关系的合作公司等在法律上需要承担连带责任的公司。

实施例二:

本发明还提供一种基于知识图谱识别互联网金融借贷企业经营异常的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述方法实施例中的步骤,例如图1-图7所示的步骤的方法步骤。

进一步地,作为一个可执行方案,所述基于知识图谱识别互联网金融借贷企业经营异常的终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于知识图谱识别互联网金融借贷企业经营异常的终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述基于知识图谱识别互联网金融借贷企业经营异常的终端设备的组成结构仅仅是基于知识图谱识别互联网金融借贷企业经营异常的终端设备的示例,并不构成对基于知识图谱识别互联网金融借贷企业经营异常的终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于知识图谱识别互联网金融借贷企业经营异常的终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。

进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于知识图谱识别互联网金融借贷企业经营异常的终端设备的控制中心,利用各种接口和线路连接整个基于知识图谱识别互联网金融借贷企业经营异常的终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于知识图谱识别互联网金融借贷企业经营异常的终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述基于知识图谱识别互联网金融借贷企业经营异常的终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

本发明一种基于知识图谱识别互联网金融借贷企业经营异常的方法、终端设备及存储介质,通过采用资源描述框架(rdf,resourcedescriptionframework)的形式可以将不同结构的企业数据进行抽取形成企业的知识数据,以便对各种知识数据进行融合,形成企业的知识图谱。再结合机器学习的算法,从而可以从多个维度对互联网金融借贷企业的运营状况进行描述,识别出经营异常的互联网金融借贷企业。并且本发明能够将已识别出的经营异常的互联网金融借贷企业具有法律连带责任的企业列入经营异常预警名单,并进行推送。

尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1