数据处理方法、装置以及计算机可读介质与流程

文档序号:17722936发布日期:2019-05-22 02:18阅读:102来源:国知局
数据处理方法、装置以及计算机可读介质与流程
本公开涉及数据处理技术,并且具体地涉及用于处理互联网数据的方法、装置以及计算机可读介质。
背景技术
:随着互联网的快速发展,已成为人们获取信息的主要载体。大量企业相关的信息都能通过网络获取,比如企业的生产经营数据、招聘信息、法律诉讼数据、工商注册数据等。通过对这些数据的收集更新,就可以对企业的发展状况具有一定的了解,从而对存在经营异常的企业进行预警,保护投资者的利益。现有的企业风险指标方法,通过定义层次化的指标对企业的经营状况进行预警,一种方式是从企业的经营数据出发,另一种是依赖企业的舆情数据。而随着互联网的发展,对企业的生产经营评价,既要重视起生产经营数据,也要重视互联网舆情的影响,特别是对一些本身就是互联网的企业,如现在大量存在的网贷公司,就很容易受到网络舆情的影响。因此评价企业风险,需要将两者有机结合起来,共同预测企业的生产经营状况。鉴于以上,需要综合考虑企业的生产经营数据与舆情数据,将两者的评价方式统一起来,共同应用于企业生产经营风险的预测,保护投资者的利益。技术实现要素:根据一个方面,提供了一种数据处理方法,包括:按照预设的维度指数对与企业相关的数据进行分类;使用分类的数据分别计算每个维度指数;基于所计算的维度指数以及每个维度指数的权重计算企业的得分;以及基于得分确定是否预警。可附加和/或可替换地,与企业相关的数据可以通过互联网爬虫从互联网获取。可附加和/或可替换地,在对数据进行分类之前,可以数据进行预处理,去除标点、数字等无意义的符号信息。可附加和/或可替换地,如果企业的得分超出预定阈值,则针对企业进行预警,并输出得分。可附加和/或可替换地,预设的维度指数可以包括不可信指数、不稳定指数、收益率指数、投诉类指数和资金流指数,等等。可附加和/或可替换地,企业的得分可以计算为:企业的得分=α1*不可信指数+α2*不稳定指数+α3*受益指数+α4*投诉类指数+α5*资金流指数上式中α1,α2,α3,α4,α5为权重,可以根据业务需求进行调节,取值范围为[0,1],且满足可附加和/或可替换地,不可信指数=∑ci×si上式中ci代表案件类型,包括刑事案件、行政诉讼、知识产权纠纷,si为不同案件类型所对应的值。可附加和/或可替换地,不稳定指数=∑di×si,其中di代表企业经营变更的类型,包括法人变更、注册地址变更、注册资金变更,si为不同变更类型所对应的值。可附加和/或可替换地,收益率指数=∑ei×si其中ei代表企业营收的类型,包括单个产品收益率的环比变化数据、所有产品的平均收益变化等,si为不同收益类型所对应的值。可附加和/或可替换地,投诉类指数=∑fi×si,其中fi代表企业负面舆情的类型,为指定周期内企业负面舆情的相对增长比率,si为不同投诉类型所对应的值。可附加和/或可替换地,资金流指数=∑gi×si,其中gi代表企业资金流水的变动类型,包括交易流水的额度、次数等,si为不同资金流指数所对应的值。根据另一个方面,提供了一种数据处理装置,包括用于执行上述任一方法的单元。根据另一个方面,提供了一种其上存储有指令的计算机可读介质,所述指令当被执行时使得计算设备执行上述任一方法。附图说明作为示例并且不是作为限制地在附图的各图中图示了本发明的实施例,其中同样的参考标号指代类似的要素。图1示出了根据本发明一个实施例的数据处理方法的流程图。图2示出了根据本发明另一个实施例的数据处理方法的流程图。图3示出了根据本发明一个实施例的数据处理装置的框图。具体实施方式在详细解释本发明的任何实施例之前,应当理解,本发明并不在其应用中被限制到在以下描述中阐述或在附图中所图示的部件的构造和布置的细节。本发明能够有其他实施例并且以各种方式被实践或实行。而且,要理解,这里使用的措辞和术语是为了描述的目的,且不应被视为限制。在此使用“包括”、“包括”或“具有”及其变体意指涵盖其后列出的项目及其等效物以及附加项目。术语“安装的”、“连接的”和“耦合的”被宽泛地使用并且涵盖直接和间接的安装、连接和耦合。此外,“连接的”和“耦合的”不局限于物理或机械连接或耦合,且可包括电连接或耦合,无论是直接还是间接的。而且,电子通信和通知可以使用其他已知的手段(包括直接连接、无线连接等)进行执行。还应当指出的是,多个基于硬件和软件的设备以及多个不同的结构部件可被利用于实施本发明。此外,并且如在随后的段落中所描述,在各图中图示的具体的配置旨在举例说明本发明的实施例。替代配置是可能的。参照图1,示出根据本发明一个实施例的数据处理方法的流程图100。在步骤101中,按照预设的维度指数对与企业相关的数据进行分类。在一些示例中,与企业相关的数据是从互联网获取的数据,例如,可以通过网络爬虫或本领域已知或者未来发展的技术手段从互联网获取,本发明在此方面不受限制。根据一些实施例,在对数据进行分类前,可以对获取的数据进行预处理,例如,去除标点、数字等无意义的符号信息等等,本发明在此方面不受限制。在本文中,分类是指把具有共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别;相同内容、相同性质的数据被集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。根据本发明的一个实施例,考量预设的维度指数来进行数据的分类。例如,从网络获取的关于企业的数据可能是与舆情相关、与经营变更相关的、涉诉相关的、招聘相关的、企业营收相关的、与关联企业相关的、与资金变动相关的。示例性的,可以基于不同的维度指数,例如不可信指数、不稳定指数、收益率指数、投诉类指数、资金流指数,来将这些数据进行分类,以供后续处理。数据被分类后,进展到步骤102,可以使用分类的数据分别计算每个维度指数。例如,可以如下分别计算出维度指数。根据一个示例,不可信指数=∑ci×si上式中ci代表案件类型,例如可以包括刑事案件、行政诉讼、知识产权纠纷等等,si为不同案件类型所对应的值。根据本发明的示例,si的取值可以是基于经验的,也可以是指定的,或者以其他方式确定的。根据一个示例,不稳定指数=∑di×sidi代表企业经营变更的类型,例如可以包括法人变更、注册地址变更、注册资金变更等等,si为不同变更类型所对应的值。根据本发明的示例,si的取值可以是基于经验的,也可以是指定的,或者以其他方式确定的。根据一个示例,收益率指数=∑ei×si其中ei代表企业营收的类型,例如可以包括单个产品收益率的环比变化数据、所有产品的平均收益变化等,si为不同收益类型所对应的值。根据本发明的示例,si的取值可以是基于经验的,也可以是指定的,或者以其他方式确定的。根据一个示例,投诉类指数=∑fi×si其中fi代表企业负面舆情的类型,例如可以为指定周期内企业负面舆情的相对增长比率,si为不同投诉类型所对应的值。根据本发明的示例,si的取值可以是基于经验的,也可以是指定的,或者以其他方式确定的。根据一个示例,资金流指数=∑gi×sigi代表企业资金流水的变动类型,例如可以包括交易流水的额度、次数等,si为不同资金流指数所对应的值。根据本发明的示例,si的取值可以是基于经验的,也可以是指定的,或者以其他方式确定的。在步骤103中,基于所计算的维度指数以及每个维度指数的权重,可以计算企业的得分。仍旧以上面的示例进行说明,假设维度指数包括不可信指数、不稳定指数、收益率指数、投诉类指数、资金流指数,则可以如下计算企业的得分:企业的得分=α1*不可信指数+α2*不稳定指数+α3*受益指数+α4*投诉类指数+α5*资金流指数上式中α1,α2,α3,α4,α5为权重,可以根据业务需求进行调节,取值范围为[0,1],且满足本领域技术人员可以理解,可以根据需要增加、减少或者替换维度指数,本发明在此方面不受限制。在步骤104,可以基于得分确定是否预警。例如,如果企业的得分超出了预设的预警阈值,则可以针对该企业进行预警,例如增加预警标识、输出报警信息等等。通过适当地选定维度指数,并基于维度指数来分类因特网数据、计算维度指数和企业得分,可以高效地实现对因特网数据的处理;进一步地,可以将互联网舆情与企业生产经营数据结合起来,共同预测企业的生产经营风险。下面再参照本发明的具体实施例进一步解释说明本发明的示例性实施方案。参照图2,图示出了根据本发明另一个实施例的数据处理方法的流程图。在步骤201,通过网络爬虫从互联网中爬取企业相关的数据;在步骤202,对爬取回来的数据进行预处理,去除标点、数字等无意义的符号信息;在步骤203,对经过预处理的互联网企业数据进行主题分类,包括舆情类、经营变更类、涉诉类、招聘类、企业营收类、关联企业类、资金变动类。在步骤204,将爬取数据代入所建立的预警模型,分别计算出五个维度的指数,即不可信指数、不稳定指数、收益率指数、投诉类指数、资金流指数。具体来说,假定后台新添加一家监测企业,从互联网中爬取该企业相关信息,并经过预处理和数据分类,代入所构建的预警模型中计算五类预警指数:对于不可信指数的计算,不可信指数=刑事案件指标*a1+民事案件指标*a2+行政案件指标*a3+赔偿案件指标*a4+执行案件指标*a5+知识产权文书指标*a6+问题平台指标*a7上式中a1,a2,a3,a4,a5,a6,a7为不同案件类型所对应的积分值,其取值范围可以参考表1:表1若该企业涉及刑事案件,则根据案件的重要性,给予3到10的分值。假定该企业仅涉及普通刑事案件,而不涉及其他案件类型,则该企业的不可信指数取值为:不可信指数=50+0=50对于不稳定指数的计算,不稳定指数=法人变更指标*b1+经营范围变更指标*b2+注册地址变更指标*b3+出资额变更指标*b4+高管变更指标**b5+注册资金变更指标*b6+股权变更指标*b7+股东变更指标*b8+其他类工商变更指标*b9上式中b1,b2,b3,b4,b5,b6,b7为不同变更类型所对应的积分值,其取值范围可以参考表2:表2不稳定指数的参数取值范围b1[30,100]b2(0,20]b3(10,50]b4(0,20]b5(20,100]b6(0,30]b7(20,100]b8(20,100]b9(0,20]若该企业同时涉及法人变更和注册资金变更,则其不稳定指数的分值为不稳定指数=80+30=110对于收益类指数的计算,假定该企业主要产品有两种,则收益率指数的计算公式为:收益率指数=产品平均收益率*c1+产品a收益率环比变化*c2+产品b收益率环比变化*c3上式中c1,c2,c3为不同产品收益率环比变化所对应的积分值,其取值范围可以参考表3:表3收益率指数的参数取值范围c1(0,100]c2(0,100]c3(0,100]若该企业产品收益率环比增加,则收益率指数取值为0,若企业所有产品收益率环比减少,如产品a环比减少100%,产品b环比减少50%,两个产品对公司产品收益的权重相同,则收益率指数可表示为:收益率指数=75+100+50=225对于投诉类指数的计算,投诉类指数=负面舆情指标*d1+1天内负面舆情增长率*d2+3天内负面舆情增长率*d3+7天内负面舆情增长率*d4上式中d1,d2,d3,d4为不同产品收益率环比变化所对应的积分值,其取值范围可以参考表4:表4投诉类指数的参数取值范围d1(0,10]d2(0,20]d3(0,20]d4(0,30]假定企业首日负面舆情的排名在所有企业中排名中等,1天内负面舆情增长率30%,3天内负面舆情增长率50%,7天内负面舆情增长率50%,则投诉类指数的计算可以表述为:投诉类指数=5+10+20+30=65对于资金流指数的计算,资金流指数=单笔超过20万*e1+单笔超过100万*e2+单日累计超过1000万*e3在不同资金流指数所对应的积分值,其取值范围可以参考表5:表5若该企业单日连续多笔转出资金,每笔资金为50万,累计转出500万,则资金流指数的计算可表述为:资金流指数=5*5+35=45综上所述,假定各指数的权重相同,即α1=α2=α3=α4=α5=0.2,需要进行风险预警的阈值设置为70分,则该企业的最终得分为:企业预警积分=50*0.2+110*0.2+225*0.2+65*0.2+45*0.2=99在步骤205,如果企业预警积分超过了所设的预警阈值,需要进行预警。以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的
技术领域
,均同理包括在本发明的专利保护范围内。参照图3,示出了根据本发明一个实施例的数据处理装置300的框图。装置300可以包括网络信息抓取单元301、互联网信息预处理单元302、主题生成单元303、预警积分计算单元304和信息推送单元305。网络信息抓取单元301例如可以包括网络爬虫,用于从互联网中爬取企业相关的数据。互联网信息预处理单元302对爬取回来的数据进行预处理,去除标点、数字等无意义的符号信息。主题生成单元303可以对经过预处理的互联网企业数据进行主题分类,例如包括舆情类、经营变更类、涉诉类、招聘类、企业营收类、关联企业类、资金变动类。预警积分计算单元304可以将爬取数据代入所建立的预警模型,分别计算出五个维度的指数,如不可信指数、不稳定指数、收益率指数、投诉类指数、资金流指数。如果预警积分计算单元304计算得到的预警积分超过预设的预警阈值,则信息推送单元305可以进行预警,输出超过阈值的企业名称及其积分,以供后续处理。至少一个实施例的一个或多个方面可以由存储在计算机可读介质上的代表性代码实现,所述计算机可读介质表示和/或限定集成电路、诸如处理器内的逻辑。实施例的一个或多个部分可以通过使用软件、固件和/或硬件的不同组合而被实现。贯穿本详细描述,为了解释的目的,阐明了众多特定细节以便提供对本发明的透彻理解。然而,将对本领域技术人员显而易见的是,可以在没有这些特定细节中的一些的情况下实践实施例。在某些情况中,众所周知的结构和功能没有以详尽细节被描述以避免使实施例的发明主题模糊。因此,应当就随后的权利要求而判定本发明的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1