基于水费回收的风险评估方法及系统与流程

文档序号:16267158发布日期:2018-12-14 21:59阅读:340来源:国知局
基于水费回收的风险评估方法及系统与流程

本发明涉及大数据处理技术领域,具体的,涉及一种基于水费回收的风险评估方法以及应用于该方法的系统。

【背景技术】

在水费回收风险评估中,用水用户尤其是大工业用水用户未按时缴费会给水务公司带来较大的经济损失,因此,对用水用户的用水行为进行分析以确定其是否为容易欠费的风险用户显得非常重要。通过对用水用户的水费回收风险进行评估,可以确定某个用水用户是否为可能会发生欠费行为的风险用户。

目前水务公司还没有水费回收风险的意识或者方法,仅停留在对已发生水费回收问题事实的统计及原因分析阶段,工作效率低,评估结果准确性低。



技术实现要素:

本发明的主要目的是提供一种不仅可以实时的识别水费回收风险并且能够减少或避免用水用户未按时缴费的情况的基于水费回收的风险评估方法。

本发明的另一目的是提供一种不仅可以实时的识别水费回收风险并且能够减少或避免用水用户未按时缴费的情况的基于水费回收的风险评估系统。

为了实现上述的主要目的,本发明提供的基于水费回收的风险评估方法包括获取用水用户的样本数据;建立用水用户的标签库;形成水费回收风险画像;通过c5.0决策树算法对水费回收风险画像进行训练并生成分类模型,并且对分类模型进行固化;对业务系统数据库进行实时监控,当检测到有数据源变化时,对用户敏感数据进行分析并生成实时用户标签;通过爬虫工具结合互联网舆情系统的数据并生成舆情标签;根据实时用户标签、舆情标签、标签库的标签通过固化后的分类模型对用户水费回收风险进行评估。

进一步的方案是,从业务系统数据库中抽取营收系统、报装系统、呼叫中心系统、微信服务系统、网上营业厅系统和网页爬虫系统中的全景数据,并且通过etl工具对全景数据进行融合清洗后,根据业务属性对融合清洗后的全景数据进行聚类产生样本数据,其中,样本数据包括用户档案数据、水表档案数据、抄表数据、智能水表数据、收费数据、报装数据、服务工单数据、热线数据、停水通知数据、水质数据、水压数据和舆情等数据。

更进一步的方案是,对样本数据进行统计分析和聚类分类,并且形成标签库;标签库包括基本标签、安全标签、违约违章标签、合作标签和舆情标签。

更进一步的方案是,从样本数据和标签库中筛选或计算用于进行水费回收风险评估的数据,并且形成水费回收风险评估标签;将用户户号与水费回收风险评估标签一一对应,并形成用水用户的水费回收风险画像。

更进一步的方案是,对水费回收风险画像进行训练,并得到分类模型的分类准确度、准确分类覆盖率和分类稳定性;判断分类准确度、准确分类覆盖率和分类稳定性是否达到预设值,若分类准确度、准确分类覆盖率和分类稳定性均达到预设值,则对分类模型进行固化。

由此可见,本发明提供的基于水费回收的风险评估方法对用水用户的原始全景数据进行融合清洗后,根据业务属性进行聚类获取样本数据;对样本数据进行统计分析和聚类分类,形成用水用户标签库;从样本数据和用水用户标签体库中筛选或计算用于进行水费回收风险评估的数据,形成水费回收风险评估标签,并且通过户号打通上述水费回收风险评估标签,每个户号对应一系列标签,形成用水用户的水费回收风险画像;根据水费回收风险画像训练并固化c5.0决策树模型,然后使用已固化的模型进行水费回收的风险进行评估,可以实时的识别水费回收风险并且能够减少或避免用水用户未按时缴费的情况。

另外,本发明提供的风险评估方法可以定期或者根据水费回收风险评估准确度更新优化已经固化的分类模型,实现对模型的更新和优化。

为了实现上述的另一目的,本发明还提供一种基于水费回收的风险评估系统,包括样本获取模块,用于获取用水用户的样本数据;标签库模块,用于建立用水用户的标签库;画像形成模块,用于形成水费回收风险画像;模型建立模块,用于通过c5.0决策树算法对水费回收风险画像进行训练并生成分类模型,并且对分类模型进行固化;第一标签生成模块,用于对业务系统数据库进行实时监控,当检测到有数据源变化时,对用户敏感数据进行分析并生成实时用户标签;第二标签生成模块,用于通过爬虫工具结合互联网舆情系统的数据并生成舆情标签;风险评估模块,用于根据实时用户标签、舆情标签、标签库的标签通过固化后的分类模型对用户水费回收风险进行评估。

进一步的方案是,从业务系统数据库中抽取营收系统、报装系统、呼叫中心系统、微信服务系统、网上营业厅系统和网页爬虫系统中的全景数据,并且通过etl工具对全景数据进行融合清洗后,根据业务属性对融合清洗后的全景数据进行聚类产生样本数据,其中,样本数据包括用户档案数据、水表档案数据、抄表数据、智能水表数据、收费数据、报装数据、服务工单数据、热线数据、停水通知数据、水质数据、水压数据和舆情等数据。

更进一步的方案是,对样本数据进行统计分析和聚类分类,并且形成标签库;标签库包括基本标签、安全标签、违约违章标签、合作标签和舆情标签。

更进一步的方案是,从样本数据和标签库中筛选或计算用于进行水费回收风险评估的数据,并且形成水费回收风险评估标签;将用户户号与水费回收风险评估标签一一对应,并形成用水用户的水费回收风险画像。

更进一步的方案是,对水费回收风险画像进行训练,并得到分类模型的分类准确度、准确分类覆盖率和分类稳定性;判断分类准确度、准确分类覆盖率和分类稳定性是否达到预设值,若分类准确度、准确分类覆盖率和分类稳定性均达到预设值,则对分类模型进行固化。

由此可见,本发明提供的基于水费回收的风险评估系统对用水用户的原始全景数据进行融合清洗后,根据业务属性进行聚类获取样本数据;对样本数据进行统计分析和聚类分类,形成用水用户标签库;从样本数据和用水用户标签体库中筛选或计算用于进行水费回收风险评估的数据,形成水费回收风险评估标签,并且通过户号打通上述水费回收风险评估标签,每个户号对应一系列标签,形成用水用户的水费回收风险画像;根据水费回收风险画像训练并固化c5.0决策树模型,然后使用已固化的模型进行水费回收的风险进行评估,可以实时的识别水费回收风险并且能够减少或避免用水用户未按时缴费的情况。

另外,本发明提供的风险评估系统可以定期或者根据水费回收风险评估准确度更新优化已经固化的分类模型,实现对模型的更新和优化。

【附图说明】

图1是本发明基于水费回收的风险评估方法实施例的流程框图。

图2是本发明基于水费回收的风险评估系统实施例的原理框图。

【具体实施方式】

为了使发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限用于本发明。

基于水费回收的风险评估方法实施例:

参见图1,本实施例的风险评估方法在对水费回收进行风险评估时,首先,执行步骤s1,获取用水用户的样本数据,其中,从业务系统数据库中抽取营收系统、报装系统、呼叫中心系统、微信服务系统、网上营业厅系统和网页爬虫系统中的全景数据。优选地,数据抽取工具为etl工具,并且可以通过etl工具对抽取过来的全景数据进行融合清洗后,根据业务属性对融合清洗后的全景数据进行聚类产生样本数据。所以,etl工具可以用来描述将数据从来源端经过抽取、交互转换、加载至目的端的过程,数据抽取高效稳定。

在本实施例中,样本数据包括用户档案数据、水表档案数据、抄表数据、智能水表数据、收费数据、报装数据、服务工单数据、热线数据、停水通知数据、水质数据、水压数据和舆情等数据。

然后,执行步骤s2,建立用水用户的标签库。具体地,对样本数据进行统计分析和聚类分类,并且形成标签库。其中,标签库包括基本标签、安全标签、违约违章标签、合作标签和舆情标签,基本标签包括但不限于:用水量等级标签、用水量波动等级标签、小区档次、年龄段等标签;安全标签包括但不限于:事故次数、事故严重度等标签;违约违章标签包括但不限于:违章用水次数、欠费次数、欠费原因等标签;合作标签包括但不限于热线类型、热线次数等标签;舆情标签包括但不限于:舆情等级、舆情次数等标签。

接着,执行步骤s3,形成水费回收风险画像。其中,从样本数据和标签库中筛选或计算用于进行水费回收风险评估的数据,并且形成水费回收风险评估标签,将用户户号与水费回收风险评估标签一一对应,并形成用水用户的水费回收风险画像,通过用户户号关联上述水费回收风险评估标签,每个用户户号对应一系列标签,形成用水用户的水费回收风险画像。

然后,执行步骤s4,对水费回收风险画像进行训练并生成分类模型,并且对分类模型进行固化,其中,本实施例是通过c5.0决策树算法对水费回收风险画像进行训练并生成分类模型,并且对分类模型进行固化的,上述训练分类模型是领域专业人士所能理解的,优先选取的是c5.0决策树模型,通过c5.0决策树算法得到用于进行水费回收风险评估的分类模型,并使用上述分类模型对用水用户进行水费回收风险评估,评估主要从分类准确度、准确分类覆盖率和分类稳定性这些角度进行衡量,具体地,对水费回收风险画像进行训练,并得到分类模型的分类准确度、准确分类覆盖率和分类稳定性,并且判断分类准确度、准确分类覆盖率和分类稳定性是否达到预设值,若分类准确度、准确分类覆盖率和分类稳定性均达到预设值,则对分类模型进行固化。

其中,分类准确度表示如式子(1-1):

p准确度=n预测到的实际违约用户数/n预测用户数(1-1)

准确分类覆盖率表示如式子(1-2):

p准确分类覆盖率=n准确预测到的违约用户数/n实际违约用户数(1-2)

分类稳定性表示如式子(1-3):

e分类稳定性=|(p准确度i+1-p准确度i)/p准确度i|(1-3)

其中i>=1,i表示训练次数。

具体地,c5.0决策树算法通过构造多个c4.5决策树算法,是一种boosting方法,boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数,准确率更高,运行速度快,运行内存小,可以人为的加入客观规则,能够快速处理较大的数据集,执行效率高。

然后,执行步骤s5,生成实时用户标签。具体地,对业务系统数据库进行实时监控,当检测到有数据源变化时,对用户敏感数据进行分析并生成实时用户标签。在本实施例中,可以通过kafkaconnect工具实时监控业务系统数据库的用户敏感数据源。kafkaconnect工具是一种用于在kafka和其他系统之间可扩展的、可靠的流式传输数据的工具,它使得能够快速定义将大量数据集合移入和移出kafka的连接器变得简单。

接着,执行步骤s6,生成舆情标签,其中,可以通过爬虫工具结合互联网舆情系统的数据并生成舆情标签。若检测到有数据源变化后,通过实时计算框架实时分析用户敏感数据并生成实时用户标签。

优选的,实时计算框架为sparkstreaming框架,当检测到有数据源变化时,可以通过sparkstreaming框架实时分析用户的重要敏感数据,并且生成实时相关的标签,然后,结合标签库的标签利用已固化的模型实时预测用户水费回收风险。其中,sparkstreaming是建立在spark上的实时计算框架,通过它提供的丰富的api、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。

然后,执行步骤s7,根据实时用户标签、舆情标签、标签库的标签通过固化后的分类模型对用户水费回收风险进行评估。

具体地,根据新增的全景数据的重要性,其中,该重要性根据数据的来源和数据的实时性来做判断。新增的原始数据是根据时间从业务系统数据库和爬虫数据中增量获取的数据,选择使用大数据批处理技术周期性地按照步骤s1至步骤s3处理用水用户的周期内新增的原始数据或者使用大数据流式计算技术实时地按照步骤s1至步骤s3处理用水用户的实时新增的原始数据,因此,标签库里面的标签处于定期更新的状态,然后使用已固化的分类模型进行水费回收的风险评估。

另外,本发明提供的风险评估方法可以定期或者根据水费回收风险评估准确度更新优化已经固化的模型,重复执行步骤s1至步骤s7,实现对模型的更新和优化。

所以,本发明提供的基于水费回收的风险评估方法对用水用户的原始全景数据进行融合清洗后,根据业务属性进行聚类获取样本数据;对样本数据进行统计分析和聚类分类,形成用水用户标签库;从样本数据和用水用户标签体库中筛选或计算用于进行水费回收风险评估的数据,形成水费回收风险评估标签,并且通过户号打通上述水费回收风险评估标签,每个户号对应一系列标签,形成用水用户的水费回收风险画像;根据水费回收风险画像训练并固化c5.0决策树模型,然后使用已固化的模型进行水费回收的风险进行评估,可以实时的识别水费回收风险并且能够减少或避免用水用户未按时缴费的情况。

基于水费回收的风险评估系统实施例:

由图2可见,图2是本发明基于水费回收的风险评估系统实施例的原理框图。该系统包括样本获取模块10、标签库模块20、画像形成模块30、模型建立模块40、第一标签生成模块50、第二标签生成模块60以及风险评估模块70。

样本获取模块10用于获取用水用户的样本数据,其中,样本获取模块10从业务系统数据库中抽取营收系统、报装系统、呼叫中心系统、微信服务系统、网上营业厅系统和网页爬虫系统中的全景数据。

标签库模块20用于建立用水用户的标签库,具体地,标签库模块20对样本数据进行统计分析和聚类分类,并且形成标签库。

画像形成模块30用于形成水费回收风险画像,其中,画像形成模块30从样本数据和标签库中筛选或计算用于进行水费回收风险评估的数据,并且形成水费回收风险评估标签,将用户户号与水费回收风险评估标签一一对应,并形成用水用户的水费回收风险画像,通过用户户号关联上述水费回收风险评估标签,每个户号对应一系列标签,形成用水用户的水费回收风险画像。

模型建立模块40用于通过c5.0决策树算法对水费回收风险画像进行训练并生成分类模型,并且对分类模型进行固化。其中,本实施例是通过c5.0决策树算法对水费回收风险画像进行训练并生成分类模型,并且对分类模型进行固化的。

第一标签生成模块50用于对业务系统数据库进行实时监控,当检测到有数据源变化时,对用户敏感数据进行分析并生成实时用户标签。具体地,第一标签生成模块50对业务系统数据库进行实时监控,当检测到有数据源变化时,对用户敏感数据进行分析并生成实时用户标签。

第二标签生成模块60用于通过爬虫工具结合互联网舆情系统的数据并生成舆情标签,其中,可以通过爬虫工具结合互联网舆情系统的数据并生成舆情标签。

风险评估模块70,用于根据实时用户标签、舆情标签、用水用户标签库的标签通过固化后的分类模型对用户水费回收风险进行评估。

所以,本发明提供的基于水费回收的风险评估系统对用水用户的原始全景数据进行融合清洗后,根据业务属性进行聚类获取样本数据;对样本数据进行统计分析和聚类分类,形成用水用户标签库;从样本数据和用水用户标签体库中筛选或计算用于进行水费回收风险评估的数据,形成水费回收风险评估标签,并且通过户号打通上述水费回收风险评估标签,每个户号对应一系列标签,形成用水用户的水费回收风险画像;根据水费回收风险画像训练并固化c5.0决策树模型,然后使用已固化的模型进行水费回收的风险进行评估,可以实时的识别水费回收风险并且能够减少或避免用水用户未按时缴费的情况。

另外,本发明提供的风险评估系统可以定期或者根据水费回收风险评估准确度更新优化已经固化的分类模型,实现对模型的更新和优化。

需要说明的是,以上仅为本发明的优选实施例,但发明的设计构思并不局限于此,凡利用此构思对本发明做出的非实质性修改,也均落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1