一种催收大数据智能服务系统及其运行方法与流程

文档序号：15492494发布日期：2018-09-21 20:54阅读：3061来源：国知局

本发明属于大数据挖掘技术领域，较为具体的，涉及到一种多用户数据采集共享聚合的系统和方法，更为具体的，涉及到催收大数据智能服务系统及其运行方法。

背景技术：

数据挖掘，又称为数据库中知识发现(khowledgediscoveryfromdatebase，简称kdd)，是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。

现有的催收平台的大数据智能服务系统，存在以下缺陷：(1)只能处理静态数据，处理动态数据的能力不足、且来源及场景模糊，使得用户在进行数据挖掘时必须一步到位，精度不高；(2)数据无法得到交叉验证，使得用户不能准确得知来源。由于这两点的缺陷，就使得催收人员的效率极大降低，从而导致催收公司的压力成本很大。

技术实现要素：

有鉴于此，本发明提供一种催收大数据智能服务系统及其运行方法。本发明的催收大数据智能服务系统及其运行方法的目的从大量的动态交互数据中，透过场景及来源分析提取出蕴藏于其中的潜在信息，提高催收的效率。

一种催收大数据智能服务系统，其包括：

数据采集接口：该数据采集接口可以连接在话务系统或者其他的数据库接口上，将这些原始数据上传到服务器中的数据库中；

数据查询模块：通过请求事件将请求数据及用户身份信息一起提交到服务器中，服务器通过索引查询数据库返回请求数据信息，同时服务器记录请求的数据及身份信息到缓存数据库；

数据缓存模块：用于保存请求时间的请求数据及身份信息；

数据显示模块：返回请求数据信息时，将被索引查询到的数据信息进行需要标记和拼接，形成较为完整的语意；

数据分析模块：定期对数据采集接口传输到服务器的原始数据和数据查询模块索引查询的数据进行清洗、并套用相应的模型评估模块进行分析；

模型评估模块：对查询人员身份信息及查询数据进信息展开，提取关键字，构建特征标识算法；

数据标识模块：缓存数据库中的数据经过数据分析模块分析、模型评估模块的特征算法计算后，对数据特征进行标识；

核心数据库：将标识后的数据存储到核心数据库。

其中，数据采集接口可以用于采集原始数据，原始数据包括话务系统的语音通话内容、语音的起止时间、拨号的对象、拨号对象的身份证、手机号码、地址、其他联系人、是否接通、拨号次数、操作员信息、贷款金额、还款周期、关联借款机构、银行等。

本发明还涉及到催收大数据智能服务系统的运行方法，其包括如下步骤：

s1：通过查询人员查询事件、查询人员主动提报、以及后台爬虫的采集数据，并将数据存入到服务器的数据库中，采集到的数据信息包括话务系统的语音通话内容、语音的起止时间、拨号的对象、拨号对象的身份证、手机号码、地址、其他联系人、是否接通、拨号次数、操作员信息、贷款金额、还款周期、关联借款机构、银行等；

s2：通过python语言对s1中采集到的数据进行统计分析，以标签的方式向用户展现数据的基本描述信息；

s3：通过python语言封装分类、聚类、关联和时间序列等数据筛选模型；提供设置相应的模型分析参数；

s4：通过python语言将数据库中的数据的结果以列表等方式展现给用户，通过查询接口可以将数据结果以json格式展示；

s5：通过使用python语言提供精确率、误差率和混淆矩阵等多种模型评估方法，并提供策略引擎模块的参数。

进一步的，步骤s1包括以下具体步骤：

s11，当特定人员查询事件时，通过预先设定好的规则策略进行标识分类，形成共性数据写入到数据缓存对列，通过分析和数据补全最终进入数据存储服务器的数据库中；

s12，当查询人员主动提报数据，通过主动提报数据进行标识分类形成的共性数据写入到数据存储服务器的数据库中；

s13，当后台爬虫的采集数据时，通过对特定的数据源进行数据采集和分析写入到数据存储服务器的数据库中。

进一步的，在步骤s2中，数据的统计分析包括以下过程：对服务器中的数据库进行数据缺失项处理、重复数据处理、噪声数据处理和异常数据处理等。

更为具体的，异常数据处理包括：对有歧义的信息、非法的身份证号码和手机号码、提交的无意义的数据、未及时更新的数据进行清洗。

进一步的，在步骤s1～s5中，需要提供以编辑配置文件的方式定制挖掘平台的功能的用户接口。

本发明构建的催收大数据智能服务系统是一种基于web的可查询、可标识、可保存的弹性数据共享空间。本发明的优势在于针对数据挖掘的不断重复、不断修改、不断迭代的复杂性，提供了一种面向多用户协作的弹性数据挖掘共享平台，极大的提高数据精准度，数据是一个不断查询、不断分享、不断标识的过程。

具体实施方式

具体实施案例1：