基于升级多差树模型的投诉升级预测方法及装置与流程

文档序号：21274035发布日期：2020-06-26 23:07阅读：322来源：国知局

本发明实施例涉及通信技术领域，尤其涉及一种基于升级多差树模型的投诉升级预测方法及装置。

背景技术：

客户投诉升级预测是运营商行业中服务质量管理的一项非常重要的研究课题。随着移动通信技术的高速发展及普及，直接带来用户数快速式增长，一定程度上给用户投诉处理带来巨大的挑战。

运营商在面对客户的投诉问题时，目前最普遍的处理方法是客服人员被动倾听和记录用户的诉求问题，然后通过对客户反馈信息进行核实处理，再将最终处理结果进行电话回访，此步骤客户是否会存在升级行为，基本通过度依赖当班客服人为判断，因此，会一定程度影响问题处理效率及用户体验。

为了提升投诉处理效率及满意程度，需采用科学评估方法对客户可能存在的升级投诉倾向进行预测，减少人为判断因素。最终依据预测结果进行事前介入，针对性的开展关怀及安抚，从而加强投诉处理的预防及管控工作。

技术实现要素：

本发明实施例的目的是提供一种克服上述问题或者至少部分地解决上述问题的基于升级多差树模型的投诉升级预测方法及装置。

为了解决上述技术问题，一方面，本发明实施例提供一种基于升级多差树模型的投诉升级预测方法，包括：

获取目标用户的投诉指标信息；

将所述投诉指标信息，输入至预先构建的升级多差树模型，输出所述目标用户的投诉是否会升级的预测结果，其中，所述升级多差树模型由多个决策树构成。

另一方面，本发明实施例提供一种基于升级多差树模型的投诉升级预测装置，包括：

获取模块，用于获取目标用户的投诉指标信息；

预测模块，用于将所述投诉指标信息，输入至预先构建的升级多差树模型，输出所述目标用户的投诉是否会升级的预测结果，其中，所述升级多差树模型由多个决策树构成。

再一方面，本发明实施例提供一种电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

又一方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述的方法。

本发明实施例提供的基于升级多差树模型的投诉升级预测方法及装置，通过预先构建的包含多个决策树的升级多差树模型，解决了现阶段投诉升级的判断只能根据客服人员的经验的问题，真正实现投诉升级预测的科学管理，提高了投诉升级预测的准确性，提高了投诉处理的效率，提升了用户体验，防止用户流失。

附图说明

图1为本发明实施例提供的基于升级多差树模型的投诉升级预测方法示意图；

图2为本发明实施例提供的决策树建立过程的逻辑流程图；

图3为本发明实施例提供的基于升级多差树模型的投诉升级预测装置示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于升级多差树模型的投诉升级预测方法示意图，如图1所示，本发明实施例提供一种基于升级多差树模型的投诉升级预测方法，其执行主体为基于升级多差树模型的投诉升级预测装置，以下简称预测装置，该方法包括：

步骤s101、获取目标用户的投诉指标信息；

步骤s102、将所述投诉指标信息，输入至预先构建的升级多差树模型，输出所述目标用户的投诉是否会升级的预测结果，其中，所述升级多差树模型由多个决策树构成。

具体来说，本发明实施例中涉及的预测装置部署在安全区服务器，并应用kettle工具实现数据自动化入库及输出，主要输出方式有两种，分别是邮件方式、ftp下载方式。

预测装置工作时，首先，获取目标用户的投诉指标信息，投诉指标信息是用户信息中的一部分数据，用户信息包含客户属性、消费属性、投诉信息、投诉频次和投诉内容五个维度的多项指标信息，这些指标信息，有些与客户投诉升级密切相关，有些关系不紧密，因此，在构建升级多差树模型的过程中，就需要确定投诉指标信息，这些投诉指标信息是用户信息中的一部分数据，它们与客户投诉升级密切相关，是升级多差树模型的因子。

然后，将投诉指标信息，输入至预先构建的升级多差树模型，输出目标用户的投诉是否会升级的预测结果，其中，升级多差树模型由多个决策树构成。

本发明实施例提供的基于升级多差树模型的投诉升级预测方法，通过预先构建的包含多个决策树的升级多差树模型，解决了现阶段投诉升级的判断只能根据客服人员的经验的问题，真正实现投诉升级预测的科学管理，提高了投诉升级预测的准确性，提高了投诉处理的效率，提升了用户体验，防止用户流失。

在上述实施例的基础上，进一步地，所述升级多差树模型中的多个决策树分别根据所述投诉指标信息对所述目标用户的投诉是否会升级进行预测，输出多个初始结果，以数量最多的一类初始结果作为所述升级多差树模型输出的所述目标用户的投诉是否会升级的预测结果。

具体来说，升级多差树模型为升级多差树的组合分类器，升级多差树的组合分类器中的每个分类器都是一棵决策树，分类器组成多差树，个体决策树在每个结点使用随机选择的属性决定划分。每一棵树都依赖于独立抽样，并与多差树中所有树具有相同分布的随机向量的值。

分类时，每一个决策树分别根据投诉指标信息对目标用户的投诉是否会升级进行预测，输出一个初始结果，多个决策树就输出多个初始结果，以数量最多的一类初始结果作为升级多差树模型输出的目标用户的投诉是否会升级的预测结果。

例如，一个升级多差树模型中有10个决策树，其中，有9个决策树分别根据投诉指标信息对目标用户的投诉是否会升级进行预测，得出的初始结果为升级，只有1个决策树根据投诉指标信息对目标用户的投诉是否会升级进行预测，得出的初始结果为不升级，那么将以这9个决策树输出的初始结果升级作为该升级多差树模型输出的预测结果。

在以上各实施例的基础上，进一步地，所述升级多差树模型的构建步骤包括：

a、从获取到的训练样本集中选取若干个训练样本；

b、根据选出的若干个训练样本，分别计算每一投诉指标的信息增益率，以信息增益率最大的投诉指标作为节点建立决策树；

c、重复步骤a～b，获取多个决策树；

d、将多个决策树组合成升级多差树模型。

具体来说，升级多差树模型的构建步骤包括：

a、由于历史数据量很大，因此，在构建升级多差树模型的时候，需要对历史数据进行选择，从获取到的训练样本集中选取若干个训练样本。

b、根据选出的若干个训练样本，分别计算每一投诉指标的信息增益率，以信息增益率最大的投诉指标作为节点建立决策树。

图2为本发明实施例提供的决策树建立过程的逻辑流程图，如图2所示，在确定训练样本以后，分别计算每一投诉指标的信息增益率，以信息增益率最大的投诉指标作为节点建立决策树，具体包含以下步骤：

b1、确定根节点：

遍历训练样本中所有投诉指标，计算各投诉指标对样本分割的信息增益率，选取信息增益率最大的指标作为树的根节点，信息增益率的具体计算方法如下：(因样本量过大，故仅抽取了部分投诉指标的少量样本来说明具体计算过程，部分投诉指标的少量样本如表1所示)。

表1部分投诉指标的少量样本表

b2、信息熵(初始熵)

信息熵是信息量的数学期望，是决策发生前的平均不确定性，也称初始熵，信息熵entropy(s)的计算公式如下：

其中，pi为该指标中i类出现的概率。

本次举例初始熵为：

b3、分裂信息期望(后验熵)

分裂信息期望指信息按照规则分割后的数学期望，决策发生后包含的信息量期望，也称后验熵，分裂信息期望entropy(s|x)的计算公式如下：

其中，sj为信息分割后j类的数量。

本次举例<客户问题是否解决>的后验熵为：

同理可得到：

entropy(s|紧急程度)＝0.911

entropy(s|问题分类)＝0.789

entropy(s|节点)＝0.892

b4、信息增益

信息增益描述了分割信息前后信息量的差异，信息增益gain(x)的计算公式如下：

gain(x)＝(entropy(s)-entropy(s|x))

本次举例<客户问题是否解决>的信息增益为：gain(客户问题是否解决)＝entropy(s)-entropy(s|客户问题是否解决)＝0.24675

同理可得到：

gain(紧急程度)＝0.029

gain(问题分类)＝0.151

gain(节点)＝0.048

b5、内在信息(分离信息)

数据通过分割条件属性a所包含的分离信息，内在信息intrinsicinfo(x)的计算公式如下：

本次举例各指标的内在信息为：

b6、信息增益率

信息增益率gainratio(x)的计算公式如下：

本次举例各指标的信息增益率为：

gainratio(客户问题是否解决)＝(gain(客户问题是否解决))/(intrinsicinfo(客户问题是否解决))＝0.156；

gainratio(紧急程度)＝(gain(紧急程度))/(intrinsicinfo(紧急程度))＝0.018；

gainratio(问题分类)＝(gain(问题分类))/(intrinsicinfo(问题分类))＝0.151；

gainratio(节点)＝(gain(节点))/(intrinsicinfo(节点))＝0.049。

依据信息增益率计算，本次案例中，[客户问题是否解决]的信息增益率最大，因此选取[客户问题是否解决]作为根节点。

在确定根节点之后，依据根节点的分类，若节点足够“纯”(仅包含目标分类中唯一一类)，该节点结束生长，否则遍历剩余所有指标，计算各指标对于该节点的信息增益率，选取信息增益率最大的指标作为下一分割节点；循环重复上述过程，直至所有节点足够纯或指标遍历完毕，最终得到决策树。

c、重复步骤a～b，获取多个决策树。

d、将多个决策树组合成升级多差树模型。

在以上各实施例的基础上，进一步地，所述从获取到的训练样本集中选取若干个训练样本之前，还包括：

对获取到的历史数据进行数据清洗，除去无效数据，生成训练样本集。

具体来说，从获取到的训练样本集中选取若干个训练样本之前还需要根据历史数据生成训练样本集。

首先，采用缺失值处理、噪声数据处理、数据归约处理等方式对源历史数据异常部分进行处理。此外，对连续型数据进行数据分箱。此步骤降可剔除部分无效数据。

主要包括下面几点：

数据来源确认：确认升级工单的7个数据来源，对数据大小和数据质量进行初步验证；

数据质量管理：将缺失数据、异常数据、噪声数据进行数据清洗，保证数据符合建模的要求；

数据前端体系建设：将数据来源、数据清理、数据整合/规约、数据验证、入库等各阶段任务进行统一系统管理，实现整个前端数据处理流图的自动化、智能化管理。

然后，确定模型因子。

历史数据中的用户信息包含客户属性、消费属性、投诉信息、投诉频次和投诉内容五个维度的多项指标信息，这些指标信息，有些与客户投诉升级密切相关，有些关系不紧密，因此，在构建升级多差树模型的过程中，就需要确定投诉指标信息，这些投诉指标信息是用户信息中的一部分数据，它们与客户投诉升级密切相关，是升级多差树模型的因子。

基于源数据列表，通过采取删除、衍生等方式进行建模因子进行选择，另外，结合将目标与各因子进行相关性分析，并以相关系数作为相关程度的量化标准，并选择系数最高的数据字段作为建模因子。

相关系数是检验变量之间关系强度的相关测量，用于判断指标重要性大小，其值在[-1,1]之间；相关系数的绝对值越大，相关性越强。检验自变量与目标变量的相关性，本案例选取与目标变量相关性在0.6以上字段作为建模字段。

通过筛选，剔除了相关性不高的字段，用于后续模型创建。

在以上各实施例的基础上，进一步地，所述训练样本集中包括正样本和负样本，正负样本按照预设比例范围设置。

具体来说，由于流失预警数据同时符合数据量过大、流失率过低两个特征，因此抽样时采取的方式采取正样本(流失用户)保持不变，负样本(非流失用户)进行合理抽样保证同时满足以下两条要求：(1)抽样系数不太低(0.3以上)，避免过度抽样；(2)抽样后流失率不太低(10％以上)，避免无法捕捉流失用户特征。

结合上述原则，正负样本分别处理如下：

1、正样本：明确已升级投诉用户

2、负样本：以正样本2.5倍(最佳)在非升级用户数据中抽取，负样本采用随机抽样和聚类分层相结合的方式抽取样本参与模型的训练和测试。

图3为本发明实施例提供的基于升级多差树模型的投诉升级预测装置示意图，如图3所示，本发明实施例提供一种基于升级多差树模型的投诉升级预测装置，用于执行上述任一实施例中所述的方法，具体包括获取模块301和预测模块302，其中：

获取模块301用于获取目标用户的投诉指标信息；预测模块302用于将所述投诉指标信息，输入至预先构建的升级多差树模型，输出所述目标用户的投诉是否会升级的预测结果，其中，所述升级多差树模型由多个决策树构成。

预测装置工作时，首先，通过获取模块301获取目标用户的投诉指标信息，投诉指标信息是用户信息中的一部分数据，用户信息包含客户属性、消费属性、投诉信息、投诉频次和投诉内容五个维度的多项指标信息，这些指标信息，有些与客户投诉升级密切相关，有些关系不紧密，因此，在构建升级多差树模型的过程中，就需要确定投诉指标信息，这些投诉指标信息是用户信息中的一部分数据，它们与客户投诉升级密切相关，是升级多差树模型的因子。

然后，通过预测模块302将投诉指标信息，输入至预先构建的升级多差树模型，输出目标用户的投诉是否会升级的预测结果，其中，升级多差树模型由多个决策树构成。

本发明实施例提供一种基于升级多差树模型的投诉升级预测装置，用于执行上述任一实施例中所述的方法，通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同，此处不再赘述。

本发明实施例提供的基于升级多差树模型的投诉升级预测装置，通过预先构建的包含多个决策树的升级多差树模型，解决了现阶段投诉升级的判断只能根据客服人员的经验的问题，真正实现投诉升级预测的科学管理，提高了投诉升级预测的准确性，提高了投诉处理的效率，提升了用户体验，防止用户流失。

图4为本发明实施例提供的电子设备的结构示意图，如图4所示，所述设备包括：处理器401、存储器402和总线403；

其中，处理器401和存储器402通过所述总线403完成相互间的通信；

处理器401用于调用存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：

获取目标用户的投诉指标信息；

本发明实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

获取目标用户的投诉指标信息；

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

获取目标用户的投诉指标信息；

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置及设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕景楠
技术所有人：中国移动通信集团广东有限公司;中国移动通信集团有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。