用户满意度的分析方法及装置与流程

文档序号:14941363发布日期:2018-07-13 20:55阅读:255来源:国知局

本发明涉及信息技术及数据业务技术领域,尤其涉及一种用户满意度的分析方法及装置。



背景技术:

顾客满意度体现着企业的价值,无论是在战略层面还是在战术层面对企业的市场营销都有非常重要的指导意义,对顾客满意度的调查并将调查的结果与产品/服务属性相联系,已成为市场驱动质量方法的一种工具。另一方面,随着信息技术的发展,电信商庞大的数据库中积累了海量信息,如何将数据挖掘技术运用于经营、管理和决策的各个方面,从海量数据中获取有效信息能对企业进行启发性的指导。因此,如何有效精准评测用户满意度、利用数据挖掘手段对海量数据进行关联分析是通讯行业的迫切需求。

目前通信运营商常用的用户满意度分析模型有四分图方法、层次分析法、决策树、随机森林等方法,其中绝大部分都是通过抽取运营支撑系统(operationsupportsystem,oss)域或业务支撑系统(businesssupportsystem,bss)域关键信息进行简单加权分析,并没有通过数据挖掘等技术手段对用户满意度、oss域、bss域信息进行关联关系的分析;而现有的决策树用户满意度分析方法容易造成过拟合的现象,不能较好的适用于普遍场景;现有的随机森林算法对于不平衡数据,优化内容更偏向大类样本,易使得预测结果有偏差。



技术实现要素:

本发明实施例提供了一种用户满意度的分析方法及装置,能够解决现有技术中如何有效精准评测用户满意度、利用数据挖掘手段对海量数据进行关联分析的问题。

一方面,本发明实施例提供了一种用户满意度的分析方法,包括:融合业务支撑系统bss域及运营支撑系统oss域的数据,获取用于预测用户满意度的指标数据;对指标数据进行清洗及标记;基于清洗及标记后的所述指标数据,通过改进的随机森林算法,预测用户满意度。

在一个示例实施例中,对指标数据进行清洗及标记,具体包括:判断指标数据是否在第一预设阈值与第二预设阈值之间;当指标数据在第一预设阈值与第二预设阈值之间时,对指标数据进行标注;

在一个示例实施例中,方法还包括:当指标数据不在第一预设阈值与第二预设阈值之间时,将指标数据剔除。

在一个示例实施例中,方法还包括:存储指标数据、第一预设阈值、第二预设阈值。

在一个示例实施例中,通过改进的随机森林算法,预测用户满意度,具体包括:从指标数据的数据集中进行随机抽样,构造子数据集;对指标数据的待选属性值进行随机抽样,构造子属性集;按照子属性集中的属性遍历所述子数据集,将子数据集分裂为数据子树;通过数量比,计算数据子树的基尼系数及信息增益;根据基尼系数及所述信息增益,在子属性集中选取最优划分属性;按照最优划分属性,将数据子树进行拆分,生成多个子树;判断子树的子节点是否能够继续拆分以及多个子树的数据是否属于同一类型,得出判断结果;根据判断结果对多个子树进行投票,得到用户满意度。

在一个示例实施例中,数量比为各个类别在子树中的比例。

第二方面,本发明实施例提供了一种用户满意度的分析装置,包括:数据获取模块,用于融合业务支撑系统bss域及运营支撑系统oss域的数据,获取用于预测用户满意度的指标数据;数据预处理模块,用于对指标数据进行清洗及标记;随机森林算法预测模块,用于基于清洗及标记后的指标数据,通过改进的随机森林算法,预测用户满意度。

在一个示例实施例中,数据预处理模块,具体用于:判断指标数据是否在第一预设阈值与第二预设阈值之间;当指标数据在第一预设阈值与第二预设阈值之间时,对指标数据进行标注;

在一个示例实施例中,数据预处理模块,还用于当指标数据不在第一预设阈值与第二预设阈值之间时,将指标数据剔除。

在一个示例实施例中,数据预处理模块,还用于存储指标数据、第一预设阈值、第二预设阈值。

在一个示例实施例中,随机森林算法预测模块,包括:行抽样模块,用于从指标数据的数据集中进行随机抽样,构造子数据集;列抽样模块,用于对指标数据的待选属性值进行随机抽样,构造子属性集;特征选取模块,用于按照子属性集中的属性遍历子数据集,将子数据集分裂为数据子树;通过数量比,计算数据子树的基尼系数及信息增益;根据基尼系数及信息增益,在子属性集中选取最优划分属性;分裂模块,用于按照最优划分属性,将数据子树进行拆分,生成多个子树;子树投票模块,用于判断数据子树是否能够继续拆分以及多个子树的数据是否属于同一类型,得出判断结果;根据判断结果对多个子树进行投票,得到用户满意度。

在一个示例实施例中,数量比为各个类别在子树中的比例。

本发明对运营支撑系统oss域、业务支撑系统bss域的数据进行融合分析,提高数据多样性形成多维数据,避免仅对oss域或bss域数据进行抽样分析而导致原始数据不全面、缺乏多样性、容易丢失关键信息,避免缺乏对业务支撑系统bss域、运营支撑系统oss域以及用户满意度的关联性分析以及加入的人工干涉易使分析结果和实际值产生偏差。本发明对多维指标数据进行改进的平衡随机森林算法进行分析,能有效的提高对用户满意度预测的准确率、查全率、查准率,避免简单加权计算缺乏融合各数据的关联分析。本发明的平衡随机森林模型通过随机抽样和构建多决策树来避免过拟合现象,并且随机森林模型能处理高维数据、训练速度快容易做成并行化等特征使其能很好的适用于用户满意度预测的场景,避免使训练好的模型并不能较好的适应于新数据。本发明的改进平衡随机森林算法能避免倾向性的划分问题,使得划分结果的类别比例和实际的类别比例相一致,避免划分结果产生偏差、划分会偏向于比例大的类别。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明一实施例的用户满意度的分析装置的示意框图;

图2是根据本发明一实施例的用户满意度的分析方法的流程示意图;

图3是根据本发明另一实施例的用户满意度的分析方法的流程示意图;

图4是根据本发明再一实施例的改进的随机森林算法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是根据本发明一实施例的用户满意度的分析装置100的示意框图。该装置包括:数据获取模块110,用于融合业务支撑系统bss域及运营支撑系统oss域的数据,获取用于预测用户满意度的指标数据;数据预处理模块120,用于对指标数据进行清洗及标记;随机森林预测模块130,用于基于清洗及标记后的所述指标数据,通过改进的随机森林算法,预测用户满意度。

数据预处理模块120,对数据获取模块得到的指标数据进行清洗,对每个指标设定相应的上下阈值,判断指标是否在有效阈值内,如指标数据在该有效阈值内,则用人工或者其他方法对指标数据进行标注,写入用户满意度值,若指标数据不在该有效阈值内,则将其剔除。在一个示例实施例中,数据预处理模块120还会存储分析用户满意度需要的各项指标信息,并存储指标库中各项指标对应的有效阈值。

在本发明另一个示例实施例中,如图1所示,随机森林预测模块130还包括:行抽样模块1301,用于从指标数据的数据集中进行随机抽样,构造子数据集;列抽样模块1302,用于对指标数据的待选属性值进行随机抽样,构造子属性集;特征选取模块1303,用于按照子属性集中的属性遍历所述子数据集,将子数据集分裂为数据子树;通过数量比,计算数据子树的基尼系数及信息增益;根据基尼系数及信息增益,在子属性集中选取最优划分属性;分裂模块1304,用于按照最优划分属性,将数据子树进行拆分,生成多个子树;子树投票模块1305,用于判断子树是否能够继续拆分以及多个子树的数据是否属于同一类型,得出判断结果;根据判断结果对多个子树进行投票,得到用户满意度。

其中,行抽样模块1301及列抽样模块1302:对数据和属性进行随机抽样,若原始数据集大小为n,则有放回的随机抽样数据集大小也为n,若原始属性数目为m,则无放回的随机抽样数据集m(m<m)。

其中,特征选取模块1303:对按照不同属性分裂之后的子树进行基尼系数评价,选取有最优结果的属性作为该节点的划分特征。此处采用本文的平衡随机森林算法,用数量比的概念衡量不同类别在不同节点中的概率,以此来平衡节点划分。具体分析如下:

通常的随机森林算法:采用基尼系数和信息增益来进行节点的划分,基尼系数的表达式为:

其中,t表示该节点划分后的节点,k为所有类别,则p(k|t)表示划分后的t节点中属于类别k的样本数占节点t中所有样本数的比例。而信息增益计算的是按照不同属性划分得到的gini值增益:

其中,gini(t)是给定节点t的gini值,n是父节点的记录总数,nt是与子女节点t相关联的记录个数,划分的依据是使得gain的值最大,因此只对比求和项,用δ表示:

然而通常的随机森林算法在计算增益时采用的预测分别在不同类别中的比例,对于不平衡数据,优化内容更偏向大类样本,因此预测结果会有偏差。

本发明中实施例的改进的平衡随机森林算法:重新分类每类样本的数目,使用划分样本量占本类别内部的比例,只在类别内部对比,不同类别的实例不会彼此影响,因此提出数量比的概念:用数量比(qr)表示每个划分节点的样本量,t表示划分后的节点类别,取值为1-mt;假设每个节点划分后有mt个孩子节点,k表示类别,ctk表示t节点类别为k的样本量,ck表示整个样本中类别为k的样本量,ct表示t节点样本量,γ表示调节参数,则

根据新的数据表示形式计算新的δ值,需计算每个qr值在各节点内部所占的比例(qrp):

其中,qrp(k|t)表示节点t中类别为k的样本qr值在t节点内的比值,表示t节点的各孩子节点的qr值。如果qrp值很高,在预测值中,这一类所占的比例很高,相对的qr值很高,也意味着在实际属于这类的客户中预测为这一类的客户量所占比例也很高。因此这一规则下的不纯度度量不受几类客户比例分布影响。因此同理,重新定义信息增益中的优化:

因此,只要最小化δqr即可获得最优的划分结果。

图2是根据本发明一实施例的用户满意度的分析方法200的流程示意图。该方法包括:s210,融合业务支撑系统bss域及运营支撑系统oss域的数据,获取用于预测用户满意度的指标数据;s220,对指标数据进行清洗及标记;s230,基于清洗及标记后的指标数据,通过改进的随机森林算法,预测用户满意度。

在步骤s210中,融合业务支撑系统bss域及运营支撑系统oss域的数据,获取用于预测用户满意度的指标数据。

在步骤s220中,对指标数据进行清洗及标记,如图2所示,具体包括:s221,判断指标数据是否在第一预设阈值与第二预设阈值之间;s222,当指标数据在第一预设阈值与第二预设阈值之间时,通过人工方式或预设方式对指标数据进行标注;s223,当指标数据不在第一预设阈值与第二预设阈值之间时,将指标数据剔除;s224,存储指标数据、第一预设阈值、第二预设阈值。

在步骤s230中,基于清洗及标记后的指标数据,通过改进的随机森林算法,预测用户满意度。

本发明的上述实施例通过对运营支撑系统oss域、业务支撑系统bss域进行融合分析,提高数据多样性形成多维数据,能降低预测误差。

步骤s230中利用改进的随机森林算法来预测用户满意度的一个具体示例和详细说明如图3所示。图3是根据本发明另一实施例的用户满意度的分析方法的流程示意图。

在步骤s2301中,从指标数据的数据集中进行随机抽样,构造子数据集;在步骤s2302中,对指标数据的待选属性值进行随机抽样,构造子属性集;在步骤s2303中,按照子属性集中的属性遍历所述子数据集,将子数据集分裂为数据子树;在步骤s2304中,通过数量比,计算数据子树的基尼系数及信息增益;在步骤s2305中,根据基尼系数及所述信息增益,在子属性集中选取最优划分属性;在步骤s2306中,按照最优划分属性,将数据子树进行拆分,生成多个子树;在步骤s2307中,判断数据子树是否能够继续拆分以及多个子树的数据是否属于同一类型,得出判断结果;在步骤s2308中,根据判断结果对多个子树进行投票,得到用户满意度。

通过图3的实施例,利用本发明改进的随机森林模型通过随机抽样和构建多决策树来避免过拟合现象,提高对用户满意度的预测准确性。

图4是根据本发明一实施例的改进的随机森林算法的流程示意图。

步骤s401,对采样数据进行属性值遍历,判断所有的属性值遍历是否结束;

步骤s402,当属性值遍历未结束时,按照当前属性值遍历子集合中的每个采样数据;

步骤s403,当子集合中的采样数据的当前属性值大于预定分裂值时,将采样数据划分至右子树;

步骤s404,当子集合中的采样数据的当前属性值不大于预定分裂值时,将采样数据划分至左子树;

步骤s405,步骤s403及步骤s405结束之后,判断子集合中的采样数据是否遍历结束,当未结束时,返回步骤s402;当子集合中的采样数据遍历结束时,返回步骤s401;

步骤s406,当所有的属性值均遍历结束时,计算按照每个属性进行分裂的右子树或左子树的基尼系数,取最大基尼系数情况下的属性值为最优特征属性,并将右子树或左子树按照当前属性值进行划分;

步骤s407,判断右子树或左子树是否能够进行分裂或者分裂后的采样数据是否都属于同一类别;

步骤s408,当右子树或左子树不能进行分裂或者分裂后的采样数据都属于同一类别时,停止随机森林的构建,保存已有的模型。

综上,本发明充分利用业务支撑系统bss域、运营支撑系统oss域的各项指标数据和数据挖掘技术,对现有的随机森林算法进行改进,定义数量比这一概念,优化信息增益的计算过程,对用户满意度的分析方法进行定义,提高对用户满意度预测的准确率、查全率、查准率。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1