一种基于呼叫中心数据的用户画像方法与流程

文档序号:15463253发布日期:2018-09-18 18:41阅读:2087来源:国知局

本发明属于大数据挖掘技术领域,较为具体的,涉及到一种基于呼叫中心数据的用户画像方法。



背景技术:

数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Datebase,简称KDD),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。

在电商、营销或者客服行业,通常需要通过语音通话处理客户关系,但是由于现有的电商、营销或者客户行业对语音另外一端的人物较为陌生,所以大多数情况下不能很好的摸清客户的真正诉求,无法良好处理客户关系,而现在电话营销或者网络营销则需要通过语音就能很好的处理客户关系,解决客户问题,并且不能产生不必要的争端。



技术实现要素:

有鉴于此,本发明提出一种基于呼叫中心数据的用户画像方法,通过该方法,该方法通过提取通呼叫中心网络通讯数据,得到用户在特定场景的自身信息画像,并累计大量多场景通讯数据,然后对用户的特征度进行描述、交易场景进行描术、以及自身喜好程度进行描述和分析,接着通过分析结果预测用户的画像并生成数据挖取问题,形成语音和问卷,最终实现精准营销、改善用户体验。

一种基于呼叫中心数据的用户画像方法,其包括如下步骤:

S1:通过对录音转成文字,并通过NLPIR汉语分词系统提取语义数据;

S2:对步骤S1中采集的数据进行清洗;

S3:对步骤S2清洗完的数据进行提取标签化处理;

S4:对步骤S3中的用户标签进行聚类分析,形成用户画像;

S5:根据步骤S4中的分析结果确定对应用户的预测问卷及话术来补充不完善的用户信息资料;

S6:通过通讯数据挖掘提取补充步骤S5中的用户信息资料。

进一步的,步骤S1包括如下具体步骤:

S11,首先将时间以较小的间隔离散化,并记录通话观测期内的所有通话;

S12,对呼叫中心的录音记录及文件信息进行采集,并提取用户信息和语义信息;

S13,对用户信息和语义信息进行整理,区别出用户信息、场景数据信息和用户情绪信息。

进一步的,通话系统采集的语音包括:客服类录音、核身类语音、电销类语音、催收类语音、调查问卷等。

进一步的,提取出的用户信息和语义信息包括:状态、通话目地及需求点、通话时间、通话时长、客户地点、IO线路、号码区域、号码信息、接通频次、业务系统信息、客户身份等、满意度、名词类信息、关键字信息:如骂人、投诉、质检结果、语音、语调等。其中,状态、通话目的及需求点属于场景数据信息,业务系统信息、客户身份、号码区域、号码信息等均属于用户信息,而语音、语调等则属于用户情绪信息。

进一步的,步骤S2包括如下具体步骤:

S21,首先对S1中采集到的数据进行分类和场景分析;

S22,接着清理冗余信息;

S23,接着对数据出现的规律性进行分析,合理的清除数据或者修改异常数据;

进一步的,步骤S3包括如下步骤:提取关键词,并生成标签,用于概括与用户相关的喜好、个性、特征等数据。

进一步的,步骤S4中使用到BP神经网络,该BP神经网络是一种多层前馈神经网络,可以实现从输入到输出的任意非线性映射,具有良好的自组织、自适应的特点。BP神经网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。使用的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小,结束学习。

其中,应用与本发明的过程中,BP神经网络中最重要的公式如下,令P={P1,P2,…,Pm}表示用户画像集合,其中Pi表示第i个用户画像。Ci={Pi1,Pi2,…,Pin}表示聚类后的第i个标签,其中Pij,表示Ci分类中的第j个元素。聚类结束后,各分类应该满足的条件为Uki=1Ci=PCm≠Cr,thenCm∩Cr=φ,MinΔp∈Cm,Δpj∈Cr,ΔCm,(sim(Pi,Pj))>MaxΔpi,pj∈Cm,基于聚类结果,可以发现繁杂的用户画像间隐含的信息,提取新的用户画像标签。

更进一步的,步骤4包括如下步骤:

S41,首先进行特征信息提取,从状态、通话目地及需求点、通话时间、通话时长、客户地点、IO线路、号码区域、号码信息、接通频次、业务系统信息、客户身份等、满意度、名词类信息、关键字信息:如骂人、投诉、质检结果、语音、语调等中选取十一项作为特征标签,同时选取已进行过问卷调查,并标记好身份的用户作为训练对象,将十一项特征标签和用户对象作为BP神经网络的输入信息;

S42,将BP神经网络的输入信息,包括十一项特征标签和用户对象作为训练数据和检验数据,当作为训练数据时,将十一项特征标签和用户对象输入到BP神经网络,用于训练神经网络,取学习率η=0.3,误差标准ε=0.005,可以得到训练好的神经网络;

S43,将BP神经网络的输入信息,包括十一项特征标签和用户对象作为检验数据进行输入,判断神经网络预测模型得到的结果是否准确。

S44,通过对BP神经网络的不断学习优化,最终输出准确的输出值,也就是对应的身份的特征标签,包括已有的特征标签,和生成的未识别的特征标签。

进一步的,所述的BP神经网络中,BP神经网络采用网络结构11×10×1的网络拓扑结构,神经元函数为Sigmoid特征函数。

具体实施方式

具体实施案例1:

一种基于呼叫中心数据的用户画像方法,应用与催收行业,则其包括如下步骤:

S11,首先将时间以较小的间隔离散化,并记录通话观测期内的所有通话;

S12,对呼叫中心的录音记录及文件信息进行采集,对呼叫系统中的催收录音识别转成文字,通过汉语分词系统提取文字语义,包括词性标注、命名实体识别、用户词典功能等,并提取用户信息和语义信息;

S13,对用户信息和语义信息进行整理,区别出用户信息、场景数据信息和用户情绪信息。

S21,清理冗余信息,如重复信息、无语义的信息;

S23,接着对数据出现的规律性进行分析,合理的清除数据或者修改异常数据;

S3:对步骤S23清洗完的数据提取关键词,如“没钱还不了”、“有钱不还”、“放赖不还”、“无收入”、“手机号码使用时间”、“欠费情况”、“主观态度”、“用户情绪”等,并生成标签,用于概括与用户相关的个性、特征等数据。

S41,首先进行特征信息提取,从状态、通话目地及需求点、通话时间、通话时长、客户地点、IO线路、号码区域、号码信息、接通频次、业务系统信息、客户身份等、满意度、名词类信息、关键字信息:如骂人、投诉、质检结果、语音、语调等中选取十一项作为特征标签,同时选取已进行过问卷调查,并标记好身份的用户作为训练对象,将十一项特征标签和用户对象作为BP神经网络的输入信息;

S42,将BP神经网络的输入信息,包括十一项特征标签和用户对象作为训练数据和检验数据,当作为训练数据时,将十一项特征标签和用户对象输入到BP神经网络,用于训练神经网络,取学习率η=0.3,误差标准ε=0.005,可以得到训练好的神经网络;

S43,将BP神经网络的输入信息,包括十一项特征标签和用户对象作为检验数据进行输入,判断神经网络预测模型得到的结果是否准确。

S44,通过对BP神经网络的不断学习优化,最终输出准确的输出值,也就是对应的身份的特征标签,包括已有的特征标签,和生成的未识别的特征标签。

S5:根据步骤S44中的分析结果确定对应用户的预测问卷及话术来补充不完善的用户信息资料;

S6:通过通讯数据挖掘提取补充步骤S5中的用户信息资料。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1