一种基于融合算法的高危用户投诉预警方法与流程

文档序号:33520788发布日期:2023-03-22 06:33阅读:84来源:国知局
一种基于融合算法的高危用户投诉预警方法与流程

1.本发明涉及大数据与ai技术领域,具体而言,涉及一种基于融合算法的高危用户投诉预警方法。


背景技术:

2.随着互联网技术的发展,人们生活所需的方方面面由线下转到了线上,如电商平台和互联网金融平台等。在这些平台为人们的生活带来便捷的同时也涉及到在线服务的各方面问题。因此,随着各大平台活跃用户和成单量不断提升,随之而来时的是用户对于平台服务不满意带来的投诉量也在提升。传统的处理越级投诉的方式是在用户给客服打电话进行投诉时,对用户的投诉内容及需求进行记录形成工单,然后通过专业人员对工单进行分析过滤,判断哪些用户可能会进行越级投诉,进而对这些用户进行重点安抚,以减少越级投诉量。然而,人工筛选过滤方式对真正投诉用户的命中率特别低,导致大多真正投诉用户并未得到重点安抚,导致越级投诉量一直未能有实质性减少。


技术实现要素:

3.本发明的目的在于提供一种基于融合算法的高危用户投诉预警方法,其能够解决用户越级投诉问题中特征数据稀疏的问题,同时可挖掘更多的用户信息以及特征间的潜在关联信息,通过融合多维度信息很大程度提升预测的准确性。
4.本发明的实施例是这样实现的:
5.本技术实施例提供一种基于融合算法的高危用户投诉预警方法,其包括如下步骤,s1、数据获取:获取用户语音文本数据、图谱结构的用户特征数据和用户行为数据;s2、特征提取:上述用户语音文本数据、上述用户特征数据和上述用户行为数据通过特定模型进行信息抽取分别得到用户的文本语意向量v1、用户特征向量v2和用户行为特征向量v3;s3、特征融合:获取提取到的文本语意向量v1、用户特征向量v2、用户行为特征向量v3;计算第一融合向量v12:v12=w12v1+w21v2(1-4),其中w12为向量v1的第一语意权重,w21为向量v2的第一用户权重;计算第二融合向量:v13=w13v1+w31v3(1-5),其中w13为向量v1的第二语意权重,w21为向量v3的第一行为权重;计算第三融合向量:v23=w23v2+w32v3(1-6),其中w23为向量v2的第二用户权重,w32为向量v3的第二行为权重;根据上述第一融合向量、上述第二融合向量和上述第二融合向量计算得到全局融合向量:v123=w1v12+w2v13+w3v23(1-7),其中w1为上述第一融合向量的第一融合权重,w2为上述第二融合向量的第二融合权重,w2为上述第二融合向量的第二融合权重;将上述全局融合向量输入全连接网络fc1、fc2和fc3中还原得到向量v1的拟合值、向量v2的拟合值和向量v3的拟合值,使用自监督学习的方式进行网络结构的训练;其中,向量v1的拟合值表示为向量v2的拟合值表示为向量v3的拟合值表示为向量v3的拟合值表示为计算向量v1、向量v2和向量v3的真实值与各向量的拟合值的
最小化差值:s4、目标任务训练:采用基于训练好的向量融合框架,依据上述最小化差值选择上述全局融合向量输入全连接网络,并使用真实投诉类别标签对预测结果进行目标任务训练得到训练模型,以在模型中接入下游任务计算得到预测结果,训练过程表示为s5、样本预测:将样本输入上述训练模型,选取softmax输入概率最大的真实投诉类别标签作为该用户是否为风险用户的标签,以softmax风险类别对应概率作为该用户的风险概率值。
6.在本发明的一些实施例中,上述步骤s1数据获取中,获取上述语音文本数据包括,当用户使用客服热线时,接入asr模块将用户的语音转换为文本信息进行记录;以及当用户使用在线客服时,记录用户输入的文本信息。
7.在本发明的一些实施例中,上述步骤s1数据获取中,获取上述用户特征数据包括,当用户使用客服热线以及当用户使用在线客服时,通过智能核身功能验证用户的身份信息后,从用户数据库中拉取用户相关的特征信息,然后设计对应的图谱本体,形成基于用户个体的图谱结构特征数据。
8.在本发明的一些实施例中,上述用户相关的特征信息包括用户性别、所在地址和年龄。
9.在本发明的一些实施例中,上述步骤s1数据获取中,获取上述用户行为数据包括,当用户使用客服热线以及当用户使用在线客服时,获取一段时间内用户在窗口上的行为信息。
10.在本发明的一些实施例中,上述用户在窗口上的行为信息包括物品的点击、观看、收藏、转发、以及访问在线客服的行为序列。
11.在本发明的一些实施例中,上述步骤s2特征提取中,具体包括:利用预训练语言模型erinie对上述用户语音文本数据进行文本语意信息的提取,以将文本数据进行编码得到用户的文本语意向量v1表示为v1=erinie(text)(1-1);上述用户特征数据以图谱的形式进行组织,使用gat网络对各个关系空间和节点采用不同的权重进行信息抽取,以得到用户的用户特征向量v2,表示为v2=gat(user_feature)(1-2);上述用户行为信息以时序的形式进行组织,采用gru网络进行时序数据的特征提取,以得到用户的用户行为特征向量v3,v3=gru(act_seq)(1-3)。
12.相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
13.1、在高危投诉用户的预测过程中,采用了不同类型的不同结构的数据,如语音文本数据、基于用户特征的图谱数据和用户行为序列数据;并根据数据特征进行数据的特定结构构造,比如用户特征数据以图谱的形式进行构建,可以尽可能多的挖掘出特征间潜在的关联信息。
14.2、采用基于自监督网络形式进行特征融合过程的构建,即将各特征向量通过级联融合的方式形成全局融合向量,然后再采用对应解码器全连接网络,将其还原为原本的各特征向量,以此保证特征融合过程不会发生信息丢失,使得生成的隐藏向量能包含所有的特征信息。
15.3、采用局部预训练-微调的形式进行下游任务训练,以实现在预训练好的全局融
合向量基础上进一步实现对目标任务的拟合。
16.本技术使用用户特征图谱数据、用户行为序列数据、用户进线时语音和文本数据等多维度数据作为输入,搭建新的融合算法模型,通过对不同类型的数据进行特征提取后将信息进行融合,通过融合后的包含用户多维度的信息进行用户越级投诉概率的预测。本发明可以实现对通过语音或在线的方式进线的用户可能发生越级投诉概率的预测,便于客服人员能够提早精准干预,减少用户的越级投诉量,提升用户体验。解决了用户越级投诉问题中特征数据稀疏的问题,同时可挖掘更多的用户信息以及特征间的潜在关联信息,通过融合多维度信息很大程度提升预测的准确性。
附图说明
17.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
18.图1为本发明实施例1基于融合算法的高危用户投诉预警方法的流程图;
19.图2为本发明实施例1融合算法模型的整体框架图;
20.图3为本发明实施例1特征提取的结构原理图;
21.图4为本发明实施例1信息融合的结构原理图;
22.图5为本发明实施例1目标任务训练的结构原理图;
23.图6为本发明实施例2电子设备的原理示意图。
具体实施方式
24.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
25.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
26.实施例1
27.请参阅图1~图5,图1~图5所示为本技术实施例提供的基于融合算法的高危用户投诉预警方法的示意图。基于融合算法的高危用户投诉预警方法,其包括如下步骤,s1、数据获取:获取用户语音文本数据、图谱结构的用户特征数据和用户行为数据;s2、特征提取:上述用户语音文本数据、上述用户特征数据和上述用户行为数据通过特定模型进行信息抽取分别得到用户的文本语意向量v1、用户特征向量v2和用户行为特征向量v3;s3、特征融合:获取提取到的文本语意向量v1、用户特征向量v2、用户行为特征向量v3;计算第一融合向量v12:v12=w12v1+w21v2(1-4),其中w12为向量v1的第一语意权重,w21为向量v2的第一用户权重;计算第二融合向量:v13=w13v1+w31v3(1-5),其中w13为向量v1的第二语意权
重,w21为向量v3的第一行为权重;计算第三融合向量:v23=w23v2+w32v3(1-6),其中w23为向量v2的第二用户权重,w32为向量v3的第二行为权重;根据上述第一融合向量、上述第二融合向量和上述第二融合向量计算得到全局融合向量:v123=w1v12+w2v13+w3v23(1-7),其中w1为上述第一融合向量的第一融合权重,w2为上述第二融合向量的第二融合权重,w2为上述第二融合向量的第二融合权重;将上述全局融合向量输入全连接网络fc1、fc2和fc3中还原得到向量v1的拟合值、向量v2的拟合值和向量v3的拟合值,使用自监督学习的方式进行网络结构的训练;其中,向量v1的拟合值表示为向量v2的拟合值表示为向量v3的拟合值表示为计算向量v1、向量v2和向量v3的真实值与各向量的拟合值的最小化差值:最小化差值:s4、目标任务训练:采用基于训练好的向量融合框架,依据上述最小化差值选择上述全局融合向量输入全连接网络,并使用真实投诉类别标签对预测结果进行目标任务训练得到训练模型,以在模型中接入下游任务计算得到预测结果,训练过程表示为(1-11);s5、样本预测:将样本输入上述训练模型,选取softmax输入概率最大的真实投诉类别标签作为该用户是否为风险用户的标签,以softmax风险类别对应概率作为该用户的风险概率值。
28.其中,为了使越级预测过程中使用更多的信息,本发明采用的数据源包括在用户进行在沟通时同时获取的用户特征图谱数据、用户行为数据和用户语音文本数据。用户特征数据:为了更加精准度的预测用户的越级投诉行为,更加立体的刻画用户画像,在此,本发明使用了以用户为中心构建的用户知识图谱的数据结构进行用户特征信息存储,并输入到模型中进行用户信息挖掘。使用了更丰富的用户特征数据来对用户个性特征进行刻画,且能挖掘出各特征间的潜在关联信息。用户行为数据:主要包括用户在某些平台上一段时间的窗口内对于事物的点击、观看、收藏、转发、以及用户拨打服电话或在线客服进行咨询、投诉等行为的记录,可以通过平台后台对用户的行为记录日志进行拉取。用户语音文本数据:用户进线咨询客服的过程时候可以采取在线文本的形式进行问题咨询,或者通过电话语音的形式的进入。在此,文本形式通过直接整理过滤形成包含问题和内容的文本数据,将语音数据通过asr进行转换成相应的文本数据,然后再进行过滤形成需要的文本数据。
29.全连接网络fc1、fc2和fc3各自按照特定算法得到全局融合向量对应的拟合值。其中,依据上述最小化差值选择上述全局融合向量输入全连接网络,具体包括利用上述最小化差值的大小范围选择第一语意权重,第一用户权重,第二语意权重,第一行为权重,第二用户权重以及第二行为权重,进而得到对应的全局融合向量。
30.本发明的模型主要包括基于图谱结构的用户特征数据进行特征提取的图神经网络模块、用户行为信息捕捉的时序网络模块、文本特征提取的语言模型模块,以及将图谱信息、行为信息和文本信息特征进行融合预测的融合模块。
31.其中,本发明的图谱数据特征提取采用的是基于图注意力机制的gat网络,通过gat网络可以按照一定的权重获取用户的特征信息,进一步挖掘出用户的各维度的画像特征及其潜在的关联信息,使得对目标用户的刻画更加丰富。针对用户行为数据,本文按照时
间维度对用户的行为特征数据进行特征构造,在此采用了时序模型lstm进行时序数据的特征提取,用以捕捉更多的用户行为习惯信息。文本信息提取主要包含的是用户咨询的内容信息,包括用户的诉求和诉点等信息,通过使用erinie模型对这些文本信息的内容进行挖掘,进一步捕捉用户面临问题和需求的特征信息。
32.本技术使用用户特征图谱数据、用户行为序列数据、用户进线时语音和文本数据等多维度数据作为输入,搭建新的融合算法模型,通过对不同类型的数据进行特征提取后将信息进行融合,通过融合后的包含用户多维度的信息进行用户越级投诉概率的预测。本发明可以实现对通过语音或在线的方式进线的用户可能发生越级投诉概率的预测,便于客服人员能够提早精准干预,减少用户的越级投诉量,提升用户体验。解决了用户越级投诉问题中特征数据稀疏的问题,同时可挖掘更多的用户信息以及特征间的潜在关联信息,通过融合多维度信息很大程度提升预测的准确性。
33.在本发明的一些实施例中,上述步骤s1数据获取中,获取上述语音文本数据包括,当用户使用客服热线时,接入asr模块将用户的语音转换为文本信息进行记录;以及当用户使用在线客服时,记录用户输入的文本信息。
34.在本发明的一些实施例中,上述步骤s1数据获取中,获取上述用户特征数据包括,当用户使用客服热线以及当用户使用在线客服时,通过智能核身功能验证用户的身份信息后,从用户数据库中拉取用户相关的特征信息,然后设计对应的图谱本体,形成基于用户个体的图谱结构特征数据。
35.在本发明的一些实施例中,上述用户相关的特征信息包括用户性别、所在地址和年龄。
36.在本发明的一些实施例中,上述步骤s1数据获取中,获取上述用户行为数据包括,当用户使用客服热线以及当用户使用在线客服时,获取一段时间内用户在窗口上的行为信息。
37.在本发明的一些实施例中,上述用户在窗口上的行为信息包括物品的点击、观看、收藏、转发、以及访问在线客服的行为序列。
38.用户通过使用语音客服热线、在线智能客服或在线人工客服,进线咨询或投诉相应的问题,同时通过上述步骤获取语音文本、用户特征和行为特征多维度数据。
39.在本发明的一些实施例中,上述步骤s2特征提取中,具体包括:利用预训练语言模型erinie对上述用户语音文本数据进行文本语意信息的提取,以将文本数据进行编码得到用户的文本语意向量v1表示为v1=erinie(text)(1-1);上述用户特征数据以图谱的形式进行组织,使用gat网络对各个关系空间和节点采用不同的权重进行信息抽取,以得到用户的用户特征向量v2,表示为v2=gat(user_feature)(1-2);上述用户行为信息以时序的形式进行组织,采用gru网络进行时序数据的特征提取,以得到用户的用户行为特征向量v3,v3=gru(act_seq)(1-3)。步骤s3如图3所示,对于用户的特征图谱(user_feature)、用户行为数据(act_seq)、以及文本数据(text)分别根据数据的特点通过设计特定的模型进行信息抽取。通过分析,文本数据主要描述的是用户本次人工进线的所要咨询的内容和诉求点,针对此类数据本发明主要目的是提取相应的语意信息,在此用预训练语言模型erinie进行文本语意信息的提取;用户特征数据主要以图谱的形式进行组织,在此通过使用gat网络对于各个关系空间和节点采用不同的权重进行信息抽取;用户行为信息主要以时序的形式进
memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
47.处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
48.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
49.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
50.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
51.综上所述,本技术实施例提供的一种基于融合算法的高危用户投诉预警方法:
52.本技术使用用户特征图谱数据、用户行为序列数据、用户进线时语音和文本数据等多维度数据作为输入,搭建新的融合算法模型,通过对不同类型的数据进行特征提取后将信息进行融合,通过融合后的包含用户多维度的信息进行用户越级投诉概率的预测。本发明可以实现对通过语音或在线的方式进线的用户可能发生越级投诉概率的预测,便于客服人员能够提早精准干预,减少用户的越级投诉量,提升用户体验。解决了用户越级投诉问题中特征数据稀疏的问题,同时可挖掘更多的用户信息以及特征间的潜在关联信息,通过融合多维度信息很大程度提升预测的准确性。
53.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1