本申请涉及自然语言处理技术领域,尤其是一种为客服系统日志打标签的方法及客服系统。
背景技术
为节约人工客服成本,智能客服机器人被引入客服系统。智能客服机器人是一种能够使用自然语言处理和语音识别技术与用户进行交流的人工智能信息系统。它能够用于多种用户服务场景,提供用户服务咨询、业务查询办理、产品营销推广等功能,为用户带来全新的沟通体验,它可以替代人工客服完成大量的重复性日常工作,为用户解答常见问题,大幅降低现有用户服务人员的劳动强度,从而削减企业人工成本。
为客服系统日志打标签广泛存在于智能客服机器人系统中,其作用是为客户与客服的会话日志进行打标签,标签可以有一个或者多个,也可以涉及多个模态,比如用户意图、情感、服务满意程度。通过打标签可以帮助提升产品的用户体验,帮助企业建立用户画像改进营销策略。
相关技术中,客服专员在与客户结束当前轮对话后通过系统来手动打标签。但由于人工手动打标签,客服专员需要从标签系统中选择适配的标签一个一个勾选,不仅效率低,而且由于客服专员会在会话结束后很短的时间内马上接入下一个用户,从而导致没有时间给当前对话打上准确标签,甚至当用户很多时,会出现一些对话漏打标签的状况。
技术实现要素:
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种为客服系统日志打标签的方法及客服系统。
第一方面,本申请提供一种为客服系统日志打标签的方法,包括:
收集历史会话日志,并对所述历史会话日志进行人工标注标签;
对所述历史会话日志进行清洗;
利用语义分析模型将清洗后会话日志映射到相应业务标签上;
对所述相应业务标签进行整合得到至少一个标签;
分析所述至少一个标签与人工标注标签,并根据分析结果修正所述语义分析模型参数;
将新的会话日志输入修正参数后的语义分析模型进行自动打标签。
进一步的,所述对所述历史会话日志进行清洗,包括:
第一轮过滤:将所述所述历史会话日志进行规则过滤,得到第一轮过滤结果;
第二轮过滤:将所述第一轮过滤结果进行query改写,得到第二轮过滤结果;
第三轮过滤:将所述第二轮过滤结果进行错别字纠正,得到清洗后的日志。
进一步的,所述语义分析模型包括学习模型和预测模型。
进一步的,所述利用语义分析模型将清洗后会话日志映射到相应业务标签上,包括:
将清洗后会话日志输入预测模型,
将所述预测模型输出结果输入到学习模型得到类别概率;
取类别概率最大的类别标签作为相应业务标签。
进一步的,所述标注标签包括文本的业务类别、文本的情感类别和文本的分词词性。
进一步的,所述对所述相应业务标签进行整合得到至少一个标签,整合方法包括:排序筛选法和阈值过滤法。
第二方面,本申请提供一种客服系统,包括:
收集模块,用于收集历史会话日志;
清洗模块,用于对所述历史会话日志进行清洗;
标签映射模块,用于将清洗后会话日志映射到相应业务标签上;
标签整合模块,用于筛选出至少一个最准确标签。
进一步的,所述标签映射模块包括语义分析模块、情感分析模块和自定义模块。
进一步的,情感分析模块为清洗后会话日志进行情感标签标注。
进一步的,所述自定义模块为清洗后会话日志进行自定义标签标注。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请利用将新的会话日志输入修正参数后的语义分析模型进行自动打标签,解决人工手动标注标签效率低等问题,提高客服系统打标签效率,并且提高了标签准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一个实施例提供的为客服系统日志打标签的方法的流程示意图。
图2是本申请另一个实施例提供的客服系统的模块图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
图1是本申请一个实施例提供的为客服系统日志打标签的方法的流程示意图。
如图1所示,本实施例的方法包括:
s11:收集历史会话日志,并对所述历史会话日志进行人工标注标签。
例如客户想要办理密码变更业务,可以通过人工将客户咨询的问题“密码如何变更”标注为“密码咨询业务”,进一步细化标签为“密码变更业务”。
所述标注标签包括文本的业务类别、文本的情感类别和文本的分词词性。通过对标签进行多个维度进行标注,有利于分析用户意图、情感以及服务满意程度,从而帮助提升产品的用户体验。比如通过分析一个时间段内用户意图的分布,就能获取哪些问题是用户常见问题,企业就可以针对这些问题对产品做出相应调整。
s12:对所述历史会话日志进行清洗。
基于自然语言处理的日志清洗模块主要作用清洗原始日志数据。客服原始日志数据往往有非常多的噪声,比如大量的问候语、表情、系统提示和web链接等,这些都是和用户无关或者难以被利用的,需要在数据清洗过程中将噪声去除,去除噪声后的客服日志需进行错别字的修正,客服或者客户交流往往会出现错别字,这些错别字也是对打标签会有影响。最后是文本的归一化,客服日志中往往过于口语,需要将其转化成标准的表达。
具体的,所述对所述历史会话日志进行清洗,可以通过以下三轮过滤完成:
第一轮过滤:将所述所述历史会话日志进行规则过滤,得到第一轮过滤结果;所述规则过滤例如为正则表达式过滤或者为通用语料库过滤。
例如,客服机器人提醒客户“您前面有5人在排队”,当排队人数变更时,客服机器人会重复提醒,因此使用正则表达式“您前面有\d人在排队”只保留排队人个数,过滤掉重复出现的且与语义无关的客服机器人答句。
例如,通用语料库过滤中包含“你好”、“好的”、“谢谢”等通用问候语,当客户的回答中包含上述通用问候语时可通过通用语料库将所述通用问候语过滤。
第二轮过滤:将所述第一轮过滤结果进行query改写,得到第二轮过滤结果,例如将客户输入的随意输入的日期通过query改写过滤后生成标准日期格式的日期。
第三轮过滤:将所述第二轮过滤结果进行错别字纠正,得到清洗后的日志,例如,将客户输入的“密马”通过错别字纠正过滤后得到“密码”。
对日志进行清洗,消除噪声从而减少冗余数据,并且对格式进行标准化、修正错别字,并将清洗后的日志输入到语义分析模型进行训练,提高模型的训练数据准确性。
s13:利用语义分析模型将清洗后会话日志映射到相对应业务标签上。
所述语义分析模型包括学习模型和预测模型。所述学习模型为机器学习模型或者为深度学习模型,所述预测模型为支持向量机模型或者卷积神经网络模型或者循环神经网络模型。所述学习模型和预测模型具有良好的泛化效果,当客服会话日志出现训练数据中没有的对话信息后,所述学习模型和预测模型仍能将日志映射到相对应业务标签上。
所述利用语义分析模型将清洗后会话日志映射到相应业务标签上,包括:
将清洗后会话日志输入预测模型,
将所述预测模型输出结果输入到学习模型得到类别概率;
取类别概率最大的类别标签作为相应业务标签。
以深度学习模型和卷积神经网络模型进行举例:
将清洗后会话日志输入卷积神经网络模型;
所述卷积神经网络模型操作步骤包括:
将清洗后会话日志进行多个尺度的卷积;
对卷积结果进行池化操作;
将池化操作的结果进行拼接,
将拼接结果输入全连接后进行输出。
将所述卷积神经网络模型输出结果输入到深度学习模型的softmax分类器得到类别概率;
取类别概率最大的类别标签作为相应业务标签。
通过对学习模型和预测模型的训练,在新的会话日志产生后,所述语义分析模型能快速将会话日志进行映射,找到准确标签。
s14:对所述相应业务标签进行整合得到至少一个标签:
所述预测模型输出预测标注标签可能包含粒度不同的多个模型的业务标签,因此需要进一步对标签进行整合,从而筛选出最准确的一个或多个标签,所述整合方法包括:排序筛选法和阈值过滤法。排序筛选法对所有业务标签的准确性进行排序,可以获取排名在前的一个或者多个标签,对获取标签的数量可以掌控;阈值过滤法是预先设置好业务标签准确性阈值,过滤出业务标签准确性大于阈值的业务标签,方法简单快捷。
例如,对所述相应业务标签根据置信度进行排序,筛选出置信度排名前三的业务标签,或者设置置信度高阈值,筛选出置信度高于所述置信度高阈值的业务标签。
s15:分析所述至少一个标签与人工标注标签,并根据分析结果修正所述语义分析模型参数。
将所述语义分析模型预测的结果和人工标注的结果做对比,通过人工分析所述至少一个标签与人工标注标签,若所述至少一个标签更准确,就会把错误标注的数据按照所述语义分析模型预测结果进行修正;如果是人工标注的结果更准确,则增加这个数据的损失权值从而提高所述所述语义分析模型学习效果。
s16:将新的会话日志输入修正参数后的语义分析模型进行自动打标签。
本实施例中,通过对所述历史会话日志进行人工标注标签与清洗并将所述历史会话日志与人工标注标签输入语义分析模型,不断修正语义分析模型参数,并将新的会话日志输入修正参数后的语义分析模型进行自动打标签。从而解决人工手动标注标签效率低等问题,提高客服系统打标签效率,并且提高了标签准确率。
图2是本申请一个实施例提供的客服系统模块图。
如图2所示,所述客服系统,包括:
收集模块21,用于收集历史会话日志;
清洗模块22,用于对所述历史会话日志进行清洗;
标签映射模块23,用于将清洗后会话日志映射到相应业务标签上;
标签整合模块24,用于筛选出至少一个最准确标签。
收集模块21收集历史会话日志后,清洗模块22对历史会话日志进行清洗,清洗方法依照上一实施例中方法,这里不详细介绍。
标签映射模块23包括语义分析模块、情感分析模块和自定义模块。
语义分析模块用于针对客户的语句进行语义分析,通过语义模型得到预测标注标签。
情感分析模块在语义分析模块基础上对清洗后会话日志进行情感标签标注,情感分析模块主要是针对客服日志区分出客户的正面情感、中性情感或者负面情感,例如交易信息咨询属于中性情感,而交易争议处理为负面情感,通过将语义与情感相结合,可以更准确的对客服对话进行标注,从而提高标注标签的准确率。并且,通过对会话日志进行情感分析,有助于企业更准确了解用户意图,从而对产品做出改进。
所述自定义模块为清洗后会话日志进行自定义标签标注,例如在一些对话场景中,可以设置敏感词检测,当客户输入敏感词时,对敏感词进行处理如使用“*”替代敏感词。
标签整合模块24将标签映射模块23得到的标签进行整合,整合方法依照上一实施例中方法,这里不详细介绍。
本实施例中,由于所述标签映射模块包括语义分析模块、情感分析模块和自定义模块,通过将语义与情感相结合,可以更准确的对客服对话进行标注,从而提高标注标签的准确率。进一步的,通过增加自定义模块,以满足不同对话场景需求。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
需要说明的是,本发明不局限于上述最佳实施方式,本领域技术人员在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。