客服工单的处理方法、装置和服务器与流程

文档序号：26007487发布日期：2021-07-23 21:26阅读：350来源：国知局

本说明书属于人工智能技术领域，尤其涉及客服工单的处理方法、装置和服务器。

背景技术：

银行客服中心的工作人员每天都会接到大量用户通过不同途径(例如，电话、邮件等)所反馈的客服需求(或问题)。通常工作人员无法直接为用户解决所提出的客服需求，但会先记录下客户的客服需求，形成相应的客服工单。后续再对上述客服工单进行统一分类，将不同类型的客服工单分发给对应的客服处理人员，进行具体处理。

基于现有方法，往往需要依赖工作人员人工对上述客服工单进行分类。但在面对数据量较大的客服工单时，上述方法具体实施时往往存在效率低，且容易出现错误的问题。

针对上述问题，目前尚未提出有效的解决方案。

技术实现要素：

本说明书提供了一种客服工单的处理方法、装置和服务器，可以将数据量较大的多个客服工单文本高效、精准地划分进相对应的工单主题组中，以便后续能更好地进行针对性的客服业务处理。

本说明书实施例提供了一种客服工单的处理方法，包括：

获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组；

根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；

根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；

根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；

根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

在一些实施例中，根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵，包括：

对所述多个客服工单文本分别进行分词处理，得到多个第一数据组；其中，所述第一数据组包含有按顺序排列的多个词组；

对所述多个第一数据组分别进行预设的过滤处理，得到多个第二数据组；

根据所述多个第二数据组，构建对应的多个词向量；

组合所述多个词向量，以得到目标特征矩阵。

在一些实施例中，对所述多个第一数据组分别进行过滤处理，得到多个第二数据组，包括：

按照以下方式，对多个第一数据组中的当前第一数据组进行预设的过滤处理，以得到与当前第一数据组对应的当前第二数据组：

调用预设的无效词识别模型处理当前第一数据组所包含的按顺序排列的多个词组，以确定出所述多个词组中的无效词；

过滤当前第一数据组中的无效词，得到过滤后的当前第一数据组；

对所述过滤后的当前第一数据组所包含的词组的排列顺序进行随机化操作，得到所述当前第二数据组。

在一些实施例中，根据所述多个第二数据组，构建对应的多个词向量，包括：

按照以下方式，构建与当前第二数据组对应的当前词向量：

根据预设的编码规则，确定出与当前第二数据组所包含的词组对应的特征值；

组合所述特征值，以得到对应的当前词向量。

在一些实施例中，根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵，包括：

根据所述各个词组的词频和逆向文件频率，确定出各个词组的权重参数；

根据各个词组的权重参数，确定出各个特征值的权重参数；

利用各个特征值的权重参数，处理所述目标特征矩阵，以得到加权处理后的目标特征矩阵。

在一些实施例中，根据所述各个词组的词频和逆向文件频率，确定出各个词组的权重参数，包括：

按照以下方式确定出当前词组的权重参数：

计算并将当前词组的词频与当前词组的逆向文件频率的乘积，确定为当前词组的权重参数。

在一些实施例中，根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组，包括：

对所述加权处理后的目标特征矩阵进行聚类处理，得到多个聚类簇；其中，所述聚类簇包含有至少一个词向量；所述聚类簇与工单主题组对应；

根据聚类簇所包含的词向量，将对应的客服工单文本划分进与该聚类簇对应的工单主题组中。

在一些实施例中，在根据聚类簇所包含的词向量，将对应的客服工单文本划分进与该聚类簇对应的工单主题组中之后，所述方法还包括：

统计该聚类簇中的各个特征值的频率；

根据所述特征值的频率，筛选出预设个数个特征值，作为目标特征值；

根据与所述目标特征值对应的词组，确定出与该聚类簇对应的聚类簇标签；并将所述聚类簇标签，确定为与该聚类簇对应的工单主题组的客服主题标签。

在一些实施例中，在根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组之后，所述方法还包括：

根据客服主题标签，将所述多个工单主题组分发至相匹配的客服处理系统；其中，所述客服处理系统用于根据所分配到的客服工单，进行相关的客服业务处理。

本说明书实施例还提供了一种文本数据的处理方法，包括：

获取多个文本数据；其中，所述文本数据包括一个或多个词组；

根据预设的处理规则，构建与所述多个文本数据关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个文本数据；所述词向量包含有一个或多个与词组对应的特征值；

根据所述多个文本数据，统计出各个词组的词频和逆向文件频率；

根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；

根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个文本数据划分为多个主题组。

本说明书实施例还提供了一种客服工单的处理装置，包括：

获取模块，用于获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组；

构建模块，用于根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；

统计模块，用于根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；

加权模块，用于根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；

聚类模块，用于根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

本说明书实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述客服工单的处理方法的相关步骤。

本说明书实施例还提供了一种计算机存储介质，其上存储有计算机指令，所述指令被执行时实现所述客服工单的处理方法的相关步骤。

本说明书提供的一种客服工单的处理方法、装置和服务器，基于该方法，在接入多个客服工单文本之后，可以先根据预设的处理规则，构建得到与多个客服工单文本关联的目标特征矩阵；其中，该目标特征矩阵具体可以包含有多个词向量，每一个词向量分别与一个客服工单文本对应，每一个词向量又可以包含有一个或多个与词组对应的特征值；同时，还可以根据多个客服工单文本，统计出能够反映出词组的分类效果的词频和逆向文件频率；进而可以根据各个词组的词频和逆向文件频率，对目标特征矩阵进行加权处理，得到相对更适合进行聚类处理的加权处理后的目标特征矩阵；再通过对上述加权处理后的目标特征矩阵进行聚类处理，可以将数据量较大的多个客服工单文本高效、精准地划分进相对应的工单主题组中，以便后续能更好地进行针对性的客服业务处理，提高用户的客服体验。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的客服工单的处理方法的系统的结构组成的一个实施例的示意图；

图2是本说明书的一个实施例提供的客服工单的处理方法的流程示意图；

图3是本说明书的一个实施例提供的客服工单的处理方法的流程示意图；

图4是本说明书的一个实施例提供的服务器的结构组成示意图；

图5是本说明书的一个实施例提供的客服工单的处理装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种客服工单的处理方法，所述客服工单的处理方法具体可以应用于包含有分类服务器和分发服务器的系统中。具体可以参阅图1所示。其中，分类服务器与分发服务器可以通过有线或无线的方式相连，分类服务器与客服中心对接，分发服务器与多个客服处理系统对接。

在本实施例中，所述第一服务器、第二服务器具体可以包括一种应用于业务处理平台一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述第一服务器、第二服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述第一服务器、第二服务器所包含的服务器的数量。所述第一服务器、第二服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在本实施例，具体实施时，分类服务器可以定期(例如，每天)接入客服中心所接入的海量客服工单文本。

分类服务器在接收到上述多个客服工单文本之后，可以先根据上述多个客服工单文本，构建对应的加权处理后的目标特征矩阵。

具体的，首先，分类服务器可以对各个客服工单文件进行分词处理，得到多个第一数据组。其中，每一个第一数据组与一个客服工单文本对应，且每一个第一数据组包含有按顺序排列的多个词组。

接着，分类服务器可以先识别并确定出各个第一数据组中所包含的无效词(例如，助词、语气词、程度副词，以及对于客服处理作用较小的非词组等)；然后过滤各个第一数据组中无效词；再打乱过滤后的第一数据组中所包含的词组，得到符合要求的第二数据组。

然后，分类服务器可以根据预设的编码规则，计算各个第二数据组中所包含的词组的编码值，作为与该词组对应的特征值；再根据第二数据组中词组的特征值，建立与多个第二数据组分别对应的词向量；组合多个词向量，得到目标特征矩阵。其中，目标特征矩阵包含有多个词向量，每一个词向量又分别与一个客服工单文本对应，每一个词向量具体又可以包含有与词组对应的多个特征值。

同时，分类服务器还可以根据多个客服工单文本，统计出各个词组的词频(tf)和逆向文件频率(idf)；再根据各个词组的词频和逆向文件频率，计算出能够有效地反映出特征值的分类能力的权重参数；并根据各个词组的权重参数，确定出对应的特征值的权重参数。

再通过将特征值的权重参数与目标特征矩阵相乘，得到加权处理后的目标特征矩阵。

通过上述方式，服务器所构建得到的加权处理后的目标特征矩阵由于充分考虑并利用到不同特征值在分类时的作用效果，因此更加适合进行后续的聚类处理。

进而，分类服务器可以通过对上述加权处理后的目标特征矩阵进行聚类处理，将多个客服工单文本划分进相匹配的多个工单主题组中。

具体的，首先，分类服务器可以根据预设的分类参数，对加权后的目标特征矩阵进行聚类处理，得到多个聚类簇。其中，每一个聚类簇至少包含有一个词向量，每一个聚类簇与一个工单主题组对应。

然后，分类服务器可以根据每个聚类簇所包含的词向量，将与聚类簇中的词向量对应的客服工单文本，划分进与该聚类簇对应的工单主题组中，得到多个工单主题主。其中，每一个工单主题组包含有属于同一类主题的一个或多个客服工单文本。

进一步，分类服务器还可以统计每一个聚类簇中各个特征的频率；并根据特征值的频率，从该聚类簇所包含的多个特征值中筛选出预设个数(例如，特征值的频率排序靠前的两个)特征值，作为目标特征值；再确定出与上述目标特征值对应的词组，作为针对该聚类簇的具有较好代表性的聚类簇标签；并将该聚类簇标签，确定为与该聚类簇对应的工单主题组相匹配的客服主题标签。

同时，分类服务器还可以利用上述客服主题标签对工单主题组进行标注，得到携带有匹配的客服主题标签的工单主题组。

通过上述方式，分类服务器可以高效、准确地将大量客服工单文本通过聚类划分对应的多个工单主题组中；并且，还可以自动针对各个工单主题组确定并标注出效果较好的、相匹配的客服主题标签。

分类服务器可以将上述携带有客服主题标签的工单主题组发送至分发服务器。

分发服务器可以根据工单主题组所携带的客服主题标签，将不同工单主题组所包含的客服工单文本发送至相匹配的客服处理系统中进具体的客服业务处理。

具体的，例如，分发服务器在根据1号工单主题组所携带的客服主题标签确定该工单主题组所包含的客服工单文本属于售前服务类型，因此，可以将1号工单主题组所包含的多个客服工单文本分发给负责售前服务的客服处理系统a。

又例如，分发服务器在根据3号工单主题组所携带的客服主题标签确定该工单主题组所包含的客服工单文本属于售后服务类型，因此，可以将3号工单主题组所包含的多个客服工单文本分发给负责售前服务的客服处理系统b。

通过上述方式，分发服务器可以根据各个工单主题组所携带的客服主题标签，准确、高效地将多个客服工单文本分发至相匹配的客服处理系统进行相关的客服业务处理，使得用户的客服需求能够得到及时且有针对性的处理，提高了用户的客服体验。

参阅图2所示，本说明书实施例提供了一种客服工单的处理方法。其中，该方法具体应用于服务器一侧。具体实施时，该方法可以包括以下内容：

s201：获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组；

s202：根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；

s203：根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；

s204：根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；

s205：根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

通过上述实施例，服务器通过统计并利用能够较好地反映出词组的分类效果的词频和逆向文件频率，构建到与多个客服工单文本关联的加权处理后的目标特征矩阵；进而可以利用上述加权处理后的目标特征矩阵，能够较为高效、精准地通过聚类处理，将多个客服工单文本分别划分进行相匹配的工单主题组中，减少了分类误差。

在一些实施例中，上述客服工单文本具体可以是记录有用户的客服需求的文本数据。具体的，客服中心可以通过多种途径多种方式(例如，客服电话、客服邮件、柜面投诉等)获取用户的客服需求，并进行记录，以得到对应的客服工单文本。其中，每一个客服工单文本具体可以包括一个或多个词组。

例如，客服中心的接线员接听到用户甲的咨询电话，可以根据用户甲的咨询电话，记录以下文本内容“客户甲对自己卡内的一笔出账明细有疑问”，作为一个客服工单文本。

又例如，客服中心的服务器接收到用户乙发送的投诉邮件，通过调用预设的语义识别模型识别处理邮件中的文本内容，得到以下文本识别结果“客户乙反映大堂经理服务效率低”，作为另一个客服工单文本。

当然，上述所列举的客服工单文本的获取方式只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，客服中心还可以采用其他合适的获取方式来获取上述客服工单文本。

在一些实施例中，客服中心可以每隔预设的时间段(例如，一天等)，将该预设的时间段内所接收到的多个客服工单文本批量发送至负责对客服工单文本进行分类的服务器，以对多个客服工单文本进行具体处理。

在一些实施例中，上述根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵，具体实施时，可以包括以下内容：

s1：对所述多个客服工单文本分别进行分词处理，得到多个第一数据组；其中，所述第一数据组包含有按顺序排列的多个词组；

s2：对所述多个第一数据组分别进行预设的过滤处理，得到多个第二数据组；

s3：根据所述多个第二数据组，构建对应的多个词向量；

s4：组合所述多个词向量，以得到目标特征矩阵。

通过上述实施例，可以根据多个客服工单文本，构建得到效果相对较好的与多个客服工单文本关联的目标特征组。

在一些实施例中，具体实施时，可以利用结巴分词(jieba)对多个客服工单文本分别进行相应的分词处理。再将每一个客服工单文本所包含的按顺序排列的多个词组，确定为一个第一数据组。其中，上述按顺序排列具体可以是指按客服工单文本中的语序排列。

具体的，例如，对于客服工单文本“客户甲对自己卡内的一笔出账明细有疑问”，通过进行分词处理，可以拆分出以下所示的按顺序排列的多个词组：客户、甲、对、自己、卡内、的、一笔、出账、明细、有、疑问。并将上述按顺序排列的多个词组所构成的组合，记为第一数据组。

在一些实施例中，考虑到上述第一数据组所包含的词组较多，且所包含的词组中还存在部分词组属于无效词。其中，上述无效词具体可以理解为一种对于客服工单文本的分类影响较小的词组。具体的，上述无效词可以包括：语气词、助词、停顿词、程度副词等。

因此，在本实施例中，为了提高后续聚类处理的处理效率以及聚类精度，可以先识别并过滤第一数据组中的无效词，得到效果相对更好、更为精简的过滤后的第一数据组。

在一些实施例中，上述对所述多个第一数据组分别进行过滤处理，得到多个第二数据组，具体实施时，可以包括以下内容：按照以下方式，对多个第一数据组中的当前第一数据组进行预设的过滤处理，以得到与当前第一数据组对应的当前第二数据组：

s1：调用预设的无效词识别模型处理当前第一数据组所包含的按顺序排列的多个词组，以确定出所述多个词组中的无效词；

s2：过滤当前第一数据组中的无效词，得到过滤后的当前第一数据组；

s3：对所述过滤后的当前第一数据组所包含的词组的排列顺序进行随机化操作，得到所述当前第二数据组。

通过上述实施例，可以先识别并滤除当前第一数据组中的无效词，得到过滤后的当前第一数据组；进一步，可以通过进行随机化操作打乱过滤后的当前第一数据组中所包含的词组，得到效果相对更好的与当前第一数据组对应的当前第二数据组。

具体的，例如，对于当前第一数据组“客户、甲、对、自己、卡内、的、一笔、出账、明细、有、疑问”，按照上述方式可以先识别出无效词为：甲、对、自己、的、有。再通过过滤无效词，得到过滤后的当前第一数据组为：客户、卡内、一笔、出账、明细、疑问。进一步，还可以打乱过滤后的当前第一数据组中词组排序，得到对应的当前第二数据组为：卡内、客户、疑问、一笔、明细、出账。

在一些实施例中，可以按照上述处理当前第一数据组的方式，处理其他的第一数据组，得到与多个第一数据分别对应的多个第二数据组。

在一些实施例中，也可以不对过滤后的当前第一数据组所包含的词组的排列顺序进行随机化操作，直接利用当前第一数据组所包含的词组，计算对应的当前词向量。

在一些实施例中，上述预设的无效词识别模型具体可以按照以下方式训练得到：获取多个样本工单文本，并根据多个样本工单文本生成对应的多个样本数据组；其中，各个样本数据组分别包含有一个或多个词组；标注出样本数据组中的无效词，得到标注后的样本数据组；利用上述标注后的样本数据组进行模型训练，以得到上述预设的无效词识别模型。

在一些实施例中，具体实施时，可以根据上述第二数据组，构建得到与各个客服工单文本对应的词向量。其中，每一个词向量具体可以包含有多个特征值作为词向量中的向量元素，每一个特征值具体又可以是第二数据组中对应词组的特征值。

在一些实施例中，上述根据所述多个第二数据组，构建对应的多个词向量，具体实施时，可以包括以下内容：按照以下方式，构建与当前第二数据组对应的当前词向量：根据预设的编码规则，确定出与当前第二数据组所包含的词组对应的特征值；组合所述特征值，以得到对应的当前词向量。

通过上述实施例，可以根据预设的编码规则，确定出当前第二数据组所包含的词组的编码值，作为对应的特征值；进而可以基于上述特征值，得到与当前第二数据组对应的当前词向量。

具体的，例如，对于当前第二数据组为“卡内、客户、疑问、一笔、明细、出账”，可以根据预设的编码规则，计算得到对应的当前词向量为di＝(1,0,1,0,1,0,1,1,1,0,0,0)。

在一些实施例中，可以按照上述计算当前第二数据组对应的当前词向量的方式，计算其他第二数据组的词向量，得到与多个第二数据组分别对应的多个词向量。其中，所述多个词向量中的各个词向量分别对应一个客服工单文本。

在一些实施例中，上述组合所述多个词向量，以得到目标特征矩阵，具体实施时，可以包括以下内容：获取多个词向量的转置；组合多个词向量之后，再进行整体转置，以得到目标特征矩阵。具体的，例如，所得到的目标特征矩阵可以表示为以下形式：d＝(d1,……,di,……,dm)^t。其中，所述目标特征矩阵的行数等于客服工单文本数m，所述目标特征矩阵的列数等于与客服工单文本对应的词向量的所包含的向量元素数n。

在一些实施例中，为了使得目标特征矩阵更适合进行后续的聚类处理，得到更好的聚类结果，还可以确定并利用各个词组的词频和逆向文件频率对目标特征矩阵进行加权处理，得到聚类效果相对更好的目标特征矩阵。

在一些实施例中，上述根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵，具体实施时，可以包括以下内容：

s1：根据所述各个词组的词频和逆向文件频率，确定出各个词组的权重参数；

s2：根据各个词组的权重参数，确定出各个特征值的权重参数；

s3：利用各个特征值的权重参数，处理所述目标特征矩阵，以得到加权处理后的目标特征矩阵。

通过上述实施例，先引入并利用能够较好地反映出词组的分类效果的词频和逆向文件频率计算出与词组对应的权重参数；再利用上述权重参数对目标特征矩阵进行相应的加权处理，从而可以得到更适合进行后续聚类处理的加权处理后的目标特征矩阵。

在一些实施例中，上词频(termfrequency，tf)具体可以是指词组在所在的第二数据组中出现的次数与该第二数据组中所有词组出现次数的总和的比值。

具体的，例如，一个包含有词组“明细”的第二数据组中所有词组出现次数的总和为100次，其中，词组“明细”在该第二数据组中出现次数为5次，相应的，可以计算出词组“明细”针对该第二数据组的词频为：5/100＝0.05。

在一些实施例中，上述逆向文件频率(inversedocumentfrequency，idf)具体可以是指第二数据组的总组数除以包含有词组的第二数据组的组数的商的以10为底的对数。

具体的，例如，第二数据组的总组数为10000，包含有词组“明细”的第二数据组的组数为100，相应的，可以计算出词组“明细”的逆向文件频率为：lg(10000/100)＝2。

在一些实施例中，考虑到通常当某个词组在一个客服工单文本中出现的频率越高(对应词频的数值越大)，并且在其他客服工单文本中出现频率较低(对应逆向文件频率的数值越大)，则可以认为该词组相对具有较好的分类效果，较适合用来分类。

在一些实施例中，上述根据所述各个词组的词频和逆向文件频率，确定出各个词组的权重参数，具体实施时，可以包括以下内容：按照以下方式确定出当前词组的权重参数：计算并将当前词组的词频与当前词组的逆向文件频率的乘积，确定为当前词组的权重参数。

具体的，例如，可以按照以下算式计算词组的权重参数：词组的权重参数＝词组的词频*词组的逆向文件频率。

通过上述实施例，可以综合利用词组的词频和逆向文件频率，得到能够较为精准的，能够量化出词组的分类效果的词组的权重参数。

在一些实施例中，一个词组的权重参数具体可以与一个第二数据组中的一种词组对应。

在一些实施例中，上述利用各个特征值的权重参数，处理所述目标特征矩阵，以得到加权处理后的目标特征矩阵，具体实施时，可以包括：利用各个词组的权重参数，分别与目标特征矩阵中相对应的一个词向量中的特征值相乘，以得到加权处理后的目标特征矩阵。

具体的，例如，可以通过利用词组的权重参数，对目标特征矩阵进行加权处理，得到如下所示的加权处理后的目标特征矩阵w：

其中，wij表示编号为i的词向量中的编号为j的加权后的特征值。

在一些实施例中，上述利用各个特征值的权重参数，处理所述目标特征矩阵，以得到加权处理后的目标特征矩阵，具体实施时，还可以包括：根据各个词组的权重参数，以及目标特征矩阵，构建对应的权重矩阵；其中，权重矩阵的矩阵结构与目标特征矩阵的矩阵结构相匹配；再将权重矩阵与目标特征矩阵相乘，以得到加权处理后的目标特征矩阵。

在一些实施例中，上述根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组，具体实施时，可以包括以下内容：对所述加权处理后的目标特征矩阵进行聚类处理，得到多个聚类簇；其中，所述聚类簇包含有至少一个词向量；所述聚类簇与工单主题组对应；根据聚类簇所包含的词向量，将对应的客服工单文本划分进与该聚类簇对应的工单主题组中。

通过上述实施例，可以利用加权处理后的目标特征矩阵，通过聚类处理，将多个客服工单文本快速地划分进行对应的工单主题组中，高效地完成针对大数据量的客服工单文本的批量分量。

在一些实施例中，具体对所述加权处理后的目标特征矩阵进行聚类处理时，可以先根据历史客工单文本，统计出可能出现的种类数，作为预设参数。接着，可以先从加权处理后的目标特征矩阵中随机选取预设参数个词向量作为初始的聚类中心。然后，可以计算加权处理后的目标特征矩阵中剩余词向量与上述初始的聚类中心的向量距离，并将剩余词向量分配到与该词向量的向量距离最近的聚类中心，得到预设参数个聚类。再基于分配后得到的预设参数个聚类，计算预设个数新的聚类中心；并计算剩余的词向量与新的聚类中心之间的向量距离，将剩余的词向量分配给最接近的新的聚类中心，得到预设参数个更新后的聚类。重复上述操作，直到所得到的聚类不再更新为止，可以将最终得到的预设个数个聚类确定为所述多个聚类簇。

在一些实施例中，每一个聚类簇可以至少包含有一个词向量，每一个词向量又对应一个客服工单文本。因此，可以将同一聚类簇中所包含的词向量所对应的客服工单文本划分进同一个文本组中，得到与该聚类簇对应的工单主题组。

从而可以根据加权处理后的目标特征矩阵，通过聚类处理，将多个客服工单文本准确地划分到对应的多个工单主题组中。

在一些实施例中，在根据聚类簇所包含的词向量，将对应的客服工单文本划分进与该聚类簇对应的工单主题组中之后，所述方法具体实施时，还可以包括以下内容：

s1：统计该聚类簇中的各个特征值的频率；

s2：根据所述特征值的频率，筛选出预设个数个特征值，作为目标特征值；

s3：根据与所述目标特征值对应的词组，确定出与该聚类簇对应的聚类簇标签；并将所述聚类簇标签，确定为与该聚类簇对应的工单主题组的客服主题标签。

通过上述实施例，可以针对各个工单主题组，自动且精准地确定出与各个工单主题组相匹配的客服主题标签。

在一些实施例中，具体实施时，可以统计一个聚类簇中所包含的各个特征值的频率(出现频率)；再筛选出特征值的频率数值从大到小排序后靠前的预设个数(例如，靠前的3个)特征值作为针对该聚类簇代表性较好的目标特征值；进而可以根据上述目标特征值所对应的词组，确定出与该聚类簇(即所对应的工单主题组)对应的客服主题标签。

在一些实施例中，通过上述方式所确定的出的客服主题标签具体可以包括以下所列举的一种或多种：“交易前-查询-账户”、“交易前-申请-vip”、“交易后-查询-账单”、“交易后-投诉-延迟”等等。当然，上述所列举的多个客服主题标签只是一种示意性说明。具体实施时，根据具体情况和处理需求，还可以包括其他相关的客服主题标签。对此，本说明书不作限定。

在一些实施例中，具体实施时，还可以利用所确定出的客服主题标签对各个工单主题组进行标注，得到携带有对应的客服主题标签的工单主题组。

在一些实施例中，在根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组之后，所述方法具体实施时，还可以包括以下内容：根据客服主题标签，将所述多个工单主题组分发至相匹配的客服处理系统；其中，所述客服处理系统用于根据所分配到的客服工单，进行相关的客服业务处理。

通过上述实施例，可以准确、高效地将多个客服工单文本批量分发至相匹配的客服处理系统，以便可以区分不同的工单主题组，有针对性的进行较为专业的客服业务处理，从而可以提高客服业务处理效果，改善用户的客服体验。

具体的，例如，在确定当前工单主题组所携带的客服主题标签为“交易前-查询-账户”的情况下，可以将当前工单主题组所包含的多个客服工单文本批量分发给负责处理交易前的账户查询业务的客服处理系统。相应的，该客服处理系统可以根据所分发的多个客服工单文本，及时地联系相关用户，并为用户提供相匹配的专业的交易前的账户查询服务。

由上可见，本说明书实施例提供的客服工单的处理方法，基于该方法，在接入多个客服工单文本之后，可以先根据预设的处理规则，构建得到与多个客服工单文本关联的目标特征矩阵；其中，该目标特征矩阵具体可以包含有多个词向量，每一个词向量与一个客服工单文本对应，每一个词向量又包含有一个或多个与词组对应的特征值；同时，根据多个客服工单文本，统计出能够反映出词组的分类效果的词频和逆向文件频率；进而可以根据各个词组的词频和逆向文件频率，对目标特征矩阵进行加权处理，得到相对更适合进行聚类处理的加权处理后的目标特征矩阵；再通过对上述加权处理后的目标特征矩阵进行聚类处理，从而可以将数据量较大的多个客服工单文本高效、精准地划分进相对应的工单主题组中，以便后续能更好地进行针对性的客服业务处理。

参与图3所示，本说明书实施例还提供了一种文本数据的处理方法，该方法具体实施时，可以包括以下内容：

s301：获取多个文本数据；其中，所述文本数据包括一个或多个词组；

s302：根据预设的处理规则，构建与所述多个文本数据关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个文本数据；所述词向量包含有一个或多个与词组对应的特征值；

s303：根据所述多个文本数据，统计出各个词组的词频和逆向文件频率；

s304：根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；

s305：根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个文本数据划分为多个主题组。

通过上述实施例，可以将数据量较大的多个文本数据高效、精准地划分进相对应的主题组中，以便后续能更好地对不同主题组进行有区分、有针对性的数据处理。

在一些实施例中，上述文本数据具体可以包括以下至少之一：客服工单文本、邮件文本、新闻报道、短信息文本等等。当然，上述所列举的文本数据只是一种示意性说明。根据具体的应用场景和处理需求，上述文本数据的处理方法还可以进一步拓展应用于处理其他类型的文本数据。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组；根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

为了能够更加准确地完成上述指令，参阅图4所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口401、处理器402以及存储器403，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口401，具体可以用于获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组。

所述处理器402，具体可以用于根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

所述存储器403，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口401可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行ftp数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如gsm、cdma等；其还可以为wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器402可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器403可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如ram、fifo等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、tf卡等。

本说明书实施例还提供了一种基于上述客服工单的处理方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组；根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

在本实施例中，上述存储介质包括但不限于随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、缓存(cache)、硬盘(harddiskdrive,hdd)或者存储卡(memorycard)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图5所示，在软件层面上，本说明书实施例还提供了一种客服工单的处理装置，该装置具体可以包括以下的结构模块：

获取模块501，具体可以用于获取多个客服工单文本；其中，所述客服工单文本包括一个或多个词组；

构建模块502，具体可以用于根据预设的处理规则，构建与所述多个客服工单文本关联的目标特征矩阵；其中，所述目标特征矩阵包括多个词向量；所述词向量对应一个客服工单文本；所述词向量包含有一个或多个与词组对应的特征值；

统计模块503，具体可以用于根据所述多个客服工单文本，统计出各个词组的词频和逆向文件频率；

加权模块504，具体可以用于根据所述各个词组的词频和逆向文件频率，对所述目标特征矩阵进行加权处理，得到加权处理后的目标特征矩阵；

聚类模块505，具体可以用于根据所述加权处理后的目标特征矩阵进行聚类处理，以将所述多个客服工单文本划分为多个工单主题组。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的客服工单的处理装置，可以将数据量较大的多个客服工单文本高效、精准地划分进相对应的工单主题组中，以便后续可以及时地针对不同工单主题组所包含的客服工单文本，有针对性地提供相匹配的客服业务服务，以提高用户的客服体验。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戎伟峰;彭雪琼;徐怡欣
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

上一篇：一种用于合成氮化硅粉体的悬浮反应器的制作方法
上一篇：电子眼镜的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。