投诉热点自动识别方法及装置与流程

文档序号:15588323发布日期:2018-10-02 18:39阅读:202来源:国知局

本发明属于通信技术领域,尤其涉及一种投诉热点自动识别方法及装置。



背景技术:

对于企业运营来说,不同的时间阶段,企业的关注重点不同、聚焦的重点业务不同、营销活动不同,这就导致不同的时间段,客户投诉热点不同。所以说,投诉热点是随着时间的推移而不断变化的。

当前,对投诉内容的分析手段,主要是通过人工构建投诉分类,之后,对投诉内容采用手工归类或者采用文本分词等技术手段,对投诉内容进行归类,之后再统计各个投诉类别下的投诉频次,根据投诉频次确定投诉热点,再从业务的角度针对性的改进产品与服务。

现有的技术方案中,投诉热点无法自动发现,必须新增投诉类别,才能通过人工的或者技术的手段,对投诉内容进行归类,才能发现新增投诉热点。然而,新出现的投诉热点,必须在数量足够巨大引起客户服务人员注意,才可能将上述新出现的投诉热点加入到投诉类别中,新增的投诉热点才能被发现、被识别。这就导致,客户服务人员无法及时识别出新增的投诉热点,更无法及时的制定针对性的服务策略,往往只能新增的投诉热点大量爆发之后,才能发现新增的投诉热点。一方面导致客户的满意度低下,服务效果差;另外一方面导致客服人员疲于应付,服务效率低下。。



技术实现要素:

本发明实施例提供了一种投诉热点自动识别方法及装置。

第一方面,提供了一种投诉热点自动识别方法,包括:根据投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词的步骤;将投诉热点候选词加入到原有文本分词词库以对原有文本分词词库进行更新的步骤;根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语的步骤;以及,统计投诉词语在投诉内容文本中出现的频次,根据频次获得投诉热点词语的步骤。

第二方面,提供了一种投诉热点自动识别装置,包括:候选词生成单元、词库更新单元、投诉词语生成单元和投诉热点词语生成单元。该候选词生成单元被配置为根据投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词;该词库更新单元被配置为将投诉热点候选词加入到原有文本分词词库以对原有文本分词词库进行更新;该投诉词语生成单元被配置为根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语;该投诉热点词语生成单元被配置为统计投诉词语在投诉内容文本中出现的频次,根据频次获得投诉热点词语。

第三方面,提供了一种投诉热点自动识别装置,包括:存储器、处理器和输出设备。该存储器用于存储计算机可执行指令;该处理器用于执行存储器存储的计算机可执行指令,计算机可执行指令使得处理器执行上述投诉热点自动识别方法;该输出设备用于输出将投诉热点词语识别结果。

根据本发明实施例提供的投诉热点自动识别方法及装置,通过采用概率统计和语言处理算法对投诉文本进行分析,获得投诉热点候选词,加入到文本分词的词库中,然后再对投诉文本进行文本分词,统计投诉词语出现的频次,根据上述投诉词语出现的频次,对新增投诉后投诉热点词语的自动识别。实现新增投诉热点后投诉热点词语的及时识别和预警,让客服人员能有时间针对新增诉热点后的投诉热点,进行针对性的准备,比如针对性的准备服务资源、对客服代表进行针对性的培训,实现提高服务效率、提升服务效果的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例的投诉热点自动识别方法的示意性流程图;

图2是本发明另一实施例的投诉热点自动识别方法的示意性流程图;

图3是本发明实施例的投诉热点自动识别装置的示意性结构框图;

图4是本发明另一实施例的投诉热点自动识别装置的示意性结构框图;

图5是本发明实施例的投诉热点自动识别装置的计算设备实现的示意性结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明更全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中,为了清晰,可能夸大了区域和层的厚度。在图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料等。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本发明的主要技术创意。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有的投诉热点识别方案由于在接收到新的投诉内容文本后新增的投诉热点必须出现足够多的数量才有可能引起业务人员的注意,才有可能被加入到投诉导航中去,最后,才有可能被识别出来,使得客户服务部门无法在该类投诉大量出现之前,做好针对性的准备,比如,对客户服务代表进行服务技巧培训、针对性的调配客服资源等,导致新增投诉热点高发时疲于应对,服务效率低下,服务效果无法保障。

针对上述问题,本发明实施例提供一种投诉热点自动识别方法及装置,下面将结合附图对上述方法及装置进行详细说明,图1是本发明一实施例的投诉热点自动识别方法的示意性流程图。如图1所示,该投诉热点自动识别方法,包括:s110,根据投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词;在s110中,上述投诉内容文本例如可以是自身以存有的也可以是接收到的用户或业务服务器发来的投诉内容文本,还可以是通过用户设备的客户端、业务服务器、投诉平台等采集来的投诉内容文本信息。s120,将投诉热点候选词加入到原有文本分词词库以对原有文本分词词库进行更新;s130,根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语;以及s140,统计投诉词语在投诉内容文本中出现的频次,根据频次获得投诉热点词语。

在步骤s110中,根据投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词的步骤具体包括:将投诉内容文本拆分,统计经拆分的投诉内容文本的最小单元或组合后出现在投诉内容文本中的概率,并且根据概率在经拆分的投诉内容文本的最小单元和组合中选择投诉热点候选词。在一个示例中,经拆分的投诉内容文本的组合后出现在投诉内容文本中的概率为:组合在投诉内容文本中出现的频次与组成组合的最后一个最小单元在投诉内容文本中出现的频次的比值。在一个示例中,在获得投诉内容文本,可以将上述投诉内容文本进行拆分分别生成2个字、3个字的词,一直到10个字词甚至更多个字的词,统计他们可以称为投诉热点候选词的概率,可以选取指定概率的词语作为投诉热点候选词,例如可以选取概率最大的前20%作为投诉热点候选词,并生成投诉热点候选词列表。在一个示例中,投诉热点候选词的选取可以采用具体方法如下:可以将在指定时间内接收到的投诉文本按照每个词(wi)的先后出现顺序记作:w1w2…wiwi+1…wn;统计每个词(wi)出现次数记作:count(wi);统计单词wi在单词wi-1之后顺序出现的次数,记作:count(wi,wi-1),应理解这里的wi和wi-1的顺序不可对调;计算wi在wi-1之后出现的概率p(wi,wi-1),也就是wi-1wi是个词语的可能性:p(wi,wi-1)=count(wi,wi-1)/count(wi);通过上述方法可以计算得到所有在上述投诉内容文本中出现的2个字可以组成词的概率,同样原理,可以分别求得3字组成词、4字组成词,直到10字组成词的概率,分别记作p(wi,wi-2wi-1)、p(wi,wi-3wi-2wi-1)……p(wi,wi-9wi-8wi-7wi-6wi-5wi-4wi-3wi-2wi-1);在一个示例中,可以将上述获得的2字词、3字词,一直到10字词出现的概率,从高到底排序,例如,可以取概率排名在前20%的词,作为投诉热点候选词。需要说明的是,上述概率统计方法具体可以理解为:由概率论可知,对于n各自独立的变量(x1x2……xn)来说,他们同时出现的概率p(x1x2……xn)为:

对于给定的一个句子,可以表示为按顺序出现的字词序列,该字词序列可以用w1w2……wn表示,其中w代表句子中一个字。上述字词序列组成句子的可能性为:

根据markov假设可知,一个词出现的概率,仅仅取决于它出现之前有限个字词出现的概率。根据这个假设可以推论出,一个词出现的概率,仅仅取决于它之前出现的n个字词出现的概率。由此可知:

上述概率可以通过统计相关字词序列出现的次数,然后在进一步计算得知。计算公式如下:

根据一个实施例,在s140中,根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语的步骤包括:将投诉内容文本拆分成最小单元或最小单元的组合,以分别到更新后的文本分词词库中进行查询,根据查询到的词语生成投诉词语。在一个示例中,读取投诉内容文本,再利用已增加新增投诉热点候选词的文本分词词库,例如利用文本分词算法对投诉内容进行文本分词,得到投诉文本中包含的所有的投诉相关的词语。在一个示例中,更新后的文本分词词库中进行查询的具体过程如下:将投诉文本按照每个词(wi)的先后出现顺序记作:w1w2…wiwi+1…wn;对于每个词(wi),如果wi在投诉词库中存在,记作t(wi);如果不存在记作f(wi)。从wi到wj词组成的短语wiwj,如果在投诉词库中存在记作t(wiwj);如果不存在,引入变量k(i≤k≤j),如果存在一个k,同时满足t(wiwk)与t(wk+1wj),记作t(wiwj,k)。否则,记作f(wiwj);取len从1到n,将投诉内容文本w1w2…wiwi+1…wn分别分解成长度为len的词。例如:len=1,投诉文本分解成n个词:w1,w2,……,wn;len=2,投诉内容文本分解成n×(n-1)个词:w1w2,w2w3,……,wn-1wn;当len=n时整个投诉文本分解成1个词:w1w2…wiwi+1…wn。对通过上述方法得到的所有字词,逐个到投诉词库中进行查询,记录计算过程中所有的t(wiwj,k),将所有k剔除重复数据后,从小到大排序;按照k值从小到大的顺序,对投诉内容文本进行逐段截取,即可得到投诉内容文本分词的结果,即得到投诉内容文本中包含的所有的投诉相关的投诉词语。

根据一个实施例,在步骤s140中,可以逐个读取投诉内容文本中的投诉词语,并且,逐个统计各个投诉词语出现的频次。按照投诉词语出现频率从高到低进行排序,获得投诉热点词语。根据上述投诉热点时识别方法,通过采用概率统计和语言处理算法对投诉文本进行分析,获得投诉热点候选词,加入到文本分词的词库中,然后再对投诉文本进行文本分词,统计投诉词语出现的频次,根据上述投诉词语出现的频次,对新增投诉后投诉热点词语的自动识别。实现新增投诉热点后投诉热点词语的及时识别和预警,让客服人员能有时间针对新增诉热点后的投诉热点,进行针对性的准备,比如针对性的准备服务资源、对客服代表进行针对性的培训,实现提高服务效率、提升服务效果的目的。在一个示例中,可以在统计各个投诉词语出现的频次后,剔除非新增投诉热点候选词,只留下新增投诉热点后选词,再按照投诉词语出现频率从高到低进行排序,最终获得新增投诉热点词语,该示例的详细过程会在下面的实施例中进行详细说明,该示例,通过在统计各个投诉词语出现的频次后,剔除非新增投诉热点候选词,实现新增投诉热点后对新增投诉热点词语的及时识别和预警,让客服人员能有时间针对新增诉热点,进行针对性的准备,比如针对性的准备服务资源、对客服代表进行针对性的培训,实现提高服务效率、提升服务效果的目的。

在一个示例中,该方法还可以包括根据投诉词语或投诉热点词语在投诉内容文本中出现的频次生成投诉词语或投诉热点词语的频次高低展示图表。

由于新增投诉热点往往比每一段时间识别出的全部投诉热点需要更及时的服务和解决方案,所以可以结合图1所示的投诉热点自动识别方法对新增投诉热点进行自动识别。图2是本发明另一实施例的投诉热点自动识别方法的示意性流程图。如图2所示,该投诉热点自动识别方法包括:s210,根据投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词;s220,将投诉热点候选词加入到原有文本分词词库以对原有文本分词词库进行更新;s230,根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语;s240,统计投诉词语在投诉内容文本中出现的频次,根据频次获得投诉热点词语;s250,剔除原有文本分词词库中的投诉词语以获得新增投诉热点词语。在一个示例中,可以逐个读取投诉内容文本分词后的投诉词语,并且,逐个统计各个投诉词语出现的频次;按照投诉词语出现频率从高到低进行排序,同时,剔除非新增投诉热点候选词,只保留新增投诉热点候选词。在一个示例中,经该方法得到的新增投诉热点候选词同样可以成生展示图表,用客服人员使用。

根据上述投诉热点时识别方法,通过采用概率统计和语言处理算法对投诉文本进行分析,获得投诉热点候选词,加入到文本分词的词库中,然后再对投诉文本进行文本分词,统计投诉词语出现的频次,根据上述投诉词语出现的频次,对新增投诉后投诉热点词语的自动识别。并剔除非新增投诉热点候选词,只保留新增投诉热点候选词。实现新增投诉热点后对新增投诉热点词语的及时识别和预警,让客服人员能有时间针对新增诉热点,进行针对性的准备,比如针对性的准备服务资源、对客服代表进行针对性的培训,实现提高服务效率、提升服务效果的目的。

图3是本发明实施例的投诉热点自动识别装置的示意性结构框图。如图3所示,该投诉热点自动识别装置300,包括:候选词生成单元310、词库更新单元320、投诉词语生成单元330和投诉热点词语生成单元340。该候选词生成单元310被配置为根据投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词;该词库更新单元320被配置为将投诉热点候选词加入到原有文本分词词库以对原有文本分词词库进行更新;该投诉词语生成单元330被配置为根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语;该投诉热点词语生成单元340被配置为统计投诉词语在投诉内容文本中出现的频次,根据频次获得投诉热点词语。在一个示例中,该候选词生成单元310还被配置为将投诉内容文本拆分,统计经拆分的投诉内容文本的最小单元或组合后出现在投诉内容文本中的概率,并且根据概率在经拆分的投诉内容文本的最小单元和组合中选择投诉热点候选词。在一个示例中,经拆分的投诉内容文本的组合后出现在投诉内容文本中的概率为:组合在投诉内容文本中出现的频次与组成组合的最后一个最小单元在投诉内容文本中出现的频次的比值。在一个示例中,该投诉词语生成单元330还被配置为将投诉内容文本拆分成最小单元或最小单元的组合,以分别到更新后的文本分词词库中进行查询,根据查询到的词语生成投诉词语。在一个示例中,该装置还包括展示单元,被配置为根据投诉词语或投诉热点词语在投诉内容文本中出现的频次生成投诉词语或投诉热点词语的频次高低展示图表。

图4是本发明另一实施例的投诉热点自动识别装置的示意性结构框图。如图4所示,在图3所示的装置的基础上,进一步增加了新增投诉热点词语生成单元450,被配置为剔除原有文本分词词库中的投诉词语以获得新增投诉热点词语。根据本发明实施例的投诉热点自动识别装置300和投诉热点自动识别装置400可对应于根据本发明实施例的投诉热点自动识别方法中的执行主体,并且投诉热点自动识别装置300和投诉热点自动识别装置400中的各个单元模块的上述和其它操作和/或功能分别为了实现图1至图2中的各个方法的相应流程,为了简洁,在此不再赘述。

图5是本发明实施例的投诉热点自动识别装置的计算设备实现的示意性结构框图。如图5所示,结合图1至图4描述的投诉热点自动识别方法和投诉热点自动识别装置的至少一部分可以由计算设备500来实现,包括:存储器、处理器和输出设备。该存储器用于存储计算机可执行指令;该处理器用于执行存储器存储的计算机可执行指令,计算机可执行指令使得处理器执行上述投诉热点自动识别方法;该输出设备用于输出将投诉热点词语识别结果。该计算设备还可以包括输入设备501、输入端口502和输出端口505。其中,输入端口502、处理器503、存储器504、以及输出端口505通过总线510相互连接,输入设备501和输出设备506分别通过输入端口502和输出端口505与总线510连接,进而与计算设备500的其他组件连接。需要说明的是,这里的输出端口和输入端口也可以用i/o接口表示。具体地,输入设备501接收来自外部的输入信息,并通过输入端口502将输入信息传送到处理器503;处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出端口505将输出信息传送到输出设备506;输出设备506将输出信息输出到计算设备500的外部。

上述存储器504包括用于数据或指令的大容量存储器。举例来说而非限制,存储器504可包括hdd、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器504可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器504可在计算设备500的内部或外部。在特定实施例中,存储器504是非易失性固态存储器。在特定实施例中,存储器504包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

总线510包括硬件、软件或两者,将计算设备500的部件彼此耦接在一起。举例来说而非限制,总线510可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线510。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。

当通过图5所示的计算设备500实现结合图3描述的投诉热点自动识别装置时,输入设备501接收用户投诉内容文本,在特定实施例中,与输出设备相连的i/o接口可以包括硬件、软件或两者,提供用于在计算设备500与一个或多个i/o设备之间的通信的一个或多个接口。在合适的情况下,计算设备500可包括一个或多个这些i/o设备。一个或多个这些i/o设备可允许人和计算机系统500之间的通信。举例来说而非限制,i/o设备可包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态照相机、触针、手写板、触摸屏、轨迹球、视频摄像机、另一合适的i/o设备或者两个或更多个以上这些的组合。i/o设备可包括一个或多个传感器。本发明实施例考虑用于它们的任何合适的i/o设备和任何合适的i/o接口。在合适的情况下,i/o接口可包括一个或多个装置或能够允许处理器503驱动一个或多个这些i/o设备的软件驱动器。在合适的情况下,i/o接口可包括一个或多个i/o接口。尽管本发明实施例描述和示出了特定的i/o接口,但本发明实施例考虑任何合适的i/o接口。该处理器503基于存储器504中存储的计算机可执行指令,根据获取的投诉内容文本通过概率统计和语言处理算法获得投诉热点候选词;将投诉热点候选词加入到原有文本分词词库以对原有文本分词词库进行更新;根据更新后的文本分词词库对投诉内容文本进行分词,以获得投诉词语;以及,统计投诉词语在投诉内容文本中出现的频次,根据频次获得投诉热点词语。随后在需要经由输出端口505和输出设备506将上述识别结果输出。

在合适的情况下,计算机可执行指令可包括一个或多个基于半导体的或其他集成电路(ic)(例如,诸如现场可编程门阵列(fpga)或专用ic(asic))、硬盘驱动器(hdd)、混合硬盘驱动器(hhd)、光盘、光盘驱动器(odd)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(fdd)、磁带、全息存储介质、固态驱动器(ssd)、ram驱动器、安全数字卡或驱动或其他合适的计算机可读非临时性存储介质或者两个或更多个以上这些的组合。

需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后作出各种改变、修改和添加,或者改变步骤之间的顺序。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些端口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1