一种咨询热点分析方法及装置与流程

文档序号:12121735阅读:366来源:国知局
一种咨询热点分析方法及装置与流程

本发明涉及智能化技术领域,特别是涉及一种咨询热点分析方法及装置。



背景技术:

现有技术中,国网客服中心首先通过95598客户服务热线、手机app、短信等方式获取客户的咨询内容,然后录入咨询内容并生成咨询文档。咨询文档生成后,话务员等相关服务人员对按照客户实际的咨询类别对咨询文档进行归类,结果导入数据库。根据数据库中的数据生成咨询内容、咨询类别以及各类别咨询文档数目的统计信息。依据咨询文档的统计信息,获得咨询热点,并针对获得的咨询热点进行分析。

但是,随着客户咨询内容日渐多样、咨询文档数量日益增长,仅仅依靠人工方式对大量的咨询文档进行分类,然后对分类后的咨询文档进行统计,进而得到咨询热点,并对咨询热点进行分析,导致无法实现高效地对咨询热点进行分析的问题产生。



技术实现要素:

本发明提供一种咨询热点分析方法及装置,用以解决现有技术中无法实现高效、全面、及时地对咨询热点进行分析的问题。

为实现上述目的,本发明的技术方案为:

本发明提供了一种咨询热点分析方法,包括:

获取多个咨询文档;

从所述多个咨询文档中提取k个咨询文档,将所述k个咨询文档分别作为k个文档类别的初始聚类的中心;其中,k为正整数;

分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度;

获取所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档的所述相似度中,所述相似度最大值对应的所述初始聚类的中心;

将除所述k个咨询文档之外的其他每个咨询文档,分类到所述相似度最大值对应的所述初始聚类的中心所在文档类别中;

提取所述文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点;

对所述咨询热点进行分析。

优选地,所述分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度包括:

对每个所述咨询文档分别进行分词处理,获得对应于每个所述咨询文档的多个咨询词语;

从每个所述咨询词语中分别提取关键词,得到对应于每个所述咨询文档的关键词;

依据所述关键词,分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度。

优选地,所述对每个所述咨询文档分别进行分词处理,获得对应于每个所述咨询文档的多个咨询词语包括:

对每个所述咨询文档中包括的原始字符串进行原子切分,得到原子切分结果;

对所述原子切分结果进行N-最短路径粗切分,得到N个分词结果;所述N个分词结果以二元分词表的形式存储;其中,每个所述分词结果中包含的词语之间具有连接性;

计算位于所述二元分词表一端的词语与位于所述二元分词表另一端的词语之间存在的所有路径的第一距离;

将所述第一距离最小值对应的路径中包含的词语作为咨询词语。

优选地,所述从每个所述咨询词语中分别提取关键词,得到对应于每个所述咨询文档的关键词包括:

分别统计每个咨询词语在所述咨询文档中出现的次数;

对所述每个咨询词语在所述咨询文档中出现的次数进行标准化处理,得到所述每个咨询词语的词频;

分别统计一个语料库中,包括所述每个咨询词语的文档的个数;

通过所述语料库中所述文档的总数以及所述文档中包括所述每个咨询词语的所述文档的个数,分别计算所述每个咨询词语的逆文档频率;

将所述每个咨询词语的词频与所述每个咨询词语的逆文档频率相乘,得到所述每个咨询词语的频率计算结果;

选取所述频率计算结果中大于预设阈值的频率计算结果对应的咨询词语为所述咨询文档的关键词。

优选地,所述依据所述关键词,分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度包括:

获取需要计算相似度的两个咨询文档中包括的所有关键词;其中,两个咨询文档中一个为作为初始聚类的中心的k个咨询文档中的一个咨询文档,另一个为除k个咨询文档之外的一个咨询文档;

分别计算所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数;

依据所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数,得到所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量;

分别计算所述所有关键词在除k个咨询文档之外的一个咨询文档中出现的次数;

依据所述所有关键词在所述除k个咨询文档中的一个咨询文档中出现的次数,得到所述除k个咨询文档中的一个咨询文档中所述所有关键词的词频向量;

利用余弦定理,计算所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量与所述除k个咨询文档中的一个咨询文档中所述所有关键词的词频向量之间的夹角余弦值;

其中,所述夹角余弦值表示所述作为初始聚类的中心的k个咨询文档中的一个咨询文档与所述除k个咨询文档之外的一个咨询文档之间的相似度。

优选地,所述获取所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档的所述相似度中,所述相似度最大值对应的所述初始聚类的中心包括:

利用所述相似度分别计算所述除k个咨询文档之外的其他每个咨询文档到各个所述初始聚类的中心的第二距离;

获取所述第二距离最小值对应的所述初始聚类的中心;

其中,所述第二距离越小,所述相似度越大。

优选地,所述将除所述k个咨询文档之外的其他每个咨询文档,分类到所述相似度最大值对应的所述初始聚类的中心所在文档类别中包括:

将所述除k个咨询文档之外的其他每个咨询文档划分到与所述第二距离最小值对应的所述初始聚类的中心所在文档类别中;

判断除选取为初始聚类的中心外,其他每个咨询文档是否都已经分别划分到k个文档类别中;

当判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第一聚类的中心;

分别比较所述k个第一聚类的中心与k个初始聚类的中心是否相同;

若不同,则将所述k个第一聚类的中心作为k个文档类别的新聚类中心;

利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离;

将所述多个咨询文档划分到与所述第三距离最小值对应的所述新聚类中心所在文档类别中;

判断所述多个咨询文档是否都已经分别划分到k个文档类别中;

当判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第二聚类的中心;

分别比较所述k个第二聚类的中心与上一次聚类的中心是否相同;

若不同,则将所述k个第二聚类的中心作为k个文档类别的新聚类中心;

返回执行利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离。

本发明还提供了一种咨询热点分析装置,包括:

第一获取单元,用于获取多个咨询文档;

第一提取单元,用于从所述多个咨询文档中提取k个咨询文档,将所述k个咨询文档分别作为k个文档类别的初始聚类的中心;其中,k为正整数;

第一计算单元,用于分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与所述每个所述初始聚类的中心之间的相似度;

第二获取单元,用于获取所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档的所述相似度中,所述相似度最大值对应的所述初始聚类的中心;

第一分类单元,用于将除所述k个咨询文档之外的其他每个咨询文档,分类到所述相似度最大值对应的所述初始聚类的中心所在文档类别中;

第二提取单元,用于提取所述文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点;

分析单元,用于对所述咨询热点进行分析。

优选地,还包括:

分词处理单元,用于对每个所述咨询文档分别进行分词处理,获得对应于每个所述咨询文档的多个咨询词语;

关键词提取单元,用于从每个所述咨询词语中分别提取关键词,得到对应于每个所述咨询文档的关键词;

所述第一计算单元,用于依据所述关键词,分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度。

优选地,所述分词处理单元包括:

原子切分单元,用于对每个所述咨询文档中包括的原始字符串进行原子切分,得到原子切分结果;

最短路径粗切分单元,用于对所述原子切分结果进行N-最短路径粗切分,得到N个分词结果;

第二计算单元,用于计算二元分词表一端的词语与位于二元分词表另一端的词语之间存在的所有路径的第一距离;

确定单元,用于从所述第一距离中确定所述第一距离最小值,将所述第一距离最小值对应的路径中包含的词语作为咨询词语。

优选地,所述关键词提取单元包括:

第一统计单元,用于分别统计每个咨询词语在所述咨询文档中出现的次数;

标准化单元,用于对所述每个咨询词语在所述咨询文档中出现的次数进行标准化处理,得到所述每个咨询词语的词频;

第二统计单元,用于分别统计一个语料库中,包括所述每个咨询词语的文档的个数;

逆文档频率计算单元,用于通过所述语料库中所述文档的总数以及所述文档中包括所述每个咨询词语的所述文档的个数,分别计算所述每个咨询词语的逆文档频率;

频率计算单元,用于将所述每个咨询词语的词频与所述每个咨询词语的逆文档频率相乘,得到所述每个咨询词语的频率计算结果;

选取单元,用于选取所述频率计算结果中大于预设阈值的频率计算结果对应的咨询词语为所述咨询文档的关键词。

优选地,所述第一计算单元包括:

第三获取单元,用于获取需要计算相似度的两个咨询文档中包括的所有关键词;其中,两个咨询文档中一个为作为初始聚类的中心的k个咨询文档中的一个咨询文档,另一个为除k个咨询文档之外的一个咨询文档;

第三计算单元,用于分别计算所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数;

词频向量单元,用于依据所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数,得到所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量;

夹角余弦值计算单元,用于利用余弦定理,计算所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量与所述除k个咨询文档中的一个咨询文档中所述所有关键词的词频向量之间的夹角余弦值;

其中,所述夹角余弦值表示所述作为初始聚类的中心的k个咨询文档中的一个咨询文档与所述除k个咨询文档之外的一个咨询文档之间的相似度。

优选地,所述第二获取单元包括:第四计算单元,用于利用相似度分别计算所述除k个咨询文档之外的其他每个咨询文档到各个初始聚类的中心的第二距离;

第四获取单元,用于获取所述第二距离最小值对应的所述初始聚类的中心;

其中,所述第二距离越小,所述相似度越大。

优选地,所述第一分类单元包括:

第二分类单元,用于将所述除k个咨询文档之外的其他每个咨询文档划分到与所述第二距离最小值对应的所述初始聚类的中心所在文档类别中;

判断单元,用于判断除选取为初始聚类的中心外,其他每个咨询文档是否都已经划分到k个文档类别中;第五计算单元,用于当所述判断单元的判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第一聚类的中心;

第一比较单元,用于分别比较所述k个第一聚类的中心与k个初始聚类的中心是否相同;

第六计算单元,用于当所述第一比较单元的比较结果为不同时,将所述k个第一聚类的中心作为k个文档类别的新聚类中心,利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离;

第三分类单元,用于将所述多个咨询文档划分到与所述第三距离最小值对应的所述新聚类中心所在文档类别中;

第二判断单元,用于判断所述多个咨询文档是否都已经分别划分到k个文档类别中;

第七计算单元,用于当所述第二判断单元的判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第二聚类的中心;

第二比较单元,用于分别比较所述k个第二聚类的中心与上一次聚类的中心是否相同;

所述第六计算单元,还用于当所述第二比较单元的比较结果为不同时,将所述k个第二聚类的中心作为k个文档类别的新聚类中心;利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离。

经由上述的技术方案可知,与现有技术相比,本申请通过从多个咨询文档中提取k个咨询文档,并将k个咨询文档分别作为k个文档类别的初始聚类的中心,然后分别计算其他咨询文档与每个文档类别之间的相似度,并将咨询文档分类到相似度最大值对应的文档类别中,进而实现了将获取到的多个咨询文档自动分类的过程,并对分类后的一类咨询文档进行关键词提取,进而可以得到一类咨询文档的统计信息,得到咨询文档对应的咨询热点问题。相较于现有技术需要人工完成对咨询文档的分类和统计后,才能获取咨询热点,并对咨询热点进行分析的技术方案而言,提高了对咨询文档分类的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种咨询热点分析方法的流程图;

图2为本发明实施例公开的另一种咨询热点分析方法的流程图;

图3为本发明实施例公开的二元分词表的示意图;

图4为本发明实施例公开的另一种咨询热点分析方法的流程图;

图5为本发明实施例公开的一种咨询热点分析装置的结构示意图;

图6为本发明实施例公开的一种咨询热点分析装置的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,示出了本发明实施例提供的一种咨询热点分析方法的流程图,所述咨询热点分析方法包括:

S101、获取多个咨询文档;

当用户通过短信、电子邮件或传真的方式,将咨询内容发送给客服中心时,由于短信、电子邮件或传真是以文档形式存在的,因此,直接将用户发送的包含咨询内容的文档作为咨询文档,并将其存储在数据库中。

当用户通过语音方式,将咨询语音发送给客服中心时,需要通过语音识别技术对咨询语音进行识别,并将其转化为文本信息,将文本信息作为咨询文档,并存储在数据库中。

例如,当用户通过电话呼叫客户服务热线进行的咨询会形成咨询语音信号,语音识别技术通过信号处理、模式识别、人工智能、概率论、信息论、发生机理和听觉机理等技术将非结构化的咨询语音信息转换为结构化的索引,实现对大量咨询语音的知识挖掘和快速检索。从包含咨询文档的数据库中,获取多个咨询文档,通过对获取的多个咨询文档的处理,进而得到与获取的多个咨询文档相关的咨询热点。

S102、从所述多个咨询文档中提取k个咨询文档,将所述k个咨询文档分别作为k个文档类别的初始聚类的中心;其中,k为正整数;

k的取值可以根据实际需要进行选择,具体的根据需要得到咨询热点的个数进行选择。例如,需要从获取的多个咨询文档中得到4个咨询热点,则从所述多个咨询文档中提取4个咨询文档,即k=4。

S103、分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度;

若从数据库中获取了n个咨询文档,并从n个咨询文档中选择了k个咨询文档作为k个文档类别的初始聚类的中心,其中,n≥k,则需要分别计算n个咨询文档中剩余的n-k个咨询文档与每个初始聚类的中心之间的相似度。

具体地,n=10时,即从数据库中获取了10个咨询文档,分别记作:n1、n2……n10,从10个咨询文档中提取了4个咨询文档,4个咨询文档分别是n1、n2、n3、n4,将n1、n2、n3、n4作为4个文档类别的初始聚类的中心,然后,分别计算n5……n10与n1、n2、n3、n4中每个咨询文档之间的相似度。

S104、获取所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档的所述相似度中,所述相似度最大值对应的所述初始聚类的中心;S105、 将除所述k个咨询文档之外的其他每个咨询文档,分类到所述相似度最大值对应的所述初始聚类的中心所在文档类别中;

以n5为例,若n5与n1、n2、n3、n4之间的相似度中,n5与n1之间的相似度值最大,那么将n5分类到n1这一初始聚类的中心所在文档类别中。

依次,分别将n6……n10分类到n1、n2、n3、n4这四个初始聚类的中心所在的文档类别中。

S106、提取所述文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点;

针对上述分类过程,若分类的结果是:n1、n5、n10;n2、n6;n3、n7;n4、n8、n9;以n1这一咨询文档所在的文档类别为例,这一文档类别共包括三个咨询文档,分别是n1、n5、n10,需要分别提取n1、n5、n10的关键词,得到这三个文档类别对应的咨询热点。

S107、对所述咨询热点进行分析。

本发明实施例所提供的技术方案中,通过从多个咨询文档中提取k个咨询文档,并将k个咨询文档分别作为k个文档类别的初始聚类的中心,然后分别计算其他咨询文档与每个文档类别之间的相似度,并将咨询文档分类到相似度最大值对应的文档类别中,进而实现了将获取到的多个咨询文档自动分类的过程,并对分类后的一类咨询文档进行关键词提取,进而可以得到一类咨询文档的统计信息,得到咨询文档对应的咨询热点问题。相较于现有技术需要人工完成对咨询文档的分类和统计后,才能获取咨询热点,并对咨询热点进行分析的技术方案而言,提高了对咨询文档分类的效率。

如图2所示,本发明实施例公开了一种咨询热点分析方法,本实施例的方法包括:

S201、获取多个咨询文档;

S202、从所述多个咨询文档中提取k个咨询文档,将所述k个咨询文档分别作为k个文档类别的初始聚类的中心;其中,k为正整数;

本实施例的步骤S201和步骤S202的操作过程分别与图1所示实施例的步骤S101和S102的操作过程类似,在此不再赘述。

S203、对每个所述咨询文档分别进行分词处理,获得对应于每个所述咨 询文档的多个咨询词语;

可选地,对每个所述咨询文档分别进行分词处理可以通过汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)实现。

通过ICTCLAS对每个咨询文档分别进行分词处理包括:

S2031、对每个所述咨询文档中包括的原始字符串进行原子切分,得到原子切分结果;

S2032、对所述原子切分结果进行N-最短路径粗切分,得到N个分词结果;所述N个分词结果以二元分词表的形式存储;其中,每个所述分词结果中包含的词语之间具有连接性;

S2033、计算位于所述二元分词表一端的词语与位于所述二元分词表另一端的词语之间存在的所有路径的第一距离;

S2034、将所述第一距离最小值对应的路径中包含的词语作为咨询词语。

在实际应用中,通过ICTCLAS对每个咨询文档分别进行分词处理的过程可以分为5个步骤,即将原始字符串的分词过程分为5个步骤。第1个步骤对应原子切分,第2个步骤对应N-最短路径粗切分,第3个步骤对应二元分词表,第4个步骤对应分词结果,第5个步骤对应词性标注。

例如,计算机1946年诞生为原始字符串。

首先进行第1个步骤对应的原子切分,得到原子切分结果为:计\算\机\1946\年\诞\生。

其次,进行第2个步骤对应的N-最短路径粗切分,即通过原子切分结果找出包含正确结果的N种分词结果,其中,包含正确结果指的是符合语言学逻辑的词语。例如,将N设置为2,进行2-最短路径粗切分,得到的2个分词结果为:(1)计算机\1946年\诞生,(2)计算机\1946\年\诞生。

然后,进行第3个步骤对应的二元分词表,上述2个分词结果对应的二元分词表可以表示为如图3所示。

其中,每个分词结果中分别包含的词语之间具有连接性,以能够明确词语的排序顺序。

比如说第1个分词结果计算机\1946年\诞生中包含的3个词语分别是:计算机、1946年和诞生,3个词语之间正是由于分词结果中包含的词语之间具 有连接性,二元分词表中存储的分词结果才是以计算机为第1个词语,1946年为第2个词语,诞生为第3个词语。

再进行第4个步骤对应的分词结果,即计算位于二元分词表一端的词语与位于所述二元分词表另一端的词语之间存在的所有路径的第一距离;将所述第一距离最小值对应的路径中包含的词语作为咨询词语。

例如,在二元分词表一端的词语为计算机,另一端的词语为诞生,第1个分词结果对应的路径的第一距离为2,而第2个分词结果对应的路径的第一距离为3,明显地,第1个分词结果对应的第一距离小于第2分词结果对应的第一距离。因此将第1个分词结果对应的路径中包含的计算机、1946年和诞生这三个词语作为咨询词语。

实质上,当执行到第4个步骤对应的分词结果时,就完成了对字符串的分词过程,但是,如果进一步需要明确咨询词语的词性,则可以继续执行第5个步骤对应的词性标注。通过执行第5个步骤对应的词性标注,可以对得到的咨询词语进行词性标注,进而明确各个咨询词语的词性是动词、形容词还是名词等。

S204、从每个所述咨询词语中分别提取关键词,得到对应于每个所述咨询文档的关键词;

可选地,从每个所述咨询词语中分别提取关键词可以通过信息检索与数据挖掘的常用加权技术(term frequency–inverse document frequency,TF-IDF)实现。其中,“TF”表示词频,“IDF”表示逆文档频率。

通过TF-IDF从每个所述咨询词语中分别提取关键词,包括:

S2041、分别统计每个咨询词语在所述咨询文档中出现的次数;

S2042、对所述每个咨询词语在所述咨询文档中出现的次数进行标准化处理,得到所述每个咨询词语的词频;

统计咨询文档的词频,即某个咨询词语在此咨询文档中出现的次数,标准化后得到词频,计算方法如下:

其中,n为咨询词语在咨询文档中出现的次数,m为咨询文档包括的总咨询词语的个数。

S2043、分别统计一个语料库中,包括所述每个咨询词语的文档的个数;

S2044、通过所述语料库中所述文档的总数以及所述文档中包括所述每个咨询词语的所述文档的个数,分别计算所述每个咨询词语的逆文档频率;

在实际应用中,一个咨询文档中词频最高的一般是“的”、“是”等干扰词语,这时需要统计一个语料库中包括的文档中包括此咨询词语的文档的个数,并通过所述语料库中所述文档的总数以及所述文档中包括所述每个咨询词语的所述文档的个数,分别计算所述每个咨询词语的逆文档频率。

逆文档频率的计算方法如下:

其中,y为一个语料库中包括的文档总数,x为语料库中包括此咨询词语的文档个数。由上述逆文档频率的计算公式可以得知,x越大,即语料库中包括此咨询词语的文档个数越多,逆文档频率值就越低,说明这个咨询词语就越不重要。

分母为x+1是为了避免分母等于0,即当一个语料库中不存在包括此咨询词语的文档时,不会出现除以0的情况,进而避免逆文档频率不能得到具体数值的情况产生。

S2045、将所述每个咨询词语的词频与所述每个咨询词语的逆文档频率相乘,得到所述每个咨询词语的频率计算结果;

S2046、选取所述频率计算结果中大于预设阈值的频率计算结果对应的咨询词语为所述咨询文档的关键词。

将每个咨询词语的词频与每个咨询词语的逆文档频率相乘,得到的乘积值较大,则说明此咨询词语是咨询文档的关键词,否则不是咨询文档的关键词。

例如,得到的一个咨询文档的咨询词语包括:大用户、直购、的、电费和构成,通过TF-IDF算法得到的结果为如下表1:

从表1中可以得知,虽然“的”在咨询文档中出现次数很多,TF值很大,但是,它的TF-IDF值为0,因此,在提取咨询文档的关键词时,“的”将会被过滤掉。

表1中,得到所述每个咨询词语的频率计算结果为TF-IDF,若预设阈值为0.05,那么TF-IDF中大于预设阈值0.05对应的咨询词语为大用户、直购和电费,则此咨询文档的关键词为大用户、直购和电费。

S205、依据所述关键词,分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度

可选地,通过余弦相似性计算咨询文档之间的相似度。

如表2所示:

通过余弦相似性计算咨询文档之间的相似度包括:

S2051、获取需要计算相似度的两个咨询文档中包括的所有关键词;其中,两个咨询文档中一个为作为初始聚类的中心的k个咨询文档中的一个咨询文档,另一个为除k个咨询文档之外的一个咨询文档;

以上述表2为例,若咨询文档1为作为初始聚类的中心的k个咨询文档中的一个咨询文档,,而咨询文档2和咨询文档3都是除k个咨询文档之外的其他咨询文档。当前需要计算相似度的两个咨询文档为咨询文档1和咨询文档2。获取咨询文档1和咨询文档2中包括的关键词,由于咨询文档1包括的关键词为:大用户、直购和电费,咨询文档2包括的关键词为:大用户、直购和申请。则获取需要计算相似度的两个咨询文档中包括的所有关键词为四个,分别是大用户、直购、电费和申请。

S2052、分别计算所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数;

所有关键词为大用户、直购、电费和申请,在咨询文档1中出现的次数分别是:30、28、31和2。

S2053、依据所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数,得到所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量;

咨询文档1中对应的大用户、直购、电费和申请的词频向量为[30,28,31,2]。

S2054、分别计算所述所有关键词在除k个咨询文档之外的一个咨询文档中出现的次数;

所有关键词为大用户、直购、电费和申请,在咨询文档2中出现的次数分别是:31、29、3和30。

S2055、依据所述所有关键词在所述除k个咨询文档中的一个咨询文档中出现的次数,得到所述除k个咨询文档中的一个咨询文档中所述所有关键词的词频向量;

咨询文档2中对应的大用户、直购、电费和申请的词频向量为[31,29,3,30]。

S2056、利用余弦定理,计算所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量与所述除k个咨询文档中的一个咨询文档中所述所有关键词的词频向量之间的夹角余弦值;

其中,所述夹角余弦值表示所述作为初始聚类的中心的k个咨询文档中的一个咨询文档与所述除k个咨询文档之外的一个咨询文档之间的相似度。夹角余弦值的计算公式为:

其中,A和B表示需要计算相似度的两个咨询文档分别对应的关键词的词频向量;Ai表示词频向量A中的元素;Bi表示词频向量B中的元素;n为向量的维度。

从上述夹角余弦值的计算公式中可以得知,余弦值越接近1,表示夹角越接近0度,即两个咨询文档之间的相似度越高。

在表2中,利用余弦定理,计算得到的咨询文档1与咨询文档2之间的相似度得到的计算结果为0.8。咨询文档1与咨询文档3之间的相似度为0.1。显然,咨询文档的关键词有两个重叠的咨询文档1和咨询文档2之间的相似度高。

S206、获取所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档的所述相似度中,所述相似度最大值对应的所述初始聚类的中心;

S207、将除所述k个咨询文档之外的其他每个咨询文档,分类到所述相似度最大值对应的所述初始聚类的中心所在文档类别中;

S208、提取所述文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点;

S209、对所述咨询热点进行分析。

本实施例的步骤S206-S209的操作过程分别与图1所示实施例的步骤S104-S107的操作过程类似,在此不再赘述。

在上述实施例中,本申请通过从需要计算相似度的两个咨询文档中提取所有关键词,得到各个咨询文档中所有关键词的词频向量,并依据词频向量,采用余弦定理计算两个咨询文档之间的相似度。

由于一般咨询文档的词频向量都是稀疏的,即词频向量中只有较少个数的非零值,直接计算两个词频向量之间的距离,会使得两个词频向量中有大量的零值匹配,导致两个实际上不相似的词频向量距离很小,进而导致误判断两个咨询文档之间的相似度较高。基于此,采用余弦定理计算两个词频向 量之间的相似度,可以避免词频向量中零值的干扰。提高了判断两个词频向量之间相似度的准确性,而由于相似度是咨询文档分类的依据,因此,进而提高了咨询文档分类的准确性。

如图4所示,本发明实施例公开了一种咨询热点分析方法,本实施例的方法包括:

S301、获取多个咨询文档;

S302、从所述多个咨询文档中提取k个咨询文档,将所述k个咨询文档分别作为k个文档类别的初始聚类的中心;其中,k为正整数;

S303、对每个所述咨询文档分别进行分词处理,获得对应于每个所述咨询文档的多个咨询词语;

S304、从每个所述咨询词语中分别提取关键词,得到对应于每个所述咨询文档的关键词;

S305、依据所述关键词,分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与每个所述初始聚类的中心之间的相似度本实施例的步骤S301-S305的操作过程分别与图2所示实施例的步骤S201和S205的操作过程类似,在此不再赘述。

S306、利用所述相似度分别计算所述除k个咨询文档之外的其他每个咨询文档到各个所述初始聚类的中心的第二距离;

S307、获取所述第二距离最小值对应的所述初始聚类的中心;其中,所述第二距离越小,所述相似度越大;

S308、将所述除k个咨询文档之外的其他每个咨询文档划分到与所述第二距离最小值对应的所述初始聚类的中心所在文档类别中;

将选取的多个咨询文档中除k个咨询文档之外的其他所有咨询文档作为样本,把每个样本分类到与之距离最近的文档类别中,即使得样本与聚类的中心之间的距离最小,计算距离的公式为:

C(i):=arg minjcos(x(i),μj)

其中,C(i)为第i个样本分配到的文档类别,x(i)为第i个样本,μj为第j个文档类别的中心,其含义为将第i个样本分配给与其夹角余弦值最小的中心对应的文档类别中。

S309、判断除选取为初始聚类的中心外,其他每个咨询文档是否都已经分别划分到k个文档类别中;

S3010、当判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第一聚类的中心;

其中第j个文档类别的中心的计算公式为:

其中,

m为样本的总个数。

可以理解的是,当判断结果为否时,说明除选取为初始聚类的中心外的其他咨询文档中,有没有划分到k个初始聚类的中心的咨询文档。此时,返回执行S308,即继续执行将没有划分到k个初始聚类的中心的咨询文档划分到与所述第二距离中最小值对应的所述初始聚类的中心对应的文档类别的步骤。

S3011、分别比较所述k个第一聚类的中心与k个初始聚类的中心是否相同;

若不同,则执行S3012。

S3012、将所述k个第一聚类的中心作为k个文档类别的新聚类中心;k个第一聚类的中心与k个初始聚类的中心不同,则说明将除k个咨询文档之外的其他每个咨询文档划分到初始聚类的中心所在文档类别后,k个文档类别的聚类中心发生了变化,不再是k个初始聚类的中心。此时需要对所有的咨询文档重新聚类,即重新进行划分。

S3013、利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离;

S3014、将所述多个咨询文档划分到与所述第三距离最小值对应的所述新聚类中心所在文档类别中;

以新聚类中心,将所有咨询文档重新聚类。注意此时的新聚类中心可以不是一个咨询文档,其可以仅仅是一个关键词或多个关键词。

S3015、判断所述多个咨询文档是否都已经分别划分到k个文档类别中;

S3016、当判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第二聚类的中心;

S3017、分别比较所述k个第二聚类的中心与上一次聚类的中心是否相同;

即比较第二聚类的中心与第一聚类的中心是否相同。

若不同,执行S3018。

S3018、将所述k个第二聚类的中心作为k个文档类别的新聚类中心;返回执行S3013。

S3019、提取所述文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点;

可以通过TF-IDF算法提取文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点。

在本实施例中,通过TF-IDF算法实现的是提取单一咨询文档的关键词,而在S3012中实现的是对一整个文档类别中的所有咨询文档提取关键词,进而得到一整个文档类别所对应的咨询热点。

例如,上述表2中,若将咨询文档1和咨询文档2被分类为一个文档类别,通过TF-IDF算法提取文档类别中每个咨询文档的关键词,得到此文档类别对应的咨询热点为“大用户直购”。

S3020、对所述咨询热点进行分析。

本实施例中,通过从多个咨询文档中提取k个咨询文档,并将k个咨询文档分别作为k个文档类别的初始聚类的中心,然后分别计算其他咨询文档与每个文档类别之间的相似度,并将咨询文档分类到相似度最大值对应的文档类别中,进而实现了将获取到的多个咨询文档通过K-Means算法自动分类的过程,并对分类后的一类咨询文档进行关键词提取,进而可以得到一类咨询文档的统计信息,得到咨询文档对应的咨询热点问题。相较于现有技术需要人工完成对咨询文档的分类和统计后,才能获取咨询热点,并对咨询热点进行分析的技术方案而言,提高了对咨询文档分类的效率。

且,本申请中对多个咨询文档自动分类、提取关键词并得到一类文档类别的咨询热点后,对咨询热点分析。基于此,对客服中心的话务员进行培训后,使得话务员对客户咨询问题有了整体的把握,当话务员接收到客户的咨 询内容时,可以有方向性的将当前客户咨询内容人工划分到一类文档类别中,并从知识库中查找关于此文档类别热点的解答和处理,进而可以快速查找到关于当前客户咨询内容的标准化程度高的答案,不仅实现了快速解答客户咨询内容的功能,同时,解决了现有技术中话务员对客户咨询内容解答时解答方式缺乏单一性、答案主观性强、标准化程度低的问题。

对应图1所示的一种咨询热点分析方法,本发明还提供了一种咨询热点分析装置,其结构示意图请参阅图5所示,本实施例提供的一种咨询热点分析装置包括:第一获取单元11、第一提取单元12、第一计算单元13、第二获取单元14、第一分类单元15、第二提取单元16和分析单元17。

第一获取单元11,用于获取多个咨询文档;

第一提取单元12,用于从所述多个咨询文档中提取k个咨询文档,将所述k个咨询文档分别作为k个文档类别的初始聚类的中心;其中,k为正整数;

第一计算单元13,用于分别计算所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档与所述每个所述初始聚类的中心之间的相似度;

第二获取单元14,用于获取所述多个咨询文档中除k个咨询文档之外的其他每个咨询文档的所述相似度中,所述相似度最大值对应的所述初始聚类的中心;第一分类单元15,用于将除所述k个咨询文档之外的其他每个咨询文档,分类到所述相似度最大值对应的所述初始聚类的中心所在文档类别中;

第二提取单元16,用于提取所述文档类别中每个咨询文档的关键词,得到所述文档类别对应的咨询热点;

分析单元17,用于对所述咨询热点进行分析。

本实施例公开了一种咨询热点分析装置,通过第一获取单元获取多个咨询文档,第一提取单元从多个咨询文档中提取k个咨询文档,并将k个咨询文档分别作为k个文档类别的初始聚类的中心,然后通过第一计算单元分别计算其他咨询文档与每个文档类别之间的相似度,并通过第一分类单元将咨询文档分类到第二获取单元获取到的相似度最大值对应的文档类别中,进而实现了将获取到的多个咨询文档自动分类的目的,并通过第二提取单元对分类后的一类咨询文档进行关键词提取,进而可以得到一类咨询文档的统计信 息,得到咨询文档对应的咨询热点问题。相较于现有技术需要人工完成对咨询文档的分类和统计后,才能获取咨询热点,并对咨询热点进行分析的技术方案而言,提高了对咨询文档分类的效率。

请参阅图6,其示出了本申请实施例提供的一种咨询热点分析装置的另一种结构示意图,在图5的基础上,还可以包括:分词处理单元21和关键词提取单元22。

分词处理单元21,用于对每个所述咨询文档分别进行分词处理,获得对应于每个所述咨询文档的多个咨询词语。

其中,所述分词处理单元21包括:原子切分单元31、最短路径粗切分单元32、第二计算单元33和确定单元34。

原子切分单元31,用于对每个所述咨询文档中包括的原始字符串进行原子切分,得到原子切分结果;

最短路径粗切分单元32,用于对所述原子切分结果进行N-最短路径粗切分,得到N个分词结果;

第二计算单元33,用于计算二元分词表一端的词语与位于二元分词表另一端的词语之间存在的所有路径的第一距离;

确定单元34,用于从所述第一距离中确定所述第一距离最小值,将所述第一距离最小值对应的路径中包含的词语作为咨询词语。关键词提取单元22,用于从每个所述咨询词语中分别提取关键词,得到对应于每个所述咨询文档的关键词。

其中,所述关键词提取单元22包括:第一统计单元41、标准化单元42、第二统计单元43、逆文档频率计算单元44、频率计算单元45和选取单元46。

第一统计单元41,用于分别统计每个咨询词语在所述咨询文档中出现的次数;

标准化单元42,用于对所述每个咨询词语在所述咨询文档中出现的次数进行标准化处理,得到所述每个咨询词语的词频;

第二统计单元43,用于分别统计一个语料库中,包括所述每个咨询词语的文档的个数;

逆文档频率计算单元44,用于通过所述语料库中所述文档的总数以及所述文档中包括所述每个咨询词语的所述文档的个数,分别计算所述每个咨询词语的逆文档频率;

频率计算单元45,用于将所述每个咨询词语的词频与所述每个咨询词语的逆文档频率相乘,得到所述每个咨询词语的频率计算结果;

选取单元46,用于选取所述频率计算结果中大于预设阈值的频率计算结果对应的咨询词语为所述咨询文档的关键词。

可选地,在本实施例中,所述第一计算单元13包括:第三获取单元51、第三计算单元52、词频向量单元53和夹角余弦值计算单元54。

第三获取单元51,用于获取需要计算相似度的两个咨询文档中包括的所有关键词;其中,两个咨询文档中一个为作为初始聚类的中心的k个咨询文档中的一个咨询文档,另一个为除k个咨询文档之外的一个咨询文档;

第三计算单元52,用于分别计算所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数;

词频向量单元53,用于依据所述所有关键词在所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中出现的次数,得到所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量;

夹角余弦值计算单元54,用于利用余弦定理,计算所述作为初始聚类的中心的k个咨询文档中的一个咨询文档中所述所有关键词的词频向量与所述除k个咨询文档中的一个咨询文档中所述所有关键词的词频向量之间的夹角余弦值;

其中,所述夹角余弦值表示所述作为初始聚类的中心的k个咨询文档中的一个咨询文档与所述除k个咨询文档之外的一个咨询文档之间的相似度。

可选地,在本实施例中,所述第二获取单元14包括:第四计算单元61、第四获取单元62;

所述第一分类单元15包括:第二分类单元63、判断单元64、第五计算单元65、第一比较单元66、第六计算单元67、第三分类单元68、第二判断单元69、第七计算单元70和第二比较单元71。

第四计算单元61,用于利用相似度分别计算所述除k个咨询文档之外的其他每个咨询文档到各个初始聚类的中心的第二距离;

第四获取单元62,用于获取所述第二距离最小值对应的所述初始聚类的中心;

其中,所述第二距离越小,所述相似度越大。

第二分类单元63,用于将所述除k个咨询文档之外的其他每个咨询文档划分到与所述第二距离最小值对应的所述初始聚类的中心所在文档类别中;

判断单元64,用于判断除选取为初始聚类的中心外,其他每个咨询文档是否都已经划分到k个文档类别中;第五计算单元65,用于当所述判断单元的判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第一聚类的中心;第一比较单元66,用于分别比较所述k个第一聚类的中心与k个初始聚类的中心是否相同;

第六计算单元67,用于当所述第一比较单元的比较结果为不同时,将所述k个第一聚类的中心作为k个文档类别的新聚类中心,利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离;

第三分类单元68,用于将所述多个咨询文档划分到与所述第三距离最小值对应的所述新聚类中心所在文档类别中;

第二判断单元69,用于判断所述多个咨询文档是否都已经分别划分到k个文档类别中;

第七计算单元70,用于当所述第二判断单元的判断结果为是时,重新计算k个文档类别中每个文档类别的中心,得到k个第二聚类的中心;

第二比较单元71,用于分别比较所述k个第二聚类的中心与上一次聚类的中心是否相同;

所述第六计算单元67,还用于当所述第二比较单元的比较结果为不同时,将所述k个第二聚类的中心作为k个文档类别的新聚类中心;利用所述相似度分别计算所述多个咨询文档到各个所述新聚类中心的第三距离。

本实施例公开了一种咨询热点分析装置,通过第一获取单元获取多个咨询文档,第一提取单元从多个咨询文档中提取k个咨询文档,并将k个咨询文档分别作为k个文档类别的初始聚类的中心,然后通过第一计算单元分别计算其他咨询文档与每个文档类别之间的相似度,并通过第一分类单元将咨询文档分类到第二获取单元获取到的相似度最大值对应的文档类别中,进而实现了将获取到的多个咨询文档自动分类的目的,并通过第二提取单元对分类后的一类咨询文档进行关键词提取,进而可以得到一类咨询文档的统计信息,得到咨询文档对应的咨询热点问题。相较于现有技术需要人工完成对咨询文档的分类和统计后,才能获取咨询热点,并对咨询热点进行分析的技术方案而言,提高了对咨询文档分类的效率。

且,本申请中对多个咨询文档自动分类、提取关键词并得到一类文档类别的咨询热点后,对咨询热点分析。基于此,对客服中心的话务员进行培训后,使得话务员对客户咨询问题有了整体的把握,当话务员接收到客户的咨询内容时,可以有方向性的将当前客户咨询内容人工划分到一类文档类别中,并从知识库中查找关于此文档类别热点的解答和处理,进而可以快速查找到关于当前客户咨询内容的标准化程度高的答案,不仅实现了快速解答客户咨询内容的功能,同时,解决了现有技术中话务员对客户咨询内容解答时解答方式缺乏单一性、答案主观性强、标准化程度低的问题。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种数据共享方法、系统及移动终端进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1