一种面向无监督聚类的热点事件内部评价方法

文档序号:32345721发布日期:2022-11-26 11:17阅读:52来源:国知局
一种面向无监督聚类的热点事件内部评价方法

1.本发明属于机器学习下的无监督学习领域,尤其涉及一种面向无监督聚类的热点事件内部评价方法。


背景技术:

2.在现实的热点事件发现系统中,用户通常会提前定义好一些常见的事件类型。但用户无法知道所有的事件类型,现有系统则无法发现一些未定义事件类型的新事件。以电信运营商为例,运营商每天都会收到大量的投诉,如“信号问题”、“话费问题”、“宽带问题”。如果业务人员已经对这些类型的投诉事件在系统中进行了定义。那么系统便可以识别出此事件类型的投诉。从而可以快速对这些类型的投诉进行响应,提升运营商的服务质量。但是运营商的业务并不仅限于这3种类型的投诉事件。假如出现了关于“5g”的业务,而业务人员并未对该事件类型进行归纳处理。那么系统则无法识别出关于“5g”的投诉,从而使得运营商无法对该类型的投诉进行及时响应,进一步地,将影响运营商的服务质量。
3.事件发现是要发现以前并未存在的热点事件,它实际上是一个聚类的过程。聚类指的是将给定的数据集合划分为不同簇的过程,目标是使得同一簇中的数据尽量相似,不同簇间的数据尽量不相似。随着深度学习的发展,目前的研究表明通过在良好的样本特征表示上使用经典的聚类算法可以获得更好的聚类结果。主要的原因是因为深度神经网络可以有效的提取样本非线性的特征,这样的特征对于聚类虽然是有效的,但是除了特征表示,聚类的结果还会受其他因素的影响。比如,在特定数据集下,不同的聚类算法会产生不同的聚类结果。即使对同一个聚类算法,不同参数的选择可能也会影响最终的聚类结果。因此,在一个有效的聚类分析过程中,评价不同聚类结果的好坏并挑选出最好的一个聚类结果以为了后续的应用是十分必要的。目前大多数聚类评价方法已经被提出。大致可分为两类:外部评价和内部评价。外部评价方法假定真实的簇信息是已知的,并且使用这样的监督信号去衡量所得到的聚类结果与真实的簇有多么吻合。然而,这样的先验知识在现实中通常很难获得。因此,内部评价方法成为了评价聚类结果的唯一选择。
4.内部聚类评价衡量聚类结果时通常基于以下两个方面:(1)紧密性衡量同一簇内样本的紧密程度;(2)分离性衡量不同簇之间的分离程度。目前大多数内部评价方法都是基于方差和距离这两种策略来衡量紧密度和分离度。然后基于这两种策略的方法存在一些缺陷,从而限制了这些指标的性能。
5.首先,给定两个簇,相同的距离计算结果并不能保证这两个簇的紧密性是一样的。特别地,假定存在两个簇a簇,b簇,其中a簇中有5个样本,b簇中有3个样本,这两个簇分别被聚到两个立方体中,并且每个立方体代表了簇中样本的特征表示构成的向量空间所对应的体积。假定两个簇的向量空间的体积是相同的并且每个簇的平均成对距离也是相同的,那么基于平均成对距离的评价方法则认为他们有相同的紧密性。然而,从密度的角度来看,a簇应该要比b簇更紧密。尽管一些方法也提出了基于密度的概念,但他们计算密度的方式仍然是基于距离来进行计算的。
6.其次,基于方差的紧密性的计算方式通常认为越小的方差表明越高的紧密性。然而在某些情况下,这样的计算方式并不准确。假定存在两个簇a簇,b簇,其中a簇的协方差矩阵为b簇的协方差矩阵为可以看到a簇中变量和b簇中变量的方差都为5。实际上协方差更适合用来衡量簇的紧密性,簇a变量之间的协方差要小于簇b变量之间的协方差。进一步通过计算协方差矩阵的行列式可以看到b簇行列式的值要小于a簇。从而b簇要比a簇更紧密。
7.最后,大多数现有方法在计算紧密性和分离性时都需要计算成对距离。然而该计算方式的时间复杂度很高。基于以上发现为了解决现有方法的有效性和高效性问题对于基于聚类内部评价的热点事件发现是十分必要的。


技术实现要素:

8.本发明的目的在于针对现有基于无监督聚类内部评价下热点事件发现的效率和准确率低下的问题,提供一种面向无监督聚类的热点事件内部评价方法。
9.本发明的目的是通过以下技术方案来实现的:一种面向无监督聚类的热点事件内部评价方法,包括以下步骤:
10.(1)对一批投诉工单通过预处理删除文本多余的空格和标点符号。然后使用bert模型获得每个投诉工单的特征表示,所有投诉工单的特征表示构成特征空间;
11.(2)使用不同的参数k值初始化的k-means聚类算法作用于这批投诉工单的特征空间,得到若干个不相交的子集,即聚类结果;其中每个子集称为一个事件簇;所述k值的范围为2到其中n为一批投诉工单的数量;
12.(3)通过衡量所有事件簇的平均微分熵来判断聚类结果的紧密性;再通过衡量每个事件簇的簇心所构成空间的微分熵来判断聚类结果的分离性;所述紧密性和分离性的分布为不同聚类结果下的归一化后的值;
13.(4)将步骤(3)所述的紧密性减去分离性,将相减后得到的值对聚类结果效果进行内部评价,得到最优聚类结果即获得投诉工单中的热点事件。
14.进一步地,所述步骤(3)中的通过衡量事件簇的平均微分熵来判断聚类结果的紧密性具体为:
15.令h为特征空间,其中h={h1,

,hn}
t
;假设n个投诉工单被划分为k个事件簇,即h1,

,hk,令特征矩阵hk服从多元高斯分布,这k个事件簇的紧密性被定义为k个事件簇的平均微分熵:
[0016][0017]
其中,diffentropy(
·
)为多元高斯分布的微分熵,i为第i个事件簇的索引。
[0018]
进一步地,所述步骤(3)中每个事件簇的簇心所构成空间的微分熵来判断聚类结果的分离性具体为:
[0019]
令μk为第k个事件簇的簇心,即,其中,ck为第k个事件簇,hi为第k个事件簇下第i个投诉工单的特征表示;
[0020]
令这k个事件簇的簇心服从多元高斯分布,k个事件簇的分离性定义为由k个簇心构成的特征矩阵的微分熵,即:diffentropy(h
μ
),
[0021]
其中,h
μ
={μ1,

,μk}
t
,即每个簇心所构成的特征子空间。
[0022]
进一步地,所述步骤(4)中的内部评价为:基于紧密性和分离性,k个事件簇的内部评价为紧密性
norm
减去分离性
norm
;所述紧密性
norm
和分离性
norm
分别代表不同聚类结果下归一化后的值;内部评价方法采用紧密性减去分离性的形式,若有一系列用来比较的聚类结果,在对紧密性和分离性相减之前,将分别对紧密性和分离性执行归一化操作使得他们在同一范围里面;当在执行最大最小归一化后得到内部评价的范围,在范围内中内部评价的值越小表明聚类结果更好;在得到聚类结果后,再对聚类结果中的每个事件簇进行统计,筛选出最优的聚类结果,即获得投诉工单中的热点事件。
[0023]
本发明的有益效果如下:
[0024]
本发明提供了一种新的内部评价方法,该方法基于微分熵的思想来衡量聚类结果中事件簇的紧密性及分离性,使得其筛选出更好的聚类结果。同时该指标具有较低的时间复杂度,这使得其更适合大规模的高维数据集。从而进一步解决了现有基于无监督聚类内部评价下的热点事件发现方法时间复杂度高和准确率低的问题,提高热点事件发现的效率和准确率。
附图说明
[0025]
图1为本发明在聚类验证中的方法步骤示意图。
具体实施方式
[0026]
下面根据优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0027]
本发明针对目前基于无监督聚类内部评价下的热点事件发现方法的缺陷,开发了一个新的内部评价方法。现有基于距离和方差的内部评价方法无法衡量簇的真实密度。此外基于距离的指标应用到大规模数据集上有较高的时间复杂度。本发明基于微分熵的思想提出了一个新的内部评价方法。该方法通过衡量聚类结果的纯度来判断聚类结果的好坏。该指标可以有效的衡量簇的密度并且也克服了现有方法的缺陷。
[0028]
本发明提供了一种面向无监督聚类的热点事件内部评价方法;如图1所示包括以下步骤:
[0029]
(1)对一批投诉工单通过预处理删除文本多余的空格和标点符号。然后使用bert模型,得到每个投诉工单的特征表示,所有投诉工单的特征表示构成特征空间;
[0030]
(2)然后使用不同的参数k值初始化的k-means聚类算法作用于该特征空间上得到若干个不相交的子集,即聚类结果;其中每个子集称为一个事件簇;所述k值的范围一般默认为2到其中n为一批投诉工单的数量;
[0031]
(3)通过衡量所有事件簇的平均微分熵来判断聚类结果的紧密性;再通过衡量每个事件簇的簇心所构成空间的微分熵来判断聚类结果的分离性;所述紧密性和分离性的分布为不同聚类结果下的归一化后的值;
[0032]
(4)基于不同聚类结果下的紧密性和分离性分别做归一化后的值,将步骤(3)所述
的紧密性归一化后的值减去所述的分离性归一化后的值,将相减后得到的值对聚类结果效果进行内部评估。
[0033]
步骤(1)中通过预训练模型f(
·
)得到一批投诉工单x的特征表示h,即h=f(x)。
[0034]
步骤(2)中使用不同的参数k值初始化k-means聚类算法并将其应用到特征矩阵h上以得到不同的聚类结果。
[0035]
步骤(2)中对于不同的聚类结果,计算紧密性和分离性即可得到该聚类结果的内部评价。
[0036]
所述的紧密性,具体是指:令h为特征空间,其中h={h1,

,hn}
t
。假设n个样本被划分为k个事件簇,即h1,

,hk。则这k个事件簇的紧密性被定义为k个事件簇的平均微分熵,紧密性的表达式为:
[0037][0038]
其中,diffentropy(hk)表示为第k个事件簇的微分熵;i表示为第i个事件簇的索引;
[0039]
给定一批投诉工单,通过预训练模型f(
·
),我们可以得到每个工单xi的特征表示,即hi=f(xi)。那么对第k个事件簇我们可以得到那么hk是由第k个事件簇中的工单对应的特征表示构成的|ck|
×
d的矩阵,其中|ck|是第k个簇中的投诉工单的个数。hk看作是d维空间下一系列点的集合。此外我们假设特征矩阵hk服从多元高斯分布,多元高斯分布的微分熵diffentropy(h)表达式为:
[0040][0041]
其中,|σ|是协方差矩阵的行列式。因此,通过该式我们可以得到一个事件簇的微分熵。
[0042]
进一步地,所述的分离性,具体是指:令μk为第k个事件簇的簇心,即,hi∈hk;其中,ck为第k个事件簇,hi为第k个事件簇下第i个投诉工单的特征表示。k个事件簇的分离性可以定义为由k个簇心构成的特征矩阵的微分熵,分离性的表达式为:
[0043]
diffentropy(h
μ
)
[0044]
其中,h
μ
={μ1,

,μk}
t
;ck表示第k个事件簇;hi表示第i个投诉工单的特征表示;这里我们也假设这k个事件簇的簇心服从多元高斯分布。
[0045]
步骤(3)中对不同聚类结果下的紧密性和分离性分别做归一化;比如分别对紧密性和分离性执行最大最小归一化;
[0046]
进一步地,基于紧密性和分离性,k个事件簇的内部评价可以定义为:
[0047]
内部评价=紧密性
norm-分离性
norm
[0048]
其中紧密性
norm
和分离性
norm
分布代表不同聚类结果下的归一化后的值。
[0049]
进一步地,可得到不同聚类结果下的内部评价。然后内部评价值越小表明更好的聚类结果。因此通过该标准,可筛选出内部评价认为最优的聚类结果。
[0050]
所述预训练的模型除bert模型外,还可以使用sbert模型或simcse模型。
[0051]
根据多元高斯分布微分熵的计算公式我们可以看到,多元高斯分布的微分熵与协方差矩阵的行列式成正比关系。协方差矩阵的行列式通常被称为广义方差。对于一个固定大小为n的数据集,广义方差与d个偏差向量所张成的体积的平方成正比,即
[0052]
广义方差=|σ|=(n-1)-d
(volume)2[0053]
其中volume为偏差向量所张成的体积。根据上式我们就可以知道为什么我们的内部评价可以避免基于距离和方差的方法的缺陷。特别地,的形式表明了给定向量空间下的真实密度。
[0054]
考虑到目前有许多公开数据集,本发明挑选文本领域的几个数据集作为本发明实施例的数据集。
[0055]
表格1本发明设计的文本数据集统计结果
[0056]
数据集划分样本个数类别个数searchsnippets训练集1,23408biomedical训练集20,00020stackoverflow训练集20,00020webofseicence-11967训练集11,9677yahoo!answers训练集1,400,00070
[0057]
本发明的数据集已经建立,并进行了总结,数据统计结果见表1,表2。表1中searchsnippets数据集是由在网页提取的12,340个搜索片段所组成;stackoverflow是由kaggle发布的一个比赛数据集的子集合,包含了20,000个问题描述;biomedical是bioasq发布的pubmed data子集合,包含了20,000个论文标题;webofseicence-11967是一个文档分类的数据集,包含了11967篇文档;yahoo!answers是由yahoo!发布的问题集合。
[0058]
至此,通过使用预训练模型对数据提取特征,然后使用不同的参数k值初始化k-means聚类算法并将其应用到特征矩阵上则可以得到不同的聚类结果。然后再用内部评价方法分别对聚类结果进行评估,则可以筛选中最优的聚类结果,即获得热点事件,因此,本发明的内部评价方法可以应用于所有电信领域的热点事件的发现。
[0059]
对于本领域的技术人员来说,可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1