一种不确定数据的聚类方法

文档序号:9506555阅读:579来源:国知局
一种不确定数据的聚类方法
【技术领域】
[0001] 本发明属于数据采集和处理技术领域。
【背景技术】
[0002] 近年来,随着技术的进步和人们对数据采集和处理技术理解的不断深入,不确定 数据得到了广泛的重视,在许多现实的应用中,例如经济、军事、金融、电信等领域,数据的 不确定性普遍存在且扮演着关键角色。不确定性数据的涌现,使传统的聚类分析面临巨大 挑战 ]。数据的不确定性来源于多种情况,物理仪器采集数据产生的误差,传感器网络应用 的情况下周围环境对数据的影响,网络传输特别是无线网络传输过程中受到带宽、传输延 时、能量等因素的干扰,以及出于隐私保护的特殊目的等都可能导致数据不确定性的产生。
[0003] 数据不确定性的表现形式分为两种情况,分别是存在级的不确定性和属性级的不 确定性。1)存在级不确定性:存在级的不确定性代表元组的不确定性,数据库中元组存在 与否带有一定的概率,且这个概率会影响其他元组存在与否;2)属性级不确定性是指元组 数据值的不确定性,属性值中的误差造成的数据不确定性通常由概率密度函数,或者方差、 协方差等统计参数来表示。数据挖掘领域多考虑的是属性级的不确定性。
[0004] 数据挖掘领域中的聚类分析是一种无监督学习,它是一个把数据对象划分成 多个组或簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相 似 [。传统聚类方法在处理不确定数据时产生很多误差,并且其聚类结果对不确定性程 度表现得非常敏感。所以近年来,针对不确定数据的聚类相应提出了许多改进性的聚 类算法。Kr i e ge 1等人提出了基于密度的不确定性数据聚类方法FDBSCAN算法,它是 根据一种基于高密度联通区域的基于密度的聚类方法DBSCAN所改进而成,FDBSCAN算 法聚类过程于原方法非常相似,不同的是它重新定义了距离公式,令表示元 组戈和¥之间的距离的概率密度函数,则JT与;T之间的距离在:魏姆之间的概率为
基于上述距离公式提出了 FDBSCAN算法,它 更适合应用于大型数据集,并且提高了聚类的质量。之后Kriegel等人又针对不确定数据 而适当改进了通过点排序识别聚类结构的OPTICS算法,提出了 F0PTICS算法,解决了层次 聚类问题。Ngai等人根据一种基于形心的K-means算法而改进而成的UK-means算法 [9], 为提高算法的计算效率,MBR最小边界矩形来描述数据点出现的区域,并设计剪枝策略降 低聚类过程中的计算数量。Lee等人又在UK-means的基础之上,提出CK-means算法,它 将UK-means算法中的距离期望简化为数据点之间的距离,这样的方式降低了算法的计算 量,并且针对大型数据集,节省了时间的开销。Gullo等人根据基于代表对象的划分方法 K-medoids算法提出了 UK-medoids算法,算法同样根据一种新的不确定数据距离的度量方 法提高了聚类效率。
[0005] 综上所述我们可以发现,现有的不确定数据的聚类方法大多都是根据传统的处理 确定性数据的聚类算法而改进而成,它们主要存在以下的问题:(1)改进后的聚类算法虽 然提升了处理不确定数据的聚类质量,但因为没有从本质上降低数据的不确定性,所以在 实际应用中,依旧会出现聚类结果受误差影响严重的现象。(2)改进后的聚类算法在处理高 维不确定数据的情况时,因为不确定性加重了高维数据的稀疏性,反之高维数据的稀疏性 也会导致数据的不确定性更加难以控制处理,所以其对于处理高维不确定数据的结果并不 理想。(3)因为是针对不确定数据的特性而对传统聚类算法进行改进,导致很多改进后的算 法计算复杂性增大、时间开销增加,很大程度地降低了聚类效率。

【发明内容】

[0006] 本发明的目的是利用数据本质上的潜在关联,探寻不确定表象下底层数据记录的 真实协方差结构,提取数据的主要特征,并进行降噪聚类的不确定数据聚类方法。
[0007] 本发明步骤如下: ①获取底层数据真实协方差结构:数据集中包含条均值表的不确定 性记录,对应的概率分布函数表示为_、?!:,数据记录Ig的第^个元素表示为_1,第 /条记录的第i个元素的概率分布表示为4:1,将数据记录:?第I维的源值表示为丨*% ,由_加上%得到&的值,因此&表示在构造分布的均值过程中产生的噪音,由此给 出:
将数据库
第:/维对应的随机变量表示为; 将对应于源数据第/维的真值|_:|的随机变量表示为I#,对应于的第/维的随 机变量表示为4,则:
将源数据第1:维和第@维的协方差表示为Iu,并希望

获取源数据真实协方差结构的求解公式:
以此来估计协方差
的值;
i:的值可以由观测数据得到,它所构成的协方差矩阵叫做B%]或者; 当_时,,的值就是个方差,我们用賴續来表示,假定 的标准差为_€§|〗第^|维的的值可以由对应的概率密度函数的方差的均值给出, var(i,)的值由如下公式得到:
构成的矩阵叫做Py或者Crii; 根据上述估计:〇^_:/:5_)的值,用于构造协方差矩阵:_f或者叫做^#,得到源数据 真实的协方差结构; ②根据协方差结构,对数据进行锐化降噪处理:
其中,矩阵中包含着相应的特征值,:p_中是与特征值相对应的特征向量,将协方差 矩阵中的特征值_/)中元素按照从大到小方式进行排序:
并将对应排序的顺序保存在!中; 将F中的特征向量按照对应特征值的大小进行排列,得到主要特征向量构成的投影矩 阵:
利用投影矩阵将M转化成
'就是经过处理锐化后的数据。
[0008] 本发明将得到降噪数据|<与κ-means聚类算法相结合,得到整体聚类方法。
[0009] 本发明通过特征值有效选取及对应的特征向量得到数据转换矩阵,经过投影锐化 产生降噪后的数据,再将此数据进行聚类分析。本方法的实验结果与传统方法结果相比效 果明显。本文选择从不确定数据的根源为入口,是因为无论不确定性存在与否,都不会干扰 数据本质上存在的关联,基于这种关联而形成的聚类方法,其结果不仅能够从底层大幅度 减低数据的不确定性,并且处理得到的锐化降噪数据能够应用在融合,分类等等其他领域, 可扩展性极高。
【附图说明】
[0010] 图1是RMS均方根误差基于本发明与κ-means方法; 图2是RMS均方根误差基于本发明与K-means方法; 图3是CH指标基于本发明与K-means方法; 图4是CH指标基于本发明与K-means方法。
【具体实施方式】
[0011] 本发明步骤如下: ①获取底层数据真实协方差结构:数据集中包含条均值表示为的不确定 性记录,对应的概率分布函数表示为35:...??数据记录:1^的第/个元素表示为_#, 第j条记录的第.I个元素的概率分布表示为,将数据记录.第::1维的源值表示为 ,由_加上_得到%:的值,因此:i表示在构造分布爲β的均值过程中产生的噪音,由此 给出:
将数据库第j维对应的随机变量表示为; 将对应于源数据第I维的真值的随机变量表示为1^,对应于的第/维的随 机变量表示为Iy,则:
, 将源数据第I维和第;!维的协方差表示为
i,并希望

获取源数据真实协方差结构的求解公式:
以此来估计协方差
f的值;
的值可以由观测数据得到,它所构成的协方差矩阵叫做或者 ; 当
的值就是个方差,我们用来表示,假定的标 准差为,___ j第#维的的值可以由对应的概率密度函数的方差的均值给出,的 值由如下公式得到:
构成的矩阵叫做|ip或者_ ; 根据上述估计的值,用于构造协方差矩阵_1或者叫做〇,得到源数据 真实的协方差结构; ②根据协方差结构,对数据进行锐化降噪处理:
其中,矩阵13中包含着相应的特征值,F中是与特征值相对应的特征向量,将协方差矩 阵中的特征值£)中元素按照从大到小方式进行排序:
并将对应排序的顺序保存在f中; 将Γ中的特征向量按照对应特征值的大小进行排列,得到主要特征向量构成的投影矩 阵:
利用投影矩阵将|/转化成%
M '就是经过处理锐化后的数据。
[0012] 本发明将得到降噪数据表f与κ-means聚类算法相结合,得到整体聚类方法。
[0013] 以下对本发明做进一步详细描述: 本发明所述的方法为不确定数据的聚类提供了一种全新的探入点。
[0014] 大体分为两大过程:(1)从不确定数据的根源对其进行锐化降噪处理;(2)对锐化 后数据进行聚类分析。
[0015] (1)锐化降噪处理 首先需要获取底层数据真实协方差结构。因为实际应用中只能得到数据的不确定表 示,而无法获取数据的真值。所以如何探寻不确定的表象下底层数据记录的真实协方差结 构,得到数据各维度属性间的关联非常关键。这也是进行锐化降噪步骤的基础。
[0016] 为了获取底层数据真实的协方差结构先提出一些符号和定义,数据集中包含AT 条均值表示为的不确定性记录,对应的概率分布函数表示为_::.._1,数据 记录i|的第I个元素表示为:稱#,第I条记录的第 ;|个元素的概率分布表示为,将 数据记录SiJ第:|雒的源值表示为If,由加上_1得到的值,因此?|表示在构造分布 爲I的均值过程中产生的噪音,由此给出:
将数据库:?,.?:第I维对应的随机变量表示为Si;因此相应的数据记录显示的 M个可能值被表示为虚IP-购|:。注意,氣表示第I行代表一个实例,表示一个随机变 量,前者对应的是的行向量,后者对应的是^%]:的列向量。将对应于源数据第维的 真值 &]:的随机变量表示为Ii,对应于^;!的第/维的随机变量表示为%,接下来有:
[0017] 注意到随机变量禽与随机变量对应的真实记录值是相互独立的。这是获取 底层数据记录真实协方差结构的关键性假定。将源数据第i纟隹和第秦维的协方差表示为
,它将被用于构造 真实协方差矩阵IAiJ。
[0018] 获取源数据真实协方差结构的求解公式:
证明:扩展_,=氣一爲,可以得到: J. '/ ' J
扩展表达式右部分,可以得到:
因为真值〗与噪音值11]被假定是相互独立的,可以得到
:和
简化上述表示为:
这就证明了结果的正确性。
[0019] 以此来估计协方差
:的值,需要先知道
的值和
的值。
[0020]
的值可以由观测数据得到,它所构成的协方差矩阵叫做fMj或者 ;但是
:的估计值需要进一步的探讨。因为不同维度的数据有相互独立 的数据来源,其所携带的噪音是相互独立的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1