数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法

文档序号:6508273阅读:680来源:国知局
专利名称:数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法
技术领域
本发明涉及数据挖掘过程技术领域,尤其是-氏距离测定方法。
4中处理有限相关性数据集的W MP马
背景技术
随着企业或行业的业务数据不断积累,形成了海量数据集。如果单靠人工去整理 或理解如此庞大的数据源已存在效率和准确性等问题。因此,越来越多企业正通过数据挖 掘技术来解决海量数据的整理和知识发现问题,并为企业决策提供支持。而数据预处理大 约占了整个数据挖掘过程60%-70%的工作量,并对数据挖掘的结果起着至关重要的作用。 数据预处理中很重要的一步工作便是对原始数据中的缺损数据进行填补。在缺损值补值的 过程中,距离测定方法是最重要的技术,如数据相似度判断等;另外,距离测定方法也被用 于聚类分析、分类分析等数据挖掘最终过程。在神经网络、模式识别、信号处理、图像处理等 领域,距离的测定方法也有广泛应用。本发明涉及的数据集假设如下
设X” X2, ...,Xm为m个数据个体,其中不=(xn, Xi
xin), i=l, 2,...,m,而 n 为数据
个体不的属性个数,则数据总体可表示为X=(Xi,X2,…,Xm)T,即
权利要求
一种数据挖掘过程中基于加权Moore Penrose逆的马氏距离测定方法,其特征在于设定若a为一向量或矩阵,则aT表示a的转置;设X1,X2,…,Xm为m个数据个体,其中Xi=(xi1,xi2,……,xin),i=1,2,…,m,n为数据个体Xi的属性个数,则数据总体可表示为X=(X1,X2,…,Xm)T,即所述测定方法包括以下步骤1)计算数据总体X的协方差矩阵,其中,,S为n n矩阵;2) 根据实对称矩阵的谱分解理论,将协方差矩阵展开为其中,λi为S的第i个特征值,ei为对应的n维标准化特征向量,即列向量, i=1,2,…,n , 且当i≠j时,eiTej=0;3) 构造权值矩阵M,N,具体过程如下① 构造n n矩阵M其中ai>0,为标准化后的值, i=1,2,…,n,即而λi为S的第i个特征值,ei为对应的n维标准化特征向量,即列向量, i=1,2,…,n,且当i≠j时,eiTej=0;② 构造n n矩阵N其中,bi>0,为ai的倒数经标准化后的值,即,且ni为向量ei中各个元素取倒数后再归一化所得到的向量,如若ei=(e1i,e2i,…,eni)T,则令vi=(v1i,v2i,…,vni)T,,j=1,2,…,n;4) 计算协方差阵S的加权Moore Penrose逆矩阵 其中,,, 令, 将其进行奇异值分解,可得表达式=UHVT,其中为n阶对角矩阵,∑=diag(a1,a2,...,ar),ai> 0,r是矩阵的秩,U、V为n阶正交阵;而;5) 计算数据个体Xi,Xj之间的马氏距离其中,表示对矩阵的元素进行取模运算,即对于中的每一个元素sij,若sij为实数则保持不变;若sij为复数则取其模。2010105313108100001dest_path_image001.jpg,182333dest_path_image002.jpg,2010105313108100001dest_path_image003.jpg,198831dest_path_image004.jpg,385224dest_path_image002.jpg,dest_path_image005.jpg,15925dest_path_image006.jpg,dest_path_image007.jpg,795925dest_path_image008.jpg,dest_path_image009.jpg,865381dest_path_image010.jpg,dest_path_image011.jpg,843963dest_path_image012.jpg,dest_path_image013.jpg,911145dest_path_image014.jpg,dest_path_image015.jpg,286763dest_path_image016.jpg,dest_path_image017.jpg,333479dest_path_image018.jpg,dest_path_image019.jpg,930682dest_path_image020.jpg,dest_path_image021.jpg,466968dest_path_image022.jpg,2010105313108100001dest_path_image023.jpg,516832dest_path_image024.jpg,dest_path_image025.jpg,378958dest_path_image026.jpg,706034dest_path_image026.jpg
全文摘要
一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,包括以下步骤1)计算数据总体X的协方差矩阵S;2)根据实对称矩阵的谱分解理论;3)构造权值矩阵M,N,具体过程如下①构造n n矩阵M;②构造n n矩阵N;4)计算协方差阵S的加权Moore-Penrose逆矩阵;5)计算数据个体Xi,Xj之间的马氏距离。本发明提供了一种不受量纲影响(具有线性变换不变性)、保持数据均值和方差信息、并在处理任何相关性数据时都能确保正常进行且性能更高的数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法。
文档编号G06F17/30GK101984428SQ201010531310
公开日2011年3月9日 申请日期2010年11月3日 优先权日2010年11月3日
发明者沈雯燕, 陆亿红, 陈欢, 黄德才 申请人:浙江工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1