一种基于粗糙集的数据挖掘算法的制作方法

文档序号:6587161阅读:474来源:国知局
专利名称:一种基于粗糙集的数据挖掘算法的制作方法
技术领域
本发明一种基于粗糙集的数据挖掘方法。属于计算机信息技术领域。
背景技术
随着现代的通信技术的发展,越来越多的数据被收集和整合在一起,建立一个大的社会网络成为可能。例如,可以通过电子邮件的日志来建立使用者之间的联系网络,或者通过网络日志及网络通讯录等方式将用户提交的联系人信息建立社会网络。所以,现在的社会网络规模比早期网络庞大,通常包含几千或者几万的结点,甚至有多达百万个结点的网络。面对这样庞大复杂的网络,简单的数学知识和原始的人工处理已经不可能进行有效的分析。数据挖掘是从巨量数据中发现有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。数据挖掘就是为了解决当今拥有大量数据,但缺乏有效分析手段的困境而出现的研究领域。目前,已经在包括生物信息学,自然语言处理等许多方面发挥了巨大的作用。为了获得最佳的数据挖掘效果,将采用一定的算法,建立模型,一种针对异常点的数据挖掘的新算法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。

发明内容
本发明提出一种基于粗糙集的数据挖掘方法,该方法主要解决异常点的数据挖掘问题,保证获得最佳的数据挖掘效果。为达到上述目的, 本发明采取的技术方案为:首先是该方法首先是根据用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来本发明提出的技术方案具体步骤包括:粗糙集是它把知识分类嵌套到集合内,并作为集合组成的一部分。根据传统的方法来判断一个对象a是否属于集合X,通常分成3种情况:(I)对象a可能属于也可能不属于集合X ; (2)对象a肯定不属于集X ; (3)对象a肯定属于集合X ;下面给出其定义。假定U为非空的有限集合,I为U中的一个等价类关系,则二元对K= (U, I)称之为集合U的一个近似空间。假设X为集合U的一个子集,X为集合U中的一个对象,所有与X不可区分的对象所组成的一个集合设为I (X),I (χ)中的每个对象都与对象X有同样的特征属性。对于每个子集X Qt/和一个等价关系I e Ind(K),都可以定义两个子集。
集合X关于I的下近似如式权利要求
1.一种基于粗糙集的数据挖掘方法,其特征在于:该方法首先是根据粗糙集理论与一定的数据挖掘技术,提出了一种针对异常点的数据挖掘的方法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来,可以很好地进行有用信息的数据挖掘。
2.根据权利要求1所述的方法,其特征在于,粗糙集是把知识分类嵌套到集合内,并作为集合组成的一部分。根据传统的方法来判断一个对象a是否属于集合X,通常分成3种情况:(1)对象a可能属于也可能不属于集合X ; (2)对象a肯定不属于集X ; (3)对象a肯定属于集合X。粗糙集把知识看作是对论域的划分,从而使知识具有了颗粒性。
3.根据权利要求1所述的方法,其特征在于,利用粗糙集对异常点进行检测,其算法由以下步骤产生: (1)根据初始状态输入系统信息。
(2)对信息进行排序、划分等价类。
(3)然后判断属性个数。
(4)构建递减属性序列。
(5)重复2,3,否则对对象进行知识粒度和权重计算。
(6)然后判断属性个数。判断对象个数。否则对异常点进行排序。
全文摘要
为了完善异常点的检测算法,基于粗糙集理论与一定的数据挖掘技术,提出了一种针对异常点的数据挖掘的方法。利用粗糙特征选择方法,采用相似知识粒度的距离度量,研究不确定信息,在减少数据特征的同时还保留其性能。然后再对给定的特征值对对象进行排序,以提高计算复杂性。最后通过在淋巴数据集上进行了实验分析。结果表明,该数据挖掘算法可以把大部分异常点检测出来。同现有的算法相比较,此算法对异常点的检测性质提高了10%~20%左右,表现极大的优越性。
文档编号G06F17/30GK103150354SQ20131005484
公开日2013年6月12日 申请日期2013年1月30日 优先权日2013年1月30日
发明者王少夫 申请人:王少夫
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1