一种知识抽取的方法

文档序号:6368413阅读:151来源:国知局
专利名称:一种知识抽取的方法
技术领域
本发明涉及一种知识发现技术,特别是一种知识抽取方法。
背景技术
粗糙集理论是一种处理不精确、不一致与不完全数据的数学工具,它是波兰科学家Pawlak于1982年提出的,能在保持分类能力不变的前提下,通过知识约简获得知识的分类规则。与决策树、贝叶斯方法等相比,粗糙集方法不需要先验知识,仅利用数据本身所提供的信息系统中发现知识。在真实世界中,许多信息系统的知识体现通常并不唯一,有多个角度的知识,它们可能是信息系统中的不同属性的多个不同组合,其分类性能相当。这些多体知识在特定的环境中,将可能发挥不同的作用。例如,在多机器人实时路径选择中,内存记忆体容量足够的情况下,多体知识提供更多的路径选择,能够表现出更强的回避障碍能力。对于知识抽取而言,每个约简能够表示成不同的单体知识,这些多约简共同形成多体知识系统,在实际应用中有着很重要的价值。已经证明求解决策表的所有约简和最小约简是NP. hard问题。为此,通常采用启发式的方法进行属性约简。常用的启发式算法有基于信息熵的属性约简算法、基于可分辨矩阵的属性约简算法和基于正区域的属性约简算法。大多数启发式约简算法的基本思路是以核属性为起点,然后根据属性重要性的某种测度,依次选择核属性以外未被添加到约简集中最重要的属性,将其加入到约简集中,直到满足终止条件,由此得到决策表的一个约简。这一约简只能在知识系统中表示为单体知识。当前,多知识抽取是知识发现技术中面临的一个重要问题。

发明内容
为解决现有技术存在的上述问题,本发明要提出一种在现有信息体系中得到多体知识的知识抽取方法。为了实现上述目的,本发明的技术方案如下一种知识抽取的方法,包括以下步骤A、计算约简初值根据公式(I)、(2)和(3)计算约简正区POS’ E、约简论域U,、约简正区U, pos
权利要求
1.一种知识抽取的方法,其特征在于包括以下步骤 A、计算约简初值 根据公式(I)、(2)和(3)计算约简正区POS’ E、约简论域U’、约简正区U, pos
全文摘要
本发明公开了一种知识抽取的方法,包括以下步骤计算约简初值;启用双矩编码策略;搜索初始化;计算结束判据;计算搜索个体的适应值;最优保存;状态转移联合操作。本发明采用双矩编码策略,搜索个体位置编码成0、1字符串,维度与条件属性个数相同。当维度规模超过23时,完成约简所消耗的时间并不呈指数显著增长,节约了空间维度和时间。本发明采用粗糙集正区判别POS'E=U′pos适应值为对应条件属性个数,如果POS'E≠U′pos适应值惩罚为条件属性总数,这一策略简单合理地保证了知识抽取效果。本发明用搜索个体所组成的群体优势动态地搜索,并采用一种有效的正区比较进行特征组合得到多知识的方法。
文档编号G06F17/30GK102663142SQ20121015720
公开日2012年9月12日 申请日期2012年5月18日 优先权日2012年5月18日
发明者冯士刚, 刘洪波, 张维石, 陈荣 申请人:大连海事大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1