一种基于相似变精度粗糙集模型的知识推送规则提取方法与流程

文档序号:11250977阅读:349来源:国知局
一种基于相似变精度粗糙集模型的知识推送规则提取方法与流程
本发明涉及一种基于相似变精度粗糙集模型的知识推送规则提取方法,属于知识工程领域。
背景技术
:知识推送技术是在适当的时间,将适当的知识推送给适当的人,旨在降低知识获取成本,提高知识获取效率。知识推送的依据主要是知识产生、应用的情境条件,结合知识的推送规则,判断当前用户需要的知识,并将这些知识推送给用户。知识推送规则的提取是研究知识推送的一个重点问题。粗糙集作为一种用于处理不确定信息与知识的数据分析理论,在机器学习、知识发现领域得到了广泛且成功的应用。将粗糙集的理论应用于知识规则提取,可以从知识的使用记录中找出情境信息与知识信息之间的关联,归纳出知识推送的规则。在应用时,必须解决的问题是经典粗糙集模型的过于严格,缺乏容错能力的问题。技术实现要素:针对知识推送中的知识规则提取过程中的经典粗糙集模型存在的下述问题:经典粗糙集模型过于严格、缺乏容错能力、不适于知识推送规则提取情境。本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法能够解决粗糙集模型过于严格的问题、提高粗糙集模型的容错能力、使其适于知识推送规则提取情境,此外,本发明能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。本发明的目的是通过下述技术方案实现的。首先说明必要的定义。定义1知识推送的决策信息系统。知识推送的决策信息系统表示为有序四元组s={u,r,v,f}。其中,u={u1,u2,…,un}表示的是用户操作记录集合,其中的每个元素记录了在特定的用户情境下用户查看和使用知识的行为记录;r=c∪d为属性集合,其中子集c是条件属性集合,反映的是用户情境的特征属性,d为决策属性集合,反映的是用户查看、使用的知识特征属性;v=∪vr为属性值的集合,r∈r,vr表示属性r的取值范围,考虑到情境和知识特征属性描述的多样性和复杂性,属性值的一般类型有数值型、向量型、字符型、模糊型,因此v是多种类型属性取值范围的集合;f:u×r→v为一个信息函数,用于确定u中每一个对象u的属性值,即任一ui∈u,r∈r,则f(ui,r)=vr。定义2引入相似关系的不可分辨关系。在信息系统s={u,r,v,f}中,对于ui,uj∈u,在任意属性子集b上的相似度为sb(ui,uj),其中sb(ui,uj)=∑(wk*sb(ui,uj,rk))其中sb(ui,uj,rk)表示ui,uj在b中第k个属性rk上的相似度,属性类型不同则属性的相似度计算方式不同。考虑到特征属性重要程度的差异,wk表示第k个属性的重要程度,可采取专家打分法、调查统计法、层次分析法确定。基于相似度sb(ui,uj)对对象u进行聚类,聚类之后的每一类为一个等价类,同一类中的元素之间为不可分辨关系,又称等价关系,记在属性子集b上的等价关系为ind(b)。根据条件属性和决策属性分别进行聚类,即根据情境属性相似度sc和知识属性相似度sd分别进行聚类。基于条件集合c的等价类称为条件类,记为xi,基于决策集合d的等价类称为决策类,记为yj。定义3变精度粗糙集模型及其正、负域。为了增强经典粗糙集模型的容错能力,减少外界噪音对模型的影响,将概率理论引入粗糙集模型中,提出变精度粗糙集模型时,引入一对概率阈值(α,β),设0≤β<α≤1。正域定义为:pos(α,β)(x)={u∈u|pr(x|[u]b)≥α};负域定义为:neg(α,β)(x)={u∈u|pr(x|[u]b)≤β}。其中[u]b表示等价关系下包含元素u的等价类,pr(x|[u]b)表示对象在属于[u]b的条件下属于集合x的概率,可见,正域划分的正确率为α,负域划分的正确率为1-β。决策属性集d相对于条件属性集c的正域:论域u中的所有那些基于条件属性集合c的等价类,能够以不低于α的准确率划入到基于决策属性集合d的等价类之中的对象组成的集合记为pos(α,β)(d|c)={u∈u|pr(yj|xi)≥α}。定义4属性重要度和依赖度。对信息系统s={u,r,v,f},具有条件属性和决策属性的知识表达系统可表示为决策表,记作t=(u,r,c,d)或简称cd决策表。决策表中不同的条件属性对于决策属性的重要度不同,如果某条件属性丢失后信息系统分类变化大则说明该属性重要程度高,反之则说明该属性重要程度低。决策属性对条件属性的依赖度其中,card是返回集合中元素的数量的函数。定义5属性约简及核。条件属性可能是彼此依赖的,有些条件属性删除后对分类并没有明显影响,则这些属性是可省略的,如果属性子集b1中的每个属性都是不可省的,则称b1是独立的,如果且ind(b1)=ind(b),则称b1是等价关系族b的一个约简,记为red(b)。在b中所有不可省略关系的集合称为等价关系族b的核,记为core(b)。即core(b)=∩red(b)。定义6决策规则。c为条件属性集,d为决策属性集。xi和yj分别表示条件类和决策类。des(xi)表示条件类xi的描述,定义为des(xi)={(a,va)|f(u,a)=va,des(yj)表示决策类yj的描述,定义为des(yj)={(a,va)|f(u,a)=va,决策规则定义为tij:des(xi)→des(yj),规则tij的确定因子为μ(xi,yj)=card(xi∩yj)/card(xi),显然,0<μ≤1。规则tij的支持数为card(xi∩yj)。当μ(xi,yj)=1时,tij是确定性规则;当0<μ<1时,tij是不确定的规则,此时μ(xi,yj)反映xi中的对象可分类到yj中的比例。本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,包括如下步骤:步骤1数据预处理;步骤1.1用户行为记录及数据抽取;进行知识规则生成的基础数据是用户浏览、使用知识的行为记录,所述的行为记录包括用户的个人特征信息、任务属性、浏览使用的知识属性,用户操作系统对行为记录进行记录,抽取用于进行规则生成的数据。步骤1.2数据离散化;利用粗糙集进行规则挖掘,要求数据必须是离散的,所以需要对连续值属性进行离散化处理。根据实际情况选择离散化方式,常见的离散化处理方式有:专家划分法、等频率法、等距离法、自然算法(naivescaler)、半自然算法(seminaivescaler)。步骤1.3决策表建立;构建决策表,决策表的行表示用户行为的记录,列表示属性集合,包括条件属性集c和决策属性集d,简称cd决策表。由于知识推送规则是根据用户所处情境的属性得到用户需要知识的属性,所以,条件属性为情境属性,决策属性为知识属性。构建决策表时,对行与行之间的相似性进行计算,将等价的行进行合并,并统计其数量。另外为了便于讨论,用字母和数字标识属性名称以及属性值。根据定义2对行与行之间的相似性进行计算。步骤1.4决策表的一致性检验;构建决策表之后,需要对决策表的一致性进行检验,当决策属性d完全依赖于条件属性c,即γ(c,d)=1时,称决策表是完全一致的。由于噪声数据的影响及信息的不完备性,很难得到γ(c,d)为1的决策表。故规定一个阈值e,0<e<1,若γ(c,d)≥e,则认为决策表是满足阈值要求的,认为是可接受的,即完成数据预处理;否则不可接受,需要重新对决策表进行调整,返回步骤1.1,重新抽取其他数据进行迭代处理。步骤2属性相对约简,得到约简后的决策表。步骤2.1基于信息熵的属性重要度计算。决策表中,条件属性集合c对决策属性集合d分类的信息熵为:在上式中,xi表示条件属性的等价类,yj表示决策属性的等价类。条件属性c是条件属性集合c中的某一具体属性,条件属性c的重要度w为增加该属性后信息熵的减少量:w(c)=h(d|c)-h(d|c-c)。步骤2.2迭代生成约简后的决策表。首先计算相对核core(c,d)=∩red(c,d)和决策属性集合对条件属性集合的依赖度γ(c,d),条件属性集合c中除去相对核中已有的属性,其余属性按从大到小的顺序进行排列,并顺序编号。以核属性集合作为初始约简,即red0(c,d)=core(c,d),约简集合中每次增加一个权重最大的属性,直至γ(c,d)-γ(redi(c,d),d)<e,e为可接受的阈值。满足终止条件时得到最终约简结果。至此,得到约简后的决策表。在步骤2中,基于信息熵的属性重要度计算能够避免传统主观赋权方式的主观性,突出条件属性相对于决策属性的信息重要度。在重要度排序的基础上进行迭代约简可以提高迭代效率,缩短计算时间。步骤3推送规则生成。利用步骤2中约简后的决策表,生成规则tij:des(xi)→μdes(yj)步骤3中,通过设定确定因子μ的阈值,避免样本数据的噪声数据和其他不相容信息对规则生成的影响,删除由于个别噪声样本数据生成的可信度很低的规则,为推送规则的生成提供更好的判别准则。步骤4推送规则验证评估。用部分未参与规则生成的历史数据验证决策规则,观测决策结论和实际结论的差别,如果规则得到的结果正确性在可接受的范围之内,则确认规则,如果正确性较低,一般是由于抽取的数据不能反映总体情况所导致,需要返回步骤1.1,重新抽取数据进行运算。步骤5规则实施,提高知识推送精度。根据步骤2中约简后的决策表的条件属性集合c和决策属性集合d,收集数据,进行数据预处理工作,匹配合适的规则,把相关的决策结果推送给用户,并记录用户的反馈结果,为日后的规则评价及更新积累数据,提高知识推送精度。本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法适用于需要知识推送的领域,能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。所述的需要知识推送的领域包括产品设计开发、工艺设计、网络学习、电子商务。本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法能够解决粗糙集模型过于严格的问题、提高粗糙集模型的容错能力、使其适于知识推送规则提取情境,此外,本发明能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,通过对用户行为数据进行提取处理,构建包括条件属性及决策属性决策表,利用信息熵理论得到条件属性相对于决策属性的重要度,在此基础上利用条件属性相对于决策属性的重要度对决策表进行约简,得到约简后的决策表;在约简后的决策表基础上提取出含有确定性因子的决策规则;对推送规则进行验证评估,规则评估通过后即可利用规则进行知识推送,进一步提高知识推送精度。该方法具有规则客观性强,容错率高,知识推送精确的特点,适用于相关领域的知识推送过程。所述的相关领域包括产品设计开发、工艺设计、网络学习、电子商务。有益效果:1、本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,将经典粗糙集模型中的严格不可分辨关系扩展为引入相似关系的不可分辨关系,同时引入了概率阈值来提高模型的容错率,即实现将经典的粗糙集模型扩展为适于提取知识推送规则的模型。2、本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,在步骤2中,基于信息熵的属性重要度计算能够避免传统主观赋权方式的主观性,突出了条件属性相对于决策属性的信息重要度。在重要度排序的基础上进行迭代约简可以提高迭代效率,缩短计算时间。3、本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,适用于需要知识推送的领域,能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。附图说明图1知识规则提取过程流程图;图2属性约简过程示意图。具体实施方式为了更好的说明本发明的目的和优点,下面结合附图和实例对
发明内容做进一步说明。实施例1:本实施例公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,包括如下步骤:步骤1数据预处理;步骤1.1用户行为记录及数据抽取;进行知识规则生成的基础数据是用户浏览、使用知识的行为记录,所述的行为记录包括用户的个人特征信息、任务属性、浏览使用的知识属性,围绕某零件的设计过程,用户操作系统对行为记录进行记录,抽取100条行为记录作为进行规则生成的数据。表1展示了行为记录的部分原始数据。表1行为记录原始数据截选步骤1.2数据离散化;利用粗糙集进行规则挖掘,要求数据必须是离散的,所以需要对连续值属性进行离散化处理。本实施例中,属性“载荷要求”为连续数值型,需要对其进行离散化处理。根据实际情况,选择专家划分法,领域专家参考技术标准文件,对该属性进行离散划分,得到离散化结果为:载荷要求≤5000时,划分为“低”,标识为1;5000<载荷要求<10000时,划分为“中”,标识为2;载荷要求≥10000时,划分为“高”标识为3。步骤1.3决策表建立;构建决策表,决策表的行表示用户行为的记录,列表示属性集合,包括条件属性集c和决策属性集d,简称cd决策表。由于知识推送规则是根据用户所处情境的属性得到用户需要知识的属性,所以这里,条件属性集合为{设计重点,载荷要求(n/m),腹板结构,端口类型},决策属性集合为{知识类型,知识领域,知识来源}。在用户行为记录数据的基础上,将等价的行进行合并,并统计其数目,需要说明的一点是,根据定义2引入相似关系的不可分辨关系,不可分辨关系是基于相似度sb分类之后的同类中对象之间的关系,如表1的第1行数据和第2行数据虽然属性“端口类型”分别为“开口”和“豁口”,但由于相似度高,相互之间为不可分辨关系,所以两行数据可进行合并。另外,为了便于之后讨论,将属性名用字母代替,并对各个属性值用数字进行标识。标识方式如下:条件属性:{{设计重点,c1},{载荷要求(n/m),c2},{腹板结构,c3},{端口类型,c4}};决策属性:{{知识类型,d1},{知识领域,d2},{知识来源,d3}};设计重点:{{降低重量,1},{节省能源,2},{降低成本,3},{防错设计,4}};腹板结构:{{桁架式,1},{梁式,2}};端口类型:{{开口/豁口,1},{封闭,2}};知识类型:{{有限元分析模型,1},{减轻质量规则,2},{载荷分析模型,3}};知识领域:{{空心结构设计,1},{局部质量设计,2},{非对称设计,3}};知识来源:{{轻量化设计,1},{绿色设计,2},{成本分析,3},{防错设计,4}}。得到初始决策表如表2所示。表2初始决策表标识数量c1c2c3c4d1d2d3u1121211211u282322332u3103222133u464121114u591212221u6134221114u7103312323u874212134u9131111111u10102222132u1111211114u1213222323步骤1.4决策表的一致性检验;构建决策表之后,需要对决策表的一致性进行检验,当决策属性d完全依赖于条件属性c,即γ(c,d)=1时,称决策表是完全一致的。规定一个阈值e=0.95,若γ(c,d)≥e,则认为决策表是满足阈值要求的,认为是可接受的,即完成数据预处理;否则不可接受,需要重新对决策表进行调整,返回步骤1.1,重新抽取其他数据进行迭代处理。xi表示条件属性的等价类,yj表示决策属性的等价类。对于表2,条件等价类u/c如表3所示,决策等价类如表4所示。表3条件等价类i12345678910xi{u1,u11}{u2}{u3,u12}{u4}{u5}{u6}{u7}{u8}{u9}{u10}表4决策等价类j123456789yj{u1}{u2}{u3}{u4,u6,u11}{u5}{u7,u12}{u8}{u9}{u10}定义3中的概率阈值取α=0.9,β=0.1。计算pos(0.9,0.1)(d|c)={x∈u|pr(y|x)≥α},以x1为例,x1={u1,u11},y1={u1},card(u1)=12,card(u11)=1,pr(y1|x1)=12/13=0.923≥α,即u1,u11满足pr(y|x)≥α条件,其余等价类同理,得pos(0.9,0.1)(y|x)={u1,u2,u3,u4,u5,u6,u7,u8,u9,u10,u11,u12}故决策表一致性检验通过。步骤2属性相对约简,得到约简后的决策表。步骤2.1基于信息熵的属性重要度计算。决策表中,条件属性集合c对决策属性集合d分类的信息熵为:在上式中,xi表示条件属性的等价类,yj表示决策属性的等价类。本例中,条件类的概率p(xi)如表5所示,决策类相对于条件类的概率p(yj|xi)如表5所示。表5条件类u/c概率表i12345678910p(xi)0.130.080.110.060.090.130.10.070.130.1表6决策类相对于条件类u/c概率表h(d|c)=-((0.92×log20.92+0.08×log20.08)×0.13+(0.91×log20.91+0.09×log20.09)×0.11)=0.099计算决策表去除属性c1后的信息熵,此时条件等价类从原来的10个变为8个,条件等价类u/c-c1如表7所示。表7条件类u/c-c1i12345678xi{u1,u11}{u2}{u3,u10,u12}{u4}{u5u8}{u6}{u7}{u9}表8条件类u/c-c1概率表i12345678p(xi)0.130.080.210.060.160.130.10.13表9决策类相对于条件类u/c-c1概率表得,h(d|c-c1)=-((0.92×log20.92+0.08×log20.08)×0.13+(2×0.48×log20.48+0.04×log20.04)×0.21+(0.56×log20.56+0.44×log20.44)×0.16)=0.467条件属性c是条件属性集合c中的某一具体属性,条件属性c的重要度w为增加该属性后信息熵的减少量,即c1的重要性为ω(c1)=h(d|c-c1)-h(d|c)=0.467-0.099=0.368。同样的方法求得c2,c3,c4的重要性:ω(c2)=h(d|c-c2)-h(d|c)=0.538-0.099=0.439;ω(c3)=h(d|c-c3)-h(d|c)=0.099-0.099=0;ω(c4)=h(d|c-c4)-h(d|c)=0.284-0.099=0.185。步骤2.2迭代生成约简。利用分辨矩阵的方法计算得core(c,d)={c2},令red0(c,d)=core(c,d)={c2},在步骤1.4中,得γ(c,d)=1。取e=0.1。对除了c2以外的属性根据属性值大小进行排序,为c1>c4>c3。γ(c,d)-γ(red0(c,d),d)=1>e,不符合要求,则,令red1(c,d)={c2,c1},γ(c,d)-γ(red1(c,d),d)=0.4>e,不符合要求,则,令red2(c,d)={c2,c1,c4},γ(c,d)-γ(red2(c,d),d)=0<e,符合要求,因此,最终约简的结果为red2(c,d)={c2,c1,c4},c3是冗余属性,从决策表中删除,至此,得到约简后的决策表如表10所示。表10约简后决策表标识支持数c1c2c4d1d2d3u112121211u28232332u310322133u46411114u59122221u613421114u710332323u87422134u913111111u1010222132u111121114u121322323在步骤2中,基于信息熵的属性重要度计算能够避免传统主观赋权方式的主观性,突出了条件属性相对于决策属性的信息重要度。在重要度排序的基础上进行迭代约简可以提高迭代效率,缩短计算时间。步骤3推送规则生成。利用步骤2中约简后的决策表,生成规则tij:des(xi)→μdes(yj)表11规则表步骤4推送规则验证评估。用部分未参与规则生成的历史数据验证决策规则,在系统中抽取50条未用于生成规则的用户行为记录,根据行为记录中的c1、c2、c4属性值,根据生成的规则,得到相应的知识属性d1、d2、d3的属性值,将得到的知识属性值与用户行为记录中的属性值核对,得到推送的正确率。如果规则得到的结果正确性在可接受的范围之内,则确认规则,否则返回步骤1.1,重新抽取数据进行计算。步骤5规则实施,提高知识推送精度。根据步骤2中约简后的决策表的条件属性集合c{设计重点,载荷要求(n/m),端口类型},收集数据,进行数据预处理工作,匹配合适的规则,得到决策属性集合d{知识类型,知识领域,知识来源}的值,把相关的知识推送给用户,并记录用户的反馈结果,为日后的规则评价及更新积累数据。以上结合具体实施例对本发明的技术方案和具体实施方式作了说明,但这些说明不能被理解为限制了本发明的范围,这些仅是举例说明,可以对这些实施方式做出多种变更或修改,而不背离本发明的原理和实质。本发明的保护范围由随附的权利要求书限定,任何在本发明权利要求基础上的改动都是本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1