一种基于关联规则的分布式多标签图像识别方法

文档序号:10471512阅读:383来源:国知局
一种基于关联规则的分布式多标签图像识别方法
【专利摘要】本发明公开了一种基于关联分类规则的分布式多标签图像识别方法,该方法包括分布图像样本的预处理、图像分割、特征提取、特征值离散化、全局频繁项目集L的挖掘、多标签关联分类规则MLACR的构造和图像识别;采用了一种基于二进制形式的全局候选项目集生成、修剪以及支持数计算方法,降低了算法的实现难度以及通信量。该方法经过两次修剪操作,明显缩小了全局候选项目集的规模,进一步提高了算法的执行效率。方法使用了约简方法,确保MLACR中不会出现多余规则。该方法可以一次性地识别出训练样本分布式情况下图像所包含的多个标签,可以快速生成分布式环境下的全局候选频繁项目集及其支持数的计算,实现准确高效的多标签图像识别功能。
【专利说明】
-种基于关联规则的分布式多标签图像识别方法
技术领域
[0001] 本发明属于多标签图像的计算机分析技术的应用领域,具体设及一种具有分布式 多标签图像的识别方法。
【背景技术】
[0002] 多标签图像识别是数据挖掘技术中的一个重要研究分支,它旨在通过训练图像样 本数据集来构造一个分类函数或分类器,并利用该分类函数或分类器来识别待测图像的标 签集。目前,可用于图像识别的多标签分类方法有亂-Κ顺、改进的C4.5、Bp-MLL、PT系列、 ?口1'、??1'-11、114(:、1?4邸1^、1??(:、化1?、^50^、]\111^、]\0^-〔1841?2等。肥-1(順是2}1日叫]\1丄.等人提 出的一种基于I^N的多标签分类方法,该方法通过统计方法得出每个标签的先验概率,当输 入一个待测图像数据X时,对标签集S中的每个标签S分别计算X具有标签S和不具有标签S的 概率,进而预测X是否具有标签S。算法化-M化通过定义针对多标签图像数据的全局优化函 数,使得人工神经元网络能够处理多标签数据。PT系列算法试图利用已有的基于单标签的 分类方法来解决多标签分类问题,即在训练之前一次性地将训练图像样本数据集中所有包 含多个标签的训练数据样本转换成单标签数据,经过相应处理后,算法所面对的训练数据 样本集均为单标签样本集,从而将多标签分类问题转化为单标签分类问题。针对PT方法中 新标签数量的不可控性,算法PPT、ΡΡΤ-η、RAK化提出了一系列处理方法,算法PPT和ΡΡΤ-η通 过阔值的设置来减少新标签的数量,算法RAK化则是通过随机选择的方式来减少其数量的。 算法RPCXLR则通过对比标签集S中任意两个标签之间的关系,建立k化-1)/2个分类器,每 个分类器在两个标签之间投票,组合运些投票结果作为最终的多标签分类结果nMkCMBAR2 是一种基于关联规则的多标签分类方法。
[0003] 在许多实际应用中,数据本身是分布的,它们之间除了通过网络传递信息外,其它 资源全部独立。为解决此类问题,一个可行的方案是将运些数据集集中到某一台机器上,再 利用现有算法来构造多标签分类器,或利用MapReduce编程模型来构造分布环境下的多标 签分类器。一般情况下,此类思想至少存在两个方面的问题,一是需要一台性能较(很)高的 计算机来存储并处理大容量的数据,二是在很多情况下,出于对数据安全性和隐私性的考 虑,数据是不可能集中起来的。对此,本发明提出了一种基于关联规则的分布式多标签图像 识别方法,该方法通过发现分布环境下训练图像样本数据集中的关联规则来构造多标签分 类器,由此实现图像的自动识别。

【发明内容】

[0004] 本发明的目的是提供一种一次性对包含多个标签的图像进行识别的方法,该方法 可W快速生成分布式环境下的全局候选频繁项目集及其支持数的计算,实现准确高效的多 标签图像识别功能。
[0005] 本发明的技术方案是:一种基于关联规则的分布式多标签图像识别方法,包括全 局候选频繁项目集的生成、支持数的计算W及图像识别步骤,其特征在于:所述全局候选频 繁项目集的生成、支持数的计算和图像识别步骤包括:
[0006] 步骤1分布式图像样本数据集的准备和预处理,包括各站点训练图像格式转换、尺 度归一化、去噪、增强;
[0007] 步骤2各站点采用基于密度聚类的图像分割方法分别识别出每幅训练图像的待识 别区域;
[0008] 步骤3各站点分别提取每幅训练图像中待识别区域的特征,构造各站点的训练图 像样本数据库DBi,所述图像样本数据集DBi的模式为关系模式R(Ai,.,Ap,Bi,.,Bq),其中P和 q分别为非柄签属性和柄签属性的个数,Ai, . ,Αρ为非柄;签属性的属性名,Bi, . ,Bq为柄;签属 性的属性名,i = 1,2,...,η。总的训练样本集DB = DBi U DB2 U ...... U DBn,DBi Π DBj =巫,i 声 j ;
[0009] 步骤4特征值离散化,各站点分别对连续属性进行离散化;
[0010] 步骤5全局频繁项目集L的挖掘;
[0011] 步骤6多标签关联分类规则MLACR的构造,所述多标签关联分类规则MLACR的构造 分为多标签频繁关联分类规贝1JMLFCAR的构造和多标签关联分类规贝1JMLACR的生成,其步骤 包括:
[0012] 步骤6.1构造多标签频繁关联分类规则的前件P和后件Q,其中:所述前件为全局频 繁项目集L中所包含的非标签属性集,所述后件为全局频繁项目集L中所包含的标签属性 集;
[0013] 步骤6.2分别计算多标签频繁关联分类规则MLFCAR中各分类规则的置信度,其中 规则R的置信度计算公式为:Count(P U Q)/Count(P);
[0014] 步骤6.3删除多标签频繁关联分类规则MLFCAR中置信度小于minconf的分类规则, 构造最终的多标签频繁关联分类规则MLFCAR,其中minconf为最小置信度阔值;
[001引步骤6.4对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则 MLACR;
[0016] 步骤7图像识别。
[0017] 所述步骤5全局频繁项目集L的挖掘的具体步骤包括:
[001引步骤5.1初始化,其包括:
[0019] 步骤5.1.1选择η个站点Si、S2、......、Sn中一个站点或其它独立主机作为主计算机 (记为站点S);
[0020]步骤5.1.2各站点分别将其上的训练图像样本数据DBi转换成二进制形式的数据 库,为方便起见运里仍记为DBi;
[0021 ] 步骤5.1.3设置DB中的非标签属性集NLA和标签属性集LA,NLA= {Ai,.,Ap},LA = (Bl,.,Bq};
[0022] 步骤5.1.4各站点分别统计非标签属性集NLA和标签属性集LA中各属性的支持数, 并将其支持数发给主机S;
[0023] 步骤5.1.5主机计算标签属性中的全局频繁1-项目集化1= k e LA I S叩(C) > minsup};
[0024] 步骤5.1.6主机计算非标签属性中的全局频繁1-项目集化b = keNLAl sup(c)> minsup};
[002引步骤5.1.7主机计算DB中的全局频繁1-项目集化1 U化^;
[0026] 其中:minsup为给定的最小支持度阔值;c为给定项目集;Count(c)为支持数,是项 目集C在DB中出现的次数;Sup (C)为支持度,Sup(C) = Count (C)/ IDB I,IDB I表示总训练图像 样本数据集DB中样本的个数;
[0027] 步骤5.2全局候选频繁项目集的生成(由主机S来完成),其包括:
[002引步骤5.2.1根据全局频繁k-项目集Lk生成全局候选频繁化+1)-项目集Ck+i,其中k 为全局频繁项目集的长度;
[0029] 步骤5.2.2各站点计算全局候选频繁项目集Ck+i中各项目集的支持数;
[0030] 步骤5.2.3主机统计全局候选频繁项目集Ck+冲各项目集的支持数,并根据最小支 持度阔值minsup生成全局频繁化+1)-项目集Lk+i;
[0031 ]步骤5.2.4重复步骤5.2.1、步骤5.2.2、步骤5.2.3,若生成全局候选频繁项目集为 空,则进入步骤5.3;
[0032] 步骤5.3生成全局频繁项目聋
[0033] 所述步骤7主机进行图像识别的具体步骤包括:
[0034] 步骤7.1待识别图的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和 增强;
[0035] 步骤7.2主机采用基于密度聚类的图像分割方法识别出所述待识别图像的待识别 区域;
[0036] 步骤7.3提取出所述待识别图像中待识别区域的非标签属性特征;
[0037] 步骤7.4非标签属性特征值离散化;
[003引步骤7.5根据多标签关联分类规贝1JMLACR识别所述待识别图像的标签属性。
[0039] 所述步骤5.2.1根据全局频繁k-项目集Lk生成全局候选频繁化+1)-项目集Ck+i的 具体步骤包括:
[0040] 步骤5.2.1.1选择全局频繁k-项目集Lk中的任意两个不同项目集C1和C2,如果所述 C1和C2的或运算结果中包含且只包含k+1个1,则Ck+1+二U C2};
[0041 ]步骤5.2.1.2重复步骤5.2.1.1,直到完成所有的项目集对比较,得到全局候选频 繁化+1)-项目集Ck+i;
[0042]步骤5.2.1.3对Ck+i中任意项目集C,如果所述项目集C存在长度为k的子集C3,且 〇3掉。,删除所述项目集(3;
[00创步骤5.1.2.4删除Ck+冲只包含标签属性或非标签属性的项目集。
[0044] 所述步骤6.4对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类 规则MLACR的具体步骤包括:
[0045] 步骤6.4.1选择多标签频繁关联分类规则MLFCAR中前件长度最短的规则R1;
[0046] 步骤6.4.2计算MLACR=MLACRU{Rl};
[0047] MLFCAR=MLFCAR-{Ri};
[004引步骤6.4.3对于每个多标签频繁关联分类规则MLFCAR中的规则R,如果规则R1覆盖 规则R,则执行
[0049] MLFCAR=MLFCAR-{R};
[0050] MLACR=MLACRU {R};
[0051 ]步骤6.4.4如果多标签频繁关联分类规则MLFCAR不为空,重复执行步骤6.4.1至步 骤6.4.4。
[0052] 所述步骤6.4.3中的规则R1覆盖规则R是指对于多标签关联分类规则Ri: Pi =>Qi和 R: Ρ2^()2,满足PicP;,Q| 化,其中P1和Q1分别为规则R1的前件和后件,P2和Q2分别为规 贝化的前件和后件。
[0053] 所述步骤3的非标签属性包括均值、方差、倾斜度、峰态、能量、赌和聚类特征。
[0054] 本发明的主要有益效果是可W-次性地识别出训练样本分布式情况下图像所包 含的多个标签,并就识别过程中全局候选频繁项目集的构造 W及规则的后处理等方面给出 了相应的优化解决方案,其主要体现在:
[0055] (1)全局候选项目集的生成方面
[0056] 对于关联规则挖掘中全局候选项目集的生成问题,本发明提出了一种基于二进制 形式的全局候选项目集生成、修剪W及支持数计算等方法,方法用二进制形式来描述训练 样本W及全局候选项目集,简化了全局候选项目集的生成、传输及其支持数的计算过程,降 低了算法的实现难度。另外,经过两次修剪操作,明显缩小了全局候选项目集的规模,进一 步提高了算法的执行效率。
[0057] (2)多标签关联分类规则的后处理方面
[005引对于多标签频繁关联分类规则MLFCAR而言,它可能存在两个方面的问题,一是 MLFCAR中包含相互覆盖的规则;二是MLFCAR中包含相互矛盾的规贝1J。对此,本发明给出了一 种多标签关联分类规则的约简方法,该方法可W确保MLACR中不会出现多余规则,极大地方 便了规则的使用,进一步提高了本发明的有效性和可操作性。
【附图说明】
[0059] 图1是本发明实施例的结构框图
[0060] 图2是本发明实施例中全局频繁项目集挖掘流程图
[0061] 图3是本发明实施例中多标签关联分类规则库构造流程
【具体实施方式】
[0062] 设分布环境下的η个站点分别是Si、S2、……、S。,它们之间除了通过网络传递信息 夕h其它资源(如硬盘、内存等)全部独立,站点Si(i = l,2,-.,11)上的训练图像样本数据集 为DBi,总的训练样本集DB = DBi U DB2 U ...... U DBn,且DBi Π DBj =巫,i 声 j。1?(Ai,.,Ap,Bi,., Bq)为训练图像样本数据集DBi的关系模式,其中p和q分别为非标签属性和标签属性的个数, Ai,.,Ap为非标签属性的属性名,Bi,.,Bq为标签属性的属性名。如图1所示,其主要包括W下 几个方面的内容:
[006;3] (1)预处理
[0064]各站点分别进行训练图像样本数据集的准备、格式转换、尺度归一化、去噪、增强。 [00化](2)图像分割
[0066] 各站点均采用基于密度聚类的图像分割方法分别识别出每幅训练图像的待识别 区域。
[0067] (3)特征提取
[0068] 各站点分别提取每幅训练图像中待识别区域的特征,构造各站点的训练图像样本 数据库 DBi,i = l,2r..,n。
[0069] (4)特征值离散化
[0070] 各站点分别对连续属性进行离散化,非标签属性通过如下方法统一起来:
[0071] ①数值属性值按区间离散化,映射到连续正整数集合{〇,1,2,···}上;具体参见实 例部分。
[0072] ②离散属性值按字典序排序,映射到连续正整数集合{0,1,2,…}上。
[0073] (5)全局频繁项目集L的挖掘
[0074] 设最小支持度阔值为minsup,给定项目集C,设其支持数记为Count(c),相应的支 持度记为Sup(c),Sup(c) = Count(c)/ I DB I,|DB I表示训练图像样本数据集DB中样本的个 数。如图2所示,全局频繁项目集L的挖掘分为初始化、全局候选频繁项目集的生成、全局候 选频繁项目集支持数的计算。
[00巧]①初始化
[0076] 初始化包括下列步骤:
[0077] a选择η个站点Si、S2、......、Sn中一个站点或其它独立主机作为主计算机(记为站点 S),该机用来统计全局频繁项目集的支持数(度);
[0078] b各站点分别将其上的训练图像样本数据库DBi转换成二进制形式的数据库,记为 DBi,女Πp = 5,q = 2时,记录Rl(Al = l,A2 = 0,A3 = l,Al4=l,A5 = l,Bl = l,B2 = l)转换后的结果 为1011111;
[0079] C设置DB中的非标签属性集NLA和标签属性集LA,NLA={Ai,.,Ap},LA={Bi,.,Bq};
[0080] d各站点分别统计非标签属性集NLA和标签属性集LA中各属性的支持数,并将其支 持数发给主机S;
[0081] e山=keLAl sup(c)>minsup} ;//化功标签属性中的全局频繁1-项目集,由主 机S计算并保存在主机S上
[0082] f keNLAI S叫(C)>minsup} 山为非标签属性中的全局频繁1-项目 集,由主机S计算并保存在主机S上
[00削 g山U化山//1功08中的全局频繁1-项目集,保存在主机S上
[0084] ②全局候选频繁项目集的生成(由主机S来完成)
[0085] 设Lk是长度为k的全局频繁项目集,其中的全局频繁项目集均为二进制形式,由Lk 生成全局候选频繁化+1)-项目集Ck+I的方法包括下列步骤:
[0086] a Ck+i=〇 ;//Ck+功所有全局候选频繁化+1)-项目集所对应的二进制数的集合, 初始为空集
[0087]
的项目集,因为這些候选项目集不可能构成多标签关联分类规则
[0089] ③全局候选频繁项目集Ck+i中各项目集支持数的计算
[0090] 主机S将Ck+1中的全局候选项目集直接传送至各站点,各站点Si(i = l,2,……,n) 计算Ck+i中各项目集支持数的方法包括下列步骤: a Γογ each iransaciion 1色 DBi do b目gin b for each b^Ck+l do e ii*t or b= lihen
[0091] d Coum(b)++;: e end f各站点将各全局候选项目集的支持数传送给主机s;
[0092] ④全局频繁项目集L的生成
[0093] 全局频繁项目集L生成包括W下步骤:
[0094] a主机S接受来自各站点的支持数;
[0095] b计算Ck+冲各全局候选项目集的支持数;
[0096] C Lk+i=kECk+i|sup(c)>minsup}
[0097] d L = 1^iUL2U...;
[009引(6)多标签关联分类规贝IJMLACR的构造(由主机S来完成)
[0099] 设最小置信度阔值为minconf,多标签关联分类规则MLACR的构造分为多标签频繁 关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成。
[0100] ①多标签频繁关联分类规则MLFCAR的构造
[0101] MLFCAR的构造包括下列步骤: a MLFCA民=史;"初始化 b Ibr each c e L do e: MLFCAR= MLFCARu { IXiU//构造《标签频繁关联分类
[0102] 规则的前件和后件 d r〇r each 艮e MLFCAR e Conf(R) = Count(PuQ)/Count(P);Z/P、Q分别为规贝化的的件和后件 f ir(Conl'(R)< minconO 山cri
[0103] 径 MLFCAR== MLFCAR-; R!;
[0104] ②多标签关联分类规则MLACR的生成 [01化]MLACR的生成包括下列步骤: a MLACR=0;^初始化 b while (MLFCA民卓 Φ ) c MLAC民=MLAC民u很i};// Ri为MLFCAR中规则前件长度最短的规则 d MLFCAR = MLFCAR - ? RI!;
[0106] e for each Re MLFCAR f 巧规则Ri覆盖规则R)也en//覆盖的定文参见定文1,具体含义参见实例部分 g MLFCAR= MLFCAR-|R1; 虹 MLACR = MLACRu!Rh
[0107] 定义1对于给定的两个多标签关联分类规则热和R2:B二獲,如果P,Qi、 Q:i.3 〇2,·贝!1幸尔夫巧贝!11?1^:^夫见贝!11?2。
[0108] (7)图像的识别(主机完成)
[0109] 对于一幅未知标签集的图像t,其识别过程包括W下步骤:
[0110] ①预处理
[0111] 对图像t进行格式转换、尺度归一化、去噪、增强等处理。
[0112] ②图像分割
[0113] 采用基于密度聚类的图像分割方法识别出图像t的待识别区域。
[0114] ③特征提取
[0115] 提取出图像t中待识别区域的特征。
[0116] ④特征值离散化
[0117] 特征值离散化的具体方法参见步骤(4)。
[011引⑤图像识别
[0119] 设图像t经上述4步处理后得到的离散特征值为Vt,Vt=(t.Ai = ti,……,t.Ai = ti,……,*.4。= *。)。图像*的识别过程包括^下步骤: a 抜r each R 居 MLAC民
[0120] b if (Vt包含民的前件)化畑 C 将民的后件赋给图像t,图像t的标签集即为及的后件:; 过 break;//结束图像的识别
[0121] e if (MLAC民中不存在规则前件被Vt包含的规则)化cti f 将MLAC民中与Vt匹配属性数最多的那个规则的后件赋给图像t,闯像I 的标签集即为该规则的宿件。
[0122] 下面W分布式医学图像为实施例,详细地说明本发明的执行过程。本实例共选择 了 100幅医学图像,它们分别分布在Ξ台独立的站点上,站点1、2、3上各存放了 35、35、30幅 样本医学图像,另有一台独立的主机8,9 = 4,81、82、83、84分别为疾病1、疾病2、疾病3、疾病 4,具体执行步骤如下:
[0123] (1)各站点分别对运100幅医学图像进行格式转换、尺度归一化、去噪、增强处理。
[0124] (2)各站点分别分割并提取每幅医学图像中待识别区域的相关特征并进行归一化 处理,结果如表1所示。本发明实例所提取的特征包括均值、方差、倾斜度、峰态、能量、赌和 聚类特征,即9 = 7、41、42、43、44、45、46、47分别为均值、方差、倾斜度、峰态、能量、赌、聚类特 征。
[0125] (3)数值属性离散化。各站点分别对表1中的各属性进行离散化处理,其方法可采 用等宽划分、等深划分或基于距离的划分等方法。本实例采用等宽划分,即将0到1区间划分 成 20 份,分别为(0.00,0.05] ,(0.05,0.10],···,(0.95,1.00]。如:第四条记录{0.3974, 0.4812,0.5222,0.4316,0.1525,0.7633,0.6608}的离散化值为:{(0.35,0.40] ,(0.45, 0.50],(0.50,0.55],(0.40,0.45],(0.15,0.20],(0.75,0.80],(0.65,0.70]}〇
[0126] 表1医学图像特征表 Γ01271
[0129] (4)离散区间整数化。各站点分别将数值属性的离散区间映射成连续的整数标识, 分别将(0.00,0.05] ,(0.05,0.10],…,(0.95,1.00]映射成1,2,3,…,20,则第四条记录离 散区间整数化后为{08,10,11,09,04,16,14}。经处理后,表1转换成如表2的形式。
[0130] (5)属性的二进制化。各站点分别将离散化后的属性值进行二进制转换,表2转换 成如表3的形式,运些二进制数将驻留在各站点,其目的是为了方便全局候选项目集支持数 的计算。
[0131] 表2离散区间整数化后的结果表
[0132]
[0134]表3属性二进制化后的结果表
[0135]
[0137] (5)全局频繁项目集L的挖掘
[0138] 设最小支持度阔值minsup为0.2,生成至少包含{均值、方差、倾斜度、峰态、能量、 赌和聚类特征}之一和{疾病1,疾病2,疾病3,疾病4}之一的全局频繁项目集L,具体如下:
[0139] ①各站点扫描其上经属性二进制化后的结果表,得到各属性值的支持数,并将其 传送给主机S,主机S统计各属性值的支持数,根据最小支持度阔值minsup生成全局频繁1- 项目集Li,l^i= {{均值= 01000},愧值= 01011 },{均值= 01010},{方差= 01011 },{方差二 01010},{方差= 01001 },{倾斜度= 01011 },{倾斜度=01100},{峰态= 01001 },{峰态= 01000},{能量= 00011},{能量= 00100},{聚类特征= 01100},{聚类特征= 01110},{疾病 1},{疾病2},{疾病3},{疾病4} },如扫描传输后项目集{均值= 01000}的支持数为25,即 Count({均值= 01000})=25,Sup({均值= 01000}) = Count({均值= 00111 })/|Τ| =25/100 = 0.25,由于Sup( {均值= 01000} )〉minsup,因而项目集{均值= 01000}是一个全局频繁项 目集,其余项目集类推;
[0140] ②主机討良据b生成同时包含标签属性和非标签属性的全局候选频繁2-项目集C2, C2={{均值= 01000,疾病1},{均值= 01000,疾病2},{均值= 01000,疾病3},{均值= 01000,疾病4},{均值= 01011,疾病1},{均值= 01011,疾病2},{均值= 01011,疾病3},{:均 值= 01011,疾病4},……,{:倾斜度= 01100,疾病1},{倾斜度= 01100,疾病2},{倾斜度= 01100,疾病3},{倾斜度= 01100,疾病4},……}。
[0141] ③主机S将全局候选频繁2-项目集C2传送给站点1、站点2、站点3,为了确保各站点 能够知道所传输的含义,在传送之前对全局候选频繁项目集进行处理,如将{倾斜度= 01100,疾病 1}处理成 000000000001100000000000000000000001000,运样各站点就不需了 解各位的含义。
[0142] ④各站点扫描其上经属性二进制化后的结果表,求得C2中各项目集在各站点的支 持度(只需进行或操作),如站点1上的001条记录是0101001001010110100100001101000110 01010,由于010100100101011010010000110100011001010或00000000000110000000000000 0000000001000 声 010100100101011010010000110100011001010,所 W 该记录不支持该项目 集。计算结束后,各站点将其传送给主机S。
[0143] ⑤主机根据最小支持度阔值mins叩生成全局频繁2-项目集L2dL2={{均值= 01000,疾病2},{方差= 01011,疾病2},{倾斜度= 01011,疾病2},……,{:均值= 01000,疾病 1},{峰态= 01001,疾病4},……}。
[0144] ⑥根据L2生成同时包含标签属性和非标签属性的全局候选频繁3-项目集C3,将全 局候选频繁3-项目集C3传送给站点1、站点2、站点3,各站点扫描对应表一次,求得C3中各项 目集在各站点的支持度,各站点将其传送给主机S,主机S根据最小支持度阔值minsup生成 全局频繁3-项目集L3。依次分别求得L4、Ls、…...、Lk,其结束条件为:根据Lk生成同时包含标 签属性和非标签属性的候选化+1)-项目集C(k+1)为空集。
[0145] ⑦收集前面的结果,得到全局频繁项目集L,L=i王,。
[0146] L={{均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚 类特征= 01100,疾病2},{均值= 01011,方差= 01010,倾斜度= 01100,峰态= 00110,疾病 4},{均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,疾病1,疾病2,疾病4},{:均 值= 01010,方差= 01001,倾斜度=01100,峰态= 01000,能量= 00100,聚类特征= 01110, 疾病2,疾病4},......}。
[0147] (6)多标签关联分类规贝IJMLACR的构造(由主机S来完成)
[0148] 多标签关联分类规则的构造分为多标签频繁关联分类规则MLFCAR的构造和多标 签关联分类规则MLACR的生成。
[0149] 设最小置信度阔值minconf为0.6,多标签频繁关联分类规则MLFCAR的构造包括W 下步骤:
[0150] ①构造多标签频繁关联分类规则MLFCAR中各分类规则的前件和后件,前件即为L 中全局频繁项目集所包含的非标签属性集,后件即为L中全局频繁项目集所包含的标签属 性集。如项目集{均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011, 聚类特征=01100,疾病2}的前件、后件分别为{均值=01000,方差=01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚类特征= 01100巧日{疾病2};项目集{均值= 01011,方 差= 01010,倾斜度= 01100,峰态= 00110,疾病4}的前件、后件分别为{均值= 01011,方差 = 01010,倾斜度= 01100,峰态= 00110巧日{疾病4};项目集{均值= 01000,方差= 01011,倾 斜度= 01011,峰态= 01001,疾病1,疾病2,疾病4}的前件、后件分别为{均值= 01000,方差 = 01011,倾斜度= 01011,峰态= 01001}和{疾病1,疾病2,疾病4}。其余全局频繁项目集作 同样处理,由此得到初始的多标签频繁关联分类规则MLFCAR。
[ow] mLFCAR= {{均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚类特征=01100}二{疾病巧,{:均值二01011,方差= 10,倾斜度=01100,峰态 =00110}二·[疾病 4},I 均值=01000,方差=01011,倾斜度=01011,峰态=01001}马{疾 病1,疾病2,疾病4},{均值=10,方差= 01001,倾斜度= 01100,峰态= 01000,能量= 00100,聚类特征=01110}二{疾滴 2,疾摘 4},...... }。
[0152] ②分别计算MLFCAR中各分类规则的置信度。规则P^R的置信度计算公式为: Count(P U Q)/Count(P),Count(P U Q)、Count(P)的具体值已在频繁项目集L的挖掘过程中 求得。如规则{均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011, 聚类特征=〇π〇〇}二{疾病巧的置信度为:Count ({均值=01000,方差=01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚类特征= 01100,疾病2} )/Count({均值= 01000,方差 = 01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚类特征= 01100} ),Count({均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚类特征= 01100,疾病 2} ) = 17,Count({均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011, 聚类特征= 01100} ) = 20,其置信度为17/20,即为0.85。按同样方法可计算出MLFCAR其他分 类规则的置信度。
[0153] ③删除MLFCAR中置信度小于0.6的分类规则,构造最终的多标签频繁关联分类规 贝IJMLFCAR,由此可得MLFCAR。
[0154] mLFCAR= {{均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,能量= 00011,聚类粹征=01100}二{疾病2},(均值=01000,方差=01011,倾斜度=01011,峰态 =010〇n二·!疾病1,疾病2,疾病4},{均值= 10,方差= 01001,倾斜度= 01100,峰态= 01000,能量=00100,聚类特征=01110}二(疾病2,疾病 4},一.,. }。
[0155] ④对MLFCAR进行约简,删除MLFCAR中的部分多余规则,比如说MLFCAR中的第一条 规则就是多余的,据此可得多标签关联分类规则MLACR。
[0156] MLACR={{均值= 01000,方差= 01011,倾斜度= 01011,峰态=01001 }=>{疾病 1, 疾病2,疾病4},I均值= 01010,方差= 01001,倾斜度= 01100,峰态= 01000,能量= 00100, 聚类特征=01110}疾病2,疾病4], ....,4。
[0157] (7)图像的识别
[0158] 对于一幅未知标签集的图像t,经预处理、图像分割、特征提取、特征值离散化后得 到其对应的离散特征值Vt。
[0159] 如 Vt={均值= 01000,方差= 01011,倾斜度= 01011,峰态= 01001,峰态= 01001, 能量= 01010,赌= 01010,聚类特征= 01101},Vt包含MLACR中第一条规则的前件,因此图像 t的标签集即为该规则的后件,其标签集为{疾病1,疾病2,疾病4},即该图像可能同时包含 与"疾病Γ、"疾病2"、"疾病3"相关的信息。
[0160] 如 Vt={均值= 01000,方差= 01001,倾斜度= 01100,峰态= 01000,峰态= 01001, 能量= 01010,赌= 01010,聚类特征= 01110},由于MLACR中所有规则前件中不存在被Vt包 含的规则,对此取前件与Vt交叉最多的规则,即规则{均值=01010,方差=01001,倾斜度= 01100,峰态= 01000,能量= 00100,聚类特征=0]] 10}与>!疾病么,疾病4),该图像可能同时 包含与"疾病2"、"疾病4"相关的信息。
[0161] 本实施例是一种医学图像的识别过程,该方法还可W应用其他与之类似的图像识 别领域,如专利中的附图数据等。
【主权项】
1. 一种基于关联规则的分布式多标签图像识别方法,包括全局候选频繁项目集的生 成、支持数的计算以及图像识别步骤,其特征在于:所述全局候选频繁项目集的生成、支持 数的计算和图像识别步骤包括: 步骤1分布式图像样本数据集的准备和预处理,包括各站点训练图像格式转换、尺度 归一化、去噪、增强; 步骤2各站点采用基于密度聚类的图像分割方法分别识别出每幅训练图像的待识别 区域; 步骤3各站点分别提取每幅训练图像中待识别区域的特征,构造各站点的训练图像样 本数据集DBi,所述图像样本数据集DBi的模式为关系模式R(Ai, . ,Αρ,Βι, .,Bq),其中p和q分 别为非标签属性和标签属性的个数,^,.,AP为非标签属性的属性名,B 1;.,Bq为标签属性的 属性名,i = 1,2,…,η。总的训练样本集DB = DB! U DB2 U……U DBn,DBi门DBj = Φ,i乒j ; 步骤4特征值离散化,各站点分别对连续属性进行离散化; 步骤5全局频繁项目集L的挖掘; 步骤6多标签关联分类规则MLACR的构造,所述多标签关联分类规则MLACR的构造分为 多标签频繁关联分类规则MLFCAR的构造和多标签关联分类规则MLACR的生成,其步骤包括: 步骤6.1构造多标签频繁关联分类规则的前件P和后件Q,其中:所述前件为全局频繁 项目集L中所包含的非标签属性集,所述后件为全局频繁项目集L中所包含的标签属性集; 步骤6.2分别计算多标签频繁关联分类规则MLFCAR中各分类规则的置信度,其中规则 的置信度计算公式为:Count(PU Q)/Count(P); 步骤6.3删除多标签频繁关联分类规则MLFCAR中置信度小于minconf的分类规则,构 造最终的多标签频繁关联分类规则MLFCAR,其中minconf为最小置信度阈值; 步骤6.4对多标签频繁关联分类规则MLFCAR进行约简,得到多标签关联分类规则 MLACR; 步骤7图像识别。2. 根据权利要求1所述的一种基于关联规则的分布式多标签图像识别方法,其特征在 于:所述步骤5的具体步骤包括: 步骤5.1初始化,其包括: 步骤5.1.1选择η个站点Si、S2、......、Sn中一个站点或其它独立主机作为主计算机(记 为站点S); 步骤5.1.2各站点分别将其上的训练图像样本数据DBi转换成二进制形式的数据库,为 方便起见这里仍记为DB1; 步骤5.1.3设置08中的非标签属性集见4和标签属性集1^小1^={41,.^1)},1^ = {Bl,.,Bq}; 步骤5.1.4各站点分别统计非标签属性集NLA和标签属性集LA中各属性的支持数,并 将其支持数发给主机S; 步骤5.1.5主机计算标签属性中的全局频繁1-项目集LLi = {ceLA| sup(c)彡minsup}; 步骤5.1.6主机计算非标签属性中的全局频繁1-项目集NLLi = {c eNLA I sup(c)彡 minsup}; 步骤5.1.7主机计算DB中的全局频繁1-项目集1^ = 0^ U NLU; 其中:minsup为给定的最小支持度阈值;c为给定项目集;Count(c)为支持数,是项目集 c在DB中出现的次数;Sup (c)为支持度,Sup (c) = Count (c) / | DB |,| DB |表示总训练图像样本 数据集DB中样本的个数; 步骤5.2全局候选频繁项目集的生成(由主机S来完成),其包括: 步骤5.2.1根据全局频繁k-项目集Lk生成全局候选频繁(k+1)-项目集Ck+1,其中k为全 局频繁项目集的长度; 步骤5.2.2各站点计算全局候选频繁项目集Ck+1中各项目集的支持数; 步骤5.2.3主机统计全局候选频繁项目集Ck+冲各项目集的支持数,并根据最小支持 度阈值minsup生成全局频繁(k+l)_项目集Lk+i; 步骤5.2.4重复步骤5.2.1、步骤5.2.2、步骤5.2.3,若生成全局候选频繁项目集为空, 则进入步骤5.3;3. 根据权利要求1所述的一种基于关联规则的分布式多标签图像识别方法,其特征在 于:所述步骤7的具体步骤包括: 步骤7.1待识别图的准备和预处理,包括训练图像格式转换、尺度归一化、去噪和增 强; 步骤7.2主机采用基于密度聚类的图像分割方法识别出所述待识别图像的待识别区 域; 步骤7.3提取出所述待识别图像中待识别区域的非标签属性特征; 步骤7.4非标签属性特征值离散化; 步骤7.5根据多标签关联分类规则MLACR识别所述待识别图像的标签属性。4. 根据权利要求1所述的一种基于关联规则的分布式多标签图像识别方法,其特征在 于:所述步骤5.2.1的具体步骤包括: 步骤5.2.1.1选择全局频繁k-项目集Lk中的任意两个不同项目集cdPc2,如果所述cdP c2的或运算结果中包含且只包含k+1个1,则Ck+i+= {C1 U C2}; 步骤5.2.1.2重复步骤5.2.1.1,直到完成所有的项目集对比较,得到全局候选频繁(k +1项目集Ck+i; 步骤5.2.1.3对Ck+1中任意项目集c,如果所述项目集c存在长度为k的子集c3,且ck U, 删除所述项目集c; 步骤5.1.2.4删除Ck+1*只包含标签属性或非标签属性的项目集。5. 根据权利要求1所述的一种基于关联规则的分布式多标签图像识别方法,其特征在 于:所述步骤6.4的具体步骤包括: 步骤6.4.1选择多标签频繁关联分类规则MLFCAR中前件长度最短的规则R1; 步骤6.4.2计算]\0^0?=]\0^0^{1?1}; MLFCAR=MLFCAR-{Ri}; 步骤6.4.3对于每个多标签频繁关联分类规则MLFCAR中的规则R,如果规则R1覆盖规 则R,则执行 MLFCAR=MLFCAR-{R}; MLACR=MLACRU {R}; 步骤6.4.4如果多标签频繁关联分类规则MLFCAR不为空,重复执行步骤6.4.1至步骤 6.4.4。 所述步骤6.4.3中的规则1?1覆盖规则1?是指对于多标签关联分类规则1?1:;^(51和1? : P2々Q2,满足Ρ]?ΞΡ2, QqQz,其中P1和Q1分别为规则R1的前件和后件,P2和Q2分别为规则 R的前件和后件。6.根据权利要求1所述一种基于关联规则的分布式多标签图像识别方法,其特征在于: 所述步骤3的非标签属性包括均值、方差、倾斜度、峰态、能量、熵和聚类特征。
【文档编号】G06K9/62GK105825226SQ201610141659
【公开日】2016年8月3日
【申请日】2016年3月11日
【发明人】彭彦, 朱玉全, 李竞, 何峰, 余飞
【申请人】江苏畅远信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1