基于粒子群优化的视频数据挖掘高维聚类方法

文档序号:10580164阅读:240来源:国知局
基于粒子群优化的视频数据挖掘高维聚类方法
【专利摘要】本发明公开一种基于粒子群算法视频数据挖掘高维聚类分析方法。该方法首先对视频数据集提取特征属性,把这些属性数值化,形成样本;之后对样本数据进行适当改造,使得样本点每一维属性都改成其对应维最大值的百分比。本发明通过适当改造样本,能够解决部分噪声数据的影响;通过基于粒子群的聚类分析算法,能够提高聚类分析算法的收敛速度,减弱初始聚类中心点选择的敏感性。
【专利说明】
基于粒子群优化的视频数据挖掘高维聚类方法
技术领域
[0001] 本发明利用粒子群优化来进行视频数据挖掘高维聚类,缓解视频数据聚类分析的 "维度灾难",属于数据挖掘、多媒体处理和进化计算交叉领域应用技术领域。
【背景技术】
[0002] 视频数据挖掘是通过综合分析试听特性和语义,在视频中发现隐含的、有效的、有 价值的、可理解的模式,进而发现知识,得出事件的趋势和关联为用户提供问题求解层次的 决策支持能力。
[0003] 聚类分析是研究数据间逻辑上或物理上的相互关系的技术,它通过一定的规则将 数据集划分为在性质上相似的数据点构成的若干个类。聚类分析的结果不仅可W掲示数据 间的内在联系与区别,同时也为进一步的数据分析与知识发现提供了重要的依据,如数据 间的关联规则,分类模式W及数据的变化趋势等。粒子群优化算法(PSO)从随机解出发,通 过迭代寻找最优解。在每一次迭代中,粒子通过跟踪两个"极值"来更新自己。第一个"极值" 就是粒子本身所找到的最优解,运个解叫做个体极值。另一个"极值"是整个种群目前找到 的最优解,运个极值是全局极值。本发明利用粒子群优化算法来构建一种多视频数据挖掘 高维聚类方法方案。

【发明内容】

[0004] 技术问题:噪声数据对多视频数据挖掘聚类结果具有不良影响,同时现有多视频 数据挖掘聚类方法的实际正确率和效率有待优化提高,本发明方法主要解决上述问题,提 出一种基于粒子群优化的多视频数据挖掘高维聚类方法。
[0005] 技术方案:本发明首先对原始视频数据进行预处理,通过对不同属性特征的抽取, 根据聚类分析数据类型要求,形成样本表示;然后,对原始样本数据进行适当的改造;最后, 根据粒子群优化算法,改善不同的分组,使得同组对象彼此相似,不同组对象彼此相异,形 成样本簇,对视频进行分类。
[0006] 本发明所述的视频数据挖掘高维聚类分析方法包含W下步骤:
[0007] 步骤1)用户输入n个视频文件,分别从运些视频文件提取特征值,形成n个t维样本 点,所有样本点组成初始样本。所述n是用户输入视频文件数目,所述t是指单个视频抽取 所有画面中像素点个数的3倍,所述特征值是指相像素点的=通道色彩强度值共有t个特征 值,所述样本点是指用t个特征值作为作为坐标值的点。每个视频文件特征值提取具体步骤 为:
[0008] 步骤1.1)按时间均匀的抽取视频的中的m帖画面;
[0009] 步骤1.2)按行访问每一帖画面的每个像素点,记录每个像素点的=个通道的色彩 强度值,将运些强度值作为样本点坐标值。运些样本点为?尸(日11,日12,日13,。',日1〇,所述1 = 1 ? ? .n
[0010] 步骤2)计算样本点每一维坐标的最大值(maxi,max2,max3,…,maxt)D样本点Pi,P2, P3,…,Pn每一个坐标值都除W其对应维的最大值得到如下新样本点:
[0011]
.
[0012] 步骤3)解析步骤2)得到的新样本点,确定聚类中屯、点,进行分类,具体步骤如下:
[0013] 步骤3.1)求出每个类中样本点个数的的期望值:N=n/k
[0014] 所述N是指样本点个数的期望值,所述n是指样本点个数,所述k聚类中屯、的个数。
[0015] 步骤3.2)计算聚类中屯、的粗略位1
,所述粗略位
置是指距离聚类中屯、较近的位置,所述G表示未被分类的样本点集合,所述化表示未分类样 本点的个数,所述Zi是指样本点,i G {1,2,3,???!!}。
[0016] 步骤3.3)计算集合G中每个样本点到勺欧式距I 取距离最小 的样本点做为聚类中屯、C。若有多个相等的最小距离的样本点,则随机取其一做为聚类中屯、 C。
[0017] 步骤3.4)计算集合G中每个样本点到C的欧式距离d。控制距离阔值0,使得满足(1< O的样本点个数妒满足条件:IN-N^ I取最小值。
[0018] 步骤3.5)若还有未曾分类的样本点,则转置步骤3.2)。所有样本点分类完后,k个 聚类中屯、:件每诗…片。
[0019] 步骤4)运用粒子群优化算法,进行M次迭代,一次迭代流程如下:
[0020] 步骤4.1)计算样本点的适应度
所述马表示第t次迭代时第i 个样本点所在位置,所述dll表示样本点马到对应聚类中屯、的欧式距离,所述du表示样本点 為到其他聚类中屯、的欧式距离,所述k表示聚类中屯、的个数。做为聚类中屯、的样本点,不计 算其适应度。
[0021] 所述适应度是对聚类划分正确率的判断,用样本与自身对应聚类中屯、的距离和与 其他聚类中屯、距离均值的比来表示,作为聚类中屯、的样本点不参与运算。适应度的数值越 小,表不该样本点的划分越合理。
[0022] 步骤4.2)计算适应度个体最优和全局最优位置,第i个点第t+1次迭代的个体最优
長代的全体最优样本点为 LUUU」 卿十巧个样本点,将具抵应巧巧本身巧巧代巧巧甲所绘过的最优位置的适应度进 行比较,若更好,则作为当前的个体最优位置。对于每个粒子,将其适应度与全局所经历的 最优位置的适应度比较,若更好,则将其最为当前全局最优位置;
[0024] 步骤4.3)通过计算
来更新每 个样本点的速度和位置。所述惯性因子《 e [0,1 ]。当《取值较大时算法全局收敛性比较 好,当《取值较小时,算法具有较强的局部捜索能力。加速常数Cl,C2通常取1,随机数ri,r2 G [0,1]。矿'和V;分别是指第i个样本点在第t-1次迭代和第t次迭代时的速度,初始速度 诗=0,.《和写+1分别指第i个样本点在第t次迭代和t+1次迭代时的位置。
[0025] 步骤4.4)更新聚类中屯、。计算每个样本点马",马",马",…,马"到q的欧式距离, 距离最近的样本点作为C,'",用同样的方法更新q",…,Cf。所述C;和C/"分别指第t次迭代 时与第t+i此迭代时第i个聚类中屯、,运里i取巧化之间的整数值。
[0026] 步骤4.5)重新分类,计算样本点皆1到均",呼V'.,巧+1的欧式距离,将划分到 与其距离最近的聚类中屯、。
[0027] 步骤4.5)当迭代次数没有到达M次,则转到步骤4.1);
[0028] 步骤5)形成样本簇,根据样本簇对运些样本所在的视频进行分类。
[0029] 有益效果:本发明先将提取的样本点,进行适当的改造。从而有效的缓解了 "维度 灾难"的影响,便于样本点聚类划分。采用基于粒子群的优化算法,加快了聚类算法的收敛 性。具体来说,本发明所属的方法具有如下的有益效果:
[0030] (1)本发明将样本点的每一维"特征值"都除W对应的最大值,使得每一种属性的 "特征值"都W百分比进行显示。从而在一定程度上解决了高维向量噪声信息产生的影响;
[0031] (2)初始分类让聚类中屯、更加接近样本点密度较大的区域提高了聚类划分的正确 率.
[0032] (3)采用粒子群优化算法,解决了 W往聚类算法收敛性慢和初始值敏感性的缺点。 提高了聚类算法的效率和正确率。
【附图说明】
[0033] 图1为基于粒子群优化的多视频数据挖掘高维聚类方法流程图。
【具体实施方式】
[0034] 下面结合图1对本发明具体实施做更详细的描述:
[0035] 1)有很多方法去提取每个视频文件的特征值,运里给出化encv提取视频文件特征 值的步骤:
[0036] 1.1)创建视频捕捉器
[0037] 1.2)抽取每一帖画面
[0038] 1.3)访问捕捉到画面的像素点,获取=通道色彩强度值
[0039] 1.4)将色彩强度值作为特征值,进行存储
[0040] 1.5)释放视频流捕捉器
[0041] 假设化encv提取与的样本如下:
[0042] {(1,1),(2,3),(3,2),(5,4),(6,5),(7,3),(7,8),(6,10),(8,8)}
[0043] 2)改造样本点
[0044] 计算每一维的最大值,分别为maxi = 8,max2 = 10。将样本点的每一维都除W对应维 的最大值,得到如下新样点:
[0045]
[0046]
[0047]
[004引 [0049]
[(K)加 ]
[0化1 ]
[0化2]
[0化3]
[0054] 3)解析上面得到的新样本,确定聚类中屯、点,并且进行分类,具体步骤如下:
[0055] 3.1)样本点个数为n = 9,设置聚类中屯、点个数k = 3,每一类的聚类中屯、点个数的 期望值 N=n/k = 9/3 = 3。
[0化6] 3.2)通过公
,计算得到第一个聚类中屯、粗略位置为C*=(0.611, 0.478)
[0057] 3. 3)计算样本点与C*= (0.61 1 ,0.478 )的距离,通过比较得知样本点
* =( 0 . 6 1 1,0 . 4 7 8 )的距离最近,取第一个聚类中屯、
[0化引3.4)计算没有分类的样本点到巧的距离d,控制距离阔值0 = 0.3,使得满足d<0的 样本点本撒N'=q - '溫田N-N' I取最小值。运S个点是:
[0化9]
[0060]
[0061]
[0062] 将它们划分到巧表示的类中。
[0063] 3.5)若还有未分类的样本点,则转置32)。最终可计算出第二个聚类中屯、粗略位 置C*= (0.563,0.533),第二个聚类中屯、点巧=(0.375,0.2),划分到第二个类的立个点是:
[0064]
[00 化]
[0066]
[0067]最后一个类的聚类中屯、是巧=脚875,化巧,运个类包含如下S个点:
[006引
[0069]
[0070]
[0071] 整理得,=个聚类中4:
分别包含 的样本点为:
[0072] 4)基于粒子群优化算法的一次迭代过程如下:
[0073] 4.1)计算每个点的适应度:
[0074] 例如求第一个样本点的适应度/(勾'),第一个样本点与自身对应的聚类中屯、的欧
[0075] 依次求出其他样本点的适应度(作为聚类中屯、的样本点不计算):[0076] 式畦 ,同样计算出山2 = 0.583,山3 = 1.026。 所
[0077] 阿十算
[007引 朽十算
[0079]
[0080]
[0081 ] 朽十算
[0082]
[0083]
[0084] 4.2)计算适应度个体最优位置和全局最优位置:
[0085] 将运些适应度与相应的样本点的个体最优适应度进行对比,若适应度更优,则更 新个体最优样本点位置和适应度,若样本点没有计算过适应度则不记录它的个体最优,同 样通过比较更新全局最优适应度和位置,得到的9个样本点的个体最优值为如下:
[0086] zbesti( 1) =0.334
[0087] zbest2( 1) =0.269
[008 引 zbest3(l)无记录
[0089] zbest^l)无记录
[0090] zbests( 1) =0.398
[0091] zbeste( 1 )=0.533
[0092] zbest7(l)无记录
[0093] zbests( I )=0.335
[0094] Zbestg(I)=O.335
[OOM]因为是第一次迭代,所W个体最优位置就是样本点位置。全局最优值为gbest(l) = 0.269,且最优位置为(0.25,0.3)。
[0096] 4.3)根据粒子群迭代公式,更新粒子(样本点)运动速度和位置。
[0097] 初始速度为设为0,及= 0 .公式中惯性因子《取0.5,Cl,C2加速常数常取1,随机 数ri,n都取0.5。用公式
[009引
[0099] 依次求得各样本点的对应速度向量为:
[0100]
[0101]
[0102]
[0103]
[0104]
[0105]
[0106]
[0107]
[010 引
[0109] 样本点,得到的新样本点如下:
[0110]
[0111]
[0112]
[0113]
[0114]
[0115]
[0116]
[0117]
[011 引
[0119] 4.4)重新确定新的聚类中屯、。样本点发生了变动聚类中屯、可能已经不落在样本点 上了,计算刚刚得到的新样本点对应聚类中屯、的欧式距离,取距离聚类中屯、最近的样本点 作为一个新的样本点。得到的=个新聚类中屯、分别如下:
[0120]
[0121]
[0122]
[0123] 4.5)重新分类。计算新样本点到3个聚类中屯、的欧式距离,到哪个聚类中屯、距离最 近就划到哪一类巧中。新的分类化下:
[0124]
[01巧]第一次迭代已经完成。
【主权项】
1. 一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征在于该方法包含以下步 骤: 步骤1)用户输入η个视频文件,分别从这些视频文件提取特征值,形成η个t维样本点, 所有样本点组成初始样本,所述η是用户输入视频文件数目,所述t是指单个视频抽取所有 画面中像素点个数的3倍,所述特征值是指相像素点的三通道色彩强度值共有t个特征值, 所述样本点是指用t个特征值作为作为坐标值的点; 步骤2)计算样本点每一维坐标的最大值(maxi,max2,max3,…,maxt),样本点Pi,P2, P3,…,Pn每一个坐标值都除以其对应维的最大值得到如下新样本点:步骤3)解析步骤2)得到的新样本点,确定聚类中心点,进行分类; 步骤4)运用粒子群优化算法,进行Μ次迭代; 步骤5)形成样本簇,根据样本簇对这些样本所在的视频进行分类。2. 根据权利要求1所述的一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征 在于步骤1)中,分别从这些视频文件提取特征值的具体步骤为: 步骤1.1)按时间均匀的抽取视频的中的m帧画面; 步骤1.2)按行访问每一帧画面的每个像素点,记录每个像素点的三个通道的色彩强度 值,将这些强度值作为样本点坐标值,这些样本点为Pi= (an,ai2,ai3,…,ait),所述i = 1···η〇3. 根据权利要求1所述的一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征 在于步骤3)中,确定聚类中心点,进行分类,具体步骤如下: 步骤3.1)求出每个类中样本点个数的的期望值:N=n/k 所述N是指样本点个数的期望值,所述η是指样本点个数,所述k聚类中心的个数; 步骤3.2)计算聚类中心的粗略位雇听述粗略位置是指 距离聚类中心较近的位置,所述G表示未被分类的样本点集合,所述Ng表示未分类样本点的 个数,所述Zi是指样本点,i e {1,2,3,"·η}; 步骤3.3)计算集合G中每个样本点到C*的欧式距离玟距离最小的样 本点做为聚类中心C;若有多个相等的最小距离的样本点,则随机取其一做为聚类中心C; 步骤3.4)计算集合G中每个样本点到C的欧式距离d,控制距离阈值〇,使得满足d<〇的 样本点个数Μ满足条件:|N-N' |取最小值; 步骤3.5)若还有未曾分类的样本点,则转置步骤3.2),所有样本点分类完后,k个聚类 中心:4. 根据权利要求1所述的一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征 在于步骤4)运用粒子群优化算法,进行Μ次迭代,其中每一次迭代流程如下: 步骤4.1)计算样本点的适应度丨述巧表示第t次迭代时第i个样 本点所在位置,所述dii表示样本点到对应聚类中心的欧式距离,所述du表示样本点< 到其他聚类中心的欧式距离,所述k表示聚类中心的个数,做为聚类中心的样本点,不计算 其适应度; 所述适应度是对聚类划分正确率的判断,用样本与自身对应聚类中心的距离和与其他 聚类中心距离均值的比来表示,作为聚类中心的样本点不参与运算,适应度的数值越小,表 示该样本点的划分越合理; 步骤4.2)计算适应度个体最优和全局最优位置,第i个点第t+Ι次迭代的个体最优样本 点为,第t + 1迭代的全体最优样本点为对于每个样本点,将其适应度与本身在迭代过程中所经过的最优位置的适应度进行比 较,若更好,则作为当前的个体最优位置,对于每个粒子,将其适应度与全局所经历的最优 位置的适应度比较,若更好,则将其最为当前全局最优位置; 步骤4.3)通过计算来更新每个样本 点的速度和位置,所述惯性因子ω e [〇,1 ]。当ω取值较大时算法全局收敛性比较好,当ω 取值较小时,算法具有较强的局部搜索能力,加速常数d,c2通常取1,随机数n,r2e [〇,1 ]。 (1和g分别是指第i个样本点在第t-1次迭代和第t次迭代时的速度,初始速度<=0,: Zf 和Zf1分别指第i个样本点在第t次迭代和t+1次迭代时的位置; 步骤4.4)更新聚类中心,计算每个样本点2丨+1,4+1名+1^义 +1到0的欧式距离,距离最 近的样本点作为CT1,用同样的方法更新£^,一,(:丨+1。所述?4ρ?(+1分别指第t次迭代时与第 t+i此迭代时第i个聚类中心,这里i取1到k之间的整数值; 步骤4.5)重新分类,计算样本点笔+1到0+1,(:丨+1,~,(:丨 +1的欧式距离,将笔+1划分到与其距 离最近的聚类中心; 步骤4.5)当迭代次数没有到达犯欠,则转到步骤4.1)。
【文档编号】G06F17/30GK105956113SQ201610293257
【公开日】2016年9月21日
【申请日】2016年5月5日
【发明人】陈志 , 杨天明, 岳文静, 龚凯
【申请人】南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1