用于分类扇形色卡颜色的系统和方法_3

文档序号:9226056阅读:来源:国知局
r>[0039] 聚类算法能够基于它们的聚类模型分类,并且可能有超过100种已公布的聚类算 法。对于特定的问题需要根据实验选择最恰当的聚类算法,除非存在数学的原因,与另一种 模型相比优选一种聚类模型。
[0040] 基于连通性的聚类,也已知为分级聚类,是基于比远离的对象与邻近的对象更相 关的对象的核屯、思想。该些算法基于它们的距离连接"对象"连接W形成"聚类"。聚类很 大程度上能够由连接聚类的部分所需的最大距离来描述。在不同的距离处,不同的聚类将 形成,其能够使用系统树图表示。该些算法不提供数据组的单一分区,而是替代地提供与彼 此在某些距离处结合的聚类的广泛层级。在系统树图中,y轴标记了在其处聚类结合的距 离,而对象沿X轴放置使得聚类不会混合。
[0041] 基于连通性的聚类是整类由计算的距离方式而差异的方法。与基于连通性的聚类 相关的方法通常将不产生数据组的唯一分区,而是产生层级,用户仍需要从其中选择恰当 的聚类。
[0042] 分级聚类通过计算所有在点之间的距离开始。距离能够使用欧几里德距离、城市 街区距离(city block)、欧几里德距离平方或其它距离矩阵。将最接近的点或聚类按顺序 组合,从聚类中的所有点到在一个聚类中的所有点。即如果存在100个点,将存在具有99、 98、97、……、3、2、1聚类组的顺序水平。在每个步骤使用连接规则决定哪个点或聚类"最接 近"于之前的点或聚类。用户复查结果并选择多少数量的聚类将点最佳地分隔进有用的组 中。对于扇形色卡问题,主要的设计参数是在扇形色卡内颜色的最大数量和最小数量。例 如,色块的厚度和扇形色卡的环或柱的尺寸可能会加上限于每个扇形色卡(fan deck)的色 块(chip)的数量上。具有大于色卡(deck)最大值的颜色数的聚类能够形成新的数据组, 能够将其再次聚类W形成数量少于色卡最大值的更小的聚类。能够将具有非常少的数的聚 类附加到邻近的聚类。
[0043] 在基于形屯、的聚类中,聚类由中屯、向量表示,其可W不必是数据组的成员。在将聚 类的数量固定到k时,k-均值聚类提供正式的限定作为优化寻找k聚类中屯、并将对象分配 给最近的聚类中屯、使得从聚类中屯、的距离平方最小化。
[0044] 常用的方法是仅捜索近似解。一种公知的近似方法是劳合社的算法(Lloyd' S algorithm),实际上时常称作"k-均值算法"。然而其仅寻找局部最优值,W及通常用不同 的随机初值运行很多次。
[0045] 在使用k-均值聚类时,用户选择所需聚类的数量化)。如前面一样,在聚类之前 能够选择或衡量数据维度。在初始化步骤中,用户通过随机或其它过程将观测数据分配给 该k个聚类。算法将点迭代地分配给与聚类形屯、具有最近距离的聚类,然后更新聚类形屯、 并重复直至在聚类之间没有更多观察数值改变。该聚类是非分级的,因为观测数据能够添 加到聚类中,而且在随后的迭代中移动到不同的聚类。在聚类内的数不存有控制。因此,如 果聚类的数超过了最大值,那么将聚类取做子集,并且重复聚类W形成更小的聚类。
[0046] 使用分级聚类算法或k-均值聚类算法基于它们的多元颜色点的相似性,将观测 数值分配给聚类。在数据点之间的距离将取决于数据维度的标度和选择。考虑到维度可 能相关和/或具有不同的量级,用户可W选择使用所有维度或子集。因为维度具有近似 相等的视觉量级,所W均匀的颜色空间坐标的使用可能是有利的。可替代性地,用户可W 将维度标准化或采用一些其它维度标度。(对于更详细的聚类描述,感兴趣的读者参考 Alvin C. Rencher, William F. Christensen,多元分析方法(Methods of Multivariate Analysis),第S版(3rd ed.), John Wil巧 and Sons, Hoboken, NJ, 2012.)。
[0047] 在本案中,方法100的步骤110的结果是基于颜色/光亮相似性,将颜色分配到色 卡聚类中,并且所有色卡聚类具有在扇形色卡容量最大值内的数。
[0048] 在步骤112中将分配给聚类的每个颜色分配到中性色组(neutral group)和彩色 组(C虹omatic group)中。能够存在大约100个聚类。中性色包括白色、黑色、灰色、金属 银色、金属灰色、金属黑色和其它具有低色度的颜色。彩色包括红色、黄色、绿色、藍色和在 较高色度的中间色调。中性色组和彩色组提供直观的分离成彩色较少和较多的组,该有助 于导航到色卡的组(group of decks)中。然而,组的选择是任意的,并且其它色卡的组是 可能的。基于聚类的平均色度与色度公差的比较,将色卡聚类分配给组。例如,如果聚类的 平均色度大于10,那么将聚类分配到彩色组。如果小于10,将其分配到中性色组。
[0049] 在步骤114中,将彩色色卡聚类通过色调按相继的次序放置用于放置在拥有色卡 的箱体或其它设备中。此处的目的是为所需的色卡聚类提供简单的和直观的导航。顺序规 则的选择是任意的。对于中性色色卡聚类,基于聚类亮度均值的顺序可意味着可W选择从 浅到深;例如对于纯色是从白到黑,并且对于效果色是从金属银色到金属黑色。对于彩色色 卡聚类,可W选择基于色调角从藍红色到红色、黄色、绿色、藍色和紫色的顺序。该样提供了 基于色调环的自然的连续,即视觉直观编组。W此类推,通过亮度将中性色色卡聚类按相继 的次序放置在拥有色卡的箱体或其它设备中(步骤116)。
[0化0] 在步骤118中选择单一群组。检索对于在选定的聚类中的色块的聚类识别符数 据、颜色数据和光亮数据(步骤120),并且将聚类内的颜色排序(步骤122)。对于在步骤 116中排序的所有聚类重复该过程;即通过亮度排序中性色。即,步骤124、126和128实际 上分别与步骤118、120和122相等,用于通过色调排序颜色。
[0051] 将色卡聚类内的观测数值排序W保持相似的颜色作为近邻。因为观测数值在3-11 个维度上变化,所W通常没有单一的尺寸对观测数值排序并将近邻保持在顺序中相邻的位 置。观测数值的分布(多元数据云)可W是紧凑的或细长的,可W具有单一的或多个相邻 的组,并且可W具有分离的离散值观测数据。分布可作为单一的或者多个超球体或者超长 方形形状。将如上所述,分级聚类或k-均值聚类与多元图形可视化结合使用W选择在色卡 内聚类的数量,其将观测数值分组到有用的邻近的聚类。该些邻近的聚类通过任意的顺序 规则排序。例如,彩色色卡的邻近的聚类可W通过色调角排序。
[0化2] 如上所述,在每个邻近的聚类内的观测数据必须排序。如果邻近的聚类具有超长 方形形状,那么沿超长方形的最长方向存在一个维度,尽管该维度通常不是原色或光亮维 度其中之一。变化的主要方向能够通过对多元观察数据应用主成分分析(PCA) W将数据变 换为具有连续越来越小的方差的新正交维度(参见Rencher等)而找到。
[0化3] PCA是使用正交变换的统计学过程,W将一组可能相关变量的观侧数值转换为一 组线性无关变量(称作主成分)的值。主成分的数量少于或等于原始变量的数量。该种变 换是W该种方式限定的,该种方式是第一主成分具有最大可能方差(possible variance) (即解释为在数据中尽可能多的方差),并且每个随后的成分依次在其与前面的成分正交 (即不相关)的限制下具有最局的可能方差。
[0化4] PCA是最简单的真实的基于特征向量的多元分析。时常,它的操作能够被认为W 最佳解释在数据中的方差的方式揭示数据的内部结构。如果将多元数据组在高维数数据空 间(每个变量1轴)中可视化为一组坐标,那么在从其(在某种程度上)最具信息的视角 来看,PCA能够为用户提供该对象的较低维数的图片、投影或"影像"。该是通过仅使用很少 的第一主成分进行的,使得变换的数据的维数降低。
[0化5] PCA在数学上限定为正交线性变换,其将数据变换到新的坐标系使得最大方差通 过数据的一些投影位于第一坐标(称作第一主成分)上,第二大方差位于第二坐标上,等 等。
[0化6] 在本案中,第一向量维度包含数据的所有线性顺序的最大值方差。每个观测数值 在第一维度上都具有投影分数。分数的等级次序提供观测数值沿主向量的顺序。在最坏情 况中,所有变换的维度具有相等的方差,数据云是超球形,并且不存在主线性方向和顺序。 更通常地,邻近的聚类将具有一些可用于排序的主变化方向。
[0化7]图2是适用于执行上面结合图1描述的过程的系统200的框图。待包括在一个或 多个扇形色卡中的颜色选自颜色配方数据库202,并且将其提供给子集检测器204,在此处 检索色块识别符数据(chip identification data)、颜色数据和光亮数据。处理器206从 检测器204接收第一输入值,并且从用户输入设备208 (例如键盘、光标控制设备等)接收 来自用户210的第二输入值。处理器206为输出设备提供输出值,输出设备可W包括一个 或多个打印机212、一个或多个显示系统214等。处理器206包括处理模块216和存储模块 218。处理
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1