生成特征集的制作方法_2

文档序号:9422736阅读:来源:国知局
法300可继续到370,在370,可使用特征集对数据集进行聚类。
[0029]图4示出了根据一种示例的用于生成特征集的系统。计算系统400可包括一个或多个计算机且/或可由一个或多个计算机实现。例如,计算机可以是服务器计算机、工作站计算机、台式机等。计算机可包括一个或多个控制器及一个或多个机器可读存储媒体。
[0030]控制器可包括处理器以及用于实现机器可读指令的存储器。处理器可包括至少一个中央处理单元(CPU)、至少一个基于半导体的微处理器、至少一个数字信号处理器(DSP)(诸如,数字图像处理单元)、适用于获取及执行存储在存储器中的指令的硬件设备或处理元件、或它们的组合。处理器可包括芯片上的一个或多个核、多个芯片上的多个核、多个设备上的多个核、或它们的组合。处理器可从存储器取指令、对来自存储器的指令进行解码、并执行来自存储器的指令,以实施各种功能。作为获取并执行指令的可选方案或除获取及执行指令之外,处理器可包括至少一个集成电路(IC)、其他控制逻辑、其他电路、或它们的包括用于实施各种任务或功能的多个电子组件的组合。
[0031]控制器可包括存储器,诸如,机器可读存储介质。机器可读存储介质可以是任意电存储设备、磁存储设备、光存储设备、或包含或存储可执行指令的其他物理存储设备。因此,机器可读存储介质可包括例如:各种随机存取存储器(RAM)、只读存储器(R0M)、闪存、及它们的组合。例如,机器可读介质可包括非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动、NAND闪存等。此外,机器可读存储介质可以是计算机可读的或非暂时性的。此外,计算系统400可包括独立于一个或多个控制器的一个或多个机器可读存储介质,诸如,存储器410。
[0032]计算系统400可包括存储器410、第一聚类模块420、特征选择器430、以及聚合器440、第二聚类模块450、以及采样模块460。这些组件中的每个可由一个计算机或多个计算机实现。组件可包括软件、用于存储软件的一个或多个机器可读媒体、及用于执行软件的一个或多个处理器。软件可以是包括机器可执行指令的计算机程序。
[0033]此外,计算系统400的用户可通过可被认为或不被认为是计算系统400的一部分的一个或多个其他计算机与计算系统400交互。作为一种示例,用户可经由位于系统400或另一个计算机(诸如,台式机、工作站计算机、平板电脑等)上的计算机应用与系统400交互。计算机应用可包括用户界面。
[0034]计算机系统400可实施方法100、300及其变形,组件420-460可配置为实施方法100,300的各种部分及其变形。此外,由组件420-460实现的功能可以是更大的软件平台、系统、应用等的一部分。例如,这些组件可以数据分析系统的一部分。
[0035]在一种示例中,方法410可配置为存储数据集412。采样模块460可配置为生成数据集的独立的随机样本,以供第一聚类模块420使用。第一聚类模块420可配置为对采样模块460所生成的各种多个样本聚类,以生成针对每种多个样本的多个类。特征选择器430可配置为基于多个类选择一个或多个特征。聚合器440可配置为对基于来自数据集的多种多个样本的多个类选择的特征进行聚合,直至达到收敛阈值。聚合器440可与第一聚类模块420和特征选择器430 —起工作,以对通过多次迭代选择的特征进行聚合。第二聚类模块450可配置为基于聚合的特征对整个数据集进行聚类。第一聚类模块420和第二聚类模块450可配置为使用相同的聚类算法。
[0036]图5说明了根据一种示例的生成特征集的计算机可读介质。计算机500可以是各种计算设备或系统中的任何设备或系统(诸如,针对计算系统500所描述的)。
[0037]计算机500可访问数据库530。如本文所描述的,数据库530可包括一个或多个计算机,且可包括一个或多个控制器及机器可读存储介质。计算机500可经由网络连接至数据库530。网络可以是任意类型的通信网络,包括但不限于:有线网络(例如,线缆)、无线网络(例如,蜂窝、卫星)、一个或多个蜂窝电信网络、以及一个或多个基于IP的电信网络(例如,网络电话)。网络还可包括传统的固网电信(Iandline)或公共交换电话网络(PSTN)、或前述这些的组合。
[0038]处理器510可以是至少一个中央处理器(CPU)、至少一个基于半导体的微处理器、适用于获取及执行存储在机器可读存储介质520中的指令的其他硬件设备或处理元件、或它们的组合。处理器510可包括芯片上的一个或多个核、多个芯片上的多个核、多个设备上的多个核、或它们的组合。此外,处理器510可获取、解码、并执行其中的指令522-528,以实现各种处理。作为获取并执行指令的可选方案或除获取及执行指令之外,处理器510可包括至少一个集成电路(1C)、其他控制逻辑、其他电路、或它们的包括用于实施指令522-528的功能的多个电子组件的组合。因此,处理器510可在多个处理单元上实现,且指令522-528可通过在计算机500的不同的区域中的不同的处理单元实现。
[0039]机器可读存储介质520可以是任意电存储设备、磁存储设备、光存储设备、或包含或存储可执行指令的其他物理存储设备。因此,机器可读存储介质可包括例如:各种随机存取存储器(RAM)、只读存储器(R0M)、闪存、及它们的组合。例如,机器可读介质可包括非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动、NAND闪存等。此外,机器可读存储介质520可以是计算机可读或非暂时性的。机器可读存储介质520可用管理处理元件的一系列可执行指令进行编码。
[0040]指令522、524在由处理器510 (例如,经由处理器的一个处理元件或多个处理元件)执行时可使处理器510实施多个过程,例如,方法100、300,及其变形。此外,计算机500可类似于计算系统500,且可具有如上所述的类似的功能且可以以类似的方式被使用。
[0041]例如,采样指令522可使处理器510使用采样技术从数据集532选择多个样本。在一种示例中,采样技术可以是随机采样算法。聚类指令524可使处理器510将多个样本聚类成多个类。选择指令526可使处理器510基于多个类选择多个特征。添加指令528可使处理器510将多个特征添加到用于聚类的特征集。可针对多次迭代执行指令522-528,直至满足收敛阈值。在一种示例中,如果在给定的迭代中,添加到用于聚类的特征集的特征的数量少于阈值,则满足收敛阈值。在一种示例中,用于聚类的特征集可用于在满足收敛阈值之后对整个数据集进行聚类。
[0042]在前面的描述中,为了提供对本文公开的主题的理解而陈述了许多细节。然而,可不用这些细节中的某些或全部实行实施方式。其他实施方式可包括上面讨论的细节的修改和变形。目的在于:所附的权利要求涵盖这样的修改和变形。
【主权项】
1.一种生成数据集的方法,包括: (a)使用聚类算法将数据集的第一多个样本聚类成第一多个类; (b)基于所述第一多个类选择第一多个特征; (C)将所述第一多个特征添加到特征集; (d)对来自所述数据集的其他多个样本进行聚类; (e)基于(d)的结果类选择其他特征; (f)将所述其他特征添加到所述特征集;以及 (g)从⑷到(f)迭代,直至达到收敛阈值。2.根据权利要求1的所述方法,进一步包括:使用聚类算法及所述数据集对所述数据集进行聚类。3.根据权利要求1的所述方法,进一步包括: 在实施(a)之前,通过实施所述数据集的TF-1DF分析来降低与所述数据集关联的原始特征空间的维度,生成减小的特征空间,所述第一多个特征和其他特征是从所述减小的特征空间选择的。4.根据权利要求1的所述方法,其中,如果所述特征集呈现下落属性,则满足所述收敛阈值。5.根据权利要求1的所述方法,其中,如果在迭代期间添加到所述特征集的特征的数量小于阈值,则满足所述收敛阈值。6.根据权利要求1的所述方法,其中,如果迭代次数大于阈值,则满足所述收敛阈值。7.根据权利要求1的所述方法,其中,所述第一多个样本和其他多个样本是所述数据集的独立的随机样本。8.根据权利要求1的所述方法,其中,通过以下过程选择特征: 通过关于聚类包含物的信息增益对每个类中的特征进行排序;以及 从每个类识别前N个排序的特征。9.根据权利要求1的所述方法,其中,仅在特征仍未存在于所述特征集时,将特征添加到所述特征集。10.一种系统,包括: 第一聚类模块,用于生成来自数据集的多个样本的多个类; 特征选择器,用于基于所述多个类选择一个或多个特征; 聚合器,用于对基于来自所述数据集的多种多个样本的多个类选择的特征进行聚合,直至达到收敛阈值;以及 第二聚类模块,用于基于聚合的所述特征对整个数据集进行聚类。11.根据权利要求10的所述系统,进一步包括:采样模块,用于生成所述数据集的独立的随机样本,以供所述第一聚类模块使用。12.根据权利要求10的所述系统,其中,所述第一聚类模块和所述第二聚类模块配置为使用相同的聚类算法。13.根据权利要求10的所述系统,其中,所述聚合器配置为结合所述第一聚类模块和特征选择器对特征进行聚合。14.一种非暂时性计算机可读取存储介质,存储这样的指令,在所述指令由处理器执行所述指令时,使计算机: 直至满足收敛阈值; 使用采样技术选择数据集的多个样本; 将所述多个样本聚类成多个类; 基于所述多个类选择多个特征;以及 将所述多个特征添加到用于聚类的特征集。15.根据权利要求14的所述存储介质,其中,如果在给定的迭代中,添加到用于聚类的所述特征集的特征的数量低于阈值,则满足所述收敛阈值。16.根据权利要求14的所述存储介质,其中,所述采样技术是随机采样算法。17.根据权利要求14的所述存储介质,进一步存储这样的指令,所述指令使计算机: 在满足所述收敛阈值之后,使用用于聚类的所述特征集对整个数据集进行聚类。
【专利摘要】一种生成特征集的技术。可对来自数据集的多个样本进行聚类。可基于类选择特征。可将特征集添加到特征集。可对其他样本及选择的特征进行聚类,并添加到特征集,直至达到收敛阈值。
【IPC分类】G06F17/00
【公开号】CN105144139
【申请号】CN201380076001
【发明人】维纳伊·多伊拉利卡尔, H·拉菲特
【申请人】惠普发展公司,有限责任合伙企业
【公开日】2015年12月9日
【申请日】2013年3月28日
【公告号】WO2014158169A1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1