生成特征集的制作方法

文档序号:9422736阅读:441来源:国知局
生成特征集的制作方法
【专利说明】
【背景技术】
[0001]在数据挖掘中,聚类可用于基于对象之间的相似度对数据进行分组。由于聚类可提供对较大数据集的不同视角,因此聚类可以是较为有用的。例如,在企业设置中,企业可具有大的文档语料库。聚类可应用于语料库,以将文档分组成多个类。这些类可显示聚类的文档之间的相似度,使得企业更有效地利用其数据,并获得在其他方面难以得到的见解。
【附图说明】
[0002]下面的详细描述参照附图,其中:
[0003]图1示出了根据一种示例的生成特征集的方法。
[0004]图2描绘了根据一种示例的示出如何利用所公开的技术能使特征集逼近的曲线图。
[0005]图3示出了根据一种示例的生成用于对数据集进行聚类的特征集的方法。
[0006]图4示出了根据一种示例的用于生成特征集的系统。
[0007]图5示出了根据一种示例的用于生成特征集的计算机可读取介质。
【具体实施方式】
[0008]对诸如文档语料库数据集进行聚类可能呈现各种挑战。例如,如果文档语料库大,则聚类操作可占用较长的时间执行。通常,可由特征向量来表示语料库中的每个文档。聚类操作可基于特征向量对文档进行聚类。如果语料库大,则特征向量的总大小也会很大。但是,由于主存储器(例如,RAM)的大小上的局限性,表示文档语料库的大的特征向量集可能无法全部同时刚好放入执行聚类操作的计算系统的主存储器中。结果是,在聚类操作期间,可能不得不将特征向量从辅存储器(例如,硬盘驱动器)读取到主存储器中,这可能导致占用更长的时间来完成聚类操作。根据本文公开的技术,可生成在对数据集进行聚类时使用的特征集。生成的特征集可小于数据集的特征空间,因此,减小用于实施聚类操作的存储器的量。
[0009]在一种示例中,可从数据集选择(例如,随机选择)多个样本,并利用聚类算法对多个样本聚类。可基于聚类来选择多个特征。例如,可基于关于聚类包含物的信息增益来选择特征。选择的特征可被添加到特征集。可从数据集选择额外的多个样本,且可重复上述处理,以将额外的特征添加到特征集。这可针对各种迭代而发生,直至达到收敛阈值。例如,收敛阈值可与特征集增长的大小、特征集的大小、或预定的最大迭代次数有关。生成的特征集随后可用于使用同样的聚类算法来对整个数据集进行聚类。
[0010]结果是,由于更少数量的特征,减少了主存储器的使用,使得能够更有效地对整个数据集实施聚类操作。此外,可不用首先对整个数据集聚类就可获得这种更小的特征集。此夕卜,由于利用通过相同的聚类算法生成的类来生成特征集,特征集可针对该聚类算法而被特别调整,这可产生改进的聚类。下面参照附图描述其他示例、优点、特征、修改等。
[0011]图1示出了根据一种示例的生成特征集的方法。可由计算设备、系统、或计算机(诸如,计算系统400或计算机500)来实施方法100。用于实现方法100的计算机可读指令可被存储在计算机可读存储介质上。如存储在介质上的这些指令在本文被称作“模块”,且可由计算机执行。
[0012]方法100可始于110,在110,可对来自数据集的多个样本进行聚类。数据集可包括文档、图像等。为了说明的目的,本文将描述一种数据集包括文档语料库的示例。例如,文档语料库可以是存储在企业数据库中的大的文档语料库。
[0013]可由特征向量来表示数据集的每个成员。与表示数据集的所有成员的特征向量集关联的特征空间在本文被称为“原始特征空间”。参照文档语料库示例,与语料库关联的特征向量可被表示为文献-检索词矩阵。当然,文档的其他特征也可包括在特征向量中,诸如,文档类型、标题、总字数等。
[0014]如文本所使用的,“样本”是通过采样技术已采样的数据集的成员。因此,文档语料库的多个样本将包括利用采样技术采样的多个文档。可使用各种采样技术中的任何技术。在一种示例中,独立的随机采样可用于选择多个样本。虽然可使用其他采样技术(诸如,用户定向(user-directed)采样),独立的随机采样具有这样的好处:去除了采样过程中的偏差,并潜在地产生更准确的数据集的分布的表示。
[0015]包括在多个样本中的样本的数量可以是预设的或由用户规定的参数。样本大小可受各种因素的影响。例如,可使用采样技术来对数据集的特定百分比(例如,1%、5%)进行采样。可选地,固定数量的样本可从数据集采样。为了迅速处理,采样大小可足够小,使得针对多个样本的所有特征向量可刚好放入主存储器中。如随后将描述的,关于采样大小的不期望的结果在试验期间被获得。
[0016]可使用聚类算法对多个采样的文档进行聚类,以产生多个类。将创建的类的数量可以是预设的或由用户规定的参数。可使用各种聚类算法中的任意算法(例如,分层聚类、基于质心的聚类、基于分布的聚类以及基于密度的聚类)。将用于对整个文档语料库进行聚类的相同的聚类算法可用于对多个采样的文档进行聚类。由于生成的特征集随后将针对选择的聚类算法而被调整,因此使用与将用于最终对整个数据集进行聚类的算法相同的聚类算法来生成特征集可能是有利的。
[0017]在120,可基于多个类来选择多个特征。例如,可基于在110中生成的聚类来评估原始特征空间中的特征,以确定那些特征应包括在特征集中。可基于各种标准进行评估。例如,可基于关于聚类包含物的信息增益来评估特征。此技术识别什么特征与确定文档是否应为特定类的成员有关。可基于评估标准对特征进行排序,且可针对特征集中的包含物从每个类选择前N个特征。N可以是预设的或由用户规定的参数。
[0018]在130,多个特征可被添加到特征集。可忽略冗余特征(例如,已添加到特征集的特征),使得选择的特征仅在其还未在特征集中存在时被添加。
[0019]在140,可确定是否达到收敛阈值。如果已达到收敛阈值(140 “是”),则可终止方法100。如果仍未达到收敛阈值(140 “否”),则方法100可继续到110,对另外的多个样本进行聚类,以将更多的特征添加到特征集。方法100可从110到140迭代多次,直至满足收敛阈值。
[0020]收敛阈值可以是各种阈值中的任意阈值。收敛阈值的目的在于指示方法100应何时结束,或可选地,何时特征集已达到使用的满意点。例如,收敛阈值可以是生成的特征集呈现“下落属性(falling profile)”的点。如本文所使用的下落属性指示特征集在根据例如130添加多个特征之后增加的百分比落到一定的值(诸如,2%)以下。可使用其他百分比。在另一个示例中,收敛阈值可以是特定的数。例如,如果在迭代期间添加到特征集的特征的数量小于该特定的数量,则可满足收敛阈值。可选地,如果方法100的迭代次数大于该特定的数,则满足收敛阈值。在某些示例中,收敛阈值可以是用户可调的参数。
[0021]暂时转到图2,图示200示出了针对特征集的下落属性(在图中称为“特征存储”)。存放作为针对数据集的理想特征集“真”特征集。方法100 (及本文的其他方法及变形)可用于逐次逼近此真特征集。如曲线图200所示出的,随着方法的迭代次数的增加,特征集的大小增加并逼近真特征集。然而,特征集的增长不是线性的。而特征集在方法开始时快速增长,但随着迭代次数增加而减慢。这是因为例如冗余的选择的特征不被添加到特征集的事实。特征集的这种增长趋势是术语“下落属性”所意旨的。
[0022]返回图1,方法100可因此用于快速生成逼近针对数据集的理想特征集的特征集。此特征集的特征空间比数据集的初始特征空间小,因此,使数据集的更多的特征向量能够刚好放入到主存储器中,以供整个数据集进行更快的聚类。事实上,可修改上述参数,以确保生成的针对数据集的特征集将足够小,使得数据集的所有特征向量可刚好放入到正使用的计算机系统的主存储器中。
[0023]所公开的技术对于生成特征集而言比简单地进行数据集的单次随机采样更有效。一个原因是因为单次随机采样很可能将错过数据集的成员的一定的分组。结果是,生成的特征集可能不包括与这些分组有关的特征。此外,所公开的技术不需要为了特征集的生成而处理整个数据集。这使得所公开的技术能够被纳入到将在数据集先前未知或不断变化的环境中开发的数据分析工具中。另一个好处是可由所公开的技术自动选择特征集中的特征的数量。这省去了用户不得不猜测,对于给定的数据集,理想的特征的数量是多少,这是不适于用户的涉及各种约束、权衡等的复杂任务。
[0024]试验期间,发明人获得了某些期望的结果。发明人确定:较低的采样大小可使得方法100能够更快地达到收敛阈值。例如,通常,I %的采样大小比25%的采样大小产生更快的收敛。这具有额外的好处:采样大小越低,采样的文档的特征向量越可能刚好放到主存储器中。此外,发明人确定:当采样大小为5%时方法100产生的聚类的质量通常比当采样大小更高时方法100产生的聚类的质量更好。简言之,发明人确定:聚合从多个样本选择的特征可改善生成的特征集的质量,且同时减少需要的处理时间和存储空间。
[0025]发明人还确定:在每次迭代期间选择越多的特征越好。例如,通过设置N = 20,而不是N= 10,发明人确定:特征集在收敛时可更大,可改善使用特征集的数据集的聚类的质量。
[0026]图3示出了根据一种示例的生成用于聚类的特征集的方法300。方法300示出可用于修改方法100的变形。同时,方法100的描述应用于方法300。可由计算设备、系统、或计算机(诸如,计算系统500或计算机600)实施方法300。用于实现方法300的计算机可读指令可存储在计算机可读存储介质上。如存储在介质上的这些指令在本文称作“模块”,且可由计算机执行。
[0027]方法300可始于310,在310,可基于词频-逆文档频率法(TF-1DF)分析来减小特征空间。通过TF-1DF分析减小的特征空间可以是与数据集及其特征向量关联的原始特征空间。新的特征空间可称作减小的特征空间。TF-1DF分析是可用于降低特征空间的维度的统计技术。通过将TF-1DF分析应用于原始特征空间,可从特征空间移除可能对聚类目的有用的特征,从而减小方法300的其余部分所处理的特征向量的大小。因此,可基于减小的特征空间及从其选择的特征来对数据集进行聚类。
[0028]在320,可从数据集选择多个样本。在330,可对多个样本进行聚类。在340,可基于聚类对多个特征进行排序。在350,前N个排序的非冗余特征可被添加到特征集。在360,可确定是否满足收敛阈值。如果不满足收敛阈值(360 “否”),则方法300可继续到320。如果满足收敛阈值(360 “是”),则方
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1