基于自组织映射网络的文档聚类方法

文档序号:6554770阅读:447来源:国知局
专利名称:基于自组织映射网络的文档聚类方法
技术领域
本发明涉及一种文档聚类方法。
背景技术
作为一种无监督的机器学习方法,聚类具有较高的自动化处理能力,已经成为对文本信息进行有效组织、摘要和导航的重要手段。文档聚类的目的在于通过对文档集合进行自动整理,挖掘出其中的结构信息,从而便于用户浏览,提高信息的访问效率。其主要应用在包括数字图书馆服务、搜索引擎返回结果的自动整理、用户兴趣挖掘等方面。众多文档聚类方法中,T.Kohonen提出的自组织映射(Self-Organizing Maps,简称SOM)引起了研究人员较多的关注。文档聚类具有高维和与语义相关的特点,而SOM可以较好的实现高维数据到二维平面空间的保序映射。所谓保序映射是指彼此相似度较大的不同文档往往被映射到SOM输出层的同一神经元或者彼此邻近的神经元上,因此SOM聚类结果的可视化水平和导航能力较好。另外,一些噪声文档在SOM输出层中也可以很容易被发现,使得这种方法的抗噪能力也较强。
但是SOM中的网络结构和神经元数目需要在训练之前确定,因而难以做到对输入文档数据的自适应。固定结构的SOM还带来了诸如神经元欠利用、网络映射欠准确以及边缘效应等问题。这是由于其固定的网络结构难以反映输入数据的结构信息,导致其灵活性较差。一般说来,输出节点的个数与训练样本模式类的个数有关系。如果节点数多于模式类,则一种可能是将类别划分得过细,另外一种可能是出现死节点,即在训练过程中,某个节点从未获胜过且远离其他获胜节点。如果节点数少于模式类数,则不足以区分全部模式类,训练的结果将使相近的模式类合并为一类。实践中SOM的输出层一般采用矩形结构,并且设置尽可能多的节点,因此使得该方法很容易出现神经元的欠利用情况。
为了获得理想的结果,可以预先了解输入数据的结构,但这又影响了聚类的无指导特性。并且在绝大多数的情况下,并没有先验知识能让操作者事先选择好一个合适的网络规模,所以它影响了SOM的实际应用。值得指出的是,目前已经有研究人员认识到了这一问题,其中一种比较典型的方法是GHSOM。如图2和图3所示,该模型可以通过在输出层中插入行或者列的方式来对网络进行扩充,以便自适应地反映输入数据的主题结构。但是该方法采用的矩形结构容易导致网络的规模扩展过快,从而容易发生神经元欠利用现象。所谓欠利用,是指由于插入神经元过多,使得同一类文档被多个不同的神经元所映射。

发明内容
本发明提供一种基于自组织映射网络的文档聚类方法,以克服已有的SOM自组织映射聚类方法难以做到对输入文档数据的自适应以及其固定结构所带来的神经元欠利用、网络映射欠准确以及边缘效应等问题。本发明的方法通过下述步骤实现一、利用检索词在检索者指定范围内找出所有被选文档;二、将自组织映射网络的输出层初始化为环形结构,并把环形结构至少平分为两半,其中的每个扇形分别作为一个神经元;三、输入被选文档,进行自组织映射网络的训练,计算当前输出层的R2聚类准则系数;四、判断R2聚类准则系数是否大于阈值μ,μ=0.3;五、步骤四的结果为是,则终止自组织映射网络的训练,把被选文档按照当前自组织映射网络的输出层神经元构成进行分类;六、结束;七、步骤四的结果为否,则在当前输出层中寻找具有最大类内离差平方和的神经元,在其附近插入新的神经元,并初始化环形结构的输出层各权值,然后返回步骤三。
本发明的方法采用了闭合的环形输出层结构。这种结构的优势在于可以渐进地进行神经元扩充,并且还可以克服矩形结构和其他结构容易带来的边界效应问题。本发明方法的输出层采用闭合的环形结构,其中的每个扇形代表一个神经元,如图4所示。这种结构的优势是扇形的个数可以取任意整数值,因此可以较好的反映输入文档集合的类别分布信息。另外该模型中每个扇形都有相同个数的相邻神经元,因此可以保证结构的对称性,也避免了矩形结构的边缘效应问题。在需要对输出层进行扩充的时候,可以插入任意数目的神经元,因此有利于避免神经元的欠利用问题。
本发明方法首先将网络初始化为一个较小的规模,而后在聚类准则函数的指导下对网络结构进行动态调整,以真实反映输入文档的主题分布规律。分解策略借鉴了自上而下的层次聚类算法的思想,假设所有文档至少可以分为二类,因此在初始化时输出层只包括二个神经元。随后在过利用的神经元附近生长出新的神经元,以便细化对输入数据的表示。采用R2聚类准则系数作为判断依据,在神经元的过利用和欠利用之间寻求平衡,以确定一种可以真实反映输入数据结构的最佳网络规模。聚类准则函数通过评价神经元和文档之间的关系,对网络规模进行有效控制,避免无限制生长。
本发明的方法克服了传统上使用SOM模型进行文档聚类容易发生的神经元欠利用和过利用问题,聚类F值较同类方法有明显提高。
聚类F值的计算方法用聚类F值对文档聚类的综合质量进行评价。对于聚类生成的某一个聚类类别r和原来的预定类别s,召回率recall和精确率precision的定义分别为recall(r,s)=n(r,s)/ns(5)precision(r,s)=n(r,s)/nr(6)其中n(r,s)是聚类后的类别r和预定义类别s中的公共文档个数。nr是聚类类别r中的文档个数,ns是预定义类别s中的文档个数。定义F(r,s)为F(r,s)=(2*recall(r,s)*precision(r,s))/((precison(r,s)+recall(r,s))(7)则聚类结果的总体评价函数为F=Σininmax{F(i,j)}---(8)]]>这里,n是聚类的输入文档个数。而ni表示预定义类别i中的文档个数。


图1是本发明方法的示意图,图2是已有的GHSOM方法的输出层所采用的矩形结构示意图,图3是GHSOM方法插入新的神经元示意图,图4是本发明方法的输出层所采用的环形结构示意图,图5是本发明方法的输出层插入新的神经元示意图。
具体实施例方式
下面结合图1至图5具体说明本实施方式。本发明的方法通过下述步骤实现一、利用检索词在检索者指定范围内找出所有被选文档;二、将自组织映射网络的输出层初始化为环形结构,并把环形结构至少平分为两半,其中的每个扇形分别作为一个神经元;三、输入被选文档,进行自组织映射网络的训练,计算当前输出层的R2聚类准则系数;四、判断R2聚类准则系数是否大于阈值μ;五、步骤四的结果为是,则终止自组织映射网络的训练,把被选文档按照当前自组织映射网络的输出层神经元构成进行分类;六、结束;七、步骤四的结果为否,则在当前输出层中寻找具有最大类内离差平方和的神经元,在其附近插入新的神经元,并初始化环形结构的输出层各权值,然后返回步骤三。
利用已有的SOM方法进行文档聚类时,输出层上的神经元一般表示为与输入文档具有相同维数的向量,并且其权值初始化为较小的随机数,而输入文档在各特征维上的权值则取决于该特征维在文档中的出现频率。特征维一般由输入文档集合中的所有实词(过滤掉无意义的停用词)经过特征选择而构成。特征选择的目的是只保留对类别具有较强区分能力的词构造聚类空间。经过充分训练,SOM输出层的节点成为对特定模式类敏感的神经细胞,对应的向量则成为各个输入模式类的中心向量,因此可以起到聚类作用。
自组织映射有三个主要过程竞争、合作和突触调节。对于每个输入文档di,网络中的神经元分别计算其与di之间的相似度。相似度最大的神经元将赢得竞争,成为获胜神经元。获胜神经元决定兴奋神经元的拓扑邻域位置,从而提供相邻神经元合作的基础。只有获胜神经元及其邻域内的神经元有权进行权值向量的调整。权值调整的幅度由学习率(t)控制,这个参数将随着学习的进行而逐渐减小。邻域范围rj(t)也随时间增加而减小。因此在训练开始时有大量神经元被调整权值,而最后只有获胜者自己被调整权值。
神经元的权值调整一般采用如下公式nj(t+1)=nj(t)+(t)·rj(t)·dist(di,nj(t))(1)其中dist(di,nj(t))表示文档向量di和神经元向量nj(t)的距离。nj(t+1)和nj(t)则分别表示神经元nj调整后和调整前的权值向量。(t)为学习速率函数,rj(t)为邻域函数。二者的取值在网络开始训练时取较大的初始值,然后随着训练的进行而逐渐递减。
令|Ni(t)|表示神经元Ni在某一时刻t所映射的文档数,mi为神经元Ni所对应的向量。则Ni所映射样本的类内离差平方和为Si=Σdj→Ni(dj-mi)T(dj-mi)---(2)]]>Si越小,则Ni所映射的文档越“纯”,来自于同一主题的可能性越大。
在时刻t,假设输出层共有c个神经元,则定义Pc=Σk=1cSk.]]>假设T为所有样本的总离差平方和,则T=Σi=1|D|(di-x‾)T(di-x‾)---(3)]]>其中x‾=1|D|Σi=1|D|di]]>表示所有训练样本的均值向量。|D|表示输入样本的个数。则R2=1-PcT---(4)]]>聚类准则系数R2的取值范围为
,并且其具体取值一般随着网络规模的增长呈单调增加的趋势。因此需要设定阈值μ以在适当的时候终止网络的增长,防止出现神经元的欠利用现象。如果R2的取值小于某一阈值μ,需要在具有最大类内离差平方和的神经元Nmax附近插入新的神经元,以便细化对输入数据的表示。具体方法是考察与Nmax最相邻的两个神经元,假设其中神经元N′具有较小的类内离差平方和,则在Nmax与N′之间插入一个神经元Nnew,并且Nnew的权值向量初始化为Nmax和N′所代表的向量的均值。
本发明的应用过程是用户输入检索词给搜索引擎,搜索引擎通过检索将找到的结果返回,这些返回的文档将作为本发明聚类方法的输入,通过聚类处理,使得返回的结果被分类处理,改善了可视化效果,从而提高检索效率。
权利要求
1.基于自组织映射网络的文档聚类方法,其特征在于它通过下述步骤实现一、利用检索词在检索者指定范围内找出所有被选文档;二、将自组织映射网络的输出层初始化为环形结构,并把环形结构至少平分为两半,其中的每个扇形分别作为一个神经元;三、输入被选文档,进行自组织映射网络的训练,计算当前输出层的R2聚类准则系数;四、判断R2聚类准则系数是否大于阈值μ,μ=0.3;五、步骤四的结果为是,则终止自组织映射网络的训练,把被选文档按照当前自组织映射网络的输出层神经元构成进行分类;六、结束;七、步骤四的结果为否,则在当前输出层中寻找具有最大类内离差平方和的神经元,在其附近插入新的神经元,并初始化环形结构的输出层各权值然后返回步骤三。
全文摘要
基于自组织映射网络的文档聚类方法,本发明涉及一种文档聚类方法。它克服了已有的自组织映射聚类方法难以做到对输入文档数据的自适应以及其固定结构所带来的神经元欠利用、网络映射欠准确以及边缘效应等问题。本发明方法的步骤找出所有被选文档;将自组织映射网络的输出层初始化为环形结构,并把环形结构至少平分为两半,其中的每个扇形分别作为一个神经元;计算当前输出层的R
文档编号G06F15/18GK1808474SQ20061000976
公开日2006年7月26日 申请日期2006年3月2日 优先权日2006年3月2日
发明者刘远超, 关毅, 徐志明, 刘秉权, 林磊 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1