数据聚类方法和装置的制作方法

文档序号:6579527阅读:163来源:国知局
专利名称:数据聚类方法和装置的制作方法
技术领域
本发明涉及信息处理领域,具体地,涉及一种数据聚类方法和装置以及一种文本 分类方法和装置。
背景技术
随着因特网的迅速发展,电子信息(如电子文档等)呈现爆炸式的增长。如何迅 速有效地组织和管理这些电子信息是一个亟待解决的问题。目前,数据聚类(包括文本聚 类)的方法在业界倍受关注。

发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理 解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。根据本发明的一个方面,提供了一种数据聚类方法。该数据聚类方法包括初始聚 类步骤对多个数据样本进行初始聚类;标注对象选取步骤根据初始聚类的结果选取所 述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤获取针对所述标注对 象的标注信息;及二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行 二次聚类根据本发明的另一方面,提供了一种数据聚类装置。该数据聚类装置包括初始聚 类模块,用于对多个数据样本进行初始聚类;标注对象选取模块,用于根据初始聚类的结果 选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取模块,用于获取针对 所述标注对象的标注信息;及二次聚类模块,用于将所述标注信息作为约束信息对所述多 个数据样本进行二次聚类。根据本发明的另一方面,提供了一种文本分类方法。该文本分类方法包括统计文 本中的特殊字符,并根据统计结果判断所述文本的语言类别。根据本发明的另一方面,提供了一种文本分类装置。该文本分类装置包括统计模 块,用于统计文本中的特殊字符;以及分类模块,用于根据统计结果来判断所述文本的语言 类别。另外,本发明的实施例还提供了用于实现上述数据聚类方法和/或文本分类方法 的计算机程序。此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述数据聚类方法和/或文本分类方法的计算机程序代码。


参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。图1是示出了根据本发明一个实施例的数据聚类方法的示意性流程图;图2是示出了根据本发明另一实施例的数据聚类方法的示意性流程图;图3是示出了根据本发明一个实施例的文本分类方法的示意性流程图;图4是示出了根据本发明另一实施例的数据聚类方法的示意性流程图;图5-7分别是示出了根据本发明的实施例的文本分类方法的示意性流程图;图8-10分别是示出了根据本发明的实施例的数据聚类装置的示意性框图;图11-12分别是示出了根据本发明的实施例的文本分类装置的示意性框图;以及图13是示出了可用于实施根据本发明的实施例的计算机的示意性框图。
具体实施例方式下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。一些数据聚类方法采用完全自动化的手段对信息进行管理,但是由于缺乏人工干 预,聚类结果往往不能满足用户的需求。为了解决这个问题,出现了半监督的聚类方法。半 监督的聚类方法通常随机地选取数据样本对提供给用户进行标注,并将用户提供的标注信 息作为数据聚类的约束条件。但是,在这些方法中,由于数据样本是随机选取的,往往会导 致大量的冗余标注信息。另外,由于样本选取的随机性,也容易导致用户标注错误。下面描 述根据本发明的实施例的数据聚类方法。图1示出了根据本发明一个实施例的数据聚类方法的示意性流程图。在该方法中,首先对待处理的数据样本进行初始聚类,然后根据初始聚类的结果 选取一个或多个数据样本作为标注对象供用户标注,从而获得用户输入的标注信息。之后, 将所述标注信息作为约束条件对数据样本进行再次聚类。如图1所示,该数据聚类方法可 包括以下步骤106-112。在步骤106中,对多个数据样本进行初始聚类。为了描述方便,下文中也将这一步 骤称为初始聚类步骤。该初始聚类步骤可以采用任何适当的聚类方法对数据样本进行聚类。在一个示例 中,出于效率的考虑,可以采用K均值(K-means)法。在其他示例中,还可以采用其他聚类 方法,如模糊C均值(Fuzzy C-means)算法、单连接算法(Single Link Algorithm)、完全算 法(CompleteAlgorithm)等等,这里不——列举。通过所述初始聚类步骤,数据样本被聚类成一个或多个初始簇。在步骤108中,根据初始聚类的结果选取所述多个数据样本中的一个或多个,作 为标注对象,用于提供给用户进行标注。这一步骤也称为标注对象选取步骤。可以利用多种方法来选择标注对象。作为一个示例,可以在每个初始簇中随机选 择一个或多个数据样本作为标注对象。在另一示例中,考虑到通常情况下簇的边缘点(即 位于簇的边缘的数据样本)是容易出错的点,因此,可以在每个初始簇中选择距离簇的中心点较远的数据点(数据样本)作为标注对象,从而进一步降低后续步骤中用户标注的出 错概率。 下面给出选择簇的边缘点的一个示例性方法。首先,可利用下面的公式(1)来计 算簇的中心点的向量
权利要求
一种数据聚类方法,包括初始聚类步骤对多个数据样本进行初始聚类;标注对象选取步骤根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤获取针对所述标注对象的标注信息;及二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。
2.根据权利要求1所述的数据聚类方法,其中,所述标注对象选取步骤包括选择在初 始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。
3.根据权利要求1所述的数据聚类方法,其中,所述标注信息获取步骤包括 将所述标注对象提供给用户,以得到用户输入的标注信息。
4.根据权利要求1所述的数据聚类方法,其中,所述多个数据样本是多个文本,并且在 所述初始聚类步骤之前,所述方法还包括向量化步骤根据所述多个文本的语言类别,将所述多个文本中的每一个转换为空间向量表示。
5.根据权利要求4所述的数据聚类方法,其中,在所述向量化步骤之前,所述方法还包括统一编码步骤将所述多个文本转换为统一的编码格式;语言分类步骤统计各文本中的特殊字符,并根据统计结果将所述多个文本分类成至 少两个语言类别。
6.一种数据聚类装置,包括初始聚类模块,用于对多个数据样本进行初始聚类;标注对象选取模块,用于根据初始聚类的结果选取所述多个数据样本中的一个或多个 作为标注对象;标注信息获取模块,用于获取针对所述标注对象的标注信息;及二次聚类模块,用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。
7.根据权利要求6所述的数据聚类装置,其中,所述标注对象选取模块还被配置用于 选择在所述初始聚类模块获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。
8.根据权利要求6所述的数据聚类装置,其中,所述标注信息获取模块还被配置用于 将所述标注对象提供给用户,以得到用户输入的标注信息。
9.根据权利要求6所述的数据聚类装置,其中,所述多个数据样本是多个文本,所述数 据聚类装置还包括向量化模块,用于根据所述多个文本的语言类别,将所述多个文本中的每一个转换为 空间向量表示。
10.根据权利要求9所述的数据聚类装置,还包括统一编码模块,用于将所述多个文本转换为统一的编码格式;及 语言分类模块,用于根据所述统一编码模块输出的经统一编码的文本来统计各文本中的特殊字符,并根据统计结果将所述多个文本分类成至少两个语言类别。
全文摘要
本发明提供了数据聚类方法和装置。所述数据聚类方法可包括初始聚类步骤对多个数据样本进行初始聚类;标注对象选取步骤根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤获取针对所述标注对象的标注信息;及二次聚类步骤将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。
文档编号G06F17/30GK101989289SQ200910161158
公开日2011年3月23日 申请日期2009年8月6日 优先权日2009年8月6日
发明者于浩, 吴科, 夏迎炬 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1