短文本的聚类方法和系统的制作方法

文档序号:6541532阅读:193来源:国知局
短文本的聚类方法和系统的制作方法
【专利摘要】本发明公开了一种短文本的聚类方法和系统,所述方法包括:获取短文本集中各短文本间的相似度;从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合;判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合;判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。实施本发明的方法和系统,在提高聚类精度的同时,可降低数据信息的丢失率,可反映数据集中各短文本的真实数据信息。
【专利说明】短文本的聚类方法和系统
【技术领域】
[0001]本发明涉及计算机【技术领域】,特别是涉及一种短文本的聚类方法和系统。
【背景技术】
[0002]从短信、微博、论坛和新闻评论等应用中产生的短文本(Short Text),为长度在100个汉字内的文本。针对短文本的信息过滤系统解决文本聚类的问题。目前的聚类技术一般是将相似度高(文本距离小)的文本聚集到一个主题(划分为一类)。
[0003]但是一个短文本中会包含多类的数据信息,仅根据相似度大小,将相似度高的文本划分为一类,会使短文本丢失包含的数据信息,无法反映真实数据的信息。

【发明内容】

[0004]基于此,有必要针对上述聚类技术会会使短文本丢失包含的数据信息的问题,提供一种短文本的聚类方法和系统。
[0005]一种短文本的聚类方法,包括以下步骤:
[0006]获取短文本集中各短文本间的相似度;
[0007]从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;
[0008]判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;
[0009]判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
[0010]一种短文本的聚类系统,包括:
[0011]获取模块,用于获取短文本集中各短文本间的相似度;
[0012]第一查找模块,用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本;
[0013]第二查找模块,用于判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;
[0014]聚类模块,用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
[0015]上述短文本的聚类方法和系统,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。
【专利附图】

【附图说明】
[0016]图1是本发明短文本的聚类方法第一实施方式的流程示意图;
[0017]图2是本发明短文本的聚类方法第二实施方式的流程示意图;
[0018]图3是本发明短文本的聚类系统第一实施方式的结构示意图;
[0019]图4是本发明短文本的聚类系统第二实施方式的结构示意图。
【具体实施方式】[0020]请参阅图1,图1是本发明短文本的聚类方法第一实施方式的流程示意图。
[0021]本实施方式的所述短文本的聚类方法包括以下步骤:
[0022]步骤101,获取短文本集中各短文本间的相似度。
[0023]步骤102,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本。
[0024]步骤103,判断所述第一集合中短文本的数量是否大于0,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本。
[0025]步骤104,判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
[0026]本实施方式所述的短文本的聚类方法,基于各短文本间的相似度,从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值,在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别,通过对比分别与两个短文本相似的短文本集合的重合度来聚类,在提高聚类精度的同时,可进而降低数据信息的丢失率,反映数据集中各短文本的真实数据信息。
[0027]其中,对于步骤101,优选地,可通过短文本中各词语的词频权重计算各短文两两之间的相似度。还可以进一步将所述短文本集中各短文本间的相似度转换为所述短文本集的相似度矩阵。
[0028]在一个实施例中,本发明所述的短文本的聚类方法,在所述获取短文本集中各短文本间的相似度的步骤之前,还包括以下步骤:
[0029]根据停用词词典,去除各短文本中已停用的词语、数字及标点符号,对各短文本中剩余的词语进行同义词语替换。
[0030]通过汉语词法分析系统ICTCLAS分词算法,对同义词语替换后的各短文本进行分
ο
[0031]对分词后的各短文本进行词频统计。
[0032]其中,所述词频统计优选地为统计各个词语在短文本中出现的次数。[0033]在另一个实施例中,所述获取短文本集中各短文本间的相似度的步骤包括以下步骤:
[0034]分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重。
[0035]根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
[0036]其中,优选地,所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤:
[0037]通过以下所述公式计算各词语在各短文本中的权重:
【权利要求】
1.一种短文本的聚类方法,其特征在于,包括以下步骤: 获取短文本集中各短文本间的相似度; 从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本; 判断所述第一集合中短文本的数量是否大于O,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本; 判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
2.根据权利要求1所述的短文本的聚类方法,其特征在于,所述获取短文本集中各短文本间的相似度的步骤包括以下步骤: 分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重; 根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
3.根据权利要求2所述的短文本的聚类方法,其特征在于,所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤: 通过以下所述公式计算各词语在各短文本中的权重:
4.根据权利要求2所述的短文本的聚类方法,其特征在于,所述根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度的步骤包括以下步骤: 通过以下所述公式计算所述短文本集中任意两个短文本的相似度:
5.根据权利要求1所述的短文本的聚类方法,其特征在于,所述将所述待处理短文本与所述待标记短文本划分为同一类别的步骤还包括以下步骤: 判断所述待标记短文本是否已有标记类别; 若是,则将所述待处理短文本与所述待标记短文本已有的标记类别划分为一类; 若否,则将所述待处理短文本与所述待标记短文本划分为一个新的类别。
6.根据权利要求1所述的短文本的聚类方法,其特征在于,所述从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合的步骤包括以下步骤: 分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第一集合。
7.根据权利要求1至6中任意一项所述的短文本的聚类方法,其特征在于,所述从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合的步骤包括以下步骤: 分别从所述短文本集中再次查找与所述第一集合中各个短文本间的相似度大于所述相似度阈值的短文本,生成分别与所述各个短文本对应的第二集合。
8.根据权利要求7所述的短文本的聚类方法,其特征在于,当所述短文本集中所有短文本均已划分类别时,还包括以下步骤: 获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目; 通过以下公式计算用于表征聚类精度的特征值:
9.一种短文本的聚类系统,其特征在于,包括: 获取模块,用于获取短文本集中各短文本间的相似度; 第一查找模块,用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本,生成第一集合,其中,所述待处理短文本为所述短文本集中任意一个短文本; 第二查找模块,用于判断所述第一集合中短文本的数量是否大于O,若是,则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本,生成第二集合,其中,所述待标记短文本为所述第一集合中任意一个短文本;聚类模块,用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值,若超过,则将所述待处理短文本与所述待标记短文本划分为同一类别。
10.根据权利要求9所述的短文本的聚类系统,其特征在于,所述获取模块还用于: 分别对所述短文本集的各短文本中的各词语进行词频统计,并根据各词语的词频统计值计算各词语在各短文本中的权重; 根据各词语在所述短文本集的任意两个短文本中的权重,计算所述任意两个短文本的相似度。
【文档编号】G06F17/30GK103886077SQ201410112525
【公开日】2014年6月25日 申请日期:2014年3月24日 优先权日:2014年3月24日
【发明者】高振华, 杨鹤鸣, 刘俊峰, 梁冠雄, 李炯城, 肖恒辉, 关晓明, 杨若冰 申请人:广东省电信规划设计院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1