基于微博大数据获取网络服务状态的方法_3

文档序号:9471942阅读:来源:国知局
施例中采用TF-1DF算法来生成特征向量,主要做法是先将测试数据集中预分类失败的测试数据的微博文本原始特征词项集中的每个微博文本原始特征词项与特征词项字典进行比较,若该微博文本原始特征词项在特征词项字典中,则采用TF-1DF算法计算该微博文本原始特征词项在对应训练数据中的特征值;若该微博文本原始特征词项不在特征词项字典中,则忽略该博文本原始特征词项;若某特征词项字典中的词项没有出现在微博文本原始特征词项集中,则该词项的特征值为O。在本实施例中,每条微博的微博文本数据被转换成一个维度为1000的特征向量。
[0079]步骤S18、通过SVM分类器对经过特征向量化的预分类失败的测试数据进行自动分类,将分类结果与预分类结果综合,获取最后的分类结果。
[0080]本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下作出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
【主权项】
1.基于微博大数据获取网络服务状态的方法,其特征在于,包括以下步骤: 步骤Al:获取微博数据集中的一部分微博数据作为训练数据集,获取微博数据集中的剩余微博数据作为测试数据集,对训练数据集和测试数据集分别进行预处理; 步骤A2:对训练数据集中的训练数据进行分类标记、初始化操作、分词处理和停词处理,对训练数据集进行特征选择并获得特征词项字典,由特征词项字典生成训练数据的特征向量,并获得训练数据集的特征向量集,对特征向量集进行训练获得SVM分类器; 步骤A3:对测试数据集中的测试数据进行预分类以及对预分类失败的测试数据进行初始化操作、分词处理和停词处理,根据上述特征词项字典生成预分类失败的测试数据的特征向量,并获得预分类失败的测试数据的特征向量集,通过上述SVM分类器对预分类失败的测试数据进行分类得到分类结果,并将分类结果与预分类的结果综合,得到最终的分类结果。2.如权利要求1所述的方法,其特征在于,步骤A2具体包括以下步骤: 步骤A21:对预处理后的所述训练数据集中的所述训练数据进行分类标记; 步骤A22:对经过分类标记的所述训练数据进行初始化操作; 步骤A23:使用分词工具对经过初始化操作的所述训练数据进行分词处理,得到所述训练数据集的微博文本词项集; 步骤A24:使用停用词典,对所述训练数据集的微博文本词项集进行停词处理,得到所述训练数据集的微博文本原始特征词项集; 步骤A25:对所述微博文本原始特征词项集进行特征选择,得到所述训练数据集的特征词项字典; 步骤A26:根据所述特征词项字典生成所述训练数据的特征向量,得到所述训练数据集的特征向量集; 步骤A27:使用Libsvm构建分类器,输入所述特征向量集,通过对所述特征向量集的训练,得到所述SVM分类器。3.如权利要求1所述的方法,其特征在于,步骤A3具体包括以下步骤: 步骤A31:由所述训练数据集获取预置关键词库; 步骤A32:使用所述预置关键词库对所述测试数据集中的所述测试数据进行预分类,得到预分类结果; 步骤A33:对所述预分类失败的测试数据进行初始化操作; 步骤A34:使用分词工具对所述预分类失败的测试数据进行分词处理,得到所述预分类失败的测试数据的微博文本词项集; 步骤A35:使用停用词典,对所述预分类失败的测试数据的微博文本词项集进行停词处理,得到所述预分类失败的测试数据的微博文本原始特征词项集; 步骤A36:根据所述特征词项字典生成所述预分类失败的测试数据的特征向量,并得到其特征向量集; 步骤A37:通过所述SVM分类器对所述预分类失败的测试数据进行分类,将分类结果与所述预分类结果综合,得到最终的分类结果。4.如权利要求2所述的方法,其特征在于,在步骤A21中,将所述训练数据标记为网络服务状态类或非网络服务状态类。5.如权利要求2所述的方法,其特征在于,步骤A25主要包括以下步骤: 根据所述微博文本原始特征词项集中每个微博文本原始特征词项在所述训练数据的各类别中出现的频率对所述微博文本原始特征词项进行排序,保留出现频率高的前N个所述微博文本原始特征词项作为所述特征词项字典,所述特征词项字典按照所述微博文本原始特征词项的出现频率由高到低排序,其中N = 1000。6.如权利要求3所述的方法,其特征在于,步骤A31具体包括以下步骤: 步骤A311:按照所述训练数据的类别提取所述训练数据集中的每两个“#”符号之间的文本内容,并对所述文本内容进行分词处理,然后分别统计分词处理所得微博文本原始特征词项的词频,并将微博文本原始特征词项按词频降序排列; 步骤A312:从所述训练数据的类别中词频最高的微博文本原始特征词项开始,依次检查微博文本原始特征词项是否在其它类别中出现过,若该微博文本原始特征词项在其它类别中出现的次数占所述训练数据集的比例小于等于1%,则将该微博文本原始特征词项选取为该类别的预置关键词,统计完后,得到预置关键词库。7.如权利要求3所述的方法,其特征在于,步骤A32具体包括以下步骤: 步骤A321:提取所述测试数据集中的所述测试数据中每两个“#”符号之间的文本内容,并对文本内容进行分词处理,将分词处理所得微博文本原始特征词项与所述预置关键词库相比较,判断各微博文本原始特征词项所属类别,统计各微博文本原始特征词项在各类别中出现的频度; 步骤A322:若属于某个类别的微博文本原始特征词项频度最大,则认为该微博文本原始特征词项所属的测试数据属于该类别,其它情况则通过所述SVM分类器对所述测试数据进行分类。8.如权利要求2所述的方法,其特征在于,步骤A26具体包括以下步骤: 步骤A261:将所述微博文本原始特征词项集中的每个微博文本原始特征词项与所述特征词项字典进行比较; 步骤A262:若所述微博文本原始特征词项在所述特征词项字典中,则采用TF-1DF算法计算所述微博文本原始特征词项在所述训练数据中的特征值;若所述微博文本原始特征词项不在所述特征词项字典中,则忽略所述微博文本原始特征词项;若所述特征词项字典中的词项没有出现在所述微博文本原始特征词项集中,则所述词项的特征值为零。9.如权利要求1所述的方法,其特征在于,所述预处理即删除无意义微博,所述无意义微博包括垃圾微博文本和广告营销微博文本。10.如权利要求1所述的方法,其特征在于,所述初始化操作和对所述预分类失败的测试数据的初始化操作包括:删除话题标签、去除文本信息中的标点符号以及非中文字符。
【专利摘要】本发明公开了基于微博大数据获取网络服务状态的方法,包括:将微博数据集的部分微博作为训练数据集,剩余微博作为测试数据集,对训练数据集和测试数据集进行预处理;对训练数据进行标记、初始化操作、分词和停词处理,对训练数据集进行特征选择获得特征词项字典,由特征词项字典生成特征向量,获得特征向量集,对特征向量集进行训练获得SVM分类器;获取预置关键词库,对测试数据进行预分类以及对预分类失败的测试数据的初始化操作、分词和停词,根据特征词项字典生成预分类失败的测试数据的特征向量,获得特征向量集,通过SVM分类器进行分类得到分类结果,将分类结果与预分类结果综合。本发明,有效地降低了网络大数据的规模和网络大数据的复杂度。
【IPC分类】G06F17/30, G06K9/62
【公开号】CN105224955
【申请号】CN201510676163
【发明人】许德玮, 郝俊瑞, 向智宇, 郭嘉
【申请人】武汉邮电科学研究院
【公开日】2016年1月6日
【申请日】2015年10月16日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1