基于微博大数据获取网络服务状态的方法_2

文档序号：9471942阅读：来源：国知局

，所述初始化操作和对所述预分类失败的测试数据的初始化操作包括:删除话题标签、去除文本信息中的标点符号以及非中文字符。
[0041]本发明，采用监督机器学习方法，在网络服务终端发生故障时和网络正常操作时收集微博数据来作为训练数据，利用训练数据基于SVM构造一个分类器，采用分类器实时检测微博中与网络服务终端相关的信息，有效地降低了网络大数据的规模和网络大数据的复杂度。
【附图说明】
[0042]图1为本发明实施例提供的基于微博大数据获取网络服务状态的方法流程图；
[0043]图2为本发明实施例提供的基于微博大数据获取网络服务状态的框架图。
【具体实施方式】
[0044]下面结合说明书附图和【具体实施方式】对本发明做出详细的说明。
[0045]本发明实施例提供了一种基于微博大数据获取网络服务状态的方法，如图1和图2所示，该方法包括以下步骤:
[0046]步骤S1、随机获取微博数据集中的一小部分微博数据作为训练数据集。
[0047]本实施例中，所采集的微博数据集有上百万条微博，可随机获取其中的几千条作为训练数据集。
[0048]步骤S2、对训练数据集进行预处理，即删除无意义微博。
[0049]其中，无意义微博包括垃圾微博文本和广告营销微博文本，本实施例中所用到的删除无意义微博算法是参考贝叶斯垃圾邮件过滤算法设计的，主要做法是构建无意义微博词库，设置门槛值为0.9，当计算出一条微博数据的概率值大于等于0.9时，则判断该条微博数据无意义。
[0050]步骤S3、对预处理后的训练数据集中的每条训练数据进行分类标记。
[0051]在本实施例中，分类标记时可按实际需求进行分类，由5位工作人员对训练数据集中的所有训练数据同时进行标记，标记为网络服务状态类或非网络服务状态类，统计标记结果后，根据每条训练数据标记类别的多寡，确定其最终类别。
[0052]步骤S4、对经过标记的每条训练数据进行初始化操作，删除训练数据中的话题标签。
[0053]即删除“#”符号和两个符号中间的文本内容，同时对训练数据中的文本信息去除标点符号和去除非中文字符。
[0054]步骤S5、使用分词工具对经过初始化操作的每条训练数据进行分词处理，获得训练数据集的微博文本词项集。
[0055]其中，比较常见的分词工具有ICTCLAS(Institute of ComputingTechnology, Chinese Lexical Analysis System，计算技术研究所，汉语词法分析系统)和IK Analyzer (IK分词器)等，在本实施例中分词处理采用的是ICTCLAS分词工具。
[0056]步骤S6、使用停用词典，对训练数据集的微博文本词项集进行停词处理，获取训练数据集的微博文本原始特征词项集。
[0057]停词处理包括去除微博文本词项集中没有实义的字或词，如“的”、“了”、“不但”、“而且”等，此外还包括一些生僻字和特殊符号。
[0058]步骤S7、对训练数据集的微博文本原始特征词项集进行特征选择，得到特征词项字典。
[0059]特征选择的方法包括DF (Document Frequency,文档频率)、IG (Informat1nGain,信息增益)、MI (Mutual Informat1n,互信息)和CHI (开方拟合检验)等，在本实施例中，采用算法简单且质量高的DF方法进行特征选择，主要做法是根据微博文本原始特征词项集中每个微博文本原始特征词项在训练数据的各类别中出现的频率对微博文本原始特征词项进行排序，保留出现频率高的前N个微博文本原始特征词项作为特征词项字典，该特征词项字典按照微博文本原始特征词项的出现频率由高到低排列，本实施例中N设定为 1000
[0060]步骤S8、根据特征词项字典生成训练数据集中每条训练数据的特征向量，得到训练数据集的特征向量集。
[0061]目前，生成特征向量比较常用的方法是基于TF-1DF(Term Frequency -1nverseDocument Frequency，词频-逆向文件频率)和基于 TF-RF(Term Frequency - RelatedFrequency，词频-相关频率)的传统特征权重算法，在本实施例中，采用的是TF-1DF算法，主要做法是先将微博文本原始特征词项集中的每个微博文本原始特征词项与特征词项字典进行比较，若该微博文本原始特征词项在特征词项字典中，则采用TF-1DF算法计算该微博文本原始特征词项在对应训练数据中的特征值；若该微博文本原始特征词项不在特征词项字典中，则忽略该微博文本原始特征词项；若某特征词项字典中的微博文本原始特征词项没有出现在微博文本原始特征词项集中，则该微博文本原始特征词项的特征值为O。在本实施例中，每条微博的微博文本数据被转换成一个维度为1000的特征向量。
[0062]步骤S9、使用Libsvm构建分类器，输入训练数据集的特征向量集，通过对特征向量集的训练，得到SVM分类器。
[0063]步骤S10、由训练数据集获取预置关键词库。
[0064]包括以下几步:
[0065]a、按照训练数据的类别提取训练数据集中的每两个符号之间的文本内容，并对文本内容进行分词处理，然后分别统计分词处理所得微博文本原始特征词项的词频，并将微博文本原始特征词项按词频降序排列；
[0066]b、从每个训练数据的类别中词频最高的微博文本原始特征词项开始，依次检查微博文本原始特征词项是否在其它类别中出现过，若该微博文本原始特征词项在其它类别中出现的次数占训练数据集的比例小于等于1%，则将该微博文本原始特征词项选取为该类别的预置关键词，统计完后，得到预置关键词库。
[0067]步骤S11、获取微博数据集中的剩余微博数据作为测试数据集。
[0068]步骤S12、对测试数据集进行预处理，删除无意义微博。
[0069]步骤S13、使用预置关键词库对测试数据集中的测试数据进行预分类，得到预分类结果。
[0070]包括以下几步:
[0071 ] a、提取测试数据集中的测试数据中每两个“#”符号之间的文本内容，并对文本内容进行分词处理，将分词处理所得微博文本原始特征词项与预置关键词库相比较，判断各微博文本原始特征词项所属类别，统计各微博文本原始特征词项在各类别中出现的频度；
[0072]b、若属于某个类别的微博文本原始特征词项频度最大，则认为该微博文本原始特征词项所属的测试数据属于该类别，其它情况则通过SVM分类器对测试数据进行分类。
[0073]步骤S14、对预分类失败的测试数据进行初始化操作，删除测试数据中的话题标签。
[0074]步骤S15、使用分词工具对经过初始化操作的预分类失败的测试数据进行分词处理，得到预分类失败的测试数据的微博文本词项集。
[0075]步骤S16、使用停用词典，对预分类失败的测试数据的微博文本词项集进行停词处理，得到预分类失败的测试数据的微博文本原始特征词项集。
[0076]停词处理包括去除预分类失败的测试数据的微博文本词项集中没有实义的字或词，如“的”、“ 了 ”、“不但”、“而且”等，此外还有一些生僻字和特殊符号。
[0077]步骤S17、根据特征词项字典生成预分类失败的测试数据的特征向量，并得到其特征向量集。
[0078]在本实

完整全部详细技术资料下载

当前第2页1 2 3