基于微博大数据获取网络服务状态的方法

文档序号:9471942阅读:562来源:国知局
基于微博大数据获取网络服务状态的方法
【技术领域】
[0001]本发明涉及大数据和SVM(Support Vector Machine,支持向量机)分类器领域,具体涉及基于微博大数据获取网络服务状态的方法。
【背景技术】
[0002]随着电信网络的不断发展和普及,网络的复杂度不断增加,产生了惊人的数据量,基于DDN(Data Driven Network,数据驱动网络)利用大数据技术来分析网络大数据并发现其中所暗含的线索和规律,帮助人们感知和预测网络服务状态。
[0003]网络大数据按照数据类型可分为自媒体数据、日志数据和富媒体数据三类,微博作为一种自媒体数据,其发布内容简洁,表达信息明确,具有及时性,近年来成为了最热门的新型社交媒体和信息交流平台,产生了海量的数据。新浪微博数据中心发布的2014年用户发展报告显示,截止2014年9月30日,新浪微博MAU (monthly active users,月活跃用户数)已经达到1.67亿人,日活跃用户也已经达到7660人,每秒钟数以千计的新微博发布数量,是人们交流信息的一种重要体现。
[0004]然而,这三种类型的网络大数据规模巨大、分布广泛、动态演变、模态多样、关联复杂、真伪难辨等一系列特性为将其应用于网络服务状态的获取带来了数据复杂性的挑战。
[0005]因此,急需一种缩小网络大数据规模、降低网络大数据复杂度的获取网络服务状态的方法。

【发明内容】

[0006]本发明所要解决的技术问题是现有的网络大数据规模巨大,应用于获取网络服务状态时复杂度较高的问题。
[0007]为了解决上述技术问题,本发明所采用的技术方案是提供一种基于微博大数据获取网络服务状态的方法,包括以下步骤:
[0008]步骤Al:获取微博数据集中的一部分微博数据作为训练数据集,获取微博数据集中的剩余微博数据作为测试数据集,对训练数据集和测试数据集分别进行预处理;
[0009]步骤A2:对训练数据集中的训练数据进行分类标记、初始化操作、分词处理和停词处理,对训练数据集进行特征选择并获得特征词项字典,由特征词项字典生成训练数据的特征向量,并获得训练数据集的特征向量集,对特征向量集进行训练获得SVM分类器;
[0010]步骤A3:对测试数据集中的测试数据进行预分类以及对预分类失败的测试数据进行初始化操作、分词处理和停词处理,根据上述特征词项字典生成预分类失败的测试数据的特征向量,并获得预分类失败的测试数据的特征向量集,通过上述SVM分类器对预分类失败的测试数据进行分类得到分类结果,并将分类结果与预分类的结果综合,得到最终的分类结果。
[0011]在上述技术方案中,步骤A2具体包括以下步骤:
[0012]步骤A21:对预处理后的所述训练数据集中的所述训练数据进行分类标记;
[0013]步骤A22:对经过分类标记的所述训练数据进行初始化操作;
[0014]步骤A23:使用分词工具对经过初始化操作的所述训练数据进行分词处理,得到所述训练数据集的微博文本词项集;
[0015]步骤A24:使用停用词典,对所述训练数据集的微博文本词项集进行停词处理,得到所述训练数据集的微博文本原始特征词项集;
[0016]步骤A25:对所述微博文本原始特征词项集进行特征选择,得到所述训练数据集的特征词项字典;
[0017]步骤A26:根据所述特征词项字典生成所述训练数据的特征向量,得到所述训练数据集的特征向量集;
[0018]步骤A27:使用Libsvm构建分类器,输入所述特征向量集,通过对所述特征向量集的训练,得到所述SVM分类器。
[0019]在上述技术方案中,步骤A3具体包括以下步骤:
[0020]步骤A31:由所述训练数据集获取预置关键词库;
[0021]步骤A32:使用所述预置关键词库对所述测试数据集中的所述测试数据进行预分类,得到预分类结果;
[0022]步骤A33:对所述预分类失败的测试数据进行初始化操作;
[0023]步骤A34:使用分词工具对所述预分类失败的测试数据进行分词处理,得到所述预分类失败的测试数据的微博文本词项集;
[0024]步骤A35:使用停用词典,对所述预分类失败的测试数据的微博文本词项集进行停词处理,得到所述预分类失败的测试数据的微博文本原始特征词项集;
[0025]步骤A36:根据所述特征词项字典生成所述预分类失败的测试数据的特征向量,并得到其特征向量集;
[0026]步骤A37:通过所述SVM分类器对所述预分类失败的测试数据进行分类,将分类结果与所述预分类结果综合,得到最终的分类结果。
[0027]在上述技术方案中,在步骤A21中,将所述训练数据标记为网络服务状态类或非网络服务状态类。
[0028]在上述技术方案中,步骤A25主要包括以下步骤:
[0029]根据所述微博文本原始特征词项集中每个微博文本原始特征词项在所述训练数据的各类别中出现的频率对所述微博文本原始特征词项进行排序,保留出现频率高的前N个所述微博文本原始特征词项作为所述特征词项字典,所述特征词项字典按照所述微博文本原始特征词项的出现频率由高到低排序,其中N = 1000。
[0030]在上述技术方案中,步骤A31具体包括以下步骤:
[0031]步骤A311:按照所述训练数据的类别提取所述训练数据集中的每两个符号之间的文本内容,并对所述文本内容进行分词处理,然后分别统计分词处理所得微博文本原始特征词项的词频,并将微博文本原始特征词项按词频降序排列;
[0032]步骤A312:从所述训练数据的类别中词频最高的微博文本原始特征词项开始,依次检查微博文本原始特征词项是否在其它类别中出现过,若该微博文本原始特征词项在其它类别中出现的次数占所述训练数据集的比例小于等于1%,则将该微博文本原始特征词项选取为该类别的预置关键词,统计完后,得到预置关键词库。
[0033]在上述技术方案中,步骤A32具体包括以下步骤:
[0034]步骤A321:提取所述测试数据集中的所述测试数据中每两个“#”符号之间的文本内容,并对文本内容进行分词处理,将分词处理所得微博文本原始特征词项与所述预置关键词库相比较,判断各微博文本原始特征词项所属类别,统计各微博文本原始特征词项在各类别中出现的频度;
[0035]步骤A322:若属于某个类别的微博文本原始特征词项频度最大,则认为该微博文本原始特征词项所属的测试数据属于该类别,其它情况则通过所述SVM分类器对所述测试数据进行分类。
[0036]在上述技术方案中,步骤A26具体包括以下步骤:
[0037]步骤A261:将所述微博文本原始特征词项集中的每个微博文本原始特征词项与所述特征词项字典进行比较;
[0038]步骤A262:若所述微博文本原始特征词项在所述特征词项字典中,则采用TF-1DF算法计算所述微博文本原始特征词项在所述训练数据中的特征值;若所述微博文本原始特征词项不在所述特征词项字典中,则忽略所述微博文本原始特征词项;若所述特征词项字典中的词项没有出现在所述微博文本原始特征词项集中,则所述词项的特征值为零。
[0039]在上述技术方案中,所述预处理即删除无意义微博,所述无意义微博包括垃圾微博文本和广告营销微博文本。
[0040]在上述技术方案中
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1