一种基于大数据的信息分析方法_2

文档序号：9687574阅读：来源：国知局

工具对所述第一热点网页集合以及第二热点网页集合中的文本进行分词；
[0062]对分词后的文本中的各个词语进行词频统计，将词频大于热点阈值的词语确定为热点扩展关键词。
[0063]在本发明中，通过信息理论的基本原理对大数据资源中的文件进行安全性判断。
[0064]—般而言，当一种信息出现概率更高的时候，表明它被传播得更广泛。从信息传播的角度来看，信息熵可以表示信息的价值，实际上就是平均信息量。高信息量(有可能是嵌入了病毒)的信息熵是很低的，而低信息量(正常的文件)的熵则高。
[0065]在本发明中，采用将文件分块处理的方式计算信息熵，再总体统计分析判断。因为，如果某个文件块的信息熵不正常地偏高，说明这个文件分块可能感染了病毒或恶意代码。进一步，若一个文件中这类信息熵偏高的数据块频繁出现，则很可能该文件被病毒所感染，这样的文件应该被过滤删除。
[0066]优选地，所述步骤4中，所述内容过滤服务器对所述大数据资源中的每个文件执行以下操作:
[0067]步骤4.1:将当前文件分割为若干个大小固定的文件分块，令K表示当前文件中文件分块的总数量；
[0068]步骤4.2:计算当前文件中每个文件分块的熵；
[0069]步骤4.3:计算当前文件中熵低于阈值E的文件分块的数量k;并计算当前文件的评价值s，
[0070]其中，S= k/K;
[0071]步骤4.4:将所述评价值s与过滤阈值T进行比较判断，如果s 2 T，则过滤删除该文件。
[0072]优选地，所述步骤3和5中的数据传输以加密方式进行;其中，加密密钥和/或解密密钥以下述方式生成:
[0073]步骤nl:生成N维随机初始序列；
[0074]步骤n2:将所述N维随机初始序列按比特位取反运算以后追加到该N维随机初始序列之后，形成一个2N维序列；
[0075]步骤n3:将该2N维序列作为加密密钥和/或解密密钥。
[0076]优选地，所述步骤6中，所述数据分析服务器将下载的过滤后的大数据资源进行大数据分析包括对所述大数据资源进行日志分析，具体如下:
[0077]步骤6.1:统计所述大数据资源的数据下载日志中每种错误类型出现的次数；
[0078]步骤6.2:以固定的时间间隔依次判断每种错误类型出现的次数是否大于该种错误类型的允许阈值，如果大于，则报警；
[0079]步骤6.3:以固定的时间间隔判断所有错误类型出现的次数的算术平均值或几何平均值是否大于每种错误类型的允许阈值的算术平均值或几何平均值，如果大于，则报警。
[0080]优选地，所述大数据资源的来源包括新闻评论、聚合新闻、社区网络媒体、QQ群、微信、微博、BBS、论坛、博客、贴吧、电子报刊、新闻移动应用程序中的一种或多种。
[0081]以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。
[0082]尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。
【主权项】
1.一种基于大数据的信息分析方法，其特征在于，该方法包括以下步骤: 步骤1:客户端接收用户输入的资源获取请求；步骤2:根据所述资源获取请求进行网络搜索，获得大数据资源；步骤3:将所述大数据资源发送至内容过滤服务器；步骤4:所述内容过滤服务器对所述大数据资源进行过滤；步骤5:所述内容过滤服务器将过滤后的大数据资源发送至数据分析服务器；步骤6:所述数据分析服务器将下载的过滤后的大数据资源进行大数据分析；步骤7:客户端将大数据分析后的大数据资源进行分类存储，并将所述分类存储后的大数据资源形成可视化图表进行展示。2.根据权利要求1所述的基于大数据的信息分析方法，其特征在于，所述步骤1中: 所述资源获取请求包括用户输入的关键词以及用户访问权限；其中，所述用户访问权限分为初级、中级、以及高级。3.根据权利要求2所述的基于大数据的信息分析方法，其特征在于，所述步骤2中: 首先判断所述资源获取请求中的用户访问权限: 如果所述用户访问权限为初级，则直接利用所述关键词进行搜索；如果所述用户访问权限为中级，则通过用户输入的关键词，查询用户的web访问日志和cookie，根据用户的web访问日志和cookie分析用户的搜索习惯，根据用户的搜索习惯对用户输入的关键词进行扩展，获得相应的多个扩展关键词;然后利用所述多个扩展关键词进行搜索；如果所述用户访问权限为高级，则对关键词进行热点词扩展，获得多个热点扩展关键词;然后利用所述用户输入的关键词结合所述多个热点扩展关键词进行搜索；其中，所述对关键词进行热点词扩展，获得多个热点扩展关键词的过程具体如下: 通过查询用户的web访问日志，获取用户访问频率大于第一阈值的网页，作为第一热点网页集合；以及通过查询用户的cookie，获取用户搜索频率大于第二阈值的关键词所关联的网页，作为第二热点网页集合；采用分词工具对所述第一热点网页集合以及第二热点网页集合中的文本进行分词；对分词后的文本中的各个词语进行词频统计，将词频大于热点阈值的词语确定为热点扩展关键词。4.根据权利要求3所述的基于大数据的信息分析方法，其特征在于，所述步骤4中，所述内容过滤服务器对所述大数据资源中的每个文件执行以下操作: 步骤4.1:将当前文件分割为若干个大小固定的文件分块，令K表示当前文件中文件分块的总数量；步骤4.2:计算当前文件中每个文件分块的熵；步骤4.3:计算当前文件中熵低于阈值E的文件分块的数量k;并计算当前文件的评价值s, 其中，s = k/K; 步骤4.4:将所述评价值s与过滤阈值T进行比较判断，如果s 2 T，则过滤删除该文件。5.根据权利要求4所述的基于大数据的信息分析方法，其特征在于，所述步骤3和5中的数据传输以加密方式进行;其中，加密密钥和/或解密密钥以下述方式生成: 步骤nl:生成N维随机初始序列；步骤n2:将所述N维随机初始序列按比特位取反运算以后追加到该N维随机初始序列之后，形成一个2N维序列；步骤n3:将该2N维序列作为加密密钥和/或解密密钥。6.根据权利要求5所述的基于大数据的信息分析方法，其特征在于，所述步骤6中，所述数据分析服务器将下载的过滤后的大数据资源进行大数据分析包括对所述大数据资源进行日志分析，具体如下: 步骤6.1:统计所述大数据资源的数据下载日志中每种错误类型出现的次数；步骤6.2:以固定的时间间隔依次判断每种错误类型出现的次数是否大于该种错误类型的允许阈值，如果大于，则报警；步骤6.3:以固定的时间间隔判断所有错误类型出现的次数的算术平均值或几何平均值是否大于每种错误类型的允许阈值的算术平均值或几何平均值，如果大于，则报警。7.根据权利要求6所述的基于大数据的信息分析方法，其特征在于，所述大数据资源的来源包括新闻评论、聚合新闻、社区网络媒体、QQ群、微信、微博、BBS、论坛、博客、贴吧、电子报刊、新闻移动应用程序中的一种或多种。
【专利摘要】本发明公开了一种基于大数据的信息分析方法。首先，根据客户端接收的用户输入的资源获取请求进行网络搜索，获得大数据资源；然后，通过内容过滤服务器对大数据资源过滤，将过滤后的大数据资源发送至数据分析服务器进行大数据分析；最后，将大数据分析后的大数据资源进行分类存储，形成可视化图表进行展示。本发明的方法可以实现网络中的大数据资源进行内容过滤、分析、分类存储以及可视化展示，提升了用户体验。
【IPC分类】G06F21/45, G06F17/30
【公开号】CN105447113
【申请号】CN201510781283
【发明人】毛力
【申请人】四川九成信息技术有限公司
【公开日】2016年3月30日
【申请日】2015年11月13日

完整全部详细技术资料下载

当前第2页1 2