一种基于大数据的信息分析方法

文档序号:9687574阅读:610来源:国知局
一种基于大数据的信息分析方法
【技术领域】
[0001]本发明涉及大数据技术领域,特别涉及一种基于大数据的信息分析方法。
【背景技术】
[0002]随着“大数据”时代的到来,人们对于海量数据的挖掘和运用,这预示着新一波生产率增长和消费者盈余浪潮的到来。大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。随着计算机网络技术的迅猛发展,网络中的数据资源有可能存在亿万级别的潜在或实际的用户,从而能够收集亿万级别的数据。如何统计和运用这些数据,这就涉及到大数据的信息分析技术。
[0003]大数据是一种战略资源,大数据信息分析可以为企业等带来巨大的经济效益。当前,大数据信息分析面临一个重要困难,即如何对大数据信息进行高效的分析是当前急需解决的课题。

【发明内容】

[0004]有鉴于此,本发明的主要目的在于提供一种基于大数据的信息分析方法。
[0005]本发明的技术方案是这样实现的:
[0006]—种基于大数据的信息分析方法,其特征在于,该方法包括以下步骤:
[0007]步骤1:客户端接收用户输入的资源获取请求;
[0008]步骤2:根据所述资源获取请求进行网络搜索,获得大数据资源;
[0009]步骤3:将所述大数据资源发送至内容过滤服务器;
[0010]步骤4:所述内容过滤服务器对所述大数据资源进行过滤;
[0011]步骤5:所述内容过滤服务器将过滤后的大数据资源发送至数据分析服务器;
[0012]步骤6:所述数据分析服务器将下载的过滤后的大数据资源进行大数据分析;
[0013]步骤7:客户端将大数据分析后的大数据资源进行分类存储,并将所述分类存储后的大数据资源形成可视化图表进行展示。
[0014]优选地,所述步骤1中:
[0015]所述资源获取请求包括用户输入的关键词以及用户访问权限;其中,所述用户访问权限分为初级、中级、以及高级。
[0016]优选地,所述步骤2中:
[0017]首先判断所述资源获取请求中的用户访问权限:
[0018]如果所述用户访问权限为初级,则直接利用所述关键词进行搜索;
[0019]如果所述用户访问权限为中级,则通过用户输入的关键词,查询用户的web访问日志和cookie,根据用户的web访问日志和cookie分析用户的搜索习惯,根据用户的搜索习惯对用户输入的关键词进行扩展,获得相应的多个扩展关键词;然后利用所述多个扩展关键词进行搜索;
[0020]如果所述用户访问权限为高级,则对关键词进行热点词扩展,获得多个热点扩展关键词;然后利用所述用户输入的关键词结合所述多个热点扩展关键词进行搜索;
[0021]其中,所述对关键词进行热点词扩展,获得多个热点扩展关键词的过程具体如下:
[0022]通过查询用户的web访问日志,获取用户访问频率大于第一阈值的网页,作为第一热点网页集合;以及
[0023]通过查询用户的cookie,获取用户搜索频率大于第二阈值的关键词所关联的网页,作为第二热点网页集合;
[0024]采用分词工具对所述第一热点网页集合以及第二热点网页集合中的文本进行分词;
[0025]对分词后的文本中的各个词语进行词频统计,将词频大于热点阈值的词语确定为热点扩展关键词。
[0026]优选地,所述步骤4中,所述内容过滤服务器对所述大数据资源中的每个文件执行以下操作:
[0027]步骤4.1:将当前文件分割为若干个大小固定的文件分块,令K表示当前文件中文件分块的总数量;
[0028]步骤4.2:计算当前文件中每个文件分块的熵;
[0029]步骤4.3:计算当前文件中熵低于阈值E的文件分块的数量k;并计算当前文件的评价值s,
[0030]其中,S= k/K;
[0031]步骤4.4:将所述评价值s与过滤阈值T进行比较判断,如果s 2 T,则过滤删除该文件。
[0032]优选地,所述步骤3和5中的数据传输以加密方式进行;其中,加密密钥和/或解密密钥以下述方式生成:
[0033]步骤nl:生成N维随机初始序列;
[0034]步骤n2:将所述N维随机初始序列按比特位取反运算以后追加到该N维随机初始序列之后,形成一个2N维序列;
[0035]步骤n3:将该2N维序列作为加密密钥和/或解密密钥。
[0036]优选地,所述步骤6中,所述数据分析服务器将下载的过滤后的大数据资源进行大数据分析包括对所述大数据资源进行日志分析,具体如下:
[0037]步骤6.1:统计所述大数据资源的数据下载日志中每种错误类型出现的次数;
[0038]步骤6.2:以固定的时间间隔依次判断每种错误类型出现的次数是否大于该种错误类型的允许阈值,如果大于,则报警;
[0039]步骤6.3:以固定的时间间隔判断所有错误类型出现的次数的算术平均值或几何平均值是否大于每种错误类型的允许阈值的算术平均值或几何平均值,如果大于,则报警。
[0040]优选地,所述大数据资源的来源包括新闻评论、聚合新闻、社区网络媒体、QQ群、微信、微博、BBS、论坛、博客、贴吧、电子报刊、新闻移动应用程序中的一种或多种。
[0041]本发明提供的一种基于大数据的信息分析方法,可以对网络中的大数据资源进行内容过滤、分析、以及分类存储,并将所述分类存储后的大数据资源形成可视化图表进行展示,提升了用户体验。
【具体实施方式】
[0042]下面结合具体实施例对本发明的技术方案进一步详细阐述。
[0043]—种基于大数据的信息分析方法,其特征在于,该方法包括以下步骤:
[0044]步骤1:客户端接收用户输入的资源获取请求;
[0045]步骤2:根据所述资源获取请求进行网络搜索,获得大数据资源;
[0046]步骤3:将所述大数据资源发送至内容过滤服务器;
[0047]步骤4:所述内容过滤服务器对所述大数据资源进行过滤;
[0048]步骤5:所述内容过滤服务器将过滤后的大数据资源发送至数据分析服务器;
[0049]步骤6:所述数据分析服务器将下载的过滤后的大数据资源进行大数据分析;
[0050]步骤7:客户端将大数据分析后的大数据资源进行分类存储,并将所述分类存储后的大数据资源形成可视化图表进行展示。
[0051 ] 优选地,所述步骤1中:
[0052]所述资源获取请求包括用户输入的关键词以及用户访问权限;其中,所述用户访问权限分为初级、中级、以及高级。
[0053]优选地,所述步骤2中:
[0054]首先判断所述资源获取请求中的用户访问权限:
[0055]如果所述用户访问权限为初级,则直接利用所述关键词进行搜索;
[0056]如果所述用户访问权限为中级,则通过用户输入的关键词,查询用户的web访问日志和cookie,根据用户的web访问日志和cookie分析用户的搜索习惯,根据用户的搜索习惯对用户输入的关键词进行扩展,获得相应的多个扩展关键词;然后利用所述多个扩展关键词进行搜索;
[0057]如果所述用户访问权限为高级,则对关键词进行热点词扩展,获得多个热点扩展关键词;然后利用所述用户输入的关键词结合所述多个热点扩展关键词进行搜索;
[0058]其中,所述对关键词进行热点词扩展,获得多个热点扩展关键词的过程具体如下:
[0059]通过查询用户的web访问日志,获取用户访问频率大于第一阈值的网页,作为第一热点网页集合;以及
[0060]通过查询用户的cookie,获取用户搜索频率大于第二阈值的关键词所关联的网页,作为第二热点网页集合;
[0061]采用分词
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1