一种网络内容资源评估方法及评估系统的制作方法

文档序号:9929634阅读:617来源:国知局
一种网络内容资源评估方法及评估系统的制作方法
【技术领域】
[0001]本发明涉及互联网信息处理技术领域,尤其是一种网络内容资源评估方法及评估系统。
【背景技术】
[0002]随着互联网技术的不断发展,互联网已成为被广泛使用的媒介,已延伸至社会的各个领域,并逐渐成为信息传播的重要媒介,改变着人们的生产和生活方式、人际交往及思维方式,对社会生活的各个领域和人类自身的生存发展产生了深刻的影响。网络信息内容资源是指互联网、移动网络中的各种信息资源,通过对网络信息内容资源的分析评估,可以了解网络信息传播的动向,从而及时掌握网络舆情动态,但是,现有的网络信息内容评估存在信息量少、信息滞后等问题,不能客观地反应网络舆情动态。

【发明内容】

[0003]本发明提供了一种网络内容资源评估方法及评估系统,用于解决现有技术中信息量少、信息滞后等问题。
[0004]为了解决上述问题,本发明提供一种网络内容资源评估方法,包括如下步骤:
[0005]利用网络爬虫模块有针对性地爬取网络信息数据并将获得的网络信息数据存入数据库;
[0006]对爬取的网络信息数据进行去重、解析并对网络信息数据进行分类;
[0007]根据网络信息数据的类型进行文本分析或指数计算并将结果存入数据库以便于直接从数据库调用分析结果进行展示。
[0008]本发明提供的网络信息内容资源评估方法还包括以下技术步骤:
[0009]进一步地,利用基于scrapy构造的通用web爬虫模块对web网络数据进行爬取,利用微信数据获取模块通过代理服务器对移动客户端数据进行抓取;将获取的网络信息数据存入Mongodb数据库。
[0010]进一步地,所述通过代理服务器对移动客户端数据进行抓取包括:将移动客户端联网设置代理,数据从代理服务器传送到客户端,客户端使用模拟按键来实现自动操作移动客户端,代理服务器在数据传送过程中进行数据包捕获,进而对数据进行过滤与解析,从而获取数据。
[0011]进一步地,所述指数计算包括传播指数计算、收视指数计算和舆情指数计算。
[0012]进一步地,所述文本分析包括文本正负向判断、文本词频统计、关联词统计、文本聚类和文本分类。
[0013]第二方面,本发明提供一种网络内容资源评估系统,包括:
[0014]网络爬虫模块,所述网络爬虫模块用于有针对性地爬取网络信息数据;
[0015]数据库,用于存储所述网络爬虫模块爬取的网络信息数据;
[0016]数据处理模块,用于对网络信息数据进行去重与过滤、数据解析转换以及数据分类;
[0017]指数计算模块和文本分析模块,用于根据网络信息数据的类型进行指数计算或文本分析并将结果存入数据库以便于直接从数据库调用分析结果进行展示。
[0018]本发明提供的网络信息内容资源评估系统还包括以下计算特征:
[0019]进一步地,所述网络爬虫模块包括web爬虫模块和微信数据抓取模块,所述web爬虫模块为基于scrapy构造的通用eb爬虫模块,所述微信数据抓取模块通过代理服务器对移动客户端数据进行抓取。
[0020]进一步地,所述微信数据获取模块包括模拟按键模块、代理服务模块、数据包截取模块,客户端使用模拟按键模块来实现自动操作移动客户端,代理服务模块在数据传送过程中通过数据包截取模块进行数据包捕获,进而对数据进行过滤与解析,从而获取数据。
[0021]进一步地,所述指数计算模块包括传播指数计算模块、收视指数计算模块和舆情指数计算模块。
[0022]进一步地,所述文本分析模块包括文本正负向判断模块、文本词频统计模块、关联词统计模块、文本聚类模块和文本分类模块。
[0023]本发明具有如下有益效果:通过利用网络爬虫模块有针对性地对网络信息数据进行抓取,分别获取web传播数据、社区网站数据、视频网站数据、舆论数据和移动互联网数据,对各种网络信息数据进行去重过滤、数据解析转换以及数据分类,根据网络信息数据的类型进行文本分析或指数计算以获得社会舆论的趋势和走向,数据获取范围广、针对性强,?目息获取和反馈及时。
【附图说明】
[0024]图1为本发明实施例网络内容资源评估系统的结构示意图;
[0025]图2为本发明实施例网络内容资源评估系统的工作流程图;
[0026]图3为本发明实施例中微信数据获取模块的工作状态示意图;
[0027]图4为本发明实施例中文本分析模块的工作流程图。
【具体实施方式】
[0028]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0029]本发明提供一种网络内容资源评估方法,包括如下步骤:
[0030]S100:利用网络爬虫模块有针对性地爬取网络信息数据并将获得的网络信息数据存入数据库;
[0031]S200:对爬取的网络信息数据进行去重、解析并对网络信息数据进行分类;
[0032]S300:根据网络信息数据的类型进行文本分析或指数计算并将结果存入数据库以便于直接从数据库调用分析结果进行展示。
[0033]在上述方法中,网络爬虫模块爬取的网络信息数据包括:1.web传播数据,该数据包括各大新闻门户网站的主要新闻文本资源,比如说网易娱乐、新浪新闻、腾讯新闻等各大门户网站、行业媒体、专业媒体等各类新闻;2.社区网站数据:该数据包括各大社区网站的评论、分析数据,如百度贴吧、豆瓣社区等;3.视频网站数据:该数据包括各大视频网站的节目基本信息、指数信息以及评论文本,如优酷、爱奇艺、芒果tv等;4.舆论数据:该数据主要以微博评论数据为主;5.移动互联网数据:该部分数据主要指pc端无法获取而在移动客户端具有高影响力的信息数据资源,如微信公共平台的文章文本资源。本发明的网络信息内容资源评估方法,通过利用网络爬虫模块有针对性地对网络信息数据进行抓取,分别获取web传播数据、社区网站数据、视频网站数据、舆论数据和.移动互联网数据,对各种网络信息数据进行去重过滤、数据解析转换以及数据分类,根据网络信息数据的类型进行文本分析或指数计算以获得社会舆论的趋势和走向,数据获取范围广、针对性强,信息获取和反馈及时。
[0034]利用爬虫技术将以上资源存入Mongodb数据库,进而对爬取数据进行数据的初步筛选,由于爬取范围广、爬取量大、不可避免的会有许多的重复、冗余数据,所以需要对数据进行过滤、去重等处理,避免垃圾数据影响评价结果。通过初步的处理对数据进行分类,文本型数据参与文本分析处理,文本数据主要包括各数据源的评论文本、新闻文本、分析文本等;指数型数据参与指数计算,指数文本主要有个网站对内容的评价指数,如豆瓣指数、百度指数等以及视频网站的评论量、点赞量,新闻的阅读量、微信文章的转发量等。
[0035]本发明提供的网络信息内容资源评估方法还包括以下技术步骤:
[0036]SI 10:利用基于scrapy构造的通用web爬虫模块对web网络数据进行爬取,利用微信数据获取模块通过代理服务器对移动客户端数据进行抓取;将获取的网络信息数据存入Mongodb数据库。
[0037]Sll 1:所述通过代理服务器对移动客户端数据进行抓取包括:将移动客户端联网设置代理,数据从代理服务器传送到客户端,客户端使用模拟按键来实现自动操作移动客户端,代理服务器在数据传送过程中进行数据包捕获,进而对数据进行过滤与解析,从而获取数据。
[0038]S310:所述指数计算包括传播指数计算、收视指数计算和舆情指数计算。指数计算主包括:1.web传播指数计算,通过统计相关内容资源的新闻报道量而获得;2.微信指数,通过微信公众号的点赞量和阅读量获得;3.舆情指数计算:通过相关贴吧的帖子量以及会员数、豆瓣的指数、视频网站的评论数获得;4收视指数:通过各视频网站的播放量与点赞量获得。
[0039]S320:所述文本分析包括文本正负向判断、文本词频统计、关联词统计、文本聚类和文本分类。其中文本正负向判断,主要用于分析文本的正负向属性,文本属性主要是用于识别用户评论的态度,若用户的态度为积极肯定的,我们则认为该评论是正向的,反之则为负向。文本词频统计主要用于分析文本的词频,将在文本中出现频率较多的词语列出并进行统计。关联词统计主要用于分析文本的关联词,将文本中出现频率较多的相关联的词语列出并进行统计。文本聚类主要用于分析文本的聚类,将文本聚成15类,每类提供一定数量的描述该类的短语。文本分类可将每个文本分配到对应的类别中。
[0040]第二方面,本发明提供一种网络内容资源评估系统,包括:
[0041]网络爬虫模块,网络爬虫模块用于有针对性地爬取网络信息数据;数据库,用于存储所述网络爬虫模块爬取的网络信息数据;数据处理模块,用于对网络信息数据进行去重与过滤、数据解析转换以及数据分类;指数计算模块和文本分析模块,用于根据网络信息数据的类型进行指数计算或文本分析并将结果存入数据库以便于直接从数据库调用分析结果进行展示。
[0042]本发明提供的网络内容资源评估系统还包括以下计算特征:
[0043]网络爬虫模块包括web爬虫模块和微信数据抓取模块,web爬虫模块为基于scrapy构造的通用web爬虫模块,微信数据抓取模块通过代理服务器对移动客户端数据进行抓取。微信数据获取模块包括模拟按键模块、代理服务模块、数据包截取模块,客户端使用模拟按键模块来实现自动操作移动客户端,代理服务模块在数据传送过程中通过数据包截取模块进行数据包捕获,进而对数据进行过滤与解析,从而获取数据。指数计算模块包括传播指数计算模块、收视指数计算模块和舆情指数计算模块。文本分析模块包括关联词分析模块、词频分析模块、文本倾向性分析模块以及文本的聚类和分类模块。
[0044]具体而言,网络爬虫模块中的web爬虫模块为基于scrapy的网络爬虫,具体算法涉及到了图的广度优先搜索和深度优先搜索算法,在对ajax的处理过程中,使用了基于webkit的ghost模块,用于模拟浏览器执行解析js;主要用于对web网络数据的爬取,利用一定的规则,从入口 url选取合适的url开
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1