一种互联网舆情数据的获取方法及系统的制作方法

文档序号:9911287阅读:589来源:国知局
一种互联网舆情数据的获取方法及系统的制作方法
【技术领域】
[0001]本发明涉及舆情监控技术领域,更具体地说,涉及一种互联网舆情数据的获取方法及系统。
【背景技术】
[0002]随着因特网的飞速发展,网络媒体已成为第四媒体。社会舆情也越来越多在网络里集中爆发,成为反映民间舆论的主要形式之一。网络舆情与生倶来有偏差性(即缺乏规限和监督)、突发性(热点事件加上情绪化意见会成为导火索迅速点燃一片舆论,难以掌控)、直接性(微博、微信、qq群已经成为网民立即发表意见的平台)。但是目前市场上的公共舆情监测系统普遍存在爬虫抓取范围不广、海量数据查询检索效率低下等问题。
[0003]因此,如何高效率的检测范围更广的互联网舆情数据,是本领域技术人员需要解决的问题。

【发明内容】

[0004]本发明的目的在于提供一种互联网舆情数据的获取方法及系统,以实现高效率的检测范围更广的互联网舆情数据。
[0005]为实现上述目的,本发明实施例提供了如下技术方案:
[0006]—种互联网舆情数据的获取方法,包括:
[0007]利用爬虫技术,确定舆情相关度大于预设值的URL队列;
[0008]对所述URL队列中的每一 URL地址进行解析,得到与每一 URL地址对应的页面信息;
[0009]利用Lucene技术,为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件。
[0010]其中,所述利用爬虫技术,确定舆情相关度大于预设值的URL队列,包括:
[0011]确定与目标主题的舆情相关度大于预设值的种子URL地址,并将所述种子URL地址存入所述URL队列;
[0012]获取所述URL队列中的每个种子URL地址的源代码,并提取每个源代码中的所有URL地址,形成URL地址集,并将所述URL地址集存入所述URL队列。
[0013]其中,将所述URL地址集存入所述URL队列之前,还包括:
[0014]判断所述URL地址集中的每个URL地址是否符合预定网页提取规则;
[0015]若符合,则保留;若不符合,则从所述URL地址集中删除。
[0016]其中,所述利用Lucene技术,为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件,包括:
[0017]从每个URL地址对应的页面信息中提取与预设舆情参数相对应的舆情索引关键词信息;其中,所述预设舆情参数至少包括:标题、发布时间、发布者、正文等;
[0018]将所述舆情索引关键词信息整理成规范的结构化数据保存至本地数据库;
[0019]通过Lucene技术,为每个URL地址对应舆情索引关键词信息创建索引文件。
[0020]其中,所述为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件之后,还包括:
[0021]接收用户发送的索引请求;
[0022]利用Lucene技术,解析所述索引请求中的关键词,查找与所述关键词相对应的索引文件,并将查找到的索引文件所对应的URL地址返回给用户。
[0023]一种互联网舆情数据的获取系统,包括:
[0024]URL队列确定模块,用于利用爬虫技术,确定舆情相关度大于预设值的URL队列;
[0025]页面信息解析模块,用于对所述URL队列中的每一URL地址进行解析,得到与每一URL地址对应的页面信息;
[0026]索引文件创建模块,用于利用Lucene技术,为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件。
[0027]其中,所述URL队列确定模块,包括:
[0028]种子URL地址确定单元,用于确定与目标主题的舆情相关度大于预设值的种子URL地址,并将所述种子URL地址存入所述URL队列;
[0029]URL地址集提取单元,用于获取所述URL队列中的每个种子URL地址的源代码,并提取每个源代码中的所有URL地址,形成URL地址集;
[0030]URL地址集添加单元,用于将所述URL地址集存入所述URL队列。
[0031]其中,所述URL队列确定模块,还包括:
[0032]判断单元,用于判断所述URL地址集中的每个URL地址是否符合预定网页提取规则;
[0033]若符合,则保留;若不符合,则从所述URL地址集中删除。
[0034]其中,所述索弓I文件创建模块,包括:
[0035]舆情索引关键词信息提取单元,用于从每个URL地址对应的页面信息中提取与预设舆情参数相对应的舆情索引关键词信息;其中,所述预设舆情参数至少包括:标题、发布时间、发布者、正文等;
[0036]保存单元,用于将所述舆情索引关键词信息整理成规范的结构化数据保存至本地数据库;
[0037]索引文件创建单元,用于通过Lucene技术,为每个URL地址对应舆情索引关键词信息创建索引文件。
[0038]其中,所述获取系统还包括:
[0039]接收模块,用于接收用户发送的索引请求;
[0040]解析模块,用于利用Lucene技术,解析所述索引请求中的关键词,查找与所述关键词相对应的索引文件,并将查找到的索引文件所对应的URL地址返回给用户。
[0041]通过以上方案可知,本发明实施例提供的一种互联网舆情数据的获取方法及系统,包括:利用爬虫技术,确定舆情相关度大于预设值的URL队列;对所述URL队列中的每一URL地址进行解析,得到与每一URL地址对应的页面信息;利用Lucene技术,为每一URL地址对应的页面信息创建与舆情索引关键词信息对应的索引文件;可见,在本实施例中,利用爬虫技术能够获取更多的舆情相关度大于预设值的URL地址,从而剔除了无关网站的URL地址,提高了抓取相关度,缩小网络资源和硬件资源的消耗,并且通过Lucene给每条舆情索引关键词信息自动创建反向索引,增加了检索效率。
【附图说明】
[0042]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本发明实施例公开的一种互联网舆情数据的获取方法;
[0044]图2为本发明实施例公开的一种互联网舆情数据的获取系统。
【具体实施方式】
[0045]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]本发明实施例公开了一种互联网舆情数据的获取方法及系统,以实现高效率的检测范围更广的互联网舆情数据。
[0047]参见图1,本发明实施例提供的一种互联网舆情数据的获取方法,包括:
[0048]S101、利用爬虫技术,确定舆情相关度大于预设值的URL队列;
[0049]其中,所述利用爬虫技术,确定舆情相关度大于预设值的URL队列,包括:
[0050]确定与目标主题的舆情相关度大于预设值的种子URL地址,并将所述种子URL地址存入所述URL队列;
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1