一种突发公共卫生事件互联网文本抽取方法

文档序号:9818315阅读:400来源:国知局
一种突发公共卫生事件互联网文本抽取方法
【技术领域】
[0001]本发明涉及网络信息抓取,特别涉及一种突发公共卫生事件互联网文本抽取方法。
【背景技术】
[0002]突发公共卫生事件是指突然发生,造成或者可能造成社会公众健康严重损害的重大传染病疫情、群体性不明原因疾病、重大食物和职业中毒以及其他严重影响公众健康的事件。突发公共卫生事件是一类特殊的事件,其不仅是医学问题,而且是一个社会问题,它可以衍生为一个复杂的系统。因其拥有的社会群体属性,导致每一次爆发突发公共卫生事件,都会对社会安全和稳定造成较大的影响。所以,能否及时而有效地应对突发公共卫生事件,是检验一个国家执政能力和政府管理水平的重要标志。
[0003]通常而言,突发公共卫生事件由于其社会属性,往往会在社会媒体中快速广泛传播。社会媒体是基于Web2.0的一种允许用户产生和交换信息的应用,多指社区、博客、微博等,是继报纸、广播、电视之后的“第四媒体”。社会媒体和传统媒体最主要的差别是其允许用户自由产生信息,信息源来自用户群体本身,信息源数量庞大,那么同时,信息量也非常丰富,对于社会媒体中文本数据的抽取的准确性和全面性就有着非常高的要求。
[0004]网络爬虫(Webcrawler),或者说是一种网络机器人是一种常见的网络信息收集方式。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
[0005]然而使用网络爬虫收集突发公共卫生事件信息存在不少难题。首先,互联网信息卷帙浩繁,这意味着网络爬虫在一定时间内只能下载有限数量的网页,因此需要优化它的下载方式。其次传统的门户网站爬虫技术不能适应微博等新兴社会媒体,可能会遭到屏蔽。最后,现有的网络爬虫只能下载网页对网络浏览量、转发数等不会记录。
[0006]因此亟需一种新的突发公共卫生事件互联网文本抽取方法来解决这些技术问题。

【发明内容】

[0007]本发明的目的是提供一种对突发公共卫生事件的互联网信息收集效率高,并且可以适用于新兴社会媒体的互联网文本抽取方法。
[0008]该方法包括:筛选作为对突发公共卫生事件信息进行挖掘的社会媒体,对筛选后的社会媒体进行分类,对于不同类别的社会媒体按照不同的方式进行文本抓取,以及将抓取的结果存入数据库。
[0009]优选地,筛选作为对突发公共卫生事件信息进行挖掘的社会媒体是指筛选用户基数大、信息更新及时准确、信息完整透明的媒体。
[0010]对于用户基数这一指标,可以通过获取社会媒体的访问量、用户流量、用户活跃度参数中的一个或多个进行筛选。
[0011]对于信息更新及时准确这一指标,可以通过获取社会媒体的更新频度、更新时间(例如仅对I个小时内有更新的社会媒体进行抽取)、用户等级(例如仅对大V的微博进行抽取)参数中的一个或多个进行筛选。
[0012]对于信息完整透明这一指标,主要是通过排除列表的方式排除一些政府官方网站和可能干扰疫情分析或舆情分析的网站。
[0013]优选地,对筛选后的社会媒体进行分类中至少包括滚动新闻页面、博客页面、微博页面中的一种。
[0014]对于滚动新闻页面的文本抽取步骤具体包括:
[0015]步骤1:开始抓取,并从事先设定好的人工采集的滚动页面url地址池中获取需要抓取的对应URL。
[0016]步骤2:解析URL对应的网页HTML语言,并分条目获取对应的新闻标题和新闻页面URL地址,生成一个URL地址列表。
[0017]步骤3:将URL地址列表存放于URL地址池中,并作去重操作。
[0018]步骤4:获取步骤3中经过去重后新增的URL地址所指向的新闻页面的HTML文本。
[0019]步骤5:对HTML文本进行预处理。包括去除HTML标记和文本编码转换。
[0020]步骤6:获取对应属性值并存入新闻抽取结果数据库。包括定位并提取新闻信息文本、定位并提取网络属性文本、整理文本属性信息并对应存储于数据库中。
[0021]步骤7:对步骤I?6中的运行参数进行记录。参数包括:程序运行时间、休眠等待时间、抓取新闻条数等。
[0022]对于博客页面的文本抽取步骤具体包括:
[0023]步骤1:开始抓取,在程序中输入博客内容的控制筛选信息。例如关键词、排序方式、时间段、关键词位置等。
[0024]步骤2:生成搜索结果页面的URL。这里的结果搜索页面并不是由程序本身产生,而是利用了新浪博客搜索引擎内部的URL参数传递机制规则。用户对于其搜索引擎域名下的某一个URL进行访问对于新浪服务器而言是一个搜索请求。
[0025]步骤3:访问步骤2按照规则生成的搜索结果界面URL,并对搜索结果页面进行抽取,获取页面列表中各个博客对应页面URL。
[0026]步骤4:根据博客页面URL抽取博客页面HTML文本。
[0027]步骤5:对HTML文本进行预处理。包括去除HTML标记和文本编码转换。
[0028]步骤6:获取对应属性值并存入博客抽取结果数据库。包括定位并提取新闻信息文本、定位并提取网络属性文本、整理文本属性信息并对应存储于数据库中。
[0029]步骤7:对步骤I?6中的运行参数进行记录。参数包括:程序运行时间、休眠等待时间、抓取博客条数等。
[0030]对于微博页面的文本抽取步骤具体包括:
[0031]步骤1:开始抓取,在程序中输入微博内容的控制筛选信息。例如关键词、排序方式、时间段、关键词位置等。
[0032]步骤2:根据筛选信息的值,按照微博的URL生成规则,生成对应URL。
[0033]步骤3:模拟登录
[0034]步骤4:访问步骤2按照规则生成的搜索结果界面URL,并对搜索结果页面进行抽取,获得微博搜索页面的源代码。
[0035]步骤5:对HTML文本进行预处理。包括去除HTML标记和文本编码转换。
[0036]步骤6:获取对应属性值并存入微博抽取结果数据库。包括定位并提取微博信息文本、定位并提取网络属性文本、整理文本属性信息并对应存储于数据库中。
[0037 ] 步骤7:对步骤I?6中的运行参数进行记录。参数包括:程序运行时间、休眠等待时间、抓取微博条数等。
[0038]其中,在模拟登录步骤中使用Google Chrome自带的浏览器工具获得Cookie值,通过附带该Cookie值的请求获得所需页面数据。
[0039]其中,在模拟登录步骤中使用多个账号Cookie值进行轮流访问。
[0040]通过本发明的上述方法,由于针对突发公共卫生事件网络传播的特点,优化了信息挖掘过程中对社会媒体的选择,并针对不同社会媒体的特点制定了相应的文本抓取策略,从而能够高效地对社会媒体中的突发公共卫生事件进行收集。
【附图说明】
[0041 ]图1是本发明的方法流程图;
[0042]图2是滚动新闻页面的文本抽取流程图;
[0043]图3是博客页面的文本抽取流程图;
[0044]图4是微博页面的文本抽取流程图。
【具体实施方式】
[0045]下面结合附图对本发明的【具体实施方式】作进一步说明,但不作为对本发明的限定。在以下的说明中选取H7N9为目标公共卫生事件作为例子进行说明。
[0046]社会媒体和传统媒体最主要的差别是其允许用户自由产生信息,信息源来自用户群体本身,信息源数量庞大,同时信息量也非常丰富,时效性也更高,能够更好地反映出疫情变化和舆情的变化。然而面对这样庞大的信息源,我们发现如果不加筛选全部收集,将会导致系统资源消耗巨大,后续的信息分析处理系统也会不堪重负。因此本发明考虑到突发公共卫生事件相关信息抽取的目的是主要是为了疫情预警以及舆情监控,因此必须保证被抽取的社会媒体有以下特点:
[0047]用户基数大
[0048]用户基数大反映了该社会媒体信息来源丰富、全面,有着较好的参考价值,同时用户数量大的社会媒体往往供采集的数据量也大,可以减少不同社会媒体的切换,这使得采集过程中的效率更高。
[0049]信息更新及时准确
[0050]信息的及时更新有利于分析结果在第一时间得出,而信息的准确性则大大提高了结果的准确度,以H7N9流感疫情为例,及时而准确的数据更新能够使爬虫第一时间获得新的疫情数据,使得分析结果较快得出,从而能够帮助决策者提供第一时间的决策依据。
[0051 ] 信息完整透明
[0052]媒体平台允许普通用户浏览所有用户发布的信息。例如,新浪微博,任意一个普通用户能够有权限浏览任何一个用户发布的公开
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1