互联网案例信息提取方法及装置的制造方法

文档序号:10569917阅读:164来源:国知局
互联网案例信息提取方法及装置的制造方法
【专利摘要】本发明公开了一种互联网案例信息提取方法及装置,涉及互联网技术领域,所述方法包括:抓取预设网站中的各目标网页;根据预设模板从各目标网页中获取网页内容;从所述网页内容中提取案例信息。本发明通过抓取预设网站中的各目标网页,根据预设模板从各目标网页中获取网页内容,从所述网页内容中提取案例信息,实现了从互联网中提出案例信息,克服了无法收集互联网上案例信息的问题。
【专利说明】
互联网案例信息提取方法及装置
技术领域
[0001]本发明涉及互联网技术领域,特别涉及一种互联网案例信息提取方法及装置。
【背景技术】
[0002]互联网已成为世界上最大的公开信息源。由全球范围内的各类各级机构主体和各种自媒体所主动发布的信息,已经成为重要的网络信息资源。
[0003]互联网上可以找到的信息中,有一类是类似于流感爆发的案例信息,比如“宣城市新增I例H7N9流感病例。患者李某,男,45岁,宣城市人,3月25日确诊,发病前有活禽接触史,病情危重,在宣城市某医院治疗,宣城市已启动联防联控工作机制。”对于开展流行病学研究而言,这些具体的流感案例信息非常有价值,可以用于研究传播特征,分析传播规律,预测传播趋势等。
[0004]然而,收集整理互联网上的这类信息非常困难。现有的技术方法并不能解决从互联网页中提出类似于流感爆发案例的详细信息的难题。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种互联网案例信息提取方法及装置。
[0006]依据本发明的一个方面,提供了一种互联网案例信息提取方法,所述方法包括:
[0007]抓取预设网站中的各目标网页;
[0008]根据预设模板从各目标网页中获取网页内容;
[0009]从所述网页内容中提取案例信息。
[0010]可选地,所述抓取预设网站中的各目标网页之前,所述方法还包括:
[0011]根据所述预设网站的页面布局生成所述预设模板。
[0012]可选地,所述根据预设模板从各目标网页中获取网页内容之前,所述方法还包括:
[0013]根据网页链接对抓取的目标网页进行去重处理。
[0014]可选地,所述案例信息包括:案例确诊日期、案例地址、病人名字和病人年龄;
[0015]相应地,所述从所述网页内容中提取案例信息之后,所述方法还包括:
[0016]依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进tx去重处理。
[0017]可选地,所述依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进行去重处理之前,所述方法还包括:
[0018]对所述案例地址进行统一化处理,以使各案例地址包含相同地址级数。
[0019]依据本发明的另一个方面,提供了一种互联网案例信息提取装置,所述装置包括:
[0020]网页抓取单元,用于抓取预设网站中的各目标网页;
[0021]内容获取单元,用于根据预设模板从各目标网页中获取网页内容;
[0022]信息提取单元,用于从所述网页内容中提取案例信息。
[0023]可选地,所述装置还包括:
[0024]模板生成单元,用于根据所述预设网站的页面布局生成所述预设模板。
[0025]可选地,所述装置还包括:
[0026]网页去除单元,用于根据网页链接对抓取的目标网页进行去重处理。
[0027]可选地,所述案例信息包括:案例确诊日期、案例地址、病人名字和病人年龄;
[0028]相应地,所述装置还包括:
[0029]案例去重单元,用于依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进行去重处理。
[0030]可选地,所述装置还包括:
[0031]统一处理单元,用于对所述案例地址进行统一化处理,以使各案例地址包含相同地址级数。
[0032]本发明通过抓取预设网站中的各目标网页,根据预设模板从各目标网页中获取网页内容,从所述网页内容中提取案例信息,实现了从互联网中提出案例信息,克服了无法收集互联网上案例信息的问题。
【附图说明】
[0033]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0034]图1是本发明一种实施方式的互联网案例信息提取方法的流程图;
[0035]图2是全球流感资讯网的网页示意图;
[0036]图3是本发明一种实施方式的互联网案例信息提取装置的结构框图。
【具体实施方式】
[0037]下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0038]图1是本发明一种实施方式的互联网案例信息提取方法的流程图;参照图1,所述方法包括:
[0039]SlOl:抓取预设网站中的各目标网页;
[0040]需要说明的是,所述预设网站为一个或多个网站,其可由用户选择决定,也就是说,可由用户先通过google、bing、百度等搜索引擎搜索含有案例信息的网站,最终定位到一个或多个具有高质量案例信息的网站,并将定位到的网站作为预设网站,以案例为流感案例为例,可由用户将“全球流感资讯网”作为预设网站,“全球流感资讯网”是由很多志愿者把全国各地的流感爆发的新闻报道收集起来而后汇总到这个网站上,供自己或者他人的后续参考或者研究的网站,其网址是http://www.flu.0rg.cn/scn/default.html,其内容如图2所示。
[0041]并且,所述预设网站也可为默认网站,也就是说,默认设置有一个网站,在抓取时,仅能抓取该网站中的各目标网页,而无法由用户选取其他网站,以案例为流感案例为例,可直接将“全球流感资讯网”作为默认网站。
[0042]S102:根据预设模板从各目标网页中获取网页内容;
[0043]可理解的是,为了从各目标网页中获取网页内容,本实施方式中,通过预设模板从各目标网页中网页内容的位置,并根据所述网页内容的位置从各目标网页中获取网页内容。
[0044]S103:从所述网页内容中提取案例信息。
[0045]需要说明的是,所述网页内容中通常包括但不限于标题和相关段落,根据案例的常用词语及其出现顺序从所述标题和相关段落中定位并提取案例信息。
[0046]本实施方式通过抓取预设网站中的各目标网页,根据预设模板从各目标网页中获取网页内容,从所述网页内容中提取案例信息,实现了从互联网中提出案例信息,克服了无法收集互联网上案例信息的问题。
[0047]由于不同网站的页面布局情况不同,针对不同网站需要分别生成预设模板,故而,在步骤SlOl之前还包括:
[0048]S100:根据所述预设网站的页面布局生成所述预设模板;
[0049]也就是说,预先对预设网站的页面不同区域分别进行标注,以生成所述预设模板,故而,所述预设模板可理解为对页面不同区域的内容标注。
[0050]由于在对预设网站进行目标网页抓取时,通常都是直接抓取预设网站中所有的目标网页,但这些目标网页可能在上一次抓取时已经抓取过,若仍然对所有目标网页进行案例信息提取,会导致资源浪费、案例信息重复,为避免该问题,所述S102之前,所述方法还可包括:
[0051]根据网页链接对抓取的目标网页进行去重处理。
[0052]也就是说,本次抓取的目标网页(当本次是第一次抓取时,则不存在上一次,无需进行去重处理)和上一次抓取的目标网页可能存在重复的网页,在上一次抓取了相同网页的情况下,本次无需再次抓取,本实施方式中,将具有相同网页链接的网页作为重复的网页。
[0053]在具体实现中,所述案例信息包括:案例确诊日期、案例地址、病人名字和病人年龄;
[0054]相应地,由于不同网页中可能存在对相同案例信息的介绍,导致案例信息可能存在重复的信息,为避免该问题,所述步骤S103之后,所述方法还包括:
[0055]S104:依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例f目息进彳丁去重处理。
[0056]由于不同病人的案例确诊日期通常不同,若案例确诊日期不同,则认定为不同病人,无需进行去重;
[0057]在案例确诊日期相同时,则需要进行病人年龄比较,若病人年龄不同,则认定为不同病人,无需进行去重;
[0058]在病人年龄也相同时,则需要进行案例地址比较,若案例地址不同,则认定为不同病人,无需进行去重;
[0059]在案例地址也相同时,则需要进行病人名字比较,若病人名字不同,则认定为不同病人,无需进行去重。
[0060]当然,在进行病人名字比较时,可能会存在叫法不同,例如:有些网页可能以全称形式称呼病人,也可能以简称形式(如:“姓”+“某”的称呼方式,例:谭某等)称呼病人,这样可能会存在病人名字不同,但实际上为一个病人的情况,为避免该问题,本实施方式中,会通过病人名字中的“姓”来比较病人名字是否相同,也就是说,只要“姓”相同,即认定为相同病人。
[0061]在进行案例信息去重时,通常只保留相同病人的一个案例信息。
[0062]由于案例地址的表达方式可能存在不同,例如:海龙大厦,其可能会表达为:北京市海淀区中关村大街I号,也可能会表达为:北京市海淀区中关村大街和北四环交界处西南角,这两种表达方式代表的是相同地址,为表明该问题,本实施方式中,步骤S104之前,所述方法还包括:
[0063]对所述案例地址进行统一化处理,以使各案例地址包含相同地址级数。
[0064]对于海龙大厦,可将案例地址统一化处理为:北京市海淀区,此时,无论案例地址采用哪种表达方式,均可识别为相同地址。
[0065]对于方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
[0066]图3是本发明一种实施方式的互联网案例信息提取装置的结构框图;参照图3,所述装置包括:
[0067]网页抓取单元301,用于抓取预设网站中的各目标网页;
[0068]内容获取单元302,用于根据预设模板从各目标网页中获取网页内容;
[0069]信息提取单元303,用于从所述网页内容中提取案例信息。
[0070]在本发明的一种可选实施方式中,所述装置还包括:
[0071]模板生成单元,用于根据所述预设网站的页面布局生成所述预设模板。
[0072]在本发明的一种可选实施方式中,所述装置还包括:
[0073]网页去除单元,用于根据网页链接对抓取的目标网页进行去重处理。
[0074]在本发明的一种可选实施方式中,所述案例信息包括:案例确诊日期、案例地址、病人名字和病人年龄;
[0075]相应地,所述装置还包括:
[0076]案例去重单元,用于依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进行去重处理。
[0077]在本发明的一种可选实施方式中,所述装置还包括:
[0078]统一处理单元,用于对所述案例地址进行统一化处理,以使各案例地址包含相同地址级数。
[0079]对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
[0080]应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。
[0081]本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本装置中,PC通过实现因特网对设备或者装置远程控制,精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,并且程序产生的文件或文档具有可统计性,产生数据报告和cpk报告等,能对功放进行批量测试并统计。应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0082]以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
【主权项】
1.一种互联网案例信息提取方法,其特征在于,所述方法包括: 抓取预设网站中的各目标网页; 根据预设模板从各目标网页中获取网页内容; 从所述网页内容中提取案例信息。2.如权利要求1所述的方法,其特征在于,所述抓取预设网站中的各目标网页之前,所述方法还包括: 根据所述预设网站的页面布局生成所述预设模板。3.如权利要求1?2中任一项所述的方法,其特征在于,所述根据预设模板从各目标网页中获取网页内容之前,所述方法还包括: 根据网页链接对抓取的目标网页进行去重处理。4.如权利要求1?2中任一项所述的方法,其特征在于,所述案例信息包括:案例确诊日期、案例地址、病人名字和病人年龄; 相应地,所述从所述网页内容中提取案例信息之后,所述方法还包括: 依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进行去重处理。5.如权利要求4所述的方法,其特征在于,所述依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进行去重处理之前,所述方法还包括: 对所述案例地址进行统一化处理,以使各案例地址包含相同地址级数。6.一种互联网案例信息提取装置,其特征在于,所述装置包括: 网页抓取单元,用于抓取预设网站中的各目标网页; 内容获取单元,用于根据预设模板从各目标网页中获取网页内容; 信息提取单元,用于从所述网页内容中提取案例信息。7.如权利要求6所述的装置,其特征在于,所述装置还包括: 模板生成单元,用于根据所述预设网站的页面布局生成所述预设模板。8.如权利要求6?7中任一项所述的装置,其特征在于,所述装置还包括: 网页去除单元,用于根据网页链接对抓取的目标网页进行去重处理。9.如权利要求6?7中任一项所述的装置,其特征在于,所述案例信息包括:案例确诊日期、案例地址、病人名字和病人年龄; 相应地,所述装置还包括: 案例去重单元,用于依次按照所述案例确诊日期、病人年龄、案例地址和病人名字对抓取的案例信息进行去重处理。10.如权利要求9所述的装置,其特征在于,所述装置还包括: 统一处理单元,用于对所述案例地址进行统一化处理,以使各案例地址包含相同地址级数。
【文档编号】G06F19/00GK105930346SQ201610209857
【公开日】2016年9月7日
【申请日】2016年4月6日
【发明人】白玉琪, 陈文欢
【申请人】清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1