一种互联网内容信息的提取方法和提取系统的制作方法

文档序号:7963074阅读:139来源:国知局
专利名称:一种互联网内容信息的提取方法和提取系统的制作方法
技术领域
本发明涉及计算机、互联网技术领域,尤其涉及一种互联网内容信息的提取方法和提取系统。
背景技术
互联网发展到如今,其包含的资讯内容已经达到了海量的地步,但是这些咨询内容分散在互联网中的成千上万个站点上,给人们的浏览带来了极大的不便。在这样的情况下,互联网内容提取技术越来越受到重视,它能够主动提取资讯内容,为内容聚合、内容挖掘、内容发布等业务提供原始数据。
互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字,查找与关键字存在某种关系的网页,并将这些符合要求的网页地址罗列显示给用户。
互联网资讯内容的提取是通过用户输入的策略要求,对指定站点进行分析,找到符合要求的资讯内容,并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息,然后通过一定的接口将这些提取的信息交付给其它应用程序,比如发布系统等。
目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术,简称为“RSS”,是一种内容发布和展现格式,只包含数据,采用XML组织而成。图1为RSS的原理示意图。参见图1,在RSS方式下,资讯内容网站首先必须发布自己的RSS,即提供一个XML页面,该页面展示一定数量的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等。随后,用户通过一定的方式找到自己感兴趣的RSS,进行订阅。以后每隔一段时间刷新这个RSS,得到所订阅的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等,通过点击浏览正文地址链接,用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。
为了使用户方便订阅RSS,目前还出现了很多RSS阅读工具,包括桌面工具和Web工具,它们可以保存用户订阅的RSS,根据用户设置的时间间隔,定期的获取最新资讯内容,提醒用户浏览。
但是,上述现有技术存在以下的技术问题1)并非所有的资讯内容站点都提供RSS。根据图1所示,可以清晰地看到,采用上述现有技术的先决条件是,资讯内容站点必须首先发布RSS,用户才有可能进行订阅。但是对于互联网海量的资讯而言,发布RSS的站点只占很少一部分,而大部分的资讯站点仍然采用传统的网页浏览方式。
2)RSS内容依赖于资讯内容站点提供方。目前,许多资讯内容站点提供的RSS并没有覆盖该站点内所有的资讯,而只是提供了一小部分内容,对于RSS没有提供的内容,通过现有技术的方式就无法获得,这就用户限制了提取信息的主动性。
3)通过RSS无法获取并保存正文内容。目前的RSS只提供正文地址链接,而不提供正文的内容,用户必须访问正文地址链接所指向的网址,才能浏览正文,因此降低了用户的浏览速度。

发明内容
有鉴于此,本发明的主要目的在于提供一种互联网内容信息的提取方法,使用户可以根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容,而不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。
本发明的又一目的在于提供一种互联网内容信息的提取系统,使用户可以根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容,而不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。
为了实现上述发明目的,本发明的主要技术方案为一种互联网内容信息的提取方法,该方法包括A、获取目标网页的源代码;B、在目标网页的源代码中提取与预定提取条件所匹配的地址链接;C、根据步骤B提取成功的地址链接获取其对应的正文网页源代码;D、在步骤C获取的正文网页源代码中提取符合预定提取条件的内容信息。
优选地,针对某一目标网页,循环执行所述步骤A到步骤D,且步骤B中进一步包括过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
优选地,步骤D所述的预定提取条件中包括匹配条件和过滤条件;步骤D具体包括先从所述正文网页源代码中提取与匹配条件匹配的内容信息,再根据过滤条件过滤匹配后的内容信息。
优选地,步骤B所述的匹配方式为正则表达式匹配;步骤D所述的匹配方式为正则表达式匹配、或上下文匹配、或正则表达式匹配和上下文匹配。
优选地,在匹配过程中,当匹配到一个以上相同内容信息时,则只从中提取第一次匹配到的内容信息。
优选地,所述过滤条件包括需过滤的字符串、以及用于标明是否过滤掉超文本标记语言标签的标记。
优选地,步骤D的预定提取条件中包括用来标明过滤JS代码和或广告代码的标记,且步骤D进一步包括先判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再进行所述的匹配和过滤,如果没有则直接进行所述的匹配和过滤。
优选地,步骤D中进一步包括当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
优选地,步骤D中进一步包括当正文网页源代码中含有分页标签时,获得所有分页内容的地址链接,对所有非本页的分页地址链接重新执行步骤C和步骤D。
一种互联网内容信息的提取系统,该系统包括设置单元用于为用户提供目标网页和预定提取条件的设置接口,并保存所设置的内容;第一获取单元,用于获取设置单元中所设置的目标网页源代码;第一提取单元,用于在第一获取单元获取的目标网页源代码中提取与所述设置单元中所设预定提取条件所匹配的地址链接;第二获取单元,用于根据第一提取单元提取成功的地址链接获取其对应的正文网页源代码;第二提取单元,用于在第二获取单元获取的正文网页源代码中提取符合设置单元所设预定提取条件的内容信息。
优选的,所述提取系统针对某一目标网页进行循环处理;所述第一提取单元中进一步包括过滤单元,用于过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
优选的,所述预定提取条件中包括匹配条件和过滤条件;所述第二提取单元进一步包括匹配单元,用于从所述正文网页源代码中提取与匹配条件匹配的内容信息;过滤单元,用于根据过滤条件过滤所述匹配单元匹配后的内容信息。
优选的,所述第二提取单元进一步包括扩展过滤单元,用于判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再将过滤后的源代码发给所述匹配单元进行处理,如果没有则直接将源代码发给所述匹配单元进行处理。
优选的,所述第二提取单元进一步包括图片处理单元,用于判断正文网页源代码是否含有图片标签,如果有则获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
优选的,所述第二提取单元进一步包括分页处理单元,用于判断正文网页源代码中是否含有分页标签,如果有则获得所有分页内容的地址链接,将所有非本页的分页地址链接发给第二获取单元处理。
由于本发明采用主动的方式获取目标网页的源代码,提取其中的地址链接,再主动地获取该链接的源代码,从中获取所需的内容信息,所以说本发明相对于现有技术采用了主动获取的技术,而且可以为用户提供设置接口,由用户根据需要主动设置所述的预定条件,因此本发明使用户可以根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容,而不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。
本发明还提供了互联网内容信息的自动增量式提取技术,可以减少客户端处理资源的重复浪费,提高提取效率。
本发明还可以获取资讯网站各条资讯链接的内容,从而可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。
本发明在提取信息的过程中可以过滤掉JS代码和广告代码等干扰信息,克服了直接从资讯网站获取资讯内容时必须被迫接收其中过多干扰信息的缺点。
本发明还提供了有效的图片的本地化技术,有助于加快图片的浏览显示速度;而且,本发明还提供了多页内容的提取技术,可以实现对相关联的多个网页内容信息的提取。


图1为RSS的原理示意图;图2为本发明所述互联网内容信息的提取系统的结构示意图;图3为本发明所述互联网内容信息的提取方法的流程图;图4为根据地址链接获取其对应的正文网页源代码并从中提取符合预定提取条件的内容信息的具体流程图。
具体实施例方式
下面通过具体实施例和附图对本发明做进一步详细说明。
本发明的核心思想为采用主动的方式获取目标网页的源代码,提取其中的地址链接,再主动地获取该链接的源代码,从中获取所需的内容信息。
图2为本发明所述互联网内容信息的提取系统的结构示意图。参见图2,所述互联网内容信息的提取系统21包括设置单元201用于为用户提供目标网页和预定提取条件的设置接口,并保存所设置的内容;用户可以通过设置接口定制所需访问的目标资讯内容站点的目标网页(该目标网页一般为一索引网页)和定制针对该网页及其索引地址对应网页的预定提取条件。
第一获取单元202,与设置单元201连接,用于从目标资讯内容站点上获取设置单元中所设置的目标网页源代码。
第一提取单元203,与设置单元201和第一获取单元202连接,用于在第一获取单元202获取的目标网页源代码中提取与所述设置单元201中所设预定提取条件所匹配的地址链接。
第二获取单元204,与第一提取单元203连接,用于根据第一提取单元203提取成功的地址链接从目标资讯内容站点上获取所述地址链接对应的正文网页源代码;第二提取单元205,与设置单元20 1和第二获取单元204连接,用于在第二获取单元204获取的正文网页源代码中提取符合设置单元20 1所设预定提取条件的内容信息。
本发明所述的提取系统21可以设置在独立的服务器上,独立于资讯内容站点,因此可以采用主动的方式提取用户所需的资讯内容。
图3为本发明所述互联网内容信息的提取方法的流程图。参见图3,该流程包括步骤301、获取目标网页(一般为索引网页)的源代码。所述源代码为超文本标记语言(Html)源代码,由于Web页面的Html源代码是开放的,所以任何对于网页的请求都可以获得Html源代码,通过超文本传输协议(HTTP)协议,可以得到目标页面的Html源代码。
步骤302、在目标网页的源代码中提取与预定提取条件所匹配的地址链接。这里的提取条件为正则表达式,比如“http://www\.xinahuanet\.com/news/
{8}_content\.htm”,在目标页面Html源代码中获得该正则表达式匹配的地址链接列表,这里得到的列表包括了该目标网页中所有的资讯内容地址链接,也包括已经提取过的地址链接。
步骤303、根据步骤302提取成功的地址链接获取其对应的正文网页源代码;步骤304、在步骤303获取的正文网页源代码中提取符合预定提取条件的内容信息。
本发明采用主动提取方式,并且可以由用户预定一套固定格式的提取条件,用户对各个资讯内容站点按照格式定制相应的提取条件,通过这些,后台程序将循环增量式提取这些站点的最新资讯内容,包括标题、作者、来源、发布时间、正文、图片等。所述增量式提取是指只提取新增的内容,对于已经提取过的内容不再提取。
所述预定提取条件中包括以下内容1)目标网页的索引地址,比如某资讯内容站点频道的首页地址。步骤301中就是根据这些目标网页的地址通过HTTP协议获取目标网页的源代码。
2)能够匹配所述目标页面上资讯内容地址链接的正则表达式。步骤302中所述的提取条件就是该正则表达式。
3)用于提取各个正文网页内容的提取条件,即步骤304中所述的预定提取条件。
以下用一个具体的示例说明该用于提取各个正文网页内容的提取条件的内容。表1为用于提取各个正文网页内容的提取条件的一个内容示例表。参见表1,该提取条件为提取内容的各部分定义了匹配条件和过滤条件,例如匹配条件可以为匹配字符串和匹配模式等信息,过滤条件可以为过滤字符串、和表明是否过滤Html标签的标记等信息。其中匹配条件和过滤条件的具体内容可以由用户根据需要进行设置。

表1针对每个目标网页,所述的提取系统都对应设置有这样类似的一份提取条件,保存在本提取系统的数据库中。且针对每个目标网页,提取系统的后台程序取得所述提取条件后,根据该提取条件的描述,进行所述的提取处理,即执行上述步骤301至步骤304。
由于资讯内容站点的内容会处于随时的更新中,因此针对某一目标网页,可按照预定的周期循环执行所述步骤301到步骤304;且步骤302中进一步过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。具体的为对于提取成功的与预定提取条件所匹配的地址链接,判断该地址链接是否在之前的循环处理中已经被提取成功过,是则将该地址链接过滤掉,否则将该地址链接交由步骤303处理;对于提取失败的与预定提取条件所匹配的地址链接,判断是否超过预定的提取次数,如果是则将该地址链接过滤掉,否则递增其实际的提取次数,待下次循环处理时再提取。
图4为根据地址链接获取其对应的正文网页源代码并从中提取符合预定提取条件的内容信息的具体流程图。参见图4,该流程为上述步骤303和步骤304的一个具体实施例,具体包括步骤401、根据步骤302提取成功的资讯内容地址链接获取其对应的正文网页源代码,即资讯内容的Html源代码。
步骤402、本步骤为一个可选步骤,由于正文中有时可能包含JS(即Javascript,是一种脚本语言)代码和或广告代码以及其它干扰代码,则需首先要过滤它们,防止它们对匹配正文内容的干扰,因此可以在所述的预定提取条件(可以参见表1)中设置用来标明过滤JS代码和或广告代码的标记和或其他过滤条件,并需执行本步骤402,具体为先判断所述正文网页源代码中是否含有JS代码和或广告代码和或其他需过滤的信息,如果有则先将JS代码和或广告代码和或所述其他信息过滤掉,再执行步骤403,如果没有则直接执行步骤403。
所述过滤JS代码的方法可以是在Html源代码中寻找JS闭合标签“<script”和“</script>”,并将其包含的内容删除。
所述过滤广告代码需要根据具体网页所定制的代码分析规则来进行,所述代码分析规则中指定了广告开始标签和结束标签,通过这些标签可以找到广告代码片断,从而删除。
步骤403、从所述正文网页源代码中提取与所述匹配条件(可以参见表1)匹配的内容信息。所述所匹配的内容信息类别为标题、作者、来源、时间、正文、图片中的任一种或任意种组合。
此处的匹配方式可以是正则表达式匹配、或上下文匹配、或正则表达式匹配和上下文匹配。其中,正则表达式匹配是指通过在匹配条件中指定一个正则表达式,来匹配相应的内容,比如,某资讯发布日期的正则表达式为“
{4}-
{2}-
{2}”,该正则表达式可以匹配到“2006-05-30”这样的日期;上下文匹配是指通过在匹配条件中指定要提取内容的上下文标签,可以提取上下文标签中间的内容,比如,某资讯标题的上下文标签为“<h1>|</h1>”,其中用“|”表示上下文标签的分隔符。
在匹配过程中,当匹配到一个以上相同内容信息时,则只从中提取第一次匹配到的内容信息。
步骤404、根据所述过滤条件过滤匹配后的内容信息。可以通过提取条件的设置,例如表1的设置,对于某项内容是否需过滤且过滤什么内容等,所述过滤条件包括需过滤的字符串、以及用于标明是否过滤掉超文本标记语言Html标签的标记,对于步骤403匹配后的各个内容信息可以根据所述过滤条件进行过滤,例如过滤掉某些字符串和或过滤掉Html标签。
步骤405、对过滤后的正文网页源代码进行后期处理,其中包括1)当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。当所述图片地址为相对地址时,则通过资讯内容页面的地址进行组合,获得图片的绝对地址,通过请求该绝对地址将图片保存至本地。这样可以将图片保存到本地,有助于加快图片的浏览显示速度。
2)当正文网页源代码中含有分页标签时,获得所有分页内容的地址链接,对所有非本页的分页地址链接,重新执行步骤303和步骤304,并且与第一页进行链接。
3)按照预定的正文格式对经过上述提取处理的符合预定提取条件的内容信息进行格式处理。例如排版操作等,以利于用户浏览查看。
一般的,步骤302提取成功的资讯内容地址链接的数目有一个以上,因此对于每个地址链接都需要执行图4所述的处理流程。
通过上述流程的处理,就可以输出用户需要的文章内容和图片,从而使用户从所述目标网页获取需要的资讯内容信息。
需要说明的是所述过滤JS代码和或广告代码和或其它干扰代码的操作,处理图片的操作和处理分页的操作没有严格的先后顺序,也可以并行处理。
与上述方法对应,本发明所述的提取系统针对某一目标网页可进行循环处理;所述第一提取单元203中进一步包括过滤单元,用于过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
本发明所述提取系统中的第二提取单元205中可以包括匹配单元,用于从所述正文网页源代码中提取与预定提取条件中包括的匹配条件匹配的内容信息;过滤单元,用于根据预定提取条件中包括的过滤条件过滤所述匹配单元匹配后的内容信息。
扩展过滤单元,用于判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再将过滤后的源代码发给所述匹配单元进行处理,如果没有则直接将源代码发给所述匹配单元进行处理。
图片处理单元,用于判断正文网页源代码是否含有图片标签,如果有则获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
分页处理单元,用于判断正文网页源代码中是否含有分页标签,如果有则获得所有分页内容的地址链接,将所有非本页的分页地址链接发给第二获取单元204处理。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
权利要求
1.一种互联网内容信息的提取方法,其特征在于,该方法包括A、获取目标网页的源代码;B、在目标网页的源代码中提取与预定提取条件所匹配的地址链接;C、根据步骤B提取成功的地址链接获取其对应的正文网页源代码;D、在步骤C获取的正文网页源代码中提取符合预定提取条件的内容信息。
2.根据权利要求1所述的方法,其特征在于,针对某一目标网页,循环执行所述步骤A到步骤D,且步骤B中进一步包括过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
3.根据权利要求1或2所述的方法,其特征在于,步骤D所述的预定提取条件中包括匹配条件和过滤条件;步骤D具体包括先从所述正文网页源代码中提取与匹配条件匹配的内容信息,再根据过滤条件过滤匹配后的内容信息。
4.根据权利要求3所述的方法,其特征在于,步骤B所述的匹配方式为正则表达式匹配;步骤D所述的匹配方式为正则表达式匹配、或上下文匹配、或正则表达式匹配和上下文匹配。
5.根据权利要求3所述的方法,其特征在于,在匹配过程中,当匹配到一个以上相同内容信息时,则只从中提取第一次匹配到的内容信息。
6.根据权利要求3所述的方法,其特征在于,所述过滤条件包括需过滤的字符串、以及用于标明是否过滤掉超文本标记语言标签的标记。
7.根据权利要求3所述的方法,其特征在于,步骤D的预定提取条件中包括用来标明过滤JS代码和或广告代码的标记,且步骤D进一步包括先判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再进行所述的匹配和过滤,如果没有则直接进行所述的匹配和过滤。
8.根据权利要求1所述的方法,其特征在于,步骤D中进一步包括当正文网页源代码中含有图片标签时,获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
9.根据权利要求1所述的方法,其特征在于,步骤D中进一步包括当正文网页源代码中含有分页标签时,获得所有分页内容的地址链接,对所有非本页的分页地址链接重新执行步骤C和步骤D。
10.一种互联网内容信息的提取系统,其特征在于,该系统包括设置单元用于为用户提供目标网页和预定提取条件的设置接口,并保存所设置的内容;第一获取单元,用于获取设置单元中所设置的目标网页源代码;第一提取单元,用于在第一获取单元获取的目标网页源代码中提取与所述设置单元中所设预定提取条件所匹配的地址链接;第二获取单元,用于根据第一提取单元提取成功的地址链接获取其对应的正文网页源代码;第二提取单元,用于在第二获取单元获取的正文网页源代码中提取符合设置单元所设预定提取条件的内容信息。
11.根据权利要求10所述的提取系统,其特征在于,所述提取系统针对某一目标网页进行循环处理;所述第一提取单元中进一步包括过滤单元,用于过滤掉在之前循环处理中已经成功提取的地址链接,过滤掉提取失败并累计超过预设提取次数的地址链接。
12.根据权利要求10所述的提取系统,其特征在于,所述预定提取条件中包括匹配条件和过滤条件;所述第二提取单元进一步包括匹配单元,用于从所述正文网页源代码中提取与匹配条件匹配的内容信息;过滤单元,用于根据过滤条件过滤所述匹配单元匹配后的内容信息。
13.根据权利要求12所述的提取系统,其特征在于,所述第二提取单元进一步包括扩展过滤单元,用于判断所述正文网页源代码中是否含有JS代码和或广告代码,如果有则先将JS代码和或广告代码过滤掉,再将过滤后的源代码发给所述匹配单元进行处理,如果没有则直接将源代码发给所述匹配单元进行处理。
14.根据权利要求10所述的提取系统,其特征在于,所述第二提取单元进一步包括图片处理单元,用于判断正文网页源代码是否含有图片标签,如果有则获取该正文网页源代码的图片地址列表,请求图片地址,将图片保存至本地,对图片按照一定格式进行重命名。
15.根据权利要求10所述的提取系统,其特征在于,所述第二提取单元进一步包括分页处理单元,用于判断正文网页源代码中是否含有分页标签,如果有则获得所有分页内容的地址链接,将所有非本页的分页地址链接发给第二获取单元处理。
全文摘要
本发明公开了一种互联网内容信息的提取方法和系统,方法包括A.获取目标网页的源代码;B.在目标网页的源代码中提取与预定提取条件所匹配的地址链接;C.根据步骤B提取成功的地址链接获取其对应的正文网页源代码;D.在步骤C获取的正文网页源代码中提取符合预定提取条件的内容信息。系统包括用于设置目标网页和预定提取条件的设置单元,用于获取目标网页源代码的第一获取单元,用于提取目标网页源代码中地址链接的第一提取单元,用于获取正文网页源代码的第二获取单元,用于在正文网页源代码中提取内容信息的第二提取单元。本发明可以使用户能够根据自身需要从互联网上的任意资讯网站主动提取需要的资讯内容。
文档编号H04L29/06GK101094135SQ200610090410
公开日2007年12月26日 申请日期2006年6月23日 优先权日2006年6月23日
发明者郭欣 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1