专利名称:网站内容信息提供方法、系统及装置的制作方法
技术领域:
本发明涉及数据业务领域,尤指一种网站内容信息提供方法、系统及装置。
背景技术:
互联网数据中心(Internet Data Center, IDC)可以实现引入网站内容,为用户提供服务。IDC可以直接或间接通过内容分发网络(Content Delivery Network, CDN)为用户提供网站内容服务。目前,IDC引入网站内容源时通常为非全量方式,只引入网站部分频道或部分内容,IDC对托管网站内容信息的获取、更新和管理通常采用的是如下方式,一是由网站资源提供方手动申报,从而掌握引入的网站资源信息;二是由IDC管理员手动获取并配置引入的网站资源信息。上述IDC引入网站内容的方式中,方式一高度依赖内容提供方的主动操作,无法保证网站内容索引的准确性、及时性和精度要求;方式二需要耗费大量的IDC管理人工成本,且效率底下,无法保证引入内容索引的及时更新。也就是说,现阶段对IDC网站内容引A的控制仅实现了设备级的控制,内容级的控制比较粗放,很难以较低的成本准确、及时的获取IDC引入网站的内容索引信息,为IDC内容的精确管理造成一定困难。现有的IDC内容引入和控制机制,用于⑶N网络时,由于⑶N网络中除了主要面向IDC引入的网站内容服务之外,还存在缓存热点网站内容的缓存控制(WebCache)系统,⑶N资源调度中心会统一协调用户对IDC引入的和WebCache系统缓存的网站内容的访问调度,以便用户合理访问IDC和WebCache系统引入的网站内容。一般情况下,由于IDC直接面向内容提供方引入网站内容,其引入的网站内容相对于WebCache系统缓存的网站内容更新应该更及时,因此,一般希望优先为用户调度IDC引入的网站内容,但⑶N网络中还存在WebCache系统,很可能存在用户请求访问的内容在已被引入IDC时却被调度至WebCache系统,极大浪费了 IDC系统资源与WebCache缓存资源,为了避免冲突,需要详细掌握IDC引入的网站内容信息。在现有的IDC内容引入和控制机制下,IDC引入的网站内容信息主要依靠提供方或IDC管理员手动更新,更新速度慢,操作复杂,准确性低,实时性较差。IDC网站内容源更新后,CDN总线系统无法及时获知IDC内容的变更情况,因此,用户访问时就有可能出现IDC引入的网站内容和WebCache缓存的网站内容的访问冲突,CDN总线无法获知应该优先为用户调度IDC引入网站资源还是WebCache缓存的网站资源。
发明内容
本发明实施例提供一种网站内容信息提供方法、系统及装置,用以解决现有技术中存在无法准确获知IDC引入的网站内容,导致无法精确调度用户的内容访问请求,浪费系统资源的问题。一种网站内容信息提供方法,包括:
根据获得的引入网站的初始链接信息进行爬行搜索,获取到所述引入网站包括的链接信息,并获取所述链接信息的链接对象及其属性信息;根据获取的所述链接信息的链接对象及其属性信息,建立所述链接信息对应的链接对象索引;根据各所述链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图;所述网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索引;根据建立的网站资源视图向网站信息请求方提供网站内容信息。一种网站内容信息提供装置,包括:搜索模块,用于根据获得的引入网站的初始链接信息进行爬行搜索,获取到所述引入网站包括的链接信息,并获取所述链接信息的链接对象及其属性信息;索引模块,用于根据获取的链接对象及其属性信息,建立所述链接信息对应的链接对象索引;视图资源生成模块,用于根据各所述链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图;所述网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索引;接入检索模块,用于根据建立的网站资源视图向网站信息请求方提供网站内容信
肩、O一种网站内容信息提供系统,包括上述的网站内容信息提供装置和至少一个网站信息请求设备。本发明有益效果如下:本发明实施例提供的网站内容信息提供方法、系统及装置,将包括网站初始链接信息及与其逐级关联的所有链接信息,及其对应的链接对象进行关联索引,并建立网站资源视图,从而可以准确获知IDC引入的网站内容信息并为用户提供,同时还可以节约查询时间减少系统资源的利用;即使在同时存在IDC引入的网站资源和WebCache缓存的网站资源,也可以优先为用户调度IDC引入的网站资源,避免内容访问调度时发生冲突,节约系统资源。
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1为本发明实施例中网站内容信息提供方法的流程图;图2为本发明实施例中网站内容信息提供系统的结构示意图;图3为本发明实施例中网站内容信息提供装置的结构示意图;图4为本发明实施例中网站内容信息提供系统的具体结构示意图;图5为本发明实施例中网站内容信息提供装置生成资源视图的流程图;图6为本发明实施例一中网站内容信息提供方法的流程图;图7为本发明实施例二中网站内容信息提供方法的流程图。
具体实施例方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例提供一种网站内容信息提供方法,通过建立网站资源视图获取更新的网站内容索引,将包括网站初始链接信息及其关联的所有链接信息所对应的链接对象进行关联索引,并建立网站资源视图,根据网站资源视图实现网站内容信息的提供,该方法流程如图1所示,包括如下步骤:步骤Sll:根据获得的引入网站的初始链接信息进行爬行搜索,获取到引入网站包括的链接信息,并获取得到的链接信息的链接对象及其属性信息。根据获得的引入网站的初始链接信息进行爬行搜索时,具体是根据获得的引入网站的初始链接信息和预先配置的搜索策略进行爬行搜索的。其中,搜索搜索策略包括下列策略之一或组合:深度优先策略、广度优先策略和聚焦搜索策略。根据获取的引入网站的初始链接信息可以爬行搜索到所有的关联链接信息,即可以根据初始链接信息获取初始链接对象及其属性,以及从当前链接对象进行爬行搜索,获取新链接信息,并不断由新链接信息获取对应对象及属性。其中,初始链接信息可以是初始网页的顶层域名,比如统一资源定位符(Uniform/Universal Resource Locator, URL),关联链接信息可以是网页上爬行搜索到的每个URL。根据爬行搜索到的包括初始链接信息和关联链接信息的所有链接信息,爬行搜索每个链接信息的链接对象。上述链接对象包括链接信息对应的网页和/或文件;上述链接对象的属性信息包括下列信息之一或组合:链接值、链接类型、网页标题、被抓取次数、抓取时间、抓取深度、是否首次抓取、默认编码、网页快照、文件对象名和对象类型。例如:可以通过一个网站内容信息提供装置实现爬行搜索,从IDC业务提供设备提供的一个或若干个引入网站顶层域名链接开始爬取初始网页上的URL,对于每个URL,爬虫保存该链接对应的网页或文件等链接对象的属性信息,包括但不限于链接值、链接类型、网页Title、被抓取次数、抓取时间、抓取深度、是否首次抓取、默认编码、网页快照、文件对象名、对象类型等信息。同时,爬虫不断从当前页面上抽取新的URL放入队列,待分析完毕当前页面后,从队列中提取新URL继续爬取网页或对象信息,直到满足预设的搜索停止条件。步骤S12:根据获取的链接信息的链接对象及其属性信息,建立获取的链接信息对应的链接对象索引。根据获取的链接信息包括的链接对象及其属性信息构建各链接对象的内容索引,以及根据获取的链接信息的路径信息确定链接信息之间的关联关系;经过分析、过滤,建立起包括各链接信息关联关系以及各链接信息包括的链接对象的内容索引的链接对象索引。对爬行搜索到的链接信息,以及链接信息的链接对象及其属性信息进行处理,包括构建各链接对象的内容索引和各链接对象的数据关联。根据爬虫获取的链接值、链接类型、网页Title、被抓取次数、抓取时间、抓取深度、是否首次抓取、默认编码、网页快照、文件对象名、对象类型等信息进行索引编制,构建各链接对象的内容索引;记录爬虫抓取的URL路径,判断不同URL间的父子关系,形成内容索引之间的关联关系,得到各链接信息的链接对象索引,为生成网站资源全局视图提供数据支持。优选的,建立链接信息对应的链接对象索引之前,还包括对爬行搜索到的链接信息,以及链接信息的链接对象及其属性信息进行数据去重处理。可以对爬行搜索到的链接信息,以及链接信息的链接对象及其属性信息进行做MD5(消息摘要算法第五版)运算,根据计算得到的MD5值判断是否和已经建立链接对象索引的链接信息相同,当相同时不再建立链接对象索引。当然也可以通过其他方式判断爬行搜索到的链接信息是否和已经建立链接对象索引的链接信息相同。例如:当一个URL被抓取成功后,在更新时间段之内不需要再被抓取,但是其他网页可能包含这个URL,因此需要对URL去重。本系统采用对已经抓取的URL做MD5运算,通过比较URL的MD5值保证抓取URL的唯一性,即对于MD5值相同的URL不再进行重复抓取。上述通过对爬行搜索到的链接信息的相关数据进行索引编制、关联、清洗、去重等处理,实现生成标准IDC内容索引数据,得到各链接信息的链接对象索引。步骤S13:根据各链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图。其中建立的网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索引。根据上述索引建立的各链接信息的链接对象索引之间的关联关系,例如各链接信息的父子关系,可以实现建立各引入网站的网站资源视图。步骤S14:根据建立的网站资源视图向网站信息请求方提供网站内容信息。根据建立的网站资源视图向网站信息请求方提供网站内容信息时,一般是通过网站信息请求设备向网站信息请求方提供网站内容信息,可以通过将资源视图提供给网站信息请求设备的方式,也可以采用开放查询接口供网站信息请求设备查询资源视图的方式,由网站内容信息请求设备根据网站资源视图想网站信息请求方提供网站内容信息。其中,IDC网站信息请求设备可能是⑶N资源总线,也可以是IDC业务平台或其它的IDC网站信息请求设备。当然可选的,也可以不通过网站内容信息请求设备,直接根据建立的网站资源视图向网站信息请求方提供网站内容信息。其中,将资源视图提供给网站信息请求设备的方式,具体包括:根据网站信息请求设备发送的视图资源获取请求,将建立的网站资源视图提供给网站信息请求设备或根据视图资源获取请求中的配置要求对建立的网站资源视图进行配置调整后提供给网站信息请求设备,由网站信息请求设备根据获取的网站资源视图向网站信息请求方提供所请求的网站内容信息;包括根据提供的网站资源视图提供网站访问调度服务或IDC站点管理服务。其中,开放查询接口供网站信息请求设备查询资源视图的方式,具体包括:根根据网站信息请求设备发送的视图资源查询请求,向网站信息请求设备开放查询接口,通过查询接口向网站信息请求设备提供建立的网站资源视图或提供根据视图资源获取请求中的配置要求对建立的网站资源视图进行配置调整后的网站资源视图;由网站信息请求设备根据查询到的网站资源视图向网站信息请求方提供所请求的网站内容信息;包括根据提供的网站资源视图提供网站访问调度服务或IDC站点管理服务。基于本发明实施例提供的上述网站内容信息提供方法,本发明实施例还提供一种网站内容信息提供系统,其结构如图2所示,包括上述的网站内容信息提供装置和至少一个网站信息请求设备,两者之间可以通过IF1、IF2等接口连接。例如:网站内容信息提供装置可以是IDC内容信息同步装置,网站信息请求设备可以是IDC业务平台和CDN资源总线等。网站内容信息提供装置与IDC业务平台、CDN资源总线等若干IDC网站信息请求设备之间实现信息交互,为IDC业务平台XDN资源总线等网站信息请求设备提供建立的引入网站的资源视图下载或查询。上述⑶N资源总线可以实现资源管理、内容管理、用户调度等功能。通过网站内容信息提供装置获取IDC引入的网站内容的资源视图后,合理调度用户访问请求,并按照内容分发策略将IDC网站内容分发至适当⑶N内容节点与服务节点。上述IDC业务平台可以实现硬件管理和软件管理。其中软件管理可以为网站内容提供方提供基础的内容配置与管理功能,并为IDC内容信息同步装置提供基本的域名信息等。基于本发明实施例提供的上述网站内容信息提供方法,本发明实施例还提供一种网站内容信息提供装置,且结构如图3所示,包括:搜索模块10、索引模块20、视图资源生成模块30和接入检索模块40。搜索模块10,用于根据获得的引入网站的初始链接信息进行爬行搜索,获取到引入网站包括的链接信息,并获取链接信息的链接对象及其属性信息。索引模块20,用于根据获取的链接对象的属性信息,建立获取的链接信息对应的链接对象索引。视图资源生成模块30,用于根据各获取链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图;其中,网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索引。接入检索模块40,用于根据建立的网站资源视图向网站信息请求方提供网站内容信息。优选的,上述网站内容信息提供装置还包括:搜索策略管理模块50 ;其中:搜索策略管理模块50,用于配置搜索策略,配置的搜索策略包括下列策略之一或组合:深度优先策略、广度优先策略和聚焦搜索策略。相应的,上述搜索模块10,具体用于根据获得的引入网站的初始链接信息和预先配置的搜索策略进行爬行搜索。优选的,上述索引模块20,具体用于根据获取的链接信息的链接对象及其属性信息构建各链接对象的内容索引,以及根据获取的链接信息的路径信息确定各链接信息之间的关联关系;建立起包括各链接信息关联关系以及各链接信息包括的链接对象的内容索引的链接对象索引。优选的,上述索引模块20还用于:在建立爬行搜索到的所述链接信息对应的链接对象索引之前,对爬行搜索到的链接信息,以及链接信息的链接对象及其属性信息进行数据去重处理。优选的,上述接入检索模块40,具体用于根据网站信息请求设备发送的视图资源获取请求,将建立的网站资源视图提供给网站信息请求设备或根据视图资源获取请求中的配置要求对建立的网站资源视图进行配置调整后提供给网站信息请求设备,由网站信息请求设备根据提供的网站资源视图向网站信息请求方提供所请求的网站内容信息;或根据网站信息请求设备发送的视图资源查询请求,向网站信息请求设备开放查询接口,通过查询接口向网站信息请求设备提供建立的网站资源视图或提供根据视图资源查询请求中的配置要求对建立的网站资源视图进行配置调整后的网站资源视图,由网站信息请求设备根据查询到的网站资源视图向网站信息请求方提供所请求的网站内容信息。优选的,上述网站内容信息提供装置还包括本域控制模块60,用于控制搜索模块爬行搜索的搜索范围。上述网站内容信息提供系统的具体结构如图4所示,其中,网站内容信息提供装置包括搜索模块10、索引模块20、视图资源生成模块30和接入检索模块40、搜索策略管理模块50、本域控制模块60、系统管理模块70和入口(Portal)模块80。其中:网站内容信息提供装置的接入检索模块40实现与网站信息请求设备之间的通信,从而实现根据建立的网站资源视图向网站信息请求方提供网站内容信息。接入检索模块40基于接口协议实现与外部设备如CDN资源总线、IDC业务平台等之间的数据交互,作为服务器角色提供鉴权功能,对外部设备的账号、密码进行用户认证,实现IDC引入网站的初始链接信息的导入,以及IDC网站内容资源信息数据的发送功能;属于为上层屏蔽不同底层接入方式的技术实现。Portal模块80提供管理员管理、维护、访问网站内容信息提供装置的门户,系统基于B/S架构,提供用户登录、日志查询、统计报表等功能所必需的页面(Web)操作与管理展示界面,属于用户交互层面的技术实现。搜索模块10实现对引入网站的爬行搜索,利用标准http协议,根据网站信息请求设备和Portal模块80提供的引入网站的初始链接信息,以及搜索策略管理模块制定的搜索策略,在本域范围内,对IDC引入网站的内容进行检索,遍历该IDC网站本域内的所有链接信息,以及对应的链接对象及其属性信息。索引模块20实现对爬行搜索到的链接信息相关的数据的编制索引,建立链接对象索引。通过解析由搜索模块10检索得到的链接信息以及网页、文件等链接对象的相关信息数据,通过抽取、关联、清洗、去重等多重处理后,实现生成标准IDC内容索引数据的功能,得到各链接信息对应的链接对象索引。视图资源生成模块30,基于索引模块20生成的IDC内容索引数据,生成引入网站的网站资源视图,以便为用户提供调度时使用。接入检索模块40还可以实现在索引模块20建立的IDC内容索引数据的基础上,提供检索功能,供Portal模块及网站信息请求设备查询IDC引入网站的内容。搜索策略管理模块50用于允许管理员配置和管理搜索策略,如深度优先搜索、广度优先搜索、聚焦搜索等规则,供搜索模块10调用。本域控制模块60配置和管理本域搜索策略,对搜索模块10的搜索范围进行控制,限定搜索操作在本域的引入网站内部进行,还是链接到其他域的IDC机房或服务器的链接对象。系统管理模块70提供本地网管功能,该模块属于可选模块,对系统的可用性、设备性能、网络指标进行实时监测和管理,比如:实时获得网站内容信息提供系统的资源使用情况和健康状态;对系统中产生的告警信息进行统一收集,根据告警级别调用相应的策略进行处理;通过网管接口实现与上级网管系统的对接与数据采集传输;对监控产生的各种数据进行记录和分析,负责记录用户使用系统时的操作日志,实现对上下级系统查询记录的统计功能;自动生成常规报表和各种个性化报表,支持分析各类管理需要;配置外部网元相关配置信息,通过Portal展现,提供分级权限管理功能,确保不同角色的用户只能使用被授权的功能,只能查看和维护被授权的数据。上述网站内容信息提供装置支持通过IDC业务平台、Portal界面XDN资源总线配置不同网站信息请求设备所需的IDC网站内容资源订阅需求,针对不同网站信息请求设备可生成不同的资源视图文件。为保证文件的安全和独立,网站内容信息提供装置应将针对不同网站信息请求设备的网站内容资源视图文件可以存放在不同的路径下,并通过不同的访问用户名和权限进行控制。上述网站内容信息提供装置各模块之间的交互流程如图5所示,具体包括如下步骤:步骤S21:搜索模块向搜索策略管理模块请求搜索策略。网站内容信息提供装置中的搜索模块向搜索策略管理模块请求爬虫的搜索策略。步骤S22:搜索策略管理模块将配置的搜索策略返回给搜索模块。例如:搜索策略管理模块向搜索模块返回爬虫搜索策略。步骤S23:搜索模块向本域控制模块请求本域控制策略。步骤S24:本域控制模块将配置的本域控制策略返回给搜索模块。如上面方法部分所述根据本域控制策略可以确定搜索模块爬行搜索的范围。步骤S25:搜索模块按照配置的搜索策略和本域控制策略进行爬行搜索。搜索模块爬虫按照配置的搜索策略在本域控制策略指定的范围内获取指定网站的链接信息和对应的链接对象以及链接对象的属性信息。具体实现过程参加步骤S11。步骤S26:搜索模块向索引模块发送搜索到的各链接信息的链接对象及其属性信息等数据。步骤S27:索引模块对搜索模块搜索到的数据进行处理并生成获取的链接信息对应的链接对象索引。具体实现过程参见步骤S12。步骤S28:索引模块向资源视图生成模块发送生成的链接对象索引等索引信息。步骤S29:资源视图生成模块处理索引数据生成网站资源视图。具体实现过程参见步骤S13。上述描述了网站内容信息提供装置中各模块交互实现网站资源视图生成的过程。上述网站内容信息提供装置用于IDC引入的网站内容的提供主要支持两类数据传送方式:一是提供文件传输协议(File Transfer Protocol, FTP)服务功能,网站信息请求设备先发起针对于特定引入网站的网站资源视图的获取请求,网站内容信息提供装置解析内容后生成对应范围的资源视图信息,供业务平台下载。二是支持与网站信息请求设备之间通过超文本传输协议(HyperText Transfer Protocol,HTTP) +网页服务(WebService)方式的交互,由网站信息请求设备发起针对特定引入网站的网站资源视图的查询请求,网站内容信息提供装置向网站信息请求设备返回对应的资源视图信息。下面通过具体的实施例说明上述两种不同数据传送方式的网站内容信息提供方法的实现过程:实施例一
本发明实施例一提供的网站内容信息提供方法,基于文件接口实现网站资源视图的提供网站资源视图的下载,其流程如图6所示,包括如下步骤:步骤SlOl:网站信息请求设备向网站内容信息提供装置传送网站的初始链接信
肩、O例如:操作人员通过IDC业务平台或Portal界面向网站内容信息提供装置传送IDC网站的原始信息,包括域名、初始爬行链接等。步骤S102:网站内容信息提供装置通过IDC业务平台接口在IDC网站服务器上爬行搜索。步骤S103:从IDC网站服务器获取初始链接信息对应的各链接信息,以及各链接信息对应的链接对象和链接对象的属性信息。步骤S104:网站内容信息提供装置基于爬行获得的各链接信息对应的链接对象和链接对象的属性信息,建立链接对象索引。网站内容信息提供装置通过数据处理操作建立引入网站包括的各链接信息的链接对象索引。步骤S105:网站内容信息提供装置生成标准IDC网站资源视图。步骤S106:网站信息请求设备发送视图资源获取请求给网站内容信息提供装置。网站信息请求设备通过与网站内容信息提供装置的接口上传视图资源的配置要求及下载网站资源视图。如图6所示,网站信息请求设备可以是IDC业务平台或CDN资源总线。步骤S107:网站内容信息提供装置根据视图资源获取请求中的配置要求对建立的网站资源视图进行配置调整。该步骤为可选步骤,当视图资源获取请求中不携带配置要求时,不执行该步骤。当视图资源获取请求中携带配置要求时,网站内容信息提供装置按照网站信息请求设备的配置要求,输出符合配置要求的IDC网站资源视图文件并存储于对应的路径下,供网站信息请求设备下载。步骤S108:网站信息请求设备从网站内容信息提供装置下载请求获取的网站资源视图。网站信息请求设备根据自身需求与网站内容信息提供装置建立连接,从网站内容信息提供装置下载网站资源视图文件。实施例二本发明实施例二提供的网站内容信息提供方法,基于实时查询接口实现网站资源视图的提供网站资源视图查询,其流程如图7所示,包括如下步骤:步骤S201:网站信息请求设备向网站内容信息提供装置传送网站的初始链接信
肩、O网站内容信息提供装置对外提供WebService或者其它的实时消息接口。操作人员通过IDC业务平台或Portal界面向网站内容信息提供装置传送IDC网站的原始信息,包括域名、初始爬行链接等。步骤S202:网站内容信息提供装置通过IDC业务平台接口在IDC网站服务器上爬行搜索。
步骤S203:从IDC网站服务器获取初始链接信息对应的各链接信息,以及各链接信息对应的链接对象和链接对象的属性信息。步骤S204:网站内容信息提供装置基于爬行获得的各链接信息对应的链接对象和链接对象的属性信息,建立链接对象索引。网站内容信息提供装置通过数据处理操作建立引入网站包括的各链接信息的链接对象索引。步骤S205:网站内容信息提供装置生成标准IDC网站资源视图。步骤S206:网站信息请求设备请求登陆网站内容信息提供装置。网站信息请求设备需要获取网站资源视图时,向网站内容信息提供装置发出登陆请求。步骤S207:网站内容信息提供装置响应网站信息请求设备的登陆请求。可选的,网站内容信息提供装置可以在对网站信息请求设备进行鉴权后再允许业务平台登陆。步骤S208:网站信息请求设备发送的视图资源查询请求给网站内容信息提供装置。网站信息请求设备通过与网站内容信息提供装置的接口上传视图资源的配置要求及查询网站资源视图。如图7所示,网站信息请求设备可以是IDC业务平台或⑶N资源总线。步骤S209:网站内容信息提供装置根据视图资源查询请求中的配置要求对建立的网站资源视图进行配置调整。该步骤为可选步骤,当视图资源查询请求中不携带配置要求时,不执行该步骤。当视图资源查询请求中携带配置要求时,网站内容信息提供装置按照网站信息请求设备的配置要求,输出符合配置要求的IDC网站资源视图并存储于对应的路径下,供网站信息请求设备查询。步骤S210:网站内容信息提供装置响应网站信息请求设备的视图资源查询请求。网站信息请求设备根据自身需求与网站内容信息提供装置建立连接,从网站内容信息提供装置查询网站资源视图。步骤S211:网站信息请求设备网站向内容信息提供装置发出登出请求。网站信息请求设备不需要再获取网站资源视图时,向网站内容信息提供装置发出登出请求。步骤S212:网站内容信息提供装置响应网站信息请求设备的登出请求。网站内容信息提供装置注销网站信息请求设备的登陆信息。本发明实施例提供的网站内容信息提供方法和装置,能够从IDC网站服务器中以HTTP方式自动访问、采集、获取网站内容信息,控制爬虫获取URL的范围,只获取已引入特定IDC域内的网站资源信息;对于获取的URL信息,支持进行URL关联、去重等处理,生成直至链接对象级别的链接对象索引信息;并根据不同网站信息请求设备的需求,支持灵活生成不同的网站资源视图信息,以提供给网站信息请求设备;既可以支持通过文件方式,根据需求生成网站资源视图文件,提供给网站信息请求设备;也可以通过支持基于消息的实时查询方式,网站信息请求设备可通过接口与网站内容信息提供装置交互,主动发起IDC网站资源视图查询请求,网站内容信息提供装置向网站信息请求设备返回所查询的网站资源视图。上述方法有效解决现阶段通过人工手工方式配置或采集IDC网站信息所引发的信息同步效率低下、准确性差、速度慢,同步不及时的缺陷,具有自动收集整合处理、效率高、实时性强的优点,可进一步优化IDC网站信息提供的及时性和准确率,以加强CDN网络对网站资源智能调度的能力。上述方法将IDC网站资源信息的处理集中在新增的网站内容信息提供装置中实现,避免了所有网站信息请求设备均进行IDC网站信息整合处理的操作,有效降低了对于实现IDC网站内容管理的复杂度和功能要求,降低了业务侧设备的建设和投资成本,为网站信息请求设备快速、高效的获取IDC网站资源信息提供良好的解决方案。上述说明示出并描述了本发明的优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权力要求的保护范围内。
权利要求
1.一种网站内容信息提供方法,其特征在于,包括: 根据获得的引入网站的初始链接信息进行爬行搜索,获取到所述引入网站包括的链接信息,并获取所述链接信息的链接对象及其属性信息; 根据获取的所述链接信息的链接对象及其属性信息,建立所述链接信息对应的链接对象索引; 根据各所述链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图;所述网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索弓I ; 根据建立的网站资源视图向网站信息请求方提供网站内容信息。
2.如权利要求1所述的方法,其特征在于,所述根据获得的引入网站的初始链接信息进行爬行搜索,具体包括: 根据获得的引入网站的初始链接信息和预先配置的搜索策略进行爬行搜索,其中搜索策略包括下列策略之一或组合:深度优先策略、广度优先策略和聚焦搜索策略。
3.如权利要求1所述的方法,其特征在于,所述根据获取的所述链接信息的链接对象及其属性信息,建立所述链接信息对应的链接对象索引,具体包括: 根据获取的所述链接信息对应的链接对象及其属性信息构建各链接对象的内容索引,以及根据所述链接信息的路径信息确定所述链接信息之间的关联关系;建立起包括各链接信息关联关系以及各链接信息对应的链接对象的内容索引的链接对象索引。
4.如权利要求1所述的方法,其特征在于,所述根据建立的网站资源视图向网站信息请求方提供网站内容信息,具体包括: 根据网站信息请求设备发送的视图资源获取请求,将建立的网站资源视图提供给网站信息请求设备或根据视图资源获取请求中的配置要求对建立的网站资源视图进行配置调整后提供给网站信息请求设备,由网站信息请求设备根据提供的网站资源视图向网站信息请求方提供所请求的网站内容信息;或 根据网站信息请求设备发送的视图资源查询请求,向网站信息请求设备开放查询接口,通过查询接口向网站信息请求设备提供建立的网站资源视图或提供根据视图资源查询请求中的配置要求对建立的网站资源视图进行配置调整后的网站资源视图;由网站信息请求设备根据查询到的网站资源视图向网站信息请求方提供所请求的网站内容信息站点管理服务。
5.一种网站内容信息提供装置,其特征在于,包括: 搜索模块,用于根据获得的引入网站的初始链接信息进行爬行搜索,获取到所述引入网站包括的链接信息,并获取所述链接信息的链接对象及其属性信息; 索引模块,用于根据获取的链接对象及其属性信息,建立所述链接信息对应的链接对象索引; 视图资源生成模块,用于根据各所述链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图;所述网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索引; 接入检索模块,用于根据建立的网站资源视图向网站信息请求方提供网站内容信息。
6.如权利要求5所述的装置,其特征在于,还包括:搜索策略管理模块;所述搜索策略管理模块,用于配置搜索策略,所述搜索策略包括但不限于下列策略之一或组合:深度优先策略、广度优先策略和聚焦搜索策略 所述搜索模块,具体用于根据获得的引入网站的初始链接信息和预先配置的搜索策略进行爬行搜索。
7.如权利要求5所述的装置,其特征在于,所述索引模块,具体用于: 根据获取的所述链接信息包括的链接对象及其属性信息构建各链接对象的内容索引,以及根据所述链接信息的路径信息确定所述链接信息之间的关联关系;建立起包括各链接信息关联关系以及各链接信息对应的链接对象的内容索引的链接对象索引。
8.如权利要求5所述的装置,其特征在于,所述接入检索模块,具体用于: 根据网站信息请求设备发送的视图资源获取请求,将建立的网站资源视图提供给网站信息请求设备或根据视图资源获取请求中的配置要求对建立的网站资源视图进行配置调整后提供给网站信息请求设备,由网站信息请求设备根据提供的网站资源视图向网站信息请求方提供所请求的网站内容信息;或 根据网站信息请求设备发送的视图资源查询请求,向网站信息请求设备开放查询接口,通过查询接口向网站信息请求设备提供建立的网站资源视图或提供根据视图资源查询请求中的配置要求对建立的网站资源视图进行配置调整后的网站资源视图;由网站信息请求设备根据查询到的网站资源视图向网站信息请求方提供所请求的网站内容信息。
9.如权利要求5-8任一所述的装置,其特征在于,所述索引模块还用于: 在建立爬行搜索到的所述链接信息对应的链接对象索引之前,对爬行搜索到的链接信息,以及链接信息的链接对象及其属性信息进行数据去重处理。
10.如权利要求5-8任一`所述的装置,其特征在于,还包括: 本域控制模块,用于控制搜索模块爬行搜索的搜索范围。
11.一种网站内容信息提供系统,其特征在于,包括如权利要求5-10任一所述的网站内容信息提供装置和至少一个网站信息请求设备。
全文摘要
本发明公开了一种网站内容信息提供方法、系统及装置,该方法包括根据获得的引入网站的初始链接信息进行爬行搜索,获取到所述引入网站包括的链接信息,并获取所述链接信息的链接对象及其属性信息;根据获取的所述链接信息的链接对象及其属性信息,建立所述链接信息对应的链接对象索引;根据各所述链接信息的链接对象索引之间的关联关系,建立各引入网站的网站资源视图;所述网站资源视图中包括按设定规则排列的各引入网站的链接信息对应的链接对象索引;根据建立的网站资源视图向网站信息请求方提供网站内容信息。可以准确及时的获取引入网站的内容信息,支持信息请求方对内容的准确调度。
文档编号G06F17/30GK103116580SQ20111036264
公开日2013年5月22日 申请日期2011年11月16日 优先权日2011年11月16日
发明者王寓辰, 倪伟, 毕娅娜 申请人:中国移动通信集团公司