一种资源缓存方法及装置的制造方法

文档序号:9547183阅读:224来源:国知局
一种资源缓存方法及装置的制造方法
【技术领域】
[0001] 本发明属于通信领域,尤其涉及一种资源缓存方法及装置。
【背景技术】
[0002] 缓存,是指将常用的数据预先从原始存储地提取出来,并将提取的数据存放在一 个缓冲区中,在用户需要提取该数据时可以直接从缓冲区提取,不会受到该数据原始存储 地所在的网络、部署等因素的影响,以此来提高数据提取速度。
[0003] 现有的资源缓存方法中,通常是根据用户的访问次数统计出用户常用的资源,并 缓存该常用的资源。但由于访问次数少的资源,其可能处于访问性能差的网站,若不预先缓 存这些资源,则在用户提取这些资源时,将耗费过多的时间,因此采用现有的方法容易出现 错存、漏存的情况。

【发明内容】

[0004] 本发明实施例提供了一种资源缓存方法,旨在解决现有方法在缓存资源时出现的 错存、漏存的问题。
[0005] 本发明实施例是这样实现的,一种资源缓存方法,所述方法包括下述步骤:
[0006] 接收统一资源定位符URL地址的访问请求;
[0007] 根据所述URL地址的访问请求,判断所述URL地址指向的页面内容是否可以缓 存;
[0008] 当所述URL地址指向的页面内容可以缓存时,判断所述URL地址指向的页面内容 是否已缓存;
[0009] 当所述URL地址指向的页面内容没有缓存在本地时,缓存所述URL地址指向的页 面内容。
[0010] 本发明实施例的另一目的在于提供一种资源缓存装置,所述装置包括:
[0011] 访问请求接收单元,用于接收统一资源定位符URL地址的访问请求;
[0012] 缓存标识判断单元,用于根据所述URL地址的访问请求,判断所述URL地址指向的 页面内容是否可以缓存;
[0013] 缓存内容判断单元,用于当所述URL地址指向的页面内容可以缓存时,判断所述 URL地址指向的页面内容是否已缓存;
[0014] 页面内容缓存单元,用于当所述URL地址指向的页面内容没有缓存在本地时,缓 存所述URL地址指向的页面内容。
[0015] 在本发明实施例中,在接收到URL地址的访问请求后,判断该URL地址指向的页面 内容是否可以缓存,并在页面内容可以缓存时,判断该页面内容是否已缓存,若没有缓存, 则从云端或第三方网站抓取页面内容,并通过判断页面内容是否需要缓存来选择是否缓存 抓取的页面内容。由于在缓存页面内容之前经过多层判断,因此缓存的页面内容更全面、更 准确。
【附图说明】
[0016] 图1是本发明第一实施例提供的一种资源缓存方法的流程图;
[0017] 图2是本发明第一实施例提供的一种异步查找页面内容的示意图;
[0018] 图3是本发明第二实施例提供的一种资源缓存装置的结构图。
【具体实施方式】
[0019] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0020] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0021] 实施例一:
[0022] 图1示出了本发明第一实施例提供的一种资源缓存方法的流程图,采用本实施例 的资源缓存方法,能够减少海量用户、海量页面请求对第三方网站的负载,详述如下:
[0023] 步骤SI 1,接收统一资源定位符URL地址的访问请求。
[0024] 该步骤中,统一资源定位符(UniformResourceLocator,URL)定位网页、多媒体文 件等,URL中的服务器地址(网络之间互连的协议(Internet Protocol, IP)地址)一般会 用域名代替,因为IP地址不便于记忆。例如,假设一个URL地址为http://emuch. net/bbs/ viewthread. php ? tid = 6017207,则该 URL 地址的域名为 "emuch. net"。
[0025] 步骤S12,根据所述URL地址的访问请求,判断所述URL地址指向的页面内容是否 可以缓存。
[0026] 在根据所述URL地址的访问请求,判断所述URL地址指向的页面内容是否可以缓 存的步骤之前,包括下述步骤:
[0027] 通过白名单判断URL地址指向的页面内容是否可以缓存,以提高判断速度,具体 如下:
[0028] Al、解析所述URL地址的域名;
[0029] A2、将解析得到的域名与预先存储在白名单中的域名进行比较,当所述白名单中 存在与所述解析得到的域名相同的域名时,判断所述URL地址指向的页面内容可以缓存, 所述白名单中存储有页面内容可以缓存的域名。
[0030] 其中,白名单存储有可以缓存的域名,包括预先获知的安全的网站的域名,也包括 网站性能差的第三方网站的域名,比如网站本身资源,如图片过多,导致读取图片过慢,网 站性能变差,又比如网站本身资源不多,但是访问量过多导致网站性能变差。在白名单中添 加网站性能差的第三方网站的域名是为了提高用户从该第三方网站拉取页面内容的速度, 也提高用户从该第三方网站拉取到页面内容的概率。其中,网站性能差的第三方网站可通 过判断网页的响应速度是否达到要求等进行判定。通过增加白名单,能够有效提高识别安 全网站的准确度,降低缓存到不安全页面内容的风险。
[0031] 在根据所述URL地址的访问请求,判断所述URL地址指向的页面内容是否可以缓 存的步骤之前,包括下述步骤:
[0032] 通过黑名单判断URL地址指向的页面内容是否可以缓存,以提高判断速度,具体 如下:
[0033] ΑΓ、解析所述URL地址的域名;
[0034] A2'、将解析得到的域名与预先存储在黑名单中的域名进行比较,当所述黑名单中 存在与所述解析得到的域名相同的域名时,判断所述URL地址指向的页面内容不可以缓 存,所述黑名单存储有页面内容不可以缓存的域名。
[0035] 黑名单中预先存储有预先获知的不安全的网站的域名,该黑名单中存储的网站的 域名有可能是表示页面内容可以缓存,但结合历史记录,判定为具有风险的网站。通过设置 黑名单,可降低缓存具有风险的网页内容的概率。在实际操作中,可随时更新白名单和黑名 单存储的域名,例如,若判断出黑名单中某个网站不再存在风险时,可删除黑名单中该网站 的域名信息,也可在白名单中增加该网站的域名信息。
[0036] 上述仅列出了单独将URL地址的域名与白名单和黑名单存储的域名进行比较的 一种实现方式,在实际情况中,也可以先将解析得到的域名与白名单存储的域名比较,若白 名单没有存在该域名,则将该域名与黑名单存储的域名进行比较,以判断该域名对应的页 面内容是否可以缓存。当然,也可以先将解析得到的域名与黑名单存储的域名比较,若黑名 单没有存在该域名,则将该域名与白名单存储的域名进行比较,以判断该域名对应的页面 内容是否可以缓存。此处不作限定。
[0037] 除了通过白名单和黑名单判断一个URL地址指向的页面内容是否可以缓存,也可 以通过匹配该URL地址的正则表达式进行判断。
[0038] 即,在所述根据所述URL地址的访问请求,判断所述URL地址指向的页面内容是否 可以缓存的步骤之前,包括下述步骤:
[0039] 将URL地址的正则表达式与预先确定的标准的正则表达式匹配,当URL地址的正 则表达式与标准的正则表达式匹配成功时,判定所述URL地址指向的页面内容可以缓存; 当URL地址的正则表达式与标准的正则表达式匹配失败时,判定所述URL地址指向的页面 内容不可以缓存。
[0040] 通过对该URL地址的正则表达式进行匹配,以识别该URL地址的类型,提高页面缓 存的安全性。其中,对URL地址的正则表达式进行匹配主要是判断URL地址的正则表达式 的句法规则与预先确定的标准的正则表达式的句法规则是否相同,若是,判定URL地址的 正则表达式与标准的正则表达式匹配,否则,判定URL地址的正则表达式与标准的正则表 达式不匹配。URL地址的正则表达式与标准的正在表达式匹配时,表明该URL地址的页面 内容安全性较高。为了提高URL地址的类型的识别速度,可预先对用于匹配的标准的正则 表达式进行处理,处理过程如下:(1)获取用于与页面内容所在的URL地址匹配的正则表达 式:离线系统确定页面的共同特征,根据确定的页面的共同特征搜集页面样本,训练搜集的 页面样本以得到模型,再聚合得到的模型,输出模型对应的正则表达式。(2)优化获取的正 则表达式,得到标准的正则表达式:减少正则表达式的个数,以及缩短正则表达式的长度。 (3)将优化后的正则表达式预先封装成Iib库,并集成在服务器内,其中,Iib库是一种静态 库,将封装成Iib库的正则表达式集成在服务器内,有利于提高正则表达式的调用速度。
[0041] 当然,由于匹配URL地址的正则表达式耗费的时间通常大于判断URL地址的域名 是否存在白名单、黑名单的时间,因此,可在判断出URL地址的域名既不在白名单,也不在 黑名单时,选用匹配URL地址的正则表达式的方法判定URL地址指向的页面内容是否可以 缓存。
[0042] 作为本发明另一实施
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1