存储网页文件的方法及装置的制造方法

文档序号:9235492阅读:303来源:国知局
存储网页文件的方法及装置的制造方法
【技术领域】
[0001]本公开涉及计算机技术领域,特别涉及一种存储网页文件的方法及装置。
【背景技术】
[0002]网络爬虫是搜索引擎系统的重要组成部分,网络爬虫的作用是从互联网上抓取网页文件,并将抓取到的网页文件存储至本地。
[0003]在相关技术中,采用数据库存储网络爬虫抓取到的网页文件。例如,采用诸如MySQL或者Oracle之类的关系型数据库来存储网络爬虫抓取到的网页文件。
[0004]然而,由于对数据库进行数据读写操作会消耗较多的系统处理资源,网络爬虫进行高效地网页抓取会导致在短时间内对数据库产生大量的数据读写操作,进而导致系统的处理开销过大。

【发明内容】

[0005]本公开实施例提供了一种存储网页文件的方法及装置。所述技术方案如下:
[0006]根据本公开实施例的第一方面,提供了一种存储网页文件的方法,所述方法包括:
[0007]获取待存储的网页文件的网页源代码;
[0008]将所述网页源代码写入文本文件。
[0009]可选地,所述待存储的网页文件包括一个网页文件;
[0010]或者,所述待存储的网页文件包括两个或两个以上网页文件。
[0011]可选地,所述将所述网页源代码写入文本文件,包括:
[0012]检测所述文本文件的已写入文件数与待写入文件数之和是否大于预设门限值;其中,所述已写入文件数是指所述文本文件中已写入的网页源代码对应的网页文件的数量,所述待写入文件数是指所述待存储的网页文件的数量;
[0013]若所述已写入文件数与待写入文件数之和小于或等于所述预设门限值,则将所述网页源代码写入所述文本文件。
[0014]可选地,所述方法还包括:
[0015]若所述已写入文件数与待写入文件数之和大于所述预设门限值,则计算所述预设门限值与所述已写入文件数的差值d,d彡O且d为整数;
[0016]当d = O时,将所述网页源代码写入至少一个新创建的空文本文件;
[0017]当d # O时,从所述待存储的网页文件中选取d个网页文件,并将被选取的所述d个网页文件的网页源代码写入所述文本文件;将剩余的所述待存储的网页文件的网页源代码写入至少一个新创建的空文本文件。
[0018]可选地,所述方法还包括:
[0019]分别为每一个所述网页文件创建对应的索引项,所述索引项用于指示所述网页文件的网页源代码在所述文本文件中的位置;
[0020]将所述索引项存储至索引目录中。
[0021 ] 可选地,所述方法还包括:
[0022]从所述索引目录中获取目标网页文件对应的索引项;
[0023]根据所述目标网页文件对应的索引项,确定所述目标网页文件的网页源代码在所述文本文件中的位置;
[0024]根据确定的所述位置,从所述文本文件中读取所述目标网页文件的网页源代码。
[0025]根据本公开实施例的第二方面,提供了一种存储网页文件的装置,所述装置包括:
[0026]代码获取模块,被配置为获取待存储的网页文件的网页源代码;
[0027]代码写入模块,被配置为将所述网页源代码写入文本文件。
[0028]可选地,所述待存储的网页文件包括一个网页文件;
[0029]或者,所述待存储的网页文件包括两个或两个以上网页文件。
[0030]可选地,所述代码写入模块,包括:
[0031]数量检测子模块,被配置为检测所述文本文件的已写入文件数与待写入文件数之和是否大于预设门限值;其中,所述已写入文件数是指所述文本文件中已写入的网页源代码对应的网页文件的数量,所述待写入文件数是指所述待存储的网页文件的数量;
[0032]第一写入子模块,被配置为当所述已写入文件数与待写入文件数之和小于或等于所述预设门限值时,将所述网页源代码写入所述文本文件。
[0033]可选地,所述代码写入模块,还包括:
[0034]差值计算子模块,被配置为当所述已写入文件数与待写入文件数之和大于所述预设门限值时,计算所述预设门限值与所述已写入文件数的差值d,d多O且d为整数;
[0035]第二写入子模块,被配置为当d = O时,将所述网页源代码写入至少一个新创建的空文本文件;
[0036]第三写入子模块,被配置为当d ^ O时,从所述待存储的网页文件中选取d个网页文件,并将被选取的所述d个网页文件的网页源代码写入所述文本文件;将剩余的所述待存储的网页文件的网页源代码写入至少一个新创建的空文本文件。
[0037]可选地,所述装置还包括:
[0038]索引创建模块,被配置为分别为每一个所述网页文件创建对应的索引项,所述索引项用于指示所述网页文件的网页源代码在所述文本文件中的位置;
[0039]索引存储模块,被配置为将所述索引项存储至索引目录中。
[0040]可选地,所述装置还包括:
[0041]索引获取模块,被配置为从所述索引目录中获取目标网页文件对应的索引项;
[0042]位置确定模块,被配置为根据所述目标网页文件对应的索引项,确定所述目标网页文件的网页源代码在所述文本文件中的位置;
[0043]代码读取模块,被配置为根据确定的所述位置,从所述文本文件中读取所述目标网页文件的网页源代码。
[0044]根据本公开实施例的第三方面,提供了一种存储网页文件的装置,所述装置包括:
[0045]处理器;
[0046]用于存储所述处理器的可执行指令的存储器;
[0047]其中,所述处理器被配置为:
[0048]获取待存储的网页文件的网页源代码;
[0049]将所述网页源代码写入文本文件。
[0050]本公开实施例提供的技术方案可以包括以下有益效果:
[0051]通过获取待存储的网页文件的网页源代码,并将网页源代码写入文本文件中进行存储;解决了相关技术采用数据库存储网络爬虫抓取到的网页文件,导致系统的处理开销过大的问题;相比于对数据库进行数据读写操作,对文本文件进行数据读写操作所消耗的系统处理资源会小很多,实现了更为合理地存储网页文件,达到了减小系统的处理开销的技术效果。
[0052]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0053]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0054]图1是根据一示例性实施例示出的一种存储网页文件的方法的流程图;
[0055]图2A是根据另一示例性实施例示出的一种存储网页文件的方法的流程图;
[0056]图2B是根据另一示例性实施例示出的步骤202的流程图;
[0057]图2C是根据另一示例性实施例示出的步骤204至步骤208的流程图;
[0058]图2D是根据另一示例性实施例示出的一种索引目录、文本文件以及网页文件之间的对应关系的不意图;
[0059]图2E是根据另一不例性实施例不出的一种应用场景的不意图;
[0060]图3是根据一示例性实施例示出的一种存储网页文件的装置的框图;
[0061]图4A是根据另一示例性实施例示出的一种存储网页文件的装置的框图;
[0062]图4B是根据另一示例性实施例示出的代码写入模块320的框图;
[0063]图5是根据一示例性实施例示出的一种装置的框图。
[0064]通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
【具体实施方式】
[0065]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0066]本公开实施例提供的存储网页文件的方法可应用于搜索引擎系统中的一台或多台设备中,该设备通常为服务器。为了简化描述,在下列各个方法实施例中,仅以各步骤的执行主体为服务器进行举例说明,但对此不构成限定。
[0067]图1是根据一示例性实施例示出的一种存储网页文件的方法的流程图,该方法可以包括如下几个步骤:
[0068]在步骤101中,获取待存储的网页文件的网页源代码。
[0069]网页源代码是指用于组织排版网页上的文字、图片、音乐、视频、链接等元素的标准语言代码。该标准语言代码通常为HTML (HyperText Markup Language,超文本标记语言)代码,有时也可混合CSS(Cascading Style Sheets,层叠样式表)代码或者JS (JavaScript,一种脚本语言)代码等。
[0070]在步骤102中,将网页源代码写入文本文件。
[0071]综上所述,本实施例提供的方法,通过获取待存储的网页文件的网页源代码,并将网页源代码写入文本文件中进行存储;解决了相关技术采用数据库存储网络爬虫抓取到的网页文件,导致系统的处理开销过大的问题;相比于对数据库进行数据读写操作,对文本文件进行数据读写操作所消耗的系统处理资源会小很多,实现了更为合理地存储网页文件,达到了减小系统的处理开销的技术效果。
[0072]图2A是根据另一示例性实施例示出的一种存储网页文件的方法的流程图。该方法可以应用于搜索引擎系统中的一台或多台设备
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1