一种网页处理方法、装置及用户终端的制作方法

文档序号:9261359阅读:350来源:国知局
一种网页处理方法、装置及用户终端的制作方法
【技术领域】
[0001]本发明涉及计算机网页应用技术领域,尤其涉及一种网页处理方法、装置及用户终端。
【背景技术】
[0002]MHT文件又称为聚合网页HTML文档,或单一文件网页,可以将包括一个或者多个元素的网页(如包含图片、Flash动画、小视频等元素的网页)存储为单一文件,其扩展名为.mht,这种格式的文件被简称为MHT文件。这使得用户对于网页内容的保存、管理会比较方便。
[0003]现有的MHT文件的实现一般仅针对当前网页的页面原始数据,若当前网页还包括其他一些链接网页,例如某些网页附属的图片、动画等元素的链接页面,则会归档出错或者在MHT文件被打开后存在乱码的情况。

【发明内容】

[0004]本发明实施例所要解决的技术问题在于,提供一种网页处理方法、装置及用户终端,可较为有效、完整地得到各类网页的聚合网页文档。
[0005]为了解决上述技术问题,本发明实施例提供了一种网页处理方法,包括:
[0006]获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;
[0007]解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;
[0008]对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;
[0009]将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。
[0010]本发明实施例还提供了另一种网页处理方法,包括:
[0011]根据读取的聚合网页文档头部信息中的边界标记,从所述聚合网页文档中分割得到主资源文件和各个子资源文件;
[0012]对所述主资源文件进行解码得到待归档网页的页面原始数据,并依次对各个子资源文件进行解码,得到各个链接页面的页面原始数据;
[0013]对解码后的各个子资源文件对应的页面原始数据按照预设的本地文件命名规则进行命名并存储;
[0014]依次根据各个子资源文件对应的页面原始数据的存储地址,对应将解码得到的所述待归档网页的页面原始数据中的链接网址修改为本地链接地址,并将链接网址已修改的所述待归档网页的页面原始数据存储为网页文件。
[0015]相应地,本发明实施例还提供了一种网页处理装置,包括:
[0016]获取模块,用于获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;
[0017]解析模块,用于解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;
[0018]编码模块,用于对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;
[0019]归档模块,用于将得到的所述主资源文件和各个子资源文件封装为聚合网页文档。
[0020]本发明实施例还提供了另一种网页处理装置,包括:
[0021]分割模块,用于根据读取的聚合网页文档头部信息中的边界标记,从所述聚合网页文档中分割得到主资源文件和各个子资源文件;
[0022]解码模块,用于对所述主资源文件进行解码得到待归档网页的页面原始数据,并依次对各个子资源文件进行解码,得到各个链接页面的页面原始数据;
[0023]子资源处理模块,用于对解码后的各个子资源文件对应的页面原始数据按照预设的本地文件命名规则进行命名并存储;
[0024]存储模块,用于依次根据各个子资源文件对应的页面原始数据的存储地址,对应将解码得到的所述待归档网页的页面原始数据中的链接网址修改为本地链接地址,并将链接网址已修改的所述待归档网页的页面原始数据存储为网页文件。
[0025]相应地,本发明实施例提供了一种用户终端,包括:处理器和存储器;
[0026]所述处理器,用于获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识;对所述待归档网页的页面原始数据及编码标识进行编码得到主资源文件,分别对每一个链接页面的页面原始数据及编码标识进行编码得到子资源文件;将得到的所述主资源文件和各个子资源文件封装为聚合网页文档;
[0027]所述存储器,用于存储封装得到的聚合网页文档。
[0028]本发明实施例提供了另一种用户终端,包括:处理器、存储器以及显示器;
[0029]所述存储器,用于存储封装得到的聚合网页文档;
[0030]所述处理器,用于根据读取的聚合网页文档头部信息中的边界标记,从所述聚合网页文档中分割得到主资源文件和各个子资源文件;对所述主资源文件进行解码得到待归档网页的页面原始数据,并依次对各个子资源文件进行解码,得到各个链接页面的页面原始数据;对解码后的各个子资源文件对应的页面原始数据按照预设的本地文件命名规则进行命名并存储;依次根据各个子资源文件对应的页面原始数据的存储地址,对应将解码得到的所述待归档网页的页面原始数据中的链接网址修改为本地链接地址,并将链接网址已修改的所述待归档网页的页面原始数据存储为网页文件;
[0031]所述显示器,用于显示由所述处理器解析打开后的包括所述页面原始数据和解码子资源文件后得到的页面原始数据的页面。
[0032]本发明实施例通过对待归档网页的页面原始数据进行处理得到聚合网页文档的主资源文件,并基于页面原始数据得到该待归档网页的各个链接页面的页面原始数据,并对得到链接页面的页面原始数据进行处理得到聚合网页文档的各子资源文件,最终归档得到聚合网页文档,本发明实施例可以较为全面准确地归档得到待归档网页的各个数据,从而较为有效、完整地得到各类网页的聚合网页文档,使得在进行相关的解码时,能够完整的解码得到待归档网页的所有数据,避免归档出错以及打开聚合网页文档时存在乱码等问题,满足用户对聚合网页文档处理的自动化、智能化需求。
【附图说明】
[0033]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是本发明实施例的一种网页处理方法的流程示意图;
[0035]图2是本发明实施例的另一种网页处理方法的流程示意图;
[0036]图3是本发明实施例的又一种网页处理方法的流程示意图;
[0037]图4是本发明实施例的主资源文件和子资源文件对应解码后的文件存储方式的示意图;
[0038]图5是本发明实施例的再一种网页处理方法的流程示意图;
[0039]图6是本发明实施例的一种网页处理装置的结构示意图;
[0040]图7是图6中的解析模块的其中一种结构示意图;
[0041]图8是图6中的编码模块的其中一种结构示意图;
[0042]图9是图6中的归档模块的其中一种结构示意图;
[0043]图10是本发明实施例的一种用户终端的结构示意图;
[0044]图11是本发明实施例的另一种网页处理装置的结构示意图;
[0045]图12是图11中的分割模块的其中一种结构示意图;
[0046]图13是本发明实施例的另一种用户终端的结构示意图。
【具体实施方式】
[0047]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048]本发明实施例可以得到待归档网页的页面原始数据,并从待归档网页的页面原始数据中得到其所涉及的所有链接页面,并进一步地确定得到所有链接页面的页面原始数据,再对得到页面原始数据进行处理,最终归档得到聚合网页文档,可较为有效地对所有类型的网页以聚合网页文档的形式保存,也方便后续在打开该聚合网页文档时,能够正确、完整地暂时对应的页面内容。
[0049]请参见图1,是本发明实施例的一种网页处理方法的流程示意图,本发明实施例的所述方法可应用在手机、平板电脑、个人电脑、智能可穿戴设备等待网络浏览功能的用户终端中,具体的,本发明实施例的所述方法包括:
[0050]S101:获取待归档网页的页面原始数据,并获取该页面原始数据的编码标识;
[0051]本发明实施例中所涉及的待归档网页的页面原始数据主要包括页面的源代码数据。所述待归档网页可以是用户在浏览器中录入网页链接地址URL (Uniform ResoureLocator,统一资源定位器)后,由浏览器打开的主网页,终端可以直接从该打开的主网页中读取包括源代码数据的页面原始数据;也可以是用户在希望对某个网页进行归档时,在网页链接地址录入框中录入的网页链接地址,终端可以自动地根据该网页链接地址到相应服务器中确定对应的网页,并拉取该对应网页的页面原始数据。
[0052]所述的编码标识具体可以从页面原始数据中获取,包括该页面原始数据的编码方式的字符集标识和内容类型,在页面原始数据中通常包括content-type (内容类型)和charset (字符集)内容,基于这两个内容,可以得到页面原始数据的编码标识,例如,在某个页面原始数据中包括:meta http-equiv=〃content_type〃content=〃text/html ;charset=utf_8〃,由此可以确定该页面原始数据的编码标识为“text/html”(文本页面)和“utf-8”,即该页面原始数据的内容类型为“text/html”(文本页面),所采用的字符集为“utf-8”字符集。
[0053]S102:解析所述待归档网页的页面原始数据,分别确定所述待归档网页关联的每一个链接页面,并获取关联的每一个链接页面的页面原始数据及编码标识。
[0054]本发明实施例中所述的链接页面是指构成该待归档网页的各个网页元素,例如该待归档网页所涉及的图片、视频、FLASH动画等,在页面原始数据中记录了
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1